STAR - Sistem de Traducere Automată pentru limba Română

Proiectul are ca obiective principale definirea si validarea unor metode de realizare a unui sistem avansat de traducere automata pentru limba romana, combinand cele mai noi metode statistice ale lingvisticii corpusului si de invatare automata cu metode simbolice destinate tratarii bazate pe cunostinte a unor dificultati greu de rezolvat prin modelare statistica. Proiectul va urmari solutii parametrizabile cu un grad mare de abstractizare, astfel incat modificarea perechilor de limbi intre care se va realiza traducerea automata sa nu necesite interventii majore in arhitectura sistemului.

Demonstratorul acestui proiect va fi construit pentru limbile romana si engleza, obiectivele de calitate fiind la nivelul celor mai avansate sisteme de traducere pentru perechi de limbi indelung studiate. Sistemele bazate pe metodele simbolice ajung la performante acceptabile in timp indelungat presupunand eforturi umane si materiale considerabile. Apreciem ca astfel de sisteme care presupun modelarea exhaustiva a fenomenului limbii, nu pot oferi o solutie completa, desi acest tip de abordare poate avea rezultate excelente atunci cand domeniul este limitat. Spre deosebire de sistemele bazate pe metode simbolice, sistemele construite folosind metode statistice pot ajunge la performante similare sau superioare, fiind insa mult mai rapid de implementat, mai robuste si necesitand resursele financiare si umane mult reduse. Pe de alta parte, este cunoscut faptul ca sistemele bazate pe modele statistice converg rapid spre o performanta acceptabila dupa care imbunatatirile cauzate doar de cresterea volumului datelor de antrenare sunt din ce in ce mai reduse, obtinandu-se o aplatizare a curbei de invatare. Identificarea cat mai exacta a fenomenelor lingvistice a caror rezolvare incorecta sau partiala limiteaza sporirea calitatii traducerii automate va permite implementarea fazelor critice prin prelucrari simbolice.

Obiective

Proiectul are ca obiective principale definirea si validarea unor metode de realizare a unui sistem avansat de traducere automata, precum si constructia unui demonstrator combinand cele mai noi metode statistice ale lingvisticii corpusului si de invatare automata cu metode simbolice destinate tratarii bazate pe cunostinte a unor dificultati greu de rezolvat prin modelare statistica. Proiectul va urmari solutii parametrizabile cu un grad mare de abstractizare, astfel incat modificarea perechilor de limbi intre care se va realiza traducerea automata sa nu necesite interventii majore in arhitectura generala a sistemului, invatarii automate din corpusuri paralele revenindu-i principala responsabilitate in asigurarea competentei si performantei lingvistice a sistemului pentru noile limbi. Demonstratorul acestui proiect va fi construit pentru limbile romana si engleza, obiectivele de calitate, asumate de echipa de realizare, fiind la nivelul celor mai avansate sisteme de traducere pentru perechi de limbi indelung studiate (de ex. engleza-franceza, engleza-spaniola). Sistemele bazate pe metodele simbolice ajung la performante acceptabile in timp indelungat presupunand eforturi umane si materiale considerabile. Apreciem ca astfel de sisteme care implica modelarea exhaustiva a fenomenului limbii, nu pot oferi o solutie completa, desi acest tip de abordare poate avea rezultate excelente atunci cand domeniul este limitat (de ex.: traducerea automata a grupurilor verbale, a entitatilor denumite, generarea formelor flexionare prin transferul atributelor morfo-sintactice ale unitatii lexicale dintr-o limba in alta). Spre deosebire de sistemele bazate pe metode simbolice, sistemele construite folosind metode statistice pot ajunge la performante similare sau superioare, fiind insa mult mai rapid de implementat, mai robuste si necesitand resurse financiare si umane mult reduse. Pe de alta parte, este cunoscut faptul ca sistemele bazate pe modele statistice converg rapid spre o performanta acceptabila, dupa care imbunatatirile cauzate doar de cresterea volumului datelor de antrenare sunt din ce in ce mai reduse, obtinandu-se o aplatizare a curbei de invatare. Identificarea cat mai exacta a fenomenelor lingvistice a caror rezolvare incorecta sau partiala limiteaza sporirea calitatii traducerii automate permite va permite implementarea fazelor critice prin prelucrari simbolice, bazate pe introspectie lingvistica si cunostinte asupra universului de discurs.

Arhitectura sistemului de traducere pe care il propunem va adopta metafora shannoniana a „canalului cu zgomot”dar solutiile avute in vedere pentru realizarea modelului de traducere (MT), a decodorului (D) si a modelului limbii tinta (MLT) nu vor fi exclusiv statistice si vor incorpora si componente simbolice (reguli lingvistice, ontologii lexicale si de domeniu, baze de date de pattern-uri bilingve generalizate etc). Avem in vedere utilizarea tehnicilor proprii de prelucrare multi-nivel in fiecare compartiment al arhitecturii sistemului de traducere (reificarea echivalentelor de traducere pentru MT, decodare factorizata pentru D, tiered-tagging pentru MLT). Modelele statistice de baza (cel bilingv de traducere si cel monolingv pentru limba tinta) sunt achizitionate automat folosind corpusuri monolinguale (pentru MLT) si paralele (pentru MT). Prin folosirea resurselor lingvistice dezvoltate la ICIA (dictionare semantice monolingve si bilingve, reguli sintactice, restrictii lexico-semantice de instantiere ale unor structuri frazale parametrizate, etc) modelele statistice vor putea fi combinate cu cunostinte deterministe evitandu-se astfel incertitudini inutile si limitand semnificativ spatiile de cautare ale solutiilor optime de traducere. Identificarea solutiei optime de traducere a unei propozitii, este o procedura extrem de costisitoare computational, intrucat spatiul de cautare, desi limitat prin convolutia modelului de traducere si a modelului limbii tinta, ramane in afara posibilitatilor algoritmilor de cautare exhaustiva. Decodoarele sunt algoritmi euristici de cautare inteligenta in spatii de cautare foarte mari si una dintre cele mai mari provocari ale abordarilor statistice de traducere este crearea unei noi generatii de decodoare. Proiectarea unor algoritmi noi de decodare capabili sa foloseasca cunostinte simbolice ca "ancore" pentru convergenta rapida spre solutia optimala este unul dintre obiectivele cele mai importante ale acestei cercetari. Decodoarele reificate sau multinivel, permit specificarea unor clase distincte de criterii de optimalitate, prelucrabile in paralel, pentru ca in etapa finala, eventualele solutii identificate in conformitate cu fiecare clasa de criterii sa poata fi combinate in vederea obtinerii unei solutii globale (quasi)optimale. O astfel de abordare permite combinarea evidentei statistice cu cunoasterea lingvistica de tip normativ (de natura morfo/lexicala, sintactica, semantica si chiar pragmatica). Marele avantaj al unei astfel de model consta in faptul ca el permite functionarea acceptabila a sistemului de traducere chiar si in absenta cunostintelor simbolice (in acest caz comportandu-se ca un sistem tipic de traducere statistica) dar care, atunci cand dispune de resurse lingvistice adecvate, poate produce rezultate substantial mai bune. De pilda, un model statistic care generalizeaza notiunea de unitate de traducere de la cuvant la fraza (care poate fi un grup gramatical ori o succesiune de cuvinte repetitiva si frecventa in corpusul de antrenare) poate furniza rezultate extrem de bune. Experimentele lui Koehn (2003) au aratat ca prin astfel de mijloace, relativ simple, s-au obtinut traduceri cu acuratete substantial mai buna decat in abordarea clasica.

In literatura de specialitate se face distinctia intre traducerea "de asimilare", destinata informarii rapide asupra continutului unui document intr-o limba necunoscuta, si traducerea "de diseminare", destinata elaborarii de documente ce urmeaza a fi distribuite unei terte parti. Tehnologia actuala de traducere automata se adreseaza in primul rand segmentului "de asimilare", considerandu-se ca traducerile "de diseminare" necesita interventia obligatorie a factorului uman pentru post-editare. Cele mai avansate cercetari in domeniul traducerii automate ambitioneaza la limitarea interventiei umane pentru realizarea unei traduceri "diseminabile". De altfel, una dintre cele mai folosite metode de evaluare a sistemelor de traducere umana se bazeaza pe contorizarea si cuantificarea operatiilor de editare (stergeri, inlocuiri, insertii) efectuate pana la obtinerea unui text considerat acceptabil de catre expertul traducator. Un sistem avansat de traducere automata, prin monitorizarea corectiilor efectuate de traducator asupra textului, poate achizitiona cunostinte noi (morfo-lexicale, sintactice, preferinte semantice, etc) pe care ulterior le poate aplica in traducerile viitoare. O astfel de componenta va constitui obiectul unei investigatii aprofundate in cadrul proiectului propus.

Potentialul economic al proiectului este extrem de ridicat, intrucat cererea pentru un produs de genul STAR este extrem de ridicata, la ora actuala neexistand nici un sistem competitiv de traducere automata pentru limba romana. Desi demonstratorul va functiona pentru perechile de limbi romana si engleza, abordarea pe care o avem in vedere, bazata pe tehnici de invatare automata, va permite dezvoltarea mult mai rapida de sisteme pentru alte limbi si alte domenii de discurs. Sistemul STAR va putea fi imbunatatit continuu pe masura utilizarii sale si a continuarii dezvoltarii de resurse lingvistice suport pentru noi limbi si noi domenii de discurs. Impactul social al proiectului va fi deosebit de favorabil: exista perspectiva unui sistem care sa ofere unei mari parti a populatiei din Romania posibilitatea accesului in limba romana la multitudinea de informatii si cunostinte continute in documentele publicate pe web in limba engleza.