Proiectul are ca obiective principale definirea si validarea unor metode de realizare
a unui sistem avansat de traducere automata pentru limba romana, combinand cele
mai noi metode statistice ale lingvisticii corpusului si de invatare automata cu
metode simbolice destinate tratarii bazate pe cunostinte a unor dificultati greu
de rezolvat prin modelare statistica. Proiectul va urmari solutii parametrizabile
cu un grad mare de abstractizare, astfel incat modificarea perechilor de limbi intre
care se va realiza traducerea automata sa nu necesite interventii majore in arhitectura
sistemului.
Demonstratorul acestui proiect va fi construit pentru limbile romana si engleza,
obiectivele de calitate fiind la nivelul celor mai avansate sisteme de traducere
pentru perechi de limbi indelung studiate. Sistemele bazate pe metodele simbolice
ajung la performante acceptabile in timp indelungat presupunand eforturi umane si
materiale considerabile. Apreciem ca astfel de sisteme care presupun modelarea exhaustiva
a fenomenului limbii, nu pot oferi o solutie completa, desi acest tip de abordare
poate avea rezultate excelente atunci cand domeniul este limitat. Spre deosebire
de sistemele bazate pe metode simbolice, sistemele construite folosind metode statistice
pot ajunge la performante similare sau superioare, fiind insa mult mai rapid de
implementat, mai robuste si necesitand resursele financiare si umane mult reduse.
Pe de alta parte, este cunoscut faptul ca sistemele bazate pe modele statistice
converg rapid spre o performanta acceptabila dupa care imbunatatirile cauzate doar
de cresterea volumului datelor de antrenare sunt din ce in ce mai reduse, obtinandu-se
o aplatizare a curbei de invatare. Identificarea cat mai exacta a fenomenelor lingvistice
a caror rezolvare incorecta sau partiala limiteaza sporirea calitatii traducerii
automate va permite implementarea fazelor critice prin prelucrari simbolice.
Obiective
Proiectul are ca obiective principale definirea si validarea unor metode de realizare
a unui sistem avansat de traducere automata, precum si constructia unui demonstrator
combinand cele mai noi metode statistice ale lingvisticii corpusului si de invatare
automata cu metode simbolice destinate tratarii bazate pe cunostinte a unor dificultati
greu de rezolvat prin modelare statistica. Proiectul va urmari solutii parametrizabile
cu un grad mare de abstractizare, astfel incat modificarea perechilor de limbi intre
care se va realiza traducerea automata sa nu necesite interventii majore in arhitectura
generala a sistemului, invatarii automate din corpusuri paralele revenindu-i principala
responsabilitate in asigurarea competentei si performantei lingvistice a sistemului
pentru noile limbi. Demonstratorul acestui proiect va fi construit pentru limbile
romana si engleza, obiectivele de calitate, asumate de echipa de realizare, fiind
la nivelul celor mai avansate sisteme de traducere pentru perechi de limbi indelung
studiate (de ex. engleza-franceza, engleza-spaniola). Sistemele bazate pe metodele
simbolice ajung la performante acceptabile in timp indelungat presupunand eforturi
umane si materiale considerabile. Apreciem ca astfel de sisteme care implica modelarea
exhaustiva a fenomenului limbii, nu pot oferi o solutie completa, desi acest tip
de abordare poate avea rezultate excelente atunci cand domeniul este limitat (de
ex.: traducerea automata a grupurilor verbale, a entitatilor denumite, generarea
formelor flexionare prin transferul atributelor morfo-sintactice ale unitatii lexicale
dintr-o limba in alta). Spre deosebire de sistemele bazate pe metode simbolice,
sistemele construite folosind metode statistice pot ajunge la performante similare
sau superioare, fiind insa mult mai rapid de implementat, mai robuste si necesitand
resurse financiare si umane mult reduse. Pe de alta parte, este cunoscut faptul
ca sistemele bazate pe modele statistice converg rapid spre o performanta acceptabila,
dupa care imbunatatirile cauzate doar de cresterea volumului datelor de antrenare
sunt din ce in ce mai reduse, obtinandu-se o aplatizare a curbei de invatare. Identificarea
cat mai exacta a fenomenelor lingvistice a caror rezolvare incorecta sau partiala
limiteaza sporirea calitatii traducerii automate permite va permite implementarea
fazelor critice prin prelucrari simbolice, bazate pe introspectie lingvistica si
cunostinte asupra universului de discurs.
Arhitectura sistemului de traducere pe care il propunem va adopta metafora shannoniana
a „canalului cu zgomot”dar solutiile avute in vedere pentru realizarea modelului
de traducere (MT), a decodorului (D) si a modelului limbii tinta (MLT) nu vor fi
exclusiv statistice si vor incorpora si componente simbolice (reguli lingvistice,
ontologii lexicale si de domeniu, baze de date de pattern-uri bilingve generalizate
etc). Avem in vedere utilizarea tehnicilor proprii de prelucrare multi-nivel in
fiecare compartiment al arhitecturii sistemului de traducere (reificarea echivalentelor
de traducere pentru MT, decodare factorizata pentru D, tiered-tagging pentru MLT).
Modelele statistice de baza (cel bilingv de traducere si cel monolingv pentru limba
tinta) sunt achizitionate automat folosind corpusuri monolinguale (pentru MLT) si
paralele (pentru MT). Prin folosirea resurselor lingvistice dezvoltate la ICIA (dictionare
semantice monolingve si bilingve, reguli sintactice, restrictii lexico-semantice
de instantiere ale unor structuri frazale parametrizate, etc) modelele statistice
vor putea fi combinate cu cunostinte deterministe evitandu-se astfel incertitudini
inutile si limitand semnificativ spatiile de cautare ale solutiilor optime de traducere.
Identificarea solutiei optime de traducere a unei propozitii, este o procedura extrem
de costisitoare computational, intrucat spatiul de cautare, desi limitat prin convolutia
modelului de traducere si a modelului limbii tinta, ramane in afara posibilitatilor
algoritmilor de cautare exhaustiva. Decodoarele sunt algoritmi euristici de cautare
inteligenta in spatii de cautare foarte mari si una dintre cele mai mari provocari
ale abordarilor statistice de traducere este crearea unei noi generatii de decodoare.
Proiectarea unor algoritmi noi de decodare capabili sa foloseasca cunostinte simbolice
ca "ancore" pentru convergenta rapida spre solutia optimala este unul dintre obiectivele
cele mai importante ale acestei cercetari. Decodoarele reificate sau multinivel,
permit specificarea unor clase distincte de criterii de optimalitate, prelucrabile
in paralel, pentru ca in etapa finala, eventualele solutii identificate in conformitate
cu fiecare clasa de criterii sa poata fi combinate in vederea obtinerii unei solutii
globale (quasi)optimale. O astfel de abordare permite combinarea evidentei statistice
cu cunoasterea lingvistica de tip normativ (de natura morfo/lexicala, sintactica,
semantica si chiar pragmatica). Marele avantaj al unei astfel de model consta in
faptul ca el permite functionarea acceptabila a sistemului de traducere chiar si
in absenta cunostintelor simbolice (in acest caz comportandu-se ca un sistem tipic
de traducere statistica) dar care, atunci cand dispune de resurse lingvistice adecvate,
poate produce rezultate substantial mai bune. De pilda, un model statistic care
generalizeaza notiunea de unitate de traducere de la cuvant la fraza (care poate
fi un grup gramatical ori o succesiune de cuvinte repetitiva si frecventa in corpusul
de antrenare) poate furniza rezultate extrem de bune. Experimentele lui Koehn (2003)
au aratat ca prin astfel de mijloace, relativ simple, s-au obtinut traduceri cu
acuratete substantial mai buna decat in abordarea clasica.
In literatura de specialitate se face distinctia intre traducerea "de asimilare",
destinata informarii rapide asupra continutului unui document intr-o limba necunoscuta,
si traducerea "de diseminare", destinata elaborarii de documente ce urmeaza a fi
distribuite unei terte parti. Tehnologia actuala de traducere automata se adreseaza
in primul rand segmentului "de asimilare", considerandu-se ca traducerile "de diseminare"
necesita interventia obligatorie a factorului uman pentru post-editare. Cele mai
avansate cercetari in domeniul traducerii automate ambitioneaza la limitarea interventiei
umane pentru realizarea unei traduceri "diseminabile". De altfel, una dintre cele
mai folosite metode de evaluare a sistemelor de traducere umana se bazeaza pe contorizarea
si cuantificarea operatiilor de editare (stergeri, inlocuiri, insertii) efectuate
pana la obtinerea unui text considerat acceptabil de catre expertul traducator.
Un sistem avansat de traducere automata, prin monitorizarea corectiilor efectuate
de traducator asupra textului, poate achizitiona cunostinte noi (morfo-lexicale,
sintactice, preferinte semantice, etc) pe care ulterior le poate aplica in traducerile
viitoare. O astfel de componenta va constitui obiectul unei investigatii aprofundate
in cadrul proiectului propus.
Potentialul economic al proiectului este extrem de ridicat, intrucat cererea pentru
un produs de genul STAR este extrem de ridicata, la ora actuala neexistand nici
un sistem competitiv de traducere automata pentru limba romana. Desi demonstratorul
va functiona pentru perechile de limbi romana si engleza, abordarea pe care o avem
in vedere, bazata pe tehnici de invatare automata, va permite dezvoltarea mult mai
rapida de sisteme pentru alte limbi si alte domenii de discurs. Sistemul STAR va
putea fi imbunatatit continuu pe masura utilizarii sale si a continuarii dezvoltarii
de resurse lingvistice suport pentru noi limbi si noi domenii de discurs. Impactul
social al proiectului va fi deosebit de favorabil: exista perspectiva unui sistem
care sa ofere unei mari parti a populatiei din Romania posibilitatea accesului in
limba romana la multitudinea de informatii si cunostinte continute in documentele
publicate pe web in limba engleza.