I. Analiza metodelor si tehnicilor moderne de traducere automată. Analiza metodologiilor
de evaluare a calitatii traducerilor automate (1.09.2009)
I.1 Inventarierea instrumentelor si sistemelor de traducere automată deja existente
(cum ar fi sistemele GenPar, Moses)
I.2 Inventarierea metodelor si a platformelor de testare pentru evaluarea calitatii
sistemelor de traducere automata
Rezultate:
Inventar de module şi de resurse necesare sistemului de traducere automată.
Studiu asupra performantelor sistemelor de traducere actuale pe perechea de limbi
romana-engleza.
Inventar de metode de evaluare a performantelor sistemului de traducere automata.
II. Resurse monolinguale (31.10. 2009)
II.1 Colectarea, adnotarea si validarea de corpusuri monolingve.
II.2 Extensia resurselor lexicale monolingve.
II.3 Standardizarea resurselor lexicale monolingve.
II.4 Compilarea lexiconelor specializate si agregarea acestora intr-un meta-lexicon
Rezultate:
Corpusuri monolinguale.
Lexicoane, dictionare, tezaure şi ontologii lexicale.
III. Modele statistice de limba. Modele simbolice de limba. Resurse multilinguale.
Modele statistice de traducere. Modele simbolice de traducere (31.10.2010)
III.1 Dezvoltarea modelelor de limbă pentru segmentarea lexicală, adnotarea morfo-sintactică,
lematizare.
III.2 Colectarea, adnotarea si validarea de corpusuri multilinguale.
III.3 Extensia resurselor lexicale bilingve (ontologii lexicale, dictionare de echivalenti
de traducere).
III.4 Alinierea lexicală şi la nivel de grup sintactic.
III.5 Extragerea si validarea echivalentilor de traducere la nivel de lexem/grup
sintactic.
III.6 Identificarea afinitatilor de diverse tipuri (categorie/grup sintactic, relatii
de dependente etc.) pentru perechea de limbi.
Rezultate:
Instrumente de prelucrare a textului: segmentare lexicală, lematizare, adnotare morfo-sintactică şi recuperare de diacritice; sunt disponibile ca servicii web (http://www.racai.ro/webservices).
Corpusuri multilinguale.
Liste de echivalenţi de traducere, dictionare bilingve, tezaure, ontologii lexicale
Modele statistice de traducere.
IV. Modelarea decodarii si a generarii traducerii. Demonstrator al sistemului de
traducere automata. Evaluarea calitatii traducerii automate (31.10.2011)
IV.1 Testarea decodoarelor statistice existente pana in prezent.
IV.2 Implementarea unui prototip de traducere automata bazaz pe platforma Moses.
IV.3 Implementarea decodorului statistic multi-nivel pentru perechea de limbi romana-engleza.
IV.4 Cuantificarea prin metode formale (de ex. scorul BLEU, scorul METEOR etc.)
a performantelor demonstratorului de traducere automată.
Rezultate:
Prototip de traducere romana-engleza si engleza-romana.
Indicatori de precizie a traducerii automate.