STAR - Sistem de Traducere Automată pentru limba Română

I. Analiza metodelor si tehnicilor moderne de traducere automată. Analiza metodologiilor de evaluare a calitatii traducerilor automate (1.09.2009)

I.1 Inventarierea instrumentelor si sistemelor de traducere automată deja existente (cum ar fi sistemele GenPar, Moses)

I.2 Inventarierea metodelor si a platformelor de testare pentru evaluarea calitatii sistemelor de traducere automata

Rezultate:
Inventar de module şi de resurse necesare sistemului de traducere automată.
Studiu asupra performantelor sistemelor de traducere actuale pe perechea de limbi romana-engleza.
Inventar de metode de evaluare a performantelor sistemului de traducere automata.

II. Resurse monolinguale (31.10. 2009)

II.1 Colectarea, adnotarea si validarea de corpusuri monolingve.

II.2 Extensia resurselor lexicale monolingve.

II.3 Standardizarea resurselor lexicale monolingve.

II.4 Compilarea lexiconelor specializate si agregarea acestora intr-un meta-lexicon

Rezultate:
Corpusuri monolinguale.
Lexicoane, dictionare, tezaure şi ontologii lexicale.

III. Modele statistice de limba. Modele simbolice de limba. Resurse multilinguale. Modele statistice de traducere. Modele simbolice de traducere (31.10.2010)

III.1 Dezvoltarea modelelor de limbă pentru segmentarea lexicală, adnotarea morfo-sintactică, lematizare.

III.2 Colectarea, adnotarea si validarea de corpusuri multilinguale.

III.3 Extensia resurselor lexicale bilingve (ontologii lexicale, dictionare de echivalenti de traducere).

III.4 Alinierea lexicală şi la nivel de grup sintactic.

III.5 Extragerea si validarea echivalentilor de traducere la nivel de lexem/grup sintactic.

III.6 Identificarea afinitatilor de diverse tipuri (categorie/grup sintactic, relatii de dependente etc.) pentru perechea de limbi.

Rezultate:
Instrumente de prelucrare a textului: segmentare lexicală, lematizare, adnotare morfo-sintactică şi recuperare de diacritice; sunt disponibile ca servicii web (http://www.racai.ro/webservices).
Corpusuri multilinguale.
Liste de echivalenţi de traducere, dictionare bilingve, tezaure, ontologii lexicale
Modele statistice de traducere.

IV. Modelarea decodarii si a generarii traducerii. Demonstrator al sistemului de traducere automata. Evaluarea calitatii traducerii automate (31.10.2011)

IV.1 Testarea decodoarelor statistice existente pana in prezent.

IV.2 Implementarea unui prototip de traducere automata bazaz pe platforma Moses.

IV.3 Implementarea decodorului statistic multi-nivel pentru perechea de limbi romana-engleza.

IV.4 Cuantificarea prin metode formale (de ex. scorul BLEU, scorul METEOR etc.) a performantelor demonstratorului de traducere automată.

Rezultate:
Prototip de traducere romana-engleza si engleza-romana.
Indicatori de precizie a traducerii automate.