ADAMo

Detectarea automată a textelor generate cu IA din Moldova și România

Parteneri

Rezumat

Scopul proiectului ADAMo este de a crea un clasificator care poate identifica textele produse de inteligența artificială (IA). Chiar dacă vor fi folosite caracteristici specifice limbii, soluția rezultată va fi una independentă de limbă. Având în vedere existența unor resurse similare în alte limbi, noi modele neuronale pot fi antrenate pentru a detecta textele generate de IA în alte limbi. Vom folosi corpusul reprezentativ al limbii române contemporane (CoRoLa), care conține mai mult de 1 miliard de cuvinte (în texte scrise și vorbite) ca date originale pentru antrenarea clasificatorului. Pentru a face față varietăților lingvistice din România și Moldova, CoRoLa va fi îmbogățită cu cel puțin 15 milioane de cuvinte din texte de înaltă calitate, cu drepturi de proprietate intelectuală autorizate, din Moldova. In colectarea de noi date, vor fi urmărite principiile din corpusul original CoRoLa, modul de construcție a metadatelor și nivelurile de adnotare. Întregul corpus va fi, de asemenea, supus unei analize sintactice automate, astfel încât să surprindă asemănări și diferențe la mai multe niveluri lingvistice și, astfel, să fie o resursă valoroasă pentru studiul celor două varietăți lingvistice.

Parteneri

I.C.I.A.

Institutul de Cercetări pentru Inteligență Artificială „Mihai Drăgănescu”

U.T.M.

Universitatea Tehnică a Moldovei

Rezultate

Automatic Detection of AI-Generated Texts from Moldova and Romania (ADAMo), A Project Presentation

in the 20th International Conference on Linguistic Resources and Tools for Natural Language Processing, Bucharest, 8-10 Oct, 2025.

prezentare la conferință științifică: Verginica Barbu Mititelu, Victoria Bobicev, Victoria Alexei, Rodica Braniște, Olesea Caftanatov, Maria Mitrofan, Radu Ion, Elena Irimia, Daniela Istrati, Ludmila Malahov, Sergiu Nisioi and Alexandr Parahonco

in E. Irimia et al. (eds.), Proceedings of the 20th International Conference Linguistic Resources and Tools for Natural Language Processing, Editura Universității “Alexandru Ioan Cuza” din Iași, 2025, p. 249-264.

articol în volumul de lucrări al unei conferințe științifice. Verginica Barbu Mititelu, Victoria Bobicev, Victoria Alexei, Rodica Braniște, Olesea Caftanatov, Maria Mitrofan, Radu Ion, Elena Irimia, Daniela Istrati, Ludmila Malahov, Sergiu Nisioi, Alexandr Parahonco, Vasile Păiș

Impactul cognitiv:

Proiectul are un impact cognitiv semnificativ în domeniul inteligenței artificiale și al lingvisticii românești, deoarece colectează în același corpus texte din cele două varietăți ale limbii române (cea vorbită în România și cea vorbită în Republica Moldova) cu două obiective majore: compararea automată a celor două (urmată de analiza manuală) și impactul asupra detectării textelor generate cu inteligența artificială atunci când sunt implicate cele două varietăți. Rezultatele obținute vor completa literatura de specialitate a ambelor domenii cu date empirice, originale, oferind o bază solidă pentru dezvoltări ulterioare. S-a stabilit deja o sinergie cu proiectul Protecție împotriva știrilor deep-fake cu modele mari de limbă și imagine, în care datele colectate în ADAMo vor fi utilizate pentru detectarea știrilor false. De asemenea, rezultatele din proiect (corpusul) vor servi ca material informativ de calitate pentru descrieri ale limbii române în ansamblul ei.

Impactul cognitiv este susținut și prin dezvoltarea competențelor de cercetare ale echipei implicate, în special în domenii precum colectarea de corpus, preprocesarea și prelucrarea de texte, descrierea cu ajutorul metadatelor, dezvoltarea de clasificatori pentru detectarea varietăților lingvistice și a textelor generate cu inteligența artificială. Cunoștințele generate pot fi transferate mai departe, către mediul academic și educațional, prin integrarea rezultatelor în activități de formare și diseminare științifică.

Impactul socio-economic:

Din perspectivă socio-economică, proiectul răspunde unei provocări majore și de actualitate, și anume capacitatea de a distinge între textele originale și cele generate cu Inteligență Artificială și, totodată, între informația adevărată și cea inventată/falsă etc. Prin colectarea corpusului din Republica Moldova și experimentele de creare de prompturi și de generare de texte pe care le vom derula, vom avea material lingvistic pentru a dezvolta clasificatori capabili să distingă automat între textele originale și cele generate cu AI, precum și între cele două varietăți ale limbii. Proiectul va contribui, prin resursele lingvistice și instrumentele pe care le va pune la dispoziție comunității, la dezvoltarea instrumentelor de detectare automată a textelor generate și, în cele din urmă, a știrilor potențial false.