Proiect ReTeRom

Proiect finanțat de Ministerul Cercetării și Inovării, Program PN-III-P1-1.2.-PCCDI, nr. 73/2018, durata: 2018-2020

COBILIRO TEPROLIN TADARAV SINTERO
This work was supported by a grant of the Romanian Ministry of Research and Innovation, CCCDI – UEFISCDI, project number PN-III-P1-1.2-PCCDI-2017-0818 - 73/2018 , within PNCDI III

Descriere COBILIRO

Denumire: Corpus bimodal pentru limba română adnotat pe multiple niveluri (COBILIRO)

Obiectivul general al acestui proiect este crearea unui tezaur cu resurse audio și textuale, adnotate pe diferite niveluri de realizare acustică, respectiv lingvistică, care să constituie cea mai importantă referință de acest tip pentru limba română.

Aplicabilitate: Resursele de date audio și text adnotate vor reprezenta fundamentul pentru dezvoltarea tehnologiilor de interfețe om mașină în limbaj natural în limba română:
Proiect 2 (TEPROLIN), Proiect 3 (TADARAV) și Proiect 4 (SINTERO).

Activitățile vor avea în vedere: inventarierea atentă a resurselor bimodale existente la parteneri; armonizarea formatelor de reprezentare, adnotare și metadate; proiectarea, realizarea și testarea infrastructurii care va găzdui resursele; dezvoltarea instrumentele de prelucrare și acces ale consorțiului; augmentarea corpusului voce-text, cu completarea lui cu metadate, alinieri și adnotări; efectuarea de studii statistice asupra corpusului, exploatarea pentru cercetare și producție, precum si larga diseminare a corpusului bimodal, valorizare și utilizare cecuri de tip A1, A2, B.

1.1. Studiu state-of-the-art asupra realizării corpusurilor bimodale

1.2. Inventarierea colecțiilor de date lingvistice românești disponibile la parteneri sau în terțe coaliții și a formatelor de stocare a acestora.

1.3. Proiectarea funcțională și arhitecturală a infrastructurii care va găzdui resursele și instrumentele de prelucrare și acces ale consorțiului și realizarea unui prototip

1.4. Diseminare.

Descriere TEPROLIN

Denumire: Tehnologii pentru procesarea limbajului natural - text (TEPROLIN)

Obiectivul general al acestul proiect este dezvoltarea unui set de tehnologii avansate pentru procesarea limbajului natural (text) în limba română: analiza morfologică, sintactică și semantică a textelor, cu adnotarea textului colectat în Proiectul 1 (COBILIRO) pe diferite nivele lingvistice (fonem, silabă, lemă, parte de vorbire, etc).

Aplicabilitate: Aceste tehnologii vor fi aplicate în sisteme de procesare și interpretare automată a textelor în limba română, în crearea modelelor de limbaj pentru interfețele de recunoaștere a vorbirii, respectiv în procesarea textului pentru realizarea interfețelor de sinteză din text a vorbirii.

Activitățile vor avea în vedere: Inventarierea atentă a producerea unei tehnologii integrate pentru procesarea limbajului natural în limba română, procesarea și adnotarea pe diferite niveluri lingvistice a corpusului bimodal generat în cadrul Proeictului 1 COBILIRO, evaluarea sistemelor de recunoaștere a vorbirii (Proiect 3, TADARAV) și de sinteză din text a vorbirii (Proiect 4, SINTERO) antrenate cu corpusul bimodal din Proiectul 1 COBILIRO. Valorizare și utilizare cecuri de tip A1, A2, B.

1.5. Definirea specificațiilor funcționale și arhitecturale ale platformei integrate și configurabile de prelucrare a textelor

1.6. Definirea modulelor software și a serviciilor oferite de proiect; identificarea adaptărilor pentru modulele NLP existente și a modulelor noi necesare

1.7. Realizarea adaptărilor necesare pentru modulele NLP existente, identificate în activitățile 1.5 și 1.6

1.8. Crearea și validarea (eventual cu corectările manuale necesare) a unui lexicon specific corpusului bimodal și încorporarea sa în lexiconul existent

1.9. Diseminare

Descriere TADARAV

Denumire: Tehnologii pentru adnotarea automată a datelor audio şi pentru realizarea interfeţelor de recunoaştere automată a vorbirii (TADARAV)

Obiectivul general al acestui proiect este dezvoltarea unui set de tehnologii avansate pentru adnotarea fonetică automată a semnalului vocal colectat în corpusul din Proiectul 1 COBILIRO, respectiv pentru realizarea interfețelor de recunoaștere automată a vorbirii în limba română folosind modelele lingvistice generate în Proiect 2 TEPROLIN.

Aplicabilitate: Aceste tehnologii vor fi aplicate în sisteme de recunoaștere automată a vorbirii, respectiv în segmentarea și adnotarea automată a semnalului vocal necesara în Proiectul P4 Expressive TTS.

Activitățile vor avea în vedere: Inventarierea atentă a elaborarea metodelor de adnotare fonetică automată a semnalului vocal folosind sisteme de RAV complementare, proiectarea și implementarea metodelor de filtrare și aliniere a estimărilor de transcriere, elaborarea și implementarea algoritmilor de generare a scorului de încredere, livrarea unei tehnologii de RAV și transcriere automată bazată pe scoruri de încredere. valorizarea și utilizarea cecurilor de tip A1, A2, B.

1.10. Studiul metodelor din literatură privind utilizarea sistemelor de RAV complementare pentru generarea automată de adnotari

1.11. Studiul metodelor din literatura pentru alinierea transcrierilor aproximative cu semnalul de vorbire

1.12. Studiul metodelor din literatura pentru generarea scorurilor de incredere (SI) pentru recunoasterea automata a vorbirii (RAV)

1.13. Proiectarea și implementarea unei soluții de bază de adnotare automată a semnalului de vorbire utilizând sisteme de RAV complementare

1.14. Diseminare

Descriere SINTERO

Denumire: Tehnologii de realizare a interfețelor om-mașină pentru sinteza text-vorbire cu expresivitate (SINTERO)

Obiectivul general al acestul proiect este dezvoltarea unei tehnologii avansate pentru sinteza text vorbire de înaltă calitate si expresivitate în limba română pe baza resurselor colectate in Proiectul 1 COBILIRO si a adnotarilor automate generate în Proiectul 2 TEPROLIN (text) și Proiectul 3 TADARAV (audio).

Aplicabilitate: Această tehnologie va fi aplicată pentru sinteza text vorbire în limba română, pentru generarea de noi voci sintetizate, respectiv pentru adaptarea unor aplicații dependente de stillul și expresivitatea în vorbire (de ex. știri TV, discurs oratoric, voci cu emotivitate).

Activitățile vor avea în vedere: Inventarierea atentă a dezvoltarea metodelor de modelare și control a expresivității în sistemele de sinteză text-vorbire, implementarea componentelor pentru modelarea prozodiei și adaptarea la noi vorbitori a vocilor sintetizate, dezvoltarea unei noi tehnologii pentru realizarea interfețelor de sinteză text vorbire cu expresivitate. Valorizare și utilizare cecuri de tip A1, A2, B.

1.15. Identificarea pattern-urilor prozodice; evidențierea corelațiilor între text (morfologie, sintaxă) si semnal vocal

1.16. Identificarea metodelor de recunoaștere și clasificare automată a stilului de exprimare în surse de date text

1.17. Analiza metodelor de control și adaptare automată a expresivității vorbitorilor în sistemele de sinteză text-vorbire

1.18. Implementarea modulului de control automat al prozodiei

1.19. Diseminare

rapoarte si publicatii

  • Raport Tehnico-Științific
    ReTeRom faza 2018.

  • UPB
    Sisteme complementare de recunoaștere automată a vorbirii.

  • UPB
    Estimarea scorurilor de încredere pentru sistemele de recunoaștere automată a vorbirii.

  • UPB
    Alinierea transcrierilor aproximative cu semnalul de vorbire.

  • UTC-N
    Identificarea pattern-urilor prozodice și evidențierea corelațiilor între text și semnal vocal.

  • UTC-N
    Identificarea metodelor de clasificare automată a stilului de exprimare din surse de date text și audio.

  • UTC-N
    Analiza metodelor de control și adaptare automată a expresivității vorbitorilor în sistemele de sinteză text-vorbire.

  • UTC-N
    Implementarea modulului de control automat al prozodiei.

  • 1.1

    COBILIRO:
    Studiu state-of-the-art asupra realizării corpusurilor bimodale.

  • 1.2

    COBILIRO:
    Inventarierea colecțiilor de date lingvistice românești disponibile.

  • 1.3

    COBILIRO:
    Proiectarea funcțională și arhitecturală a infrastructurii care va găzdui resursele și instrumentele de prelucrare și acces ale consorțiului și realizarea unui prototip.

  • 1.4

    DISEMINARE
    Diseminare și participare la manifestări tehnico-științifice, inclusiv în mass-media.

  • 1.5

    TEPROLIN:
    Definirea specificațiilor funcționale și arhitecturale ale platformei integrate și configurabile de prelucrare a textelor.

  • 1.6

    TEPROLIN:
    Definirea modulelor software și a serviciilor oferite de proiect; identificarea adaptărilor pentru modulele NLP existente și a modulelor noi necesare.

  • 1.8

    TEPROLIN:
    Crearea și validarea (eventual cu corectările manuale necesare) a unui lexicon specific corpusului bimodal și încorporarea sa în lexiconul deja existent

  • 1.9

    ICIA:
    Realizare pagina web.

Echipa de proiect

Acad. Dan TUFIȘ

Dr. Verginica BARBU MITITELU

Dr. Radu ION

Dr. Elena IRIMIA

Eric Curea

prof. Corneliu BURILEANU

prof. Dragoș BURILEANU

dr. Horia CUCU

dr. Dan ONEAȚĂ

Dan Cristea

Anca Bibiri

Daniela Gifu

Mihaela Onofrei

Ionuț Pistol

Andrei Scutelnicu

Diana Trandabat

prof. Mircea GIURGIU

dr. Adriana STAN