RoLLOD

Wordnetul românesc

Wordnetul românesc în format XML/LMF download
Wordnetul românesc în format JSON download
Wordnetul românesc în format Turtle RDF download

Wordnetul românesc (RoWN)

Crearea sa a început în proiectul BalkaNet. În prezent, conține 59.348 de sinseturi, în care apar 53.092 de cuvinte cu 85.227 de sensuri. În RoWN există 2.216 sinseturi nelexicalizate. RoWN este aliniat la Princeton WordNet 3.0 (PWN). Doar 541 de sinseturi sunt nealiniate, pentru că ele reprezintă concepte considerate specifice Balcanilor și nu a fost identificat un corespondent în PWN. Numărul total de relații din rețea este de 138.592.
RoWN este disponibil cu licența CC BY-SA 4.0.

Exemple query-uri SPARQL:

Afisare sensuri asociate unui cuvant

Informații lingvistice extrase din CoRoLa

vectori de cuvinte pe baza corpusului CoRoLa, în format linked data

frecvențele lemelor din corpusul CoRoLa convertite la formatul linked data folosind modulul OntoLex-FRAC

frecvențele cuvintelor din corpusul CoRoLa convertite la formatul linked data folosind modulul OntoLex-FRAC

Aceste resurse sunt disponibile cu licența CC BY-NC-ND 4.0.

Cadrul internațional

Activitatea noastră se desfășoară în contextul Acțiunii COST Nexus Linguarum.

Bănci de arbori sintactici

RRT, în format linked data

Banca de arbori sintactici de referință pentru limba română (RoRefTrees sau RRT) conține 9.523 de fraze, cu un total de 218.511 tokeni, distribuite pe domenii astfel: 19,09% literatură, 16,86% legi, 12,70% medical, 11,46% traduceri FrameNet, 9,97% scrieri academice, 9,79% știri, 3,80% știință, 2,63% wikipedia și restul din surse aleatoare. Frazele, adnotate morfologic, sunt analizate sintactic conform principiilor proiectului Universal Dependencies (UD).

Corpusul este inclus în fiecare dintre lansările bianuale ale UD începând din 2016.
Corpusul este disponibil cu licența CC BY-SA 4.0.

LegalNERo - Corpus cu adnotare RDF-Turtle inclusă

LegalNERo este un corpus adnotat manual pentru recunoașterea automată de entități (NER) în limba română, în domeniul legal. Conține adnotări "gold" pentru organizații (ORG), locații (LOC), persoane (PER), timp (TIME) și resurse legislative (LEGAL) menționate în documente legislative. De asemenea, oferă legături către GEONAMES pentru entitățile de tip locație (acolo unde au putut fi determinate).

Corpusul este disponibil în diferite formate: adnotare la nivel de secvență de caractere, adnotare la nivel de token si RDF-Turtle specific pentru Linguistic Linked Open Data (LLOD).

Corpusul este disponibil cu licența CC BY-NC-ND 4.0.

Exemple query-uri SPARQL:

Afișare coduri GeoNames asociate entităților de tip Locație
Afișare referințe legislative
Afișare entități de tip Organizație tokenizate cu tag-uri UPOS asociate

SiMoNERo, Treebank medical adnotat cu entități de domeniu

SiMoNERo este un corpus de texte din domeniul medical, conținând 4.681 de fraze și 146.020 tokeni. Textele medicale aparțin la trei domenii: cardiologie (40,6%), diabet (43%) și endocrinologie (16,4%). Textele sunt adnotate morfologic și sintactic, conform specificațiilor Universal Dependencies (UD). Patru tipuri de entități medicale sunt adnotate în corpus: boli (DISO), substanțe chimice (CHEM), părți anatomice (ANAT) și proceduri medicale (PROC).

Corpusul este inclus în fiecare dintre lansările bianuale ale UD începând din 2016.
Corpusul este disponibil cu licența CC BY-SA 4.0.

Exemple query-uri SPARQL: Nu uitați să selectați setul de date SiMoNERo adecvat!

Tokens marcați utilizând CHEM
Tokens marcați utilizând DISO

PARSEME-Ro, Treebank adnotat cu expresii verbale

PARSEME-Ro este un corpus de texte jurnalistice, conținând 56.703 fraze și 1.015.624 de tokeni. Textele au fost adnotate cu patru tipuri de expresii verbale, conform manualului de adnotare PARSEME, și conține 6171 de astfel de expresii. Textele sunt adnotate morfologic și sintactic, conform specificațiilor Universal Dependencies (UD).

Corpusul este distribuit alături de celelalte corpusuri dezvoltate în PARSEME.
Corpusul este disponibil cu licența CC BY-SA 4.0.

Exemple query-uri SPARQL: Nu uitați să selectați setul de date SiMoNERo adecvat!

Afisare tokeni având UPOS = NOUN
Afisarea MWEs din corpus

ROBIN, Technical Acquisition Speech Corpus (ROBINTASC)

Corpusul "ROBIN Technical Acquisition Speech Corpus (ROBINTASC)" a fost dezvoltat în cadrul proiectului ROBIN. Scopul său a fost de a îmbunătăți performanțele unui agent conversațional, permițând interacțiunea om-robot în contextul achiziționării de echipament tehnic. Conține peste 6 ore de înregistrări audio în limba Română. Sunt oferite fișierele text, fișierele audio asociate (WAV, 44.1KHz, 16-bit, single channel), fișiere text adnotate în format CoNLL-U. Arhiva principală este disponibilă aici.

Corpusul este disponibil cu licența CC BY-NC-ND 4.0.

Exemple query-uri SPARQL:

Afișare fișiere audio care conțin un anumit cuvânt

RoLex, lexicon pentru prelucrarea textelor orale

RoLEX conține 330.866 de intrări, pentru fiecare dintre ele precizându-se lema, descrierea morfosintactică, silabele conținute, locul de plasare a accentului și transcrierea fonetică (în alfabetul SAMPA). Acest lexicon a fost dezvoltat în cadrul proiectului ReTeRom.

Corpusul este disponibil cu licența CC BY-NC-ND 4.0.

Exemple query-uri SPARQL:

Instrumente

Repository RoLLOD pe GitHub
Conține uneltele OpenSource utilizate pentru conversia resurselor în format LLOD.

Echipa

Dr. Verginica Mititelu, CS II (coordonator)

Acad. Dan Tufiș (consultant)

Dr. Elena Irimia, CS III

Dr. Vasile Florian Păiș, CS III

Dr. Maria Carp, CS III

Eric Curea, CS

Andrei Marius Avram, AsC