Wordnetul românesc

  • Wordnetul românesc în format XML/LMF download
  • Wordnetul românesc în format JSON download
  • Wordnetul românesc în format Turtle RDF download

Wordnetul românesc (RoWN)

Crearea sa a început în proiectul BalkaNet. În prezent, conține 59.348 de sinseturi, în care apar 53.092 de cuvinte cu 85.227 de sensuri. În RoWN există 2.216 sinseturi nelexicalizate. RoWN este aliniat la Princeton WordNet 3.0 (PWN). Doar 541 de sinseturi sunt nealiniate, pentru că ele reprezintă concepte considerate specifice Balcanilor și nu a fost identificat un corespondent în PWN. Numărul total de relații din rețea este de 138.592.
RoWN este disponibil cu licența CC BY-SA 4.0.

Exemple query-uri SPARQL:

Informații lingvistice extrase din CoRoLa

vectori de cuvinte pe baza corpusului CoRoLa, în format linked data
frecvențele lemelor din corpusul CoRoLa convertite la formatul linked data folosind modulul OntoLex-FRAC
frecvențele cuvintelor din corpusul CoRoLa convertite la formatul linked data folosind modulul OntoLex-FRAC

Aceste resurse sunt disponibile cu licența CC BY-NC-ND 4.0.

Bănci de arbori sintactici

RRT, în format linked data

Banca de arbori sintactici de referință pentru limba română (RoRefTrees sau RRT) conține 9.523 de fraze, cu un total de 218.511 tokeni, distribuite pe domenii astfel: 19,09% literatură, 16,86% legi, 12,70% medical, 11,46% traduceri FrameNet, 9,97% scrieri academice, 9,79% știri, 3,80% știință, 2,63% wikipedia și restul din surse aleatoare. Frazele, adnotate morfologic, sunt analizate sintactic conform principiilor proiectului Universal Dependencies (UD).

Corpusul este inclus în fiecare dintre lansările bianuale ale UD începând din 2016.
Corpusul este disponibil cu licența CC BY-SA 4.0.


LegalNERo - Corpus cu adnotare RDF-Turtle inclusă

LegalNERo este un corpus adnotat manual pentru recunoașterea automată de entități (NER) în limba română, în domeniul legal. Conține adnotări "gold" pentru organizații (ORG), locații (LOC), persoane (PER), timp (TIME) și resurse legislative (LEGAL) menționate în documente legislative. De asemenea, oferă legături către GEONAMES pentru entitățile de tip locație (acolo unde au putut fi determinate).

Corpusul este disponibil în diferite formate: adnotare la nivel de secvență de caractere, adnotare la nivel de token si RDF-Turtle specific pentru Linguistic Linked Open Data (LLOD).

Corpusul este disponibil cu licența CC BY-NC-ND 4.0.

Exemple query-uri SPARQL:


SiMoNERo, Treebank medical adnotat cu entități de domeniu

SiMoNERo este un corpus de texte din domeniul medical, conținând 4.681 de fraze și 146.020 tokeni. Textele medicale aparțin la trei domenii: cardiologie (40,6%), diabet (43%) și endocrinologie (16,4%). Textele sunt adnotate morfologic și sintactic, conform specificațiilor Universal Dependencies (UD). Patru tipuri de entități medicale sunt adnotate în corpus: boli (DISO), substanțe chimice (CHEM), părți anatomice (ANAT) și proceduri medicale (PROC).

Corpusul este inclus în fiecare dintre lansările bianuale ale UD începând din 2016.
Corpusul este disponibil cu licența CC BY-SA 4.0.

Exemple query-uri SPARQL: Nu uitați să selectați setul de date SiMoNERo adecvat!

  • Tokens marcați utilizând CHEM
  • Tokens marcați utilizând DISO

PARSEME-Ro, Treebank adnotat cu expresii verbale

PARSEME-Ro este un corpus de texte jurnalistice, conținând 56.703 fraze și 1.015.624 de tokeni. Textele au fost adnotate cu patru tipuri de expresii verbale, conform manualului de adnotare PARSEME, și conține 6171 de astfel de expresii. Textele sunt adnotate morfologic și sintactic, conform specificațiilor Universal Dependencies (UD).

Corpusul este distribuit alături de celelalte corpusuri dezvoltate în PARSEME.
Corpusul este disponibil cu licența CC BY-SA 4.0.

Exemple query-uri SPARQL: Nu uitați să selectați setul de date SiMoNERo adecvat!

ROBIN, Technical Acquisition Speech Corpus (ROBINTASC)

Corpusul "ROBIN Technical Acquisition Speech Corpus (ROBINTASC)" a fost dezvoltat în cadrul proiectului ROBIN. Scopul său a fost de a îmbunătăți performanțele unui agent conversațional, permițând interacțiunea om-robot în contextul achiziționării de echipament tehnic. Conține peste 6 ore de înregistrări audio în limba Română. Sunt oferite fișierele text, fișierele audio asociate (WAV, 44.1KHz, 16-bit, single channel), fișiere text adnotate în format CoNLL-U. Arhiva principală este disponibilă aici.

Corpusul este disponibil cu licența CC BY-NC-ND 4.0.

Exemple query-uri SPARQL:

RoLex, lexicon pentru prelucrarea textelor orale

RoLEX conține 330.866 de intrări, pentru fiecare dintre ele precizându-se lema, descrierea morfosintactică, silabele conținute, locul de plasare a accentului și transcrierea fonetică (în alfabetul SAMPA). Acest lexicon a fost dezvoltat în cadrul proiectului ReTeRom.

Corpusul este disponibil cu licența CC BY-NC-ND 4.0.

Exemple query-uri SPARQL:

Echipa

Dr. Verginica Mititelu, CS II (coordonator)
Acad. Dan Tufiș (consultant)
Dr. Elena Irimia, CS III
Dr. Vasile Florian Păiș, CS III
Dr. Maria Carp, CS III
Eric Curea, CS
Andrei Marius Avram, AsC