
Resurse lingvistice românești convertite
la specificațiile linked data
Crearea sa a început în proiectul BalkaNet.
În prezent, conține 59.348 de sinseturi, în care apar 53.092 de cuvinte cu 85.227 de sensuri.
În RoWN există 2.216 sinseturi nelexicalizate. RoWN este aliniat la Princeton WordNet 3.0 (PWN).
Doar 541 de sinseturi sunt nealiniate, pentru că ele reprezintă concepte considerate specifice Balcanilor și nu a fost identificat un corespondent în PWN.
Numărul total de relații din rețea este de 138.592.
RoWN este disponibil cu licența CC BY-SA 4.0.
Exemple query-uri SPARQL:
Aceste resurse sunt disponibile cu licența CC BY-NC-ND 4.0.
Activitatea noastră se desfășoară în contextul Acțiunii COST Nexus Linguarum.
Banca de arbori sintactici de referință pentru limba română (RoRefTrees sau RRT) conține 9.523 de fraze, cu un total de 218.511 tokeni, distribuite pe domenii astfel: 19,09% literatură, 16,86% legi, 12,70% medical, 11,46% traduceri FrameNet, 9,97% scrieri academice, 9,79% știri, 3,80% știință, 2,63% wikipedia și restul din surse aleatoare. Frazele, adnotate morfologic, sunt analizate sintactic conform principiilor proiectului Universal Dependencies (UD).
Corpusul este inclus în fiecare dintre lansările bianuale ale UD începând din 2016.
Corpusul este disponibil cu licența CC BY-SA 4.0.
LegalNERo este un corpus adnotat manual pentru recunoașterea automată de entități (NER) în limba română, în domeniul legal. Conține adnotări "gold" pentru organizații (ORG), locații (LOC), persoane (PER), timp (TIME) și resurse legislative (LEGAL) menționate în documente legislative. De asemenea, oferă legături către GEONAMES pentru entitățile de tip locație (acolo unde au putut fi determinate).
Corpusul este disponibil în diferite formate: adnotare la nivel de secvență de caractere, adnotare la nivel de token si RDF-Turtle specific pentru Linguistic Linked Open Data (LLOD).
Corpusul este disponibil cu licența CC BY-NC-ND 4.0.
Exemple query-uri SPARQL:
SiMoNERo este un corpus de texte din domeniul medical, conținând 4.681 de fraze și 146.020 tokeni. Textele medicale aparțin la trei domenii: cardiologie (40,6%), diabet (43%) și endocrinologie (16,4%). Textele sunt adnotate morfologic și sintactic, conform specificațiilor Universal Dependencies (UD). Patru tipuri de entități medicale sunt adnotate în corpus: boli (DISO), substanțe chimice (CHEM), părți anatomice (ANAT) și proceduri medicale (PROC).
Corpusul este inclus în fiecare dintre lansările bianuale ale UD începând din 2016.
Corpusul este disponibil cu licența CC BY-SA 4.0.
Exemple query-uri SPARQL: Nu uitați să selectați setul de date SiMoNERo adecvat!
PARSEME-Ro este un corpus de texte jurnalistice, conținând 56.703 fraze și 1.015.624 de tokeni. Textele au fost adnotate cu patru tipuri de expresii verbale, conform manualului de adnotare PARSEME, și conține 6171 de astfel de expresii. Textele sunt adnotate morfologic și sintactic, conform specificațiilor Universal Dependencies (UD).
Corpusul este distribuit alături de celelalte corpusuri dezvoltate în PARSEME.
Corpusul este disponibil cu licența CC BY-SA 4.0.
Exemple query-uri SPARQL: Nu uitați să selectați setul de date SiMoNERo adecvat!
Corpusul "ROBIN Technical Acquisition Speech Corpus (ROBINTASC)" a fost dezvoltat în cadrul proiectului ROBIN. Scopul său a fost de a îmbunătăți performanțele unui agent conversațional, permițând interacțiunea om-robot în contextul achiziționării de echipament tehnic. Conține peste 6 ore de înregistrări audio în limba Română. Sunt oferite fișierele text, fișierele audio asociate (WAV, 44.1KHz, 16-bit, single channel), fișiere text adnotate în format CoNLL-U. Arhiva principală este disponibilă aici.
Corpusul este disponibil cu licența CC BY-NC-ND 4.0.
Exemple query-uri SPARQL:
RoLEX conține 330.866 de intrări, pentru fiecare dintre ele precizându-se lema, descrierea morfosintactică, silabele conținute, locul de plasare a accentului și transcrierea fonetică (în alfabetul SAMPA). Acest lexicon a fost dezvoltat în cadrul proiectului ReTeRom.
Corpusul este disponibil cu licența CC BY-NC-ND 4.0.
Exemple query-uri SPARQL: