Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

Universitatea „Alexandru Ioan Cuza” Iaşi 

Facultatea de Informatică 

Grupul de Tehnologii ale Limbajului Natural (FII-‐NLP) 

Teme de licenţă – sesiunea 2012 

A. Tehnologii de prelucrare a limbajului natural 

A.1 Etichetare aproximativă la parte de vorbire 

Mă interesează să realizăm un program capabil să eticheteze la parte de vorbire un 

text cu erori. Seria de procesări este următoarea: 

Intrare: o carte => se scanează => un fișier tif sau pdf => se OCR-‐izează (Optical 

Character Recognition) => un fișier txt în care multe cuvinte sunt eronate => program 

lematizor (există) + etichetare la parte de vorbire (pos=part of speech; program 

bazat pe optimizarea unor lanţțuri Markov; există): cuvintele necunoscute vor primi 

una sau mai multe etichete cu diverse grade de încredere => se compară cuvintele 

necunoscute cu o listă exhaustivă de cuvinte ale limbii (există) => variante probabile 

(cu diverse probabilităţți asociate) => se aleg variantele de de 

probabilitate combinată maximă (aici este contribuţția dumneavoastră). 

Ideea este de a propune mai multe variante de încadrări contextuale din care să se 

extragă tripletul cel mai probabil: de exemplu contexte semantice. Proiectul combină 

tehnologii ale prelucrării limbajului natural cu statistică. 

Ne interesează să adaptăm pentru Sketch Engine (http://www.sketchengine.co.uk/) 

o foarte importantă colecţție de texte românești, care au fost folosite drept surse 

bibliografice la realizarea marelui Dicţționar Tezaur al Limbii Române, lucrare 

monumentală a Academiei Române (36 volume, tipărite între 1914 și 2010). În acest 

dicţționar, fiecare sens al fiecărui cuvânt este exemplificat cu citate din literatura 

romană scrisă. Aceste citate sunt culese din aprox. 3000 de volume. Într-‐un proiect 

încheiat recent s-‐a realizat varianta electronică a Dicţționarului și scanarea a 

aproximativ jumătate din aceste cărţți, care sunt acum plasate într-‐o bibliotecă 

online. Cum crearea dicţționarului a durat un secol, timp în care multe cuvinte au 

rămas în urmă faţță de evoluţția limbii, Academia dorește actualizarea lui. Desigur 

această etapă de actualizare trebuie să fie mult mai rapida și să fie făcută cu metode 

lexicografice moderne. Vor fi adăugate noi surse bibliografice, dar se are în vedere și 

folosirea celor existente (publicate recent) din care să se extragă colocaţții pentru 

cuvintele incluse în dicţționar în primele volume tipărite. 

Îndrumare: Dan Cristea, cu ajutor din partea Monicăi Macoveiciuc 

Lecturi și sisteme: Adam Kilgarriff: Sketch Engine, Monica Macoveiciuc: Analiză de 

corpus românesc folosind Sketch Engine (lucrare de licenţță FII).

A2. Extragerea de opinii din texte 

Se dorește realizarea unui program capabil să depisteze și să expliciteze aprecieri 

calitative asupra unor entităţți (companii, produse, persoane, regiuni geografice etc.). 

Se intenţționează recuperarea tripletelor de forma , 

în care marchează un nume de entitate, marchează o 

proprietate (tehnologie, produs, serie de fabricaţție, brand etc.) asupra căreia textul 

emite o apreciere, iar precizează aprecierea (pozitivă ori negativă, cu 

diverse grade de intensificare ori negare). 

De exemplu, în fraza: „Vodafone România oferă cea mai bună conectivitate pentru 

serviciile de date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din România.” 

= “Vodafone România” 

= “conectivitate” 

= “cea mai bună” 

Metodologia de lucru este aproximativ următoarea: 

1. Se adnotează XML (folosind adnotatorul Palinka) un mic corpus la: entităţți 

(ne), categorii (cat) și valori (value). Un face legatura între o entitate 

() și o categorie (). De exemplu: 

Vodafone România oferă cea mai bună conectivitate pentru 

serviciile de date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din 

România. 

Mai sus nu există confuzii datorate id-‐urilor identice pt ca sunt în domenii diferite 

de elemente XML. 

2. Se vor recunoaște în text și adnota grupurile nominale de interes pentru 

aplicaţție (NP-‐chunker; tehnologie internă FII). 

3. Se recuperează automat din text numele de entităţți (ne). Se va utiliza un 

recunoscător de nume de entităţți (tehnologie GATE open source). 

4. Vor fi recuperate legăturile de natură anaforică din text (datorate pronumelor) 

cu RARE (Robust Anaphora Resolution Engine; tehnologie internă FII). Acest lucru 

va face ca aprecierile pe care textul le exprimă asupra acelorași entităţți să fie 

toate grupate împreună. 

5. Se va face o analiză sintactică a textului, utilizând un parser FDG (Functional 

Dependency Grammar; tehnologie internă FII). 

6. Se vor scrie expresii regulate pt recunoașterea valorilor, a modificatorilor și a 

categoriilor de interes, deocamdată fără a preciza conectorii din valori care leagă 

entităţțile de categorii.

7. Pe arborii sintactici generaţți se vor scrie un alt set de expresii regulate care să 

recupereze legăturile dintre entităţți, categorii și valori. 

8. Se va scrie o interfaţță care va pune în evidenţță fie scoruri globale atașate 

entităţților, fie, la cerere -‐ valori specifice pe categorii. Se vor gândi strategii de 

micșorare a timpului de calcul pt tot acest lanţț de procese (rulări în background, 

distribuirea calculului în grid etc.). 

Îndrumare: Dan Cristea (procesare texte), grupul Inteligentics (probleme de interfaţță 

și servicii client). 

A3. Extragerea de informații etno-culturale din texte 

Programul trebuie să fie capabil să prelucreze texte din registrul literar al descrierilor 

de călătorii, în care să caute menţțiuni de localităţți, populaţții, amănunte privind 

vestimentaţția locuitorilor, originea și starea lor socială, animale, agricultură, ocupaţții, 

cutume religioase și ale comunităţții, detalii arhitectonice ale locuinţțelor etc., pe care 

să le interpreteze ca atare (etichetare XML). O a doua fază se va ocupa de crearea 

unei biblioteci de imagini din care să se selecteze și să se așeze pe o hartă creată în 

mediul Google Earth schiţțe ale așezărilor, cu diferite grade de detalii, care să 

„reconstituie” cât mai fidel comunităţțile umane descrise în text. Întreaga aplicaţție ar 

urma să creeze ilustraţții dinamice la texte, de natură etno-‐culturală, în folosul 

muzeelor digitale. 

Îndrumare în echipă: Dan Cristea (prelucrări textuale), Daniela Dumbravă (istorie și 

etnografie), cu ajutor din partea Aneimaria Ciucanu (tehnologia Google Earth) și 

Georgianei Cărăușu (extrageri de informaţții din texte). 

A4. Reconstituirea lanţțurilor de importuri etimologice 

Se urmărește recreerea parcursurilor etimologice ale cuvintelor pe un teritoriu 

(Europa Centrală și de Est) și un interval (de stabilit). Un cuvânt se poate transforma 

prin derivare și împrumuta dintr-‐o limbă într-‐alta. Vor fi stabilite o seamă de 

transformări elementare pe care le pot suferi cuvintele și conceptele (import cu 

păstrarea sensului, import cu deviaţție de sens, calchiere, etc.) și modul în care 

transformările pot modifica cuvintele și sensurile lor. 

Vor fi parametrizate și etichetate tipurile de importuri. Se va face apel la dicţționare, 

cu precădere etimologice, ale unui număr de limbi din zona studiată pentru a se 

stabili importurile și tipurile lor. Se dorește detectarea unui număr extrem de mare 

de astfel de legături, stabilirea de trasee etimologice. Rezultatul trebuie să fie trasee 

etimologice pe cuvinte ori global, pe limbi, vizualizate pe hărţți și perioade de timp. 

Cercetarea se face în colaborare cu un student de la Facultatea de Litere și cu 

cercetători de la Institutul de Literatură Română Alexandru Philippide din Iași. 

Îndrumare: Dan Cristea (prelucrări textuale) și Gabiela Haja (etimologie, lexicografie).

A5. Integrarea morfologiei flexionare româneşti în browserele eDTLR: indexarea în 

surse a variantelor lexicale (forme vechi ale cuvintelor) 

În cadrul colectivului FII-‐NLP s-‐a dezvoltat un program capabil să flexioneze orice 

cuvânt al limbii române. Există în derulare un proiect care adaugă la funcţționalitatea 

menţționată şi capacitatea de generare a formelor vechi ale cuvintelor româneşti. 

Marele dicţționar tezaur (eDTLR) include extrem de multe variante de cuvinte 

româneşti care au o răspândire regională ori constituie forme arhaice. Se doreşte ca 

accesul în dicţționar să se poată face prin orice formă flexionată, indiferent dacă ea 

este una aflată în uzul curent al limbii sau este una de circulaţție restrânsă. Aceasta 

presupune reconstituirea formei de bază plecând de la forma flexionată şi corelarea 

acesteia cu intrarea corespunzătoare din eDTLR. Proiectul va urmări realizarea de 

algoritmi de detectare a similarităţții între cuvinte, urmat de aplicarea lor la regăsirea 

paradigmelor complete ale cuvintelor din eDTLR. 

Bibliografie: Cosman, 2001; Cristea&Răschip, 2008. 

Îndrumare: Dan Cristea 

A6. Model de centru de prelucrări lingvistice 

Se va continua un proiect finalizat în 2010 (Florin Serediuc, 

florin.serediuc@info.uaic.ro), care-‐şi propunea configurarea, din punct de vedere 

tehnic şi informaţțional, a un centru capabil să prelucreze mulţținea textelor 

româneşti care se tipăresc zilnic în România. Se presupune că o lege obligă editurile 

să depună o copie electronică a tuturor tipăriturilor, înainte de publicarea propriu-zisă. 

 

Proiectul ar trebui să implementeze tehnici de prelucrare on-‐line a textelor 

româneşti: 

-‐ adnotări: formate XML (v. TEI-‐P5), header-‐e în care trebuie îmbrăcate 

documentele; 

-‐ prelucrări cu destinaţție de cercetare: determinarea formei lemă a cuvintelor, 

inventarul lemelor, identificarea cuvintelor străine, identificarea sensurilor cuvintelor 

în context, statistici, tipuri de acces în colecţție; 

-‐ modele de business: utilizări comerciale în beneficiul contribuabililor. 

Bibliografie: Cristea, 2010. 

Îndrumare: Dan Cristea 

Pot fi formulate și alte lucrări din zona prelucrării limbajului natural și al 

inteligenţței artificiale.

Referinţțe 

Cosman, C. 2001. Morfologia paradigmatică a limbii române. Mediu de dezvoltare / 

actualizare. Teză de disertaţție. Facultatea de Informatică. 

Cristea, D. (2010). Very large language resources? At our finger! In Proceedings of 

the Workshop Language Resources: From Storyboard to Sustainability and LR 

Lifecycle Management, LREC 2010, Malta. 

Cristea, D., Răschip, M. (2008): Linking A Digital Dictionary Onto Its Sources, FASSBL 

Proceedings, Dubrovnik.

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

Create successful ePaper yourself

Delete template?

Save as template?