Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza
Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza
Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Universitatea</strong> „<strong>Alexandru</strong> <strong>Ioan</strong> <strong>Cuza</strong>” Iaşi <br />
Facultatea <strong>de</strong> Informatică <br />
Grupul <strong>de</strong> Tehnologii ale Limbajului Natural (FII-‐NLP) <br />
<strong>Teme</strong> <strong>de</strong> licenţă – sesiunea <strong>2012</strong> <br />
A. Tehnologii <strong>de</strong> prelucrare a limbajului natural <br />
A.1 Etichetare aproximativă la parte <strong>de</strong> vorbire <br />
Mă interesează să realizăm un program capabil să eticheteze la parte <strong>de</strong> vorbire un <br />
text cu erori. Seria <strong>de</strong> procesări este următoarea: <br />
Intrare: o carte => se scanează => un fișier tif sau pdf => se OCR-‐izează (Optical <br />
Character Recognition) => un fișier txt în care multe cuvinte sunt eronate => program <br />
lematizor (există) + etichetare la parte <strong>de</strong> vorbire (pos=part of speech; program <br />
bazat pe optimizarea unor lanţțuri Markov; există): cuvintele necunoscute vor primi <br />
una sau mai multe etichete cu diverse gra<strong>de</strong> <strong>de</strong> încre<strong>de</strong>re => se compară cuvintele <br />
necunoscute cu o listă exhaustivă <strong>de</strong> cuvinte ale limbii (există) => variante probabile <br />
(cu diverse probabilităţți asociate) => se aleg variantele <strong>de</strong> <strong>de</strong> <br />
probabilitate combinată maximă (aici este contribuţția dumneavoastră). <br />
I<strong>de</strong>ea este <strong>de</strong> a propune mai multe variante <strong>de</strong> încadrări contextuale din care să se <br />
extragă tripletul cel mai probabil: <strong>de</strong> exemplu contexte semantice. Proiectul combină <br />
tehnologii ale prelucrării limbajului natural cu statistică. <br />
Ne interesează să adaptăm pentru Sketch Engine (http://www.sketchengine.co.uk/) <br />
o foarte importantă colecţție <strong>de</strong> texte românești, care au fost folosite drept surse <br />
bibliografice la realizarea marelui Dicţționar Tezaur al Limbii Române, lucrare <br />
monumentală a Aca<strong>de</strong>miei Române (36 volume, tipărite între 1914 și 2010). În acest <br />
dicţționar, fiecare sens al fiecărui cuvânt este exemplificat cu citate din literatura <br />
romană scrisă. Aceste citate sunt culese din aprox. 3000 <strong>de</strong> volume. Într-‐un proiect <br />
încheiat recent s-‐a realizat varianta electronică a Dicţționarului și scanarea a <br />
aproximativ jumătate din aceste cărţți, care sunt acum plasate într-‐o bibliotecă <br />
online. Cum crearea dicţționarului a durat un secol, timp în care multe cuvinte au <br />
rămas în urmă faţță <strong>de</strong> evoluţția limbii, Aca<strong>de</strong>mia dorește actualizarea lui. Desigur <br />
această etapă <strong>de</strong> actualizare trebuie să fie mult mai rapida și să fie făcută cu meto<strong>de</strong> <br />
lexicografice mo<strong>de</strong>rne. Vor fi adăugate noi surse bibliografice, dar se are în ve<strong>de</strong>re și <br />
folosirea celor existente (publicate recent) din care să se extragă colocaţții pentru <br />
cuvintele incluse în dicţționar în primele volume tipărite. <br />
Îndrumare: Dan Cristea, cu ajutor din partea Monicăi Macoveiciuc <br />
Lecturi și sisteme: Adam Kilgarriff: Sketch Engine, Monica Macoveiciuc: Analiză <strong>de</strong> <br />
corpus românesc folosind Sketch Engine (lucrare <strong>de</strong> licenţță FII).
A2. Extragerea <strong>de</strong> opinii din texte <br />
Se dorește realizarea unui program capabil să <strong>de</strong>pisteze și să expliciteze aprecieri <br />
calitative asupra unor entităţți (companii, produse, persoane, regiuni geografice etc.). <br />
Se intenţționează recuperarea tripletelor <strong>de</strong> forma , <br />
în care marchează un nume <strong>de</strong> entitate, marchează o <br />
proprietate (tehnologie, produs, serie <strong>de</strong> fabricaţție, brand etc.) asupra căreia textul <br />
emite o apreciere, iar precizează aprecierea (pozitivă ori negativă, cu <br />
diverse gra<strong>de</strong> <strong>de</strong> intensificare ori negare). <br />
De exemplu, în fraza: „Vodafone România oferă cea mai bună conectivitate pentru <br />
serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din România.” <br />
= “Vodafone România” <br />
= “conectivitate” <br />
= “cea mai bună” <br />
Metodologia <strong>de</strong> lucru este aproximativ următoarea: <br />
1. Se adnotează XML (folosind adnotatorul Palinka) un mic corpus la: entităţți <br />
(ne), categorii (cat) și valori (value). Un face legatura între o entitate <br />
() și o categorie (). De exemplu: <br />
Vodafone România oferă cea mai bună conectivitate pentru <br />
serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din <br />
România. <br />
Mai sus nu există confuzii datorate id-‐urilor i<strong>de</strong>ntice pt ca sunt în domenii diferite <br />
<strong>de</strong> elemente XML. <br />
2. Se vor recunoaște în text și adnota grupurile nominale <strong>de</strong> interes pentru <br />
aplicaţție (NP-‐chunker; tehnologie internă FII). <br />
3. Se recuperează automat din text numele <strong>de</strong> entităţți (ne). Se va utiliza un <br />
recunoscător <strong>de</strong> nume <strong>de</strong> entităţți (tehnologie GATE open source). <br />
4. Vor fi recuperate legăturile <strong>de</strong> natură anaforică din text (datorate pronumelor) <br />
cu RARE (Robust Anaphora Resolution Engine; tehnologie internă FII). Acest lucru <br />
va face ca aprecierile pe care textul le exprimă asupra acelorași entităţți să fie <br />
toate grupate împreună. <br />
5. Se va face o analiză sintactică a textului, utilizând un parser FDG (Functional <br />
Depen<strong>de</strong>ncy Grammar; tehnologie internă FII). <br />
6. Se vor scrie expresii regulate pt recunoașterea valorilor, a modificatorilor și a <br />
categoriilor <strong>de</strong> interes, <strong>de</strong>ocamdată fără a preciza conectorii din valori care leagă <br />
entităţțile <strong>de</strong> categorii.
7. Pe arborii sintactici generaţți se vor scrie un alt set <strong>de</strong> expresii regulate care să <br />
recupereze legăturile dintre entităţți, categorii și valori. <br />
8. Se va scrie o interfaţță care va pune în evi<strong>de</strong>nţță fie scoruri globale atașate <br />
entităţților, fie, la cerere -‐ valori specifice pe categorii. Se vor gândi strategii <strong>de</strong> <br />
micșorare a timpului <strong>de</strong> calcul pt tot acest lanţț <strong>de</strong> procese (rulări în background, <br />
distribuirea calculului în grid etc.). <br />
Îndrumare: Dan Cristea (procesare texte), grupul Inteligentics (probleme <strong>de</strong> interfaţță <br />
și servicii client). <br />
A3. Extragerea <strong>de</strong> informații etno-culturale din texte <br />
Programul trebuie să fie capabil să prelucreze texte din registrul literar al <strong>de</strong>scrierilor <br />
<strong>de</strong> călătorii, în care să caute menţțiuni <strong>de</strong> localităţți, populaţții, amănunte privind <br />
vestimentaţția locuitorilor, originea și starea lor socială, animale, agricultură, ocupaţții, <br />
cutume religioase și ale comunităţții, <strong>de</strong>talii arhitectonice ale locuinţțelor etc., pe care <br />
să le interpreteze ca atare (etichetare XML). O a doua fază se va ocupa <strong>de</strong> crearea <br />
unei biblioteci <strong>de</strong> imagini din care să se selecteze și să se așeze pe o hartă creată în <br />
mediul Google Earth schiţțe ale așezărilor, cu diferite gra<strong>de</strong> <strong>de</strong> <strong>de</strong>talii, care să <br />
„reconstituie” cât mai fi<strong>de</strong>l comunităţțile umane <strong>de</strong>scrise în text. Întreaga aplicaţție ar <br />
urma să creeze ilustraţții dinamice la texte, <strong>de</strong> natură etno-‐culturală, în folosul <br />
muzeelor digitale. <br />
Îndrumare în echipă: Dan Cristea (prelucrări textuale), Daniela Dumbravă (istorie și <br />
etnografie), cu ajutor din partea Aneimaria Ciucanu (tehnologia Google Earth) și <br />
Georgianei Cărăușu (extrageri <strong>de</strong> informaţții din texte). <br />
A4. Reconstituirea lanţțurilor <strong>de</strong> importuri etimologice <br />
Se urmărește recreerea parcursurilor etimologice ale cuvintelor pe un teritoriu <br />
(Europa Centrală și <strong>de</strong> Est) și un interval (<strong>de</strong> stabilit). Un cuvânt se poate transforma <br />
prin <strong>de</strong>rivare și împrumuta dintr-‐o limbă într-‐alta. Vor fi stabilite o seamă <strong>de</strong> <br />
transformări elementare pe care le pot suferi cuvintele și conceptele (import cu <br />
păstrarea sensului, import cu <strong>de</strong>viaţție <strong>de</strong> sens, calchiere, etc.) și modul în care <br />
transformările pot modifica cuvintele și sensurile lor. <br />
Vor fi parametrizate și etichetate tipurile <strong>de</strong> importuri. Se va face apel la dicţționare, <br />
cu precă<strong>de</strong>re etimologice, ale unui număr <strong>de</strong> limbi din zona studiată pentru a se <br />
stabili importurile și tipurile lor. Se dorește <strong>de</strong>tectarea unui număr extrem <strong>de</strong> mare <br />
<strong>de</strong> astfel <strong>de</strong> legături, stabilirea <strong>de</strong> trasee etimologice. Rezultatul trebuie să fie trasee <br />
etimologice pe cuvinte ori global, pe limbi, vizualizate pe hărţți și perioa<strong>de</strong> <strong>de</strong> timp. <br />
Cercetarea se face în colaborare cu un stu<strong>de</strong>nt <strong>de</strong> la Facultatea <strong>de</strong> Litere și cu <br />
cercetători <strong>de</strong> la Institutul <strong>de</strong> Literatură Română <strong>Alexandru</strong> Philippi<strong>de</strong> din Iași. <br />
Îndrumare: Dan Cristea (prelucrări textuale) și Gabiela Haja (etimologie, lexicografie).
A5. Integrarea morfologiei flexionare româneşti în browserele eDTLR: in<strong>de</strong>xarea în <br />
surse a variantelor lexicale (forme vechi ale cuvintelor) <br />
În cadrul colectivului FII-‐NLP s-‐a <strong>de</strong>zvoltat un program capabil să flexioneze orice <br />
cuvânt al limbii române. Există în <strong>de</strong>rulare un proiect care adaugă la funcţționalitatea <br />
menţționată şi capacitatea <strong>de</strong> generare a formelor vechi ale cuvintelor româneşti. <br />
Marele dicţționar tezaur (eDTLR) inclu<strong>de</strong> extrem <strong>de</strong> multe variante <strong>de</strong> cuvinte <br />
româneşti care au o răspândire regională ori constituie forme arhaice. Se doreşte ca <br />
accesul în dicţționar să se poată face prin orice formă flexionată, indiferent dacă ea <br />
este una aflată în uzul curent al limbii sau este una <strong>de</strong> circulaţție restrânsă. Aceasta <br />
presupune reconstituirea formei <strong>de</strong> bază plecând <strong>de</strong> la forma flexionată şi corelarea <br />
acesteia cu intrarea corespunzătoare din eDTLR. Proiectul va urmări realizarea <strong>de</strong> <br />
algoritmi <strong>de</strong> <strong>de</strong>tectare a similarităţții între cuvinte, urmat <strong>de</strong> aplicarea lor la regăsirea <br />
paradigmelor complete ale cuvintelor din eDTLR. <br />
Bibliografie: Cosman, 2001; Cristea&Răschip, 2008. <br />
Îndrumare: Dan Cristea <br />
A6. Mo<strong>de</strong>l <strong>de</strong> centru <strong>de</strong> prelucrări lingvistice <br />
Se va continua un proiect finalizat în 2010 (Florin Serediuc, <br />
florin.serediuc@info.uaic.ro), care-‐şi propunea configurarea, din punct <strong>de</strong> ve<strong>de</strong>re <br />
tehnic şi informaţțional, a un centru capabil să prelucreze mulţținea textelor <br />
româneşti care se tipăresc zilnic în România. Se presupune că o lege obligă editurile <br />
să <strong>de</strong>pună o copie electronică a tuturor tipăriturilor, înainte <strong>de</strong> publicarea propriu-zisă.<br />
<br />
Proiectul ar trebui să implementeze tehnici <strong>de</strong> prelucrare on-‐line a textelor <br />
româneşti: <br />
-‐ adnotări: formate XML (v. TEI-‐P5), hea<strong>de</strong>r-‐e în care trebuie îmbrăcate <br />
documentele; <br />
-‐ prelucrări cu <strong>de</strong>stinaţție <strong>de</strong> cercetare: <strong>de</strong>terminarea formei lemă a cuvintelor, <br />
inventarul lemelor, i<strong>de</strong>ntificarea cuvintelor străine, i<strong>de</strong>ntificarea sensurilor cuvintelor <br />
în context, statistici, tipuri <strong>de</strong> acces în colecţție; <br />
-‐ mo<strong>de</strong>le <strong>de</strong> business: utilizări comerciale în beneficiul contribuabililor. <br />
Bibliografie: Cristea, 2010. <br />
Îndrumare: Dan Cristea <br />
Pot fi formulate și alte lucrări din zona prelucrării limbajului natural și al <br />
inteligenţței artificiale.
Referinţțe <br />
Cosman, C. 2001. Morfologia paradigmatică a limbii române. Mediu <strong>de</strong> <strong>de</strong>zvoltare / <br />
actualizare. Teză <strong>de</strong> disertaţție. Facultatea <strong>de</strong> Informatică. <br />
Cristea, D. (2010). Very large language resources? At our finger! In Proceedings of <br />
the Workshop Language Resources: From Storyboard to Sustainability and LR <br />
Lifecycle Management, LREC 2010, Malta. <br />
Cristea, D., Răschip, M. (2008): Linking A Digital Dictionary Onto Its Sources, FASSBL <br />
Proceedings, Dubrovnik.