07.05.2014 Views

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Universitatea</strong> „<strong>Alexandru</strong> <strong>Ioan</strong> <strong>Cuza</strong>” Iaşi <br />

Facultatea <strong>de</strong> Informatică <br />

Grupul <strong>de</strong> Tehnologii ale Limbajului Natural (FII-­‐NLP) <br />

<strong>Teme</strong> <strong>de</strong> licenţă – sesiunea <strong>2012</strong> <br />

A. Tehnologii <strong>de</strong> prelucrare a limbajului natural <br />

A.1 Etichetare aproximativă la parte <strong>de</strong> vorbire <br />

Mă interesează să realizăm un program capabil să eticheteze la parte <strong>de</strong> vorbire un <br />

text cu erori. Seria <strong>de</strong> procesări este următoarea: <br />

Intrare: o carte => se scanează => un fișier tif sau pdf => se OCR-­‐izează (Optical <br />

Character Recognition) => un fișier txt în care multe cuvinte sunt eronate => program <br />

lematizor (există) + etichetare la parte <strong>de</strong> vorbire (pos=part of speech; program <br />

bazat pe optimizarea unor lanţțuri Markov; există): cuvintele necunoscute vor primi <br />

una sau mai multe etichete cu diverse gra<strong>de</strong> <strong>de</strong> încre<strong>de</strong>re => se compară cuvintele <br />

necunoscute cu o listă exhaustivă <strong>de</strong> cuvinte ale limbii (există) => variante probabile <br />

(cu diverse probabilităţți asociate) => se aleg variantele <strong>de</strong> <strong>de</strong> <br />

probabilitate combinată maximă (aici este contribuţția dumneavoastră). <br />

I<strong>de</strong>ea este <strong>de</strong> a propune mai multe variante <strong>de</strong> încadrări contextuale din care să se <br />

extragă tripletul cel mai probabil: <strong>de</strong> exemplu contexte semantice. Proiectul combină <br />

tehnologii ale prelucrării limbajului natural cu statistică. <br />

Ne interesează să adaptăm pentru Sketch Engine (http://www.sketchengine.co.uk/) <br />

o foarte importantă colecţție <strong>de</strong> texte românești, care au fost folosite drept surse <br />

bibliografice la realizarea marelui Dicţționar Tezaur al Limbii Române, lucrare <br />

monumentală a Aca<strong>de</strong>miei Române (36 volume, tipărite între 1914 și 2010). În acest <br />

dicţționar, fiecare sens al fiecărui cuvânt este exemplificat cu citate din literatura <br />

romană scrisă. Aceste citate sunt culese din aprox. 3000 <strong>de</strong> volume. Într-­‐un proiect <br />

încheiat recent s-­‐a realizat varianta electronică a Dicţționarului și scanarea a <br />

aproximativ jumătate din aceste cărţți, care sunt acum plasate într-­‐o bibliotecă <br />

online. Cum crearea dicţționarului a durat un secol, timp în care multe cuvinte au <br />

rămas în urmă faţță <strong>de</strong> evoluţția limbii, Aca<strong>de</strong>mia dorește actualizarea lui. Desigur <br />

această etapă <strong>de</strong> actualizare trebuie să fie mult mai rapida și să fie făcută cu meto<strong>de</strong> <br />

lexicografice mo<strong>de</strong>rne. Vor fi adăugate noi surse bibliografice, dar se are în ve<strong>de</strong>re și <br />

folosirea celor existente (publicate recent) din care să se extragă colocaţții pentru <br />

cuvintele incluse în dicţționar în primele volume tipărite. <br />

Îndrumare: Dan Cristea, cu ajutor din partea Monicăi Macoveiciuc <br />

Lecturi și sisteme: Adam Kilgarriff: Sketch Engine, Monica Macoveiciuc: Analiză <strong>de</strong> <br />

corpus românesc folosind Sketch Engine (lucrare <strong>de</strong> licenţță FII).


A2. Extragerea <strong>de</strong> opinii din texte <br />

Se dorește realizarea unui program capabil să <strong>de</strong>pisteze și să expliciteze aprecieri <br />

calitative asupra unor entităţți (companii, produse, persoane, regiuni geografice etc.). <br />

Se intenţționează recuperarea tripletelor <strong>de</strong> forma , <br />

în care marchează un nume <strong>de</strong> entitate, marchează o <br />

proprietate (tehnologie, produs, serie <strong>de</strong> fabricaţție, brand etc.) asupra căreia textul <br />

emite o apreciere, iar precizează aprecierea (pozitivă ori negativă, cu <br />

diverse gra<strong>de</strong> <strong>de</strong> intensificare ori negare). <br />

De exemplu, în fraza: „Vodafone România oferă cea mai bună conectivitate pentru <br />

serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din România.” <br />

= “Vodafone România” <br />

= “conectivitate” <br />

= “cea mai bună” <br />

Metodologia <strong>de</strong> lucru este aproximativ următoarea: <br />

1. Se adnotează XML (folosind adnotatorul Palinka) un mic corpus la: entităţți <br />

(ne), categorii (cat) și valori (value). Un face legatura între o entitate <br />

() și o categorie (). De exemplu: <br />

Vodafone România oferă cea mai bună conectivitate pentru <br />

serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din <br />

România. <br />

Mai sus nu există confuzii datorate id-­‐urilor i<strong>de</strong>ntice pt ca sunt în domenii diferite <br />

<strong>de</strong> elemente XML. <br />

2. Se vor recunoaște în text și adnota grupurile nominale <strong>de</strong> interes pentru <br />

aplicaţție (NP-­‐chunker; tehnologie internă FII). <br />

3. Se recuperează automat din text numele <strong>de</strong> entităţți (ne). Se va utiliza un <br />

recunoscător <strong>de</strong> nume <strong>de</strong> entităţți (tehnologie GATE open source). <br />

4. Vor fi recuperate legăturile <strong>de</strong> natură anaforică din text (datorate pronumelor) <br />

cu RARE (Robust Anaphora Resolution Engine; tehnologie internă FII). Acest lucru <br />

va face ca aprecierile pe care textul le exprimă asupra acelorași entităţți să fie <br />

toate grupate împreună. <br />

5. Se va face o analiză sintactică a textului, utilizând un parser FDG (Functional <br />

Depen<strong>de</strong>ncy Grammar; tehnologie internă FII). <br />

6. Se vor scrie expresii regulate pt recunoașterea valorilor, a modificatorilor și a <br />

categoriilor <strong>de</strong> interes, <strong>de</strong>ocamdată fără a preciza conectorii din valori care leagă <br />

entităţțile <strong>de</strong> categorii.


7. Pe arborii sintactici generaţți se vor scrie un alt set <strong>de</strong> expresii regulate care să <br />

recupereze legăturile dintre entităţți, categorii și valori. <br />

8. Se va scrie o interfaţță care va pune în evi<strong>de</strong>nţță fie scoruri globale atașate <br />

entităţților, fie, la cerere -­‐ valori specifice pe categorii. Se vor gândi strategii <strong>de</strong> <br />

micșorare a timpului <strong>de</strong> calcul pt tot acest lanţț <strong>de</strong> procese (rulări în background, <br />

distribuirea calculului în grid etc.). <br />

Îndrumare: Dan Cristea (procesare texte), grupul Inteligentics (probleme <strong>de</strong> interfaţță <br />

și servicii client). <br />

A3. Extragerea <strong>de</strong> informații etno-culturale din texte <br />

Programul trebuie să fie capabil să prelucreze texte din registrul literar al <strong>de</strong>scrierilor <br />

<strong>de</strong> călătorii, în care să caute menţțiuni <strong>de</strong> localităţți, populaţții, amănunte privind <br />

vestimentaţția locuitorilor, originea și starea lor socială, animale, agricultură, ocupaţții, <br />

cutume religioase și ale comunităţții, <strong>de</strong>talii arhitectonice ale locuinţțelor etc., pe care <br />

să le interpreteze ca atare (etichetare XML). O a doua fază se va ocupa <strong>de</strong> crearea <br />

unei biblioteci <strong>de</strong> imagini din care să se selecteze și să se așeze pe o hartă creată în <br />

mediul Google Earth schiţțe ale așezărilor, cu diferite gra<strong>de</strong> <strong>de</strong> <strong>de</strong>talii, care să <br />

„reconstituie” cât mai fi<strong>de</strong>l comunităţțile umane <strong>de</strong>scrise în text. Întreaga aplicaţție ar <br />

urma să creeze ilustraţții dinamice la texte, <strong>de</strong> natură etno-­‐culturală, în folosul <br />

muzeelor digitale. <br />

Îndrumare în echipă: Dan Cristea (prelucrări textuale), Daniela Dumbravă (istorie și <br />

etnografie), cu ajutor din partea Aneimaria Ciucanu (tehnologia Google Earth) și <br />

Georgianei Cărăușu (extrageri <strong>de</strong> informaţții din texte). <br />

A4. Reconstituirea lanţțurilor <strong>de</strong> importuri etimologice <br />

Se urmărește recreerea parcursurilor etimologice ale cuvintelor pe un teritoriu <br />

(Europa Centrală și <strong>de</strong> Est) și un interval (<strong>de</strong> stabilit). Un cuvânt se poate transforma <br />

prin <strong>de</strong>rivare și împrumuta dintr-­‐o limbă într-­‐alta. Vor fi stabilite o seamă <strong>de</strong> <br />

transformări elementare pe care le pot suferi cuvintele și conceptele (import cu <br />

păstrarea sensului, import cu <strong>de</strong>viaţție <strong>de</strong> sens, calchiere, etc.) și modul în care <br />

transformările pot modifica cuvintele și sensurile lor. <br />

Vor fi parametrizate și etichetate tipurile <strong>de</strong> importuri. Se va face apel la dicţționare, <br />

cu precă<strong>de</strong>re etimologice, ale unui număr <strong>de</strong> limbi din zona studiată pentru a se <br />

stabili importurile și tipurile lor. Se dorește <strong>de</strong>tectarea unui număr extrem <strong>de</strong> mare <br />

<strong>de</strong> astfel <strong>de</strong> legături, stabilirea <strong>de</strong> trasee etimologice. Rezultatul trebuie să fie trasee <br />

etimologice pe cuvinte ori global, pe limbi, vizualizate pe hărţți și perioa<strong>de</strong> <strong>de</strong> timp. <br />

Cercetarea se face în colaborare cu un stu<strong>de</strong>nt <strong>de</strong> la Facultatea <strong>de</strong> Litere și cu <br />

cercetători <strong>de</strong> la Institutul <strong>de</strong> Literatură Română <strong>Alexandru</strong> Philippi<strong>de</strong> din Iași. <br />

Îndrumare: Dan Cristea (prelucrări textuale) și Gabiela Haja (etimologie, lexicografie).


A5. Integrarea morfologiei flexionare româneşti în browserele eDTLR: in<strong>de</strong>xarea în <br />

surse a variantelor lexicale (forme vechi ale cuvintelor) <br />

În cadrul colectivului FII-­‐NLP s-­‐a <strong>de</strong>zvoltat un program capabil să flexioneze orice <br />

cuvânt al limbii române. Există în <strong>de</strong>rulare un proiect care adaugă la funcţționalitatea <br />

menţționată şi capacitatea <strong>de</strong> generare a formelor vechi ale cuvintelor româneşti. <br />

Marele dicţționar tezaur (eDTLR) inclu<strong>de</strong> extrem <strong>de</strong> multe variante <strong>de</strong> cuvinte <br />

româneşti care au o răspândire regională ori constituie forme arhaice. Se doreşte ca <br />

accesul în dicţționar să se poată face prin orice formă flexionată, indiferent dacă ea <br />

este una aflată în uzul curent al limbii sau este una <strong>de</strong> circulaţție restrânsă. Aceasta <br />

presupune reconstituirea formei <strong>de</strong> bază plecând <strong>de</strong> la forma flexionată şi corelarea <br />

acesteia cu intrarea corespunzătoare din eDTLR. Proiectul va urmări realizarea <strong>de</strong> <br />

algoritmi <strong>de</strong> <strong>de</strong>tectare a similarităţții între cuvinte, urmat <strong>de</strong> aplicarea lor la regăsirea <br />

paradigmelor complete ale cuvintelor din eDTLR. <br />

Bibliografie: Cosman, 2001; Cristea&Răschip, 2008. <br />

Îndrumare: Dan Cristea <br />

A6. Mo<strong>de</strong>l <strong>de</strong> centru <strong>de</strong> prelucrări lingvistice <br />

Se va continua un proiect finalizat în 2010 (Florin Serediuc, <br />

florin.serediuc@info.uaic.ro), care-­‐şi propunea configurarea, din punct <strong>de</strong> ve<strong>de</strong>re <br />

tehnic şi informaţțional, a un centru capabil să prelucreze mulţținea textelor <br />

româneşti care se tipăresc zilnic în România. Se presupune că o lege obligă editurile <br />

să <strong>de</strong>pună o copie electronică a tuturor tipăriturilor, înainte <strong>de</strong> publicarea propriu-­zisă.<br />

<br />

Proiectul ar trebui să implementeze tehnici <strong>de</strong> prelucrare on-­‐line a textelor <br />

româneşti: <br />

-­‐ adnotări: formate XML (v. TEI-­‐P5), hea<strong>de</strong>r-­‐e în care trebuie îmbrăcate <br />

documentele; <br />

-­‐ prelucrări cu <strong>de</strong>stinaţție <strong>de</strong> cercetare: <strong>de</strong>terminarea formei lemă a cuvintelor, <br />

inventarul lemelor, i<strong>de</strong>ntificarea cuvintelor străine, i<strong>de</strong>ntificarea sensurilor cuvintelor <br />

în context, statistici, tipuri <strong>de</strong> acces în colecţție; <br />

-­‐ mo<strong>de</strong>le <strong>de</strong> business: utilizări comerciale în beneficiul contribuabililor. <br />

Bibliografie: Cristea, 2010. <br />

Îndrumare: Dan Cristea <br />

Pot fi formulate și alte lucrări din zona prelucrării limbajului natural și al <br />

inteligenţței artificiale.


Referinţțe <br />

Cosman, C. 2001. Morfologia paradigmatică a limbii române. Mediu <strong>de</strong> <strong>de</strong>zvoltare / <br />

actualizare. Teză <strong>de</strong> disertaţție. Facultatea <strong>de</strong> Informatică. <br />

Cristea, D. (2010). Very large language resources? At our finger! In Proceedings of <br />

the Workshop Language Resources: From Storyboard to Sustainability and LR <br />

Lifecycle Management, LREC 2010, Malta. <br />

Cristea, D., Răschip, M. (2008): Linking A Digital Dictionary Onto Its Sources, FASSBL <br />

Proceedings, Dubrovnik.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!