Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

More documents

Recommendations

Info

A2. Extragerea de opinii din texte Se dorește realizarea unui program capabil să depisteze și să expliciteze aprecieri calitative asupra unor entităţți (companii, produse, persoane, regiuni geografice etc.). Se intenţționează recuperarea tripletelor de forma , în care marchează un nume de entitate, marchează o proprietate (tehnologie, produs, serie de fabricaţție, brand etc.) asupra căreia textul emite o apreciere, iar precizează aprecierea (pozitivă ori negativă, cu diverse grade de intensificare ori negare). De exemplu, în fraza: „Vodafone România oferă cea mai bună conectivitate pentru serviciile de date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din România.” = “Vodafone România” = “conectivitate” = “cea mai bună” Metodologia de lucru este aproximativ următoarea: 1. Se adnotează XML (folosind adnotatorul Palinka) un mic corpus la: entităţți (ne), categorii (cat) și valori (value). Un face legatura între o entitate () și o categorie (). De exemplu: Vodafone România oferă cea mai bună conectivitate pentru serviciile de date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din România. Mai sus nu există confuzii datorate id-‐urilor identice pt ca sunt în domenii diferite de elemente XML. 2. Se vor recunoaște în text și adnota grupurile nominale de interes pentru aplicaţție (NP-‐chunker; tehnologie internă FII). 3. Se recuperează automat din text numele de entităţți (ne). Se va utiliza un recunoscător de nume de entităţți (tehnologie GATE open source). 4. Vor fi recuperate legăturile de natură anaforică din text (datorate pronumelor) cu RARE (Robust Anaphora Resolution Engine; tehnologie internă FII). Acest lucru va face ca aprecierile pe care textul le exprimă asupra acelorași entităţți să fie toate grupate împreună. 5. Se va face o analiză sintactică a textului, utilizând un parser FDG (Functional Dependency Grammar; tehnologie internă FII). 6. Se vor scrie expresii regulate pt recunoașterea valorilor, a modificatorilor și a categoriilor de interes, deocamdată fără a preciza conectorii din valori care leagă entităţțile de categorii.
7. Pe arborii sintactici generaţți se vor scrie un alt set de expresii regulate care să recupereze legăturile dintre entităţți, categorii și valori. 8. Se va scrie o interfaţță care va pune în evidenţță fie scoruri globale atașate entităţților, fie, la cerere -‐ valori specifice pe categorii. Se vor gândi strategii de micșorare a timpului de calcul pt tot acest lanţț de procese (rulări în background, distribuirea calculului în grid etc.). Îndrumare: Dan Cristea (procesare texte), grupul Inteligentics (probleme de interfaţță și servicii client). A3. Extragerea de informații etno-culturale din texte Programul trebuie să fie capabil să prelucreze texte din registrul literar al descrierilor de călătorii, în care să caute menţțiuni de localităţți, populaţții, amănunte privind vestimentaţția locuitorilor, originea și starea lor socială, animale, agricultură, ocupaţții, cutume religioase și ale comunităţții, detalii arhitectonice ale locuinţțelor etc., pe care să le interpreteze ca atare (etichetare XML). O a doua fază se va ocupa de crearea unei biblioteci de imagini din care să se selecteze și să se așeze pe o hartă creată în mediul Google Earth schiţțe ale așezărilor, cu diferite grade de detalii, care să „reconstituie” cât mai fidel comunităţțile umane descrise în text. Întreaga aplicaţție ar urma să creeze ilustraţții dinamice la texte, de natură etno-‐culturală, în folosul muzeelor digitale. Îndrumare în echipă: Dan Cristea (prelucrări textuale), Daniela Dumbravă (istorie și etnografie), cu ajutor din partea Aneimaria Ciucanu (tehnologia Google Earth) și Georgianei Cărăușu (extrageri de informaţții din texte). A4. Reconstituirea lanţțurilor de importuri etimologice Se urmărește recreerea parcursurilor etimologice ale cuvintelor pe un teritoriu (Europa Centrală și de Est) și un interval (de stabilit). Un cuvânt se poate transforma prin derivare și împrumuta dintr-‐o limbă într-‐alta. Vor fi stabilite o seamă de transformări elementare pe care le pot suferi cuvintele și conceptele (import cu păstrarea sensului, import cu deviaţție de sens, calchiere, etc.) și modul în care transformările pot modifica cuvintele și sensurile lor. Vor fi parametrizate și etichetate tipurile de importuri. Se va face apel la dicţționare, cu precădere etimologice, ale unui număr de limbi din zona studiată pentru a se stabili importurile și tipurile lor. Se dorește detectarea unui număr extrem de mare de astfel de legături, stabilirea de trasee etimologice. Rezultatul trebuie să fie trasee etimologice pe cuvinte ori global, pe limbi, vizualizate pe hărţți și perioade de timp. Cercetarea se face în colaborare cu un student de la Facultatea de Litere și cu cercetători de la Institutul de Literatură Română Alexandru Philippide din Iași. Îndrumare: Dan Cristea (prelucrări textuale) și Gabiela Haja (etimologie, lexicografie).
Page 1: Universitatea „Alexandru Ioan
Page 5: Referinţțe Cosman, C. 2001. M

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

Create successful ePaper yourself

Delete template?

Save as template?