Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza
Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza
Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
A2. Extragerea <strong>de</strong> opinii din texte <br />
Se dorește realizarea unui program capabil să <strong>de</strong>pisteze și să expliciteze aprecieri <br />
calitative asupra unor entităţți (companii, produse, persoane, regiuni geografice etc.). <br />
Se intenţționează recuperarea tripletelor <strong>de</strong> forma , <br />
în care marchează un nume <strong>de</strong> entitate, marchează o <br />
proprietate (tehnologie, produs, serie <strong>de</strong> fabricaţție, brand etc.) asupra căreia textul <br />
emite o apreciere, iar precizează aprecierea (pozitivă ori negativă, cu <br />
diverse gra<strong>de</strong> <strong>de</strong> intensificare ori negare). <br />
De exemplu, în fraza: „Vodafone România oferă cea mai bună conectivitate pentru <br />
serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din România.” <br />
= “Vodafone România” <br />
= “conectivitate” <br />
= “cea mai bună” <br />
Metodologia <strong>de</strong> lucru este aproximativ următoarea: <br />
1. Se adnotează XML (folosind adnotatorul Palinka) un mic corpus la: entităţți <br />
(ne), categorii (cat) și valori (value). Un face legatura între o entitate <br />
() și o categorie (). De exemplu: <br />
Vodafone România oferă cea mai bună conectivitate pentru <br />
serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din <br />
România. <br />
Mai sus nu există confuzii datorate id-‐urilor i<strong>de</strong>ntice pt ca sunt în domenii diferite <br />
<strong>de</strong> elemente XML. <br />
2. Se vor recunoaște în text și adnota grupurile nominale <strong>de</strong> interes pentru <br />
aplicaţție (NP-‐chunker; tehnologie internă FII). <br />
3. Se recuperează automat din text numele <strong>de</strong> entităţți (ne). Se va utiliza un <br />
recunoscător <strong>de</strong> nume <strong>de</strong> entităţți (tehnologie GATE open source). <br />
4. Vor fi recuperate legăturile <strong>de</strong> natură anaforică din text (datorate pronumelor) <br />
cu RARE (Robust Anaphora Resolution Engine; tehnologie internă FII). Acest lucru <br />
va face ca aprecierile pe care textul le exprimă asupra acelorași entităţți să fie <br />
toate grupate împreună. <br />
5. Se va face o analiză sintactică a textului, utilizând un parser FDG (Functional <br />
Depen<strong>de</strong>ncy Grammar; tehnologie internă FII). <br />
6. Se vor scrie expresii regulate pt recunoașterea valorilor, a modificatorilor și a <br />
categoriilor <strong>de</strong> interes, <strong>de</strong>ocamdată fără a preciza conectorii din valori care leagă <br />
entităţțile <strong>de</strong> categorii.