07.05.2014 Views

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

Teme de licenta 2012 - Universitatea Alexandru Ioan Cuza

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

A2. Extragerea <strong>de</strong> opinii din texte <br />

Se dorește realizarea unui program capabil să <strong>de</strong>pisteze și să expliciteze aprecieri <br />

calitative asupra unor entităţți (companii, produse, persoane, regiuni geografice etc.). <br />

Se intenţționează recuperarea tripletelor <strong>de</strong> forma , <br />

în care marchează un nume <strong>de</strong> entitate, marchează o <br />

proprietate (tehnologie, produs, serie <strong>de</strong> fabricaţție, brand etc.) asupra căreia textul <br />

emite o apreciere, iar precizează aprecierea (pozitivă ori negativă, cu <br />

diverse gra<strong>de</strong> <strong>de</strong> intensificare ori negare). <br />

De exemplu, în fraza: „Vodafone România oferă cea mai bună conectivitate pentru <br />

serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din România.” <br />

= “Vodafone România” <br />

= “conectivitate” <br />

= “cea mai bună” <br />

Metodologia <strong>de</strong> lucru este aproximativ următoarea: <br />

1. Se adnotează XML (folosind adnotatorul Palinka) un mic corpus la: entităţți <br />

(ne), categorii (cat) și valori (value). Un face legatura între o entitate <br />

() și o categorie (). De exemplu: <br />

Vodafone România oferă cea mai bună conectivitate pentru <br />

serviciile <strong>de</strong> date dintre toate reţțelele mobile GSM/ UMTS/ CDMA din <br />

România. <br />

Mai sus nu există confuzii datorate id-­‐urilor i<strong>de</strong>ntice pt ca sunt în domenii diferite <br />

<strong>de</strong> elemente XML. <br />

2. Se vor recunoaște în text și adnota grupurile nominale <strong>de</strong> interes pentru <br />

aplicaţție (NP-­‐chunker; tehnologie internă FII). <br />

3. Se recuperează automat din text numele <strong>de</strong> entităţți (ne). Se va utiliza un <br />

recunoscător <strong>de</strong> nume <strong>de</strong> entităţți (tehnologie GATE open source). <br />

4. Vor fi recuperate legăturile <strong>de</strong> natură anaforică din text (datorate pronumelor) <br />

cu RARE (Robust Anaphora Resolution Engine; tehnologie internă FII). Acest lucru <br />

va face ca aprecierile pe care textul le exprimă asupra acelorași entităţți să fie <br />

toate grupate împreună. <br />

5. Se va face o analiză sintactică a textului, utilizând un parser FDG (Functional <br />

Depen<strong>de</strong>ncy Grammar; tehnologie internă FII). <br />

6. Se vor scrie expresii regulate pt recunoașterea valorilor, a modificatorilor și a <br />

categoriilor <strong>de</strong> interes, <strong>de</strong>ocamdată fără a preciza conectorii din valori care leagă <br />

entităţțile <strong>de</strong> categorii.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!