29.05.2013 Views

Consulta la tesi - AREA Science Park

Consulta la tesi - AREA Science Park

Consulta la tesi - AREA Science Park

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

8 Il Text Mining<br />

40<br />

Capitolo I – La gestione del<strong>la</strong> conoscenza<br />

Il processo di Text Mining è un’estensione di quello di Data Mining: esso è costruito da<br />

vari passi. L’Information Retrieval è <strong>la</strong> prima fase: si localizzano, identificano e<br />

recuperano documenti che possono essere considerati rilevanti per lo scopo prefissato. Di<br />

solito è l’utente che indirizza <strong>la</strong> ricerca tramite una richiesta specifica (query), ma spesso<br />

occorre comunque un sistema di filtraggio di documenti irrilevanti. Tecniche utilizzate per<br />

questo scopo sono le analisi cluster, l’indicizzazione di documenti (o <strong>la</strong>belling) e<br />

approcci per lo più statistici (pensiamo al Web Mining e al<strong>la</strong> c<strong>la</strong>ssificazione automatica<br />

delle pagine Web indicizzate dai motori di ricerca).<br />

L’Estrazione di Informazione (Information Extraction) localizza successivamente estratti<br />

specifici di dati nel documento testuale e trasforma il testo non strutturato in un database<br />

strutturato. U.Y. Nahm e R.J. Mooney[1] hanno mostrato esperimenti che provano che <strong>la</strong><br />

conoscenza scoperta da un database estratto automaticamente è accurata tanto quanto<br />

quel<strong>la</strong> scoperta da un database estratto manualmente, dimostrando in questo modo che<br />

combinare l’IE con <strong>la</strong> KDD è una buona strategia per il Text Mining. L’informazione<br />

viene così strutturata in temp<strong>la</strong>te e/o database tramite l’utilizzo di tecniche di parsing,<br />

numerotizzazione, lemmatizzazione e part-of-speech tagging. Spesso questa fase viene<br />

anche chiamata pre-processing del testo ad indicare che il database viene preparato<br />

secondo le richieste del modello.<br />

APPROCCIO QUANTITATIVO O QUALITATIVO. STATISTICO O SIMBOLICO<br />

Sono disponibili una varietà di tecniche per il Text Mining, ciascuna delle quali indirizzata<br />

ad un bisogno diverso. Esse provengono da varie aree di ricerca quali <strong>la</strong> statistica, <strong>la</strong><br />

Knowledge Discovery in Databases, il Machine Learning, il pattern recognition, <strong>la</strong><br />

neuronal computing, ecc. I due modi storici di analisi di un testo sono l’analisi semantica e<br />

l’analisi di contenuto.<br />

L'analisi semantica, insieme all'analisi statistica delle parole e dei cluster, si<br />

propone di analizzare <strong>la</strong> struttura di uno scritto evidenziando le re<strong>la</strong>zioni complesse che<br />

esistono tra le parole, mettendo in risalto <strong>la</strong> ricchezza del vocabo<strong>la</strong>rio, <strong>la</strong> distribuzione<br />

delle parole in un testo e <strong>la</strong> presenza di alcune strutture (costrutti sintattici, sinonimi, parole<br />

composte e segmenti ripetuti, ad esempio).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!