13.07.2015 Views

Capitale intellettuale e amministrazioni pubbliche - Cultura in Cifre

Capitale intellettuale e amministrazioni pubbliche - Cultura in Cifre

Capitale intellettuale e amministrazioni pubbliche - Cultura in Cifre

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

CAPITALE INTELLETTUALE E AMMINISTRAZIONI PUBBLICHE86Nella fase di document acquisition sono acquisite, attraverso tecniche ealgoritmi di crawl<strong>in</strong>g, collezioni di documenti di potenziale <strong>in</strong>teresse divario formato, provenienti da differenti sorgenti (web, <strong>in</strong>tranet, banchedati testuali). I documenti acquisiti, solitamente ricondotti ad un formatostandard, sono memorizzati <strong>in</strong> un repository.Nella fase di document pre-process<strong>in</strong>g ogni documento è analizzato alf<strong>in</strong>e di estrarne le features che lo caratterizzano sulla base delle quali èeffettuato il m<strong>in</strong><strong>in</strong>g. In questo modo i documenti memorizzati nel repositoryassumono una forma "strutturata" dipendente dalla natura dellefeatures estratte. La tipologia delle features dipende, generalmente, dadue fattori pr<strong>in</strong>cipali: gli algoritmi di m<strong>in</strong><strong>in</strong>g che si <strong>in</strong>tende utilizzare perl'analisi, nonché la tipologia e la forma della conoscenza che s'<strong>in</strong>tendeestrarre. Gli estrattori di features si caratterizzano <strong>in</strong> ragione delle tecnologiedi base utilizzate, ad esempio, espressioni regolari, stemmer,lemmatizer, POS-tagger, eccetera, e dalla precisione e completezza chepossono garantire al processo di estrazione.La fase di text m<strong>in</strong><strong>in</strong>g consiste nell'applicazione di un <strong>in</strong>sieme di metodi,tecniche e strumenti dest<strong>in</strong>ati alla scoperta di regolarità all'<strong>in</strong>terno disorgenti <strong>in</strong>formative semi o non strutturate. Vi è una forte correlazionecon la fase precedente, che deve predisporre un <strong>in</strong>sieme d'<strong>in</strong>formazioniadatte agli algoritmi di text m<strong>in</strong><strong>in</strong>g attraverso l'estrazione di featuresadeguate; a questo proposito, è possibile notare che, <strong>in</strong> presenzadi una fase di pre-process<strong>in</strong>g che sia <strong>in</strong> grado di garantire un buongrado di strutturazione, le tecniche adoperabili per il text m<strong>in</strong><strong>in</strong>g nonsono necessariamente dist<strong>in</strong>guibili da quelle di data m<strong>in</strong><strong>in</strong>g. Di conseguenza,algoritmi di classificazione, cluster<strong>in</strong>g e generazione di regolepossono essere utilmente applicati alle rappresentazioni (strutturate)dei testi prodotti dalla fase di pre-process<strong>in</strong>g.Nella fase di results <strong>in</strong>terpretation and ref<strong>in</strong>ement è visualizzata la conoscenzaestratta, che può presentarsi sotto varie forme (gruppi di documenticon contenuti simili, liste di concetti contenuti nei documenti,associazioni tra documenti, trend temporali sui contenuti dei documenti,eccetera). La visualizzazione può anche avvenire dopo processi di raff<strong>in</strong>amentocompiuti attraverso apposite <strong>in</strong>terfacce o moduli automatici <strong>in</strong>grado di mostrare i risultati f<strong>in</strong>ali secondo le esigenze dell'utente.È bene sottol<strong>in</strong>eare come il ruolo del knowledge discovery <strong>in</strong> databasenon si riduca nella risoluzione del pur importante problema della selezionedi documenti rilevanti ad una data esigenza <strong>in</strong>formativa. Esso,<strong>in</strong>fatti, può potenzialmente svolgere un ruolo rilevante per affrontare lapiù generale problematica della gestione dei contenuti <strong>in</strong>formativi all'<strong>in</strong>ternodelle organizzazioni. Un esempio importante di tale ampia potenzialitàapplicativa è data dalla possibilità di realizzare, attraverso tecnichedi text m<strong>in</strong><strong>in</strong>g, strumenti di classificazione automatica di contenuti

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!