12.12.2012 Views

4 Creare contenuti per il web - Andrea Giachetti

4 Creare contenuti per il web - Andrea Giachetti

4 Creare contenuti per il web - Andrea Giachetti

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Funzionamento e gestione dei siti <strong>web</strong> 57<br />

3.9 Gestione e ricerca dell'informazione sul <strong>web</strong>, <strong>il</strong> <strong>web</strong><br />

semantico<br />

Abbiamo visto che <strong>il</strong> <strong>web</strong> odierno si caratterizza <strong>per</strong> l'enorme mole di dati archiviati sotto<br />

forma di f<strong>il</strong>e (pagine) e di tabelle di database sui vari server accessib<strong>il</strong>i, in modo più o meno<br />

f<strong>il</strong>trato, dagli utenti. E' evidente che la vastità di tale struttura rappresenta un'enorme<br />

potenzialità, ma anche un serio problema. Oggi in rete possiamo trovare quasi tutte le<br />

informazioni di nostro interesse, ma spesso non siamo in grado di raggiungerle.<br />

Come si fa a recu<strong>per</strong>are l'informazione che ci serve? Come fare a definire cosa è r<strong>il</strong>evante e<br />

cosa non lo è? E' possib<strong>il</strong>e catalogare e strutturare l'informazione del <strong>web</strong> in modo efficace?<br />

Abbiamo visto che molti siti gestiscono i loro archivi di dati ut<strong>il</strong>izzano le cosiddette basi di dati<br />

relazionali: in tal caso è relativamente semplice fare in modo che si possano trovare i dati ut<strong>il</strong>i<br />

all'interno del sito strutturando in modo corretto <strong>il</strong> database e usando i linguaggi di<br />

interrogazione degli stessi <strong>per</strong> recu<strong>per</strong>are i dati.<br />

Questo ovviamente non è possib<strong>il</strong>e quando vogliamo recu<strong>per</strong>are informazioni dall'intera rete,<br />

cioè da siti indipendenti ognuno con le sue pagine ed eventualmente con le proprie basi di dati.<br />

I motori di ricerca, come abbiamo visto, cercano una soluzione mediante tecniche di<br />

information retrieval (disciplina che si occupa, appunto, del re<strong>per</strong>imento automatico di<br />

informazione da collezioni e archivi digitali). Essi basano la ricerca su parole chiave cercando<br />

nella collezione dei documenti quelli ritenuti più <strong>per</strong>tinenti a tali parole.<br />

Per fare questo devono creare degli indici del <strong>web</strong>, realizzati mediante software (detti crawler<br />

o spider o robot) che navigano automaticamente tra le pagine raccogliendone i <strong>contenuti</strong>, che<br />

vengono poi analizzati da altri software che ne estrapolano una rappresentazione compatta. In<br />

pratica essi elaborano <strong>il</strong> testo, estraendo le radici delle parole non triviali (escludendo cioè le<br />

cosiddette stop words come articoli e congiunzioni). Attraverso successive analisi su<br />

posizionamento, ruolo e frequenza delle parole cercano poi di stab<strong>il</strong>ire la r<strong>il</strong>evanza di esse <strong>per</strong><br />

indicizzare <strong>il</strong> documento.<br />

Per generare la risposta alle richieste verranno cercate le pagine indicizzate che hanno la<br />

maggiore “r<strong>il</strong>evanza” rispetto alle parole chiave inserite. Questa r<strong>il</strong>evanza è calcolata mediante<br />

opportuni algoritmi che sono un po' <strong>il</strong> segreto del successo del motore stesso: in qualche modo<br />

<strong>il</strong> successo di Google è stato dovuto all'efficacia dei suoi algoritmi (<strong>il</strong> cosiddetto PageRank).<br />

Tre gli altri “motori” usati sul <strong>web</strong> possiamo citare AltaVista, ut<strong>il</strong>izzato da Yahoo e “Bing” di<br />

Microsoft, che ha soppiantato <strong>il</strong> precedente “Live Search”.<br />

Il limite di questo metodi di ricerca di informazioni consiste nel fatto che la r<strong>il</strong>evanza viene<br />

calcolata a partire semplicemente dal contenuto testuale dei documenti e dal numero e<br />

contenuto dei riferimenti ai documenti trovati su altre pagine (Google attribuisce maggiore<br />

r<strong>il</strong>evanza alle pagine maggiormente citate pesate dall'importanza della pagina citante). Non c'è<br />

quindi nessuna comprensione del “significato” del documento stesso <strong>per</strong> l'utente. Inoltre non c'è<br />

accesso alle informazioni nei database dei server, <strong>per</strong> cui gran parte dell'informazione contenuta<br />

in rete non viene ut<strong>il</strong>izzata.<br />

Per i più diffusi motori di ricerca, poi, <strong>il</strong> risultato finale è una semplice lista di pagine e non<br />

un'informazione elaborata che cerchi effettivamente di rispondere alla domanda posta<br />

dall'utente o estrapoli la parte informativa dalle varie fonti facendone un sunto. Quest'ultimo

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!