29.04.2013 Views

Estratègies d'èxit per a una empresa en línea - Universitat Oberta de ...

Estratègies d'èxit per a una empresa en línea - Universitat Oberta de ...

Estratègies d'èxit per a una empresa en línea - Universitat Oberta de ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Exploració<br />

<strong>Estratègies</strong> <strong>d'èxit</strong> <strong>per</strong> a <strong>una</strong> <strong>empresa</strong> <strong>en</strong> línia<br />

El robot, també anom<strong>en</strong>at spi<strong>de</strong>r o web crawler, és un programa <strong>de</strong>dicat 24h al dia a recórrer<br />

Internet obt<strong>en</strong>int la informació rellevant <strong>per</strong> al cercador <strong>de</strong> cadasc<strong>una</strong> <strong>de</strong> les pàgines<br />

que visita. Com a primer pas, tot robot parteix d’<strong>una</strong> llista d'URLs coneguda. La mateixa pot<br />

ser produïda pel conjunt d'usuaris que ha donat d'alta el seu lloc al cercador. Després es tria<br />

<strong>una</strong> URL <strong>de</strong> la llista, i s'obté el correspon<strong>en</strong>t docum<strong>en</strong>t <strong>de</strong> la web.<br />

Els <strong>en</strong>llaços pres<strong>en</strong>ts al docum<strong>en</strong>t obtingut són agregats a la llista d'URL p<strong>en</strong>d<strong>en</strong>ts, <strong>de</strong>sprés<br />

d'això es continua amb la segü<strong>en</strong>t URL <strong>de</strong> la llista. La manera com aquests <strong>en</strong>llaços són<br />

agregats a la llista <strong>de</strong>termina <strong>en</strong> gran part el comportam<strong>en</strong>t <strong>de</strong> la cerca <strong>de</strong>l robot, <strong>de</strong>stacant<br />

les polítiques <strong>de</strong> “primer <strong>en</strong> profunditat” i les <strong>de</strong> “primer <strong>en</strong> amplada”.<br />

Recu<strong>per</strong>ació<br />

La informació a recu<strong>per</strong>ar varia d'un sistema a un altre. Alguns emmagatzem<strong>en</strong> tot el docum<strong>en</strong>t,<br />

m<strong>en</strong>tre que altres es limit<strong>en</strong> al títol, i les primeres n línies o paraules.<br />

Quan es té la informació <strong>de</strong> la pàgina, aquesta s'ha d'analitzar i cond<strong>en</strong>sar, <strong>per</strong> <strong>per</strong>metre<br />

tant la seva organització, pon<strong>de</strong>ració i posterior pres<strong>en</strong>tació als usuaris <strong>de</strong>l sistema. La part<br />

<strong>de</strong>l sistema <strong>en</strong>carregada <strong>de</strong> realitzar aquesta tasca és el motor d'in<strong>de</strong>xació, i ho fa <strong>en</strong> base<br />

als algorismes <strong>de</strong> recu<strong>per</strong>ació d’informació (Information Retrieval - IR).<br />

L’algorisme <strong>de</strong> IR varia segons el motor <strong>de</strong> cerca, <strong>per</strong>ò <strong>en</strong> g<strong>en</strong>eral es bas<strong>en</strong> <strong>en</strong> els termes, la<br />

seva posició <strong>en</strong> el conjunt <strong>de</strong>l text, la d<strong>en</strong>sitat <strong>de</strong>ls termes, termes a la URL, etc. Aquests<br />

algorismes es van actualitzant <strong>per</strong> tal <strong>de</strong> millorar els resultats i evitar abusos <strong>en</strong> el posicionam<strong>en</strong>t<br />

<strong>per</strong> part <strong>de</strong> pàgines <strong>de</strong> poca qualitat i amb interessos econòmics propis.<br />

Figura 4-2.- Funcionam<strong>en</strong>t g<strong>en</strong>eral d'un cercador<br />

UOC – <strong>Universitat</strong> <strong>Oberta</strong> <strong>de</strong> Catalunya | Carolina Gutiérrez 41

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!