Estratègies d'èxit per a una empresa en línea - Universitat Oberta de ...
Estratègies d'èxit per a una empresa en línea - Universitat Oberta de ...
Estratègies d'èxit per a una empresa en línea - Universitat Oberta de ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Exploració<br />
<strong>Estratègies</strong> <strong>d'èxit</strong> <strong>per</strong> a <strong>una</strong> <strong>empresa</strong> <strong>en</strong> línia<br />
El robot, també anom<strong>en</strong>at spi<strong>de</strong>r o web crawler, és un programa <strong>de</strong>dicat 24h al dia a recórrer<br />
Internet obt<strong>en</strong>int la informació rellevant <strong>per</strong> al cercador <strong>de</strong> cadasc<strong>una</strong> <strong>de</strong> les pàgines<br />
que visita. Com a primer pas, tot robot parteix d’<strong>una</strong> llista d'URLs coneguda. La mateixa pot<br />
ser produïda pel conjunt d'usuaris que ha donat d'alta el seu lloc al cercador. Després es tria<br />
<strong>una</strong> URL <strong>de</strong> la llista, i s'obté el correspon<strong>en</strong>t docum<strong>en</strong>t <strong>de</strong> la web.<br />
Els <strong>en</strong>llaços pres<strong>en</strong>ts al docum<strong>en</strong>t obtingut són agregats a la llista d'URL p<strong>en</strong>d<strong>en</strong>ts, <strong>de</strong>sprés<br />
d'això es continua amb la segü<strong>en</strong>t URL <strong>de</strong> la llista. La manera com aquests <strong>en</strong>llaços són<br />
agregats a la llista <strong>de</strong>termina <strong>en</strong> gran part el comportam<strong>en</strong>t <strong>de</strong> la cerca <strong>de</strong>l robot, <strong>de</strong>stacant<br />
les polítiques <strong>de</strong> “primer <strong>en</strong> profunditat” i les <strong>de</strong> “primer <strong>en</strong> amplada”.<br />
Recu<strong>per</strong>ació<br />
La informació a recu<strong>per</strong>ar varia d'un sistema a un altre. Alguns emmagatzem<strong>en</strong> tot el docum<strong>en</strong>t,<br />
m<strong>en</strong>tre que altres es limit<strong>en</strong> al títol, i les primeres n línies o paraules.<br />
Quan es té la informació <strong>de</strong> la pàgina, aquesta s'ha d'analitzar i cond<strong>en</strong>sar, <strong>per</strong> <strong>per</strong>metre<br />
tant la seva organització, pon<strong>de</strong>ració i posterior pres<strong>en</strong>tació als usuaris <strong>de</strong>l sistema. La part<br />
<strong>de</strong>l sistema <strong>en</strong>carregada <strong>de</strong> realitzar aquesta tasca és el motor d'in<strong>de</strong>xació, i ho fa <strong>en</strong> base<br />
als algorismes <strong>de</strong> recu<strong>per</strong>ació d’informació (Information Retrieval - IR).<br />
L’algorisme <strong>de</strong> IR varia segons el motor <strong>de</strong> cerca, <strong>per</strong>ò <strong>en</strong> g<strong>en</strong>eral es bas<strong>en</strong> <strong>en</strong> els termes, la<br />
seva posició <strong>en</strong> el conjunt <strong>de</strong>l text, la d<strong>en</strong>sitat <strong>de</strong>ls termes, termes a la URL, etc. Aquests<br />
algorismes es van actualitzant <strong>per</strong> tal <strong>de</strong> millorar els resultats i evitar abusos <strong>en</strong> el posicionam<strong>en</strong>t<br />
<strong>per</strong> part <strong>de</strong> pàgines <strong>de</strong> poca qualitat i amb interessos econòmics propis.<br />
Figura 4-2.- Funcionam<strong>en</strong>t g<strong>en</strong>eral d'un cercador<br />
UOC – <strong>Universitat</strong> <strong>Oberta</strong> <strong>de</strong> Catalunya | Carolina Gutiérrez 41