13.07.2015 Views

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

A estrutura básica de um mecanismo de busca é composta por três componentes: rastejador,indexador e mecanismo de consulta e classificação de resultados.2.2.1 RastejadorO rastejador é um programa que percorre o ciberespaço de forma metódica e automatizada.Na literatura encontram-se diferentes denominações como crawler, indexador automático,bot e aranha (Kobayashi; Takeda, 2000). Utiliza a estrutura de links da Internet para visitaros sítios e encontrar novas páginas interessantes. Os rastejadores são utilizadosprincipalmente para copiar o conteúdo das páginas visitadas para serem posteriormenteanalisadas por um mecanismo de busca. Após análise, estas páginas são indexadas, o quepermite pesquisas com velocidade e qualidade. O rastejador entende a Internet como umgrafo, onde os nós são recursos (páginas Web e arquivos) localizados por URLs.No início, o rastejador utiliza uma lista de URLs a serem visitadas. À medida que visita asURLs, ele identifica todos os hyperlinks na página e os adiciona à lista de URLs. As URLsque compõem a lista são visitadas de forma recursiva, obedecendo aos critérios de seleção,revisita, cortesia e paralelização (Castillo, 2004).A política de seleção define quais páginas devem ser copiadas. Devido à quantidadelimitada de páginas que um rastejador consegue visitar (Lessing, 1999), é importante que aspáginas recuperadas sejam relevantes. Para tanto é fundamental estabelecer métricas deimportância para a priorização de páginas. A importância de uma página é função de suaqualidade intrínseca, sua popularidade em termos de links ou visitas e suas URLs. Váriostrabalhos propõem métricas de ordenamento (Cho et al., 1998), (Najork; Wiener, 2001),(Boldi et al., 2004), (Abiteboul et al., 2003) e (Baeza-Yates et al., 2005). Definir uma boapolítica de seleção é uma tarefa complexa. É preciso tratar informações parciais, pois oconjunto completo de páginas Web é desconhecido durante o processo de rastejamento.A política de revisita é necessária devido à natureza dinâmica da Web. À medida que orastejador percorre a Web, vários eventos, tais como inclusões, atualizações e exclusões,modificam os recursos existentes. Para os mecanismos de busca, não detectar um eventoocasiona cópias desatualizadas dos recursos e erros na indeaxação. Cho (2000) definiu33

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!