13.07.2015 Views

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.8 Indexação e Classificação de Arquivos GeográficosOs mecanismos de buscas convencionais possuem funcionalidades para o rastreamento,indexação e consulta de sítios Web baseadas na ocorrência de palavras e em métodospróprios de classificação, tal como o PageRank (Page et al., 1999). Recentemente surgirammecanismos voltados para um nicho específico, por exemplo, o Google Scholar e o CiteSeer(Giles et al., 1998) que indexam artigos científicos com base em sua estrutura. Nesta seçãoapresentaremos as estratégias utilizadas no GeoDiscover para a indexação e classificação dearquivos geográficos.3.8.1 Processos de indexaçãoNo GeoDiscover existem três processos distintos de indexação. O primeiro, específico paraURLs das páginas visitadas pelo usuário colaborador; o segundo, específico para os sítios deprodutores de dados; e o terceiro, para os arquivos geográficos.O processo de indexação de URLs das páginas visitadas utiliza um arquivo com quatroelementos em sua estrutura: a URL da página, a data da última indexação, o status daindexação e o indicador. Assim que uma página é visitada, o módulo geo-colaboradorarmazena as informações no arquivo e, posteriormente o envia para o Servidor de WS.A Tabela 3-2 apresenta um exemplo do arquivo de indexação de URLs. O atributo statusindica a situação da indexação da página, sendo: 0 – não indexada, 1 – indexada comsucesso, 2 – re-indexação sem sucesso. O status com valor 0 existe quando a URL emquestão nunca foi visitada. A data da última indexação é utilizada para controlar o períodode re-indexação da página. O indicador demonstra se a página de onde a URL foi extraída éum produtor de dados (neste caso é atribuído o valor 1), ou não (valor 0). Para proceder auma re-indexação o rastejador deve certificar-se de que a condição descrita abaixo éverdadeira; caso não seja, deverá atribuir ao status o valor 2:(DA - DI) > TR, onde,DA – data e horário atualDI – data e horário da última indexação69

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!