13.07.2015 Views

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

Formato PDF - mtc-m17:80 - Inpe

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

palavras existentes neste texto são comparadas com palavras pré-definidas quepodem trazer indícios de contexto geográfico. Caso encontre palavras geointeressantes,o geo-colaborador envia a URL e o conteúdo HTML ao servidor WS.As URLs serão utilizadas pelo servidor de aplicações que irá copiar o arquivo eexecutar as etapas de descompactação e análise do arquivo. Caso não encontrepalavras geo-interessantes o processo é finalizado.• A URL é uma referência para um arquivo compactado e apresenta na composiçãodo caminho ou nome do arquivo as seqüências de caracteres shape ou shp (p.e.http://www.census.gov/geo/img/vt02_shp.zip). Neste caso, o geo-colaborador iráproceder da forma quando encontra um arquivo shp, descrita anteriormente.Para obter maior desempenho durante a busca por contexto geográfico, para todas as stringsé gerado um código hash. O código hash é utilizado para fazer a comparação das palavraspresentes na página com uma lista de código hash de palavras que foi enviada pelo servidorde WS juntamente com a lista de URLs para serem visitadas.3.7 Repositório de palavras geo-interessantesConforme discutido anteriormente, partimos do pressuposto de que páginas que contêmpalavras geo-interessantes em seu contexto são fortes candidatas a terem arquivosgeográficos. Desta forma, criamos um repositório de palavras geo-interessantes que possamdenotar indícios de contexto geográfico durante o processo de análise sintática executado naspáginas capturadas pelo rastejador. As palavras do repositório são comparadas às palavrasque constam nas páginas analisadas e, quando há ocorrência de igualdade, a página éclassificada como geo-interessante.O repositório de palavras geo-interessantes foi criado a partir da análise de ocorrência determos em sítios de produtores de dados geográficos. Foram analisados 50 sítios deprodutores de dados nas línguas portuguesa e inglesa. Utilizando o analisador sintático doGeoDiscover, identificamos os termos que mais ocorriam nesses sítios. Observamos o localde ocorrência do termo na página (corpo, título e descrição) e formatações especiais nas66

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!