12.07.2015 Views

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5.1 Pré-processamentoPara o tratamento de log foram escritos 11 programas em Python, contemplandobasicamente todos os passos descritos no processo tradicional de Web Usage Mining. Aescolha pela linguagem Python se deve à sua facilidade de uso e, principalmente,facilidade no tratamento de flat files. Não era objetivo deste trabalho criar um ambientecompleto para pré-processamento de log, mas sim um ambiente que permitissetransformar o log de acordo com a metodologia proposta.Os programas desenvolvidos foram:1. Seleciona_log.py: é responsável por agregar os arquivos de log num únicoarquivo, filtrando todas as entradas referentes aos arquivos gráficos (extensõesgif, jpg, jpeg) ou arquivos indesejados (extensões js, css, ico, swf). Tambémretira todas as entradas com status de erro (mantém os status da família 200 e300) e os métodos inválidos, ou seja, diferentes de GET, POST ou PUT. Alémdisso, gera um segundo arquivo com todas as entradas que acessaram o arquivo“robots.txt”. Estes são os robôs de indexação. Esse arquivo, que fica no servidorweb, controla as permissões de acesso às informações, indicando quais diretóriosdevem ou não ser indexado pelo agente. Este programa é personalizadoconforme o padrão de log utilizado no servidor;2. Gera_robots_distintos.py: a partir do segundo arquivo gravado no programaanterior, simplesmente gera uma lista de robôs distintos, eliminando todaduplicidade. Os agentes que não são robôs verdadeiros, mas acessam o arquivo“robots.txt” porque estão embutidos em ferramentas de busca, como porexemplo, MSIECrawler (MICROSOFT, 2006b) e Girafabot (GIRAFA, 2006),também precisam ser excluídos;3. Elimina_navegacao_robots.py: com o arquivo de robôs distintos, retira doarquivo filtrado e consolidado de log todas as navegações executadas pelosmesmos;70

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!