12.07.2015 Views

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

6.2 ObjetivoAtravés de conversas com o Diretor Superintendente da empresa, identificou-se aquestão a ser tratada por essa metodologia. O site atual do Emagrecendo atendebasicamente a dois públicos: os que já são assinantes e os visitantes. No início, o site eradestinado exclusivamente aos assinantes, mas isso foi modificado quando perceberamque havia uma grande demanda das pessoas por informações sobre emagrecimento. Osite foi então reformulado, criando várias páginas de conteúdo público, com a intençãode conquistar mais clientes. A quantidade de visitantes realmente aumentou bastante,mas a taxa de adesão ao programa não cresceu. Hoje a empresa tem aproximadamente 2mil clientes, o que corresponde a apenas 2% dos visitantes mensais. Diante desteproblema, a questão é: como modificar o site para conquistar os visitantes que navegammas não compram o programa?6.3 Tratamento dos dadosOs dados originalmente coletados deste site contêm aproximadamente 24 milhões deregistros, que refletem o tráfego no período de 5 meses (de março a julho de 2005). Nocaso do Emagrecendo, foi possível utilizar este período longo pois as modificações deconteúdo e disposição, que implicariam em navegações diferentes, não foramrelevantes.Deste total de registros, quase 90% foi eliminado por acessar arquivo gráfico (figuras),por utilizar método inválido e por receber status de erro. Também estão incluídos aí osregistros gerados por robôs (que foi muito pequeno, não chegando a 0,02% do total). Naliteratura esse percentual fica perto dos 10%.Neste ponto, ficaram pouco mais de 3 milhões de registros (3.068.882 para ser exato).Desse conjunto, foram excluídas as navegações geradas pelos robôs identificados e, emseguida, agrupadas por IP/agente distintos. Este é o método mais simples e utilizadopara identificação de usuário. Nesse período avaliado, foram então encontrados poucomais de 136 mil usuários diferentes.83

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!