12.07.2015 Views

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

METODOLOGIA DE MINERAÇÃO DE DADOS PARA ANÁLISE DO ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

aseia-se na idéia de que, dentre as páginas visitadas, aquelas onde o visitante gastoumaior tempo possuem alguma relação com a página pivô. No mundo real, é como umapessoa que entra dentro de uma loja e se interessa ou compra determinado produto. Osoutros produtos que também foram avaliados por ela nessa mesma visita/compra,juntamente com as informações de tempos, certamente fornecem dados do seucomportamento.Desta forma, também são automaticamente filtradas todas as sessões de tamanho um, ouseja, aquelas onde o visitante acessou apenas uma única página. Estas sessões, na suagrande maioria, contêm a página inicial do web site.A restrição de utilização da página inicial do site está baseada no fato de que ela, porsua característica intrínseca, deve aparecer como primeira página na maioria dassessões. Caso uma sessão não permita selecionar as três páginas devido ao seu tamanho,são selecionadas tantas quanto forem possíveis. A escolha da quantidade de páginas aserem selecionadas (três), além da página pivô e da última, foi obtida depois de algumasexecuções e avaliações utilizando dados reais. Dois fatores influenciaram bastante estaescolha: o tamanho médio das sessões e a facilidade na análise do comportamento.Além disso, os tempos das páginas selecionadas não devem ser menores que um limite(mínimo), o qual foi estabelecido, de forma empírica, em 5 segundos. Isto é necessáriopara evitar que páginas que não foram relevantes para o usuário entrem na análise.A última página deve ser incluída na análise pois, além do seu tempo de visitação serdesconhecido, é bem provável que, após achar o que estava procurando ou ler o queinteressava, o usuário sai do site. Nestes casos, a última página pode ser a maisimportante para ele.Como o HTTP é um protocolo que utiliza um modelo cliente-servidor (como a maioriados protocolos de rede), onde nenhuma conexão é mantida entre as transações, o log doservidor mantém apenas a data/hora das requisições do cliente (browser). Assim, parainferir o tempo de visitação de uma página é necessário que haja a hora da suarequisição e a hora da próxima requisição, de forma a calcular a diferença entre elas.Apesar de considerarem a última página de cada sessão nas análises, os trabalhos de61

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!