12.04.2013 Views

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

36<<strong>br</strong> />

capítulo 2<<strong>br</strong> />

metoDologia<<strong>br</strong> />

<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />

servados empiricamente no universo <strong>da</strong> <strong>Web</strong>. Em especial, a distribuição<<strong>br</strong> />

aleató ria de objetos e de suas conexões no universo online (sabe-se que a<<strong>br</strong> />

topologia <strong>da</strong> rede online possui <strong>um</strong>a distribuição em escala-livre, observando<<strong>br</strong> />

os requisitos de <strong>um</strong>a power law e, consequentemente, a distribuição de<<strong>br</strong> />

vértices e arcos não segue <strong>um</strong> padrão) [2, 5, 6].<<strong>br</strong> />

De qualquer forma, inicia-se a aplicação de <strong>um</strong>a metodologia que deve ser<<strong>br</strong> />

ajusta<strong>da</strong> ao universo <strong>da</strong> <strong>Web</strong>, como fizeram Jianguo Lu e Dingding Li para<<strong>br</strong> />

estimar o tamanho <strong>da</strong> <strong>Web</strong> profun<strong>da</strong> [6]. Observa-se, portanto, que existe<<strong>br</strong> />

<strong>um</strong>a correspondência plausível entre as estimativas e as coletas feitas.<<strong>br</strong> />

Para a compreensão do método “captura-recaptura”, considerou-se <strong>um</strong>a população<<strong>br</strong> />

desconhe ci<strong>da</strong> (o tamanho <strong>da</strong> <strong>Web</strong> .gov.<strong>br</strong>), cujos objetos (indivíduos)<<strong>br</strong> />

foram listados em <strong>um</strong> primeiro momento, gerando <strong>um</strong> conjunto de<<strong>br</strong> />

objetos n1, e posteriormente, em <strong>um</strong> segundo momento, <strong>um</strong> conjunto de<<strong>br</strong> />

objetos n2. É importante frisar que a listagem representou a coleta exaustiva<<strong>br</strong> />

de todos os objetos <strong>da</strong> população-alvo. Ao se comparar os dois conjuntos<<strong>br</strong> />

coletados (n1 e n2), notou-se que existe <strong>um</strong> conjunto m de objetos duplicados,<<strong>br</strong> />

isto é, objetos presentes nas duas coletas.<<strong>br</strong> />

Ass<strong>um</strong>e-se que as duas coletas são independentes e que os objetos coletados<<strong>br</strong> />

têm a mesma probabili<strong>da</strong>de de serem coletados em ambas as coletas. Como<<strong>br</strong> />

mostram Alho e Spencer [1], o conjunto de objetos duplicados m segue<<strong>br</strong> />

<strong>um</strong>a distribuição de probabili<strong>da</strong>de hipergeomé trica quando conhecemos o<<strong>br</strong> />

tamanho <strong>da</strong> população total de objetos N (observados e não observados).<<strong>br</strong> />

Pode-se, indiretamente, a partir <strong>da</strong> equação <strong>da</strong> distribuição de probabili<strong>da</strong>de<<strong>br</strong> />

hipergeométrica, estimar o tamanho total <strong>da</strong> população N a partir de<<strong>br</strong> />

<strong>um</strong> estimador de máxima verossimilhança que torne o conjunto de objetos<<strong>br</strong> />

m observados o mais provável possível.<<strong>br</strong> />

Portanto, o estimador EN será o valor de N que maximiza a probabili<strong>da</strong>de<<strong>br</strong> />

de o conjunto observado de objetos duplicados m ser ver<strong>da</strong>deiro para to<strong>da</strong> a<<strong>br</strong> />

A equação abaixo<<strong>br</strong> />

população.<<strong>br</strong> />

é para<<strong>br</strong> />

Aqui<<strong>br</strong> />

a página<<strong>br</strong> />

o estimador<<strong>br</strong> />

36<<strong>br</strong> />

de máxima verossimilhança é:<<strong>br</strong> />

<<strong>br</strong> />

<<strong>br</strong> />

em que n1 e n2 representam o conjunto de objetos coletados em ca<strong>da</strong> momento<<strong>br</strong> />

T1 e T2, e m representa o conjunto de objetos coletados em ambos<<strong>br</strong> />

As equações a seguir são para a página 37<<strong>br</strong> />

momentos.<<strong>br</strong> />

Sítios<<strong>br</strong> />

A equação 3.1 mostra o estimador clássico do método de “captura-recaptura”,<<strong>br</strong> />

definido desde Francis Bacon (1560) e reinventado diversas vezes,<<strong>br</strong> />

até a consoli<strong>da</strong>ção com Laplace (1802) e a sua especificação no campo <strong>da</strong><<strong>br</strong> />

<<strong>br</strong> />

1,0029

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!