Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
36<<strong>br</strong> />
capítulo 2<<strong>br</strong> />
metoDologia<<strong>br</strong> />
<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />
servados empiricamente no universo <strong>da</strong> <strong>Web</strong>. Em especial, a distribuição<<strong>br</strong> />
aleató ria de objetos e de suas conexões no universo online (sabe-se que a<<strong>br</strong> />
topologia <strong>da</strong> rede online possui <strong>um</strong>a distribuição em escala-livre, observando<<strong>br</strong> />
os requisitos de <strong>um</strong>a power law e, consequentemente, a distribuição de<<strong>br</strong> />
vértices e arcos não segue <strong>um</strong> padrão) [2, 5, 6].<<strong>br</strong> />
De qualquer forma, inicia-se a aplicação de <strong>um</strong>a metodologia que deve ser<<strong>br</strong> />
ajusta<strong>da</strong> ao universo <strong>da</strong> <strong>Web</strong>, como fizeram Jianguo Lu e Dingding Li para<<strong>br</strong> />
estimar o tamanho <strong>da</strong> <strong>Web</strong> profun<strong>da</strong> [6]. Observa-se, portanto, que existe<<strong>br</strong> />
<strong>um</strong>a correspondência plausível entre as estimativas e as coletas feitas.<<strong>br</strong> />
Para a compreensão do método “captura-recaptura”, considerou-se <strong>um</strong>a população<<strong>br</strong> />
desconhe ci<strong>da</strong> (o tamanho <strong>da</strong> <strong>Web</strong> .gov.<strong>br</strong>), cujos objetos (indivíduos)<<strong>br</strong> />
foram listados em <strong>um</strong> primeiro momento, gerando <strong>um</strong> conjunto de<<strong>br</strong> />
objetos n1, e posteriormente, em <strong>um</strong> segundo momento, <strong>um</strong> conjunto de<<strong>br</strong> />
objetos n2. É importante frisar que a listagem representou a coleta exaustiva<<strong>br</strong> />
de todos os objetos <strong>da</strong> população-alvo. Ao se comparar os dois conjuntos<<strong>br</strong> />
coletados (n1 e n2), notou-se que existe <strong>um</strong> conjunto m de objetos duplicados,<<strong>br</strong> />
isto é, objetos presentes nas duas coletas.<<strong>br</strong> />
Ass<strong>um</strong>e-se que as duas coletas são independentes e que os objetos coletados<<strong>br</strong> />
têm a mesma probabili<strong>da</strong>de de serem coletados em ambas as coletas. Como<<strong>br</strong> />
mostram Alho e Spencer [1], o conjunto de objetos duplicados m segue<<strong>br</strong> />
<strong>um</strong>a distribuição de probabili<strong>da</strong>de hipergeomé trica quando conhecemos o<<strong>br</strong> />
tamanho <strong>da</strong> população total de objetos N (observados e não observados).<<strong>br</strong> />
Pode-se, indiretamente, a partir <strong>da</strong> equação <strong>da</strong> distribuição de probabili<strong>da</strong>de<<strong>br</strong> />
hipergeométrica, estimar o tamanho total <strong>da</strong> população N a partir de<<strong>br</strong> />
<strong>um</strong> estimador de máxima verossimilhança que torne o conjunto de objetos<<strong>br</strong> />
m observados o mais provável possível.<<strong>br</strong> />
Portanto, o estimador EN será o valor de N que maximiza a probabili<strong>da</strong>de<<strong>br</strong> />
de o conjunto observado de objetos duplicados m ser ver<strong>da</strong>deiro para to<strong>da</strong> a<<strong>br</strong> />
A equação abaixo<<strong>br</strong> />
população.<<strong>br</strong> />
é para<<strong>br</strong> />
Aqui<<strong>br</strong> />
a página<<strong>br</strong> />
o estimador<<strong>br</strong> />
36<<strong>br</strong> />
de máxima verossimilhança é:<<strong>br</strong> />
<<strong>br</strong> />
<<strong>br</strong> />
em que n1 e n2 representam o conjunto de objetos coletados em ca<strong>da</strong> momento<<strong>br</strong> />
T1 e T2, e m representa o conjunto de objetos coletados em ambos<<strong>br</strong> />
As equações a seguir são para a página 37<<strong>br</strong> />
momentos.<<strong>br</strong> />
Sítios<<strong>br</strong> />
A equação 3.1 mostra o estimador clássico do método de “captura-recaptura”,<<strong>br</strong> />
definido desde Francis Bacon (1560) e reinventado diversas vezes,<<strong>br</strong> />
até a consoli<strong>da</strong>ção com Laplace (1802) e a sua especificação no campo <strong>da</strong><<strong>br</strong> />
<<strong>br</strong> />
1,0029