Dimensões e características da Web brasileira: um estudo ... - CGI.br

Recommendations

Info

36<br />capítulo 2<br />metoDologia<br />Dimensões e características da Web brasileira: um estudo do .gov.br<br />servados empiricamente no universo da Web. Em especial, a distribuição<br />aleató ria de objetos e de suas conexões no universo online (sabe-se que a<br />topologia da rede online possui uma distribuição em escala-livre, observando<br />os requisitos de uma power law e, consequentemente, a distribuição de<br />vértices e arcos não segue um padrão) [2, 5, 6].<br />De qualquer forma, inicia-se a aplicação de uma metodologia que deve ser<br />ajustada ao universo da Web, como fizeram Jianguo Lu e Dingding Li para<br />estimar o tamanho da Web profunda [6]. Observa-se, portanto, que existe<br />uma correspondência plausível entre as estimativas e as coletas feitas.<br />Para a compreensão do método “captura-recaptura”, considerou-se uma população<br />desconhe cida (o tamanho da Web .gov.br), cujos objetos (indivíduos)<br />foram listados em um primeiro momento, gerando um conjunto de<br />objetos n1, e posteriormente, em um segundo momento, um conjunto de<br />objetos n2. É importante frisar que a listagem representou a coleta exaustiva<br />de todos os objetos da população-alvo. Ao se comparar os dois conjuntos<br />coletados (n1 e n2), notou-se que existe um conjunto m de objetos duplicados,<br />isto é, objetos presentes nas duas coletas.<br />Assume-se que as duas coletas são independentes e que os objetos coletados<br />têm a mesma probabilidade de serem coletados em ambas as coletas. Como<br />mostram Alho e Spencer [1], o conjunto de objetos duplicados m segue<br />uma distribuição de probabilidade hipergeomé trica quando conhecemos o<br />tamanho da população total de objetos N (observados e não observados).<br />Pode-se, indiretamente, a partir da equação da distribuição de probabilidade<br />hipergeométrica, estimar o tamanho total da população N a partir de<br />um estimador de máxima verossimilhança que torne o conjunto de objetos<br />m observados o mais provável possível.<br />Portanto, o estimador EN será o valor de N que maximiza a probabilidade<br />de o conjunto observado de objetos duplicados m ser verdadeiro para toda a<br />A equação abaixo<br />população.<br />é para<br />Aqui<br />a página<br />o estimador<br />36<br />de máxima verossimilhança é:<br /> <br /><br />em que n1 e n2 representam o conjunto de objetos coletados em cada momento<br />T1 e T2, e m representa o conjunto de objetos coletados em ambos<br />As equações a seguir são para a página 37<br />momentos.<br />Sítios<br />A equação 3.1 mostra o estimador clássico do método de “captura-recaptura”,<br />definido desde Francis Bacon (1560) e reinventado diversas vezes,<br />até a consolidação com Laplace (1802) e a sua especificação no campo da<br /> <br /> 1,0029
iologia com Petersen (1896), conhecido como estimador de Petersen [7, 1].<br />Além disso, outros estimadores foram desenvolvidos para se adequarem à<br />realidade empírica dos dados. Apenas para efeitos comparativos, indica-se<br />aqui um estimador derivado de Petersen, utilizado por Lu e Li [6], o conhecido<br />estimador de Shumacher, indicado para populações com distribuição<br />uniforme, visto ser objetivo do grupo de trabalho aprofundar o conhecimento<br />sobre a metodologia e desenvolver estimadores adequados à realidade<br />empírica da A equação Web .br. abaixo é para a página 36<br />A equação A equação abaixo abaixo é para é a para página a página 36 36<br />Resultados<br />As equações a seguir são para a página 37<br />A equação abaixo é para a página 36<br />VAlOREs síTIOs síTIOs Ok PáGINAs HTMl Ok<br />N1 18.911 12.891 6.334.054<br />A equação abaixo é para a página 36<br />N2 19.300 12.279 6.575.751<br /> N1 -N2 = M 18.053 11.309 3.459.590<br />N1 + N2 = T 20.158 13.861 9.450.215<br />Tabela 2.2: Tabela de Resultados<br />Usando as técnicas apresentadas na metodologia para avaliar a estimativa<br />para sítios (Hosts), os valores obtidos foram:<br />• Razão de Consistência (fator de correção)<br />• Estimador Clássico de Shumacher<br />Usando as técnicas apresentadas na metodologia para avaliar a estimativa<br />para sítios com páginas válidas, Sítios OK, os valores obtidos foram:<br />• Razão de Consistência (fator de correção)<br />• Estimador Clássico de Shumacher<br />Aplicando essas mesmas técnicas para avaliar a estimativa para Páginas da<br />Web (Páginas HTML válidas), os valores obtidos foram:<br />• Razão de Consistência (fator de correção)<br />• Estimador Clássico de Shumacher<br /> <br />As equações a seguir são para a página 37<br />Sítios<br /> <br /> 1,0029<br /><br /> 20.217<br /><br />Sítios com páginas válidas<br /> <br /> 1,0097<br /><br /> Sítios<br /> <br /> 13.996<br /><br /><br /> 1,0029<br /><br /> 20.217<br /><br />Sítios com páginas válidas<br /> <br /> 1,0097<br /><br /> 13.996<br /><br />Páginas Válidas<br /> <br /> 1,2740<br /><br /> As equações a seguir são para a página 37<br />Sítios<br /> <br /> 12.039.334<br /><br /><br /> 1,0029<br /><br /> 20.217<br /><br />Sítios com páginas válidas<br /> <br /> 1,0097<br /><br /> 13.996<br /><br />Páginas Válidas<br /> <br /> <br /> 1,2740<br /> <br />As equações a seguir são para a página 37<br />Sítios<br /> <br /> 1,0029<br /><br /> 20.217<br /><br />Sítios com páginas válidas<br /> <br /> 1,0097<br /><br /> As equações a seguir são para a página 37<br />Sítios<br /> <br /> 13.996<br /><br />Páginas Válidas<br /><br /> 1,0029<br /><br /> 20.217<br /><br />Sítios com páginas válidas<br /> <br /> 1,0097<br /><br /> 13.996<br /><br />Páginas Válidas<br /> <br />As equações a seguir são para a página 37<br />Sítios<br /> <br /> 1,2740<br /><br /> 1,0029<br /><br /> 20.217<br /><br />Sítios com páginas válidas<br /> <br /> 1,0097<br /><br /> 13.996<br /><br />Páginas Válidas<br /> <br /> 1,2740<br /><br />Páginas Válidas<br /> <br /><br /> A equação abaixo é para a página 36 <br /> <br /> 12.039.334<br /><br /> 1,2740<br /> 12.039.334<br /> <br /> <br /><br /><br /><br /> 12.039.334<br />capítulo 2<br />metoDologia<br />Dimensões e características da Web brasileira: um estudo do .gov.br<br />37
Page 1 and 2: dimensões e características da PARCEiROS<
Page 6 and 7: 6 ÍNDICE Dimensões e ca
Page 8 and 9: 8 prefácio Dimensões e
Page 10 and 11: 10 prefácio Dimensões e
Page 13 and 14: introdução A internet é pro
Page 15: Esse estudo ajudará a responder v
Page 19 and 20: Os desafios técnicos para o e
Page 21 and 22: Outro ponto a ser considerado é o
Page 23: ginas, como imagens e vídeos, sem
Page 27 and 28: Metodologia Conceitos e orient
Page 29 and 30: cia desenvolvida na Demografia, par
Page 31 and 32: diretas e indiretas sobre as “ent
Page 33 and 34: deve-se garantir a independência e
Page 35: à coleta restrita dos domí nios .
Page 39: de se possilibitar o confronto de a
Page 43 and 44: Análise dos resultados Defini
Page 45 and 46: As dimensões e as características
Page 47 and 48: EM PERCENTUAIS Observou-se uma
Page 49 and 50: Aderência aos padrões HTML do W3C
Page 51 and 52: Figura 3.6 - Tecnologias utilizadas
Page 53 and 54: Domínios como sítios estruturados
Page 55 and 56: Dos links para objetos gráficos id
Page 57 and 58: Figura 3.14 - Geolocalização dos
Page 59: O Governo Federal mostra compreens
Page 63 and 64: indicadores e universo de dado
Page 65 and 66: A1: Tamanho total da Web brasileira
Page 67 and 68: síTIOs PáGINAs síTIOs PáGINAsP
Page 75 and 76: F1: Proporção de Páginas da Web
Page 77 and 78: CONFORMIdAdE COM Os NíVEIs dE PRIO
Page 79 and 80: GRUPO QUANTIdAdE POR GRUP
Page 81 and 82: de uma extensão associada à URL e
Page 83 and 84: CONjUNTO TOTAl dE PáGINA
Page 85 and 86: CONjUNTO (xx.GOV.BR) TOTA
Page 87 and 88:
Portanto, o percentual dos hosts qu
Page 89 and 90:
Apresentação dos resultados 
Page 91 and 92:
i2: informação sobre tempo de res
Page 93:
Metodologia Estimou-se a geolo
show all

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Create successful ePaper yourself

Delete template?

Save as template?