Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
20<<strong>br</strong> />
capítulo 1<<strong>br</strong> />
Os DesafiOs técnicOs para O estuDO Da <strong>Web</strong> <strong><strong>br</strong>asileira</strong><<strong>br</strong> />
<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />
nos dedicar ao projeto. Não tínhamos ideia, contudo, do tamanho do desafio<<strong>br</strong> />
ao qual nos proporíamos, principalmente em seus aspectos técnicos.<<strong>br</strong> />
A forma como é constituí<strong>da</strong> a <strong>Web</strong>, por si só, traz diversas dificul<strong>da</strong>des.<<strong>br</strong> />
Por exemplo, não há realmente <strong>um</strong>a “<strong>Web</strong> <strong><strong>br</strong>asileira</strong>”; a World Wide <strong>Web</strong>,<<strong>br</strong> />
como o próprio nome diz, é <strong>um</strong>a rede de alcance mundial. Limitar o escopo<<strong>br</strong> />
do <strong>estudo</strong> foi o primeiro dos desafios. O que faríamos? Consideraríamos a<<strong>br</strong> />
linguagem <strong>da</strong>s páginas? Se o fizéssemos, haveria a dificul<strong>da</strong>de em si, de<<strong>br</strong> />
identificar o idioma, e o risco de considerarmos sítios dos demais países lusófonos.<<strong>br</strong> />
Consideraríamos, então, a geolocalização dos servidores utilizados<<strong>br</strong> />
para hospe<strong>da</strong>r a <strong>Web</strong>? Sabíamos de antemão que <strong>um</strong>a grande percentagem<<strong>br</strong> />
dos domínios “.<strong>br</strong>” estavam hospe<strong>da</strong>dos fora do país. Decidimos considerar<<strong>br</strong> />
apenas a <strong>Web</strong> forma<strong>da</strong> pelos domínios “.<strong>br</strong>”, conscientes de que há sítios<<strong>br</strong> />
nacionais hospe<strong>da</strong>dos em outros domínios que ficariam fora do <strong>estudo</strong>. Para<<strong>br</strong> />
minimizar o problema, consideramos no <strong>estudo</strong> os sítios sob outros domínios<<strong>br</strong> />
encontrados por meio de <strong>um</strong> redirecionamento a partir de <strong>um</strong>a URL que<<strong>br</strong> />
apontasse para <strong>um</strong> “.<strong>br</strong>”.<<strong>br</strong> />
A <strong>Web</strong> é <strong>um</strong>a rede cujos conteúdos estão interligados através de doc<strong>um</strong>entos<<strong>br</strong> />
de hipertexto. Seu <strong>estudo</strong> é possível por <strong>um</strong> processo de análise e coleta<<strong>br</strong> />
sucessiva <strong>da</strong>s páginas, a partir de <strong>um</strong> conjunto de sítios previamente conhecidos.<<strong>br</strong> />
Essa busca é feita de forma automática por <strong>um</strong> programa de computador<<strong>br</strong> />
normalmente chamado de crawler, coletor, ou batedor. Nem to<strong>da</strong> a <strong>Web</strong> está<<strong>br</strong> />
interliga<strong>da</strong>, contudo, embora a maior parte dela esteja: há “ilhas” de tamanhos<<strong>br</strong> />
variados sem ligação com o restante <strong>da</strong> rede. isso significa que o conjunto<<strong>br</strong> />
inicial de sítios a partir dos quais a pesquisa é feita influencia o resultado,<<strong>br</strong> />
e encontrar o conjunto adequado, geralmente o mais completo possível, é <strong>um</strong><<strong>br</strong> />
passo importante. Na coleta do “.gov.<strong>br</strong>”, por exemplo, a situação ideal seria<<strong>br</strong> />
conhecermos os domínios registrados diretamente sob o “.gov.<strong>br</strong>”, mais os<<strong>br</strong> />
domínios registrados sob as siglas <strong>da</strong>s uni<strong>da</strong>des federativas, como “.sp.gov.<strong>br</strong>”.<<strong>br</strong> />
Os primeiros estão sob responsabili<strong>da</strong>de do Governo Federal, e obtivemos a<<strong>br</strong> />
base; os demais são responsabili<strong>da</strong>de dos Governos Estaduais e contamos com<<strong>br</strong> />
o apoio <strong>da</strong> ABEP (Associação Brasileira de Enti<strong>da</strong>des Estaduais de TiCs) em sua<<strong>br</strong> />
obtenção. Ain<strong>da</strong> assim, apenas 8 uni<strong>da</strong>des federativas haviam nos enviado os<<strong>br</strong> />
<strong>da</strong>dos na época <strong>da</strong> coleta, o<strong>br</strong>igando-nos a, paliativamente, complementar os<<strong>br</strong> />
<strong>da</strong>dos usando sítios encontrados em buscadores <strong>Web</strong>.<<strong>br</strong> />
Há também armadilhas para o processo de coleta: sítios com <strong>um</strong> número<<strong>br</strong> />
infinito de páginas, gera<strong>da</strong>s dinamicamente. Elementos simples, como <strong>um</strong><<strong>br</strong> />
calendário gerado automaticamente no sítio, podem criar situações desse<<strong>br</strong> />
gênero. Limites de tamanho e profundi<strong>da</strong>de têm de ser estabelecidos, com o<<strong>br</strong> />
risco de impedirem a coleta de partes de sítios maiores que estes.