12.04.2013 Views

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

20<<strong>br</strong> />

capítulo 1<<strong>br</strong> />

Os DesafiOs técnicOs para O estuDO Da <strong>Web</strong> <strong><strong>br</strong>asileira</strong><<strong>br</strong> />

<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />

nos dedicar ao projeto. Não tínhamos ideia, contudo, do tamanho do desafio<<strong>br</strong> />

ao qual nos proporíamos, principalmente em seus aspectos técnicos.<<strong>br</strong> />

A forma como é constituí<strong>da</strong> a <strong>Web</strong>, por si só, traz diversas dificul<strong>da</strong>des.<<strong>br</strong> />

Por exemplo, não há realmente <strong>um</strong>a “<strong>Web</strong> <strong><strong>br</strong>asileira</strong>”; a World Wide <strong>Web</strong>,<<strong>br</strong> />

como o próprio nome diz, é <strong>um</strong>a rede de alcance mundial. Limitar o escopo<<strong>br</strong> />

do <strong>estudo</strong> foi o primeiro dos desafios. O que faríamos? Consideraríamos a<<strong>br</strong> />

linguagem <strong>da</strong>s páginas? Se o fizéssemos, haveria a dificul<strong>da</strong>de em si, de<<strong>br</strong> />

identificar o idioma, e o risco de considerarmos sítios dos demais países lusófonos.<<strong>br</strong> />

Consideraríamos, então, a geolocalização dos servidores utilizados<<strong>br</strong> />

para hospe<strong>da</strong>r a <strong>Web</strong>? Sabíamos de antemão que <strong>um</strong>a grande percentagem<<strong>br</strong> />

dos domínios “.<strong>br</strong>” estavam hospe<strong>da</strong>dos fora do país. Decidimos considerar<<strong>br</strong> />

apenas a <strong>Web</strong> forma<strong>da</strong> pelos domínios “.<strong>br</strong>”, conscientes de que há sítios<<strong>br</strong> />

nacionais hospe<strong>da</strong>dos em outros domínios que ficariam fora do <strong>estudo</strong>. Para<<strong>br</strong> />

minimizar o problema, consideramos no <strong>estudo</strong> os sítios sob outros domínios<<strong>br</strong> />

encontrados por meio de <strong>um</strong> redirecionamento a partir de <strong>um</strong>a URL que<<strong>br</strong> />

apontasse para <strong>um</strong> “.<strong>br</strong>”.<<strong>br</strong> />

A <strong>Web</strong> é <strong>um</strong>a rede cujos conteúdos estão interligados através de doc<strong>um</strong>entos<<strong>br</strong> />

de hipertexto. Seu <strong>estudo</strong> é possível por <strong>um</strong> processo de análise e coleta<<strong>br</strong> />

sucessiva <strong>da</strong>s páginas, a partir de <strong>um</strong> conjunto de sítios previamente conhecidos.<<strong>br</strong> />

Essa busca é feita de forma automática por <strong>um</strong> programa de computador<<strong>br</strong> />

normalmente chamado de crawler, coletor, ou batedor. Nem to<strong>da</strong> a <strong>Web</strong> está<<strong>br</strong> />

interliga<strong>da</strong>, contudo, embora a maior parte dela esteja: há “ilhas” de tamanhos<<strong>br</strong> />

variados sem ligação com o restante <strong>da</strong> rede. isso significa que o conjunto<<strong>br</strong> />

inicial de sítios a partir dos quais a pesquisa é feita influencia o resultado,<<strong>br</strong> />

e encontrar o conjunto adequado, geralmente o mais completo possível, é <strong>um</strong><<strong>br</strong> />

passo importante. Na coleta do “.gov.<strong>br</strong>”, por exemplo, a situação ideal seria<<strong>br</strong> />

conhecermos os domínios registrados diretamente sob o “.gov.<strong>br</strong>”, mais os<<strong>br</strong> />

domínios registrados sob as siglas <strong>da</strong>s uni<strong>da</strong>des federativas, como “.sp.gov.<strong>br</strong>”.<<strong>br</strong> />

Os primeiros estão sob responsabili<strong>da</strong>de do Governo Federal, e obtivemos a<<strong>br</strong> />

base; os demais são responsabili<strong>da</strong>de dos Governos Estaduais e contamos com<<strong>br</strong> />

o apoio <strong>da</strong> ABEP (Associação Brasileira de Enti<strong>da</strong>des Estaduais de TiCs) em sua<<strong>br</strong> />

obtenção. Ain<strong>da</strong> assim, apenas 8 uni<strong>da</strong>des federativas haviam nos enviado os<<strong>br</strong> />

<strong>da</strong>dos na época <strong>da</strong> coleta, o<strong>br</strong>igando-nos a, paliativamente, complementar os<<strong>br</strong> />

<strong>da</strong>dos usando sítios encontrados em buscadores <strong>Web</strong>.<<strong>br</strong> />

Há também armadilhas para o processo de coleta: sítios com <strong>um</strong> número<<strong>br</strong> />

infinito de páginas, gera<strong>da</strong>s dinamicamente. Elementos simples, como <strong>um</strong><<strong>br</strong> />

calendário gerado automaticamente no sítio, podem criar situações desse<<strong>br</strong> />

gênero. Limites de tamanho e profundi<strong>da</strong>de têm de ser estabelecidos, com o<<strong>br</strong> />

risco de impedirem a coleta de partes de sítios maiores que estes.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!