Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Outro ponto a ser considerado é o que apeli<strong>da</strong>mos de “<strong>Web</strong> profun<strong>da</strong>”: a<<strong>br</strong> />
parte <strong>da</strong> rede em que é requeri<strong>da</strong> a autenticação do usuário para a navegação,<<strong>br</strong> />
por exemplo a maior parte dos sítios de relacionamento ou comuni<strong>da</strong>des.<<strong>br</strong> />
Essa parte <strong>da</strong> <strong>Web</strong> é inacessível através do método utilizado, tendo<<strong>br</strong> />
ficado fora do <strong>estudo</strong>. Existe ain<strong>da</strong> a possibili<strong>da</strong>de de serem consultados<<strong>br</strong> />
servidores temporariamente indisponíveis, ou de serem encontrados sítios<<strong>br</strong> />
sem o arquivo robots.txt, que especifica se eles podem ou não ser visitados<<strong>br</strong> />
por batedores automatizados, ou sítios em que esse arquivo negue a possibili<strong>da</strong>de<<strong>br</strong> />
<strong>da</strong> coleta.<<strong>br</strong> />
Consideramos, ain<strong>da</strong>, os recursos de tempo, processamento, conectivi<strong>da</strong>de<<strong>br</strong> />
e disco, para coletar, armazenar e processar os <strong>da</strong>dos: mesmo agora, com<<strong>br</strong> />
a primeira parte do <strong>estudo</strong> concluí<strong>da</strong>, temos ain<strong>da</strong> dificul<strong>da</strong>de em estimar<<strong>br</strong> />
o que seria necessário para <strong>um</strong> <strong>estudo</strong> no formato censitário de to<strong>da</strong> a <strong>Web</strong><<strong>br</strong> />
“.<strong>br</strong>”. As estimativas de quanti<strong>da</strong>de de <strong>da</strong>dos, por exemplo, variam entre 30<<strong>br</strong> />
e 300Tbytes, considerando-se apenas as páginas em formato HTML.<<strong>br</strong> />
Ao aventarmos a possibili<strong>da</strong>de de fazer o <strong>estudo</strong>, <strong>um</strong> dos primeiros passos<<strong>br</strong> />
foi procurar por pesquisas similares realiza<strong>da</strong>s anteriormente, e por ferramentas.<<strong>br</strong> />
Encontramos alg<strong>um</strong>as pesquisas de cunho acadêmico, inclusive<<strong>br</strong> />
realiza<strong>da</strong>s so<strong>br</strong>e a <strong>Web</strong> <strong><strong>br</strong>asileira</strong>, que nos auxiliaram no processo. Encontramos<<strong>br</strong> />
também alg<strong>um</strong>as ferramentas que poderiam ser aproveita<strong>da</strong>s para a<<strong>br</strong> />
coleta dos <strong>da</strong>dos. Em particular, estu<strong>da</strong>mos três programas de computador<<strong>br</strong> />
para essa finali<strong>da</strong>de: o Nutch, <strong>um</strong> coletor utilizado para a criação de buscadores;<<strong>br</strong> />
o Heritrix, usado no <strong>Web</strong> Archive, <strong>um</strong> projeto que mantém <strong>um</strong><<strong>br</strong> />
arquivo histórico de parte relevante <strong>da</strong> <strong>Web</strong>; e o WiRE, utilizado em <strong>um</strong> dos<<strong>br</strong> />
<strong>estudo</strong>s acadêmicos que encontramos, escrito justamente com a finali<strong>da</strong>de<<strong>br</strong> />
de realizar <strong>estudo</strong>s so<strong>br</strong>e a <strong>Web</strong>, tendo já embuti<strong>da</strong>s alg<strong>um</strong>as ferramentas<<strong>br</strong> />
de análise que consideramos de interesse: análise do tamanho <strong>da</strong>s páginas,<<strong>br</strong> />
tipos de doc<strong>um</strong>entos, idiomas, cálculo de rankings, etc. A conclusão foi: começar<<strong>br</strong> />
o <strong>estudo</strong> utilizando qualquer <strong>um</strong>a delas traria vantagens em relação<<strong>br</strong> />
ao desenvolvimento de <strong>um</strong>a ferramenta inteiramente nova. Optamos pelo<<strong>br</strong> />
WiRE, principalmente pela existência <strong>da</strong>s funcionali<strong>da</strong>des de análise, já incorpora<strong>da</strong>s<<strong>br</strong> />
ao programa.<<strong>br</strong> />
Sabíamos que alg<strong>um</strong>as modificações teriam de ser feitas no WiRE original.<<strong>br</strong> />
Por exemplo, seria necessário que armazenássemos as páginas <strong>Web</strong> integralmente,<<strong>br</strong> />
para possibilitar a aderência aos padrões, então os arquivos HTML<<strong>br</strong> />
coletados, que antes passavam por <strong>um</strong> filtro para eliminar alg<strong>um</strong>as tags<<strong>br</strong> />
HTML, e eram armazenados em <strong>um</strong> grande arquivo de <strong>da</strong>dos de formato<<strong>br</strong> />
proprietário, passaram a ser armazenados integralmente no sistema de arquivos,<<strong>br</strong> />
em pastas e subpastas, n<strong>um</strong> formato similar ao original dos próprios<<strong>br</strong> />
capítulo 1<<strong>br</strong> />
Os DesafiOs técnicOs para O estuDO Da <strong>Web</strong> <strong><strong>br</strong>asileira</strong><<strong>br</strong> />
<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />
21