12.04.2013 Views

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Outro ponto a ser considerado é o que apeli<strong>da</strong>mos de “<strong>Web</strong> profun<strong>da</strong>”: a<<strong>br</strong> />

parte <strong>da</strong> rede em que é requeri<strong>da</strong> a autenticação do usuário para a navegação,<<strong>br</strong> />

por exemplo a maior parte dos sítios de relacionamento ou comuni<strong>da</strong>des.<<strong>br</strong> />

Essa parte <strong>da</strong> <strong>Web</strong> é inacessível através do método utilizado, tendo<<strong>br</strong> />

ficado fora do <strong>estudo</strong>. Existe ain<strong>da</strong> a possibili<strong>da</strong>de de serem consultados<<strong>br</strong> />

servidores temporariamente indisponíveis, ou de serem encontrados sítios<<strong>br</strong> />

sem o arquivo robots.txt, que especifica se eles podem ou não ser visitados<<strong>br</strong> />

por batedores automatizados, ou sítios em que esse arquivo negue a possibili<strong>da</strong>de<<strong>br</strong> />

<strong>da</strong> coleta.<<strong>br</strong> />

Consideramos, ain<strong>da</strong>, os recursos de tempo, processamento, conectivi<strong>da</strong>de<<strong>br</strong> />

e disco, para coletar, armazenar e processar os <strong>da</strong>dos: mesmo agora, com<<strong>br</strong> />

a primeira parte do <strong>estudo</strong> concluí<strong>da</strong>, temos ain<strong>da</strong> dificul<strong>da</strong>de em estimar<<strong>br</strong> />

o que seria necessário para <strong>um</strong> <strong>estudo</strong> no formato censitário de to<strong>da</strong> a <strong>Web</strong><<strong>br</strong> />

“.<strong>br</strong>”. As estimativas de quanti<strong>da</strong>de de <strong>da</strong>dos, por exemplo, variam entre 30<<strong>br</strong> />

e 300Tbytes, considerando-se apenas as páginas em formato HTML.<<strong>br</strong> />

Ao aventarmos a possibili<strong>da</strong>de de fazer o <strong>estudo</strong>, <strong>um</strong> dos primeiros passos<<strong>br</strong> />

foi procurar por pesquisas similares realiza<strong>da</strong>s anteriormente, e por ferramentas.<<strong>br</strong> />

Encontramos alg<strong>um</strong>as pesquisas de cunho acadêmico, inclusive<<strong>br</strong> />

realiza<strong>da</strong>s so<strong>br</strong>e a <strong>Web</strong> <strong><strong>br</strong>asileira</strong>, que nos auxiliaram no processo. Encontramos<<strong>br</strong> />

também alg<strong>um</strong>as ferramentas que poderiam ser aproveita<strong>da</strong>s para a<<strong>br</strong> />

coleta dos <strong>da</strong>dos. Em particular, estu<strong>da</strong>mos três programas de computador<<strong>br</strong> />

para essa finali<strong>da</strong>de: o Nutch, <strong>um</strong> coletor utilizado para a criação de buscadores;<<strong>br</strong> />

o Heritrix, usado no <strong>Web</strong> Archive, <strong>um</strong> projeto que mantém <strong>um</strong><<strong>br</strong> />

arquivo histórico de parte relevante <strong>da</strong> <strong>Web</strong>; e o WiRE, utilizado em <strong>um</strong> dos<<strong>br</strong> />

<strong>estudo</strong>s acadêmicos que encontramos, escrito justamente com a finali<strong>da</strong>de<<strong>br</strong> />

de realizar <strong>estudo</strong>s so<strong>br</strong>e a <strong>Web</strong>, tendo já embuti<strong>da</strong>s alg<strong>um</strong>as ferramentas<<strong>br</strong> />

de análise que consideramos de interesse: análise do tamanho <strong>da</strong>s páginas,<<strong>br</strong> />

tipos de doc<strong>um</strong>entos, idiomas, cálculo de rankings, etc. A conclusão foi: começar<<strong>br</strong> />

o <strong>estudo</strong> utilizando qualquer <strong>um</strong>a delas traria vantagens em relação<<strong>br</strong> />

ao desenvolvimento de <strong>um</strong>a ferramenta inteiramente nova. Optamos pelo<<strong>br</strong> />

WiRE, principalmente pela existência <strong>da</strong>s funcionali<strong>da</strong>des de análise, já incorpora<strong>da</strong>s<<strong>br</strong> />

ao programa.<<strong>br</strong> />

Sabíamos que alg<strong>um</strong>as modificações teriam de ser feitas no WiRE original.<<strong>br</strong> />

Por exemplo, seria necessário que armazenássemos as páginas <strong>Web</strong> integralmente,<<strong>br</strong> />

para possibilitar a aderência aos padrões, então os arquivos HTML<<strong>br</strong> />

coletados, que antes passavam por <strong>um</strong> filtro para eliminar alg<strong>um</strong>as tags<<strong>br</strong> />

HTML, e eram armazenados em <strong>um</strong> grande arquivo de <strong>da</strong>dos de formato<<strong>br</strong> />

proprietário, passaram a ser armazenados integralmente no sistema de arquivos,<<strong>br</strong> />

em pastas e subpastas, n<strong>um</strong> formato similar ao original dos próprios<<strong>br</strong> />

capítulo 1<<strong>br</strong> />

Os DesafiOs técnicOs para O estuDO Da <strong>Web</strong> <strong><strong>br</strong>asileira</strong><<strong>br</strong> />

<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />

21

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!