Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
Dimensões e características da Web brasileira: um estudo ... - CGI.br
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
C1: Distribuição do uso de idiomas na<<strong>br</strong> />
<strong>Web</strong> <strong><strong>br</strong>asileira</strong> - Proporção de idiomas<<strong>br</strong> />
Definição do indicador<<strong>br</strong> />
Valor percentual <strong>da</strong> quanti<strong>da</strong>de de páginas do domínio .gov.<strong>br</strong>., de acordo<<strong>br</strong> />
com <strong>um</strong>a relação pré-defini<strong>da</strong> de idiomas.<<strong>br</strong> />
Propósito<<strong>br</strong> />
Obter <strong>um</strong>a distribuição <strong>da</strong> quanti<strong>da</strong>de relativa de páginas do domínio .gov.<<strong>br</strong> />
<strong>br</strong>., de acordo com o seu idioma.<<strong>br</strong> />
Metodologia<<strong>br</strong> />
Execução de <strong>um</strong> crawler que percorre as páginas que satisfazem a definição<<strong>br</strong> />
anterior, a partir de <strong>um</strong> conjunto inicial de sementes forneci<strong>da</strong>s manualmente.<<strong>br</strong> />
O crawler utilizado baseia-se na frequência de ocorrência de palavras em<<strong>br</strong> />
<strong>um</strong> <strong>da</strong>do idioma, de acordo com dicionários pré-construídos de <strong>um</strong> conjunto<<strong>br</strong> />
de idiomas pré-determinado.<<strong>br</strong> />
Apresentação dos resultados<<strong>br</strong> />
A Tabela 4.11 apresenta a distribuição de quatro idiomas pré-definidos nas<<strong>br</strong> />
páginas do domínio .gov.<strong>br</strong>: Português, inglês, Espanhol, e Francês. Cabe<<strong>br</strong> />
ressaltar que existe <strong>um</strong> universo de páginas HTML para as quais não foi<<strong>br</strong> />
possível identificar o idioma a partir <strong>da</strong> técnica utiliza<strong>da</strong>. Esse universo corresponde<<strong>br</strong> />
a 2.912.597 (47,8% do total de páginas).<<strong>br</strong> />
dIsTRIBUIÇãO dOs<<strong>br</strong> />
IdIOMAs UTIlIzA dOs<<strong>br</strong> />
PElAs PáGINAs<<strong>br</strong> />
dO dOMíNIO<<strong>br</strong> />
PERCENTUAl dE PáGINAs dA WEB PARA<<strong>br</strong> />
CAdA TIPO dE IdIOMA dE UM CONjUNTO PRé-dETERMINAdO<<strong>br</strong> />
Português 3.088.680 97,05 %<<strong>br</strong> />
inglês 80.726 2,54 %<<strong>br</strong> />
Espanhol 10.623 0,33 %<<strong>br</strong> />
Francês 2.623 0,08 %<<strong>br</strong> />
Tabela 4.11: Distribuição dos idiomas <strong>da</strong>s páginas no domínio .gov.<strong>br</strong><<strong>br</strong> />
capítulo 4<<strong>br</strong> />
inDicaDores e universo De DaDos<<strong>br</strong> />
<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />
71