12.04.2013 Views

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

Dimensões e características da Web brasileira: um estudo ... - CGI.br

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

C1: Distribuição do uso de idiomas na<<strong>br</strong> />

<strong>Web</strong> <strong><strong>br</strong>asileira</strong> - Proporção de idiomas<<strong>br</strong> />

Definição do indicador<<strong>br</strong> />

Valor percentual <strong>da</strong> quanti<strong>da</strong>de de páginas do domínio .gov.<strong>br</strong>., de acordo<<strong>br</strong> />

com <strong>um</strong>a relação pré-defini<strong>da</strong> de idiomas.<<strong>br</strong> />

Propósito<<strong>br</strong> />

Obter <strong>um</strong>a distribuição <strong>da</strong> quanti<strong>da</strong>de relativa de páginas do domínio .gov.<<strong>br</strong> />

<strong>br</strong>., de acordo com o seu idioma.<<strong>br</strong> />

Metodologia<<strong>br</strong> />

Execução de <strong>um</strong> crawler que percorre as páginas que satisfazem a definição<<strong>br</strong> />

anterior, a partir de <strong>um</strong> conjunto inicial de sementes forneci<strong>da</strong>s manualmente.<<strong>br</strong> />

O crawler utilizado baseia-se na frequência de ocorrência de palavras em<<strong>br</strong> />

<strong>um</strong> <strong>da</strong>do idioma, de acordo com dicionários pré-construídos de <strong>um</strong> conjunto<<strong>br</strong> />

de idiomas pré-determinado.<<strong>br</strong> />

Apresentação dos resultados<<strong>br</strong> />

A Tabela 4.11 apresenta a distribuição de quatro idiomas pré-definidos nas<<strong>br</strong> />

páginas do domínio .gov.<strong>br</strong>: Português, inglês, Espanhol, e Francês. Cabe<<strong>br</strong> />

ressaltar que existe <strong>um</strong> universo de páginas HTML para as quais não foi<<strong>br</strong> />

possível identificar o idioma a partir <strong>da</strong> técnica utiliza<strong>da</strong>. Esse universo corresponde<<strong>br</strong> />

a 2.912.597 (47,8% do total de páginas).<<strong>br</strong> />

dIsTRIBUIÇãO dOs<<strong>br</strong> />

IdIOMAs UTIlIzA dOs<<strong>br</strong> />

PElAs PáGINAs<<strong>br</strong> />

dO dOMíNIO<<strong>br</strong> />

PERCENTUAl dE PáGINAs dA WEB PARA<<strong>br</strong> />

CAdA TIPO dE IdIOMA dE UM CONjUNTO PRé-dETERMINAdO<<strong>br</strong> />

Português 3.088.680 97,05 %<<strong>br</strong> />

inglês 80.726 2,54 %<<strong>br</strong> />

Espanhol 10.623 0,33 %<<strong>br</strong> />

Francês 2.623 0,08 %<<strong>br</strong> />

Tabela 4.11: Distribuição dos idiomas <strong>da</strong>s páginas no domínio .gov.<strong>br</strong><<strong>br</strong> />

capítulo 4<<strong>br</strong> />

inDicaDores e universo De DaDos<<strong>br</strong> />

<strong>Dimensões</strong> e <strong>características</strong> <strong>da</strong> <strong>Web</strong> <strong><strong>br</strong>asileira</strong>: <strong>um</strong> <strong>estudo</strong> do .gov.<strong>br</strong><<strong>br</strong> />

71

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!