30.12.2012 Views

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

geração (semi)automática de metadados - Universidad Autónoma ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

município brasileiro, sendo que: (i) 4068 representam condições negativas para existência <strong>de</strong> site e-Gov -<br />

valor <strong>de</strong> classe igual a não (73,11%) e (ii) 1496 representam condições positivas para existência <strong>de</strong> site e-<br />

Gov - valor <strong>de</strong> classe igual a sim (26,89%).<br />

Assim, cada exemplo é constituído <strong>de</strong> 10 atributos:<br />

• url_p: URL principal da cida<strong>de</strong>, valor do tipo string;<br />

• uf: Nome do estado das cida<strong>de</strong>s, valor nominal com as 27 unida<strong>de</strong>s da fe<strong>de</strong>ração;<br />

• região: Nome da região das cida<strong>de</strong>s, valor nominal com as 5 regiões do Brasil (Norte, Sul, Centro-<br />

Oeste, Su<strong>de</strong>ste e Nor<strong>de</strong>ste);<br />

• ip: Os primeiros três dígitos do IP do host on<strong>de</strong> está hospedado a página da cida<strong>de</strong>, valores nominais<br />

(o valor 200 indica a faixa <strong>de</strong> IP do Brasil, ou seja, página hospedada em servidor nacional);<br />

• href: Quantida<strong>de</strong> <strong>de</strong> links na página principal do site, valor discreto entre 0 e 726 (média 4,233 e<br />

<strong>de</strong>svio padrão 17,915);<br />

• kb: Tamanho em Kb da página principal dos sites dos municípios (computando as figuras e <strong>de</strong>mais<br />

arquivos carregados), valor contínuo entre 0 e 986,388 (média 54,491 e <strong>de</strong>svio padrão 143,121);<br />

• q<strong>de</strong>_arq: Quantida<strong>de</strong> <strong>de</strong> arquivos da página principal do site, valor discreto entre 0 e 98 (média 3,888<br />

e <strong>de</strong>svio padrão 10,416);<br />

• b_html: Tamanho em byte do arquivo HTML da página principal, valor contínuo entre 0 e 65535<br />

(média 3120,54 e <strong>de</strong>svio padrão 9703.151);<br />

• ida<strong>de</strong>, valor discreto entre 21 e 81;<br />

• Tem_ip: Indica se a cida<strong>de</strong> possui IP (subdomínio registrado), valor nominal (sim ou não);<br />

• Tem_site: Indica se a cida<strong>de</strong> possui site no ar, valor nominal (sim ou não).<br />

A exploração <strong>de</strong>stes dados/atributos no ambiente WEKA em forma <strong>de</strong> gráfico é apresentada na Figura 6.<br />

Todos os quatro gráficos representam a proporção <strong>de</strong> municípios com e sem portal Web; da esquerda para<br />

direita, o primeiro gráfico mostra essa proporção para cada estado brasileiro (em or<strong>de</strong>m alfabética), o<br />

próximo para cada região nacional (Norte, Sul, Centro-Oeste, Su<strong>de</strong>ste, Nor<strong>de</strong>ste), o próximo a relação <strong>de</strong>sta<br />

proporção quanto as cida<strong>de</strong>s que possuem IP registrado e o último representa a quantia <strong>de</strong> cida<strong>de</strong>s com e sem<br />

portal Web.<br />

Região<br />

tem_ip<br />

tem_site<br />

1782<br />

3224<br />

4068<br />

1668<br />

1181<br />

2340<br />

471<br />

462<br />

norte sul Centro-oeste<br />

su<strong>de</strong>ste nor<strong>de</strong>ste<br />

Conferência IADIS Ibero-Americana WWW/Internet 2007<br />

sim não<br />

1496<br />

sim não<br />

Figura 6. Proporção dos atributos da base <strong>de</strong> dados, o cinza escuro representa as cida<strong>de</strong>s com website e o cinza claro<br />

representa as cida<strong>de</strong>s sem website.<br />

O algoritmo <strong>de</strong> clustering EM (weka.clusterers.EM -V -I 50 -N 3 -S 100 -M 1.0E-6) foi executado com os<br />

seguintes parâmetros: (i) Número máximo <strong>de</strong> iterações igual a 100, (ii) <strong>de</strong>svio padrão mínimo ,<br />

(iii) número <strong>de</strong> clusters configurado para selecionar automaticamente por validação cruzada e (iv) semente <strong>de</strong><br />

número aleatório igual a 100. Nesta análise <strong>de</strong> mineração <strong>de</strong>scobriu-se que os dados foram agrupados em três<br />

grupos e não em dois como inicialmente a equipe projetou. Os três grupos formados são:<br />

79

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!