11.07.2015 Views

Mineração de dados para inferência da relação solo ... - IAC

Mineração de dados para inferência da relação solo ... - IAC

Mineração de dados para inferência da relação solo ... - IAC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Após a correção <strong>da</strong> matriz <strong>de</strong> <strong><strong>da</strong>dos</strong> iniciaram-se as análises, selecionando-sealeatoriamente uma amostra <strong>de</strong> 10 % dos <strong><strong>da</strong>dos</strong> <strong>da</strong> folha São Pedro pelo programa <strong>de</strong>mineração <strong>de</strong> <strong><strong>da</strong>dos</strong> WEKA, <strong>de</strong> modo que to<strong>da</strong>s as uni<strong>da</strong><strong>de</strong>s <strong>de</strong> mapeamento fossemcontempla<strong>da</strong>s. Posteriormente, gerou-se um mo<strong>de</strong>lo relacional <strong>de</strong> aprendizado, sem os<strong><strong>da</strong>dos</strong> estratificados, através <strong>de</strong> árvores <strong>de</strong> <strong>de</strong>cisão, na qual ca<strong>da</strong> folha <strong>da</strong> árvorecorrespon<strong>de</strong>u às diferentes uni<strong>da</strong><strong>de</strong>s <strong>de</strong> mapeamento a serem preditas e os ramosreferiam-se às classes discretas <strong>da</strong>s variáveis gera<strong>da</strong>s na construção do mo<strong>de</strong>lo <strong>para</strong> os<strong><strong>da</strong>dos</strong> brutos. A avaliação <strong>da</strong> acurácia <strong>de</strong>sse mo<strong>de</strong>lo foi obti<strong>da</strong> quando as uni<strong>da</strong><strong>de</strong>s <strong>de</strong>mapeamento <strong>de</strong> <strong>solo</strong> resultantes foram testa<strong>da</strong>s nos <strong><strong>da</strong>dos</strong> selecionados no início eobservados a porcentagem <strong>de</strong> acerto e erro.Com a finali<strong>da</strong><strong>de</strong> <strong>de</strong> melhorar essa acurácia foi realizado o balanceamento <strong>de</strong>classes, pois algumas uni<strong>da</strong><strong>de</strong>s <strong>de</strong> mapeamento apresentam gran<strong>de</strong> representativi<strong>da</strong><strong>de</strong> nafolha, enquanto outras não chegaram a 2 % do total. Essa técnica consiste em aumentara proporção <strong>de</strong> amostragem nas classes com menor área <strong>de</strong> ocorrência e reduzir aproporção nas uni<strong>da</strong><strong>de</strong>s com maior área (Figura 10).Muitos sistemas <strong>de</strong> aprendizado assumem previamente que as classes estãobalancea<strong>da</strong>s e acabam falhando ao induzir um classificador que seja incapaz <strong>de</strong> predizera classe minoritária com acurácia. Na maioria dos casos o classificador possui uma boaacurácia <strong>para</strong> a classe majoritária, mas uma acurácia baixa <strong>para</strong> a classe minoritária. Oproblema agrava-se ain<strong>da</strong> mais quando o custo <strong>da</strong> classificação incorreta <strong>da</strong> classeminoritária é muito maior que o custo <strong>da</strong> classificação incorreta <strong>da</strong> classe majoritária(BATISTA, 2003).Para solucionar esses problemas po<strong>de</strong>m ser aplicados alguns métodos, como os<strong>de</strong>senvolvidos por JAPKOWICZ & STEPHENS (2002), através <strong>da</strong> atribuição doscustos <strong>da</strong> classificação incorreta, un<strong>de</strong>r-sampling ou over-sampling. Esses dois últimossão métodos <strong>de</strong> pré-processamento dos <strong><strong>da</strong>dos</strong>. Consistem em balancear artificialmente adistribuição <strong>da</strong>s classes no conjunto <strong>de</strong> exemplos. Através do un<strong>de</strong>r-sampling oconjunto <strong>de</strong> <strong><strong>da</strong>dos</strong> é balanceado pela eliminação <strong>da</strong>s uni<strong>da</strong><strong>de</strong>s <strong>de</strong> mapeamento commaior representativi<strong>da</strong><strong>de</strong>, enquanto no over-sampling as uni<strong>da</strong><strong>de</strong>s são balancea<strong>da</strong>s pelareplicação <strong>da</strong>s <strong>de</strong> menor proporção.54

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!