11.07.2015 Views

Mineração de dados para inferência da relação solo ... - IAC

Mineração de dados para inferência da relação solo ... - IAC

Mineração de dados para inferência da relação solo ... - IAC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Universi<strong>da</strong><strong>de</strong> <strong>de</strong> Waikato, Nova Zelândia. O pacote Weka consiste <strong>de</strong> uma coleção <strong>de</strong>algoritmos <strong>de</strong> aprendizado <strong>de</strong> máquina <strong>para</strong> tarefas <strong>de</strong> mineração <strong>de</strong> <strong><strong>da</strong>dos</strong>. Po<strong>de</strong> serusado <strong>para</strong> aplicar métodos <strong>de</strong> aprendizado a um conjunto <strong>de</strong> <strong><strong>da</strong>dos</strong> e analisar a saí<strong>da</strong><strong>para</strong> extrair informações a partir dos <strong><strong>da</strong>dos</strong> <strong>de</strong> entra<strong>da</strong> (WEKA, 2006).O Weka usa arquivos <strong>de</strong> <strong><strong>da</strong>dos</strong> <strong>de</strong> treinamento on<strong>de</strong> <strong>de</strong>vem ser explicita<strong>da</strong>s quaisvariáveis são permiti<strong>da</strong>s <strong>para</strong> uma relação específica, bem como o tipo <strong>de</strong> <strong>da</strong>do <strong>de</strong> ca<strong>da</strong>variável, isto é, nominal ou valor numérico. O Weka po<strong>de</strong> <strong>de</strong>tectar padrões em <strong><strong>da</strong>dos</strong>que po<strong>de</strong>m ser explorados mediante regras. Dos recursos disponíveis, foi utilizado osistema <strong>de</strong> aprendizado com o algoritmo <strong>de</strong> indução <strong>de</strong> árvore <strong>de</strong> <strong>de</strong>cisão C4.5<strong>de</strong>senvolvido por QUINLAN (1983) e implementado em sua versão <strong>para</strong> linguagemJava (no Weka) com o nome J4.8, <strong>para</strong> gerar árvores <strong>de</strong> <strong>de</strong>cisão (WEKA, 2006).Para a utilização do conjunto <strong>de</strong> <strong><strong>da</strong>dos</strong>, foi necessário um pré-processamento afim <strong>de</strong> torná-los compatíveis com o formato <strong>da</strong> ferramenta utiliza<strong>da</strong>. Além disso, oalgoritmo <strong>de</strong> classificação requer que a variável a ser explica<strong>da</strong> seja uma variávelnominal, sendo necessário transformar os <strong><strong>da</strong>dos</strong> em variáveis nominais.A primeira etapa foi corrigir as matrizes <strong>de</strong> <strong><strong>da</strong>dos</strong>, pois estas apresentavamalguns <strong><strong>da</strong>dos</strong> que não contribuiriam no <strong>de</strong>senvolvimento do mo<strong>de</strong>lo, ou seja, retiraramseos <strong><strong>da</strong>dos</strong> conflitantes <strong>da</strong>s tabelas. A folha Dois Córregos apresentou 794.273 linhasna tabela enquanto a folha São Pedro apresentou 826.136 linhas.Foi utiliza<strong>da</strong> uma técnica <strong>de</strong> balanceamento <strong>de</strong> classes, que tem por finali<strong>da</strong><strong>de</strong>aumentar a proporção <strong>de</strong> amostragem nas classes com menor área <strong>de</strong> ocorrência ereduzir a proporção nas uni<strong>da</strong><strong>de</strong>s com maior área, ou seja, elevar a representativi<strong>da</strong><strong>de</strong><strong>da</strong>s classes com menor representativi<strong>da</strong><strong>de</strong> e diminuir a <strong>da</strong>s com maiorrepresentativi<strong>da</strong><strong>de</strong> (BATISTA, 2003).Os balanceamentos <strong>da</strong>s classes utilizados foram <strong>de</strong>: 0 (representa os <strong><strong>da</strong>dos</strong>brutos, sem balanceamento <strong>de</strong> classes), 0,5 (as classes são balancea<strong>da</strong>s <strong>de</strong> modointermediário entre zero e um) e 1 (situação na qual to<strong>da</strong>s as classes apresentam mesmadistribuição na folha).Para a criação do mo<strong>de</strong>lo <strong>de</strong> aprendizagem <strong>solo</strong> - geomorfometria <strong>para</strong> os <strong><strong>da</strong>dos</strong>brutos e os diversos balanceamentos <strong>da</strong>s classes, uma amostra <strong>de</strong> 10 % dos <strong><strong>da</strong>dos</strong> foiretira<strong>da</strong> aleatoriamente <strong>da</strong> matriz <strong>de</strong> <strong><strong>da</strong>dos</strong> pelo programa Weka, porém com to<strong>da</strong>s asuni<strong>da</strong><strong>de</strong>s <strong>de</strong> mapeamento contempla<strong>da</strong>s, mantendo-se a proporção <strong>de</strong> ca<strong>da</strong> uma. Apartir disso, o mo<strong>de</strong>lo <strong>de</strong> aprendizado foi gerado com os outros 90 % dos <strong><strong>da</strong>dos</strong>. Porfim, a acurácia <strong>de</strong> ca<strong>da</strong> mo<strong>de</strong>lo foi obti<strong>da</strong> por aplicação do mo<strong>de</strong>lo gerado nos 10 % dos44

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!