Uma comparação entre a implementação de uma Rede Neural ...

Uma comparação entre a implementação de uma RedeNeural Perceptron e de uma Induction Decision Tree(ID3) na classificação de um conjunto de dados bináriosCarolina Dorta 1 , Diego Cardona 11Escola Politécnica da USP - Av. Prof. Luciano Gualberto, travessa 3 nº 380,São Paulo - SP, Brasil[caroldorta, dacadas]@gmail.comResumo. Este artigo trata da comparação da implementação da classificação de umconjunto de dados binários utilizando dois algoritmos. O primeiro deles se trata deuma Rede Neural de 1 camada (Perceptron). O outro se refere ao algoritmo InductionDecision Tree (ID3).Keywords: Perceptron, Redes Neurais, ID3, Aprendizado Supervisionado.1 IntroduçãoOs dois métodos de aprendizado estudados no presente artigo têm uma característica emcomum: supervisionamento. Isso quer dizer que estes métodos aprendem através de umconjunto de exemplos que lhes são apresentados antes de eles atuarem de fato. Fazendoum paralelo com a forma através da qual os seres humanos aprendem, é possível notar queeste método é baseado na forma como os seres humanos aprendem através de experiênciase exemplos e são capazes de desempenhar um papel satisfatório em situações que seassemelham a estas expostas por estes exemplos a posteriori. Este método se tornainteressante quando é necessário tomar decisões em ambientes totalmente observáveis. Emambientes parcialmente observáveis o problema se torna mais difícil de ser resolvido,porque os efeitos imediatos podem ser invisíveis (RUSSEL, 2003).2 ProblemáticaO seguinte exercício foi apresentado como motivação para este trabalho:Fig. 1. Apresentação do problema que motivou este trabalho.

2 Uma comparação entre a implementação de uma Rede Neural Perceptron e de umaInduction Decision Tree (ID3) na classificação de um conjunto de dados binários3 Perceptron3.1 Aspectos Conceituais3.1.1 Redes NeuraisUm neurônio é um tipo de célula. Sua principal função é coletar, processar a disseminarsinais elétricos. Assim sendo, um cérebro é capaz de processar informações porque éformado por uma rede de muitos neurônios.Esta é a motivação por trás da modelagem de redes neurais artificiais. A figura a seguirilustra a primeira concepção deste modelo, realizada por McCullock e Pitts em 1943.Fig. 2.Um simples modelo matemático para um neurônio. A soma ponderada de cada a(saída de ativação das unidades anteriores) com W i,j define a saída de ativação da presenteunidade, e assim consecutivamente.Redes neurais são compostas por unidades, conectadas por links. A figura anteriorrepresenta uma unidade cujas setas de entradas representam links entre ela e as unidadesconectadas anteriormente a ela. Além disso há a representação de uma conexão de saída,que permite que os resultados da presente unidade sejam utilizados como entradas emoutras unidades. Cada unidade tem ponderações de consideração de suas entradas,representadas na figura por W i,j , ou seja, o peso da conexão de saída da unidade i napresente unidade j. Além disso, há uma função que define quando a presente unidadedispara um sinal em sua saída (ativa-se): = ( Wj, i aj A função de ativação g tem dois propósitos: primeiramente, ela garante que a unidadedispare (saída perto de +1) quando as entradas adequadas foram fornecidas, e que quandoas entradas erradas foram fornecidas a saíde esteja desativada (perto de 0). Além disso, ointeressante é que g seja não linear, ou então toda a rede neural se limita a uma simplesfunção linear. Duas possíveis escolhas para g são 1) a função threshold e 2) a funçãosigmoide )

Uma comparação entre a implementação de uma Rede Neural Perceptron e de uma InductionDecision Tree (ID3) na classificação de um conjunto de dados binários 3Fig. 3. a) função threshold e b) função sigmoide.3.1.2 PerceptronO Perceptron é uma rede neural de 1 nível alimentada de forma direta, ou seja, não háretroalimentação entre as unidades.Perceptrons representam funções booleanas quando sua função de ativação é baseada nafunção thereshold. O a função threshold do Perceptron retorna 1 se a somaponderada de suas entradas for positiva, e retorna 0 se essa soma for zero ou negativa. Issosignifica que as entradas são classificada em duas classes distintas, o que faz doPerceptron um separador linear.1 se Wj, i aj > 00 se Wj, i aj ≤ 0Fig. 4. a) função de ativação g do Perceptron3.2 ImplementaçãoHá duas rodadas de cálculo de erro para avaliar a condição de parada de ajuste dospesos. Basicamente, o algoritmo é o seguinte:Fig. 6. Algoritmo utilizado na classificação por Perceptron.

4 Uma comparação entre a implementação de uma Rede Neural Perceptron e de umaInduction Decision Tree (ID3) na classificação de um conjunto de dados bináriosO GlobalError equivale ao erro calculado para uma Época, ou seja, cada conjunto de 14micro-iterações na qual os 14 exemplos são utilizados para a calibração dos pesos.O LocalError é calculado como a diferença entre a some ponderada das entradas e asaída fornecida no enunciado para aquele exemplo.A função g é a função threshold. Ela é calculada junto com as ponderações, da seguinteforma:private static int Output(double[] weights, int x1, int x2,int x3, int x4, int x5, int x6){double sum = x1 * weights[0] + x2 * weights[1] +x3 * weights[2] + x4 * weights[3] + x5 * weights[4] + x6 *weights[5];}return (sum >= 0) ? 1 : 0;3.3 ResultadosPrimeiramente, os pesos finais obtidos com uma taxa de aprendizado igual a 1,0 éexibida na tabela abaixo:w1 3,04248806w2 -0,994107114w3 2,187279098w4 -2,965049837w5 -4,086652491w6 2,203299659Tab. 1. Pesos obtidos com uma taxa de aprendizado de 1,0.Cada macro-iteração, com 14 exemplos computados, é chamada de Época. Para 10000vezes que o algoritmo foi executado, foi obtida a convergência dos pesos de forma queGlobalError fosse zero nos seguintes número de Épocas:1500Quantidade de Épocas100050007 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25Fig. 7. Em 10000 vezes que o algoritmo foi executado, o número de vezes em que eleconvergiu por número de Épocas. Por exemplo, o algoritmo convergiu 1260 vezes em 17Épocas. A taxa de aprendizado utilizada foi de 1.

Uma comparação entre a implementação de uma Rede Neural Perceptron e de uma InductionDecision Tree (ID3) na classificação de um conjunto de dados binários 5Ou seja, temos que o algoritmo converge, em média, em aproximadamente 16 Épocasse a taxa de aprendizado é igual a 1.Além disso, há uma taxa de aprendizado relacionada à calibração dos pesos. Pode-seobservar que o número de Épocas que o algoritmo demora para convergir depende da taxade aprendizado na seguinte função:3020100Erro total final em função da taxa de aprendizado0 0.2 0.4 0.6 0.8 1 1.2Fig. 8. Para cada taxa de aprendizado de 0,1 a 1,0 com variação de 0,1, calculou-se asoma dos error totais finais obtidos para os 14 exemplos. Os resultados estão no gráficoacima.Abaixo é apresentado o resultado de uma análise na qual procurou-se saber se o númerode vezes que os pesos eram atualizados variava com a taxa de aprendizado aplicada:600Número de vezes que os pesos são atualizados emfunção da taxa de aprendizado40020000 0.5 1 1.5 2 2.5Fig. 10. Número de vezes que os pesos foram atualizados em função da taxa deaprendizado aplicada.Conclui-se então que a variação na taxa de aprendizado não tem correlação forte com aquantidade de vezes que os pesos são atualizados.

6 Uma comparação entre a implementação de uma Rede Neural Perceptron e de umaInduction Decision Tree (ID3) na classificação de um conjunto de dados binários4 Induction Decision Tree (ID3)4.1 Aspectos ConceituaisConsidere um conjunto de objetos que são descritos em termos de uma coleção deatributos. Esses objetos podem pertencer a diferentes classes. Cada atributo mede algumacaracterística importante de um objeto.Agora considere um conjunto de treinamento, cuja classe de cada objeto é conhecida.Se o conjunto de treinamento contém dois objetos que têm valores idênticos para dadoatributo e mesmo assim pertencem a classes diferentes, é impossível diferenciar essesobjetos somente considerando tal atributo. Neste caso, considera-se que este atributo éinadequado para o conjunto de treinamento e também para a tarefa de indução. A tarefa deindução é desenvolver uma regra de classificação que pode determinar a classe dequalquer objeto a partir dos valores dos seus atributos. Tal regra de classificação pode serexpressa como uma árvore de decisão (RUIZ, 2008).Uma árvore de decisão é uma estrutura simples em que as folhas contêm as classes, osoutros nós representam atributos baseados em testes com um ramo para cada possívelsaída. Para classificar um objeto, começa-se com a raiz da árvore, aplica-se o teste e tomaseo ramo apropriado para aquela saída. O processo continua até uma folha ser encontrada.Em tal caso garante-se que o objeto pertence a classe nomeada pela folha.Se os atributos são adequados é sempre possível construir uma árvore de decisão queclassifica corretamente cada objeto no conjunto de treinamento e normalmente existemmuitas árvores de decisão corretas. A essência da indução é ir além do conjunto detreinamento, isto é, classificar corretamente outros objetos. Para conseguir isto a árvore dedecisão deve capturar alguma relação significativa entre a classe do objeto e os valores deseus atributos. Quando tem-se duas árvores de decisão que classificam corretamente umconjunto de treinamento, deve-se escolher a mais simples, uma vez que, ela é maisadequada para capturar a estrutura inerente do problema e assim, vai classificarcorretamente mais objetos fora do conjunto de treinamento.O algoritmo ID3, desenvolvido por (QUINLAN, 1985), é um dos algoritmos maispopulares na área da indução de árvore de decisão.A idéia básica do ID3 é iterativa. Um subconjunto do conjunto de treinamento chamadojanela é escolhido aleatoriamente e uma árvore de decisão é formada a partir dele. Todosos outros objetos do conjunto de treinamento são classificados usando a árvore. Se estaárvore fornecer a resposta correta para todos os objetos o processo termina, se não, umaseleção dos objetos classificados incorretamente é adicionada a janela e o processocontinua (RUIZ, 2008).O cerne do problema é como formar uma árvore de decisão para uma coleção arbitráriade C objetos. Se C é vazio ou contém somente objetos de uma classe, a árvore de decisãomais simples é justamente uma folha classificada com aquela classe. Caso contrário, seja Tqualquer teste sobre um objeto que tem os possíveis resultados O1, O2, ... , Ow. Cadaobjeto em C dá um desses resultados para T, portanto T produz uma partição {C1, C2, ... ,Cw}, de C, com Ci contendo aqueles objetos que tem saída Oi. No pior caso essaestratégia fornecerá subconjuntos de um único objeto, que satisfaz a exigência de umaclasse por folha. Assim, uma vez que um teste pode sempre ser encontrado de uma divisãonão trivial de qualquer conjunto de objetos, este procedimento sempre permite obter umaárvore de decisão que classifique corretamente os objetos em C[1].

Uma comparação entre a implementação de uma Rede Neural Perceptron e de uma InductionDecision Tree (ID3) na classificação de um conjunto de dados binários 7A escolha do teste é crucial para a árvore de decisão ser simples. O ID3 adota umainformação baseada no método que depende de duas hipóteses:H1: Toda árvore de decisão correta para C classificará objetos na mesma proporção quesua representação em C. No caso de uma amostra de objetos que pertencem somente aduas classes, por exemplo, P e N, um objeto qualquer pertencerá a classe P comprobabilidade p/(p+n) e a classe N com probabilidade n/(p+n) (RUIZ, 2008).H2: Quando uma árvore de decisão é usada para classificar um objeto, ela retorna umaclasse. Árvore de decisão pode assim ser considerada como uma fonte de mensagem P ouN com a informação necessária prevista para gerar a mensagem dada por:(, ) = − + + − + ( + )Se o atributo A com os valores [A1, A2, ... , Av] é usado para a raíz da árvore dedecisão, ela dividirá C [C1, C2, ... , Cv], onde Ci contém aqueles objetos em C que temvalores Ai de A. Considere Ci contendo pi objetos da classe P e ni da classe N. Ainformação prevista necessária para a sub-árvore para Ci é I(pi, ni). A informação previstanecessária para a árvore com A como raiz é obtida com a média ponderada:() = + (, ) + em que o peso para o i-ésimo ramo é proporcional aos objetos em C que pertencem Ci.A informação ganha pela ramificação sobre A é, desta forma:G(A) = I ( p, n) − E(A)O algoritmo ID3 examina todos os atributos candidatos e escolhe A para maximizar oganho de A, forma as árvores como acima e então usa o mesmo processo recursivamentepara formar a árvore de decisão para os subconjuntos restantes, C1, C2, ... , Cv.4.2 ImplementaçãoFig. 11. Algoritmo ID3

8 Uma comparação entre a implementação de uma Rede Neural Perceptron e de umaInduction Decision Tree (ID3) na classificação de um conjunto de dados binários4.3 ResultadosA árvore gerada é a seguinte:Fig. 11. Árvore no console, impressa pela aplicação.De forma simplificada, a árvore é a seguinte:Fig. 12. Árvore obtida com o algoritmo ID3 e conjunto de treinamento descrito naProblemática. Pode-se observar que todos os exemplos são classificados corretamente porela.5 ConclusõesPode-se concluir primeiramente que o Perceptron, apesar de parecer um método deaprendizado supervisionado mais complexo que o ID3, é de desenvolvimento maissimples que este último.

Uma comparação entre a implementação de uma Rede Neural Perceptron e de uma InductionDecision Tree (ID3) na classificação de um conjunto de dados binários 9Com relação a tempo de execução pode-se dizer que o Perceptron apresenta, para umataxa de aprendizado igual a 1,0 e demais propriedades aplicadas de forma padrão, umdesempenho mais favorável que o ID3. Mas é possível afirmar que a calibração destesparâmetros é essencial para ter uma resposta de convergência em tempo satisfatório. Já oID3 não apresenta parâmetros de refinamento, o que o torna um algoritmo decomportamento mais determinístico que o Perceptron.Ambos os métodos, como já explicitado, são de aprendizado supervisionado, ou seja, énecessário apresentar um conjunto de informações para seu treinamento, e após esta etapao algoritmo terá moldado seu modelo para ser aplicado em demais conjuntos de dados.Métodos deste tipo são interessantes por serem capazes de, após treinados, tomaremdecisões de forma simples. Além disso eles têm capacidade de adequar-se ao contexto emque são aplicados. Como um ponto a se observar com cautela nesta última vantagem podeseapontar o risco de overfit, fenômeno no qual o modelo apresenta resultadosextremamente satisfatórios para seu conjunto de dados de treinamento e resultadosindesejados nos demais conjuntos de dados analisados através dele.6 Referências1. Russell, S.; Norvig, P..: Artificial Intelligence - A Modern Approach 2ed. Prentice Hall (2003)2. Costa, A. H. R.: Notas de Aula de PCS 2059 – Inteligência Artificial (2010)3. Quinlan, J. R.: Induction of Decision Trees. Centre for Advanced Computing Sciences, NewSouth Wales Institute of Technology, Sydney 2007, Australia4. Ruiz, R. S. R.; Velho, H. F. C.; Santos, R. D. C.; Trevisan, M.: Árvores de Decisão emclassificação de dados Astronômicos. Departamento de Astronomia, IAG – USP / Laboratório deComputação e Matemática Aplicada, LAC, INPE.

10 ANEXO I – Erros totais do Perceptron em função da taxa de aprendizadoANEXO I – Erros totais do Perceptron em função da taxa deaprendizado

Uma comparação entre a implementação de uma Rede Neural ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?