ID3-RMF: UM ALGORITMO DE APRENDIZADO INDUTIVO ... - SBA

More documents

Recommendations

Info

X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil Uma das principais atividades relacionadas ao desenvolvimento de um SBC consiste na transferência de conhecimento à sua Base de Conhecimento. Este processo é conhecido como Aquisição de Conhecimento e é, reconhecidamente, o processo mais difícil durante o desenvolvimento de SBCs, exigindo um grande investimento em tempo e esforço. Nesse ponto é que se torna necessário o Aprendizado de Máquina, definido por Wang et al. (2009) como o estudo da utilização de computadores para simular atividades humanas de aprendizagem e desenvolver métodos autoincrementais de obtenção de novos conhecimentos e novas habilidades e identificação de conhecimento já existente. A Figura 2 ilustra a estrutura básica de um sistema de aprendizado de máquina. Figura 2: Sistema baseado em aprendizado de máquina – Adaptada de (Xue and Zhu, 2009) Entre os vários modelos existentes para aprendizado, o aprendizado simbólico conhecido como aprendizado indutivo baseado em exemplos é o que mais tem sido pesquisado e o que mais tem contribuído efetivamente para a implementação de sistemas de aprendizado de máquina. A partir de um conjunto de exemplos, expressões para tarefas classificatórias podem ser aprendidas (induzidas) como, por exemplo, diagnóstico de doenças, etc. A Figura 3 ilustra esse processo. Conjunto de Treinamento Exemplo : Decisão 1 i1 Exemplo : Decisão . 2 . i2 . . Exemplo : Decisão n in Sistema de Aprendizado Indutivo Regras de Decisão Padrão ⇒ Decisão 1 j1 Padrão ⇒ Decisão . 2 . j2 . . Padrão ⇒ Decisão m jm Figura 3: Esquema geral de aprendizado indutivo de regras – Adaptada de (Shaw and Gentry, 1990) No aprendizado indutivo baseado em exemplos, também referenciado como aprendizado indutivo, o conjunto de exemplos, também denominado de conjunto de treinamento, é fornecido ao sistema por um instrutor ou pelo ambiente (base de dados, sensores, etc.). Esse conjunto de treinamento é geralmente composto de exemplos positivos (exemplos do conceito) e exemplos negativos (contra-exemplos do conceito). A indução do conceito corresponde a uma busca no espaço de hipóteses, de forma a encontrar aquelas que melhor classificam os exemplos, em termos de precisão e consistência. De uma maneira geral, um sistema que aprende a partir de exemplos recebe como dados informações na forma de situações específicas, cada uma delas devidamente classificadas (geralmente por especialista humano no domínio), caracterizando o que se convenciona chamar de aprendizado supervisionado, e produz, como resultado, hipótese(s) que generaliza(m) aquelas situações inicialmente fornecidas. Um algoritmo bastante utilizado e pesquisado nesta área de aprendizado supervisionado é o ID3 (Iterative Dichotomiser 3), proposto por Quinlan (1986). Este algoritmo tem como entrada elementos caracterizados por atributos e como saída uma árvore de decisão, cujo processo de construção possui uma heurística de seleção de atributos baseada no ganho de informação durante o processo de construção em si. Ou seja, o algoritmo visa ganhar o máximo possível em informação à medida em que vai adicionando nós na árvore. A construção propriamente dita da árvore de decisão, pelo algoritmo ID3, consiste em ir adicionando nós, representando os atributos, na árvore de acordo com o ganho de informação, através do cálculo de entropia. No momento em que existir apenas objetos de uma classe, insere-se um nó folha com o nome daquela classe. 3 Teoria dos Conjuntos Aproximados Um espaço aproximado é um par ordenado A = (U, R), onde: • U é um conjunto não vazio, denominado conjunto universo; • R é uma relação de equivalência sobre U, denominada relação de indiscernibilidade. Dados x, y ∈ U, se xRy então x e y são indiscerníveis em A, ou seja, a classe de equivalência definida por x é a mesma que a definida por y, i.e., [x]R = [y]R. Nesse caso, [x]R é um conjunto elementar, ou átomo, de A. Dado um espaço aproximado A = (U, R) e um conjunto X ⊆ U, com o objetivo de verificar o quão bem X é representado pelos conjuntos elementares de A, são definidas: • aproximação inferior de X em A, AA-inf (X), como a união de todos os conjuntos elementares que estão contidos em X: AA-inf (X) = {x ∈ U | [x]R ⊆ X} • aproximação superior de X em A, AA-sup(X), como a união dos conjuntos que possuem intersecção não vazia com X: AA-sup(X) = {x ∈ U | [x]R ∩ X = ∅} As aproximações inferior e superior permitem a classificação do espaço aproximado em regiões: 1. região positiva de X em A, formada por todas as classes de equivalência de U contidas inteiramente no conjunto X: posA(X) = AA-inf (X) ISSN: 2175-8905 - Vol. X 70
X SBAI – Simpósio Brasileiro de Automação Inteligente 18 a 21 de setembro de 2011 São João del-Rei - MG - Brasil 2. região negativa de X em A, formada pelos conjuntos elementares de A que não estão contidos na aproximação superior de X: negA(X) = U − AA-sup(X) 3. região duvidosa de X em A, formada pelos elementos que pertencem a aproximação superior mas não pertencem à aproximação inferior: duvA(X) = AA-sup(X) − AA-inf (X) Dado um espaço aproximado A = (U, R), um conjunto X ⊆ U e um elemento x ∈ U, pode-se definir uma função que representa o grau de pertinência do elemento x no conjunto X, levando em consideração somente as informações do espaço aproximado A, da seguinte maneira: µ A X(x) = |[x]R ∩ X| |[x]R| 4 Trabalhos correlatos RS1: O RS1, proposto por Wong and Ziarko (1986), é um algoritmo de aprendizado indutivo de máquina baseado em um conceito da TCA chamado índice discriminante, uma medida relativa do tamanho da região duvidosa de um dado conjunto em um determinado espaço aproximado. O algoritmo RS1 percorre os elementos do espaço aproximado induzido pelo atributo de decisão e, para cada um desses conjuntos, executa os seguintes passos: começa calculando seus índices discriminantes nos espaços aproximados induzidos pelos atributos de condição; a partir daí, o algoritmo verifica qual o maior valor obtido, adiciona o atributo que o proporcionou em um conjunto e segue, iterativamente, recalculando os índices discriminantes com base nesse conjunto de atributos e atualizando esse conjunto. À medida que o conjunto de atributos vai sendo atualizado, o RS1 verifica se existe uma aproximação inferior do átomo de decisão em questão no espaço induzido pelos atributos do conjunto e, caso exista, uma regra é criada utilizando os valores dos atributos do conjunto no(s) exemplo(s) que compõe(m) a aproximação inferior. Depois disso desconsidera-se os elementos da região duvidosa do átomo de decisão e remove o(s) atributo(s) utilizado(s) daqueles possíveis de serem utilizados. Fuzzy-Rough Sets: Existem, na visão de Du et al. (2005), duas desvantagens em relação ao modelo matemático de conjuntos aproximados definido por Pawlak (1982): é relativamente difícil de se satisfazer a relação de equivalência R em situações reais e as aproximações inferior e superior têm um caráter muito exato, o que impossibilita o manuseio de informações ruidosas. Uma das alternativas para contornar essa situação, conforme apresentado em (Du et al., 2005), é a combinação da TCA com a Teoria dos Conjuntos F uzzy (TCF). Na TCF, diferentemente da teoria clássica de conjuntos, a pertinência de um dado elemento a um conjunto assume valores em [0, 1]. Desta forma, os conjuntos fuzzy descrevem o conhecimento de forma aproximada, através da função de pertinência, manipulando incertezas típicas nas linguagem naturais humanas. Os chamados Fuzzy-Rough Sets, propostos inicialmente por (Dubois and Prade, 1992), são baseados na função de pertinência fuzzy e não em uma relação de equivalência, o que evita as desvantagens apresentadas por eles. FID3: O algoritmo FID3 foi proposto por Ding et al. (2009) como uma forma de solucionar alguns problemas que, segundo eles, são inerentes ao ID3. Para os autores, o ganho de informação como medida para selecionar atributos tem uma polarização (bias) interno que favorece os atributos que possuem o maior número de valores possíveis. A escolha dos atributos por ganho de informação portanto, não pode ser sempre o melhor. Um outro problema verificado é a instabilidade da construção da árvore de decisão a partir do ganho de informação. Os autores afirmam que a árvore de decisão irá gerar regras de classificação diferentes, uma vez que os conjuntos de teste são modificados, mesmo que numa escala pequena. Diante desses problemas, eles propõem uma medida baseada na dependência entre o atributo em questão e o atributo que representa as classes (atributo de decisão), dada por: ISSN: 2175-8905 - Vol. X 71 Gainfix(A) = 2 κ(A, δ) ∗ Gain m em que C é uma coleção de objetos, κ(A, δ) = card(pos(A, δ))/card(C) é o grau de dependência do atributo que representa a classe dos objetos δ do em relação a A, Gain é o ganho de informação clássico do ID3 e m é o número de valores possíveis para o atributo A ∈ C. Aqui, card(X) representa a cardinalidade (número de elementos) de X. Construção de uma árvore de decisão baseada no VPRSM: Como apresentado anteriormente, um modelo baseado na TCA é incapaz de lidar com ruídos nos dados de entrada e, no caso de construção de uma árvore de decisão, esses ruídos irão gerar partições excessivas e uma quantidade desnecessária de nós na árvore. Para contornar tal situação, foi proposto por (Ziarko, 1993) o modelo de conjuntos aproximados com precisão variável (VPRSM), como uma extensão da noção de conjuntos aproximados original, permitindo a definição de um erro de classificação relativo de um conjunto X em um conjunto Y da seguinte maneira: e(X, Y ) = 1 − card(X ∩ Y )/card(X), se card(X) = 0 = 0, se card(X) = 0 Com esta definição do erro relativo de classificação entre dois conjuntos, as noções de
Page 1: X SBAI - Simpósio Brasileiro de Au
Page 5 and 6: X SBAI - Simpósio Brasileiro de Au

ID3-RMF: UM ALGORITMO DE APRENDIZADO INDUTIVO ... - SBA

Create successful ePaper yourself

Delete template?

Save as template?