ID3-RMF: UM ALGORITMO DE APRENDIZADO INDUTIVO ... - SBA

X SBAI – Simpósio Brasileiro de Automação Inteligente 

18 a 21 de setembro de 2011 

São João del-Rei - MG - Brasil 

ID3-RMF: UM ALGORITMO DE APRENDIZADO INDUTIVO DE MÁQUINA 

BASEADO EM FUNÇÕES DE PERTINÊNCIA APROXIMADA 

Junior Assis Barreto Bernardes ∗ , Joaquim Quinteiro Uchôa ∗ 

∗ Departamento de Ciência da Computação 

Universidade Federal de Lavras - UFLA 

Caixa Postal 3037 - CEP 37.200-000 - Lavras (MG) 

jrassis@comp.ufla.br, joukim@ginux.ufla.br 

Abstract— The Rough Sets Theory has been used in various areas of research, especially those related to 

knowledge reasoning and machine learning. This work describes the possibility of using rough membership 

functions (an extension of the classical membership functions in the context of rough sets) to help and model the 

construction of machine learning algorithms and representation of uncertainty. 

Keywords— Machine Learning, Knowledge-Based Systems, Rough Set Theory, Rough Membership Functions. 

Resumo— A Teoria de Conjuntos Aproximados tem sido utilizada em várias áreas de pesquisa, principalmente 

naquelas relacionadas com representação de conhecimento e aprendizado de máquina. Este trabalho descreve a 

possibilidade do uso de funções de pertinência aproximada (uma extensão das funções de pertinência clássicas 

no contexto de conjuntos aproximados) para auxiliar e modelar a construção de algoritmos de aprendizado de 

máquina e representação de incerteza. 

Palavras-chave— Aprendizado de Máquina, Sistemas Baseados em Conhecimento, Teoria de Conjuntos Aproximados, 

Funções de Pertinência Aproximada. 

1 Introdução 

A Teoria de Conjuntos Aproximados (TCA) 

foi proposta por Pawlak (1982), como um novo 

modelo matemático para representação do conhecimento, 

tratamento de incerteza e classificação 

aproximada. Em (Uchôa, 1998) pode ser verificado 

que a TCA pode ser utilizada com sucesso 

na implementação de métodos de representação de 

conhecimento incerto, bem como um formalismo 

matemático subsidiando aprendizado de máquina. 

A TCA não necessita e nem leva em conta 

qualquer tipo de informação a respeito dos dados. 

Porém, ela é capaz de representar apenas um 

tipo de incerteza: a indiscernibilidade, que ocorre 

quando dois ou mais elementos são indistinguíveis 

à luz do conhecimento disponível sobre eles. 

Este trabalho descreve a utilização do formalismo 

para a representação de incerteza proporcionado 

pela TCA, mais precisamente as funções 

de pertinência aproximada, na construção de um 

novo algoritmo de aprendizado de máquina para 

montagem de uma árvore de decisão. 

O artigo está organizado da seguinte forma: 

na Seção 2 são apresentados os conceitos básicos 

de Sistemas Baseados em Conhecimento e de 

Aprendizado de Máquina; na Seção 3 são apresentados 

os principais conceitos e medidas da TCA; 

na Seção 4 são apresentados alguns trabalhos relacionados 

com o tema; na Seção 5 são apresentados 

as características e os passos do algoritmo 

proposto; na Seção 6 são apresentados alguns testes 

efetuados com o algoritmo e seus respectivos 

resultados; por fim, na Seção 7 são apresentadas 

as conclusões do trabalho realizado. 

2 Sistemas Baseados em Conhecimento 

Sistemas Baseados em Conhecimento (SBCs), 

Figura 1, podem ser definidos como programas de 

computador que resolvem problemas utilizando 

conhecimento representado explicitamente e 

que, não fosse essa representação, exigiriam um 

especialista humano no domínio do problema 

para a sua solução. 

Figura 1: Arquitetura básica de um SBC – Fonte: 

(Uchôa, 1998) 

Um SBC possui, então, três módulos principais, 

a saber: 

1. Base de Conhecimentos (BC): contém o 

conhecimento específico do domínio da aplicação 

organizado em forma de objetos ou regras. 

Tal conhecimento pode ser entendido 

como um tipo de informação que pode aumentar 

a eficiência e a eficácia na resolução 

de um problema. 

2. Motor de Inferência (MI): mecanismo 

responsável pelo processamento do conhecimento 

da BC, utilizando-se de alguma linha 

de raciocínio. Implementa as estratégias de 

inferência e controle do SBC. 

3. Interface com o Usuário (IU): módulo 

responsável pela comunicação entre o usuário 

e o sistema. Deve fornecer, também, justificativas 

e explicações referentes às conclusões 

obtidas na BC, e o raciocínio utilizado. 

ISSN: 2175-8905 - Vol. X 69




Uma das principais atividades relacionadas ao 

desenvolvimento de um SBC consiste na transferência 

de conhecimento à sua Base de Conhecimento. 

Este processo é conhecido como Aquisição 

de Conhecimento e é, reconhecidamente, o processo 

mais difícil durante o desenvolvimento de 

SBCs, exigindo um grande investimento em tempo 

e esforço. 

Nesse ponto é que se torna necessário o 

Aprendizado de Máquina, definido por Wang 

et al. (2009) como o estudo da utilização de 

computadores para simular atividades humanas 

de aprendizagem e desenvolver métodos autoincrementais 

de obtenção de novos conhecimentos 

e novas habilidades e identificação de conhecimento 

já existente. A Figura 2 ilustra a estrutura 

básica de um sistema de aprendizado de máquina. 

Figura 2: Sistema baseado em aprendizado de máquina 

– Adaptada de (Xue and Zhu, 2009) 

Entre os vários modelos existentes para aprendizado, 

o aprendizado simbólico conhecido como 

aprendizado indutivo baseado em exemplos é o 

que mais tem sido pesquisado e o que mais tem 

contribuído efetivamente para a implementação de 

sistemas de aprendizado de máquina. A partir de 

um conjunto de exemplos, expressões para tarefas 

classificatórias podem ser aprendidas (induzidas) 

como, por exemplo, diagnóstico de doenças, etc. 

A Figura 3 ilustra esse processo. 

Conjunto de 

Treinamento 

Exemplo : Decisão 1 i1 

Exemplo : Decisão 

. 2 . i2 

. . 

Exemplo : Decisão n in 

Sistema de 

Aprendizado Indutivo 

Regras de Decisão 

Padrão ⇒ Decisão 1 j1 

Padrão ⇒ Decisão 

. 2 . j2 

. . 

Padrão ⇒ Decisão m jm 

Figura 3: Esquema geral de aprendizado indutivo de regras 

– Adaptada de (Shaw and Gentry, 1990) 

No aprendizado indutivo baseado em exemplos, 

também referenciado como aprendizado indutivo, 

o conjunto de exemplos, também denominado 

de conjunto de treinamento, é fornecido ao 

sistema por um instrutor ou pelo ambiente (base 

de dados, sensores, etc.). Esse conjunto de treinamento 

é geralmente composto de exemplos positivos 

(exemplos do conceito) e exemplos negativos 

(contra-exemplos do conceito). A indução do conceito 

corresponde a uma busca no espaço de hipóteses, 

de forma a encontrar aquelas que melhor 

classificam os exemplos, em termos de precisão e 

consistência. 

De uma maneira geral, um sistema que 

aprende a partir de exemplos recebe como dados 

informações na forma de situações específicas, 

cada uma delas devidamente classificadas (geralmente 

por especialista humano no domínio), 

caracterizando o que se convenciona chamar de 

aprendizado supervisionado, e produz, como resultado, 

hipótese(s) que generaliza(m) aquelas situações 

inicialmente fornecidas. 

Um algoritmo bastante utilizado e pesquisado 

nesta área de aprendizado supervisionado é o ID3 

(Iterative Dichotomiser 3), proposto por Quinlan 

(1986). Este algoritmo tem como entrada elementos 

caracterizados por atributos e como saída 

uma árvore de decisão, cujo processo de construção 

possui uma heurística de seleção de atributos 

baseada no ganho de informação durante o processo 

de construção em si. Ou seja, o algoritmo 

visa ganhar o máximo possível em informação à 

medida em que vai adicionando nós na árvore. 

A construção propriamente dita da árvore de 

decisão, pelo algoritmo ID3, consiste em ir adicionando 

nós, representando os atributos, na árvore 

de acordo com o ganho de informação, através do 

cálculo de entropia. No momento em que existir 

apenas objetos de uma classe, insere-se um nó 

folha com o nome daquela classe. 

3 Teoria dos Conjuntos Aproximados 

Um espaço aproximado é um par ordenado 

A = (U, R), onde: 

• U é um conjunto não vazio, denominado conjunto 

universo; 

• R é uma relação de equivalência sobre U, denominada 

relação de indiscernibilidade. Dados 

x, y ∈ U, se xRy então x e y são indiscerníveis 

em A, ou seja, a classe de equivalência 

definida por x é a mesma que a definida por 

y, i.e., [x]R = [y]R. Nesse caso, [x]R é um 

conjunto elementar, ou átomo, de A. 

Dado um espaço aproximado A = (U, R) e 

um conjunto X ⊆ U, com o objetivo de verificar 

o quão bem X é representado pelos conjuntos 

elementares de A, são definidas: 

• aproximação inferior de X em A, AA-inf (X), 

como a união de todos os conjuntos elementares 

que estão contidos em X: 

AA-inf (X) = {x ∈ U | [x]R ⊆ X} 

• aproximação superior de X em A, 

AA-sup(X), como a união dos conjuntos 

que possuem intersecção não vazia com X: 

AA-sup(X) = {x ∈ U | [x]R ∩ X = ∅} 

As aproximações inferior e superior permitem 

a classificação do espaço aproximado em regiões: 

1. região positiva de X em A, formada por 

todas as classes de equivalência de U contidas 

inteiramente no conjunto X: 

posA(X) = AA-inf (X) 

ISSN: 2175-8905 - Vol. X 70




2. região negativa de X em A, formada 

pelos conjuntos elementares de A que não 

estão contidos na aproximação superior de X: 

negA(X) = U − AA-sup(X) 

3. região duvidosa de X em A, formada pelos 

elementos que pertencem a aproximação 

superior mas não pertencem à aproximação 

inferior: 

duvA(X) = AA-sup(X) − AA-inf (X) 

Dado um espaço aproximado A = (U, R), 

um conjunto X ⊆ U e um elemento x ∈ U, 

pode-se definir uma função que representa o grau 

de pertinência do elemento x no conjunto X, 

levando em consideração somente as informações 

do espaço aproximado A, da seguinte maneira: 

µ A X(x) = |[x]R ∩ X| 

|[x]R| 

4 Trabalhos correlatos 

RS1: O RS1, proposto por Wong and Ziarko 

(1986), é um algoritmo de aprendizado indutivo 

de máquina baseado em um conceito da TCA chamado 

índice discriminante, uma medida relativa 

do tamanho da região duvidosa de um dado conjunto 

em um determinado espaço aproximado. 

O algoritmo RS1 percorre os elementos do espaço 

aproximado induzido pelo atributo de decisão 

e, para cada um desses conjuntos, executa os 

seguintes passos: começa calculando seus índices 

discriminantes nos espaços aproximados induzidos 

pelos atributos de condição; a partir daí, o algoritmo 

verifica qual o maior valor obtido, adiciona 

o atributo que o proporcionou em um conjunto e 

segue, iterativamente, recalculando os índices discriminantes 

com base nesse conjunto de atributos 

e atualizando esse conjunto. 

À medida que o conjunto de atributos vai 

sendo atualizado, o RS1 verifica se existe uma 

aproximação inferior do átomo de decisão em 

questão no espaço induzido pelos atributos do conjunto 

e, caso exista, uma regra é criada utilizando 

os valores dos atributos do conjunto no(s) exemplo(s) 

que compõe(m) a aproximação inferior. Depois 

disso desconsidera-se os elementos da região 

duvidosa do átomo de decisão e remove o(s) atributo(s) 

utilizado(s) daqueles possíveis de serem 

utilizados. 

Fuzzy-Rough Sets: Existem, na visão de Du 

et al. (2005), duas desvantagens em relação ao modelo 

matemático de conjuntos aproximados definido 

por Pawlak (1982): é relativamente difícil de 

se satisfazer a relação de equivalência R em situações 

reais e as aproximações inferior e superior 

têm um caráter muito exato, o que impossibilita 

o manuseio de informações ruidosas. 

Uma das alternativas para contornar essa 

situação, conforme apresentado em (Du et al., 

2005), é a combinação da TCA com a Teoria 

dos Conjuntos F uzzy (TCF). Na TCF, diferentemente 

da teoria clássica de conjuntos, a pertinência 

de um dado elemento a um conjunto assume 

valores em [0, 1]. Desta forma, os conjuntos fuzzy 

descrevem o conhecimento de forma aproximada, 

através da função de pertinência, manipulando incertezas 

típicas nas linguagem naturais humanas. 

Os chamados Fuzzy-Rough Sets, propostos 

inicialmente por (Dubois and Prade, 1992), são 

baseados na função de pertinência fuzzy e não 

em uma relação de equivalência, o que evita as 

desvantagens apresentadas por eles. 

FID3: O algoritmo FID3 foi proposto por Ding 

et al. (2009) como uma forma de solucionar alguns 

problemas que, segundo eles, são inerentes 

ao ID3. Para os autores, o ganho de informação 

como medida para selecionar atributos tem uma 

polarização (bias) interno que favorece os atributos 

que possuem o maior número de valores possíveis. 

A escolha dos atributos por ganho de informação 

portanto, não pode ser sempre o melhor. 

Um outro problema verificado é a instabilidade 

da construção da árvore de decisão a partir 

do ganho de informação. Os autores afirmam que 

a árvore de decisão irá gerar regras de classificação 

diferentes, uma vez que os conjuntos de teste são 

modificados, mesmo que numa escala pequena. 

Diante desses problemas, eles propõem uma 

medida baseada na dependência entre o atributo 

em questão e o atributo que representa as classes 

(atributo de decisão), dada por: 

ISSN: 2175-8905 - Vol. X 71 

 

Gainfix(A) = 2 

κ(A, δ) ∗ Gain 

m 

em que C é uma coleção de objetos, κ(A, δ) = 

card(pos(A, δ))/card(C) é o grau de dependência 

do atributo que representa a classe dos objetos δ 

do em relação a A, Gain é o ganho de informação 

clássico do ID3 e m é o número de valores possíveis 

para o atributo A ∈ C. Aqui, card(X) representa 

a cardinalidade (número de elementos) de X. 

Construção de uma árvore de decisão baseada 

no VPRSM: Como apresentado anteriormente, 

um modelo baseado na TCA é incapaz 

de lidar com ruídos nos dados de entrada e, no 

caso de construção de uma árvore de decisão, esses 

ruídos irão gerar partições excessivas e uma 

quantidade desnecessária de nós na árvore. 

Para contornar tal situação, foi proposto por 

(Ziarko, 1993) o modelo de conjuntos aproximados 

com precisão variável (VPRSM), como uma 

extensão da noção de conjuntos aproximados 

original, permitindo a definição de um erro de 

classificação relativo de um conjunto X em um 

conjunto Y da seguinte maneira: 

e(X, Y ) = 1 − card(X ∩ Y )/card(X), se card(X) = 0 

= 0, se card(X) = 0 

Com esta definição do erro relativo de classificação 

entre dois conjuntos, as noções de




aproximações inferior e superior de um conjunto 

X em um espaço aproximado (U, R) podem ser 

reformuladas, considerando-se um limite β para o 

erro relativo de classificação: 

A β 

inf (X) = {E ∈ U/R : e(E, X) ≤ β} 

A β sup(X) = {E ∈ U/R : e(E, X) < 1 − β} 

Em (Li and Dong, 2008) foi proposto um algoritmo 

para a construção de uma ávore de decisão, 

cuja seleção de atributos possui como critério a 

média ponderada de precisão variável, uma medida 

criada por esses autores a partir das novas 

definições. 

5 O algoritmo ID3-RMF 

O ID3-RMF (ID3 using Rough Membership 

Function) foi desenvolvido por nossa equipe para 

demonstrar a possibilidade de desenvolvimento de 

algoritmos de aprendizado indutivo de máquina 

subsidiados por funções de pertinência aproximada. 

A ideia por trás do algoritmo consiste 

em uma reformulação do algoritmo clássico ID3 

(Quinlan, 1986) utilizando o conceito de pertinência 

associado a conjuntos aproximados. 

Para elaborar este algoritmo, utilizamos como 

base o algoritmo ID3, já que é um algoritmo bastante 

clássico e consolidado na literatura, sendo 

utilizado em larga escala em comparações entre 

algoritmos de aprendizado de máquina, principalmente 

por parte dos pesquisadores da TCA. 

A estrutura geral do algoritmo aqui proposto 

é análoga à do ID3: construir uma árvore de decisão 

através da escolha recursiva de atributos para 

serem os nós dessa árvore. Porém, propomos um 

critério diferente para escolher os atributos, que 

utiliza o conceito de funções de pertinência aproximada 

e será apresentado na sequência. 

5.1 Uma nova abordagem para a escolha dos 

atributos 

Investigando as funções de pertinência aproximada, 

percebe-se que elas retornam valores entre 

0 e 1. Se o número de elementos na interseção da 

classe de equivalência do elemento com um determinado 

conjunto for alto, a divisão desse número 

pela cardinalidade da classe resultará em um valor 

próximo a 1; se o número de elementos na interseção 

for baixo, o resultado será próximo a 0. 

Porém, para o algoritmo aqui proposto, o interessante 

é selecionar atributos que induzem conjuntos 

elementares mais definíveis no espaço induzido 

pela decisão, ou seja, conjuntos elementares 

cujos elementos possuem um grau alto de certeza 

de pertinência ou de não-pertinência nos átomos 

de decisão. Com isso, são desejáveis valores de 

pertinência aproximada próximos de 1 (pertinência) 

ou próximos de 0 (não-pertinência). Para obter 

esses valores de interesse, foi proposto um reajuste 

da seguinte forma: seja µX(x) a pertinência 

aproximada de x em X, o novo valor a ser considerado 

pelo algoritmo será |1 − 2µX(x)|. 

Portanto, a escolha do atributo que irá fazer 

parte de um nó não-folha da árvore de decisão 

gerada pelo algoritmo ID3-RMF será feita com 

base nos valores das médias aritméticas das pertinências 

aproximadas de cada elemento nos átomos 

induzidos pelo atributo de condição. Essas pertinências 

aproximadas serão calculadas nos conjuntos 

elementares induzidos pelo atributo de decisão, 

porém levando em consideração as informações do 

espaço aproximado induzido pelo atributo de condição 

em questão. 

O cálculo do valor da pertinência aproximada 

se mostra muito custoso, já que analisa interseções 

e, por definição, todos elementos de uma determinada 

classe terão o mesmo valor de pertinência 

aproximada num determinado conjunto. Assim, 

calcula-se o valor da pertinência aproximada de 

apenas um elemento da classe e multiplica esse 

valor pelo número de elementos da classe. 

5.2 Passos do algoritmo 

Seja conjunto universo U de exemplos, C o 

conjunto de atributos de condição e d o atributo 

de decisão. O funcionamento do algoritmo pode 

ser descrito da seguinte maneira: 

1. Verificar se todos os exemplos do universo pertencem 

à uma mesma classe; 

2. Se todos elementos pertencerem à uma mesma 

classe, criar um nó folha com o valor daquela classe 

e retorná-lo; 

3. Caso ainda existam elementos pertencentes a classes 

diferentes, verificar se ainda existem atributos 

em C (a serem considerados naquele ramo da árvore, 

visto que, como no algoritmo ID3, um atributo 

que faz parte de um nó não pode ser escolhido em 

qualquer descendente desse nó); 

4. Se não há mais atributos a serem considerados em 

C, criar um nó folha com os valores das classes dos 

exemplos do universo e retorná-lo; 

5. Caso existam atributos em C ainda não utilizados, 

criar o espaço aproximado induzido por d (será 

usada a notação U/d para designá-lo); 

6. Para cada atributo c ∈ C, criar o espaço aproximado 

induzido por c (será usada a notação U/c 

para designá-lo) e fazer mediac = 0; ∀Di ∈ U/d, 

para cada Ei ∈ U/c, calcular mediac = mediac + 

|1−2∗µ U/c 

Di (Ei[0])|∗|Ei|/(|U|∗|U/d|). Onde |Ei|, 

|U| e |U/d| representam a cardinalidade (número de 

elementos) de um conjunto e |1−2∗µDi(Ei[0])| representa 

o módulo (valor absoluto) de um número; 

7. Escolher o atributo A que tiver o maior valor entre 

as médias de pertinências aproximadas e criar um 

nó não-folha para armazenar esse atributo; 

8. Para cada valor possível ai de A, fazer UAa (ele- 

i 

mentos do universo U que possuem valor ai para 

o atributo A) e voltar ao passo 1 considerando o 

universo U como sendo UAa e os atributos de con- 

i 

dição C como sendo C − {A}. 

O algoritmo desenvolvido, assim como o ID3, 

produz uma árvore de decisão cujas regras são obtidas 

percorrendo a árvore de sua raiz até um de 

ISSN: 2175-8905 - Vol. X 72




seus nós folhas. Ao percorrer a árvore, os nós 

são analisados indicando o caminho que se deve 

seguir, sendo que os nós não-folha compõem o antecedente 

de uma regra (condições de uma regra) 

e os nós folhas compõem o conseqüente da regra 

(conclusão de uma regra). 

6 Testes e Discussão dos Resultados 

Foram feitos testes comparativos do tipo validação 

cruzada utilizando, para isso, duas bases 

de dados de classificação binária, Cars 1 , com 1728 

elementos e 6 atributos, e Mushroom 2 com 5936 

elementos e 22 atributos, e uma base de dados com 

classificação não binária, KDD99 3 . 

A base KDD99 possui mais de 5 milhões 

de registros e 41 atributos. Para viabilizar o 

trabalho, utilizou-se um subconjunto contendo 

494021 registros (10% da base original). Além 

disso, dividiu-se esse subconjunto em 80 partições 

e aplicou-se uma variação do teste do tipo validação 

cruzada, conforme ilustrado na Tabela 1. Em 

cada teste, foram utilizadas nove partições (55577 

registros) para treinamento e uma partição (6176 

registros) para teste, o que resulta em 1/8 dos 

registros utilizados. 

Tabela 1: Pastas usadas para treinamento e teste com o 

KDD99. 

Treinamento Teste 

9, 17, 25, 33, 41, 49, 57, 65, 73 1 

10, 18, 26, 34, 42, 50, 58, 66, 74 2 

11, 19, 27, 35, 43, 51, 60, 67, 75 3 

12, 20, 28, 36, 44, 52, 61, 68, 76 4 

14, 21, 29, 37, 45, 53, 62, 69, 77 5 

15, 22, 30, 38, 46, 54, 63, 70, 78 6 

16, 23, 31, 39, 47, 55, 64, 71, 79 7 

17, 24, 32, 40, 48, 56, 65, 72, 80 8 

A comparação foi feita entre o algoritmo 

proposto neste trabalho, o ID3 clássico proposto 

por Quinlan (1986), o FID3 (Ding et al., 2009) e 

o algoritmo RS1 (Wong and Ziarko, 1986). Foram 

avaliados os seguintes quesitos: 

A - Número de regras geradas; 

B - Tamanho da menor regra; 

C - Tamanho da maior regra; 

D - Tamanho médio das regras; 

E - Grau de suporte do algoritmo; 

F - Regras não utilizadas; 

G - Elementos não classificados; 

H - Tempo de treinamento; 

I - Tempo de teste. 

Com relação à implementação dos algoritmos, 

foi utilizada a linguagem de programação interpretada 

Python 4 e o interpretador Python Interpreter 

v2.6 (nativo do Ubuntu Linux 10.04 5 ). O computador 

utilizado para os testes com as bases com 

1 Disponível em http://archive.ics.uci.edu/ml 

2 Disponível em http://archive.ics.uci.edu/ml 

3 Disponível em http://kdd.ics.uci.edu 

4 Python: http://www.python.org 

5 Ubuntu Linux: http://www.ubuntu.com 

classificação binária foi um computador com um 

processador Intel Core 2 Duo T5670 1.8GHz Cache 

2Mb, 2Gb de Memória RAM DDR2, Disco 

SATA de 160Gb. Já para os testes com a base 

KDD99, foram utilizados 8 computadores com a 

seguinte configuração: Processador AMD Athlon 

64 1800 Mhz, 512MB de Memória RAM DDR2, 

Disco SATA de 80GB. Os resultados estão apresentados 

nas Tabelas 2, 3 e 4. 

Tabela 2: Resultados dos testes feitos na base Cars. 

Quesitos ID3 FID3 RS1 ID3-RMF 

A 267.4 267.4 272.2 283.8 

B 1 1 1 1 

C 6 6 6 6 

D 5.46 5.46 5.50 5.51 

E 88.89% 88.89% 88.43% 87.09% 

F 217.9 217.9 224.2 235.7 

G 15.3 15.3 16.6 18.1 

H 0.096s 2.165s 13.399s 0.805s 

I 0.155s 0.156s 0.168s 0.197s 

Tabela 3: Resultados dos testes feitos na base Mushroom. 


A 15 22 15 12.9 

B 1 1 1 1 

C 3 3 3 3 

D 2 2.05 1.54 1.83 

E 100% 100% 100% 100% 

F 0.8 3 0.8 0.3 

G 0 0 0 0 

H 1.177s 109.837s 398.45s 25.847s 

I 0.038s 0.042s 0.037s 0.035s 

Tabela 4: Resultados dos testes feitos na base KDD99, 

conforme a organização apresentada na Tabela 1 


A 1773.3 2101.9 5338.6 1842.6 

B 1 1 1 1 

C 4 5 5 4 

D 1.47 2.22 2.03 1.48 

E 98.40% 98.06% 94.32% 98.23% 

F 1303 1592 4582 1396 

G 91.6 111.6 342.1 102.5 

H 967.16s 55185.95s 119157.98s 7665.34s 

I 39.44s 59.80s 120.60s 40.75s 

A partir dos testes efetuados, verificamos que 

o algoritmo aqui proposto obteve resultados muito 

semelhantes aos outros algoritmos, apresentando 

um grau de suporte muito satisfatório e uma árvore 

de decisão relativamente boa, o que pode ser 

verificado observando os quesitos de A a E. 

Com relação ao algoritmo RS1, o algoritmo 

proposto neste trabalho se mostrou mais eficiente, 

produzindo resultados muito semelhantes em um 

tempo de execução bem inferior. Entendemos que 

isso ocorre devido ao cálculo repetitivo de aproximações 

por parte do RS1, o que não ocorre no 

ID3-RMF. 

Além disso, entendemos que o algoritmo FID3 

consiste apenas em uma tentativa de refinar o cálculo 

do ganho de informação do ID3 clássico, o 

que, em algumas situações, não tem efeito algum, 

conforme pode ser observado nos resultados com 

a base Cars, em que os dois algoritmos resultaram 

nos mesmos valores. Em outros casos, o refinamento 

não é vantajoso, visto que, nos testes 

ISSN: 2175-8905 - Vol. X 73




efetuados, os resultados do FID3 não superaram 

os do ID3. 

Já o algoritmo aqui proposto não utiliza nenhum 

cálculo existente no ID3, apenas a ideia de 

escolher atributos para construir a árvore de decisão. 

Em vez disso, o ID3-RMF apresenta um cálculo 

todo baseado no conceito de funções de pertinência 

aproximada, possibilitando o tratamento 

de informações incertas e, consequentemente, uma 

maior capacidade de aprendizado em determinados 

casos. 

Por outro lado, esse cálculo é baseado em interseções 

entre conjuntos e acarreta em um tempo 

de treinamento maior em relação ao tempo gasto 

pelo cálculo do ganho de informação que, por sua 

vez, apenas conta elementos e, com isso, tem um 

tempo de execução bem inferior. Essa velocidade 

pode ser constatada na Tabela 2, em que o tempo 

de treinamento (quesito H ) do ID3 foi inferior ao 

seu tempo de teste (quesito I ). 

Com isso, conforme pode ser observado na Tabela 

3, o ID3-RMF conseguiu obter o mesmo grau 

de suporte do ID3 com um número menor de regras, 

o que evidencia essa maior capacidade em 

algumas situações. Na base KDD99, o ID3 se mostrou 

melhor mas com pouca diferença em relação 

ao algoritmo aqui proposto. 

7 Conclusão 

O algoritmo proposto se mostrou, nos testes 

efetuados, bastante estável em diferentes bases, 

com diferentes números de dados e atributos e diferentes 

tipos de classificação (binária e não binária), 

e com uma capacidade de aprendizado e 

generalização equivalentes a algoritmos já consagrados 

na literatura, como o ID3 clássico e o RS1. 

Com relação ao tempo de execução, o ID3- 

RMF foi um pouco mais lento que o ID3 clássico, 

porém muito mais rápido e igualmente eficiente ao 

o RS1. Essa perda no tempo de execução para o 

ID3 pode ser compensada pelo fato de o ID3-RMF 

ser inspirado na Teoria de Conjuntos Aproximados, 

que é um formalismo matemático proposto 

para representação de incerteza. Além disso, esse 

formalismo também é largamente utilizado para 

indução de conhecimento e possui propostas atuais, 

conforme pode ser visto nos trabalhos de Li 

and Dong (2008) e Ding et al. (2009). 

Como o algoritmo aqui proposto conta com 

esse formalismo matemático não só para induzir 

conhecimento, mas também para a representação 

de incerteza (a indiscernibilidade), ele se mostra, 

em determinadas situações, mais capaz de descobrir 

conhecimento que o ID3 clássico, que constrói 

uma árvore de decisão sem tratar, e sequer analisar, 

informações incertas. 

Além disso, como visto em (Uchôa, 1998), a 

função de pertinência aproximada é o elo de ligação 

entre a TCA e a Teoria de Conjuntos Fuzzy, 

que é outro formalismo consagrado e largamente 

utilizado para indução de conhecimento e representação 

de incerteza, possibilitando uma extensão 

do algoritmo ID3-RMF com conceitos da TCF 

de uma maneira relativamente simples e imediata. 

Como trabalho futuro, além da combinação 

do algoritmo aqui proposto com a TCF, está a 

melhoria desse algoritmo utilizando características 

próprias da TCA, com o objetivo de diminuir seu 

tempo de execução e aumentar seu grau de suporte 

e sua capacidade de induzir conhecimento. 

8 Agradecimentos 

Os autores agradecem À FAPEMIG, pelo apoio 

recebido durante a realização deste trabalho. 

Referências 

Ding, B., Zheng, Y. and Zang, S. (2009). A New Decision 

Tree Algorithm Based on Rough Set Theory, 

Asia-Pacific Conference on Information Processing 

. 

Du, W., Li, H., Gao, Y. and Meng, D. (2005). Another 

Kind of Fuzzy Rough Sets, IEEE International 

Conference on Granular Computing 1: 145. 

Dubois, D. and Prade, H. (1992). Intelligent Decision 

Support: Handbook of Applications and Advances 

of the Sets Theory, Kluwer, Dordrecht, chapter 

Putting fuzzy sets and rough sets together, 

pp. 203–232. 

Li, X. and Dong, M. (2008). An Algorithm for Constructing 

Decision Tree Based on Variable Precision 

Rough Set Model, Fourth International Conference 

on Natural Computation 1: 280. 

Pawlak, Z. (1982). Rough sets., International Journal 

of Computer and Information Sciences. pp. 341– 

356. 

Quinlan, J. R. (1986). Induction of Decision Trees, 

Machine Learning 1: 81–106. 

Shaw, M. J. and Gentry, J. A. (1990). Inductive learning 

for risk classification., IEEE Expert pp. 47– 

53. 

Uchôa, J. Q. (1998). Representação e indução de conhecimento 

usando teoria de conjuntos aproximados, 

Master’s thesis, UFScar. 

Wang, H., Ma, C. and Zhou, L. (2009). A Brief Review 

of Machine Learning and its Application., 

Information Engineering and Computer Science. 

. 

Wong, S. K. M. and Ziarko, W. (1986). Comparison 

of rough-set and statistical methods in inductive 

learning., Internacional Journal of Man-Machine 

Studies 24: 53–72. 

Xue, M. and Zhu, C. (2009). A Study and Application 

on Machine Learning of Artificial Intellligence., 

International Joint Conference on Artificial Intelligence. 

. 

Ziarko, W. (1993). Variable Precision Rough Set Model, 

Journal of Computer and System Sciences 

46: 39–59. 

ISSN: 2175-8905 - Vol. X 74

ID3-RMF: UM ALGORITMO DE APRENDIZADO INDUTIVO ... - SBA

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?