20.04.2013 Views

Aprendizagem Estrutural de Redes Bayesianas Utilizando Métrica ...

Aprendizagem Estrutural de Redes Bayesianas Utilizando Métrica ...

Aprendizagem Estrutural de Redes Bayesianas Utilizando Métrica ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Aprendizagem</strong> <strong>Estrutural</strong> <strong>de</strong> Re<strong>de</strong>s <strong>Bayesianas</strong><br />

<strong>Utilizando</strong> <strong>Métrica</strong> MDL Modificada<br />

Resumo—Re<strong>de</strong>s <strong>Bayesianas</strong> são ferramentas que <strong>de</strong>screvem distribuições<br />

<strong>de</strong> probabilida<strong>de</strong> através <strong>de</strong> uma representação gráfica.<br />

Tais re<strong>de</strong>s manipulam incertezas existentes em sistemas do<br />

mundo real. A partir da última década, surgiu um interesse especial<br />

no aprendizado das estruturas <strong>de</strong>ssas re<strong>de</strong>s a partir <strong>de</strong> um<br />

conjunto <strong>de</strong> dados; entretanto, o aprendizado da sua estrutura é<br />

um problema NP – Difícil, o que <strong>de</strong>manda a utilização <strong>de</strong> algoritmos<br />

<strong>de</strong> busca heurísticos. Muitos <strong>de</strong>sses algoritmos são baseados<br />

em métricas <strong>de</strong> pontuação para estimar o mo<strong>de</strong>lo. Este trabalho<br />

procura realizar o aprendizado estrutural através do uso do<br />

algoritmo <strong>de</strong> busca K-2 com uma modificação na medida MDL<br />

como métrica <strong>de</strong> pontuação, utilizando-se a re<strong>de</strong> ALARM, que é<br />

um benchmark padrão, para geração dos resultados. Os resultados<br />

<strong>de</strong>monstraram que a métrica <strong>de</strong> pontuação com parâmetros<br />

mais restritivos, ou seja, que selecionam estruturas <strong>de</strong> re<strong>de</strong>s mais<br />

simples, apresentam resultados superiores àqueles menos restritivos<br />

e que a métrica MDL modificada retorna melhores resultados<br />

que a métrica MDL original.<br />

Palavras-chave—Re<strong>de</strong>s <strong>Bayesianas</strong>, MDL, <strong>Aprendizagem</strong> <strong>Estrutural</strong>,<br />

<strong>Métrica</strong> <strong>de</strong> Pontuação, K-2, ALARM.<br />

C<br />

I. INTRODUÇÃO<br />

om a evolução das técnicas <strong>de</strong> fabricação, os computadores<br />

tornaram-se ferramentas <strong>de</strong> uso cotidiano, possibilitando<br />

o armazenamento <strong>de</strong> uma enorme quantida<strong>de</strong> <strong>de</strong><br />

informação sobre os diferentes ramos <strong>de</strong> ativida<strong>de</strong> humana.<br />

Essa evolução técnica implicou um aumento da competitivida<strong>de</strong><br />

entre as empresas, e tornou-se necessário para a sobrevivência<br />

das mesmas a adoção <strong>de</strong> mecanismos que pu<strong>de</strong>ssem<br />

classificar e analisar as informações armazenadas e, assim,<br />

auxiliar a tomada <strong>de</strong> <strong>de</strong>cisões por parte das empresas [1]. Todo<br />

esse processo fez ressurgir o interesse dos pesquisadores<br />

em técnicas <strong>de</strong> aprendizagem <strong>de</strong> máquina, como: árvores <strong>de</strong><br />

<strong>de</strong>cisão, re<strong>de</strong>s neurais, sistemas especialistas e re<strong>de</strong>s <strong>Bayesianas</strong>.<br />

Por representarem o formalismo semântico da probabilida<strong>de</strong><br />

(probabilida<strong>de</strong> conjunta) <strong>de</strong> uma forma compacta e clara<br />

aos olhos humanos (estrutura gráfica) e trabalharem com in-<br />

Manuscrito recebido em 23 <strong>de</strong> outubro, 2006.<br />

A<strong>de</strong>rson Cleber Pifer é aluno <strong>de</strong> doutorado no Departamento <strong>de</strong> Engenharia<br />

da Computação e Automação da Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio Gran<strong>de</strong> do<br />

Norte, Natal, Brasil (e-mail: acpifer@dca.ufrn.br).<br />

Luiz Affonso Gue<strong>de</strong>s é professor no Departamento <strong>de</strong> Engenharia da<br />

Computação e Automação da Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio Gran<strong>de</strong> do Norte,<br />

Natal, Brasil (e-mail: affonso@dca.ufrn.br).<br />

A. C. Pifer e L. A. Gue<strong>de</strong>s<br />

certezas em sistemas inteligentes do mundo real, as re<strong>de</strong>s <strong>Bayesianas</strong><br />

passaram a <strong>de</strong>sempenhar um papel importante em<br />

uma vasta área <strong>de</strong> aplicações a partir da década <strong>de</strong> noventa<br />

[2], [3]. Entre as principais áreas <strong>de</strong> aplicação, po<strong>de</strong>-se <strong>de</strong>stacar:<br />

industrial (sistemas <strong>de</strong> diagnósticos <strong>de</strong> falhas e predição),<br />

militar (localização automática <strong>de</strong> alvos) e comercial (recuperação<br />

<strong>de</strong> informações e análise do mercado financeiro).<br />

Re<strong>de</strong> Bayesiana é um par ( G , θ ) , on<strong>de</strong> G é um grafo dirigido<br />

acíclico e θ é um conjunto particular <strong>de</strong> parâmetros. Esse<br />

conjunto <strong>de</strong> parâmetros θ especifica as distribuições <strong>de</strong> probabilida<strong>de</strong><br />

condicional associadas às variáveis representadas em<br />

G . O grafo dirigido acíclico G é também conhecido como<br />

estrutura da Re<strong>de</strong> Bayesiana [4].<br />

Em muitas situações reais, não há o conhecimento prévio<br />

dos parâmetros e da estrutura <strong>de</strong> re<strong>de</strong> que compõem os conjuntos<br />

<strong>de</strong> dados e, portanto, a utilização do conhecimento <strong>de</strong><br />

especialistas humanos para <strong>de</strong>screver a estrutura da re<strong>de</strong> Bayesiana<br />

torna-se restrita. Para esses casos, o aprendizado automático<br />

baseado em um conjunto <strong>de</strong> dados apresenta-se como<br />

uma solução interessante. Este trabalho tem como objetivo<br />

explorar justamente o aprendizado da estrutura da re<strong>de</strong> Bayesiana<br />

utilizando-se um algoritmo <strong>de</strong> busca baseado em pontuação<br />

e na métrica MDL com a função <strong>de</strong> penalização modificada<br />

por um parâmetro que fortalece ou enfraquece a função<br />

<strong>de</strong> penalização logarítmica.<br />

Este artigo encontra-se organizado da seguinte maneira: na<br />

segunda seção, são introduzidas as formas <strong>de</strong> aprendizagem<br />

estrutural das re<strong>de</strong>s <strong>Bayesianas</strong> a partir <strong>de</strong> um conjunto <strong>de</strong><br />

dados e discutida a contribuição <strong>de</strong>ste trabalho na métrica <strong>de</strong><br />

pontuação MDL. A terceira seção apresenta os resultados práticos<br />

obtidos com a métrica MDL e sua modificação para a<br />

re<strong>de</strong> ALARM. Na quarta seção, são discutidos os resultados<br />

obtidos e sugeridos trabalhos futuros.<br />

II. APRENDIZAGEM DE REDE BAYESIANA<br />

Conceitualmente, os algoritmos <strong>de</strong> aprendizagem <strong>de</strong> re<strong>de</strong>s<br />

<strong>Bayesianas</strong> estão divididos em:<br />

• <strong>Aprendizagem</strong> Paramétrica: Refere-se ao aprendizado<br />

das distribuições <strong>de</strong> probabilida<strong>de</strong> condicional,<br />

conjunto θ <strong>de</strong> parâmetros da <strong>de</strong>finição <strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong><br />

[4];<br />

• <strong>Aprendizagem</strong> da Estrutura: Refere-se ao aprendizado<br />

do grafo dirigido acíclico, ou seja, <strong>de</strong>fine quais<br />

arestas orientadas ligando os vértices <strong>de</strong>vem ser adicionadas<br />

ao grafo.


O aprendizado dos parâmetros θ é trivial se for conhecida a<br />

estrutura da re<strong>de</strong> ótima para o conjunto <strong>de</strong> dados completo<br />

conhecido, pois recai-se em um problema <strong>de</strong> maximização da<br />

função <strong>de</strong> verossimilhança, ou seja, a minimização da Entropia<br />

<strong>de</strong> Kullback-Leibler [5], [6].<br />

Já o aprendizado da estrutura <strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong> po<strong>de</strong> ser<br />

separado em duas principais correntes. A primeira fundamenta-se<br />

em selecionar a re<strong>de</strong> que melhor <strong>de</strong>fine os dados com<br />

base em uma medida <strong>de</strong> pontuação como as <strong>Métrica</strong>s <strong>Bayesianas</strong>,<br />

Medidas <strong>de</strong> Informação ou MDL [6], [7], [8]. Essa abordagem<br />

é conhecida como algoritmos <strong>de</strong> aprendizagem baseados<br />

em pontuação. A segunda corrente procura selecionar a<br />

estrutura da re<strong>de</strong> Bayesiana baseando-se no conceito <strong>de</strong> dseparação<br />

apresentado por [9]. Essa abordagem procura i<strong>de</strong>ntificar<br />

as relações <strong>de</strong> in<strong>de</strong>pendência condicional existentes<br />

entre os vértices através do uso <strong>de</strong> testes estatísticos como<br />

Chi-quadrado e Informação Mútua e, então, a partir <strong>de</strong>ssas<br />

relações <strong>de</strong> in<strong>de</strong>pendência condicional, encontrar a estrutura<br />

da re<strong>de</strong> <strong>de</strong> crença. Métodos existentes <strong>de</strong>ntro <strong>de</strong>ssa abordagem<br />

são chamados <strong>de</strong> algoritmos baseados em restritores ou baseados<br />

em CI (in<strong>de</strong>pendência condicional) [5]. Neste trabalho,<br />

utilizá-se a abordagem baseada em pontuação.<br />

Segundo [10], toda forma <strong>de</strong> aprendizagem <strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong><br />

baseadas em pontuação é composta por dois elementos:<br />

um algoritmo <strong>de</strong> busca e uma métrica <strong>de</strong> pontuação, os quais<br />

estão <strong>de</strong>scritos a seguir.<br />

A. Algoritmo <strong>de</strong> Busca K-2<br />

Descrito em [6], o algoritmo K-2 é um método <strong>de</strong> busca gulosa<br />

que procura maximizar a qualida<strong>de</strong> da estrutura da re<strong>de</strong><br />

Bayesiana. O algoritmo inicializa com uma estrutura simples<br />

contendo apenas os vértices da re<strong>de</strong>. Consi<strong>de</strong>rando-se que os<br />

vértices estejam preor<strong>de</strong>nados, o algoritmo, a cada passo, adiciona<br />

ao conjunto <strong>de</strong> pais π ( x i ) do vértice analisado x o i<br />

vértice antecessor Anc ( x que conduza ao máximo incre-<br />

i )<br />

mento na medida <strong>de</strong> qualida<strong>de</strong> adotada, realizando este passo<br />

sucessivamente enquanto ocorrer um aumento na medida <strong>de</strong><br />

qualida<strong>de</strong> ou até que a re<strong>de</strong> esteja completamente conectada.<br />

B. <strong>Métrica</strong>s <strong>de</strong> Pontuação<br />

Uma medida <strong>de</strong> qualida<strong>de</strong> Q( B s | D,<br />

ξ ) é um critério pelo<br />

qual se po<strong>de</strong> or<strong>de</strong>nar um conjunto <strong>de</strong> todas as re<strong>de</strong>s <strong>de</strong> crença<br />

possíveis por sua qualida<strong>de</strong>, on<strong>de</strong> B é a estrutura da re<strong>de</strong><br />

s<br />

Bayesiana, D é o conjunto <strong>de</strong> dados e ξ é informação a priori.<br />

Ou seja, o objetivo do uso da métrica é encontrar a re<strong>de</strong><br />

que possui a mais alta qualida<strong>de</strong>, isto é, aquela re<strong>de</strong> <strong>de</strong> crença<br />

que <strong>de</strong>screva da melhor forma possível o conjunto <strong>de</strong> dados<br />

D e a informação a priori ξ conhecidos, tornando a aprendizagem<br />

estrutural da re<strong>de</strong> Bayesiana um problema <strong>de</strong> maximização<br />

<strong>de</strong> uma função. Para que uma métrica <strong>de</strong> pontuação seja<br />

efetiva, é necessário que ela possua algumas proprieda<strong>de</strong>s, as<br />

quais estão <strong>de</strong>scritas a seguir [10], [11]:<br />

1. Equivalência <strong>de</strong> peso para re<strong>de</strong>s isomorfas. Ou seja,<br />

Q( B s | D,<br />

ξ ) = Q(<br />

B | D,<br />

ξ ) para re<strong>de</strong>s que repre-<br />

i<br />

s j<br />

sentem o mesmo mo<strong>de</strong>lo <strong>de</strong> <strong>de</strong>pendência.<br />

2. Re<strong>de</strong>s cujos especialistas <strong>de</strong>finam como mais prováveis<br />

<strong>de</strong>vem apresentar valores <strong>de</strong> qualida<strong>de</strong> maiores<br />

do que aquelas <strong>de</strong>finidas como menos prováveis.<br />

3. Re<strong>de</strong>s que representem um Mapa-Perfeito <strong>de</strong>vem ter<br />

valores maiores do que as que não representam.<br />

4. Re<strong>de</strong>s que representem um I-Mapa Mínimo <strong>de</strong>vem<br />

ter valores mais altos do que aquelas que representem<br />

um I-Mapa. Se todas as relações <strong>de</strong> in<strong>de</strong>pendência<br />

presentes no grafo através do conceito <strong>de</strong> dseparação<br />

estão presentes no mo<strong>de</strong>lo <strong>de</strong> <strong>de</strong>pendência,<br />

este grafo é dito um I-Mapa do mo<strong>de</strong>lo <strong>de</strong> <strong>de</strong>pendência.<br />

5. Em caso <strong>de</strong> igualda<strong>de</strong> nas proprieda<strong>de</strong>s anteriores,<br />

uma re<strong>de</strong> que possua um menor número <strong>de</strong> parâmetros<br />

em suas probabilida<strong>de</strong>s condicionais é preferível<br />

àquela que possui um número maior <strong>de</strong> parâmetros.<br />

6. Re<strong>de</strong>s <strong>Bayesianas</strong> que representem as informações<br />

contidas no conjunto <strong>de</strong> dados retornam valores maiores<br />

que re<strong>de</strong>s <strong>de</strong> crença que contradigam as informações<br />

contidas nos dados.<br />

Consi<strong>de</strong>rando-se as proprieda<strong>de</strong>s apresentadas anteriormente,<br />

<strong>de</strong>fine-se que uma medida <strong>de</strong> qualida<strong>de</strong> <strong>de</strong>ve ser formada<br />

por três componentes (<strong>de</strong>scritas na equação 1):<br />

on<strong>de</strong>:<br />

Q priori<br />

( B s ) = ( f ( I ), g ( D),<br />

h(<br />

Complex )) (1)<br />

• f ( I : Representa a informação a priori que se<br />

priori )<br />

tem sobre a re<strong>de</strong> Bayesiana. A função retorna uma<br />

probabilida<strong>de</strong> alta para as prováveis re<strong>de</strong>s <strong>de</strong>finidas<br />

pelos especialistas e valores <strong>de</strong> probabilida<strong>de</strong> baixos<br />

para aquelas que são pouco prováveis. Este termo<br />

tem seu peso <strong>de</strong>preciado à medida que o número <strong>de</strong><br />

amostras do conjunto <strong>de</strong> dados aumenta. Usualmente,<br />

quando não se tem conhecimento prévio sobre quais<br />

re<strong>de</strong>s são mais prováveis, utiliza-se a distribuição uniforme<br />

para representá-lo.<br />

• g (D ) : Este termo <strong>de</strong>fine o grau <strong>de</strong> representativida<strong>de</strong><br />

dos dados com a estrutura <strong>de</strong> re<strong>de</strong> avaliada. Estruturas<br />

<strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong> que representam o conjunto<br />

<strong>de</strong> dados retornam valores mais altos e aquelas estruturas<br />

que não estão <strong>de</strong> acordo com a informação<br />

apresentada pelo conjunto <strong>de</strong> dados retornam valores<br />

mais baixos.<br />

• h(Complex<br />

) : Este termo tem por função penalizar<br />

re<strong>de</strong>s que apresentam um grau <strong>de</strong> complexida<strong>de</strong> maior<br />

do que estruturas <strong>de</strong> re<strong>de</strong>s mais simples. Assim,<br />

estruturas que possuam um número menor <strong>de</strong> arestas<br />

interligando seus vértices e/ou parâmetros, <strong>de</strong>s<strong>de</strong> que<br />

satisfaçam o mo<strong>de</strong>lo <strong>de</strong> <strong>de</strong>pendência, são mais <strong>de</strong>sejáveis<br />

e apresentam probabilida<strong>de</strong>s maiores do que<br />

aquelas que possuam um número alto <strong>de</strong> arestas e/ou


parâmetros. Desse modo, o objetivo <strong>de</strong>ste termo é<br />

diminuir a complexida<strong>de</strong> no cálculo <strong>de</strong> inferências.<br />

De acordo com [10], existe na literatura basicamente três<br />

grupos classificatórios <strong>de</strong> medidas <strong>de</strong> qualida<strong>de</strong>:<br />

• Medidas <strong>Bayesianas</strong> <strong>de</strong> Qualida<strong>de</strong>.<br />

• Medidas <strong>de</strong> Informação <strong>de</strong> Qualida<strong>de</strong>.<br />

• MDL – Tamanho Mínimo <strong>de</strong> Descrição (inglês: Minimum<br />

Description Length).<br />

As medidas <strong>Bayesianas</strong> <strong>de</strong> qualida<strong>de</strong> necessitam <strong>de</strong> uma especificação<br />

quanto ao mo<strong>de</strong>lo <strong>de</strong> distribuição a priori, tanto<br />

para a estrutura da re<strong>de</strong> <strong>de</strong> crença quanto para os parâmetros.<br />

Infelizmente, esse tipo <strong>de</strong> informação nem sempre está disponível,<br />

fazendo com que suposições sobre o mo<strong>de</strong>lo <strong>de</strong> distribuições<br />

sejam necessárias, como ocorrido em [6], [12] e [13].<br />

Assim como as métricas <strong>Bayesianas</strong>, as medidas <strong>de</strong> qualida<strong>de</strong><br />

baseadas na Teoria da Informação procuram selecionar<br />

entre as estruturas <strong>de</strong> re<strong>de</strong> possíveis aquela que melhor se adapte<br />

ao conjunto <strong>de</strong> dados, porém, elas não necessitam nenhum<br />

tipo <strong>de</strong> informação sobre o mo<strong>de</strong>lo <strong>de</strong> distribuição a<br />

priori. A equação 2 <strong>de</strong>screve a métrica <strong>de</strong> informação <strong>de</strong> forma<br />

generalizada por:<br />

P(<br />

B , D)<br />

= log( P(<br />

B )) +<br />

(2)<br />

on<strong>de</strong>:<br />

s<br />

• ( s ) : Descreve a informação a priori da estrutura<br />

<strong>de</strong> re<strong>de</strong>, ou seja, .<br />

B P<br />

f ( I priori )<br />

n qi<br />

ri<br />

⎛<br />

•<br />

N ijk ⎞<br />

∑∑∑N<br />

⎜ ⎟<br />

ijk log : É a entropia condicio-<br />

⎜ ⎟<br />

i = 1 j = 1 k = 1 ⎝ N ij ⎠<br />

nal para re<strong>de</strong>s <strong>Bayesianas</strong>, ou seja, o termo g(D)<br />

.<br />

• f (N ) : É uma função <strong>de</strong> penalização não negativa.<br />

Esta função tem por objetivo penalizar estruturas<br />

<strong>de</strong> re<strong>de</strong> que necessitam um número maior <strong>de</strong> parâmetros<br />

para <strong>de</strong>terminar sua probabilida<strong>de</strong> conjunta.<br />

n<br />

∑<br />

i=<br />

1<br />

−<br />

• q ( −1)<br />

: É o número <strong>de</strong> termos <strong>de</strong> probabili-<br />

i ri<br />

s<br />

f ( N)<br />

n<br />

∑<br />

i=<br />

1<br />

n q r<br />

ijk<br />

N ⎜<br />

ijk log<br />

⎜<br />

i = 1 j = 1 k = 1 N ij ⎠<br />

i i<br />

∑∑∑<br />

q<br />

i ( ri<br />

−1)<br />

⎛ N<br />

da<strong>de</strong> in<strong>de</strong>pen<strong>de</strong>ntes associado à função <strong>de</strong> probabilida<strong>de</strong><br />

conjunta. Este termo, conjuntamente associado<br />

com f (N ) ,remonta o termo h(Complex<br />

) .<br />

• n : Número <strong>de</strong> variáveis aleatórias (vértices).<br />

• r : Valores que a variável po<strong>de</strong> assumir.<br />

i<br />

x i<br />

• q : Valores que o conjunto <strong>de</strong> pais da variável<br />

i<br />

x i<br />

po<strong>de</strong> assumir.<br />

⎝<br />

⎞<br />

• N : É o número <strong>de</strong> ocorrências <strong>de</strong> uma instância<br />

ijk<br />

<strong>de</strong> x com o valor <strong>de</strong>terminado do conjunto pai.<br />

i<br />

• = .<br />

i r<br />

N N<br />

ij<br />

∑<br />

k = 1<br />

ijk<br />

• N : É o número total <strong>de</strong> amostras pertencentes ao<br />

conjunto <strong>de</strong> dados D .<br />

Substituindo a função <strong>de</strong> penalização por f ( N)<br />

= 1,<br />

obtém-se<br />

o Critério <strong>de</strong> Informação <strong>de</strong> Akaike (AIC - inglês: Akaike<br />

Information Criterion) [14]; caso f ( N)<br />

= 0 , o critério<br />

obtido é o <strong>de</strong> máxima verossimilhança e, quando<br />

f ( N)<br />

= ( 1/<br />

2)<br />

log( N)<br />

, tem-se o Critério <strong>de</strong> Informação<br />

Bayesiano (BIC – inglês: Bayesian Information Criterion)<br />

[15], correspon<strong>de</strong>ndo à equação 3 da métrica MDL [10], [11].<br />

C. <strong>Métrica</strong> MDL<br />

Bouckaert [7] propõe em seu trabalho a utilização da métrica<br />

MDL, cuja origem é fundamentada na Teoria <strong>de</strong> Codificação<br />

como uma medida <strong>de</strong> qualida<strong>de</strong> para a escolha da estrutura <strong>de</strong><br />

re<strong>de</strong>. O princípio básico consiste em reduzir ao máximo o número<br />

<strong>de</strong> elementos necessários para representar uma mensagem,<br />

baseando-se em sua probabilida<strong>de</strong> <strong>de</strong> ocorrência. Assim,<br />

mensagens mais freqüentes são representadas por códigos<br />

menores e as mensagens menos freqüentes, por códigos maiores.<br />

No caso do aprendizado estrutural <strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong>, a<br />

idéia básica é encontrar a estrutura <strong>de</strong> re<strong>de</strong> que melhor <strong>de</strong>screva<br />

o conjunto <strong>de</strong> dados, utilizando o mínimo <strong>de</strong> elementos<br />

possíveis para calcular a probabilida<strong>de</strong> conjunta da re<strong>de</strong> <strong>de</strong><br />

crença, reduzindo <strong>de</strong>ssa maneira o esforço computacional necessário<br />

no cálculo das inferências. Essa métrica é <strong>de</strong>finida<br />

pela equação 2 com a função <strong>de</strong> penalização sendo:<br />

1<br />

f ( N)<br />

= log( N)<br />

(3)<br />

2<br />

O segundo termo da equação 2 é máximo quando o <strong>de</strong>sconhecimento<br />

sobre a estrutura <strong>de</strong> re<strong>de</strong> é máximo e mínimo<br />

quando se tem o completo conhecimento sobre a estrutura <strong>de</strong><br />

re<strong>de</strong>. Por isso, ao se adicionar vértices ao conjunto <strong>de</strong> pais <strong>de</strong><br />

um <strong>de</strong>terminado vértice, o termo <strong>de</strong> entropia da equação diminui,<br />

pois o mo<strong>de</strong>lo <strong>de</strong> distribuição <strong>de</strong> probabilida<strong>de</strong> passa a ser<br />

<strong>de</strong>scrito com uma maior precisão. Por outro lado, o terceiro<br />

termo da equação, que representa o erro introduzido pela estimação<br />

<strong>de</strong> todas as probabilida<strong>de</strong>s requeridas [16], indica que<br />

estruturas <strong>de</strong> re<strong>de</strong>s com um número reduzido <strong>de</strong> arcos são<br />

preferíveis àquelas com um número maior <strong>de</strong> arcos. A soma<br />

resultante do segundo e do terceiro termo garante que a re<strong>de</strong><br />

com maior índice <strong>de</strong> qualida<strong>de</strong> será aquela que possuir uma<br />

estrutura balanceada com a contribuição <strong>de</strong> ambos os termos.<br />

Além do trabalho <strong>de</strong> Bouckaert [7], Bacchus [17] e Suzuki<br />

[18] também utilizam o princípio <strong>de</strong> <strong>de</strong>scrição mínima (MDL)<br />

no aprendizado <strong>de</strong> estrutura <strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong>, porém, abordando<br />

diferentes algoritmos <strong>de</strong> busca.


D. MDL Modificada<br />

Bouckaert, em [7], <strong>de</strong>monstra que a medida <strong>de</strong> qualida<strong>de</strong><br />

MDL é mais restritiva que a métrica <strong>de</strong> Cooper-Herskovits K-<br />

2, apresentando um maior número <strong>de</strong> arestas ausentes. Analisando-se<br />

a métrica MDL, equação 3, verifica-se que o termo<br />

<strong>de</strong> penalização é <strong>de</strong>pen<strong>de</strong>nte do número <strong>de</strong> amostras e que sua<br />

composição com o termo <strong>de</strong> entropia condicional <strong>de</strong>fine o<br />

número “médio” <strong>de</strong> elementos necessários para representar o<br />

conjunto <strong>de</strong> dados. A partir <strong>de</strong> um <strong>de</strong>terminado tamanho, as<br />

distribuições representadas pelo conjunto <strong>de</strong> dados não sofrem<br />

mais alterações e, por conseqüência, a entropia condicional<br />

para um mesmo conjunto <strong>de</strong> pais estabiliza. Consi<strong>de</strong>rando-se<br />

que o termo <strong>de</strong> penalização continua aumentando em função<br />

do tamanho do conjunto <strong>de</strong> dados, ele faz com que a re<strong>de</strong> seja<br />

representada por um número menor <strong>de</strong> arestas do que o necessário.<br />

De maneira a controlar o efeito do tamanho <strong>de</strong> amostras<br />

no termo <strong>de</strong> penalização, propõe-se neste trabalho substituir a<br />

função <strong>de</strong> penalização por:<br />

on<strong>de</strong>:<br />

c<br />

f ( N)<br />

= log( N )<br />

(4)<br />

• c : É uma constante que <strong>de</strong>fine a influência do tamanho<br />

do conjunto <strong>de</strong> dados na representação da estrutura<br />

da re<strong>de</strong>.<br />

III. RESULTADOS<br />

Nesta seção, são apresentados e comparados os resultados<br />

obtidos com a métrica <strong>de</strong> pontuação MDL modificada, <strong>de</strong>scrita<br />

na seção II-C, com diferentes parâmetros <strong>de</strong> pontuação. O<br />

algoritmo escolhido para avaliar o <strong>de</strong>sempenho <strong>de</strong> cada uma<br />

das métricas foi o K-2. Os parâmetros utilizados na função <strong>de</strong><br />

penalização f (N ) foram os seguintes:<br />

c<br />

• f ( N)<br />

= log( N ) com c = 0,<br />

500 , geram-se os<br />

resultados correspon<strong>de</strong>ntes à métrica MDL para<br />

comparação.<br />

c<br />

• f ( N)<br />

= log( N ) com c = 0,<br />

125 , c = 0,<br />

250 ,<br />

c = 0,<br />

375 , c = 0,<br />

625 e c = 0,<br />

750 , verifica-se<br />

o efeito do fortalecimento ou do enfraquecimento da<br />

função <strong>de</strong> penalização no aprendizado estrutural das<br />

re<strong>de</strong>s <strong>Bayesianas</strong>.<br />

Esses parâmetros foram avaliados no sistema ALARM, que<br />

é um benchmark bastante difundido na literatura <strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong>.<br />

O algoritmo e as métricas foram implementados em<br />

ambiente Linux com a linguagem <strong>de</strong> programação C++. Para a<br />

avaliação das métricas com os respectivos parâmetros, foram<br />

gerados através da ferramenta Netica da Norsys<br />

(http://www.norsys.com) cinco conjuntos <strong>de</strong> dados para cada<br />

uma das duas re<strong>de</strong>s <strong>Bayesianas</strong> analisadas, tendo os respectivos<br />

tamanhos <strong>de</strong> amostras: 1000, 2000, 3000, 5000 e 10000.<br />

Os resultados obtidos são comparados com a re<strong>de</strong> <strong>de</strong> benchmark<br />

original através do número <strong>de</strong> arcos extras e ausentes,<br />

da diferença simétrica, da entropia cruzada (entropia <strong>de</strong> Kullback-Leibler)<br />

e através da medida <strong>de</strong> Informação Mútua. A<br />

diferença simétrica δ entre dois conjuntos <strong>de</strong> dados é um conjunto<br />

cujos elementos pertencem a um dos dois conjuntos,<br />

mas não a ambos. No caso <strong>de</strong> re<strong>de</strong>s <strong>Bayesianas</strong>, tem-se que a<br />

diferença simétrica δ entre o mo<strong>de</strong>lo original da re<strong>de</strong> <strong>de</strong> crença<br />

e o mo<strong>de</strong>lo estimado é <strong>de</strong>finida pela equação 5 [13], [19]:<br />

on<strong>de</strong>:<br />

δ =<br />

n<br />

∑<br />

i=<br />

1<br />

( π x ( Bs ) ∪π<br />

x ( Bm<br />

)) \ ( π x ( Bs<br />

) ∩π<br />

x ( B<br />

i<br />

i<br />

i<br />

i<br />

m<br />

))<br />

(5)<br />

• π x ( Bs<br />

) : É o conjunto <strong>de</strong> pais do vértice x na es-<br />

i<br />

i<br />

trutura <strong>de</strong> re<strong>de</strong> estimada.<br />

• π x ( Bm<br />

) : É o conjunto <strong>de</strong> pais do vértice x na es-<br />

i<br />

i<br />

trutura <strong>de</strong> re<strong>de</strong> do mo<strong>de</strong>lo original.<br />

Para as medidas <strong>de</strong> entropia Kullback-Leibler, no caso <strong>de</strong><br />

re<strong>de</strong>s <strong>Bayesianas</strong>, tem-se que [13], [19], [20]:<br />

H(<br />

p,<br />

q)<br />

=<br />

n q r<br />

i=<br />

1<br />

i i<br />

P(<br />

xi<br />

= k,<br />

π i = j)<br />

log<br />

j=<br />

1 k= 1 Q(<br />

xi<br />

= k,<br />

πi<br />

= j)<br />

i i<br />

∑∑∑<br />

P(<br />

x = k,<br />

π = j)<br />

(6)<br />

O cálculo das medidas <strong>de</strong> Informação Mútua é realizado através<br />

da equação 7 com o objetivo <strong>de</strong> comparar a quantida<strong>de</strong><br />

<strong>de</strong> informação compartilhada entre as variáveis para os conjuntos<br />

<strong>de</strong> dados utilizados.<br />

on<strong>de</strong>:<br />

P(<br />

x , x )<br />

I(<br />

x , x ) =<br />

(7)<br />

i<br />

j<br />

r r<br />

i j<br />

P(<br />

xi<br />

, x j ) log<br />

k=<br />

1 k= 1 P(<br />

xi<br />

) P(<br />

x j )<br />

j i<br />

∑∑<br />

• r : É o número <strong>de</strong> possíveis ocorrências <strong>de</strong> .<br />

i<br />

x i<br />

• r : É o número <strong>de</strong> possíveis ocorrências <strong>de</strong> .<br />

j<br />

j x<br />

• ( xi,<br />

x j ) : É a probabilida<strong>de</strong> conjunta <strong>de</strong> e . x<br />

P x i j


• P( xi<br />

) : É a probabilida<strong>de</strong> marginal <strong>de</strong> x . i<br />

• ( x j ) : É a probabilida<strong>de</strong> marginal <strong>de</strong> . x<br />

P j<br />

A. Re<strong>de</strong> Bayesiana ALARM<br />

A re<strong>de</strong> Bayesiana ALARM é composta por 37 variáveis, 46<br />

arcos e 752 parâmetros. Foi inicialmente <strong>de</strong>scrita por [21] para<br />

o monitoramento <strong>de</strong> pacientes em centros <strong>de</strong> tratamento intensivo<br />

(CTI). Cada um dos vértices pertencentes à re<strong>de</strong> representa<br />

variáveis <strong>de</strong> monitoramento do paciente compostas por<br />

parâmetros binários, ternários ou quaternários. Neste estudo,<br />

adotou-se o preor<strong>de</strong>namento sugerido por [6].<br />

A Tabela I <strong>de</strong>monstra os resultados obtidos para a re<strong>de</strong> Bayesiana<br />

ALARM, aplicando-se a medida <strong>de</strong> qualida<strong>de</strong> MDL<br />

modificada com uma constante c para diferentes números <strong>de</strong><br />

amostra. Fazendo-se uma análise dos dados da Tabela I e <strong>de</strong><br />

sua representação gráfica (Fig.1, Fig.2 e Fig.3), constata-se<br />

que, apesar da piora nas distribuições ocorridas na geração do<br />

conjunto <strong>de</strong> dados com 3000 amostras, estas não afetam o<br />

aprendizado da re<strong>de</strong> para os parâmetros mais restritivos.<br />

TABELA I<br />

NÚMERO DE ARESTAS EXTRAS (E) E AUSENTES (A) COM DIFERENTES PARÂ-<br />

METROS E DIFERENTES NÚMEROS DE AMOSTRA PARA A REDE ALARM COM A<br />

MÉTRICA MDL MODIFICADA.<br />

Amostras<br />

0,125 0,250<br />

Parâmetros(c)<br />

0,375 0,500 0,625 0,750<br />

E 26 6 2 1 1 1<br />

1000 A 1 3 3 4 5 8<br />

δ 27 9 5 5 6 9<br />

E 18 5 1 1 1 1<br />

2000 A 1 3 3 3 3 4<br />

δ 19 8 4 4 4 5<br />

E 15 5 3 2 1 1<br />

3000 A 1 2 2 3 3 3<br />

δ 16 7 5 5 4 4<br />

E 12 3 1 1 1 1<br />

5000 A 0 1 2 3 3 3<br />

δ 12 4 3 4 4 4<br />

E 11 3 2 2 1 1<br />

10000 A 0 0 1 2 2 2<br />

11 3 3 4 3 3<br />

δ<br />

A partir da Fig.1, que <strong>de</strong>screve a relação entre o número <strong>de</strong><br />

arestas extras e o tamanho da amostra, verifica-se a ocorrência<br />

<strong>de</strong> picos somente para as curvas referentes aos parâmetros<br />

c = 0,<br />

375 e com 3000 amostras. Aprofundando-se<br />

nas relações causadoras dos picos na curva, constata-se que<br />

essas relações já se encontravam presentes para os parâmetros<br />

c = 0,<br />

125 e <strong>de</strong>s<strong>de</strong> os resultados obtidos com 1000<br />

amostras, <strong>de</strong>monstrando certa robustez dos parâmetros a pequenas<br />

variações nas distribuições dos parâmetros θ. Ao se<br />

analisar os resultados mostrados na Fig.2, que representa a<br />

relação entre o número <strong>de</strong> arcos ausentes e o número <strong>de</strong> amostras,<br />

percebe-se que, diferentemente da Fig.1, em nenhuma<br />

das curvas existiu a geração <strong>de</strong> um vale ou um pico entre as<br />

amostras.<br />

Fig.1 Relação <strong>de</strong> arcos extras por número <strong>de</strong> amostras para métrica MDL<br />

modificada.<br />

Fig.2 Relação <strong>de</strong> arcos ausentes por número <strong>de</strong> amostras para métrica MDL<br />

modificada.<br />

Fig.3 Relação <strong>de</strong> erros (arcos extras mais arcos ausentes) encontrados por número<br />

<strong>de</strong> amostras para métrica MDL modificada.


Percebe-se também através da Fig.3, com a exceção da curva<br />

para c = 0,<br />

125 , que a medida MDL modificada aproximase<br />

mesmo com um número menor <strong>de</strong> amostras da estrutura<br />

original da re<strong>de</strong>, porém, comparando-se os resultados finais,<br />

estes não são tão satisfatórios quanto os apresentados em [6].<br />

A Tabela II apresenta o resultado do cálculo da entropia<br />

cruzada para as re<strong>de</strong>s obtidas com a medida <strong>de</strong> qualida<strong>de</strong><br />

MDL modificada. Os números em itálico indicam os piores<br />

resultados encontrados para cada conjunto <strong>de</strong> amostras, ao<br />

passo que os resultados em negrito indicam os melhores valores<br />

para cada conjunto.<br />

TABELA II<br />

ENTROPI A CRUZADA ENTRE O MODELO ORIGINAL DA REDE ALARM E O<br />

ENCONTRADO PELAS MÉTRICAS COM DIFERENTES PARÂMETROS.<br />

Parâme-<br />

Amostras<br />

tros(c) 1000 2000 3000 5000 10000<br />

0,125 321,48 133,68 151,70 151,96 118,77<br />

0,250 72,51 51,16 58,47 49,21 28,79<br />

0,375 12,80 13,32 32,13 7,25 19,90<br />

0,500 5,02 13,32 27,26 16,09 21,98<br />

0,625 5,81 13,32 14,12 16,09 9,19<br />

0,750 10,04 13,67 14,12 16,09 9,19<br />

Consi<strong>de</strong>rando-se o conjunto <strong>de</strong> dados compostos por 1000,<br />

2000 e 3000, a métrica MDL modificada com parâmetros mais<br />

restritivos foi a que melhor apresentou resultados em dois dos<br />

três conjuntos <strong>de</strong> dados e, visto que o conjunto <strong>de</strong> 2000 amostras<br />

apresenta distribuições dos parâmetros mais próximas da<br />

re<strong>de</strong> original e que seus resultados <strong>de</strong> entropia são bem próximos<br />

da melhor métrica para esse conjunto <strong>de</strong> amostras, temse<br />

a confirmação da robustez da métrica MDL modificada<br />

para um conjunto <strong>de</strong> dados menos representativo. Um outro<br />

ponto a se <strong>de</strong>stacar na medida <strong>de</strong> qualida<strong>de</strong> MDL modificada<br />

é quando o parâmetro <strong>de</strong> ajuste é para 5000 e<br />

10000 amostras. Verificando-se a Tabela I, percebe-se a remoção<br />

<strong>de</strong> uma aresta ausente, porém, em contrapartida, um<br />

arco extra é adicionado, ficando nítido que, no geral, a adição<br />

<strong>de</strong> arestas inexistentes é mais prejudicial à estrutura da re<strong>de</strong> <strong>de</strong><br />

crença que a perda <strong>de</strong> uma aresta.<br />

A Tabela III ilustra as arestas extras e ausentes encontradas<br />

pelos diferentes parâmetros e métricas para a re<strong>de</strong> ALARM<br />

com um conjunto <strong>de</strong> dados <strong>de</strong> 10000 amostras. Analisando-a,<br />

é possível perceber que cinco arestas repetem-se com mais<br />

freqüência para as diferentes configurações das métricas. Uma<br />

análise <strong>de</strong>talhada através da entropia <strong>de</strong> Shannon (fator <strong>de</strong><br />

normalização), do princípio <strong>de</strong> Informação Mútua e do funcionamento<br />

dos parâmetros nas métricas permite as seguintes<br />

conclusões sobre esses arcos:<br />

• Apesar <strong>de</strong> os vértices 15 e 35 possuírem uma relação<br />

direta <strong>de</strong> causa/efeito com o vértice 22 no mo<strong>de</strong>lo original,<br />

esses não são adicionados à estrutura da re<strong>de</strong><br />

com parâmetros mais restritivos.<br />

• Comparando-se a quantida<strong>de</strong> <strong>de</strong> informação do vértice<br />

22 que é repassada ao vértice 15 com a quantida<strong>de</strong><br />

<strong>de</strong> informação dos <strong>de</strong>mais pais π ( x i ) que é individualmente<br />

repassada e observando-se a heurística <strong>de</strong><br />

adição <strong>de</strong> pais ao vértice do algoritmo K-2, tem-se<br />

que a relação dos vértices 22→15 é mais fraca que a<br />

relação 35→15. Portanto, o algoritmo seleciona inicialmente<br />

a relação mais forte.<br />

• No passo seguinte, a existência <strong>de</strong> um parâmetro<br />

mais restritivo na métrica exige um ganho mais significativo<br />

na qualida<strong>de</strong> local da re<strong>de</strong>. Como isso não<br />

ocorre, a aresta não é adicionada à estrutura da re<strong>de</strong><br />

Bayesiana. O mesmo princípio ocorre com a aresta<br />

22→35.<br />

TABELA III<br />

RELAÇÃO DAS ARESTAS AUSENTES E EXTRAS PARA A REDE ALARM.<br />

Parâmetros(c) Ausentes<br />

12→24; 12→28;<br />

12→7; 18→23;<br />

Extras<br />

0,125<br />

18→30; 19→21;<br />

19→10; 19→31;<br />

26→30; 30→29;<br />

13→35<br />

-<br />

0,250<br />

12→28; 13→35;<br />

18→30<br />

-<br />

0,375 12→28; 13→35 22→15<br />

0,500 12→28; 13→35 22→15; 22→35<br />

0,625 13→35 22→15; 22→35<br />

0,750 13→35 22→15; 22→35<br />

De maneira similar, tem-se que os vértices 12 e 18 transmitem<br />

muito pouca informação aos vértices 28 e 30, respectivamente.<br />

No entanto, o enfraquecimento na proprieda<strong>de</strong> <strong>de</strong> busca<br />

por re<strong>de</strong>s mais simples gerado pelos parâmetros permite<br />

que haja um aumento na qualida<strong>de</strong> local da re<strong>de</strong> e, portanto, a<br />

adição das arestas às estruturas da re<strong>de</strong>. Verificando-se novamente<br />

a Tabela III, percebe-se que a ligação entre os vértices<br />

13 e 35 está presente in<strong>de</strong>pen<strong>de</strong>ntemente dos parâmetros e<br />

métrica utilizados. Através do cálculo da Informação Mútua,<br />

<strong>de</strong>monstra-se que muito da informação <strong>de</strong> 13 é transmitida a<br />

35 em um conjunto <strong>de</strong> dados <strong>de</strong> 10000 amostras, o que resulta<br />

na ligação dos vértices na re<strong>de</strong> Bayesiana obtida, sendo o tamanho<br />

do conjunto <strong>de</strong> dados insuficiente para refletir a relação<br />

<strong>de</strong> in<strong>de</strong>pendência condicional existente entre os vértices<br />

13 e 35.<br />

IV. CONCLUSÃO<br />

Este trabalho teve como objetivo apresentar, através da análise<br />

do comportamento dos parâmetros que compõem as re<strong>de</strong>s<br />

<strong>Bayesianas</strong>, uma alteração no termo <strong>de</strong> penalização da métrica<br />

MDL <strong>de</strong> forma a realizar um “ajuste fino” no aprendizado <strong>de</strong><br />

estruturas <strong>de</strong>ssas re<strong>de</strong>s a partir <strong>de</strong> dados completos.<br />

Através da investigação na re<strong>de</strong> Bayesiana ALARM, foi<br />

possível comprovar que as re<strong>de</strong>s geradas a partir do conjunto<br />

<strong>de</strong> dados completos representativo <strong>de</strong> 10000 amostras, utilizando-se<br />

o algoritmo K-2, em geral foram próximas à estrutura<br />

<strong>de</strong> re<strong>de</strong> original para ambas as métricas com os diferentes<br />

parâmetros, à exceção da medida MDL modificada com parâmetro<br />

c = 0,<br />

125 , que apresenta uma redução excessiva na<br />

penalização. Com isso, po<strong>de</strong>-se concluir que o algoritmo K-2<br />

é um método eficiente para aprendizagem da estrutura <strong>de</strong> re<strong>de</strong><br />

a partir <strong>de</strong> dados completos, confirmando assim as conclusões<br />

<strong>de</strong> [6], [7], [20], [22].


<strong>Utilizando</strong>-se os parâmetros da entropia cruzada, verifica-se<br />

que a métrica MDL modificada apresenta resultados superiores<br />

à métrica MDL quando o conjunto <strong>de</strong> dados é significativo<br />

(ex.: 10000) e resultados similares quando o conjunto <strong>de</strong> amostras<br />

é pouco significativo.<br />

Também é possível notar que a métrica MDL modificada<br />

retorna resultados satisfatórios no aprendizado mesmo com<br />

um conjunto <strong>de</strong> dados pouco representativo.<br />

Recorrendo-se novamente à Tabela II <strong>de</strong> entropia cruzada,<br />

percebe-se que é preferível utilizar parâmetros mais restritivos<br />

àqueles que relaxam a métrica, com resultados que condizem<br />

com [23]. Uma outra característica verificada com o uso dos<br />

parâmetros e o número <strong>de</strong> amostras foi o funcionamento da<br />

inclusão <strong>de</strong> arcos extras e ausentes. Percebeu-se que a inclusão<br />

<strong>de</strong> arestas extras, dadas as características das distribuições,<br />

ocorre com uma freqüência muito maior que a inclusão <strong>de</strong><br />

arestas ausentes. Portanto, a adoção <strong>de</strong> um único hiperparâmetro<br />

mais restritivo e/ou menos restritivo em todos os parâmetros<br />

da re<strong>de</strong> <strong>de</strong> crença, para a adição <strong>de</strong> uma aresta ausente ou<br />

remoção <strong>de</strong> arestas extras, po<strong>de</strong> resultar num mo<strong>de</strong>lo <strong>de</strong> re<strong>de</strong><br />

in<strong>de</strong>sejável (ex.: c = 0,<br />

125 ).<br />

Essa mesma característica permite concluir, através da análise<br />

da entropia cruzada, que a adição <strong>de</strong> arestas extras afeta<br />

<strong>de</strong> maneira muito mais negativa a estrutura <strong>de</strong> re<strong>de</strong> Bayesiana<br />

do que a perda <strong>de</strong> alguns arcos ausentes que possuem relação<br />

fraca entre seus vértices.<br />

Dados os resultados da Fig.1, Fig.2 e Fig.3, é possível perceber<br />

que o aumento no número <strong>de</strong> amostras resulta em uma<br />

melhora na distribuição dos parâmetros no conjunto <strong>de</strong> dados<br />

e, por conseqüência, há uma redução no número <strong>de</strong> erros das<br />

estruturas obtidas pelas diferentes métricas. Comparando-se a<br />

métrica MDL modificada com a MDL, a primeira apresentou<br />

resultados similares ou superiores aos da métrica MDL e<br />

IMDL, esta última <strong>de</strong>scrita em [19].<br />

Consi<strong>de</strong>rando-se os resultados promissores obtidos através<br />

da métrica MDL modificada, preten<strong>de</strong>-se realizar pesquisas<br />

futuras <strong>de</strong> forma a tentar estabelecer um valor ótimo para a<br />

constante para cada um dos parâmetros da re<strong>de</strong> <strong>de</strong> crença.<br />

Um outro estudo seria encontrar uma relação matemática entre<br />

da métrica Heckerman-Geiger e c , baseando-se para<br />

isso na relação do logaritmo da métrica Cooper-Herskovits<br />

com a métrica MDL <strong>de</strong>scrita por [7]. Uma última sugestão <strong>de</strong><br />

pesquisa com a constante c seria verificar o comportamento<br />

da métrica no treinamento <strong>de</strong> classificadores Bayesianos, visto<br />

que a função <strong>de</strong> penalização da métrica MDL não correspon<strong>de</strong><br />

<strong>de</strong> maneira a<strong>de</strong>quada a esse tipo <strong>de</strong> classificador [24], [25].<br />

REFERÊNCIAS<br />

[1] Usama M. Fayyad, “Data Mining and Knowledge Discovery: Making<br />

Sense Out of Data”, IEEE Intelligent Systems Vol.11 pp.20-25, 1996.<br />

[2] John Bin<strong>de</strong>r and Daphne Koller and Stuart Russell and Keiji Kanazawa,<br />

“Adaptive Probabilistic Networks with Hid<strong>de</strong>n Variables”, Springer Netherlands<br />

Vol.29 pp.213-244, 1997.<br />

[3] Nir Friedman and Moises Goldszmidt and David Heckerman and Stuart<br />

Russel, “Challenge: Where is the Impact of Bayesian Networks in Learning?”,<br />

In Proceedings of the 15th International Joint Conference on Artificial<br />

Intelligence, Nagoya, Japan – pp.10-15, 1997.<br />

[4] Robert Castelo and Tomás Kocka, “On Inclusion-Drive Learning of<br />

Bayesian Networks”, Machine Learning Research Vol.4 pp.527-574,<br />

2003.<br />

[5] Jie Cheng and Russel Greiner, “Learning Bayesian Belief Network<br />

Classifiers: Algorithms and System”, Proceedings of the 14 th Biennial<br />

Conference of the Canadian Society on Computational Studies of Intelligence:<br />

Advances in Artificial Intelligence, Ottawa, Canada – Springer-<br />

Verlag Vol.2056 pp.141-151, 2001.<br />

[6] Gregory F. Cooper and Edward Herskovits, “A Bayesian Method for the<br />

Induction of Probabilistic Networks from Data”, Knowledge Systems<br />

Laboratory – Stanford University, 1993.<br />

[7] Remco R. Bouckaert, “Probabilistic Network Construction Using the<br />

Minimum Description Length Principle”, RUU-CS-94-27 Utrecht University,<br />

1994.<br />

[8] David Heckerman, “A Tutorial on Learning With Bayesian Networks”,<br />

MSR-TR-95-06 Microsoft Research, 1996.<br />

[9] Ju<strong>de</strong>a Pearl, “Probabilistic Reasoning in Intelligent Systems: Networks<br />

of Plausible Inference”, Morgan Kaufmann, 1988.<br />

[10] Enrique Castillo and José Manuel Gutiérrez and Ali S. Hadi, “Sistemas<br />

Expertos y Mo<strong>de</strong>los <strong>de</strong> Re<strong>de</strong>s Probabilísticas”, Aca<strong>de</strong>mia Española <strong>de</strong><br />

Ingeniería – Madrid, 1998.<br />

[11] José Miguel Puerta Callejón, “Métodos Locales y Distribuidos para la<br />

Construcción <strong>de</strong> Re<strong>de</strong>s <strong>de</strong> Creencia Estáticas y Dinámicas”, Universidad<br />

<strong>de</strong> Granada, 2001.<br />

[12] Wray Buntine, “Theory refinement on Bayesian Networks”, Proc. 7th<br />

Conf. Uncertainty in Artificial Intelligence, Los Angeles, USA – pp.52-<br />

60, 1991.<br />

[13] David Heckerman and Dan Geiger and David M. Chickering, “Learning<br />

Bayesian Networks: The Combination of Knowledge and Statistical Data”,<br />

Microsoft Corporation, 1994.<br />

[14] H. Akaike, “A New Look at the Statistical Mo<strong>de</strong>l I<strong>de</strong>ntification”, IEEE<br />

Transactions on Automatic Control Vol.19 pp.716-723, 1974.<br />

[15] G. Schwarz, “Estimating the dimension of a mo<strong>de</strong>l”, Annals of Statistics<br />

Vol.6 pp.461-464, 1978.<br />

[16] Remco Ronaldus Bouckaert, “Bayesian belief networks: from construction<br />

to inference”, Utrecht University, 1995.<br />

[17] Wai Lam and Fahiem Bacchus, “Learning Bayesian Belief Networks An<br />

approach based on the MDL Principle”, Computational Intelligence<br />

Vol.10 pp.269-293, 1994.<br />

[18] J. Suzuki, “A construction of Bayesian networks from databases based<br />

on the MDL principle”, Proceedings of the 9th Conference on Uncertainty<br />

in Artificial Intelligence, Washington, D.C, USA pp.266-273, 1993.<br />

[19] Zheng Yun and Kwoh Chee Keong, “Improved MDL Score for Learning<br />

of Bayesian Networks”, Proceedings of the International Conference on<br />

Artificial Intelligence in Science and Technology – AISAT, Hobart,<br />

Australia – pp.98-103, 2004.<br />

[20] Shulin Yang and Kuo-Chu Chang, “Comparison of Score Metrics for<br />

Bayesian Network Learning, IEEE Transactions on Systems, Man and<br />

Cybernetics Vol.32 pp.419-428, 2002.<br />

[21] I.A. Beinlich and H.J. Suermondt and R.M. Chavez and G.F. Cooper,<br />

“The ALARM monitoring system: A case study with two probabilistic<br />

inference techniques for belief networks”, Proceedings of the Second<br />

European Conference on Artificial Intelligence in Medical Care, London,<br />

UK – Springer-Verlag pp.247-256, 1989.<br />

[22] Jackson P. Matsuura and Takashi Yoneyama, “Re<strong>de</strong>s <strong>Bayesianas</strong> e <strong>Aprendizagem</strong><br />

Aplicadas à Detecção <strong>de</strong> Falhas em Sistemas Dinâmicos”,<br />

XV Congresso Brasileiro <strong>de</strong> Automática, Gramado, Brasil, 2004.<br />

[23] Christian Borgelt and Rudolf Kruse, “An Empirical Investigation of K2<br />

Metric”, Symbolic and Quantitative Approaches to Reasoning with Uncertainty:<br />

6th European Conference, Toulouse, France – Springer Berlin<br />

pp.240-251, 2001.<br />

[24] Tim Van Allen and Russ Greiner, “Mo<strong>de</strong>l Selection Criteria for Learning<br />

Belief Nets: An Empirical Comparison”, Proceedings of 17 th International<br />

Conference on Machine Learning, Stanford University, USA<br />

pp. 1047-1054, 2000.<br />

[25] Daniel Grossman and Pedro Domingos, “Learning Bayesian network<br />

classifiers by maximizing conditional likelihood”, Proceedings of the<br />

twenty-first international conference on Machine learning, Banff, Alberta,<br />

Canada – ACM Press Vol.69 pp.46-53, 2004.


A<strong>de</strong>rson Cleber Pifer graduou-se em Ciência da Computação pela Pontifícia<br />

Universida<strong>de</strong> Católica do Paraná em 1996 e obteve o título <strong>de</strong> mestre em<br />

Engenharia Elétrica pela Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio Gran<strong>de</strong> do Norte, Brasil,<br />

em 2006. Encontra-se atualmente trabalhando em seu doutorado em Engenharia<br />

Elétrica pela Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio Gran<strong>de</strong> do Norte, Brasil.<br />

Seus principais interesses incluem Mo<strong>de</strong>los Gráfico-Probabilísticos para Automação<br />

Industrial.<br />

Luiz Affonso Gue<strong>de</strong>s graduou-se em Engenharia Elétrica pela Universida<strong>de</strong><br />

Fe<strong>de</strong>ral do Pará em 1987 e doutorou-se em Engenharia da Computação pela<br />

Universida<strong>de</strong> Estadual <strong>de</strong> Campinas, Brasil, em 1999. Des<strong>de</strong> 2003, é professor<br />

associado do Departamento <strong>de</strong> Engenharia da Computação e Automação da<br />

Universida<strong>de</strong> Fe<strong>de</strong>ral do Rio Gran<strong>de</strong> do Norte, Brasil. Seus principais interesses<br />

incluem Linguagens <strong>de</strong> Programação em Alto Nível para Automação<br />

Industrial e Sistemas <strong>de</strong> Comunicação para Aplicações Industriais.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!