13.07.2015 Views

Tema 4 – Redes bayesianas - GIAA

Tema 4 – Redes bayesianas - GIAA

Tema 4 – Redes bayesianas - GIAA

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Tema</strong> 4 <strong>–</strong> <strong>Redes</strong> <strong>bayesianas</strong>


IntroducciónTambién llamadas:<strong>–</strong> <strong>Redes</strong> de creencia<strong>–</strong> <strong>Redes</strong>probabilísticas<strong>–</strong> <strong>Redes</strong> causales<strong>–</strong> Mapas deconocimiento


Introducción• Estructura de datos para representación deconocimiento incierto• Representa la dependencia entrevariables, y especifica en forma concisa ladistribución de probabilidad conjunta• Representación gráfica


Introducción• Generalmente es fácil para un experto deldominio especificar qué relaciones dedependencia condicional se dan<strong>–</strong> Determinar la topología de la red<strong>–</strong> Especificar las probabilidades condicionalesde los nodos con dependencia directas<strong>–</strong> Calcular cualquier otro valor de probabilidad


Introducción• Cada nodo de la red representa unavariable aleatoria• Un arco del nodo X al nodo Y, significaque la variable X tiene una influenciasobre Y• Cada nodo X tiene una tabla deprobabilidad condicional que cuantifica elefecto que los padres de X tienen sobre X.• Es un grafo dirigido acíclico (GDA)


IntroducciónRelación entre causalidad y correlación ?Ej.: un estudio demostró que hay una fuerte correlación entre elnúmero de cigüeñas de una localidad y el número de nacimientosNº habitantesNº IglesiasNº CigueñasNº Nacimientos


IntroducciónRelación entre causalidad ycorrelación ?Causalidad ⇒ Correlación


IntroducciónIndependenciaSexoColor OjosDependencia causal (tb correlación)EdadEstaturaEl sentido de la flecha indica Influencia causal


IntroducciónDependencia causal entre un nodo padre y 2 hijosEdadIngresosEstaturaDependencia causal de 3 nodos en cadenaEdad Estatura Nº CalzadoIndependencia condicional


IntroducciónDependencia causal entre 2 padres y 1 nodo hijoSexoEdadEstaturaDependencia condicional


Semántica• Dos puntos de vista sobre una RB:• Como representación de la distribución deprobabilidad conjunta (DPC)<strong>–</strong> Útil para entender cómo construir redes• Como representación de un conjunto deaseveraciones de independenciacondicional<strong>–</strong> Útil para diseñar procedimientos de inferencia• Ambos puntos de vista son equivalentes


Probabilidad condicionalP(X)P(Y |X)XYX P(y|X) P(¬y|X)V0.70.3P(y|x) + P(¬y|x) = 1F0.010.99P( y|¬x) + P(¬y| ¬x) = 1P(y) = P(y|x)P(x) + P(y|x)P(¬x)P(¬y) = P(¬y|x)P(x) + P(¬y|¬x)P(¬x)


Grafo conexos y poliárboles• Grafo conexo: entre cualquier par de nodos hayal menos un camino (una ruta no dirigida)<strong>–</strong> A veces se distingue entre camino abierto y cerrado,que corresponde a ciclos y bucles)• Grafo simplemente conexo o poliárbol: entrecualquier par de nodos hay un único camino• Grafo múltiplemente conexo: contiene bucles ociclos• Árbol: poliárbol en el que cada nodo tiene unsolo padre, menos el nodo raíz que no tiene


Bucles y ciclosAABCBCDADBucleBCBucleDCiclo


Definiciones formales• Separación direccional: Dado un GDA conexo(V,E) y una distribución de probabilidad sobresus variables, P, hay separación direccional si:<strong>–</strong> Dado X∈V, el conjunto de sus padres, pa(X), separacondicionalmente a X de cualquier otro conjunto denodos Y que no tenga descendientes de X, de(X):P(X|padres(X),Y) = P(X|padres(X))X∈V, Y∈V- {X U pa(X) U de(X)}


Definiciones formales• Red Bayesiana: (V,E,P) GDA más distribuciónde probabilidad sobre V, que cumple lapropiedad de separación condicional• Ejemplo:AP(a1,b1,c1)=0.084P(a1,b2,c1)=0.126P(a1,b1,c2)=0.036P(a1,b2,c2)=0.054BCP(a2,b1,c1)=0.084P(a2,b2,c1)=0.056P(a2,b1,c2)=0.336P(a2,b2,c2)=0.224


EjemploTemblorP(T)=0.001RoboP(R)=0.002R T P(A|R,T)AlarmaVVVF0.950.95FV0.29FF.001AP(J)AP(M)Juan LlamaVF0.900.05Maria LlamaVF0.700.001


Probabilidades conjuntas• Una RB proporciona una descripción completa deldominio• Cualquier elemento de P(X 1 ,..X n ) de la DPC sepuede calcular a partir de la redP(x ,..,x ) = ∏1 ni=1..nP(xi|Padres(xi))


Construcción• P(x 1 ,...,x n ) = P(x n |x n-1 ,...,x 1 )P(x n-1 ,...,x 1 )• P(x 1 ,...,x n ) = P(x n |x n-1 ,...,x 1 )P(x n-1 |x n-2 ,...,x 1 )…P(x 2 |x 1 )P(x 1 )P(x∏1,..,xn) = P(xi| xi−1,..,x1)i=1.. n• P(X i | X i-1 ,...,X 1 ) = P(Xi | Padres(Xi)),si Padres(X i ) ⊆ { x i-1 ,...,x 1 }• Para satisfacer esa condición Etiquetar los nodos deforma consistente con el orden parcial implícito en la RB.


Probabilidades conjuntasP(x ,..,x ) = ∏1 ni=1..nP(xi|Padres(xi))• Ejemplo: Probabilidad de que la Alarma suene, nohaya Robo ni Terremoto, y Juan y Maria llamen• P(A,¬R, ¬T,J,M) ?P(A| ¬R, ¬T)P(¬ R) P(¬T) P(J|A)P(M|A) =0.90 x 0.70 x 0.001 x 0.999 x 0.998=0.00062• P(R|J,¬ M,T) ?


Propiedades de independenciacondicional• Una RB es representación correcta del dominiosi cada nodo es cond. independiente respectode antepasados de sus padresEscoger a los padres de manera que sesatisfaga la condición anterior• En el ejemplo, no hay relación directa entre elhecho de que Maria o Juan llamen y el que seproduzca un terremoto o un robo, relaciónmediada por el hecho de que suene la alarma<strong>–</strong> P(M | J,A,T,R) = P(M | A)<strong>–</strong> P(J | J,A,T,R) = P(J | A)


Compactación• Una RB es más compacta que la distribución deprobabilidad conjunta correspondiente permite manejar muchas evidencias sin elproblema del crecimiento exponencial• Sistema localmente estructurado (sparse system). crecimiento lineal (en vez de exponencial)• Si las variables de una RB reciben influencias directasde un promedio de k variables, y hay un total de Nvariables booleanas, entonces la RB quedaespecificada por N⋅2 k probabilidades


Metodología de Construcción1. Escoger conjunto de variables2. Definir un orden parcial para el conjunto de variables;primero los nodos causales y luego los nodos efecto3. Mientras queden variablesa) Escoger siguiente variable X i y añadir nodo a la RBb) Asigne Padres(X i ) a un conjunto mínimo de nodos presente enla red, de manera que sea satisfecha la propiedad deindependencia condicionalc) Elaborar la tabla de probabilidad condicional de X i• Este método garantiza la obtención de redes acíclicas• Evita la redundancia en la definición de probabilidades• Evita que se violen los axiomas de probabilidad


Elegir bien el orden !Maria LlamaJuan LlamaAlarmaINCORRECTORoboTemblor


Elegir bien la topología !Maria LlamaJuan LlamaTemblorMALAORDENACIÓNRoboalarma


Tipos de Inferencia• Usando el ejemplo de la alarma• Modelo diagnóstico: efectos (síntomas) causas (diagnóstico)<strong>–</strong> P(R|J), P(R|J,M)• Modelo causal: Causas efectos<strong>–</strong> P(J|R), P(M,R)• Inferencias intercausales: entre las causas deun efecto común<strong>–</strong>P(R|A,T)• Inferencias mixtas: combinación de lasanteriores<strong>–</strong>P(A|J,¬T), P(R|J,¬T)


Tipos de inferencia• Además de estimar la probabilidad decierto eventos (la variable de consulta), lasRB permiten:<strong>–</strong> Estimar que variables de evidencia hay queobservar para obtener información útil<strong>–</strong> Hacer análisis de sensibilidad: determinar quevariables tienen más peso en lasprobabilidades de la variables consultadas<strong>–</strong> Explicar al usuario los resultados de unainferencia probabilista


Evidencia total vs parcial• Evidencia dura (hard). Conocimientodeterminista: P(A)=1 ó P(A)=0. Al asignarevidencia dura al nodo se le llamainstanciación• Evidencia parcial (soft). Conocimientoprobabilístico (distinto a 0 y a 1). Incluye alas probabilidades a priori y a lasactualizadas tras instanciarse algunavariable


Nodos divergentesHieloJuan chocaMaria choca• Sin ninguna información adicional J y M sondependientes<strong>–</strong> Evidencia 1: ¬H<strong>–</strong> J y M son independientes dado ¬H• La evidencia puede ser transmitida a través de un nododivergente a menos que esté instanciado• En un nodo divergente H sus hijos son condicionalmenteindependientes respecto a H, es decir, son dependientessi H no está instanciado y viceversa.


Nodos convergentesLluviaAspersorHumedad• Sin ninguna información adicional L y A sonindependientes<strong>–</strong> Evidencia 1: H<strong>–</strong> L y A son dependientes dado H• La evidencia puede ser transmitida a través de un nodoconvergente si no está instanciado.• En un nodo convergente H no instanciado, sus padresson independientes, pero son condicionalmentedependientes dado H


Explaining awayLluviaAspersorTejado húmedoCésped húmedo• C es un nodo convergente para L y A• L es divergente para T y C


Explaining awayLluviaAspersorTejado húmedoCésped húmedo• C es un nodo convergente para L y A• L es divergente para T y C<strong>–</strong> Evidencia 1: C<strong>–</strong> L y A son dependientes dado C<strong>–</strong> Evidencia 2: T<strong>–</strong> Explaining away: Aceptamos L y descartamos A


Resumen de las propiedades deindependencia condicional1. Independencia a priori de los nodos queno tienen ningún antepasado común2. Independencia condicional de los nodoshermanos con respecto a su padre3. Independencia condicional entre un nodoy los antepasados de sus padres4. Dependencias condicionales pordescendientes comunes instanciados


Independencia condicional• Hemos visto como una RB expresa laindependencia entre un nodo y susantepasados .• ¿Es posible saber si un conjunto de nodosX es independiente de otro conjunto Y conbase en el conjunto de los nodos deevidencia E?


EjemploBateríaRadioEncendidoCombustibleArranqueMovimiento


D-Separación• Un conjunto de nodos E d-separa dos conjuntosde nodos X y Y si cualquier trayectoria nodirigidade un nodo en X a un nodo en Y esbloqueada en función de E• Si la ruta no-dirigida (independiente de ladirección de las flechas) de un nodo X a unnodo Y está d-separada por E, entonces X y Yson condicionalmente independientes dada E


D-Separación• Una ruta es bloqueada en función de unconjunto de nodos E si existe un nodo Z en laruta que cumple una de las condicionessiguientes:1. Z está en E, y Z tiene un arco saliente y otroentrante en esa ruta (nodo lineal)2. Z está en E y Z tiene ambas arcos salientes en esaruta (nodo divergente)3. Ni Z ni sus descendientes está en E, y los dos arcosde la ruta son entrantes (nodo convergente)


D-SeparaciónX E YZ 1Z 2Z 3


EjemploAee A, E, G, F?BeCDEFG• F está d-separada del resto de las variablesno-instanciadas A, E y G


EjemploA B CeDEFGHIJKMLA y L?• A y L están d-separadas


EjemploA B CeDEFGHIJKLA y L?Me• A y L están d-conectadas


Sábana de MarkovP 1P 2C 1H 1XH 2C 2• Sábana (manto) de Markov de X: padres de X,hijos de X y cónyuges de X (comparten hijos)<strong>–</strong> Si se instancian todas, X queda d-separadadel resto de la red


Inferencia en RB• Inferencia o propagación deprobabilidades: efectos de la evidenciapropagados por la red para saberprobabilidades a posteriori• Propagación: dar valores a ciertasvariables (evidencia), y obtener laprobabilidad posterior de las demásvariables


Inferencia en RB• Método más general:P(Xi|E) =P(Xi,E)P(E)=Z={Xj},XZ={X∑jj},XP(X , Z,E)i⊄{E∪X}∑jiP(Z,E)⊄{E}• Método no eficiente (N-p completo)• RB almacena de forma eficiente la TPC• ¿Inferencia eficiente?<strong>–</strong> Sólo en casos particulares: árboles yextensiones


Tipos de Estructuras• <strong>Redes</strong> conectadas en forma sencilla:ÁrbolesPoliárboles• <strong>Redes</strong> multiconectadas:


Propagación en poliárboles• Cada nodo corresponde a una variable discreta, B{B 1 , B 2 ,…, B n ) con surespectiva matriz de probabilidad condicional, P(B|A)=P(B j | A i ):HAICBDEFG


Propagación en poliárboles• Dada cierta evidencia E (instanciación de ciertas variables) la probabilidadposterior de cualquier variable B, por el teorema de Bayes:P( Bi | E)=P( Bi ) P(E | Bi) / P( E )B


Propagación en poliárbolesHAICBDEFGE = {I,F,E}


Propagación en poliárboles• Ya que la estructura de la redes un árbol, el Nodo B la separaen dos subárboles, por lo quepodemos dividir la evidencia endos grupos:1) E-: Datos en el árbol quecuya raíz es B.2) E+: Datos en el resto delárbolCFADHBGEE+IE-


Propagación en poliárbolesEntonces:P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E)Pero dado que ambos son independientes y aplicando nuevamente Bayes:P( B i | E ) = α P ( B i | E + ) P(E - | B i ) = αλ(B i ) π(B i )Donde α es una constante de normalización


Propagación en poliárboles• Al instanciarse ciertos nodos, éstos envíanmensajes a sus padres e hijos, y sepropagan hasta a llegar a la raíz u hojas, ohasta encontrar un nodo instanciado• Así que la propagación se hace en un solopaso en un tiempo proporcional al diámetrode la red


Propagación λHλ Ι (H)AICBDλ E (B)EFG


Propagación πHAICBDEFG


Condiciones iniciales• Nodos hoja no conocidos:λ (B i ) = [1,1, …]• Nodos asignados (conocidos):λ (B i ) = [0,0, ..1, 0, …, 0] (1 para valor asignado)π (B i ) = [0,0, ..1, 0, …, 0] (1 para valor asignado)• Nodo raíz:π (A) = P(A), (probabilidad marginal inicial)


Cálculo de λ-mensajes• Si B es un hijo de A, B tiene k valores posibles y A tiene mvalores posibles, entonces j=1,2,…m, el λ-mensaje de B aA viene dado por:ABEcuación 1


Cálculo de π-mensajes• Si B es hijo de A y A tiene m valores posibles, entoncespara j=1,2,...,m, el π-mensaje de A a B viene dado por:ABEcuación 2donde s(A) denota al conjunto de hijos de A.


Cálculo de λ-valores• Si B tiene k valores posibles y s(B) es el conjunto de losnodos C hijos de B, entonces para i=1,2,...,k, el λ-valor de Bviene dado porBCEcuación 3


Cálculo de π-valores• Si A es padre de B, B tiene k valores posibles y A tiene mvalores posibles, entonces para i=1,2,...,k, el π-valor de Bviene dado por:ABEcuación 4


Cálculo de probabilidad aposteriori• Si B es una variable con k posibles valores, entonces para i= 1,2,...,k la probabilidad a posteriori basada en lasvariables instanciadas se calcula como:ABEcuación 5


Algoritmo. Fase 1- InicializaciónA. Inicializar todos los λ-mensajes y λ-valores a 1.B. Si la raíz A tiene m posibles valores, entonces para j =1,...,m, sea:C. Para todos los hijos B de la raíz A, hacerEnviar un nuevo π-mensaje a B usando la ecuación 2.(En ese momento comenzará un flujo de propagacióndebido al procedimiento de actualización C)


Algoritmo. Fase 2- ActualizaciónCuando una variable se instancia o una variable recibe un λo π-mensaje, se usa uno de los siguientes procedimientosde actualización: (A, B ó C)Procedimiento A


Algoritmo. Fase 2- ActualizaciónProcedimiento BProcedimiento C


Ejemplo“Esposa infiel” :A esposa infielB esposa cena con otro hombreC esposa es vista cenando con otro hombreD en el domicilio se reciben llamadas telefónicas sospechosasa 1 afirmación del hecho, a 2 , negación.


Ejemplo (II)1. Calculamos las probabilidades iniciales (a priori) de cada variable


Ejemplo (III)


Ejemplo (IV)


Ejemplo (V)2. Supongamos ahora que nos informan de que la esposa hacenado con otro, es decir, conocemos ahora con certezaque B = b1.Esta información se irá transmitiendo por la red, haciendoque las probabilidades a priori de los nodos, P(X) cambiena las probabilidades a posteriori, P*(X) = P(X/B = b1). Eneste caso, al ser la evidencia aportada a favor de lahipótesis que queremos probar, lo lógico será que todasestas probabilidades aumenten. En el momento que unavariable se actualiza, comienza un flujo de propagación porla red, que en este caso es el siguiente:• B informa a su padre mediante un λ-mensaje.• B informa a su hijo mediante un π-mensaje.• A su vez, A va a informar a su hijo, D, mediante un π-mensaje.


Ejemplo (VI)3. Supongamos ahora que tenemos la información de que no sehan recibido llamadas telefónicas extrañas en el domicilio, esdecir, que sabemos que D ha tomado el valor d2.Nuevamente se iniciará el algoritmo que propagará estainformación por la red:• D enviará un λ-mensaje a su padre, A,• A enviará un π-mensaje a su hijo, B.Pero ahora, al estar B inicializada, el algoritmo se parará ahí,puesto que P(B) = (1, 0), y no podemos permitir que nadacambie ya estos valores. Así, en la ejecución del algoritmo, lasvariables que ya han sido inicializadas son extremos muertos,donde la propagación se para (en el caso de la propagación enárboles).


Extensiones de las RB• Evidencia parcial: Nodos virtuales• Poliárboles<strong>–</strong> Cálculo π compuesto con todos los mensajes• Grafos multiplemente conexos<strong>–</strong> Algoritmos de clustering, eliminación de variables<strong>–</strong> Métodos MonteCarlo• Variables continuas• Razonamiento abductivo• Aprendizaje y sensibilidad• Razonamiento en el tiempo: <strong>Redes</strong> BayesianasDinámicas

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!