enriquecimiento del conocimiento previo en programaciÃ³n lÃ³gica ...

Posgrado en Ciencias y Tecnologías de la InformaciónPropuesta de investigación doctoralManejo de tipos de atributos en ILPpresenta:M. en C. Orlando Muñoz TexzocotetlaAsesor: Dr. René Mac Kinney Romero

Contenido1 Introducción 12 Problemática 42.1 Operadores de generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Operadores de especialización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Revisión de métodos 73.1 Discretización en ILP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2 Programación lógica con restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Algoritmos genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.4 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.5 Comparación de métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 Propuesta 144.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.1.1 Objetivo principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.1.2 Objetivos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.2 Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.3 Resultados esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.4 Avances hasta el momento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16Referencias 17A Lógica de Primer Orden 19i

Capítulo 1IntroducciónDentro de las diversas disciplinas que componen el campo del aprendizaje inductivo 1 tenemos la ProgramaciónLógica Inductiva (Inductive Logic Programming - ILP). Este término fue acuñado por Stephen Muggleton[24], y permite inducir teorías durante el proceso de aprendizaje teniendo como base el lenguaje dela lógica de primer orden. En la definición 1.1 se describe de manera más sucinta. En ILP se cuenta ademáscon información del dominio del problema, la cual es esencial para la construcción de mejores teorías. Estainformación es llamada conocimiento previo y se denota B.DEFINICIÓN 1.1 Programación Lógica InductivaILP = Inductive Learning ∩ Logic P rogramming .El objetivo de la ILP es encontrar una teoría Σ que explique, junto con el concimiento previo B, elconcepto objetivo representado por un conjunto de ejemplos positivos E + , y no así por un conjunto deejemplos negativos E − . Más formalmente definimos el marco normal de la ILP , de la siguiente manera:Dados: Un conjunto finito de cláusulas (conocimiento previo) B, un conjunto finito de cláusulas E +(ejemplos positivos), y un conjunto finito de cláusulas E − (ejemplos negativos).Encontrar: una teoría Σ, tal que Σ ∧ B |= E + (correcta), y Σ ∧ B ̸|= E − (consistente).Donde Σ, E + , E − y B son programas lógicos 2 .El proceso de aprendizaje se puede ver como el proceso de búsqueda de cada una de las cláusulas quecomponen la teoría Σ. El conjunto de todas las posibles cláusulas, llamado espacio de búsqueda, se ordenapara una búsqueda eficiente.Para ordenar el espacio de búsqueda, una opción es usar alguna relación entre las cláusulas, como lasubsunción de la definición 1.2, la cual permite determinar si una cláusula es más específica o más generalque otra.DEFINICIÓN 1.2 SubsunciónSean las cláusulas C y D, decimos que C subsume a D (C ≼ D) si existe una substitución θ tal queCθ ⊆ D. De esta manera decimos que C es una cláusula más general que D, o que D es una cláusula másespecífica que C.La subsunción crea un orden parcial, el cual se puede ver gráficamente en un diagrama de Hasse oretícula, como la que se muestra en la figura 1.1. En esa retícula tenemos en la parte superior la cláusula1 En este tipo de aprendizaje se construyen hipótesis o teorías a partir de un conjunto de ejemplos.2 En adelante haremos uso de diferentes conceptos de la lógica de primer orden tales como literal, cláusula de programa, oprograma lógico, en el apéndice A definimos de manera detallada todos estos conceptos.1

1. Introducción 2más general posible C g . Las cláusulas en un nivel más inferior (más abajo) a C g son más específicas. Deesta manera la búsqueda se realiza recorriendo la retícula de arriba hacia abajo (top-down) o de abajo haciaarriba (bottom-up).C g : Cláusula más generalMás GeneralesMás EspecializadasFigura 1.1: El espacio de búsqueda se puede representar con un diagrama de Hasse o retícula.Para recorrer el espacio de búsqueda un nivel hacia arriba o hacia abajo, a partir de una cláusula, sedefinen los operadores de refinamiento que permiten generar un conjunto de cláusulas más generales, o unconjunto de cláusulas más específicas, en la definición 1.3 formalizamos este concepto.DEFINICIÓN 1.3 Operador de refinamientoUn operador de refinamiento es una función que mapea desde una cláusula C a un conjunto de cláusulas,ya sean más generales o más específicas.Un operador de refinamiento que genera un conjunto de cláusulas más generales (upward o de generalización)a partir de una cláusula C, se basa en dos operaciones básicas: aplicar una substitución inversa a C,o eliminar una literal del cuerpo de C. En la figura 1.2 se muestra un ejemplo de este tipo de operaciones.p (X, Y ) ← r (Y, W, 7.5)p (X, Y ) ←θ −1 = {102/W }p (X, Y ) ← r (Y, 102, Z)θ −1 = {7.5/Z}p (X, Y ) ← r (Y, 102, 7.5)Figura 1.2: Generalización de cláusulas.Un operador de refinamiento que genera un conjunto de cláusulas más específicas (downward o de especialización)a partir de una cláusula C, se basa en dos operaciones básicas: aplicar una substitución a C, oañadir una literal al cuerpo de C. En la figura 1.3 se muestra un ejemplo de este tipo de operaciones.Una vez que se ha creado un conjunto de cláusulas más específicas o más generales, se debe elegir lacláusula más apropiada para seguirla refinando o para agregarla a la teoría que se está creando. Esta elección

1. Introducción 3p (X, Z) ← r (X, Y )p (X, Z) ← r (X, Y ) ∧ q (Z, Y )p (X, Z) ← r (X, 1)θ = {1/Y }θ = {0/Y }p (X, Z) ← r (X, 0)Figura 1.3: Especialización de cláusulas.depende de la función de evaluación utilizada por el algoritmo ILP correspondiente. Tomando en cuenta quenuestro trabajo está enfocado en los operadores de refinamiento, no detallamos el proceso de elección decláusulas.En el capítulo 2 de este documento detallamos la problemática respecto a la ineficiencia que tienen losoperadores de refinamiento para el manejo de valores categóricos y numéricos. Después en el capítulo 3presentamos los métodos ILP que implementan estrategias para el manejo de estos atributos. Por último enel capítulo 4 presentamos los objetivos y la metodología a seguir durante el desarrollo del proyecto, así comolos resultados que esperamos obtener al finalizar nuestro trabajo.

Capítulo 2ProblemáticaLa problemática que abordamos en este proyecto está relacionada con el manejo de atributos categóricos ynuméricos durante la construcción del espacio de búsqueda. Es decir, se centra en las deficiencias de losoperadores de refinamiento de los sistemas actuales para manejar estos tipos de atributos.2.1 Operadores de generalizaciónCuando se aplica una sustitución inversa θ −1 a una cláusula C para generalizarla, puede suceder que segeneralice demasiado, es decir, que las cláusula más general que C elegida cubra ejemplos negativos (loideal es que no cubra ninguno). Para explicar este problema presentamos el siguiente ejemplo.Se tiene la siguiente cláusula que define el nivel de glucosa que debe tener una persona para poderadministrarle un fármaco.administrar farmaco (P, si) ← glucosa (P, 75)Para generalizar la cláusula anterior con una sustitución inversa θ −1 , se debe sustituir el valor numéricoconstante 75 1 por una variable nueva X. Al hacer esta substitución se tendrá la siguiente cláusula másgeneral que C:administrar farmaco (P, si) ← glucosa (P, X)Debemos observar que al realizar la generalización anterior pasamos de cubrir un sólo ejemplo (las personascon glucosa = 75) a cubrir de manera indiscriminada todos los ejemplos. Pasamos de cubrir unsólo ejemplo a cubrir tanto ejemplos positivos cómo negativos. En la práctica esto equivale a administrar elfármaco a todas las personas, independientemente de su nivel de glucosa. Cabe añadir que aunque las funcionesde evaluación tienen por objetivo elegir la cláusula que cubra el menor número de ejemplos negativos,no se garantiza que nunca vaya a elegir una cláusula como la anterior.El operador en este caso está generalizando de más y terminamos entonces por preguntarnos ¿Cómopodemos generalizar una cláusula eligiendo únicamente un rango de valores numéricos que cubran el menornúmero de ejemplos negativos (idealmente ninguno)?Si la constante a sustituir es de tipo categórico, el problema es el mismo, por lo que se debe determinaruna manera de elegir un conjunto de valores categóricos que cubran el menor número de ejemplos negativosposible.1 Si existen más constantes en la cláusula a generalizar, se sigue el mismo proceso con cada una de ellas.4

2. Problemática 52.2 Operadores de especializaciónAl aplicar una sustitución θ a una cláusula C para especializarla, pueden surgir al menos dos problemáticas:• Es posible que la cláusula se vuelva especializada. Para una mejor comprensión de esta problemáticatomemos como ejemplo la cláusula siguiente.C = administrar farmaco (P, si) ← glucosa (P, X)Para especializar la cláusula anterior con una sustitución θ, se debe substituir la variable X (o cualquierotra que ocurra en la cláusula) por valores constantes, por ejemplo 75, 100 o 120 en el caso de laglucosa. Como resultado tendríamos tantas cláusulas más específicas que C como valores constantessean usados para substituir X. Entonces tendríamos cláusulas como las siguientes:C 1 = administrar farmaco (P, si) ← glucosa (P, 75)C 2 = administrar farmaco (P, si) ← glucosa (P, 100)C 3 = administrar farmaco (P, si) ← glucosa (P, 120)En este caso la cláusula que sea elegida, para seguir refinándola o añadirla a la teoría final, cubrirásolamente los ejemplos que correspondan con el valor de la constante. Por lo tanto es posible quequeden muchos ejemplos positivos sin cubrir, sobre todo si el conjunto de entrenamiento es muygrande. La cláusula es demasiado específica. Como consecuencia, para cubrir más ejemplos positivosserá necesario añadir más cláusulas a la teoría final. Entre más cláusulas tenga una teoría, es másdifícil de interpretar.De esta manera se vuelve necesario determinar una manera de substituir cada variable por un rango devalores numéricos a la vez, que permita crear una cláusula que cubra más ejemplos positivos. Al finalse necesitarán menos cláusulas para crear la teoría final.Si bien un atributo categórico no tiene tantos valores como uno numérico, es posible al final teneruna teoría con muchas cláusulas. Así que se vuelve necesario determinar una manera de substituirvariables o atributos por conjuntos de valores categóricos.• El conjunto de cláusulas creado por el operador de refinamiento puede ser demasiado grande.Al substituir variables por valores constantes en el proceso de especialización, el número de posiblescláusulas dependerá del número de constantes utilizadas. Si las constantes tienen muchos posiblesvalores, ya sea porque estén dentro de un rango continuo o porque sea un atributo categórico, entoncesel número de cláusulas creadas por el operador de refinamiento puede ser demasiado grande, haciendoineficiente el proceso de búsqueda.Por lo tanto al igual que en el punto anterior, se vuelve necesario determinar una manera de substituiruna variable X por un rango (si el atributo es numérico) o por un conjunto (si el atributo es categórico)de valores de X a la vez, para que el espacio de búsqueda sea más pequeño.

2. Problemática 6Resumiendo lo anterior, la problemática es que en esencia los operadores de refinamiento utilizan unsolo valor, categórico o numérico a la vez. Lo cual puede resultar en cláusulas demasiado generales quecubran innecesariamente ejemplos negativos.También es posible la creación de cláusulas demasiado específicas, que cubran pocos ejemplos positivos.Esto hace necesario el uso de más cláusulas, obteniendo al final una teoría más grande y más difícil deinterpretar. Además el espacio de búsqueda en este caso puede ser demasiado grande, haciendo ineficienteel proceso de búsqueda.Entonces surge la necesidad de crear intervalos numéricos que puedan ser usados en el refinamiento decláusulas. En el caso de los atributos categóricos, se necesita crear un conjunto de categorías que mejoren elrefinamiento de cláusulas. En el siguiente capítulo presentamos la revisión que realizamos sobre los sistemasILP que implementan soluciones a esta problemática.

Capítulo 3Revisión de métodosA continuación presentamos la revisión realizada de métodos ILP que implementan estrategias para elmanejo de atributos numéricos y/o categóricos. Estos los clasificamos en aquellos métodos que utilizanla discretización, la programación lógica de restricciones, los algoritmos genéticos, y la transformación deun problema relacional en otro tipo.3.1 Discretización en ILPPara el manejo de valores numéricos, algunos sistemas ILP discretizan el rango numérico de un atributo A,con el algoritmo Minimum Description Length Principle -MDLP [12]. Este algoritmo ordena de maneraascendente el conjunto numérico S, donde cada s ∈ S tiene asignada una de k clases. Después se crea unconjunto T de puntos provisionales, donde cada T i ∈ T es el punto intermedio entre dos valores consecutivosde S, dividiéndolo en los subconjuntos S 1 y S 2 .Después se calcula la información de entropía de clase para cada E (A, T i ; S) = |S1||S| Ent (S 1)+ |S2||S| Ent (S 2),donde Ent (S i ) = − ∑ kj=1 P (C j, S i ) log 2 (P (C j , S i )), k es el número de clases, P (C j , S i ) es el número deejemplos de S i con clase C j . Se selecciona el intervalo con el valor más pequeño: E (A, T min ; S).Si Gain (A, T min ; S) ≤ log2(N−1)N+ ∆(A,Tmin;S)N, entonces T min divide a S, y el proceso se repite recursivamenteen S 1 y S 2 . En otro caso el proceso se detiene.(Además ∆ (A, T min ; S) = log 2 3 k − 2 ) − [kEnt (S) − k 1 Ent (S 1 ) − k 2 Ent (S 2 )]; N =| S |; Gain (A, T min ; S) =Ent (S) − E (A, T min ; S) es la ganancia de información de T min ; k, k 1 , k 2 son las clases representadas enS, S 1 yS 2 respectivamente.INDUBI/CSLEste sistema utiliza dos tipos de literales: f (t 1 , . . . , t n ) = V y f (t 1 , . . . , t n ) ∈ R, donde f es una funciónde aridad n; t i es una variable o una constante; V es el valor que toma f; R es un conjunto de posiblesvalores que puede tomar f [23].Si una literal numérica f (ya sea V un valor numérico o R un conjunto de valores numéricos) es elegidapara especializar una cláusula G, entonces el sistema INDUBI/CSL define un conjunto de puntos de divisióne intervalos a lo largo del rango numérico de la siguiente manera: un punto de división d define dos intervalosdisjuntos [l 1 , l 2 ],[r 1 , r 2 ], donde l 1 es el valor más pequeño del intervalo izquierdo con clase +, l 2 es el valormás grande tal que l 2 < d, r 1 es el valor más pequeño tal que r 1 > d, r 2 es el valor más grande con clase +.Después se calcula la ganancia de información para cada intervalo (de acuerdo al algoritmo MDLP).El intervalo con mayor ganancia de información, denotado BestR, es usado para crear una nueva literal:7

3. Revisión de métodos 8f ′ (t 1 , . . . , t n ) ∈ BestR. Por último para especializar la cláusula G se añade f ′ , en lugar de f, al cuerpo deG.TILDE/ICLTop-Down Induction of Logical DEcision Trees o TILDE [3], es un sistema ILP cuyo esquema de aprendizajees el de interpretaciones, y las teorías construidas con árboles de decisión lógicos [4].Los argumentos numéricos que serán discretizados se declaran a priori con el metapredicado to be discretized.Así, to be discretized (atom (A, B, C) , [A, C]) indica que los argumentos A y C deben ser discretizados.La discretizaciòn de cada argumento declarado, se lleva a cabo antes del proceso de aprendizaje conel algoritmo MDLP, al cual se le han hecho dos adaptaciones. Primero, en lugar del número de ejemplospara el cálculo de la ganancia de información, se utiliza una suma de pesos. Esto se debe a que en losdatos relacionales un ejemplo puede tener más de un valor por cada argumento. De esta manera un ejemplosin valores tiene un peso igual a 0. Si tiene el máximo de valores posible, entonces tiene un peso igual a1. La segunda adaptación es respecto al criterio de paro, ya que en el algoritmo de discretización original,el criterio de paro depende del Mminimum Description Length Principle. En TILDE el usuario define unnúmero máximo de intervalos M, con lo cual la ejecución del algoritmo se detiene cuando el rango numéricose divida en M intervalos.Los intervalos creados pueden ser usados de las siguientes formas: usando desigualdades (, ≥)para identificar si un valor numérico es menor o mayor que algún punto de división; con igualdad (=) paraverificar si algún valor cae dentro de algún intervalo limitado por dos puntos de división consecutivos, p.e.V alor ∈ Intervalo = [d 1 ..d 2 ]; y por último verificando si un valor se encuentra en un intervalo creado pordos puntos de división no consecutivos.En [19, 20], los autores adaptan el algoritmo de discretización MDLP exactamente igual que en TILDE,pero el esquema de aprendizaje es el de Inductive Constraint Logic - ICL.Ent MDL o ECL-GSDEl sistema Entropy Minimization plus Minimum Description Length Principle - Ent MDL [9] (llamado ECLwith Global Univariate Supervised Discretization - ECL-GSD en [11]), utiliza el algoritmo MDLP paradiscretizar el rango de de cada atributo numérico. Al igual que TILDE e ICL la discretización es a priori,aunque no se menciona ninguna modificación al algoritmo original. En este caso cada intervalo creado esutilizado como un valor categórico durante el aprendizaje.Aprendizaje Multivalores en ILP (AMILP)En nuestro trabajo de maestría llevamos a cabo una discretización global (antes del proceso de aprendizaje)de los atributos categóricos y numéricos. Esta discretización es binaria y para cada atributo numérico obtenemosun punto de división d, y para cada atributo categórico se obtienen dos subconjuntos de categorías.Esta discretización se lleva a cabo con el algoritmo de división de nodo de dos inductores de árbolesde decisión: QUEST (Quick Unbiased Efficient Statistical Tree) [22] y CRUISE (Classification Rule withUnbiased Interaction Selection and Estimation) [18].Después de discretizar los atributos, se crean nuevas variables (multivalores) que son agregadas alconocimiento previo del conjunto de entrenamiento.Por último se ejecuta el proceso de aprendizaje utilizando dos de los sistemas más populares en ILP:Aleph [26] y FOIL [25].

3. Revisión de métodos 93.2 Programación lógica con restriccionesLa Constraint Logic Programming (CLP) es un paradigma de programación en el cual un problema desatisfacción de restricciones - CSP es planteado con un lenguaje lógico. Combina a su vez dos paradigmasdeclarativos: la programación lógica y la programación de restricciones [17]. Una de las ventajas de la CLPsobre la programación lógica es su capacidad de manejar valores numéricos en distintos dominios: N, Z, R;y precisamente esta ventaja es la que ha sido aprovechada en algunos sistemas ILP.Algoritmo NUMEn [1], se define a priori la forma de las literales numéricas con el metapredicado usage/1, cuyo únicoargumento es una literal numérica. Cada literal numérica puede tener tres tipos de términos: +, indica queen dicha posición debe haber un símbolo de variable ya presente en la cláusula a especializar; ⊥, indica queen esa posición puede haber cualquier símbolo de variable; #, indica que en esa posición debe haber unsímbolo de constante.Si queremos que se creen literales de la forma: Y = C 1 • X + C 2 , donde C i es una constante, y X, Yson variables, entonces el usuario debe declarar: usage ((+real) = (#real) • (+real) + (#real)). Así,cuando el operador de refinamiento elija esta literal, el algoritmo llamado NUM realiza lo siguiente:Se plantean sistemas de n ecuaciones con n incógnitas, donde n es el número de términos declaradoscon el símbolo #. Por ejemplo si el usuario declara la restricción lineal Y = C 1 X + C 2 , donde C 1 y C 2son términos declarados con #; X, Y son términos declarados con el símbolo +. Entonces NUM planteasistemas de 2 ecuaciones con 2 incógnitas, donde C 1 y C 2 se vuelven variables y las variables X, Y sonreemplazadas por valores contenidos en el conjunto de ejemplos y en el conocimiento previo. Así tendríamossistemas con dos ecuaciones, p.e. 1)5 = 7C 1 + C 2 , 2)3 = 2C 2 + C 2Después un sistema CLP es usado para resolver cada sistema de ecuaciones planteado. Por cada sistemaresuelto se encuentra un conjunto de valores numéricos. En el caso de nuestro ejemplo cada sistema devuelvedos valores: para C 1 y C 2 . Por ejemplo si C 1 = 0.5, C 2 = −1, entonces se crea la literal numéricaY = 0.5X − 1. Esta literal será usada para especializar la cláusula correspondiente.3.3 Algoritmos genéticosLos Algoritmos Genéticos - GA (John Holland [14]) están basados en la evolución natural, y son usados parabuscar y optimizar soluciones a problemas específicos.Hay varios aspectos a tomar en cuenta dentro del proceso general de un GA. El primero es la representaciónde cada individuo (cromosoma), generalmente se representan como cadenas binarias, aunque en ellenguaje lógico este aspecto no es trivial. También se debe tomar en cuenta la función de aptitud para evaluarsi un cromosoma es mejor que otro. La definición de los operadores genéticos es esencial. Por un lado elcruzamiento entre dos cromosomas (padres), permite crear dos individuos (hijos) que idealmente heredanlas mejores características de los padres. Por otro lado el operador de mutación permite la introducción denueva información a la población. En ILP se han creado varios sistemas que toman en cuenta estos aspectoscon el objetivo de buscar al mejor individuo: la teoría lo más precisa y expresiva posible.SIA01En el algoritmo SIA01 [2], los cromosomas se representan usando directamente un formato lógico. Cadacláusula es un cromosoma, y los predicados y sus argumentos son genes. Así, la cláusula p (X, Y ) ←

3. Revisión de métodos 10r (X, 12, a) es un cromosoma compuesto por 7 genes: | p | X | Y | r | X | 12 | a |.La función de aptitud está basada en la consistencia y completud de la regla evaluada. Penaliza aquellasreglas que cubran más ejemplos negativos, y califica positivamente aquellos que cubren más ejemplospositivos.Mutación. Si el argumento es un valor numérico, p.e. 12.3, entonces el operador de mutación crearáaleatoriamente un intervalo que contendrá a dicho valor. Si el gen a mutar es un intervalo numérico, entoncesel operador de mutación lo crecerá. Esto se muestra en el siguiente esquema.Cromosoma original p X Y r X 12.3 q Y a↓Cromosoma mutado p X Y r X [12.3..16.5] q Y aCuando el argumento es un valor categórico, entonces se agrega un valor más, creando un conjunto devalores categóricos. Si al momento de mutar el gen es ya un conjunto de valores categóricos, solo se agregaotro valor categórico más.Cruzamiento. Con este operador dos cromosomas intercambian genes con el mismo formato:| 12.3 | ↔ | 7.1..12.3 | ó| a, b | ↔ | a, c |.Ya que todos los cromosomas evolucionan a partir del mismo ejemplo semilla, no existe el problema deintercambiar genes con distinto formato.SMART+En este método se define previamente un rango [min..max] para cada argumento numérico de una literal l[5]. SMART+ hace la búsqueda de la mejor combinación posible de argumentos numéricos de dos formas:Local. Sean k 1 , . . . , k n los n argumentos numéricos de l, inicializados así: C m1 = {k 1 = min 1 , . . . , k n = min n }.Se calcula la ganancia de información para gain (C m1 = g 1 ). Si g 1 > 0 entonces se inializa una lista BESTcon las mejores combinaciones numéricas de l y sus respectivas ganancias de información. Cada nuevacombinación numérica C mi se obtiene variando algún valor k i . C mi es añadida a BEST solo si g i > 0 yg i > g i−1 . Las m combinaciones contenidas en BEST serán usadas para crear m literales distintas con lascuales se especializará una cláusula ϕ.global. Se realiza una búsqueda global, de la mejor combinación numérica de argumentos de una literall, con un GA. Para una literal l, sus argumentos numéricos se pueden ver como una cadena de valores realesk 1 , . . . , k n , la cual es convertida a una cadena binaria para representar un cromosoma. La función de aptitudse basa en la ganancia de información. Los operadores de cruzamiento y de mutación son los estándarespara un GA, pero adaptados para que ningún valor numérico quede fuera del rango definido en la función demembresía correspondiente. El GA devuelve la mejor combinación numérica posible con la cual se forma laliteral que especializará a alguna cláusula.ECL-LUD o Clu-ClonEl sistema Evolutionary Concept Learning with Local Unsupervised Discretization (ECL-LUD) [11] ó Clusteringand Constraint (Clu-Clon) [9] extiende a ECL, el cual está basado en los algoritmos genéticos [10].En ECL cada cláusula C representa a un cromosoma, y cada literal de C es un gen. Por ejemplo lacláusula p (X, Y ) ← r (X, Z) , q (Y, a) representa un cromosoma con 3 genes: | p, X, Y | r, X, Z | q, Y, a |.Si la literal q, que será añadida para especializar una cláusula, contiene algún argumento numérico X,entonces se agrega además una desigualdad a ≤ X ≤ a, donde a es el valor numérico correspondiente.

3. Revisión de métodos 11Para modificar los valores de cada desigualdad, y encontrar los mejores intervalos, se han definido cincooperadores de mutación, los cuales utilizan información de la distribución de los valores de cada conjuntonumérico. Esta información es obtenida al ejecutar a priori el algoritmo de agrupamiento Expectation-Maximization - EM [8]. Este algoritmo devuelve n clusters descritos por una media µ i y una desviaciónestándar σ i , donde 1 ≤ i ≤ n.Si especializar una cláusula cambiando una variable X por una constante, y X ocurre en una desigualdada ≤ X ≤ b, entonces se pueden aplicar los operadores: shrink, este operador reduce el intervalo definido[a..b]; ground, este operador devuelve un solo punto a ≤ X ≤ a. Para generalizar una cláusula se define eloperador enlarge, el cual crece el intervalo de la desigualdad elegida.Los otros dos operadores, se aplican con una probabilidad pc = 0.2: shift, al aplicar este operador a unintervalo I = a ≤ X ≤ b, devuelve I ′ = a ′ ≤ X ≤ b ′ , donde a ′ , b ′ se encuentran en el mismo cluster quea, b, pero además P (a ′ ≤ X ≤ b ′ ) = P (a ≤ X ≤ b). El último operador es change cluster, cuando estese aplica a un intervalo I = a ≤ X ≤ b, devuelve I ′ = ′ a ≤ X ≤ b ′ , donde a ′ , b ′ pertenecen a un clusterdiferente a a, b.ECL-LSDf and ECL-LSDcEn el algoritmo de la sección anterior, la desigualdad inicial que se añade junto con la literal correspondientees de la forma a ≤ X ≤ b, donde a, b ∈ X y a = b con X como atributo numérico. En [11] presentan dosvariantes para inicializar los valores iniciales de las desigualdades añadidas.Por un lado en el método ECL with Local Supervised Discretization with Fine grain initialization o ECL-LSDf, los valores a, b son llamados boundary points y cada uno se encuentra entre dos valores consecutivosdel atributo numérico X. Se tienen tres tipos: negativo si el valor está entre dos ejemplos negativos, positivosi se encuentra entre dos ejemplos positivos, y mixed si está entre uno negativo y uno positivo. Al conjuntode boundary points se le denota BP(X).Por otro lado el método ECL with Local Discretization with Coarse grain initialization o ECL-LSDc, losvalores a, b son llamados puntos de discretización y son obtenidos al discretizar el rango numérico de X conel algoritmo MDLP. Este conjunto ordenado de puntos es denotado DP(X).Estos dos métodos, a diferencia de ECL-LUD, toman en cuenta la información de clase del conjunto deejemplos.3.4 TransformacionesYa que la mayoría de los sistemas proposicionales pueden manejar datos numéricos, otra estrategia paramanejar este tipo de datos es transformar un problema relacional a su equivalente proposicional. Despuésresolver este con algún sistema proposicional, y la hipótesis obtenida convertirla a su equivalente relacional.Algunas de estas estrategias se describen en esta sección.ProposicionalizaciónLINUS [21], es un sistema que permite transformar un problema relacional a un formato proposicional.De esta manera un aprendiz proposicional podrá manejar problemas difíciles o imposibles de superar conun sistema relacional. LINUS es usado con problemas relacionales planteados con cláusulas DeductiveHierarchical DataBases - DHDB.

3. Revisión de métodos 12En el proceso seguido por LINUS, primero se transforma un problema relacional a un formato proposicional.Después un aprendiz proposicional obtiene, a partir de los datos transformados, una hipótesis IF-THEN. Algunos aprendices utilizados son:ASSISTANT [15], NEWGEM [16], y CN2 [7]. En nuestro casoeste paso es fundamental, ya que la elección de un aprendiz adecuado, determinará el buen manejo de valorescategóricos y/o numéricos. Por último la hipótesis proposicional es transformada a su equivalente relacional.3.5 Comparación de métodosEn la tabla 3.1 presentamos una comparación abreviada de los métodos revisados.Sistema ILP Global/Local Uni/Multi var. Supervisado/no CategóricoINDUBI/CSL Local Univariable Supervisado XTILDE Global Univariable Supervisado XICL Global Univariable Supervisado XECL-GSD Global Univariable Supervisado XNUM Local Multivariable∗ No XSIA01 Local Univariable Supervisado ̌SMART+ Local Multivariable∗ Supervisado XECL-LUD Local Multivariable∗ No XECL-LSDf Local Multivariable∗ Supervisado XECL-LSDc Local Multivariable∗ Supervisado XLINUS Depende método Depende método Depende método Depende métodoAMILP Global Univariable Supervisado ̌De esta comparación observamos lo siguiente:Tabla 3.1: Comparación de métodos• El único algoritmo de discretización utilizado en algunos sistemas ILP es el llamado Minimum DescriptionLength Principle - MDLP. Dicho algoritmo es del año 1993, por lo que creemos necesario laaplicación de algoritmos mucho más recientes.• Sólo uno de los métodos revisados (además del trabajo realizado en la maestría) maneja atributoscategóricos, aunque ese proceso es aleatorio y sin un análisis que justifique los valores elegidos paracrear nuevas cláusulas.• Casi todos los métodos de discretización multivariable implementados en algunos sistemas ILP, norealizan un análisis que determine la interdependencia que puede existir entre dos o más atributos.El único algoritmo que encontramos que puede identificar dichas interdependencias es el algoritmoNUM. Sin embargo en este último sistema el usuario debe tener conocimiento sobre la forma de cadainterdependencia y predefinirla como una ecuación o inecuación. Esto representa una limitación parausuarios no expertos.• Por otro lado la implementación de los métodos revisados no está basada en la arquitectura de unsistema modificable y modular. Es decir que no es fácil añadir nuevos métodos de discretización para

3. Revisión de métodos 13analizar su efecto sobre el proceso de aprendizaje. En general no es fácil añadir nuevos métodos depreprocesamiento de datos, ya sean para manejar datos incompletos, inconsistentes o con ruido.Tomando en cuenta lo anterior en el siguiente capítulo presentamos los objetivos planteados para esteproyecto de investigación y la metodología a seguir.

Capítulo 4PropuestaA continuación presentamos los objetivos que se desprenden de las observaciones realizadas anteriormente,y la metodología que proponemos para alcanzar estos objetivos.4.1 Objetivos4.1.1 Objetivo principalIdentificar los métodos de discretización/agrupamiento (para atributos numéricos, categóricos y multivariables)que mejoren en mayor medida el rendimiento de los sistemas ILP (menor tiempo de aprendizaje), y lacalidad de las teorías inducidas (menor número de reglas, igual o mayor precisión 1 ).4.1.2 Objetivos particulares• Implementar un sistema ILP, escalable y modificable, que permita la adaptación de métodos de discretización/agrupamientode manera local, en el operador de refinamiento, y de manera global.• Investigar y recopilar los métodos de discretización/agrupamiento más actuales y adaptarlos al sistemaILP implementado.• Analizar un conjunto de bases de datos (principalmente del repositorio UCI machine learning repository[13]) con el sistema ILP sin los métodos de discretización/agrupamiento, y posteriormente conellos.• Comparar el rendimiento del sistema ILP, y la calidad de las teorías inducidas antes y después deañadir los métodos adaptados.• Determinar los métodos de discretización/agrupamiento, y las condiciones en que son aplicados, quepermitan un mayor rendimiento del sistema, y que induzcan las mejores teorías.4.2 MetodologíaPara alcanzar los objetivos planteados detallamos la metodología a seguir en la siguiente estructura.• Proyecto1 Resultados experimentales demuestran que el cambio de representación datos continuos a discretos (discretización), casi nuncaresulta en pérdida de precisión (algunas veces la mejora) pero si disminuye considerablemente el tiempo de aprendizaje [6].14

4. Propuesta 15– A. Sistema ILP∗ A.1 Diseño (Atributte Driven Desing - ADD).∗ A.2 Implementación.∗ A.3 Pruebas.– B. Métodos de discretización/agrupamiento.∗ B.1 Investigación y recopilación.∗ B.2 Propuesta de adaptación al sistema ILP.∗ B.3 Implementación y adición al sistema ILP.∗ B.4 Pruebas y análisis.∗ B.5 Resultados.– C. Disertación de tesis∗ C.1 Preparación de documento de tesis∗ C.2 Revisión (asesor).∗ C.3 Revisión (sinodales).∗ C.4 Preparación de disertación.∗ C.5 Presentación de disertación pública.– D. Artículos∗ D.1 Artículo 1.∗ D.2 Artículo 2.En la figura 4.1 se muestra el calendario propuesto.Figura 4.1: Calendario de actividades4.3 Resultados esperadosTomando en cuenta los objetivos planteados, al finalizar el proyecto las teorías creadas para cada base dedatos analizada debe tener en promedio un menor número de cláusulas en comparación con las teoríasconstruidas sin utilizar los métodos de discretización o agrupamiento. También debe haber una reduccióndel tiempo de aprendizaje, manteniendo al menos la precisión de las teorías construidas. Idealmente en esteúltimo caso la precisión podría mejorar.

4. Propuesta 164.4 Avances hasta el momentoLos avances que se tienen actualmente son:• Revisión de la literatura de los métodos ILP que implementan estrategias de manejo de atributosnuméricos y categóricos.• Escritura de dos artículos sobre la revisión de los métodos mencionados en el punto anterior.• Revisión de la literatura sobre métodos de discretización.

Referencias[1] S. ANTHONY AND A. M. FRISCH, Generating numerical literals during refinement, in Inductive LogicProgramming: 7th International Workshop, ILP-97, Springer Verlag, 1997, pp. 61–76.[2] S. AUGIER, G. VENTURINI, AND Y. KODRATOFF, Learning first order logic rules with a geneticalgorithm, in in Proc. 1st Int. Conf. on Knowledge Discovery and Data Mining, AAAI Press, 1995,pp. 21–26.[3] H. BLOCKEEL AND L. D. RAEDT, Lookahead and discretization in ilp, in In Proceedings of the 7thInternational Workshop on Inductive Logic Programming, Springer-Verlag, 1997, pp. 77–85.[4] , Top-down induction of logical decision trees, in Artificial Intelligence, 1998.[5] M. BOTTA AND A. GIORDANA, Smart+: A multi-strategy learning tool, in IJCAI, 1993, pp. 937–945.[6] J. CATLETT, On changing continuous attributes into ordered discrete attributes, in Proceedings of theEuropean working session on learning on Machine learning, New York, NY, USA, 1991, Springer-Verlag New York, Inc., pp. 164–178.[7] P. CLARK AND T. NIBLETT, The cn2 induction algorithm, in MACHINE LEARNING, 1989, pp. 261–283.[8] A. P. DEMPSTER, N. M. LAIRD, AND D. B. RUBIN, Maximum likelihood from incomplete datavia the em algorithm, JOURNAL OF THE ROYAL STATISTICAL SOCIETY, SERIES B, 39 (1977),pp. 1–38.[9] F. DIVINA, M. KEIJZER, AND E. MARCHIORI, A method for handling numerical attributes in gabasedinductive concept learners, in Proceedings of the 2003 international conference on Genetic andevolutionary computation: PartI, GECCO’03, Berlin, Heidelberg, 2003, Springer-Verlag, pp. 898–908.[10] F. DIVINA AND E. MARCHIORI, Evolutionary concept learning, in GECCO 2002: Proceedings of theGenetic and Evolutionary Computation Conference, W. B. Langdon, E. Cantú-Paz, K. Mathias, R. Roy,D. Davis, R. Poli, K. Balakrishnan, V. Honavar, G. Rudolph, J. Wegener, L. Bull, M. A. Potter, A. C.Schultz, J. F. Miller, E. Burke, and N. Jonoska, eds., New York, 9-13 July 2002, Morgan KaufmannPublishers, pp. 343–350.[11] , Handling continuous attributes in an evolutionary inductive learner, IEEE Transactions on EvolutionaryComputation, 9 (2005), pp. 31–43.17

REFERENCIAS 18[12] U. M. FAYYAD AND K. B. IRANI, Multi-interval discretization of continuous-valued attributes forclassification learning, in IJCAI, 1993, pp. 1022–1029.[13] A. FRANK AND A. ASUNCION, UCI machine learning repository, 2010. http://archive.ics.uci.edu/ml.[14] J. H. HOLLAND, Adaptation in Natural and Artificial Systems, The University of Michigan Press,1975.[15] E. B. HUNT, Experiments in induction, Academic Press, New York, 1966.[16] M. I, Newgem: Program for learning from examples technical documentation and user’s guide., tech.report, Department of Computer Science, University of Illinois, Urbana Champaign, IL, 1985.[17] J. JAFFAR AND J.-L. LASSEZ, Constraint logic programming, in POPL, 1987, pp. 111–119.[18] H. KIM AND W.-Y. LOH, Classification trees with unbiased multiway splits, Journal of the AmericanStatistical Association, (2001), pp. 589–604.[19] W. V. LAER, S. DZEROSKI, AND L. D. RAEDT, Multi-class problems and discretization in icl (extendedabstract), in In Proceedings of the MLnet Familiarization Workshop on Data Mining with InductiveLogic Programming (ILP for KDD, 1996, pp. 53–60.[20] W. V. LAER, L. D. RAEDT, AND S. DZEROSKI, On multi-class problems and discretization in inductivelogic programming, in Proceedings of the 10th International Symposium on Foundations ofIntelligent Systems, ISMIS ’97, London, UK, 1997, Springer-Verlag, pp. 277–286.[21] N. LAVRAC, S. DZEROSKI, AND M. GROBELNIK, Learning nonrecursive definitions of relations withlinus, in Proceedings of the European Working Session on Machine Learning, EWSL ’91, London,UK, UK, 1991, Springer-Verlag, pp. 265–281.[22] W.-Y. LOH AND Y.-S. SHIH, Split selection methods for classification trees, Statistica Sinica, (1997),pp. 815–840.[23] D. MALERBA, F. ESPOSITO, G. SEMERARO, AND S. CAGGESE, Handling continuous data in topdowninduction of first-order rules, in AI*IA, 1997, pp. 24–35.[24] S. MUGGLETON AND L. D. RAEDT, Inductive logic programming: Theory and methods, Journal ofLogic Programming, 19/20 (1994), pp. 629–679.[25] J. R. QUINLAN, Learning logical definitions from relations, Machine Learning, 5 (1990), pp. 239–266.[26] A. SRINIVASAN, The Aleph Manual, 2004. http://www.comlab.ox.ac.uk/activities/machinelearning/Aleph/.

Apéndice ALógica de Primer OrdenA continuación presentamos los conceptos más importantes del lenguaje utilizado en la lógica de primerorden. El alfabeto de este lenguaje se compone de:• Conjunto de constantes: a, b, c, . . . , rojo, 34.5, 17. También llamado término. Cada constante estarárepresentada por una cadena alfanumérica cuyo primer carácter es una letra minúscula, o por unnúmero real.• Conjunto de variables: A, B, . . .. También llamado término. Cada variable estará representada poruna cadena alfanumérica cuyo primer carácter es una letra mayúscula.• Conjunto de símbolos de función: f, g, . . ..• Conjunto no vacío de símbolos de predicado: padre (juan, maria). También llamado término.• Conjunto de conectivos lógicos: ¬, ∧, ∨, →, ↔• Dos cuantificadores: ∃(existencial), ∀ (universal)• Símbolos de puntuación: (, ) , . . .A partir del alfabeto anterior se construyen fórmulas bien formadas ó fbf.• Las fbf más pequeñas que se pueden formar son los átomo, construidos con un sólo predicado, p.e.p (X, Y ). También son llamados literales.• La negación de un átomo también es una fórmula: ¬p (X, Y ). Llamada literal.• Si φ y ϕ son fórmulas, entonces φ ∧ ϕ, φ ∨ ϕ, φ → ϕ y φ ↔ ϕ son fórmulas.• Si X es una variable y φ es una fórmula, entonces X∃φ y X∀φ son fórmulas.• Una cláusula es una disyunción de literales, por ejemplo:(L 1 ∨ L 2 ∨ .... ∨ ¬L 1 ∨ ¬L 2 ∨ ...) ≡(L 1 , L 2 , ..., ¬L 1 , ¬L 2 ) ≡L 1 ∧ L 2 ∧ ... ∧ L n → L 1 ∨ L 2 ∨ ... ∨ L n19

A. Lógica de Primer Orden 20• El conjunto de literales positivas es llamado la cabeza de la cláusula y el conjunto de literales negativases llamado el cuerpo de la cláusula, por ejemplo:Sea la cláusula T = (¬L 1 ∨ ¬L 2 ∨ L 3 ∨ L 4 ) entoncespodemos re-escribirla como: T = (L 1 ∧ L 2 → L 3 ∨ L 4 ), y:{L 1 , L 2 } es la cabeza y {L 3 , L 4 } es el cuerpo de la cláusula.• Una cláusula es de programa cuando sólo tiene una literal positiva.T 1 = ¬p (X) ∨ ¬ (a, Y ) ∨ r (Y, Z) ≡ p (X) ∧ (a, Y ) → r (Y, Z) ≡ r (Y, Z) ← p (X) ∧ (a, Y).T 2 = (¬L 1 ∨ ¬L 2 ∨ ... ∨ ¬L n−1 ∨ L n ) ≡ L 1 ∧L 2 ∧...∧L n−1 → L n ≡ L n ← L 1 ∧ L 2 ∧ ... ∧ L n−1En este documento utilizamos la notación presentada en letra negrita, donde apreciamos la flecha de implicación hacia la izquierda.Se tienen dos tipos de cláusulas de programaSi tiene una o más literales negativas se le llama regla.– madre (X, Y ) ← mujer (X) ∧ progenitor (X, Y ) .Si no tiene cuerpo o literales negativas se le llama hecho.– madre (maria, juan) .• Un Programa Lógico es un conjunto de cláusulas de programa.• Sea un θ = {v 1 /t 1 , ..., v n /t n }. Decimos que θ es una substitución cuando cada v i es una variable ycada t i es un término.• Una substitución que hace que dos átomos sean iguales se conoce como unificador, por ejemplo:La substitución θ = {X/f (A) , Y/g (u) , Z/a} es un unificador para las literales: L 1 ≡ R (X, g (u))y L 2 ≡ R (f (z) , Y ) ya que L 1 θ ≡ L 2 θ

enriquecimiento del conocimiento previo en programaciÃ³n lÃ³gica ...

Create successful ePaper yourself

Delete template?

Save as template?