Inteligencia Artificial e Ingeniería del Conocimiento

Inteligencia Artificial e Ingeniería 

del Conocimiento 

Félix Gómez Mármol 

4 o Ingeniería Informática

Índice general 

I Inteligencia Artificial 7 

1. Resolución de Problemas 9 

1.1. Estrategias de búsqueda en grafos: heurísticas . . . . . . . . . . . . . . . . . . 9 

1.1.1. Búsqueda primero el mejor . . . . . . . . . . . . . . . . . . . . . . . . 10 

1.1.2. Búsqueda A* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.1.3. Búsqueda con memoria acotada . . . . . . . . . . . . . . . . . . . . . . 14 

1.2. Estrategias de Búsqueda en Grafos YO: Heurísticas . . . . . . . . . . . . . . . 16 

1.2.1. Características de las funciones de evaluación para grafos YO . . . . . 18 

1.2.2. Búsqueda mejor nodo para grafos YO . . . . . . . . . . . . . . . . . . 19 

1.3. Funciones Heurísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

1.3.1. Efecto de la precisión heurística en el rendimiento . . . . . . . . . . . 23 

1.3.2. Inventando funciones heurísticas . . . . . . . . . . . . . . . . . . . . . 24 

1.4. Estrategias de Búsqueda Local y Problemas de Optimización . . . . . . . . . 25 

1.4.1. Búsqueda de ascensión de colinas (mejor avara) . . . . . . . . . . . . . 25 

1.4.2. Búsqueda tabú . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

1.4.3. Búsqueda por haz local . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

1.4.4. Algoritmo genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

1.5. Estrategias de Búsqueda Online . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

1.6. Estrategias en adversarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

1.6.1. Juegos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

1.6.2. Decisiones en tiempo real imperfectas . . . . . . . . . . . . . . . . . . 35 

1.6.3. Juegos que incluyen un elemento de posibilidad . . . . . . . . . . . . . 36 

2. Representación del Conocimiento. Razonamiento 37 

2.1. Representación del Conocimiento mediante Lógicas no Clásicas . . . . . . . . 37 

2.1.1. Lógicas no monótonas . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

2.1.2. Lógica de situaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

2.1.3. Lógica difusa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

2.2. Representación y Razonamiento con Incertidumbre . . . . . . . . . . . . . . . 40 

2.2.1. Representación y fuentes de incertidumbre . . . . . . . . . . . . . . . . 40 

2.2.2. Teoría de Dempster-Shafer de la evidencia . . . . . . . . . . . . . . . . 41 

2.3. Representaciones Estructuradas del Conocimiento . . . . . . . . . . . . . . . . 45 

2.3.1. Redes Semánticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

2.3.2. Marcos o Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

2.3.3. Guiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

3. Planificar para la Resolución de Problemas 53 

3.1. Planificación y Resolución de Problemas . . . . . . . . . . . . . . . . . . . . . 53 

3.1.1. El problema de la planificación . . . . . . . . . . . . . . . . . . . . . . 53 

3.1.2. Tipos de planificadores, estados y operadores . . . . . . . . . . . . . . 54 

3.1.3. Métodos de planificación . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

3

4 ÍNDICE GENERAL 

3.2. Planificación de Orden Total . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

3.2.1. Planificación usando una pila de objetivos (STRIPS) . . . . . . . . . . 56 

3.2.2. STRIP con protección de objetivos (RSTRIP) . . . . . . . . . . . . . . 59 

3.3. Planificación Ordenada Parcialmente . . . . . . . . . . . . . . . . . . . . . . . 60 

3.3.1. Planificación no lineal sistemática (PNLS) . . . . . . . . . . . . . . . . 61 

3.4. Planificación Jerárquica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

4. El Aprendizaje Computacional 63 

4.1. El Problema del Aprendizaje Computacional . . . . . . . . . . . . . . . . . . 63 

4.2. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

4.2.1. Tipos, fases y características del aprendizaje . . . . . . . . . . . . . . 63 

4.2.2. Estimación del error . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

5. Aprendizaje por Inducción en Modo Estructural 67 

5.1. Programa de aprendizaje de Winston . . . . . . . . . . . . . . . . . . . . . . . 67 

5.1.1. Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

5.1.2. Especialización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

5.2. Espacio de versiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

6. Aprendizaje Basado en Instancias 73 

6.1. Convergencia de los Métodos Basados en Instancias . . . . . . . . . . . . . . . 73 

6.2. Aprendizaje mediante k M vecinos . . . . . . . . . . . . . . . . . . . . . . . . . 74 

6.3. Aprendizaje mediante el método de Parzen . . . . . . . . . . . . . . . . . . . 75 

6.4. Mejora de los métodos basados en instancias . . . . . . . . . . . . . . . . . . 75 

6.4.1. Multiedición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

6.4.2. Condensación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

6.5. Funciones Distancia Heterogéneas . . . . . . . . . . . . . . . . . . . . . . . . . 78 

6.5.1. Normalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

6.5.2. Discretización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

6.5.3. Distintas métricas para el cálculo de distancias . . . . . . . . . . . . . 79 

7. Máquinas de Aprendizaje 81 

7.1. El Perceptrón como Discriminante Lineal . . . . . . . . . . . . . . . . . . . . 81 

7.1.1. Criterio y construcción del perceptrón . . . . . . . . . . . . . . . . . . 82 

7.2. Redes de Perceptrones Multicapa . . . . . . . . . . . . . . . . . . . . . . . . . 82 

7.3. Árboles de Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 

7.4. Árboles de Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 

8. Aprendizaje por Descubrimiento 87 

8.1. Clustering o Agrupamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

8.1.1. Algoritmo de k-medias . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 

8.1.2. Mapas autoasociativos de Kohonen . . . . . . . . . . . . . . . . . . . . 88 

II Ingeniería del Conocimiento 91 

9. Principios de la Ingeniería del Conocimiento 93 

10.La Adquisición del Conocimiento 95

Índice de figuras 

1.1. Grafo de mapa de carreteras . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

1.2. Búsqueda Primero Mejor Avaro . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

1.3. Búsqueda A* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.4. Función heurística e-admisible . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

1.5. Búsqueda Primero el Mejor Recursiva . . . . . . . . . . . . . . . . . . . . . . 15 

1.6. Búsqueda A* con memoria acotada simplificada (A*MS) . . . . . . . . . . . . 15 

1.7. Árbol YO con la profundidad de cada nodo . . . . . . . . . . . . . . . . . . . 16 

1.8. Árbol YO no puro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

1.9. Hipergrafo o grafo YO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

1.10. Soluciones del Hipergrafo de la figura 1.9 . . . . . . . . . . . . . . . . . . . . 17 

1.11. Ejemplo de búsqueda del grafo solución óptimo . . . . . . . . . . . . . . . . . 18 

1.12. Grafo YO con h(n) no monótona . . . . . . . . . . . . . . . . . . . . . . . . . 19 

1.13. Solución al grafo de la figura 1.12 propagando por conectores marcados . . . 21 

1.14. Solución al grafo de la figura 1.12 propagando por todos los antecesores . . . 21 

1.15. Grafo YO con h(n) monótona . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

1.16. Solución al grafo de la figura 1.15 propagando por conectores marcados . . . 22 

1.17. Grafo YO con varias soluciones con distintos costos . . . . . . . . . . . . . . . 22 

1.18. Soluciones al Grafo YO de la figura 1.17 . . . . . . . . . . . . . . . . . . . . . 23 

1.19. Función admisible h = max(h 1 , h 2 , h 3 ) ≤ h ∗ . . . . . . . . . . . . . . . . . . . 25 

1.20. Función Objetivo vs Espacio de Estados . . . . . . . . . . . . . . . . . . . . . 25 

1.21. Juego de las 3 en raya . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

1.22. Estados terminales en el juego de las 3 en raya . . . . . . . . . . . . . . . . . 34 

1.23. Estrategia MiniMax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

1.24. Ejemplo de juego con 3 jugadores . . . . . . . . . . . . . . . . . . . . . . . . . 34 

1.25. Poda alfa-beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

1.26. Juego de las 3 en raya con profundidad limitada . . . . . . . . . . . . . . . . 35 

1.27. Ejemplo de estrategia MiniMax Esperada . . . . . . . . . . . . . . . . . . . . 36 

2.1. Ejemplo de lógica de situaciones . . . . . . . . . . . . . . . . . . . . . . . . . 38 

2.2. Función de pertenencia continua ser joven . . . . . . . . . . . . . . . . . . . 38 

2.3. Funciones de pertenencia µ A y µ NO A . . . . . . . . . . . . . . . . . . . . . . 38 

2.4. Función de pertenencia discreta ser joven . . . . . . . . . . . . . . . . . . . . 39 

2.5. Operadores de Zadeh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

2.6. Extensión Cilíndrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

2.7. Ejemplo de Red Semántica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

2.8. Ejemplo de regla en una Red Semántica . . . . . . . . . . . . . . . . . . . . . 46 

2.9. Ejemplo de Red Semántica con un hecho y una regla . . . . . . . . . . . . . . 46 

2.10. Ejemplo de reglas que relacionan elementos temporales . . . . . . . . . . . . . 47 

2.11. Ejemplo de inferencia en redes semánticas (1) . . . . . . . . . . . . . . . . . . 47 



5

6 ÍNDICE DE FIGURAS 

2.14. Ejemplo de frame “Empleado” y “Padre de Familia” . . . . . . . . . . . . . . 48 

2.15. Ejemplo de jerarquía de frames . . . . . . . . . . . . . . . . . . . . . . . . . . 49 

3.1. Ejemplo de planificación no lineal . . . . . . . . . . . . . . . . . . . . . . . . . 60 

3.2. Operador MOVER(X,Y,Z) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

3.3. Ejemplo de planificación no lineal sistemática . . . . . . . . . . . . . . . . . . 62 

4.1. Fases del aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

5.1. Ejemplos de la base de entrenamiento. Generalización . . . . . . . . . . . . . 68 

5.2. Ejemplos de la base de entrenamiento. Especialización (1) . . . . . . . . . . . 68 

5.3. Ejemplos de la base de entrenamiento. Especialización (2) . . . . . . . . . . . 69 

5.4. Ejemplo de aprendizaje del concepto “arco” . . . . . . . . . . . . . . . . . . . 71 

5.5. Frame Coche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 

6.1. Fases del aprendizaje basado en instancias . . . . . . . . . . . . . . . . . . . . 73 

6.2. Aprendizaje basado en k-vecinos . . . . . . . . . . . . . . . . . . . . . . . . . 74 

6.3. Aprendizaje basado en Parzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 

6.4. Multiedición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 

6.5. Base de ejemplos particionada . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

6.6. Base de ejemplos particionada y parcialmente multieditada . . . . . . . . . . 77 

6.7. Condensación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

6.8. Discretización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

7.1. Esquema de un Perceptrón . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

7.2. Ejemplo de clases linealmente separables . . . . . . . . . . . . . . . . . . . . . 81 

7.3. Ejemplo de clases NO linealmente separables . . . . . . . . . . . . . . . . . . 82 

7.4. Ejemplo de perceptrón multicapa . . . . . . . . . . . . . . . . . . . . . . . . . 83 

7.5. Estructura de un perceptrón multicapa . . . . . . . . . . . . . . . . . . . . . . 83 

7.6. Ejemplo de árbol de clasificación . . . . . . . . . . . . . . . . . . . . . . . . . 84 

7.7. Ejemplo de poda por estimación del error . . . . . . . . . . . . . . . . . . . . 85 

8.1. Mapa autoasociativo de Kohonen . . . . . . . . . . . . . . . . . . . . . . . . . 88

Parte I 

Inteligencia Artificial 

7

Capítulo 1 

Resolución de Problemas 

función BÚSQUEDA-ÁRBOLES(problema,frontera) devuelve una solución o fallo 

frontera ← INSERTA(HACER-NODO(ESTADO-INICIAL[problema]),frontera) 

hacer 

si VACIA(frontera) entonces devolver fallo 

nodo ← BORRAR-PRIMERO(frontera) 

si TEST-OBJETIVO[problema] aplicado al ESTADO[nodo] es cierto 

entonces devolver SOLUCION(nodo) 

frontera ← INSERTA-TODO(EXPANDIR(nodo,problema),frontera) 

Function BÚSQUEDA-ÁRBOLES(problema,frontera) 

función EXPANDIR(nodo,problema) devuelve un conjunto de nodos 

sucesores ← conjunto vacío 

para cada (acción, resultado) en SUCESOR[problema](ESTADO[nodo]) hacer 

s ← un nuevo NODO 

ESTADO[s] ← resultado 

NODO-PADRE[s] ← nodo 

ACCIÓN[s] ← acción 

COSTO-CAMINO[s] ← 

COSTO-CAMINO[nodo]+COSTO-INDIVIDUAL(nodo,acción,s) 

PROFUNDIDAD[s] ← PROFUNDIDAD[nodo] + 1 

añadir s a sucesores 

devolver sucesores 

Function EXPANDIR(nodo,problema) 

1.1. Estrategias de búsqueda en grafos: heurísticas 

Definición 1.1 Llamaremos estado a la configuración del problema en un momento determinado. 

Definición 1.2 Llamaremos nodo al conjunto formado por el estado del problema, el padre 

del nodo, la profundidad del mismo, el coste asociado con él y la acción que lo produjo. 

Definición 1.3 Llamaremos conjunto de cerrados al conjunto de nodos que ya han sido 

estudiados. 

9

10 Capítulo 1. Resolución de Problemas 

función BÚSQUEDA-GRAFOS(problema,frontera) devuelve una solución o fallo 

cerrado ← conjunto vacío 

frontera ← INSERTA(HACER-NODO(ESTADO-INICIAL[problema]),frontera) 

hacer 

si VACIA(frontera) entonces devolver fallo 

nodo ← BORRAR-PRIMERO(frontera) 

si TEST-OBJETIVO[problema](ESTADO[nodo]) es cierto 

entonces devolver SOLUCION(nodo) 

si ESTADO[nodo] no está en cerrado entonces 

añadir ESTADO[nodo] a cerrado 

frontera ← INSERTA-TODO(EXPANDIR(nodo,problema),frontera) 

Function BÚSQUEDA-GRAFOS(problema,frontera) 

Definición 1.4 Llamaremos conjunto de abiertos o frontera al conjunto de nodos que 

han sido expandidos, pero que aún no han sido estudiados. 

En árboles no existen nodos repetidos y es por esto que no existe el conjunto de cerrados, 

ni se comprueba este hecho. En grafos, sin embargo, si a un nodo se llega por varios caminos, 

nos quedamos siempre con un solo nodo: el mejor. 

Los nodos internos de una estructura de árbol expandido 1 pertenecen siempre a cerrados, 

mientras que las hojas pertenecen a la frontera (salvo aquellas hojas que no son solución, las 

cuales también estarán en el conjunto de cerrados). 

1.1.1. Búsqueda primero el mejor 

Para añadir información heurística, ordenamos la frontera según una función f(n) 2 que 

mide el costo necesario para llegar hasta la solución. Así, en cada paso del algoritmo, tomamos 

el primer nodo de la lista (aquel que menor valor de f tenga). 

Esta función f(n) se compone total o parcialmente de otra función h(n) (llamada función 

heurística), que siempre cumple que h(objetivo) = 0. Además, dicha función f(n) se va 

adaptando según se resuelve el problema (la función de costo uniforme, por ejemplo, no). 

Las estrategias de búsqueda vistas en cursos anteriores (profundidad, anchura, costo uniforme, 

etc.) no son más que un caso particular de la Búsqueda Primero el Mejor. 

Definición 1.5 Diremos que un algoritmo es completo si siempre devuelve una solución, 

cuando ésta existe. 

Definición 1.6 Diremos que un algoritmo es admisible si siempre devuelve una solución 

óptima, cuando ésta existe. 

Definición 1.7 Llamaremos función heurística a aquella función h que cumple que 

h(n) ≤ h ∗ (n), 

∀ n 

(siendo h ∗ la función heurística óptima y h una estimación). 

Nota.- Nosotros vamos a suponer que la expansión de un nodo es siempre completa 

y que la información heurística “sólo” sirve para decidir qué nodo (de entre 

los expandidos) debemos estudiar. 

1 El árbol que resulta de expandir un grafo 

2 Donde n representa a un nodo cualquiera

1.1 Estrategias de búsqueda en grafos: heurísticas 11 

Búsqueda Primero el Mejor Avaro 

Para este tipo de búsqueda la función f se define como 

f(n) = h(n), 

Ejemplo 1.1 Sea el grafo de la figura 1.1 que representa un mapa de carreteras entre ciudades. 

Nuestro objetivo es buscar el mejor camino entre la ciudad A y la ciudad B. 

∀ n 

Figura 1.1: Grafo de mapa de carreteras 

Para ello tomamos como función heurística la distancia en línea recta desde un nodo en 

concreto hasta la solución. A continuación se observan los valores de h para cada nodo n: 

n h(n) n h(n) n h(n) n h(n) n h(n) 

A 366 B 0 C 160 D 242 E 161 

F 176 G 77 H 151 I 266 L 244 

M 241 N 234 O 380 P 100 R 193 

S 253 T 329 U 80 V 199 Z 374 

Esta función es claramente admisible, pues, por la propiedad triangular, se tiene que h(n) < 

a + b, siendo a y b dos lados cualesquiera que formen junto con h(n) un triángulo. Y, en el 

extremo, podría ocurrir que h(n) = h ∗ (n) (si existiera un camino directo entre A y B). 

En la figura 1.2 se muestra el árbol expandido correspondiente a aplicar la búsqueda primero 

el mejor avaro, así como la evolución de la frontera en cada paso del algoritmo. 

Figura 1.2: Búsqueda Primero Mejor Avaro 

Tras ver este ejemplo, podemos comprobar que la Búsqueda Primero el Mejor Avaro no es 

completa, pues podría entrar en un ciclo sin fin. Tampoco se trata de un algoritmo admisible.


1.1.2. Búsqueda A* 

La función heurística para este tipo de búsquedas se define como 

f(n) = g(n) + h(n), 

∀ n 

donde: 

g(n) es el costo real del camino recorrido hasta el nodo n. 

h(n) es una estimación del costo del camino desde el nodo n hasta el nodo objetivo. 

f(n) es una estimación del costo del camino desde el nodo inicial hasta el nodo objetivo, 

pasando por el nodo n. 

Una función f definida de esta manera es admisible, puesto que, por la componente g, 

se evita entrar en ciclos y se realiza una búsqueda en anchura. Así, una función f admisible 

hace que un algoritmo A sea admisible y completo. 

Ejemplo 1.2 Siguiendo el enunciado del ejemplo anterior, la figura 1.3 muestra ahora el 

árbol expandido resultado de aplicar el algoritmo A*, así como la evolución de la frontera en 

cada paso del algoritmo. 

Figura 1.3: Búsqueda A* 

Supongamos un nodo G, no óptimo, con h(G) = 0 y c ∗ solución óptima. Entonces se 

cumple que: 

f(G) = g(G) + h(G) = g(G) > c ∗ 

Supongamos ahora un nodo n, perteneciente al camino óptimo. Entonces tenemos lo 

siguiente: 

f(n) = g(n) + h(n) ≤ c ∗ y f(n) ≤ c ∗ < f(G) 

Por lo tanto, queda demostrado que el hecho de que f sea admisible implica que siempre 

se estudiará cualquier nodo del camino óptimo antes que otro nodo objetivo no óptimo (como 

ocurre en el ejemplo 1.2, en el que el nodo objetivo B no se estudia en cuanto aparece en la 

estructura, sino cuando realmente es solución óptima).


También podemos afirmar que si la función heurística es admisible y se trabaja con estructura 

de grafos, el primer nodo que entre en cerrados será siempre mejor que cualquier 

otro nodo igual que ése, que aparezca después de él. 

Sin embargo, determinar si h(n) ≤ h ∗ (n), ∀ n es un problema intratable; y por lo tanto 

definimos las dos siguientes propiedades sobre funciones heurísticas. 

Definición 1.8 Una función heurística se dice que es monótona si cumple que: 

h(n) ≤ c(n, a, n ′ ) + h(n ′ ), 

∀ n, n ′ sucesores inmediatos 

donde c(n, a, n ′ ) es el costo asociado a la acción a que hace pasar del nodo n al n ′ (sucesores 

inmediatos). 

Definición 1.9 Una función heurística se dice que es consistente si cumple que: 

h(n) ≤ K(n, n ′ ) + h(n ′ ), ∀ n, n ′ 

donde K(n, n ′ ) es el costo asociado al camino que une n y n ′ al aplicar una secuencia de 

acciones. 

Proposición 1.1 Una función heurística que sea o bien monótona, o bien consistente es una 

función admisible y, por tanto, con ellas se encuentra la solución óptima. 

Nota.- ¡Ojo! Estas propiedades, que son equivalentes entre sí, no se pueden 

comprobar si no se conoce la estructura del problema (árbol, grafo, árbol YO,...). 

En ocasiones será interesante obviar la condición de optimalidad y para ello, en vez de 

emplear funciones admisibles que cumplan h(n) ≤ h ∗ (n) ∀ n, emplearemos funciones e- 

admisibles que cumplan 

h(n) ≤ h ∗ (n) + e ∀ n 

Figura 1.4: Función heurística e-admisible 

Una función e-admisible proporciona soluciones e-óptimas (con las que se puede conocer 

el error cometido al encontrar una solución no óptima). 

Pero, como decíamos antes, h ∗ (n) es muy difícil de conocer y por ello hemos introducido 

las propiedades de monotonía y consistencia. 

h(n) h(n ′ ) + c(n, n ′ ) 

pero 

h(n) ≤ h(n ′ ) + c(n, n ′ ) + e


1.1.3. Búsqueda con memoria acotada 

La búsqueda A* sigue adoleciendo del problema de la explosión combinatoria (se generan 

nodos según una función exponencial), por lo que se consume rápidamente la memoria 

disponible. 

Búsqueda A* con profundidad iterativa (A*PI) 

En este algoritmo, cada iteración es una búsqueda primero en profundidad, igual que en 

cualquier búsqueda con profundidad iterativa. 

Sin embargo, la búsqueda primero en profundidad se modifica para que utilice un límite 

de costo f(n) en vez del tradicional límite de profundidad. 

De este modo en cada iteración se expanden todos los nodos que están dentro del contorno 

de f. 

Búsqueda Primero Mejor Recursiva (BPMR) 

función BÚSQUEDA-PRIMERO-MEJOR-RECURSIVA(problema) devuelve una 

solución o fallo 

BPMR(problema,HACER-NODO(ESTADO-INICIAL[problema]),∞) 

Function BÚSQUEDA-PRIMERO-MEJOR-RECURSIVA(problema) 

función BPMR(problema,nodo,f límite) devuelve solución o fallo y nuevo límite 

f-costo 

si TEST-OBJETIVO[problema](estado) entonces devolver nodo 

sucesores ← EXPANDIR(nodo,problema) 

si sucesores está vacío entonces devolver fallo,∞ 

para cada s en sucesores hacer 

f[s] ← max(g(s)+h(s),f[nodo]) 

repetir 

mejor ← el nodo con el f-valor más pequeño de sucesores 

si f[mejor] > f límite entonces devuelve fallo,f[mejor] 

alternativa ← el f-valor segundo más pequeño entre los sucesores 

resultado,f[mejor] ← BPMR(problema,mejor,min(f límite,alternativa)) 

si resultado ≠ fallo entonces devolver resultado 

Function BPMR(problema,nodo,f límite) 

Ejemplo 1.3 En la figura 1.5 se muestra el árbol expandido resultado de aplicar el algoritmo 

BÚSQUEDA-PRIMERO-MEJOR-RECURSIVA al ejemplo de siempre. 

La crítica a este método es que sólo emplea un número para representar la bondad de 

una rama. 

Búsqueda A* con memoria acotada simplificada (A*MS) 

Se ejecuta el algoritmo A* tal cual. Si la memoria se agota antes de encontrar la solución, 

se elimina el peor nodo según su función heurística y se introduce el nuevo. 

Ejemplo 1.4 En la figura 1.6 se muestra la evolución del árbol expandido resultado de aplicar 

el algoritmo de búsqueda A* con memoria acotada simplificada al ejemplo de siempre.


Figura 1.5: Búsqueda Primero el Mejor Recursiva 

Figura 1.6: Búsqueda A* con memoria acotada simplificada (A*MS)


1.2. Estrategias de Búsqueda en Grafos YO: Heurísticas 

Se dice que un problema es descomponible si se puede descomponer en un conjunto de 

subproblemas independientes más sencillos; y es en estos casos en los que una representación 

del problema por reducción es la más apropiada. 

Los árboles YO, empleados en la representación por reducción, son aquellos en los que 

cada nodo representa un subproblema simple (nodo O) o un conjunto de subproblemas a 

resolver (nodo Y). 

Un nodo que no se descompone o simplifica se llama nodo terminal. Un nodo terminal 

con solución se corresponde con un problema primitivo y se llama Primitiva. 

Si al aplicar un operador se produce un conjunto de subproblemas solución alternativos, 

entonces se genera un nodo O. Si por el contrario se produce un conjunto de subproblemas 

que deben ser resueltos necesariamente, entonces se produce un nodo Y. 

Un nodo de un árbol YO tiene solución (es resoluble) si se cumple alguna de las siguientes 

condiciones: 

1. Es un nodo primitiva 

2. Es un nodo no terminal de tipo Y y sus sucesores son todos resolubles. 

3. Es un nodo no terminal de tipo O y alguno de sus sucesores es resoluble. 

En un árbol YO puro cada nodo o bien es Y, o bien es O. 

Figura 1.7: Árbol YO con la profundidad de cada nodo 

Figura 1.8: Árbol YO no puro 

Trataremos los grafos YO como hipergrafos y los arcos como hiperarcos, conectores que 

conectan un nodo con varios nodos o k-conectores. 

Un hipergrafo que sólo contiene 1-conectores es un grafo ordinario. 

Con representación mediante estados se necesita conocer el estado inicial, los operadores 

y el estado final. Con representación mediante reducción, por otra parte, se necesita saber el 

nodo distinguido, los operadores y las primitivas. 

La solución en este tipo de problemas es un subgrafo que una el nodo distinguido con 

todos o algunos de los nodos primitiva. 

Supondremos, para simplificar, que el hipergrafo no tiene ciclos.

1.2 Estrategias de Búsqueda en Grafos YO: Heurísticas 17 

Figura 1.9: Hipergrafo o grafo YO 

Figura 1.10: Soluciones del Hipergrafo de la figura 1.9 

Definición 1.10 Vamos a designar como G ′ a un grafo solución desde el nodo n al conjunto 

N (conjunto de nodos primitiva) dentro de un grafo G. 

Si n es un elemento de N, G ′ consta sólo de n. 

En otro caso: 

• Si n tiene un k-conector que parte de él dirigido a los nodos n 1 , n 2 , . . . , n k tal que 

haya un grafo solución para cada n i hasta N, entonces G ′ consta: 

del nodo n, del k-conector, de los nodos n 1 , n 2 , . . . , n k más los grafos solución desde 

cada n i hasta N. 

• En otro caso, no hay grafo solución de n a N. 

Costo asociado al grafo solución de n a N: K(n, N) 

Si n es un elemento de N, K = 0 

En otro caso 

• Si n tiene un k-conector que parte de él dirigido a los nodos n 1 , n 2 , . . . , n k en el 

grafo solución entonces 

siendo c k el costo del k-conector. 

K(n, N) = c k + 

k∑ 

K(n i , N) 

i=1


Ejemplo 1.5 Si c k = k: 

Para la solución 1: 

K(n 0 , N) = 1 + K(n 1 , N) = 1 + 1 + K(n 3 , N) = 1 + 1 + 2 + K(n 5 , N) + K(n 6 , N) = 

1+1+2+2+K(n 7 , N)+K(n 8 , N)+2+K(n 7 , N)+K(n 8 , N) = 1+1+2+2+0+0+2+0+0 = 8 

Para la solución 2: 

K(n 0 , N) = 2 + K(n 4 , N) + K(n 5 , N) = 2 + 1 + K(n 5 , N) + 2 + K(n 7 , N) + K(n 8 , N) = 

2 + 1 + 2 + K(n 7 , N) + K(n 8 , N) + 2 + 0 + 0 = 2 + 1 + 2 + 0 + 0 + 2 + 0 + 0 = 7 

1.2.1. Características de las funciones de evaluación para grafos YO 

Llamaremos grafo solución óptimo a aquel grafo solución que tenga costo mínimo. Dicho 

costo está denotado por h ∗ (n), pero, como ya sabemos, este valor es muy difícil de conocer y 

por lo tanto tenemos que estimarlo. 

Para buscar en un grafo YO es necesario hacer tres cosas en cada paso: 

1. Atravesar el grafo empezando por el nodo inicial y siguiendo el mejor camino actual, 

acumulando el conjunto de nodos que van en ese camino y aún no se han expandido. 

2. Coger uno de estos nodos no expandidos y expandirlo. Añadir sus sucesores al grafo y 

calcular h para cada uno de ellos. 

3. Cambiar la h estimada del nodo recientemente expandido para reflejar la nueva información 

proporcionada por sus sucesores. Propagar este cambio hacia atrás a través del 

grafo. Para cada nodo que se visita mientras se va avanzando en el grafo, decidir cuál 

de sus conectores es más prometedor y marcarlo como parte del mejor grafo solución 

parcial actual. Esto puede hacer que dicho grafo solución parcial cambie. 

Ejemplo 1.6 En la figura 1.11 se muestra un ejemplo del proceso que acabamos de describir. 

Figura 1.11: Ejemplo de búsqueda del grafo solución óptimo 

Nota.- En los nodos Y es aconsejable estudiar primero aquellos sucesores con 

mayor valor de función heurística, pues si el nodo Y que estamos estudiando 

finalmente no pertenecerá al grafo solución óptimo, lo descartaremos antes de 

esta manera.


1.2.2. Búsqueda mejor nodo para grafos YO 

Proposición 1.2 Si h(n) es admisible (h(n) ≤ h ∗ (n), ∀ n) la solución encontrada será siempre 

óptima. 

Algoritmo A (YO) ⇒ f(n) = g(n) + h(n). 

Algoritmo A* (YO*) ⇒ f(n) = g(n) + h(n) y h(n) admisible. 

Definición 1.11 h(n) es monótona si cumple que: 

k∑ 

h(n) ≤ c k + h(n i ), 

i=1 

∀ n 

Proposición 1.3 Recordemos que si n es solución, entonces h(n) = 0. Y por lo tanto, si 

h(n) es monótona, entonces es admisible. 

Ejemplo 1.7 Dado el grafo de la figura 1.12 (en el que cada nodo va acompañado de su 

valor de h(n)), observamos que la función h(n) no es monótona, pues se cumple que 

h(G) c + h(I) ≡ 5 1 + 1 

Figura 1.12: Grafo YO con h(n) no monótona 

Ejemplo 1.8 En la figura 1.13 se muestra el árbol solución resultado de aplicar el algoritmo 

YO* al grafo de la figura 1.12, pero propagando los nuevos valores heurísticos sólo a través 

de los conectores marcados. 

El orden de expansión está indicado por el número dentro del círculo y una X significa 

que ese nodo ha sido resuelto. 

El costo de esta solución es 9.


función YO*(problema) devuelve grafo solución 

locales: G, G ′ grafos 

G grafo vacío 

G ← G+{inicio} 

costo(inicio)←h(inicio) 

si inicio∈TERMINAL entonces inicio marcado resuelto 

repetir hasta inicio marcado resuelto o costo(inicio) > futilidad 

Construir G ′ ⊆ G con los conectores marcados 

nodo∈frontera(G ′ ) 

si no hay ningún sucesor en EXPANDIR(nodo) entonces costo(nodo)=futilidad 

en otro caso ∀ sucesor∈EXPANDIR(nodo) hacer 

G ← G+{sucesor} 

si sucesor∈TERMINAL entonces sucesor marcado resuelto y costo(sucesor)=0 

si sucesor/∈TERMINAL y no estaba en G entonces costo(sucesor)=h(sucesor) 

S={nodo} (S conjunto de nodos que se han marcado resuelto o cambiado su costo) 

repetir hasta S vacío 

actual∈S de modo que ningún descendiente en G de actual esté en S 

S ← S−{actual} 

para cada k-conector de actual {n i1 , n i2 , . . . , n ik } calcular 

costo i (actual) = c + costo(n i1 ) + · · · + costo(n ik ) 

costo(actual) ← min i costo i (actual) 

marcar conector por el que se ha obtenido ese mínimo (borrar otra marca previa) 

si todos los sucesores a través de ese conector están etiquetados como resueltos 

entonces etiquetar como resuelto actual 

si actual se ha etiquetado como resuelto o se ha cambiado su costo 

entonces propagar esa información hacia el principio del grafo y 

S ← S+{antecesores de actual} 

Function YO*(problema)


Figura 1.13: Solución al grafo de la figura 1.12 propagando por conectores marcados 

Ejemplo 1.9 En la figura 1.14 se muestra el árbol solución óptimo resultado de aplicar el 

algoritmo YO* al grafo de la figura 1.12, propagando los nuevos valores heurísticos a todos 

los antecesores. 

El orden de expansión está indicado por el número dentro del círculo y una X significa 

que ese nodo ha sido resuelto. 

Figura 1.14: Solución al grafo de la figura 1.12 propagando por todos los antecesores 

El costo de esta solución es 7. 

Como conclusión podemos decir que: 

Si h(n) es admisible, no es necesario propagar los valores heurísticos a todos los antecesores 

para encontrar la solución óptima, sino que basta con propagarlos por los conectores 

marcados. 

Sin embargo, si h(n) no es admisible, es necesario propagar los valores a todos los antecesores 

si se quiere encontrar la solución óptima (en caso de que exista). 

Ejemplo 1.10 Dado el grafo de la figura 1.15 (en el que cada nodo va acompañado de su 

valor de h(n)), observamos que la función h(n) ahora sí es monótona. 

En la figura 1.16 se muestra el grafo solución óptimo resultado de aplicar el algoritmo 

YO* propagando los nuevos valores heurísticos sólo por los conectores marcados.


Figura 1.15: Grafo YO con h(n) monótona 

Figura 1.16: Solución al grafo de la figura 1.15 propagando por conectores marcados 

Ya vimos cómo calcular el costo de un grafo solución, y vimos que en ocasiones un arco 

tenía que contabilizarse más de una vez y en otras ocasiones no. 

Ejemplo 1.11 Dado el grafo YO de la figura 1.17, en la figura 1.18 se muestran dos posibles 

soluciones. 

Figura 1.17: Grafo YO con varias soluciones con distintos costos 

Si tratamos con un problema físico (por ejemplo, soldar un circuito) tendremos que 

costo 1 = 7 y costo 2 = 9, y la solución óptima es la 1. 

Pero si tratamos con un problema lógico (por ejemplo, resolver una integral) tendremos 

que costo 1 = 7 y costo 2 = 6, y la solución óptima es la 2.

1.3 Funciones Heurísticas 23 

Figura 1.18: Soluciones al Grafo YO de la figura 1.17 

1.3. Funciones Heurísticas 

1.3.1. Efecto de la precisión heurística en el rendimiento 

Vamos a tratar sobre el problema del 8-puzzle. 

Ejemplo 1.12 

7 2 4 

5 6 

8 3 1 

Estado Inicial 

26 pasos 

−→ 

1 2 

3 4 5 

6 7 8 

Estado Final 

El coste medio para resolver este problema con estados inicial y final aleatorios es de 22 

pasos. 

El factor de ramificación medio es 3. En una búsqueda exhaustiva se expanden 3 22 nodos. 

⎫ 

h 1 ≡ Número de piezas mal colocadas h 1 (EI) = 8 

⎪⎬ 

f(n) = g(n) + h(n) 

h ≤ h 

h 2 ≡ Distancia de Manhattan h 2 (EI) = 18 

∗ 

⎪⎭ 

h 1 y h 2 son admisibles 

En el ejemplo anterior se tiene que h 1 (n) ≤ h 2 (n) ∀ n y se dice que h 2 domina a h 1 . 

Además también se cumple que h 1 (n) ≤ h 2 (n) ≤ h ∗ ⇒ h 2 es mejor que h 1 porque se acerca 

más a h ∗ . 

Definición 1.12 Factor de ramificación eficaz: b ∗ . 

Sea N el número de nodos generados por un algoritmo A ∗ y sea la longitud de la solución 

d, entonces b ∗ es el factor de ramificación que un árbol uniforme de profundidad d debe tener 

para contener N + 1 nodos. 

Es decir 

N + 1 = 1 + b ∗ + (b ∗ ) 2 + · · · + (b ∗ ) d 

Vamos a realizar un estudio comparativo en el que generamos 1200 8-puzzles con solución 

de longitud 2, 4, 6, ..., 22, 24 (100 problemas de cada tipo). Por un lado los resolveremos con 

Profundidad Iterativa (BPI) y por otro lado mediante una búsqueda A ∗ con las funciones h 1 

y h 2 .


Costo de la Búsqueda Factor de Ramificación Eficaz 

d BPI A ∗ (h 1 ) A ∗ (h 2 ) BPI A ∗ (h 1 ) A ∗ (h 2 ) 

2 10 6 6 2’45 1’79 1’79 

4 112 13 12 2’87 1’48 1’45 

6 680 20 18 2’73 1’34 1’30 

8 6384 39 28 2’80 1’33 1’24 

10 47127 93 39 2’79 1’38 1’22 

12 3644305 227 73 2’78 1’42 1’24 

14 - 539 113 - 1’44 1’23 

16 - 1301 211 - 1’45 1’25 

18 - 3056 363 - 1’46 1’26 

20 - 7276 676 - 1’47 1’27 

22 - 18094 1219 - 1’48 1’28 

24 - 39135 1641 - 1’48 1’26 

Como conclusiones del estudio podemos afirmar que: 

1. A ∗ es mucho mejor que BPI 

2. h 2 es mejor que h 1 porque A ∗ (h 2 ) ≤ A ∗ (h 1 ) y b ∗ h 2 

≤ b ∗ h 1 

Nota.- Obsérvese que si se utilizara h ∗ siempre tendríamos que b ∗ = 1, es decir, 

encontraría la solución directamente en un número de pasos igual a la longitud 

de la solución. 

1.3.2. Inventando funciones heurísticas 

Vamos a ver tres maneras de obtener buenas funciones heurísticas. 

La primera de ellas hace uso de un procedimiento que nos permite averiguar funciones 

heurísticas admisibles (no necesariamente eficientes), y que consiste en resolver el problema 

relajando alguna de las condiciones del problema original. 

No olvidemos que cuanto más se acerque h a h ∗ , más difícil será de evaluar. 

Ejemplo 1.13 En el problema del 8-puzzle, la casilla A se mueve a la casilla B si A es 

vertical u horizontal y adyacente a B y B está vacía. 

Tres posibles formas de relajar el problema son: 

1. A se mueve a B si A es vertical u horizontal y adyacente a B −→ Distancia de Manhattan 

2. A se mueve a B si B está vacío 

3. A se mueve a B −→ N o de piezas mal colocadas 

La segunda manera consiste en tomar varias funciones admisibles de las cuales no conocemos 

cuál domina sobre cuál. Si tomamos el máximo de todas ellas obtenemos una función 

heurística admisible mejor (o igual) que cualquiera de ellas (h = max(h 1 , h 2 , . . . , h n )), como 

se observa en la figura 1.19 

Por último, también se puede obtener una función heurística a partir de la experiencia, 

mediante el aprendizaje (lo veremos más adelante). 

h = c 1 · x 1 + · · · + c k · x k y los coeficientes c 1 , . . . , c k se van ajustando dinámicamente a 

partir de la experiencia, para aproximarse cada vez más a h ∗ .

1.4 Estrategias de Búsqueda Local y Problemas de Optimización25 

Figura 1.19: Función admisible h = max(h 1 , h 2 , h 3 ) ≤ h ∗ 

1.4. Estrategias de Búsqueda Local y Problemas de Optimización 

El problema de las 8 reinas es un problema en el que nos interesa el estado final, no el 

camino para llegar a él. 

La búsqueda local, en vez de almacenar todos los nodos estudiados hasta el momento, 

almacena sólo uno: el que actualmente se está estudiando. 

Este tipo de búsqueda es muy rápida y se suele encontrar buenas soluciones. 

Figura 1.20: Función Objetivo vs Espacio de Estados 

Definición 1.13 Máximo local. Aquel estado en el que todos sus vecinos tienen peor valor 

heurístico que él. 

Definición 1.14 Crestas. Conjunto de máximos locales próximos entre sí 

Definición 1.15 Meseta. Aquel estado en el que todos sus vecinos tienen peor valor heurístico 

que él o, a lo sumo, igual. 

1.4.1. Búsqueda de ascensión de colinas (mejor avara) 

El algoritmo de ascensión de colinas, como se puede observar en la función ASCENSIÓN- 

COLINAS, devuelve un máximo local.


función ASCENSIÓN-COLINAS(problema) devuelve un estado que es un máximo 

local 

entradas: problema, un problema 

variables locales: actual, un nodo 

vecino, un nodo 

actual←HACER-NODO(ESTADO-INICIAL[problema]) 

bucle hacer 

vecino←sucesor de valor más alto de actual 

si VALOR[vecino]≤VALOR[actual] entonces devolver ESTADO[actual] 

actual←vecino 

Function ASCENSIÓN-COLINAS(problema) 

Ejemplo 1.14 Sea el juego de las 8 reinas con función heurística h(n): número de jaques 

que se dan, directa o indirectamente. 

Dado el siguiente tablero inicial 

R 

R 

R 

R R R 

R 

R 

su valor heurístico es h = 17. 

Cada estado tiene 8 · 7 = 56 hijos, de los cuales tomamos siempre aquel que tenga menor 

valor de h. 

La solución devuelta no tiene por qué ser óptima, es decir, no tiene por qué cumplir que 

h = 0. De hecho, la solución obtenida a partir del tablero anterior es la siguiente: 

R 

R 

R 

R 

R 

R 

Que es un mínimo local con valor heurístico h = 1. 

R 

R 

Vamos a intentar ahora salir de un óptimo local para encontrar el óptimo global mediante 

dos maneras: 

1. Para superar una terraza realizamos movimientos laterales, de modo que se siguen 

mirando los vecinos con igual valor, hasta encontrar uno con mejor valor. 

El problema surge cuando no se trata de una terraza sino de una meseta, en cuyo caso 

el algoritmo se quedaría colgado yendo de un lado para otro.


Para evitar esto se establece un número máximo de movimientos laterales lo suficientemente 

grande como para saltar terrazas y lo suficientemente pequeño como para no 

quedarse colgado en las mesetas. 

2. Búsqueda primero mejor avara con reinicio aleatorio. 

Si se alcanza un óptimo local, se toma otro estado inicial aleatorio y se vuelve a aplicar 

el algoritmo. 

Si p es la probabilidad de encontrar la solución óptima, necesitaremos 1 p 

reinicios para 

encontrar dicha solución. 

N o de pasos = Coste de iteración acertada + 1 − p 

p 

1.4.2. Búsqueda tabú 

· (Coste de iteración fracasada) 

función TABU(problema) devuelve un estado 

entradas: problema, un problema 

variables locales: actual, un nodo 

vecino, un nodo 

mejor, un nodo 

actual←HACER-NODO(ESTADO-INICIAL[problema]) 

mejor←actual 

mejorcosto←VALOR[mejor] 

bucle hacer 

vecino←sucesor∈Candidatos N (actual)⊆ N(H,actual) que minimice 

VALOR(H,actual) sobre el conjunto anterior 

actual←vecino 

Actualizar H 

si VALOR(actual)


Ejemplo 1.15 En una fábrica se produce un material compuesto por 7 elementos (numerados 

del 1 al 7). Cada ordenación de esos elementos tiene un valor que mide una propiedad que 

buscamos. No existe un estado inicial predefinido. 

Tomamos, por ejemplo, 2 5 7 3 4 6 1 con valor de aislamiento 10. 

En este caso, un vecino será una ordenación en la que se intercambian pares de elementos. 

En total hay 21 vecinos. 

El algoritmo hace uso de dos tablas. La primera de ellas es como sigue: 

2 3 4 5 6 7 

1 

2 

3 

4 3 

5 

En esta tabla, la casilla (i, j) indica el número de veces que 

6 

está prohibido intercambiar el elemento i y el j. En cada iteración, cada casilla se decrementa 

en 1. En realidad se trata de una memoria a corto plazo utilizada como historia para modificar 

el subconjunto de candidatos. 

La segunda tabla tiene tantas filas como sucesores (21 en nuestro caso) en las que se indica 

cuál es el incremento (o decremento) del valor de aislamiento si se producen cada uno de los 

intercambios. Las filas están ordenadas de mejor a peor y se puede indicar qué intercambio 

se escoge (mediante un *) así como los intercambios prohibidos (mediante una T 3 ). 

Por ejemplo, según la tabla: 

1 5 4 6 

2 7 4 4 

3 3 6 2 

4 2 3 0 

5 4 1 -1 

si se intercambian los elementos 5 y 4, se produce un incremento en el 

. . 

valor de aislamiento de 6. 

Los 21 sucesores serán siempre los mismos, pero en cada iteración el incremento del valor 

de aislamiento (y en consecuencia la ordenación de los 21 sucesores) es distinto. 

Iteración 1 

3 1 2 

2 3 1 

2 4 7 3 5 6 1 con valor de aislamiento 16 

3 6 -1 

7 1 -2 

6 1 -4 

. 

Iteración 2 


1 3 -2 T 

2 3 4 5 6 7 

2 4 -4 * 

1 3 

7 6 -6 

2 

4 5 -7 T 

3 

5 3 -9 

4 2 

5 

. 

6 

La ascensión de colinas habría parado aquí, pero véase cómo prohibir el intercambio 1,3 

(que acaba de realizarse) diversifica la búsqueda. 

3 Tabú


Iteración 3 

4 2 7 1 5 6 3 con valor de aislamiento 14 (mejor valor guardado = 18) 

4 5 6 T 

2 3 4 5 6 7 

5 3 2 

1 2 

7 1 0 

2 3 

1 3 3 T 

3 

2 6 -6 

4 1 

5 

. 

6 

Criterio de aspiración: Si algún vecino tabú mejora la mejor solución (no la actual) se le 

quita el tabú y se selecciona. 

Es el caso del intercambio 4, 5. 

Iteración 4 


7 1 0 

4 3 -3 

6 3 -5 

5 4 -6 T 

2 6 -8 

. 

2 3 4 5 6 7 

1 1 

2 2 

3 

4 3 

5 

6 

Iteración 26 

1 3 6 2 7 5 4 con valor de aislamiento 12 (mejor valor guardado = 20) 

1 2 3 4 5 6 7 

1 4 3 T 

1 3 

2 4 -1 

2 

3 7 -3 

3 3 2 

1 6 -5 

4 1 5 1 

6 5 -6 

5 4 4 

. 

6 1 2 

7 2 3 

Esta última tabla indica, en las casillas de su mitad inferior izquierda, el número de veces 

que se ha usado cada intercambio de pares. 

Vamos a penalizar los intercambios más frecuentemente usados, restando a su incremento, 

su frecuencia. 

1 4 3 2 T 

2 4 -1 -6 

3 7 -3 -3 * 

1 6 -5 -5 

6 5 -6 -8 

Y ahora reordenamos la tabla según la nueva columna. 

. 

El conjunto de vecinos son 21, pero los candidatos son sólo 18, porque hay 3 que son tabú. 

En realidad la penalización con frecuencia, influencia, calidad, etc., se realiza desde la 

primera iteración.


1.4.3. Búsqueda por haz local 

Como estado inicial se generan k estados iniciales aleatorios. 

Para cada estado se generan los sucesores y entre todos los sucesores, tomamos los k 

mejores. 

Si alguno de esos k es solución, se para. Y si se llega a la condición de parada extrema se 

devuelve la mejor solución hasta el momento. 

1.4.4. Algoritmo genético 

La diferencia con los algoritmos vistos hasta ahora es que en éstos hay una relación asexual 

entre los estados, mientras que en el algoritmo genético se dice que entre los estados hay una 

relación sexual. 

Hay que decidir cuántos individuos (estados) hay en cada población (conjunto de estados). 

Definición 1.16 Idoneidad: La función de fitness mide cómo de bueno es un individuo. 

Y en función de cómo de bueno sea un individuo se seleccionará para cruzarse y generar 

individuos para la nueva población. 

Los pasos que se siguen para conseguir una nueva población a partir de la actual son: 

Población 

−→ 

Población 

antigua seleccionada −→ Población Población 

−→ −→ 

Población 

cruzada mutada nueva 

La nueva población obtenida pasa a ser la población actual y se repite el ciclo. 

El cruce de individuos intensifica la búsqueda, mientras que la mutación la diversifica. 

Ejemplo 1.16 Vamos a estudiar el problema de las 8 reinas con el algoritmo genético. 

La representación de cada individuo (su fenotipo) será como sigue: 

I1 2 4 7 4 8 5 5 2 24 31 % 

Que significa: 

I1 es el individuo 1 

La 1 a reina está en la fila 2, la 2 a en la 4, la 3 a en la 7, etc. 

La función de fitness para este individuo vale 24, y en este caso mide el número de 

no-jaques. 

El porcentaje se calcula como 

h(I 1 ) 

∑ n 

i=1 h(I i) · 100 

y representa el peso que el individuo I1 tiene en la población 

Su genotipo puede ser, por ejemplo: (001 011 110 011 111 100 100 001) 

Dependiendo de la representación escogida, así será el cruce y la mutación. 

La población total es la siguiente: 

I1 2 4 7 4 8 5 5 2 24 31 % 

I2 3 2 7 5 2 4 1 1 23 29 % 

I3 2 4 4 1 5 1 2 4 20 26 % 

I4 3 2 5 4 3 2 1 3 11 14 % 

Ahora generamos una nueva población de otros cuatro individuos con probabilidad de cruce 

p c = 0 ′ 2 y probabilidad de mutación p m = 0 ′ 01. 

Este algoritmo se emplea en problemas combinatorios y de optimización, no en problemas 

de cualquier camino o de mejor camino.

1.5 Estrategias de Búsqueda Online 31 

1.5. Estrategias de Búsqueda Online 

En la búsqueda off-line se conoce a priori el espacio de búsqueda, mientras que en la 

búsqueda on-line, éste se conoce a posteriori. Por eso también se le llama búsqueda en ambientes 

desconocidos. 

Definición 1.17 Acciones(s): Función que devuelve todas las acciones posibles a partir del 

estado s. 

Definición 1.18 c(s, a, s ′ ): Función coste que devuelve el coste asociado a aplicar la acción 

a al estado s para pasar al s ′ . Esta función se calcula después de haber aplicado la acción a, 

cuando ya nos encontramos en el estado s ′ . 

función BPP-ONLINE(s’) devuelve una acción 

entradas: s’, una percepción que identifica el estado actual 

variables locales: resultado, una tabla indexada por la acción y el estado, 

inicialmente vacía 

noexplorados, una tabla que enumera, para cada estado visitado, 

las acciones todavía no intentadas 

nohaciatras, una tabla que enumera, para cada estado visitado, 

los nodos hacia atrás todavía no intentados 

s,a, el estado y acción previa, inicialmente nula 

si TEST-OBJETIVO(s’) entonces devolver parar 

si s’ es un nuevo estado entonces noexplorados[s’]←ACCIONES(s’) 

si s es no nulo entonces hacer 

resultado[a,s]←s’ 

añadir s al frente de nohaciatras[s’] 

si noexplorados[s’] está vacío entonces 

si nohaciatras[s’] está vacío entonces devolver parar 

en caso contrario a←una acción b tal que resultado[b,s’]=POP(nohaciatras[s’]) 

en caso contrario a←POP(noexplorados[s’]) 

s←s’ 

devolver a 

Function BPP-ONLINE(s’) 

Ejemplo 1.17 Dado el siguiente “laberinto”: 

Y U B 

X T N 

A Z V 

Aplicamos el algoritmo BPP-ONLINE para llegar desde A hasta B. 

BPP-Online(A) 

s, a vacíos s ′ = A 

noexplorados[A]=Arriba, Derecha 

a =Arriba, s = A {Aparece estado X}


BPP-Online(X) 

s = A, a =Arriba s ′ = X 

noexplorados[X]=Abajo 

resultado[Arriba,A]=X 

nohaciatras[X]=A 

a =Abajo, s = X {Aparece estado A} 

BPP-Online(A) 

s = X, a =Abajo s ′ = A 

noexplorados[A]=Derecha 

resultado[Abajo,X]=A 

nohaciatras[A]=X 

a =Derecha, s = A {Aparece estado Z} 

BPP-Online(Z) 

s = A, a =Derecha s ′ = Z 

noexplorados[Z]=Izquierda, Arriba, Derecha 

resultado[Derecha,A]=Z 

nohaciatras[Z]=A 

a =Izquierda, s = Z {Aparece estado A} 

BPP-Online(A) 

s = Z, a =Izquierda s ′ = A 

resultado[Izquierda,Z]=A 

nohaciatras[A]=Z 

a = b tal que resultado[b,A]=nohaciatras[A]=Z 

a =Derecha, s = A {Aparece estado Z} 

BPP-Online(Z) 

s = A, a =Derecha s ′ = Z 

a =Arriba, s = Z {Aparece estado T } 

BPP-Online(T) 

s = Z, a =Arriba s ′ = T 

noexplorados[T]=Abajo, Arriba 

resultado[Arriba,Z]=T 

nohaciatras[T]=Z 

a =Abajo, s = T {Aparece estado Z} 

BPP-Online(Z) 

s = T, a =Abajo s ′ = Z 

resultado[Abajo,T]=Z 

nohaciatras[Z]=T 

a =Derecha, s = Z {Aparece estado V }

1.6 Estrategias en adversarios 33 

BPP-Online(V) 

s = Z, a =Derecha s ′ = V 

noexplorados[V]=Arriba, Izquierda 

resultado[Derecha,Z]=V 

nohaciatras[V]=Z 

a =Arriba, s = V {Aparece estado N} 

BPP-Online(N) 

s = V, a =Arriba s ′ = N 

noexplorados[N]=Arriba, Abajo 

resultado[Arriba,V]=N 

nohaciatras[N]=V 

a =Arriba, s = N {Aparece estado B} 

BPP-Online(B) 

s = N, a =Arriba s ′ = B 

ESTADO-DESTINO(B) CIERTO 

En este tipo de problemas el objetivo en general suele ser llegar al destino, no el camino 

recorrido (pensemos, por ejemplo, en un robot que apaga incendios). 

1.6. Estrategias en adversarios 

1.6.1. Juegos 

Supongamos dos contrincantes llamados MAX y MIN, un estado inicial con la posición 

del tablero y con la decisión de quién empieza. MAX y MIN juegan alternativamente. 

Definición 1.19 Sucesor. Movimientos legales a partir del estado actual. 

Definición 1.20 Test Terminal. Determina cuándo un estado es terminal. 

Definición 1.21 Función de Utilidad. Da un valor a cada estado terminal (se suelen usar los 

valores 1, 0 y -1 correspondientes a que gana MAX, empatan o gana MIN, respectivamente). 

Ejemplo 1.18 Juego de las 3 en raya. Nosotros somos MAX y jugamos con X, mientras que 

MIN juega con O. 

Figura 1.21: Juego de las 3 en raya


Figura 1.22: Estados terminales en el juego de las 3 en raya 

La estrategia que vamos a usar, desde el punto de vista óptimo (es decir, suponiendo que 

tanto MIN como MAX 

⎧ 

siempre toman la decisión óptima), es la siguiente: 

⎨ utilidad(n) 

si n es terminal 

Valor Minimax(n)= max 

⎩ s∈sucesores(n) V alor Minimax(s) si n es nodo MAX 

min s∈sucesores(n) V alor Minimax(s) si n es nodo MIN 

Figura 1.23: Estrategia MiniMax 

Juegos con 3 jugadores 

Ahora en cada nodo habrá un vector con 3 valores, correspondientes a la puntuación de 

cada jugador. El objetivo de cada jugador es maximizar su puntuación. 

Figura 1.24: Ejemplo de juego con 3 jugadores 

Nota.- No todos los nodos terminales tiene por qué tener la misma profundidad 

(ni tienen que tener una profundidad múltiplo del número de jugadores). 

Poda alfa-beta 

La poda no interfiere en la búsqueda de la solución óptima. 

α es el valor de la mejor alternativa (máximo valor) para MAX a lo largo del camino. 

β es el valor de la mejor alternativa (mínimo valor) para MIN a lo largo del camino. 

El orden en que se visitan los nodos influye en la poda. 

Véase la figura 1.25.

1.6 Estrategias en adversarios 35 

Figura 1.25: Poda alfa-beta 

1.6.2. Decisiones en tiempo real imperfectas 

En juegos como el ajedrez es inviable aplicar Minimax y por ello se añade una profundidad 

límite. 

Si hay dos jugadores interesa poner una profundidad límite que sea par. Si se realiza poda 

puede ocurrir que perdamos la solución óptima. 

Por lo tanto, tenemos que definir una nueva función que nos diga cómo de bueno es un 

estado no terminal. 

si TEST-CORTE(estado,profundidad) 

{ 

entonces devolver EVAL(estado) 

UTILIDAD(n) si n es terminal 

EVAL(n) 

FUNCION HEURISTICA(n) si n es no terminal 

Cuanto mayor sea la profundidad de corte, evidentemente, más y mejor información 

heurística tendremos. Nosotros hemos supuesto que los terminales están por debajo de la 

profundidad límite. 

Ejemplo 1.19 Para el juego de las 3 en raya de la figura 1.26, se ha cortado la búsqueda a 

profundidad 2 (teniendo en cuenta que la profundidad de la raíz es 0). 

Figura 1.26: Juego de las 3 en raya con profundidad limitada 

Como función heurística se ha usado: f(n) = N o de filas, columnas y diagonales libres 

para MAX - N o de filas, columnas y diagonales libres para MIN.


1.6.3. Juegos que incluyen un elemento de posibilidad 

Además de los nodos MAX y MIN, aparecen los nodos de posibilidad. 

Ejemplo 1.20 En el juego del parchís, tiramos un dado, con 1 6 

de probabilidades de sacar 

cada uno de los números del 1 al 6. Hay cuatro fichas por cada jugador. 

Si se limita la profundidad tiene que ser a la altura de un nodo MIN o un nodo MAX, 

pero no de un nodo de posibilidad. 

⎧ 

utilidad(n) 

⎪⎨ 

max 

MiniMax Esperada(n) s∈sucesores(n) MiniMax Esperado(s) 

min ⎪⎩ s∈sucesores(n) MiniMax Esperado(s) 

P (s) · MiniMax Esperado(s) 

∑ 

s∈sucesores(n) 

si n es terminal 

si n es nodo MAX 

si n es nodo MIN 

si n es nodo posibilidad 

Figura 1.27: Ejemplo de estrategia MiniMax Esperada

Capítulo 2 

Representación del Conocimiento. 

Razonamiento 

Para resolver un problema, lo básico necesario es: 

Representación 

Operadores 

Control 

2.1. Representación del Conocimiento mediante Lógicas no 

Clásicas 

2.1.1. Lógicas no monótonas 

La lógica clásica es una lógica monótona, en la cual la incorporación de nuevo conocimiento 

debe ser consistente (no contradictorio). En la lógica no monótona, la incorporación de nueva 

información podría invalidar parte de la información previa existente. 

En un problema con conocimiento incompleto puede aplicarse la lógica no monótona (pero 

no la lógica monótona) y se aplica un razonamiento llamado “por defecto”. 

Ejemplo 2.1 “Juan y María yacen en el suelo muertos. Hay cristales en el suelo y agua. 

¿Qué ha pasado?” Solución: Juan y María son dos peces. 

2.1.2. Lógica de situaciones 

Soporta una estructura dinámica (en un momento algo puede ser cierto, y, más tarde, 

puede ser falso). 

Ejemplo 2.2 . 

SOBRE(B 1 , B 2 ): “B 1 está sobre B 2 ” 

Si quitamos B 1 de encima de B 2 , entonces ¬SOBRE(B 1 , B 2 ) 

Estas dos sentencias no podrían coexistir en una lógica clásica. Para que sí puedan coexistir, 

la lógica de situaciones dice: 

SOBRE(B 1 , B 2 , S 1 ): “B 1 está sobre B 2 en la situación S 1 ” 

Y así, ¬SOBRE(B 1 , B 2 , S 2 ) también es cierto. 

Para pasar de una situación a otra debemos aplicar una secuencia de operadores. 

∀ x [SOBRE(B 1 , B 2 , S)∧¬SOBRE(x, B 3 , S) → SOBRE(x, B 3 , R(MOV ER(B 1 , B 3 ), S) )] 

} {{ } 

S ′ 

37

38 Capítulo 2. Representación del Conocimiento. Razonamiento 

Figura 2.1: Ejemplo de lógica de situaciones 

Este tipo de lógica se emplea en planificación 

2.1.3. Lógica difusa 

Empleada cuando se usa una notación imprecisa. 

Ejemplo 2.3 “Juan es joven” 

Muchas veces un concepto vago depende del contexto y de la subjetividad. Toda la lógica 

difusa está montada sobre la definición de una serie de elementos: 

Definición 2.1 Conjunto difuso: 

x ∈ A donde A es un conjunto difuso 

µ A (x) ∈ [0, 1], µ A es la función de pertenencia al conjunto A. 

La diferencia con la probabilidad es que ésta precisa de una experimentación previa antes 

de obtener un resultado. Con los conjuntos difusos no es necesaria experiencia previa. 

Figura 2.2: Función de pertenencia continua ser joven 

Definición 2.2 Modificadores: Definidos a partir del conjunto base. 

⎧ 

⎨ µ MUY A (x) = [µ A (x)] 2 

µ F (A) = F [µ A (x)] µ 

⎩ MAS O MENOS A (x) = [µ A (x)] 1 2 

µ NO A (x) = 1 − µ A (x) 

Figura 2.3: Funciones de pertenencia µ A y µ NO A

2.1 Representación del Conocimiento mediante Lógicas no 

Clásicas 39 

En ocasiones la función de pertenencia es una función discreta. 

Figura 2.4: Función de pertenencia discreta ser joven 

Definición 2.3 Composición de conjuntos: 

⎧ 

⎨ 

µ A∗B = F ∗ (µ A (x), µ B (x)) 

⎩ 

1. Si A ⊆ B entonces µ A (x) ≤ µ B (x) 

2. µ A (x) + µ ¬A (x) = 1 

De aquí se deduce que 

µ A∪B (x) ≥ max(µ A (x), µ B (x)) 

µ A∩B (x) ≤ min(µ A (x), µ B (x)) 

µ ¬A (x) = 1 − µ A (x) 

Los operadores de Zadeh son: 

µ A∪B (x) = max(µ A (x), µ B (x)) 

µ A∩B (x) = min(µ A (x), µ B (x)) 

µ ¬A (x) = 1 − µ A (x) 

Pero también podríamos definir la composición como: 

µ A∗B (x, y) = F ∗ (µ A (x), µ B (y)) 

µ A∪B (x) = F ∪ (µ A (x), µ B (x)) 

µ A∩B (x) = F ∩ (µ A (x), µ B (x)) 

µ ¬A (x) = F ¬ (µ A (x), µ B (x)) 

Figura 2.5: Operadores de Zadeh 

A contiene elementos x, B contiene elementos y. Para componerlos construimos un conjunto 

común: el producto cartesiano de A y B. 

Definición 2.4 Extensión cilíndrica: Consiste en extender los conjuntos al producto cartesiano. 

{ µ 

µ(C) 

′ (A) si C = A × Y 

∀ C ⊆ X × Y 

0 otro caso 

Si hay más de un conjunto se toma el máximo.


Figura 2.6: Extensión Cilíndrica 

Definición 2.5 Proyección cilíndrica 

µ(C) = sup y {µ ′ (x, y)}, 

∀ C 

En la lógica tendremos hechos simples y compuestos. 

Definición 2.6 Hechos simples: 

p : x ∈ A 

(µ p (x) = µ A (x)) 

Definición 2.7 Hechos compuestos: 

⎫ 

⎬ 

p ∨ q : (x es A) ∨ (x es B) 

p ∧ q : (x es A) ∧ (x es B) 

¬p : (x es ¬A) 

Definición 2.8 Inferencia: 

⎭ 

µ p∨q (x) ≥ max(µ p (x), µ q (x)) 

µ p∧q (x) ≤ min(µ p (x), µ q (x)) 

µ ¬p (x) = 1 − µ p (x) 

p → q : si (x es A) entonces (y es B) 

µ p→q (x, y) = IMP LIC(µ p (x), µ q (y)) = OR(NOT (µ p (x)), µ q (y)) 

Modus Ponens: 

p → q 

p 

q 

µ q (y) = sup x {MP (µ p (x), µ p→q (x, y))} 

⎫ 

⎬ 

⎭ 

µ p∨q (x) = OR(µ p (x), µ q (x)) 

µ p∧q (x) = AND(µ p (x), µ q (x)) 

µ ¬p (x) = NOT (µ p (x)) 

Ejemplo 2.4 Si (el coche es viejo) entonces (el coche es ruidoso) 

El coche es bastante viejo. 

Si ahora aplicamos MP, obtenemos un modificador de ruidoso: El coche es bastante ruidoso. 

2.2. Representación y Razonamiento con Incertidumbre 

2.2.1. Representación y fuentes de incertidumbre 

Los elementos a la hora de resolver un problema son: 


Operadores 

Control 

Definición 2.9 Impreciso: negación de preciso.

2.2 Representación y Razonamiento con Incertidumbre 41 

Definición 2.10 Preciso: Un hecho es preciso cuando su significado es equivalente a exacto, 

claro, ..., y concreto. 

Por lo tanto imprecisos son los hechos ambiguos, abstractos, no concretos o no detallados. 

Definición 2.11 Incierto: negación de cierto. 

Definición 2.12 Cierto es análogo a verdadero y seguro. 

Por lo tanto incierto son los hechos carentes de verdad absoluta o de seguridad de que 

ocurra. 

Ejemplo 2.5 “Algún día lloverá” Tiene gran cantidad de imprecisión, pero es muy cierta. 

“Mañana lloverá” es muy preciso, pero es incierto (tiene gran cantidad de incertidumbre). 

Nosotros trabajaremos con conocimiento preciso, aunque incierto. 

Ejemplo 2.6 p → q, c 1 = 0 ′ 7, donde c 1 representa el grado de certidumbre de que la regla 

p → q sea cierta. 

p e → q h c 1 = 0 ′ 7 Representación de una regla c 1 = P (h| e ) 

p e c 2 = 0 ′ 55 Representación de un hecho c 2 = P (e) 

q h c 3 =? Técnica de Inferencia c 3 = P (h) 

Fuentes de Incertidumbre 

1. Situaciones en las que el universo de discurso es verdaderamente aleatorio. 

2. Situaciones en las que el universo de discurso es verdaderamente aleatorio aunque podríamos 

decir que es estrictamente aleatorio, pero por alguna razón, no hay datos suficientes. 

3. Situaciones en las que el conocimiento del que se dispone (o parte de él) se debe al 

“olfato” del observador (“yo creo que ...”). 

4. Situaciones en las que el conocimiento del que se dispone está representado en términos 

vagos. 

5. Situaciones en las que el conocimiento del que se dispone no es totalmente fiable. 

Nosotros vamos a usar la segunda fuente de incertidumbre. 

2.2.2. Teoría de Dempster-Shafer de la evidencia 

En el ejemplo de las urnas puede ocurrir que perdamos en el camino parte de la información. 

Ahora el resultado no será una probabilidad sino un intervalo. 

TDS: Teoría de Dempster-Shafer 

TPr: Teoría de la Probabilidad 

TPos: Teoría de la Posibilidad 

Definición 2.13 Frame de decisión θ: conjunto de hipótesis mutuamente exclusivas y exhaustivo 

en el cual tratamos de obtener la respuesta más adecuada mediante la concentración 

de sucesivas evidencias. 

Definición 2.14 2 θ : conjunto de todas las decisiones del frame de decisión. 

Definición 2.15 A: cualquier elemento del conjunto de decisión.


A las hipótesis se les llama singulares. 

Como en 2 θ también está el ∅, a ese ∅ se le llama hipótesis vacía y corresponde a una 

hipótesis totalmente falsa. 

Ejemplo 2.7 θ = {HEP, CIRR, P IE, P AN} 

A partir de las evidencias se determinará qué enfermedades hepáticas hay. 

Cuanto más restrictiva sea la hipótesis mejor. El complemento de A es ¬A si A ∨ ¬A = θ. 

Ejemplo 2.8 . 

A = {HEP } 

¬A = {CIRR, P IE, P AN} 

En 2 θ hay hipótesis más generales y más restrictivas. Nos interesará tomar decisiones en 

conjuntos de hipótesis del menor tamaño posible. 

Ejemplo 2.9 Es mejor tener A = {HEP }, que tener A = {HEP, CIRR} 

Decir A = {HEP } ≡ “Con la información que tengo puedo decir que se puede tener 

hepatitis”. 

Decir A = {HEP, CIRR} ≡ “Con la información que tengo puedo decir que se puede 

tener hepatitis, pero también se puede tener cirrosis”. 

Función de asignación básica de probabilidad 

Nos sirve para asignar valores a las hipótesis, según la evidencia que se tenga. 

m(A): cantidad de certeza que posee el elemento A (que es una hipótesis y por tanto 

A ∈ 2 θ , o bien A ⊆ θ), de manera que m(A) ∈ [0, 1]. 

m : 2 θ −→ [0, 1] 

Se dice que m es una a.b.p (asignación básica de probabilidad) si cumple que: 

m(∅) = 0 

∑ 

A⊆θ m(A) = 1 

Ejemplo 2.10 θ = {blancas, rojas} 

m(blancas) = 0 ′ 35 

m(rojas) = 0 ′ 4 

¿Qué pasa con el 0’25 restante? Solución: m(θ) = 0 ′ 25 

Construimos m 

1. m(∅) = 0 

Si una evidencia confirma una hipótesis A con un valor p, entonces 

2. m(A) = p 

m(θ) = 1 − p 

Si una evidencia desconfirma una hipótesis A con un valor p, entonces 

3. m(¬A) = p 

m(θ) = 1 − p 

A cualquier hipótesis sobre la que no haya ninguna evidencia se le da el valor 0.

2.2 Representación y Razonamiento con Incertidumbre 43 

Ejemplo 2.11 Se tiene una evidencia que desconfirma una hipótesis de HEP con un valor 

de 0’7 

m({CIRR, P IE, P AN}) = 0 ′ 7 

m(θ) = 0 ′ 3 

m(∗) = 0 

m(∅) = 0 

⎫ 

⎪⎬ ∑ 

= 1 

A partir de m vamos a construir las dos siguientes funciones: 

Credibilidad de una hipótesis A 

Cr(A) = ∑ B⊆A 

m(B) 

⎪⎭ 

Plausibilidad de A 

P l(A) = 

∑ 

B∩A≠∅ 

m(B) 

Tanto Cr como P l son funciones de probabilidad. 

Todas las hipótesis B de la credibilidad están incluidas en las hipótesis B de la plausibilidad. 

Cr(A) ≤ P r(A) ≤ P l(A) 

|P l(A) − Cr(A)| mide la falta de información. 

Por lo tanto con esta teoría (que es una generalización de la probabilidad) se mide tanto 

incertidumbre, como falta de información. 

Propiedades. 

Cr(∅) = P l(∅) = 0 

Cr(θ) = P l(θ) = 1 

Cr(A) + P l(¬A) = 1 

Cr(A) + Cr(¬A) ≤ 1 

P l(A) + P l(¬A) ≥ 1 

Ejemplo 2.12 Calcular la credibilidad y plausibilidad de la hipótesis A = {CIRR, P IE, P AN} 

y su complemento sabiendo que: 

m(A) = 0 ′ 7 

m(θ) = 0 ′ 3 

m(∗) = 0 

m(∅) = 0 

Cr(A) = m(A)+m({CIRR, P IE})+m({CIRR, P AN})+m({P IE, P AN})+m({CIRR})+ 

m({P IE}) + m({P AN}) + m({∅}) = 0 ′ 7 + 0 + · · · + 0 = 0 ′ 7 

P l(A) = m(A)+m({HEP, CIRR})+m({HEP, P IE})+m({HEP, P AN})+m({CIRR})+ 

m({P IE}) + m({P AN}) + m({θ}) = 0 ′ 7 + 0 + 0 + 0 + 0 + 0 + 0 + 0 ′ 3 = 1 

0 ′ 7 ≤ P r(A) ≤ 1 

Regla de Combinación de a.b.p. de Dempster-Shafer 

Sean m 1 y m 2 dos a.b.p. sobre dos hipótesis. 

m 1 ⊕ m 2 (C k ) = 

∑ 

A j ∩B j =C k 

m 1 (A j ) · m 2 (B j ) 

m 1 ⊕ m 2 también es una a.b.p. 

m 

Propiedades 1 ⊕ m 2 = m 2 ⊕ m 1 

m 1 ⊕ (m 2 ⊕ m 3 ) = (m 1 ⊕ m 2 ) ⊕ m 3 

De donde se deduce que no importa el orden de combinación de la información.


Ejemplo 2.13 Sea m 1 una a.b.p. que confirma la hipótesis {HEP, CIRR} con un valor 0’6. 

m 1 ({HEP, CIRR}) = 0 ′ 6 m 1 (θ) = 0 ′ 4 

Y sea 

m 2 ({CIRR, P IE, P AN}) = 0 ′ 7 m 2 (θ) = 0 ′ 3 

m 3 ({HEP }) = 0 ′ 8 m 3 (θ) = 0 ′ 2 

m 1 

m 2 

{CIRR, P IE, P AN} 0 ′ 7 θ 0 ′ 3 

{HEP, CIRR} 0 ′ 6 {CIRR} 0 ′ 6 · 0 ′ 7 {HEP, CIRR} 0 ′ 6 · 0 ′ 3 

θ 0 ′ 4 {CIRR, P IE, P AN} 0 ′ 4 · 0 ′ 7 θ 0 ′ 4 · 0 ′ 3 

m 1 ⊕ m 2 ({CIRR}) = 0 ′ 42 

m 1 ⊕ m 2 ({HEP, CIRR}) = 0 ′ 18 

m 1 ⊕ m 2 ({CIRR, P IE, P AN}) = 0 ′ 28 

m 1 ⊕ m 2 ({θ}) = 0 ′ 12 

∑ 

m 1 ⊕ m 2 (A) = 1 

A⊆θ 

m 1 ⊕ m 2 

{CIRR} 0 ′ 42 {HEP, CIRR} 0 ′ 18 {CIRR, P IE, P AN} 0 ′ 28 θ 0 ′ 12 

m 3 

{HEP } 0 ′ 8 ∅ 0 ′ 8 · 0 ′ 42 {HEP } 0 ′ 8 · 0 ′ 18 ∅ 0 ′ 8 · 0 ′ 28 {HEP } 0 ′ 8 · 0 ′ 12 

θ 0 ′ 2 {CIRR} 0 ′ 2 · 0 ′ 42 {HEP, CIRR} 0 ′ 2 · 0 ′ 18 {CIRR, P IE, P AN} 0 ′ 2 · 0 ′ 28 θ 0 ′ 2 · 0 ′ 12 

m 1 ⊕ m 2 ⊕ m 3 (∅) = 0 ′ 336 + 0 ′ 224 = 0 ′ 56 → 0 

m 1 ⊕ m 2 ⊕ m 3 ({HEP }) = 0 ′ 144 + 0 ′ 096 = 0 ′ 24 → 0′ 24 

1 − 0 ′ 56 = 0′ 545 

m 1 ⊕ m 2 ⊕ m 3 ({CIRR}) = 0 ′ 084 → 0′ 084 

0 ′ 44 = 0′ 191 

m 1 ⊕ m 2 ⊕ m 3 ({HEP, CIRR}) = 0 ′ 036 → 0 ′ 082 

m 1 ⊕ m 2 ⊕ m 3 ({CIRR, P IE, P AN}) = 0 ′ 056 → 0 ′ 127 

m 1 ⊕ m 2 ⊕ m 3 ({θ}) = 0 ′ 024 → 0 ′ 055 

Según vemos, la evidencia de θ va siendo cada vez más pequeña, según se va combinando 

información. 

Si m 1 ⊕m 2 ⊕m 3 (∅) = p ≠ 0 entonces hay que normalizar el resto de valores, dividiéndolos 

entre 1 − p, para que su suma sea igual a 1. Si se da esta situación es porque ha habido 

contradicción. 

Al normalizar estamos perdiendo información; y podría ocurrir que la contradicción fuera 

muy alta y al normalizar no se reflejara fielmente la realidad. 

Introducción a la Inferencia 

Cómo representar los hechos: 

⎧ 

⎨ Simples “x es 

{ 

A” 

Hechos 

“x1 es A 

⎩ Compuestos 

1 o x 2 es A 2 ” ⇒ (x 1 , x 2 ) es A 1 + A 2 

“x 1 es A 1 y x 2 es A 2 ” ⇒ (x 1 , x 2 ) es A 1 × A 2 

donde A 1 + A 2 = A 1 × A 2 = (A 1 × X 2 ) ∪ (X 1 × A 2 ), siendo X i el mundo de discurso de A i . 

La teoría de la evidencia permite trabajar con vaguedad, mientras que la probabilidad no 

puede. 

Cómo representar las reglas: 

Si x es A entonces y es B ⇒ (x 1 , x 2 ) es A + B = A × B

2.3 Representaciones Estructuradas del Conocimiento 45 

Ahora que sabemos representar hechos y reglas, sean un hecho y una regla con un cierto 

grado de incertidumbre medida con un intervalo: 

F : [Cr F , P l F ] 

R : [Cr R , P l R ] 

Para poder aplicar la regla de Dempster tenemos que transformar estos dos intervalos en 

masas de evidencia. 

Cr F (A) = α P L F (A) = β ≥ α 

m F (A) = α m F (Ā) = 1 − β 

m F (δ) = β − α 

Cr R (Ā + B) = α P l R(Ā + B) = β ≥ α 

m R (Ā + B) = α m R(A × ¯B) = 1 − β 

m R (X 1 × X 2 ) = β − α 

Método general de razonamiento (o inferencia) 

Tenemos F 1 , F 2 , . . . , F m y R 1 , R 2 , . . . , R n inciertas (cada una con su intervalo). 

Queremos saber la verdad de que se establezca F y su valor de incertidumbre asociado a 

partir de las reglas y hechos previos. Los pasos a seguir son: 

1. Construir una estructura Ω lo más pequeña posible que contenga F i , R j y F . 

Ω = X 1 × X 2 × · · · × X p p = m + n + 1 

2. Calcular la extensión cilíndrica de las a.b.p. m Fi y m Rj sobre Ω (para poder mezclar). 

3. Combinar por la regla de Dempster (se obtiene m). 

4. Proyectar la a.b.p. m sobre X p (que corresponde a F ). 

5. Calcular Cr F y P l F a partir de dicha proyección. 

Este método es una generalización del Modus Ponens clásico, pues si tanto los hechos 

como las reglas fueran ciertos (Cr = 1, P l = 1) obtendríamos conclusiones también ciertas. 

2.3. Representaciones Estructuradas del Conocimiento 

2.3.1. Redes Semánticas 

Nos sirven para representar el conocimiento de manera que se parezca a cómo representamos 

nosotros el conocimiento. Es una representación parecida a la lógica, pero más visual, 

más gráfica. 

Definición 2.16 Una red semántica es una estructura de datos compuesta de nodos y “links” 

(arcos) y cada elemento tiene un asociado semántico. 

Un nodo se corresponde con un hecho, suceso, evento u objeto. 

Un link tiene una relación binaria entre los nodos que une: 

n 1 

r 

−→ n 2 

n 1 , n 2 : nodos 

r : link 

Representación de una red semántica generalizada 

Nuestro conocimiento tiene relaciones n-arias, pero sólo podemos usar relaciones binarias 

si queremos usar una red semántica. 

Ejemplo 2.14 “Juan regaló a María un libro en el parque” se trata de una relación 5-aria. 

Creamos un ente genérico abstracto e que relaciona todos los objetos; y a partir de él 

construimos todas las relaciones binarias.


Figura 2.7: Ejemplo de Red Semántica 

Veamos ahora cómo se representan las reglas: aparecen dos tipos de links. 

Conclusión −→ (Asociados a los nodos que pertenecen al consecuente de una regla). 

Condición (Asociados a los nodos que pertenecen al antecedente de una regla). 

Ejemplo 2.15 Regla: “Todo acto de dar tiene su recíproco de recibir” 

Tomamos el evento x 

Figura 2.8: Ejemplo de regla en una Red Semántica 

Ya tenemos dos trozos de red semántica: un hecho y una regla. 

Ejemplo 2.16 “Juan da un libro a María y el acto recíproco de dar es recibir” 

Figura 2.9: Ejemplo de Red Semántica con un hecho y una regla 

El link es un denota las relaciones es un, parte de, subconjunto, un tipo de. Estos tipos 

de links crean una red semántica jerárquica. 

es un 

es un 

Ejemplo 2.17 elefante −→ mamífero −→ animal 

Por la herencia, las propiedades del caso general las tiene el caso particular. Además estos 

links cumplen la propiedad transitiva. 

También existen links que denotan restricciones temporales: antes de, despues de, simultaneo, 

causa. 

Ejemplo 2.18 . 

e 1 

despues 

−→ e 2 

simultaneo 

e 1 

causa 

e 1 

−→ e 2 

−→ e 2


Ejemplo 2.19 En la figura 2.10 podemos ver un ejemplo de reglas que relacionan elementos 

temporales. 

Figura 2.10: Ejemplo de reglas que relacionan elementos temporales 

Inferencia 

Debemos tener en cuenta dos procesos: 

1. Unificación de nodos 

2. Inferencia de links 

Un link antecedente y uno consecuente se eliminan si son del mismo tipo y los nodos que 

unen son unificables entre sí. 

El proceso de inferencia es destructivo, por lo tanto antes de empezar hay que realizar 

una copia de la red semántica. La inferencia termina cuando se llega a la red semántica vacía. 

Por lo tanto, lo primero que hay que hacer es extraer de la base de conocimiento la 

información suficiente y necesaria para hacer la inferencia que nos interesa. 

Si usáramos la base de conocimiento completa habría que destruirla entera para poder 

inferir (y estaríamos destruyendo información que no haría ninguna falta para inferir lo que 

queremos). 


“Turing es humano” 

“Sócrates es humano” 

“Sócrates es griego” 

“Todo humano es falible” 

¿Hay algún griego falible? 

Figura 2.11: Ejemplo de inferencia en redes semánticas (1) 

Una pregunta es siempre el antecedente de una regla.



x = y 

x = y = Socrates 


Hemos llegado a la red semántica vacía (pues la información que queda no deberíamos 

haberla cogido desde el principio). Y concluimos que sí hay algún griego falible: x = y = 

Socrates 

2.3.2. Marcos o Frames 

Subimos un grado de abstracción. 

Las redes semánticas están muy próximas a la lógica, por lo tanto se necesita todo el 

conocimiento para poder inferir (si falta conocimiento no se llega a una red semántica vacía). 

Definición 2.17 Un frame va a ser una estructura de datos que representa un tipo entidad 

y consta de una colección de ranuras con un nombre cada una, denominadas slots, donde 

cada ranura puede rellenarse mediante valores o apuntadores a otros frames. 

Ejemplo 2.21 Una persona nos dice que comió muy bien ayer en un restaurante. A partir 

de esa información podríamos responder a preguntas como: 

¿Entró en el restaurante y pidió una mesa libre? 

¿Pagó la comida al salir? 

Ejemplo 2.22 Vamos a representar los frames “Empleado” y “Padre de Familia” y los vamos 

a instanciar los dos con la misma entidad. 

Figura 2.14: Ejemplo de frame “Empleado” y “Padre de Familia”


Cuando se rellena un frame (sus ranuras) se dice que está instanciado y que representa a 

una entidad particular. 

Si no se dice ningún valor para una ranura se le pone el valor por defecto (incluso puede 

que antes de instanciar el frame), por ejemplo, num piernas = 2. 

El slot Estado civil tiene valores genéricos. 

Cuando una entidad puede instanciar frames distintos se dice que esos frames son frames 

desde puntos de vista “alternativos”. 

Hay frames que, por la propia definición, son disjuntos (por ejemplo, Padre de Familia 

y No Padre de Familia). La instanciación por dos frames disjuntos de una misma entidad 

significa que hay un error. 

Los slots con el mismo nombre en dos frames que instancian la misma entidad, deben 

tener el mismo valor (salvo excepciones, como Disposición); en otro caso se renombra el slot. 

Hay slots que tienen valores restringidos (por ejemplo, la edad en el frame Empleado debe 

estar entre 18 y 65). 

Cuando se nos da cierta información, buscamos aquel frame que mejor se ajuste (mayor 

grado de emparejamiento) a esa información, y a partir de ese momento ese frame instanciado 

representa a esa entidad. 

Propiedades genéricas de las ranuras. 

Propiedad asociada con un conjunto entidad de tal forma que cada miembro de ese 

conjunto posee esa propiedad. 

Ejemplo 2.23 En el frame “Persona”, propiedades genéricas son: sangre caliente, tiene 

madre, un corazón, ... 

Un valor por defecto es aquel que se espera encontrar en casos normales. Las ranuras 

con valores por defecto pueden conducir a errores. 

Ejemplo 2.24 “Juan y María yacen muertos en el suelo. Hay un charco de agua,...” 

Cometemos un error al presuponer que Juan y María son personas, pues en realidad 

son dos peces. 

Condiciones de ranura son condiciones que restringen los valores con los que se va a 

rellenar. 

Representación jerárquica de los frames 

Figura 2.15: Ejemplo de jerarquía de frames 

−→ es equivalente a la relación es un. Todos los frames con el mismo padre son hermanos 

y heredan las propiedades de éste.


Métodos de inferencia 

1. Existencia inferida 

Tenemos una entidad E (información recibida) que se desconoce de qué tipo es. 

Emparejamos E con el frame F que mejor se adapte a E, pero con un grado de creencia. 

Dicho grado de creencia vendrá dado por el grado de emparejamiento entre E y F . 

2. Propiedades genéricas inferidas 

Una vez emparejados E y F , a E se le asocian todas las propiedades genéricas del frame 

F con un grado de creencia (dependiente del grado de emparejamiento y del grado de 

creencia de la ranura de la propiedad genérica). 

3. Valores por defecto inferidos 

Una vez emparejados E y F , si alguna de las ranuras de valores por defecto del frame 

no se han rellenado por la entidad, toman el valor por defecto del frame. 

El grado de creencia de esos valores por defecto depende del grado de emparejamiento 

y del grado de creencia de esas ranuras con valores por defecto. 

4. Reconocimiento de situaciones anormales 

Rellenar ranuras con valores no esperados o no rellenar ranuras que es importante 

rellenarlas puede ser un error del sistema. 

Ejemplo 2.25 “Una persona tiene 5 piernas” 

“Un empleado tiene 8 años” 

5. Inferencia por analogía 

No es exclusiva de los frames y consiste en tomar información de un frame para asociársela 

a otro frame. 

Ejemplo 2.26 “La persona Pedro es como una apisonadora” 

“La Bolsa es como una montaña rusa” 

2.3.3. Guiones 

Un guión es un frame que describe una secuencia de acontecimientos en un contexto (como 

un guión de cine o teatro). 

Los elementos de que consta son: 

Conjunto de condiciones de entrada (o prerrequisitos) 


“Tiene hambre” 

“Tiene dinero” 

Un guión representa una situación si se cumplen las condiciones de entrada. 

Conjunto de resultados



“El cliente tiene menos dinero” 

“El cliente no tiene hambre” 

“El cliente está complacido” 

“El dueño tiene más dinero” 

Conjunto de materiales 

Ranuras para objetos que van a intervenir en el guión. 

Conjunto de papeles 

Ranuras para personas que van a intervenir en el guión. 

Un lugar 

Dónde se va a realizar ese guión (es una ranura del mismo). 

Conjunto de escenas 

Todos los elementos que van a ir apareciendo secuencialmente en el guión.

52 Capítulo 2. Representación del Conocimiento. Razonamiento

Capítulo 3 

Planificar para la Resolución de 

Problemas 

3.1. Planificación y Resolución de Problemas 

3.1.1. El problema de la planificación 

Definición 3.1 Planificar es la tarea de obtener una secuencia de acciones que permita llegar 

a un estado objetivo. 

Definición 3.2 A esa secuencia de acciones se le llama plan. 

En la planificación las reglas u operadores deben ser modulares (es decir, si quitamos o 

ponemos una, las demás no se ven afectadas) y el sistema debe ser completo (esto es, se deben 

recoger todas las posibilidades que puedan aparecer). 

Y antes de comenzar a tratar con más detalle el tema de la planificación debemos tener 

en cuenta las tres siguientes cuestiones: 

1. Marco de referencia 

Cuando se ejecuta una regla, ¿qué permanece sin cambios? ¿Cuál es el fondo de la 

escena en que se desarrolla la acción? 

Ejemplo 3.1 Al mover una mesa, se mueve lo que haya encima. Pero si decimos que 

una mesa está debajo de una ventana, al mover la mesa no se mueve la ventana. 

2. Problema de la cualificación 

¿En qué condiciones puede ejecutarse una regla? ¿Qué necesita en su entorno para 

ejecutarse? 

El planificador será el encargado de decidir qué regla aplicar en cada momento. 

3. Problema de la ramificación 

Cuando se ejecuta una regla, ¿qué elementos de su entorno se modifican? 

53

54 Capítulo 3. Planificar para la Resolución de Problemas 

3.1.2. Tipos de planificadores, estados y operadores 

Tipos de planificadores 

De Orden Total. Encuentran un camino desde el estado inicial al estado final. 

De Orden Parcial. Encuentran todos los posibles caminos desde el estado inicial al 

estado final. 

Jerárquicos 

Estados 

Estado Inicial 

LIBRE(B), SOBRE(C,A), SOBREMESA(A), LIBRE(C), MANOVACIA, SOBREME- 

SA(B) 

Estado Objetivo 

SOBRE(A,B), SOBRE(B,C) 

Operadores 

Vienen descritos por tres elementos: 

Lista de precondiciones (P) 

Conjunto de elementos que si son ciertos hacen al operador candidato para ser aplicado. 

Lista de adición (A) 

Elementos que se añaden al estado actual 

Lista de supresión (S) 

Elementos que se suprimen al estado actual 

Ejemplo 3.2 . 

COGER(X): 

P: SOBREMESA(X), MANOVACIA, LIBRE(X) 

A: COGIDO(X) 

S: SOBREMESA(X), MANOVACIA, LIBRE(X) 

DEJAR(X): 

P: COGIDO(X) 

A: SOBREMESA(X), MANOVACIA, LIBRE(X) 

S: COGIDO(X) 

APILAR(X,Y): 

P: COGIDO(X), LIBRE(Y) 

A: MANOVACIA, SOBRE(X,Y), LIBRE(X) 

S: COGIDO(X), LIBRE(Y) 

DESAPILAR(X,Y): 

P: MANOVACIA, LIBRE(X), SOBRE(X,Y) 

A: COGIDO(X), LIBRE(Y) 

S: MANOVACIA, LIBRE(X), SOBRE(X,Y)

3.1 Planificación y Resolución de Problemas 55 

3.1.3. Métodos de planificación 

Resolución hacia adelante 

Ejemplo 3.3 Dado el estado inicial descrito como: 

Y el estado final descrito como: 

SOBREMESA(A) 

SOBREMESA(B) 

SOBREMESA(C) 

LIBRE(A) 

LIBRE(B) 

LIBRE(C) 

MANOVACIA 

SOBRE(A,B), SOBRE(B,C) 

Se van aplicando operadores para llegar desde el estado inicial al estado final. 

Resolución hacia atrás 

Partimos del estado final e intentamos llegar al estado inicial. Pero para luego dar una 

solución necesitamos aplicar unos operadores inversos. 

OBJET IV O = {L ∧ G 1 ∧ G 2 ∧ . . . ∧ G N } 

SUBOBJET IV O = {P D ∧ G ′ 1 ∧ G′ 2 ∧ . . . ∧ G′ N } 

La regla D será candidata a ser aplicada sobre L si en su lista de adición está L ′ y existe 

un unificador que hace Ly L ′ iguales. 

Si se aplica D sobre L, entonces L se transforma en las precondiciones de D, esto es, en 

P D . 

G ′ i son los elementos obtenidos por regresión después de haber aplicado la regla D, para 

lo cual necesitamos una función de regresión. 

Definición 3.3 R[Q, D U ] es la regresión del objetivo Q = {G 1 , G 2 , . . . , G N } al aplicar D U 

(regla D aplicándole el unificador U). 

1. Si Q U es un literal de A U (lista de adición) entonces 

R[Q U , D U ] = V (Verdadero) 

2. Si Q U es un literal de S U (lista de supresión) entonces 

R[Q U , D U ] = F (Falso) 

3. En otro caso 

R[Q U , D U ] = Q U 

Todos los elementos cuya regresión sea verdadera no es necesario comprobarlos en el 

futuro (y por lo tanto no aparecen en el siguiente subobjetivo). 

Si la regresión de algún elemento es falsa, no se puede aplicar dicha regla. 

Ejemplo 3.4 Sea OBJETIVO={COGIDO(A), LIBRE(B), SOBRE(B,C)} 

Observamos que COGIDO(A) pertenece a la lista de adición de DESAPILAR(X,Y) si 

aplicamos el unificador X=A. Por lo tanto, en el siguiente subobjetivo desaparecerá COGI- 

DO(A), que será sustituido por la lista de precondiciones de DESAPILAR(X,Y).


Ahora aplicamos regresión al resto de elementos del OBJETIVO, para lo cual tenemos 

que ampliar el unificador que teníamos para que incluya Y=B. Así, tenemos que 

R[LIBRE(B),DESAPILAR(A,B)] = V, pues LIBRE[B] pertenece a la lista de adicción de 

DESAPILAR(A,B) y por lo tanto, no aparecerá en el siguiente subobjetivo (no es necesario 

comprobarlo en el futuro). 

R[SOBRE(B,C),DESAPILAR(A,B)] = SOBRE(B,C), pues SOBRE(B,C) no aparece ni 

en la lista de supresión, ni en la de adición de DESAPILAR(A,B). Por lo tanto SOBRE(B,C) 

pasa tal cual al siguiente subobjetivo. 

En resumen, tenemos que 

SUBOBJETIVO={MANOVACIA, LIBRE(A), SOBRE(A,B), SOBRE(B,C)} 

Ejemplo 3.5 OBJETIVO={SOBRE(B,C), SOBRE(A,B)} 

Aplicamos APILAR(B,C) y obtenemos, tras la regresión, que 

SUBOBJETIVO={COGIDO(B), LIBRE(C), SOBRE(A,B)} 

¡¡Pero COGIDO(B) y SOBRE(A,B) son inconsistentes!! 

Nota.- Antes de seguir avanzando hay que comprobar la (in)consistencia de 

aquellos nuevos subobjetivos que hayan conseguido superar la regresión (recordemos 

que si la función de regresión aplicada sobre algún elemento devuelve falso, 

no se puede aplicar la regla). 

3.2. Planificación de Orden Total 

3.2.1. Planificación usando una pila de objetivos (STRIPS) 

Se realiza una búsqueda hacia atrás empezando por el objetivo que se quiere alcanzar. Si 

dicho objetivo es compuesto, se descompone en subobjetivos, formando una pila. 

Resuelve problemas en los que no hay interacción entre subobjetivos (o bien hay interacciones 

“débiles”). 

Ejemplo 3.6 . 

Los pasos a seguir en STRIPS son: 

SOBRE(B,C) 

SOBRE(A,B) 

SOBRE(A,B) ∧ SOBRE(B,C) 

1. Se comienza con una pila de objetivos que sólo contiene el objetivo principal. Si el 

objetivo de la parte superior de la pila se empareja con la descripción del estado real, 

se suprime este objetivo de la pila y se aplica la sustitución de emparejamiento a todas 

las expresiones que estén por debajo en la pila. 

2. En otro caso, si el objetivo que está en la cima de la pila es compuesto, el sistema 

añade encima de ese objetivo compuesto cada uno de los literales componentes (en 

cierto orden). 

3. Cuando han sido resueltos todos los objetivos componentes, si el objetivo compuesto no 

se empareja con el estado real el sistema reconsidera el objetivo compuesto, volviendo 

a listar sus componentes en la parte superior de la pila. 

Cada vez que se listan de nuevo los componentes de un objetivo el estado real puede 

ser distinto, y puede que en un momento no se resuelva el objetivo, pero más adelante 

sí.

3.2 Planificación de Orden Total 57 

Si se resuelven todos los subobjetivos, pero no el objetivo compuesto, es porque al resolver 

subobjetivos se deshacen cambios hechos por subobjetivos previamente resueltos. 

4. Cuando el objetivo “no resuelto” de la cima de la pila es un único literal STRIP busca 

una regla cuya lista de adición contenga un literal que se pueda emparejar con él. 

Ese emparejamiento reemplaza al literal de la cima. Encima de él se añade la regla (con 

ese valor de emparejamiento) y encima de la regla se ponen las precondiciones de dicha 

regla particularizadas para ese emparejamiento. 

Si las precondiciones se emparejan con el estado real, se aplica la regla. Si las precondiciones 

son compuestas, se descomponen y se añaden sus componentes a la cima de la 

pila. 

5. Cuando el elemento de la cima es una regla es porque las precondiciones de esa regla 

se emparejan con la descripción del estado y se suprimieron de la pila. 

Entonces la regla es aplicable y se aplica efectivamente a la descripción del estado, 

suprimiéndola de la pila (el sistema debe recordar las reglas que se aplican y el orden 

en que se aplican). 

Tres cuestiones interesantes a tener en cuenta a la hora de resolver un problema práctico 

son: 

1. Ordenación de los componentes de un objetivo compuesto 

2. Elección entre las particularizaciones posibles 

3. Elección de la regla aplicable, en caso de haber más de una 

Ejemplo 3.7 Estado inicial: 

LIBRE(B) 

LIBRE(C) 

SOBRE(C,A) 

SOBREMESA(A) 

SOBREMESA(B) 

MANOVACIA 

Estado final: 

SOBRE(C,B), SOBRE(A,C) 

El contenido de la pila a lo largo de la ejecución de STRIPS es: 

SOBRE(C,B) ∧ SOBRE(A,C) 

SOBRE(C,B) 

SOBRE(A,C) 


APILAR(C,B) 

SOBRE(C,B) 

SOBRE(A,C) 


LIBRE(B) ∧ COGIDO(C) 

APILAR(C,B) 

SOBRE(C,B) 

SOBRE(A,C) 

SOBRE(C,B) ∧ SOBRE(A,C)


COGIDO(C) 

LIBRE(B) 


APILAR(C,B) 

SOBRE(C,B) 

SOBRE(A,C) 


MANOVACIA, LIBRE(C), SOBRE(C,Y) 

DESAPILAR(C,Y) 

COGIDO(C) 

LIBRE(B) 


APILAR(C,B) 

SOBRE(C,B) 

SOBRE(A,C) 


Ahora la cima de la pila se empareja con el estado real, de modo que se desapila la cima y 

se aplica la regla que queda en la cima (y se anota que se ha aplicado dicha regla). 

A continuación se muestra el estado real, junto con la pila, a lo largo de la ejecución de 

STRIP: 

LIBRE(B) 

LIBRE(A) 

COGIDO(C) 

SOBREMESA(A) 

SOBREMESA(B) 

APILAR(C,B) 

SOBRE(C,B) 

SOBRE(A,C) 


LIBRE(A) 

LIBRE(C) 

SOBRE(C,B) 

SOBREMESA(A) 

SOBREMESA(B) 

MANOVACIA 

SOBRE(A,C) 


LIBRE(A) 

LIBRE(C) 

SOBRE(C,B) 

SOBREMESA(A) 

SOBREMESA(B) 

MANOVACIA 

LIBRE(C) 

COGIDO(A) 

LIBRE(C) ∧ COGIDO(A) 

APILAR(A,C) 

SOBRE(A,C) 


LIBRE(A) 

LIBRE(C) 

SOBRE(C,B) 

SOBREMESA(A) 

SOBREMESA(B) 

MANOVACIA 

SOBREMESA(A), LIBRE(A), MANOVACIA 

COGER(A) 

COGIDO(A) 


APILAR(A,C) 

SOBRE(A,C) 


LIBRE(C) 

COGIDO(A) 

SOBRE(C,B) 

SOBREMESA(B) 

COGIDO(A) 


APILAR(A,C) 

SOBRE(A,C) 

SOBRE(C,B) ∧ SOBRE(A,C)

3.2 Planificación de Orden Total 59 

LIBRE(A) 

SOBRE(A,C) 

SOBRE(C,B) 

SOBREMESA(B) 

MANOVACIA 

SOBRE(A,C) 


Finalmente, no olvidemos devolver el plan que hemos encontrado y que en este caso es el 

siguiente: 

DESAPILAR(A,C) 

APILAR(C,B) 

COGER(A) 

APILAR(A,C) 

Ejemplo 3.8 Un problema que STRIP no puede resolver es el de permutar los valores de 

dos registros del procesador. 

Estado inicial: 

CONTENIDO(X,A) 

CONTENIDO(Y,B) 

CONTENIDO(Z,0) 

Estado final: 

CONTENIDO(X,B) 

CONTENIDO(Y,A) 

Contamos con la siguiente operación: 

ASIGNA(U,R,T,S): 

P: CONTENIDO(R,S), CONTENIDO(U,T) 

S: CONTENIDO(U,T) 

A: CONTENIDO(U,S) 

CONTENIDO(X,A) 






CONTENIDO(R,B) ∧ CONTENIDO(X,T) 

ASIGNA(X,R,T,B) 



CONTENIDO(X,B) ∧ CONTENIDO(Y,A) 


CONTENIDO(X,B) ∧ CONTENIDO(Y,A) 

Hemos llegado a un punto en el que no se puede continuar, ya que la interacción entre 

subobjetivos es demasiado fuerte. 

3.2.2. STRIP con protección de objetivos (RSTRIP) 

En este nuevo método, cuando se empareja la cima de la pila con el estado real, no se 

desapila la cima sino que se marca con un asterisco (*). Y si una regla va a deshacer algún 

objetivo marcado, no se aplica. 

Una línea horizontal divide a la pila en dos. Lo que haya por encima de ella está ya 

resuelto, y lo que esté por debajo está por resolver. 

Los corchetes laterales indican los componentes de un objetivo compuesto. Si la línea 

horizontal atraviesa un corchete, ninguno de los subobjetivos por debajo de la línea dentro 

del corchete puede deshacer los subobjetivos por encima de la línea dentro del corchete. 

RSTRIP encuentra siempre el plan más corto.


Si resolviéramos el ejemplo 3.7 con RSTRIP obtendríamos el mismo resultado que con 

STRIP, ya que no hay interacción entre subobjetivos. 

Definición 3.4 Regresión: se aplica regresión entre el violador y cada una de las reglas por 

encima del violado. Si pasa la regresión, el violador se coloca como una precondición más de 

esa regla. 

Sí se permiten violaciones temporales, esto es, una regla viola un objetivo protegido, pero 

otra regla por debajo de la primera en la pila vuelve a resolver ese objetivo. 

3.3. Planificación Ordenada Parcialmente 

En este tipo de planificación (también llamada no lineal) se trabaja con subplanes, en vez 

de con subproblemas. 

Primero se construye un grafo con los subplanes. Después se añaden unas restricciones 

que imponen un cierto orden entre los operadores. Y finalmente, para devolver una solución, 

es necesario linealizar el plan. 

Ejemplo 3.9 Objetivo: “Tener el zapato derecho puesto y tener el zapato izquierdo puesto” 

Operadores: 

ZapatoDerecho 

ZapatoIzquierdo 

P: Calcetín derecho puesto 

P: Calcetín izquierdo puesto 

A: Zapato derecho puesto 

A: Zapato izquierdo puesto 

CalcetinDerecho 

A: Calcetín derecho puesto 

CalcetinIzquierdo 

A: Calcetín izquierdo puesto 

Figura 3.1: Ejemplo de planificación no lineal 

En la figura 3.1 se muestra un conjunto de subplanes que resuelven el problema. Ahora 

hay que linealizar este conjunto para dar una secuencia concreta de operadores. 

Hay 6 planes posibles. Uno de ellos puede ser, por ejemplo: 

CalcetinIzquierdo, CalcetinDerecho, ZapatoDerecho, ZapatoIzquierdo.

3.3 Planificación Ordenada Parcialmente 61 

3.3.1. Planificación no lineal sistemática (PNLS) 

Ahora se devuelve un conjunto de (sub)planes con (posibles) conflictos entre ellos. Al 

aplicar un nuevo operador se comprueba que no se deshaga lo que ya se tenía resuelto. 

Construimos una estructura que conecte los operadores ficticios FIN e INICIO, descomponiendo 

el estado final para intentar llegar al inicial. 

A continuación se indican las precedencias entre todos los operadores. Al igual que antes, 

por último, se debe linealizar para buscar un plan concreto que resuelva el problema (los 

operadores deberán aplicarse de inicio a fin). 

Ejemplo 3.10 En la figura 3.2 se muestra la representación gráfica del operador 

MOVER(X,Y,Z) 

P: SOBRE(X,Y), LIBRE(Z), LIBRE(X) 

A: LIBRE(Y), SOBRE(X,Z) 

S: SOBRE(X,Y), LIBRE(Z) 

Que significa que mueve X, que está sobre Y , encima de Z. 

Figura 3.2: Operador MOVER(X,Y,Z) 

Obsérvese que la lista de supresión no aparece explícitamente. X, Y y Z son variables 

que deben instanciarse. 

El estado inicial para nuestro problema será: 

SOBRE(C,A) 

SOBRE(B,SUELO) 

Por su parte, el estado final será: 

SOBRE(A,B) 

SOBRE(B,C) 

En la figura 3.3 se muestra la estructura que conecta FIN e INICIO. 

En vista de dicha figura, los dos subplanes que hay son: 

Subplan del primer subobjetivo −→ b < a 

Subplan del segundo subobjetivo −→ c 

Por lo que podríamos pensar que hay tres posibles planes, a saber 

c 

b < c < a 

b < a < c 

Pero si somos observadores veremos que no todos son factibles. En realidad el único plan 

válido es 

b < c < a


Figura 3.3: Ejemplo de planificación no lineal sistemática 

3.4. Planificación Jerárquica 

Se priorizan las precondiciones para definir operadores simplificados, y aplicamos un planificador 

cualquiera (STRIP, ...) para obtener un esbozo del plan. 

Precondiciones 

N o operadores que 

lo hacen cierto 

Prioridad 

LIBRE 3 1 

MANOVACIA 2 2 

COGIDO 2 2 

SOBREMESA 1 3 

SOBRE 1 3 

Intentamos resolver sólo los literales de prioridad 3 (mayor dificultad) y el resto se consideran 

siempre ciertos. 


ESTADO OBJETIVO El plan que se encuentra es 

LIBRE(B) 

LIBRE(C) 

SOBRE(C,A) 

SOBREMESA(A) 

SOBREMESA(B) 

MANOVACIA 


{APILAR(C,B), 

APILAR(A,C)}. Si este plan 

no tiene suficiente detalle, se 

vuelve a aplicar el 

planificador con nivel de 

prioridad 2.

Capítulo 4 

El Aprendizaje Computacional 

4.1. El Problema del Aprendizaje Computacional 

El aprendizaje denota cambios en el sistema que son adaptativos en el sentido de que 

permiten al sistema hacer la misma tarea o tareas a partir de la misma población más eficiente 

y/o eficientemente la próxima vez. 

El aprendizaje memorístico es el más básico y consiste en memorizar (nada de razonar). 

4.2. Conceptos Básicos 

4.2.1. Tipos, fases y características del aprendizaje 

Tipos de aprendizaje 

Catalogación en función de lo que sabemos del sistema que queremos aprender (o modelar). 

Aprendizaje supervisado 

Se conoce la salida que se espera del ejemplo que se le enseña al sistema que queremos 

que aprenda. 

Ejemplo 4.1 Se le muestra una silla a un niño y se le dice: “eso es una silla” 

Aprendizaje no supervisado 

Se le muestra un ejemplo al sistema que queremos que aprenda, pero no le decimos de 

qué clase es. El sistema, a partir de lo que hay aprendido “debe” dar una respuesta. 

Ejemplo 4.2 Se le muestra una silla a un niño que él nunca haya visto y se le pregunta 

qué tipo de objeto es. 

De últimas, lo que se pretende es construir modelos que representen tanto a los ejemplos 

que se le han mostrado al sistema, como a aquellos ejemplos que NO se le han mostrado. 

Fases del aprendizaje 

En la figura 4.1 se muestran las fases más importantes del aprendizaje. Algunos comentarios 

al respecto: 

El Modelo Aprendido debe representar (cuando ya se haya construido finalmente) todos 

los rasgos implícitos en los ejemplos mostrados (es decir, en los Datos de Entrenamiento). 

Los Datos de Prueba nos servirán para comprobar si el modelo aprendido es correcto 

(suficientemente fiable). 

63

64 Capítulo 4. El Aprendizaje Computacional 

La Predicción, que no es propiamente una fase del aprendizaje, tiene lugar una vez que 

el modelo ya sea adecuado. 

Figura 4.1: Fases del aprendizaje 

En el modelo encontramos 2 tipos de parámetros: 

1. Parámetros internos: Los que se aprenden en la fase de aprendizaje (a partir de los 

externos). 

2. Parámetros externos: No se aprenden, sino que son dados a priori en base a un conocimiento 

experto. 

Características del aprendizaje 

Cuatro son las principales características del aprendizaje: 

1. Precisión: fiabilidad del modelo (característica importante). 

2. Velocidad: velocidad de predicción a partir del modelo. 

Por ejemplo, un modelo fiable al 90 % muchas veces es preferible a otro modelo fiable 

al 99 %, siempre que el primero sea mucho más veloz que el segundo. 

3. Comprensibilidad: el modelo debe ser comprensible para el usuario. 

4. Tiempo en aprender: tiempo necesario para aprender el modelo. 

A partir de los datos de entrenamiento obtenemos varios modelos (que a su vez pueden 

variar con los parámetros externos e internos). Con los datos de prueba obtenemos el modelo 

(según las características que busquemos) con su fiabilidad. Una vez terminado el modelo con 

su fiabilidad, comenzamos a predecir. 

El hecho de realimentar la fase de predicción para intentar que el sistema aprenda, es 

mucho más probable que disminuyamos la fiabilidad.

4.2 Conceptos Básicos 65 

4.2.2. Estimación del error 

En la matriz de confusión se reflejan todos los ejemplos de la base de prueba con respecto 

a la clase real de cada ejemplo y la clase predicha por el modelo. 

Ejemplo 4.3 Enfermedad del corazón. 

Clases predichas 

por el modelo 

150 ejemplos Ausente Presente 

Clases reales Ausente 80 10 

de los ejemplos Presente 20 40 

80 (de los 150) ejemplos realmente no tenían ataque al corazón y el modelo acierta. 

10 (de los 150) ejemplos realmente no tenían ataque al corazón y el modelo falla. 

20 (de los 150) ejemplos realmente sí tenían ataque al corazón y el modelo falla. 

40 (de los 150) ejemplos realmente sí tenían ataque al corazón y el modelo acierta. 

Matriz de costos: 

Clases predichas 

por el modelo 

150 ejemplos Ausente Presente 

Clases reales Ausente 0 1 

de los ejemplos Presente 5 0 

Obsérvese que tiene mayor costo si realmente hay ataque al corazón y el modelo falla, que 

el caso en que no hay ataque al corazón y el modelo falla. 

Error = 20 × 5 + 10 × 1 = 110 

Vamos a estudiar tres estimadores de errores para la matriz de confusión: 

1. Estimador del error de los ejemplos 

Suponemos que se tienen N ejemplos de prueba. Contamos cuántas predicciones son 

incorrectas, llamado E. El estimador del error es E N . 

Para el ejemplo anterior 30 

150 

Para poder aplicar este estimador se necesita que la base de prueba sea distinta que la 

base de entrenamiento. 

2. Estimador del error de resustitución 

Igual que 1), pero la base de prueba es igual o un subconjunto de la base de entrenamiento. 

Este estimador tiende a subestimar el error. 

¡Ojo! No se pueden comparar modelos distintos con distintos estimadores del error. 

3. Estimador del error por validación cruzada 

Sea S el conjunto de ejemplos, lo dividimos en v partes más o menos de igual tamaño 

y disjuntas S 1 , . . . , S v 

Usaremos S − S i , i = 1, . . . , v como base de entrenamiento y S i como base de prueba. 

Para estimar el error se usa el estimador para el error de los ejemplos, y lo llamamos 

R i 

v∑ 

i=1 

|S i | 

|S| · R i 

Este estimador evalúa una técnica (método) de aprendizaje, mientras que 1) y 2) evalúan 

un modelo.

66 Capítulo 4. El Aprendizaje Computacional 

Además de por la clase, se puede clasificar a partir de atributos multivaluados (con un 

número de valores finito). 

En contraste, los atributos reales no pueden usar los estimadores vistos, sino que se usa 

la recta de regresión, mediante el error cuadrático medio, que se calcula como: 

∑ N 

i=1 (y∗ i − y i) 2 

donde y ∗ i es el valor real y y i es el valor estimado. 

Cuanto menor sea este valor, mejor será el modelo. 

El costo de un modelo, por su parte, se calcula como: 

c = 

∑N c 

N 

∑N c 

i=1 j=1,i≠j 

c ij ε ij 

ε ij : ejemplos de la clase i, predichos en la clase j. 

c ij : costo de la clase i predicha como j. 

N c : número de clases existentes. 

Para el ejemplo anterior: c = 10 × 1 + 20 × 5 = 110

Capítulo 5 

Aprendizaje por Inducción en 

Modo Estructural 

Nota.- Los capítulos que vienen ahora, salvo el último, estudian aprendizaje 

supervisado, bien por clasificación, bien por regresión. El aprendizaje, además, 

se hace a partir de los ejemplos, lo cual recibe el nombre de aprendizaje por 

inducción. 

Ejemplo 5.1 Para clasificar como silla se dice que tiene 4 patas, un tablero,... 

Pero no se dice que las patas tienen que estar separadas, el tablero tiene que estar sobre 

las patas... 

Esto último se le conoce como estructura del ejemplo y es lo que vamos a estudiar en este 

capítulo. 

5.1. Programa de aprendizaje de Winston 

Usa redes semánticas para representar tanto los ejemplos como los modelos. 

Empieza siempre a partir de un ejemplo llamado positivo, que no es más que un ejemplo 

que pertenece a la clase que queremos aprender, (por contraposición, un ejemplo negativo es 

aquel que no pertenece a la clase que queremos aprender). 

También se usan casi-ejemplos que no es más que un ejemplo negativo, pero no es positivo 

por muy pocos rasgos (normalmente uno solamente). 

El procedimiento de Winston tiene 2 subprocedimientos: 

Para ejemplos positivos −→ Generalización 

Para ejemplos negativos o casi-ejemplos −→ Especialización 

5.1.1. Generalización 

Empleada cuando durante el aprendizaje se nos muestra un ejemplo positivo, hace uso de 

cuatro funciones heurísticas: 

1. Heurística de subida de árboles (generaliza conceptos subiendo de nivel en la estructura 

jerárquica de conceptos) 

2. Heurística de conjunto ampliado (igual que 1, pero sin conocer la estructura jerárquica) 

3. Heurística de enlace eliminado 

4. Heurística de intervalo cerrado 

67

68 Capítulo 5. Aprendizaje por Inducción en Modo Estructural 

Figura 5.1: Ejemplos de la base de entrenamiento. Generalización 

Ejemplo 5.2 Queremos aprender el concepto de arco. 

En la figura 5.1(a) vemos el ejemplo positivo primero, la figura 5.1(b) es un ejemplo negativo 

y la figura 5.1(c) es otro ejemplo positivo. 

Heurística de conjunto ampliado 

Si decimos que la parte superior del arco es de color rojo y luego se dice que es verde, el 

sistema aprende que el color de la parte superior puede ser rojo o verde. 

Si luego mostramos una de color amarilla, aprenderá que el color puede ser rojo, verde o 

amarillo. 

Heurística de enlace eliminado 

Si a continuación nos dicen que ya no hay más colores podemos eliminar el enlace del 

color porque es una característica que no es determinante. 

Heurística de intervalo cerrado 

Si se enseña un arco cuyas bases miden 20 cm y luego otro cuyas bases miden 10 cm, se 

aprende que la base puede estar en el intervalo [10,20] cm. 

5.1.2. Especialización 

Empleada cuando durante el aprendizaje se nos muestra un ejemplo negativo o un casiejemplo, 

hace uso de dos funciones heurísticas: 

1. Heurística del enlace requerido 

Cuando el modelo evolucionado tiene un enlace en el lugar donde el casi-ejemplo no lo 

tiene. 

Ejemplo 5.3 En el ejemplo positivo de la figura 5.2(a) sí existe el enlace soporta a, 

mientras que en el casi-ejemplo de la figura 5.2(b), no existe dicho enlace. 

Figura 5.2: Ejemplos de la base de entrenamiento. Especialización (1) 

Conseguimos enfatizar el enlace soporta a diciendo que debe soportar a.

5.2 Espacio de versiones 69 

2. Heurística del enlace olvidado 

Cuando el casi-ejemplo tiene un enlace donde el modelo evolucionado no lo tiene. 

Ejemplo 5.4 En el ejemplo positivo de la figura 5.3(a) no existe el enlace toca, mientras 

que en el casi-ejemplo de la figura 5.3(b), sí existe dicho enlace. 

Figura 5.3: Ejemplos de la base de entrenamiento. Especialización (2) 

Se enfatiza el negativo del enlace toca diciendo que no debe tocar 

Ejemplo 5.5 En la figura 5.4 se muestran los pasos en el aprendizaje del concepto “arco”, 

mediante el proceso de Winston, con generalizaciones y especializaciones a partir de ejemplos 

positivos y casi-ejemplos. 

Una vez tengamos la red semántica que represente el modelo (es decir, el último modelo 

evolucionado), tenemos que probar el modelo (muy importante) para medir la fiabilidad del 

mismo. 

Para ello el sistema debe emparejar las redes semánticas de los ejemplos de prueba con la 

del modelo, para obtener un valor de “similitud” que nos pueda decir si ha acertado o no. 

5.2. Espacio de versiones 

La representación de los ejemplos se hace mediante frames. 

Ejemplo 5.6 Queremos aprender cuándo un coche es económico. El frame de la figura 5.5 

es equivalente a decir lo siguiente: 

origen = x 1 ∈{USA, Japón, Alemania, ...} 

marca = x 2 ∈{Toyota, Seat, Ford, ...} 

color = x 3 ∈{Blanco, Azul, ...} 

año = x 4 ∈{1960, 1970, ...} 

tipo = x 5 ∈{lujo, económico, deportivo, ...} 

Un instanciación del frame coche puede ser: 

x 1 

Japón 

x 2 

Honda 

x 3 

Azul 

x 4 1970 

x 5 

económico 

G } {{ } S 

(general) Espacio de versiones (ej positivo) 

Conforme se van mostrando ejemplos, G se va especializando y S se va generalizando, 

hasta que lleguen a encontrarse. 

En la especialización de G aparecerán varias opciones {(. . .), (. . .), . . .} 

Si G y S son unitarios y coinciden, devolvemos G(= S). 

Si G y S son unitarios y no coinciden, hay contradicción en la base de conocimiento.


Ejemplo 5.7 G = {(x 1 , x 2 , x 3 , x 4 , x 5 )} (G es unitario) 

Primer ejemplo 

positivo 

Segundo ejemplo 

negativo 

Tercer ejemplo 

positivo 

Cuarto ejemplo 

negativo 

Quinto ejemplo 

positivo 

Japón 

Honda 

Azul 

1970 

económico 

Japón 

Toyota 

Verde 

1970 

deportivo 

Japón 

Toyota 

Azul 

1990 

económico 

USA 

Chrysler 

Azul 

1980 

económico 

Japón 

Honda 

Blanco 

1980 

económico 

S={(Japón,Honda,Azul,1970,económico)} 

(S es unitario) 

G={(x 1 ,Honda,x 3 , x 4 , x 5 ),(x 1 , x 2 ,Azul,x 4 , x 5 ), 

(x 1 , x 2 , x 3 , x 4 ,económico)} 

S no cambia 

G={(x 1 , x 2 ,Azul,x 4 , x 5 ),(x 1 , x 2 , x 3 , x 4 ,económico)} 

S={(Japón,x 2 ,Azul,x 4 ,económico)} 

G={(Japón,x 2 ,Azul,x 4 , x 5 ),(Japón,x 2 , x 3 , x 4 ,económico)} 

S no cambia 

G={(Japón,x 2 , x 3 , x 4 ,económico)} 

S={(Japón,x 2 , x 3 , x 4 ,económico)} 

Como ya G = S y ambos son unitarios, terminamos y devolvemos G (o S).

5.2 Espacio de versiones 71 

Figura 5.4: Ejemplo de aprendizaje del concepto “arco”


Figura 5.5: Frame Coche

Capítulo 6 

Aprendizaje Basado en Instancias 

Existen sistemas en los que es inviable encontrar un modelo global que represente todos 

los ejemplos posibles y por lo tanto tenemos que conformarnos con una expresión local que 

modele sólo una parte del sistema. 

Figura 6.1: Fases del aprendizaje basado en instancias 

El modelo es directamente el conjunto de ejemplos de entrenamiento. 

6.1. Convergencia de los Métodos Basados en Instancias 

∫ 

R p(x)d(x) ≡ p ∗ (x) 

V 

donde 

p(x): distribución de probabilidad 

p ∗ (x): distribución real de probabilidad 

R: región 

V : volumen 

Y por otra parte: 

donde 

M: conjunto de ejemplos 

V : volumen que ocupan esos ejemplos 

K M : subconjunto de ejemplos de M 

p M (x) = 

K MM 

V M 

73

74 Capítulo 6. Aprendizaje Basado en Instancias 

Cumpliéndose las siguientes propiedades: 

lím M→∞ V M = 0 

lím M→∞ K M = ∞ 

lím M→∞ 

K M 

M = 0 

Si se cumplen estas tres propiedades se dice que p M (x) converge a p ∗ (x) 

En el plano teórico esto funciona muy bien, pero en la práctica no podemos disponer 

de infinitos ejemplos (y por lo tanto tampoco podemos obtener un subconjunto infinito de 

ejemplos, ni el volumen tiende a cero, etc). 

En consecuencia el valor que obtengamos de p ∗ (x) (a partir de p M (x)) será un valor 

aproximado. 

Existen 2 formas de calcular p M (x): 

1. K M = √ M → Método de los k-vecinos 

2. V M = 1 √ 

M 

→ Método de Parzen 

6.2. Aprendizaje mediante k M vecinos 

Definición 6.1 X = {x 1 , x 2 , . . . , x M } −→ El conjunto de ejemplos, suponiendo que M es 

muy grande (que también será el modelo). 

Definición 6.2 C = {c 1 , c 2 , . . . , c L } −→ Conjunto de clases en las que están los x i ejemplos. 

Definición 6.3 x i = (x i 1 , . . . , xi n) −→ Vector de características. 

Dados los n atributos de cada ejemplo (que pueden ser reales o multivaluados), tenemos 

dos posibilidades: 

1. Clasificar: inferir una clase o atributo multivaluado 

2. Hacer regresión: inferir un atributo real 

Regla del vecino más cercano para clasificar 

Se le asignan atributos a un ejemplo nuevo a partir de los atributos de su vecino más 

cercano conocido. 

Para hallar el vecino más cercano del nuevo ejemplo z calculamos la distancia euclídea 

hasta todos los ejemplos de M. 

Como clase de z se le asigna la clase de su vecino más cercano. 

Realmente, el método de los k M vecinos lo que hace es buscar los k vecinos más cercanos 

a z. Y puesto que sólo trabajamos con k (del total de M) ejemplos, el aprendizaje es local. 

Figura 6.2: Aprendizaje basado en k-vecinos

6.3 Aprendizaje mediante el método de Parzen 75 

Supongamos que z = (z 1 , z 2 , z 3 , . . . , z n , c) y que no conocemos z 2 ni c (la clase). 

Hallamos que la clase predominante entre los k vecinos más cercanos a z es c q . Y como 

desconocemos la clase de z, le asignamos c q . 

Si z 2 es multivaluado, se le asigna el atributo predominante de entre los ejemplos (k 

vecinos más cercanos) que tienen la misma clase que z. 

Si z 2 es real, se le asigna la media de los valores del atributo x 2 en los k vecinos más 

cercanos que tienen la misma clase que z. 

Supongamos ahora que z = (z 1 , z 2 , z 3 , . . . , z n , c) y que sólo desconocemos z 2 . 

Si en los k vecinos más cercanos la clase predominante coincide con c, z 2 se infiere igual 

que antes. 

Si por el contrario no coincide con c, no se puede inferir nada. A este tipo de ejemplos se 

le llaman espúreos. 

Para hallar la distancia euclídea se usan todos los atributos reales que tenga cada ejemplo 

∑ 

de(z, x j ) = √ n (z i − x j i )2 

6.3. Aprendizaje mediante el método de Parzen 

Dado un nuevo ejemplo z, se nos da un volumen (o ventana) y trabajaremos, igual que 

antes, con todos aquellos ejemplos que caigan dentro de la ventana dada centrada en z 

i=1 

Figura 6.3: Aprendizaje basado en Parzen 

Si dentro de la ventana no hay ningún ejemplo, puede ser por lo siguiente: 

La ventana es demasiado pequeña 

El ejemplo z está demasiado alejado de la distribución normal de los datos (este hecho 

no se conoce con k-vecinos). 

Por eso, la ventana que generalmente se utiliza es de la forma 

( 

K(z, x e 1 

) = 

exp − 1 

) 

(2π) r 2 h r |Cov| 1 2 2h 2 (z − xe ) −t Cov −1 (z − x e ) 

y recibe el nombre de ventana gaussiana. 

6.4. Mejora de los métodos basados en instancias 

Cuando la base de ejemplos es muy grande (millones de ejemplos), surge un problema de 

eficiencia, pues para encontrar los k vecinos más cercanos hay que examinar la base de datos 

completa. 

Para resolver esto, vamos a ver dos maneras: la multiedición y la condensación.


6.4.1. Multiedición 

Puesto que los errores se condensan en la frontera que delimita las clases de los ejemplos, 

la multiedición elimina dichos ejemplos, reduciendo así el error cometido (también se dice 

que reduce el ruido de la base de ejemplos). 

Figura 6.4: Multiedición 

La figura 6.4(a) muestra la base de ejemplos original, mientras que en la figura 6.4(b) se 

observa la misma base de ejemplos multieditada. 

función Hold-out Editing(R,k,M) devuelve conjunto editado de ejemplos 

entradas: R: Conjunto inicial de ejemplos a editar 

k: Número de vecinos para la regla de clasificación 

M: Número de bloques para hacer la partición hold-out 

resultado: R: Conjunto editado de ejemplos 

1. Dividir aleatoriamente R en M subconjuntos disjuntos R i , i = 1, . . . , M 

2. Para i = 1, . . . , M clasificar los ejemplos de R i mediante la regla k m usando 

R (i+1)mod M como conjunto de entrenamiento 

3. Eliminar de R los ejemplos mal clasificados en el paso 2 

Function Hold-out Editing(R,k,M ) 

función Multiedit(R,M,I) devuelve conjunto editado de ejemplos 

Se basa en la repetición iterativa de Hold-out Editing con k = 1 

entradas: R: Conjunto inicial de ejemplos a editar 

M: Número de bloques para hacer la partición hold-out 

I: Número de iteraciones sin cambios (criterio de parada) 

resultado: R: Conjunto editado de ejemplos 

1. Ejecutar Hold-out Editing(R, k = 1, M) 

2. si en las últimas I iteraciones no ha habido edición entonces PARAR. 

en otro caso ir al paso 1. 

Function Multiedit(R,M,I ) 

Nota.- ¡Ojo! Aplicar multiedición de forma indiscriminada sobre bases de ejemplos 

que realmente no la necesiten podría provocar incluso la eliminación de una 

clase.

6.4 Mejora de los métodos basados en instancias 77 

Ejemplo 6.1 Vamos a clasificar R 1 con respecto a R 2 , según la base de ejemplos particionada 

que se muestra en la figura 6.5 

Figura 6.5: Base de ejemplos particionada 

R 2 , con 1-vecino más cercano, asigna a todos los ejemplos de R 1 la clase 1. Como no hay 

errores no se modifica R. 

Ahora clasificamos R 2 con respecto a R 3 . R 3 asigna la clase 2 a todos los ejemplos de 

R 2 . Los ejemplos erróneamente clasificados se eliminan de la base de ejemplos, tal y como se 

muestra en la figura 6.6. 

Figura 6.6: Base de ejemplos particionada y parcialmente multieditada 

6.4.2. Condensación 

Se genera una base de ejemplos reducida y consistente (es decir, a la hora de inferir, el 

resultado es el mismo que si usáramos la base completa). Así, se mejora la eficiencia. 

La base de ejemplos reducida está formada por los ejemplos de las fronteras. 

Figura 6.7: Condensación 

En la figura 6.7(a) se muestra la base de ejemplos multieditada, mientras que en la figura 

6.7(b) se muestra la misma base de ejemplos multieditada y condensada. 

La inferencia seguirá siendo igual, pero ahora hay menos error y es más eficiente. 

La delimitación de la frontera a partir de un conjunto condensado depende de dicho 

conjunto.


función Condensing(R) devuelve conjunto condensado de ejemplos 

entradas: R: Conjunto (multieditado) de ejemplos 

resultado: S: Conjunto condensado de R consistente con R 

1. Seleccionar un ejemplo arbitrariamente, p ∈ R 

R ← R − {p} 

S = {p} 

2. n ← 0 

para todo p ′ ∈ R hacer 

si clase(p ′ ) ≠ clase 1m (p ′ , S) entonces 

R ← R − {p ′ } 

S ← S + {p ′ } 

n ← n + 1 

3. si n = 0 o bien tamaño(R) = 0 entonces PARAR 

en otro caso ir al paso 2 

Function Condensing(R) 

6.5. Funciones Distancia Heterogéneas 

6.5.1. Normalización 

La normalización es necesaria para que todos los atributos tengan el mismo peso. 

Ejemplo 6.2 

A(900, 9) 

B(1000, 3) 

C(300, 3) 

x 1 ∈ [0, 1000] d(A, C) = √ (900 − 300) 2 + (9 − 3) 2 = 600 ′ 03 

x 2 ∈ [0, 10] d(B, C) = √ (1000 − 300) 2 + (3 − 3) 2 = 700 

Vemos que x 1 domina a x 2 , ya que sea cual sea el valor de x 2 , el punto más cercano a C 

siempre será A. 

Una opción para normalizar es dividir cada atributo entre el valor máximo de su rango. 

Ejemplo 6.3 

√ (900 ) − 300 2 ( ) 9 − 3 2 

d(A, C) = 

+ = 0 ′ 848 

1000 

10 

√ (1000 ) − 300 2 ( ) 3 − 3 2 

d(B, C) = 

+ = 0 ′ 555 

1000 

10 

Y vemos cómo ahora el punto más cercano a C es B. 

6.5.2. Discretización 

En ocasiones puede no interesar tener atributos reales (por ejemplo, porque utilizamos 

un método discreto, no continuo). 

Para ello, dividimos el rango de valores reales en distintos subrangos y entonces se trabaja 

como si ese atributo fuera multivaluado, como se muestra en la figura 6.8 

Figura 6.8: Discretización

6.5 Funciones Distancia Heterogéneas 79 

6.5.3. Distintas métricas para el cálculo de distancias 

Métrica heterogénea coincidencia euclídea MHCE 

∑ 

MHCE(x, y) = √ n d i (x i , y i ) 2 x = (x 1 , x 2 , . . . , x n ) 

y = (y 1 , y 2 , . . . , y n ) 

i=1 

⎧ 

⎨ 1 si x i o y i desconocido 

d i (x i , y i ) coincidencia(x i , y i ) si i multivaluado 

⎩ 

r i Normalizado(x i , y i ) en otro caso 

{ 0 si xi = y 

coincidencia(x i , y i ) 

i 

1 en otro caso 

r i Normalizado(x i , y i ) = |x i − y i | 

rango i 

rango i = max i − min i 

Métrica heterogénea de diferencia de valores MHDV 

∑ 

MHDV (x, y) = MHCE(x, y) = √ n d i (x i , y i ) 2 x = (x 1 , x 2 , . . . , x n ) 

y = (y 1 , y 2 , . . . , y n ) 

i=1 

⎧ 

⎨ 1 si x i o y i desconocido 

d i (x i , y i ) MDV i Normalizado(x i , y i ) si i multivaluado 

⎩ 

r i Normalizado(x i , y i ) en otro caso 

r i Normalizado(x i , y i ) = |x i − y i | 

4σ i 

c∑ 

MDV i Normalizado(x i , y i ) = 

N i xi k 

∣ − N ∣ 

i y i k ∣∣∣ 

N i xi N i yi 

donde 

c es el número de clases 

N i xi es el número de ejemplos en el conjunto de entrenamiento que tiene el valor x i para 

el atributo i-ésimo 

N i xi k es el número de ejemplos en el conjunto de entrenamiento que toman el valor x i 

para el atributo i-ésimo y como salida la clase k. 

k=1

80 Capítulo 6. Aprendizaje Basado en Instancias

Capítulo 7 

Máquinas de Aprendizaje 

7.1. El Perceptrón como Discriminante Lineal 

Figura 7.1: Esquema de un Perceptrón 

En la figura 7.1 se muestra la imagen de un perceptrón, en la cual se tiene que: 

x = (x 1 , x 2 , . . . , x n , x n+1 ) = (x 1 , x 2 , . . . , x n , c) 

d(x) = 

n∑ 

x i w i + w 0 

i=1 

La función (*) filtra d(x) para devolver una clase, por ejemplo 

{ x ∈ c1 si d(x) ≥ 0 

x ∈ c 2 si d(x) < 0 

La capacidad de información de cada atributo x i depende de su correspondiente peso 

w i 

Las clases que va a poder discriminar este perceptrón son clases linealmente separables, 

como las mostradas en la figura 7.2 

Figura 7.2: Ejemplo de clases linealmente separables 

81

82 Capítulo 7. Máquinas de Aprendizaje 

7.1.1. Criterio y construcción del perceptrón 

Los ejemplos de entrenamiento son 

x 1 = (x 11 , x 12 , . . . , x 1n ) 

x 2 = (x 21 , x 22 , . . . , x 2n ) 

. 

x M = (x M1 , x M2 , . . . , x Mn ) 

Se comienza con un vector de pesos w 0 aleatorio (y con valores próximos a cero). A partir 

de él, con el ejemplo x 1 se obtiene w 1 , es decir 

donde f es el gradiente descendiente. 

w k+1 = f(w k , x k+1 ) 

w k+1 = w k − α k ∇J(w k ) 

donde 

w k es el vector de pesos actual 

α k ∈ [0, 1] es el paso de iteración de aprendizaje 

J(w k ) es lo que se conoce como criterio del perceptrón, y es una función que hay que 

derivar 

J(w k ) = ∑ 

x∈M C 

(−w · x) 

donde M C es el conjunto de los ejemplos mal clasificados 

x ∈ c 2 ⇔ −x ∈ c 1 

De este modo hacemos que todos los ejemplos de la clase c 2 sean de la clase c 1 y así sólo 

hay que comprobar d(x) > 0. 

∇J(w) = ∑ 

x∈M C 

(−x) 

Y finalmente tenemos que 

w k+1 = w k + α k 

∑x∈M C 

x 

El vector de pesos se va calculando hasta que no hayan ejemplos mal separados (suponiendo 

que las clases son linealmente separables). 

7.2. Redes de Perceptrones Multicapa 

Figura 7.3: Ejemplo de clases NO linealmente separables 

Un perceptrón tradicional como el visto hasta ahora sería incapaz de aprender un ejemplo 

como el mostrado en la figura 7.3(a). El resultado que debería dar es el que se muestra en la 

figura 7.3(b).

7.2 Redes de Perceptrones Multicapa 83 

Figura 7.4: Ejemplo de perceptrón multicapa 

Figura 7.5: Estructura de un perceptrón multicapa 

Para conseguirlo lo que se hace es encadenar perceptrones formando lo que se conoce 

como una red de perceptrones multicapa, como la que se muestra en la figura 7.4 

En la capa de salida de la red de perceptrones multicapa ya no se usa la función que se 

usaba antes para decidir la clase del ejemplo de entrada. Ahora se emplea la función sigmoide: 

1 

1 + e − ∑ w·x 

la cual devuelve valores en (0, 1) 

El número de capas ocultas y el número de neuronas en ellas es variable. Sin embargo se 

ha demostrado que con una sola capa oculta es suficiente. 

El número de neuronas en la capa de salida depende del número de clases que tengamos. 

Por ejemplo, si tenemos dos clases, c 1 y c 2 , podemos usar una o dos neuronas. En general 

n clases ⇒ log 2 n neuronas, como mínimo 

La representación del modelo aprendido es la propia red neuronal, con todas sus conexiones, 

los vectores de pesos w1 y w2, el número de capas ocultas y el número de neuronas de 

cada capa (definido por el usuario). 

Ahora hay que optimizar el error cuadrático, es decir, cuánto se desvía la salida de la red 

con respecto a la salida que se espera, puesto que ahora la red da valores continuos en el 

intervalo (0, 1). 

E(w) = 1 2 

M∑ 

(y j − o j ) 2 donde 

j=1 

y j clase real del ejemplo 

o j clase inferida por la red 

El algoritmo va modificando los vectores de pesos en función del error cometido con el 

último ejemplo, hasta que la variación de todos los elementos de los vectores de pesos sea

84 Capítulo 7. Máquinas de Aprendizaje 

suficientemente pequeña durante varias épocas 1 . 

Pero como a menudo no sabemos cuántas épocas son necesarias para que el modelo 

converja, se suele poner una cota superior (por ejemplo, si en 1000 épocas el modelo no 

converge, termina). 

Cuantas más neuronas hayan en la capa oculta más complejo es el sistema que se desea 

aprender y siempre es posible encontrar un modelo (pero más neuronas implican más tiempo 

de aprendizaje). 

Éste es un aprendizaje local. 

La fórmula para obtener los vectores de pesos en cada iteración es la siguiente: 

w c (t + 1) = w c (t) − ρ∇ wc E(w c ) = w c (t) + △w c (t + 1) 

Algoritmo Backpropagation 

A grandes rasgos, los pasos de este algoritmo son: 

1. Inicializar la red. 

2. Inicializar los vectores de pesos. 

3. El término h 0 y o 0 de la capa oculta y de salida, respectivamente, se pone a 1, porque 

no depende de los ejemplos. 

4. Se toma un ejemplo y se le pasa a la red. 

Para clasificar usaremos como función de decisión n intervalos (si hay n clases) con una 

fiabilidad que depende directamente de la base de prueba. 

7.3. Árboles de Clasificación 

Usados cuando la clase (o el atributo por el que queremos catalogar) es multivaluado. 

Para clases (o atributos) reales se usan los árboles de regresión. 

Cada nodo interno del árbol es un atributo (real o multivaluado) de los ejemplos, y sólo 

recogerá aquellas características que considere necesarias para discriminar. 

Las hojas son las clases o los valores del atributo multivaluado por el que queremos 

catalogar. 

Figura 7.6: Ejemplo de árbol de clasificación 

1 Una época es una pasada completa a todos los ejemplos de la base de entrenamiento

7.4 Árboles de Regresión 85 

Definición 7.1 Un nodo se dice que es puro si todos los ejemplos contenidos en él tienen la 

misma clase. 

Si un nodo no puro cumple el criterio de parada se etiqueta con la clase que predomine 

en sus ejemplos. Un atributo multivaluado no se puede usar para dividir los ejemplos de más 

de un nodo; un atributo real sí puede. 

Poda por estimación del error 

Sea C k el número de ejemplos de la clase k que hay en un nodo. 

Si la suma del error de los hijos es mayor que el error del padre, se podan los hijos y al 

padre se le asigna la clase que predomine. 

Figura 7.7: Ejemplo de poda por estimación del error 

Ejemplo 7.1 En el árbol de clasificación de la figura 7.7 el padre tiene un error de 

100 

1100 ≈ 0′ 1 

mientras que la suma de los errores de los hijos vale 

7.4. Árboles de Regresión 

10 

960 + 50 

140 ≈ 0′ 4 

El nodo hoja ahora es un atributo real y no vale la condición de nodo puro como condición 

de parada. 

Ahora en vez del valor predominante, se le asigna al nodo hoja la media de los valores del 

atributo por el que se clasifica. 

El sobreaprendizaje consiste en seguir preguntando repetitivamente por algún atributo 

real hasta que se llega a un árbol en cuyas hojas sólo hay un ejemplo. 

Para evitar esto se usa como condición de parada el número de ejemplos en un nodo y/o 

la profundidad del nodo.

86 Capítulo 7. Máquinas de Aprendizaje

Capítulo 8 

Aprendizaje por Descubrimiento 

En este capítulo vamos a tratar el aprendizaje no supervisado, es decir, en vez de tener 

como hasta ahora x = (x 1 , . . . , x n , c), se tiene x = (x 1 , . . . , x n ) que no significa que no se 

conozca la clase, sino que no existe tal clase. 

8.1. Clustering o Agrupamiento 

En este tipo de aprendizaje por descubrimiento no se habla de clasificación (puesto que no 

existen clases) sino de agrupamiento. Los ejemplos se agrupan según su similitud o semejanza 

(ya no se habla de características). 

Uno de los problemas del clustering es que se van a producir un número (normalmente) 

desconocido de agrupamientos. Para evitar esto, el número de agrupamientos que se quieran 

formar se pasa como parámetro. 

La validación de un cluster consiste en averiguar cuál es el mejor número de dichos 

agrupamientos. 

8.1.1. Algoritmo de k-medias 

Como medida de similitud entre los ejemplos se usa la distancia entre los mismos (entendiendo 

por distancia la distancia euclídea si todos los atributos son reales o alguna de 

las distancias heterogéneas vistas anteriormente si hay atributos multivaluados). Cuanto más 

cercanos sean dos ejemplos, más semejantes. 

Cada cluster tiene un centro (media) que acabará estando en el centro de gravedad de la 

masa de los ejemplos. 

Ejemplo 8.1 Sea 

x 1 = (x 1 1 , . . . , x1 n) 

x 2 = (x 2 1 , . . . , x2 n) 

x 3 = (x 3 1 , . . . , x3 n) 

la base de ejemplos. 

Entonces la media se calcula como 

( x 

1 

x = 1 + x 2 1 + x3 1 

, . . . , x1 n + x 2 n + x 3 ) 

n 

3 

3 

En el algoritmo de k-medias ||x − m i || es la norma que nos indica cuál es la similitud de 

los ejemplos. 

La función J mide el error del modelo aprendido y, por lo tanto, debe ser minimizada. 

87

88 Capítulo 8. Aprendizaje por Descubrimiento 

En cada iteración del algoritmo se calcula la distancia de cada ejemplo a cada una de 

las k medias y cada ejemplo se asocia con el cluster cuya media mejor lo represente (la más 

cercana al ejemplo). 

Si algún ejemplo cambia de cluster hay que recalcular las medias y, por consiguiente, 

recalcular J (la cual irá disminuyendo en cada iteración). 

El algoritmo para cuando J no cambie, es decir, cuando J haya alcanzado su valor mínimo 

y ningún ejemplo haya cambiado de cluster. 

Lo que hay que devolver al usuario es el modelo con el menor error y para ello se prueban 

distintos números de agrupamientos. 

El modelo con menor error (J = 0) es aquel que tenga tantos agrupamientos como ejemplos. 

Pero este modelo no es nada bueno porque no se puede inferir (se ha producido sobreaprendizaje). 

De aquí se deduce que cuanto mayor sea el número de agrupamientos, menor error habrá. 

Por eso la validación consiste en encontrar el número óptimo de agrupamientos. 

8.1.2. Mapas autoasociativos de Kohonen 

Se trata de redes neuronales no supervisadas, como la que se muestra en la figura 8.1. 

Figura 8.1: Mapa autoasociativo de Kohonen 

Cada neurona representa un vector de pesos. Se calcula la distancia entre los ejemplos de 

entrada y los vectores de pesos. 

Cuando entra el ejemplo todas las neuronas se activan y aquella con menor distancia 

recibe el nombre de unidad ganadora. Esta unidad ganadora se mueve y se acerca al ejemplo 

para representarlo. 

Es decir, la unidad ganadora cumple que w c = min 

i 

|x − w i | 

LASON 

La unidad ganadora, al moverse hacia el ejemplo de entrada para representarlo, arrastra 

a sus vecinos (es decir, éstos también se mueven, aunque menos que la unidad ganadora). 

De esta forma se aprende la topología de los datos. Esta técnica se utiliza, por ejemplo, 

en el reconocimiento de caracteres. 

⎧ 

⎨ 

w ih (t + 1) 

⎩ 

w ih (t) + 

w ih (t) 

α(t) 

d(c h , c j ) (x i(t) − w ih (t)) 

si c j es la unidad ganadora y d(c h , c j ) ≤ θ 

en otro caso 

∀ i = 1, . . . , n, donde 

α(t) es variable con el tiempo y dará el criterio de parada cuando alcance un cierto umbral. 

Suele ser una función logarítmica.

8.1 Clustering o Agrupamiento 89 

d(c h , c j ) es la distancia entre la unidad ganadora c j y el resto de neuronas c h . 

Ejemplo 8.2 Definimos d(c h , c j ) como el número de neuronas por las que hay que pasar 

para llegar desde c h hasta c j , y sea θ = 2. 

Entonces d(c j , c j ) = 1 y w ij (t) + α(t)(x i (t) − w ij (t)) 

Si d(c h , c j ) = 2 entonces w ih (t) + α(t) 

2 (x i(t) − w ih (t)) 

Algoritmo 

1. Se inicializan los pesos con valores aleatorios y pequeños 

2. Se introduce un nuevo ejemplo y se actualiza α(t) 

3. Se propaga el ejemplo a la capa de competición y se obtienen los valores de salida de 

cada neurona (es decir, la distancia del vector de pesos al ejemplo de entrada) 

4. Se selecciona la neurona c ganadora 

5. Se actualizan las conexiones entre la capa de entrada y la neurona c, así como la de su 

vecindad según su grado de vecindad 

6. Si α(t) está por encima de un umbral volvemos al paso 2. En caso contrario, parar.

90 Capítulo 8. Aprendizaje por Descubrimiento

Parte II 

Ingeniería del Conocimiento 

91

Capítulo 9 

Principios de la Ingeniería del 

Conocimiento 

Historia de los SE 

Características de los SE 

Deficiencias de los SE 


del Conocimiento 

Personas 

involucradas 

⎧ 

⎨ 

⎧ 

⎩ 

⎧ 

⎪⎨ 

⎪⎩ 

Lógica 

Sistemas de Producciones 

Redes Semánticas 

Marcos 

Ingeniero del Conocimiento 

Experto 

Usuario 

{ Tácito 

Accesibilidad 

⎧ 

Explícito 

⎪⎨ 


⎪⎩ 

⎪⎨ 

⎧ 


⎨ 

Naturaleza 

⎩ 

⎧ 

Personal 

Idealístico 

⎪⎨ 

Sistemático 

Niveles 

Pragmático 

⎪⎩ 

⎪⎩ 

Automático 

Ingeniería del Conocimiento 

SBC 

Nivel de Conocimiento 

⎧ 

⎪⎨ 

SE basado 

en Reglas 

⎪⎩ 

Hacia adelante 

Hacia atrás 

Ventajas 

Inconvenientes 

Declarativo 

Semántico 

Procedimental 

Episódico 

Público 

Experiencia compartida 

93

94 Capítulo 9. Principios de la Ingeniería del Conocimiento 

SE basado 

en Modelos 

SE basado 

en Casos 

{ Ventajas 


{ Ventajas 


Reglas + Casos 

Reglas + Modelos 

Modelos + Casos

Capítulo 10 

La Adquisición del Conocimiento 

Nivel 

Contextual 

Nivel 

Conceptual 

Nivel de 

Sistema 

⎧ 

⎪⎨ 

Personal de 

Interés 

Modelo 

Contextual 

Modelo de 

Tareas 


Agentes 

⎧ 

⎨ 

⎩ 

⎧ 

⎪⎨ 

Proveedores de Conocimiento 

Usuarios de Conocimiento 

Gestores de Conocimiento 

Características más importantes de la organización 

Decidir dónde es útil un SBC 

Viabilidad 

⎪⎩ 

⎧ 

Impacto 

Refinamiento del modelo de 

⎪⎨ 

⎧ 

la organización 

⎨ Entradas/Salidas 

Descubre tareas relevantes Precondiciones 

⎪⎩ 

⎩ 

Recursos 

⎧ 

Ejecutor 

⎧ 

de las tareas 

⎪⎨ 

⎪⎩ 

⎪⎨ 

Analiza 

⎧ 

⎪⎨ 

Formulario Resumen 

⎪⎩ 

⎪⎩ 

⎧ 

⎧ 

⎪⎨ 

⎪⎩ 

{ Modelo de 

Diseño 




Comunicación 

⎪⎨ 

⎪⎩ 

Cargo en la organización 

Tipo (humano/software) 

Tareas en las que está involucrado 

Agentes con los que se comunica 

Conocimiento que posee 

Responsabilidad que tiene 

Impacto y cambios en la organización 

Impacto y cambios en las tareas y agentes 

Actitudes y compromiso 

Acciones propuestas 


del Dominio 

⎧ 

⎪⎨ 

⎪⎩ 

Esquema del 

Dominio 

⎧ 

⎨ 

⎩ 

Conceptos 

Relaciones 

Reglas 

⎧ 

Base de Conocimiento 

Inferencias 

⎪⎨ 

Roles 

Funciones de transferencia 


sobre Inferencias ⎪⎩ 

{ 

Diagramas de Inferencia 

Conocimiento Tareas 

⎪⎩ 

⎧ 

sobre Tareas Métodos 

Plan de Comunicación 

⎪⎨ 

{ 

−→ organiza las transacciones 

Objetos de información intercambiados 

Transferencias 

Tareas y agentes involucrados 

⎪⎩ 

Mensaje −→ detalles de la estructura de la transacción 

95

96 Capítulo 10. La Adquisición del Conocimiento 

Sesión 

AC 

⎧ 

⎪⎨ 

⎪⎩ 

⎧ 

⎨ Planificación 

Fases Encuentro 

⎩ 

Análisis ⎧ 

Entrevistas no estructuradas −→ elementos gráficos 

Técnicas 

de AC 

⎪⎨ 

⎪⎩ 

Entrevistas estructuradas −→ elementos formales 

⎧ 

Basadas en 

Construcciones 

Repertory Grid 

Traza de 

Procesos 

⎪⎨ 

⎪⎩ 

Estructuración de conceptos 

1. Identificar elementos 

2. Identificar características 

3. Diseñar parrilla con valoraciones 

4a. Agrupar por elementos y construir el árbol 

4a. Agrupar por características y construir el árbol 

5. Analizar 

{ Análisis Tareas 

Diseño Protocolo

Inteligencia Artificial e Ingeniería del Conocimiento

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?