Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento 

textual mediante técnicas 

lógico-conceptuales en aplicaciones de 

tecnologías del lenguaje humano 

Tesis Doctoral 

Presentada por 

Rafael Muñoz Terol 

Dirigida por 

Dr. Patricio Martínez Barco 

Dpto. de Lenguajes y Sistemas Informáticos 

Universidad de Alicante 

Alicante, marzo de 2009

A mis sobrinos: José, 

Ainhoa y Samuel

Agradecimientos 

Esta Tesis no habría sido posible sin el alentador trabajo de mi director, 

Patricio Martínez Barco. Quiero agradecerle no sólo su atenta labor de dirección 

(que ya es por sí misma motivo sobrado), sino también por su constante 

ánimo y por todo lo que he podido aprender de él en el día a día. 

Mi más que profundo agradecimiento a Manuel Palomar y Pepe Clavel quienes, 

junto a mi director, me dieron la oportunidad de trabajar en el Grupo 

de Investigación en Procesamiento del Lenguaje Natural, allá por el mes de 

noviembre de 2002. 

A mis tocayos Muñoz y Romero, Borja Navarro, José Luis Vicedo, David 

Tomás, Fernando Llopis, Sergio y Óscar Ferrández, Marcel Puchol y Elisa 

Noguera por su ayuda y colaboración en las diferentes etapas del trabajo de 

investigación. 

En general, quiero hacer una mención muy especial a todos y cada uno de 

mis compañeros del Grupo de Procesamiento del Lenguaje y Sistemas de Información 

de la Universidad de Alicante, sin cuyos ánimos y colaboración me 

habría resultado muy difícil la finalización de este trabajo. 

Un agradecimiento muy especial va dirigido a mis compañeros de despacho 

Santi, Sonia e Irene quienes no han dejado de apoyarme durante el transcurso 

de este profundo trabajo de investigación. 

A mi madre y la memoria de mi padre y mis tías, por inculcarme desde 

niño el valor del esfuerzo para alcanzar los objetivos desde el profundo respeto 

hacia los demás. A mis tíos, primos y sobrinos por su gran cercanía y apoyo 

incondicional durante toda esta etapa predoctoral.

Índice general 

1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.1. La independencia del dominio en los sistemas de PLN . . . . . . . . . . 2 

1.2. La multilingualidad en los sistemas de PLN . . . . . . . . . . . . . . . . . . 3 

1.3. Exposición del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 

1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

2.. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.1. Aplicaciones del PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

2.1.1. Sistemas estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.1.2. Sistemas basados en reglas de PLN o conocimiento lingüístico 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

2.2. Representación textual sin contenido lingüístico . . . . . . . . . . . . . . . 20 

2.2.1. Modelo básico de representación . . . . . . . . . . . . . . . . . . . . . . . 20 

2.2.2. Modelo de n-gramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

2.3. Representación textual con contenido lingüístico . . . . . . . . . . . . . . 23 

2.3.1. Modelo de representación sintáctica . . . . . . . . . . . . . . . . . . . . 23 

2.3.2. Modelo basado en relaciones de dependencia entre palabras 24 

2.3.3. Modelo de fusión de pares de dependencias sintácticas . . . . 25 

2.3.4. Modelo de formas lógicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

2.3.5. Modelo de representación semántica basado en grafos . . . . . 27 

2.3.6. Modelo basado en ontología . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

2.3.7. Modelo basado en análisis de la semántica latente (LSA) . . 30 

2.4. Síntesis de los enfoques de representación textual . . . . . . . . . . . . . . 31 

2.5. La representación formal del texto en los sistemas de PLN . . . . . . 31 

2.5.1. La representación formal del texto en los sistemas de 

Búsqueda de Respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

2.5.2. La representación formal del texto en los sistemas de Recuperación 

de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

2.5.3. La representación formal del texto en los sistemas de Traducción 

Automática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

2.5.4. La representación formal del texto en los sistemas de Categorización 

Automática de Textos . . . . . . . . . . . . . . . . . . . . . 36 

2.5.5. La representación formal del texto en los sistemas de Diálogo 38 

2.5.6. La representación formal del texto en los sistemas de Extracción 

de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

VI Índice general 

2.5.7. La representación formal del texto en los sistemas de Generación 

de Resúmenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

2.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

3.. La Forma Lógica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

3.1. El cálculo de predicados de primer orden en el PLN . . . . . . . . . . . 45 

3.1.1. Lenguaje de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 

3.1.2. Interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

3.1.3. Evaluación de formas lógicas . . . . . . . . . . . . . . . . . . . . . . . . . . 49 

3.2. La forma lógica en el PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

3.3. La forma lógica en aplicaciones de PLN . . . . . . . . . . . . . . . . . . . . . . 55 

3.4. La forma lógica extendida: independiente del dominio y de la 

lengua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

3.4.1. Obtención de las relaciones de dependencia entre pares de 

palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

3.4.2. Derivación de la forma lógica . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

3.4.3. Ejemplo de derivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 

3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 

4.. La forma lógico-conceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

4.1. Tratamiento lógico-conceptual y representación semántica . . . . . . 78 

4.1.1. WordNet y EuroWordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

4.1.2. UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 

4.2. Derivación de las formas lógico-conceptuales . . . . . . . . . . . . . . . . . . 83 

4.3. Independencia del dominio en la forma lógica . . . . . . . . . . . . . . . . . 87 

4.3.1. La forma lógico-conceptual en el dominio abierto . . . . . . . . . 88 

4.3.2. La representación semántica de la frase en el dominio abierto 90 

4.3.3. La forma lógico-conceptual en los dominios restringidos . . . 91 

4.3.4. La representación semántica de la frase en los dominios 

restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

4.4. La independencia de la lengua de la forma lógica . . . . . . . . . . . . . . 95 

4.4.1. La independencia de la lengua de la forma lógica en el 

dominio abierto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 

4.4.2. La independencia de la lengua de la forma lógica en los 

dominios restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

4.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 

5.. Evaluación del recurso lógico-conceptual para la representación 

formal del texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 

5.1. Análisis y determinación de las tareas de evaluación . . . . . . . . . . . 111 

5.2. Evaluación en la tarea Cross-Language Speech Retrieval del 

CLEF 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

5.2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

5.2.2. Motivación y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 115 

5.2.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

Índice general VII 

5.2.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 

5.2.5. Análisis y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

5.3. Participación en la tarea Recognising Textual Entailment del 

PASCAL 2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 

5.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 


5.3.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 

5.3.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 


5.4. Participación en la tarea Answer Validation Exercise del CLEF 

2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 

5.4.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 


5.4.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 

5.4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 


5.5. Participación en la tarea Multilingual Question Answering del 

CLEF 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 

5.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 


5.5.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 

5.5.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 


5.6. Evaluación en la clasificación de preguntas médicas . . . . . . . . . . . . 143 

5.6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 


5.6.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 

5.6.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 


5.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 

6.. Conclusiones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 

6.1. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 

6.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 

6.3. Producción científica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

Índice de tablas 

2.1. Ejemplo de representación según el modelo de bolsa de palabras . . . . 21 

2.2. Ejemplo de representación según el modelo de representación sintáctica 24 

2.3. Ejemplo de representación según el modelo basado en relaciones de 

dependencias entre palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

2.4. Ejemplo de representación según el modelo de fusión de pares de 

dependencias sintácticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 

2.5. Ejemplo de representación según el modelo de representación semántica 

(I) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.6. Ejemplo de representación según el modelo de representación semántica 

(II) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.7. Ejemplo de representación según el modelo híbrido . . . . . . . . . . . . . . . . 30 

2.8. Asignación de frecuencias entre términos y documentos según el modelo 

LSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

2.9. Síntesis de los enfoques de representación textual . . . . . . . . . . . . . . . . . 32 

2.10.Síntesis de los modelos de representación textual . . . . . . . . . . . . . . . . . 33 

2.11.Relaciones semánticas de la frase del ejemplo . . . . . . . . . . . . . . . . . . . . . 34 

3.1. Síntesis de los enfoques basados tanto en lógica como en formas 

lógicas aplicados al PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

3.2. Relaciones de dependencias entre las palabras de la frase . . . . . . . . . . 63 

3.3. Subconjunto de reglas simples de PLN aplicadas a las hojas en el 

árbol de dependencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

3.4. Subconjunto de reglas complejas de PLN aplicadas a las relaciones 

de dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 

3.5. Relaciones de dependencias entre las palabras de la frase . . . . . . . . . . 71 

3.6. Reglas simples de PLN aplicadas a las hojas del árbol de dependencias 73 

3.7. Reglas complejas de PLN aplicadas a las relaciones de dependencias . 73 

4.1. Synsets del sustantivo car . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 

4.2. Información semántica relativa al sustantivo aspirin . . . . . . . . . . . . . . . 83 

4.3. Predicados conceptualizados de la forma lógica . . . . . . . . . . . . . . . . . . . 85 

4.4. Formas lógico-conceptuales derivadas de la forma lógica original . . . . 86 

4.5. Predicados conceptualizados de la forma lógica . . . . . . . . . . . . . . . . . . . 89 

4.6. Predicados multiconceptualizados desambiguados de la forma lógicoconceptual 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

4.7. Conceptos de UMLS asociados a los predicados de la forma lógica . . 94

X Índice de tablas 

4.8. Tipos semánticos en UMLS asociados a los predicados conceptualizados 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

4.9. Predicados multiconceptualizados desambiguados de la forma lógicoconceptual 

en el dominio médico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 

4.10.Reglas contrastivas aplicadas entre la lenguas española e inglesa . . . . 98 

4.11.Ejemplos de aplicación de las reglas contrastivas . . . . . . . . . . . . . . . . . . 99 

4.12.Traducción al español de los predicados de la forma lógica . . . . . . . . . 103 

4.13.Conceptos de la version inglesa de Wornet 1.5 traducidos mediante 

el ILI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

5.1. Relación existente entre las tareas de evaluación y los matices contemplados 

en la evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

5.2. Ejemplo de tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

5.3. Pesos de los términos asignados por el sistema IR-n y su actualización 

según la heurística aplicada sobre la forma lógica del tópico . . . . 118 

5.4. Precisión del proceso de Recuperación de Información aplicando la 

heurística sobre la forma lógica del tópico. . . . . . . . . . . . . . . . . . . . . . . . 119 

5.5. Resultados de evaluación en la tarea CL-SR del CLEF 2005 . . . . . . . . 120 

5.6. Número de nodos obtenidos por cada formalismo en la representación 

de los tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

5.7. Ejemplos de reconocimiento de la Vinculación Textual . . . . . . . . . . . . . 127 

5.8. Resultados de la evaluación en la tarea Recognising Textual Entailment 132 

5.9. Resultados de la evaluación en la tarea Answer Validation Exercise . 136 

5.10.Resultados de la Búsqueda de Respuestas inglés-español . . . . . . . . . . . 142 

5.11.Evaluación detallada de la clasificación de preguntas . . . . . . . . . . . . . . 151 

5.12.Evaluación global de la clasificación de preguntas . . . . . . . . . . . . . . . . . 151 

5.13.Precisión de los clasificadores en cada ejecución de la evaluación . . . . 152 

6.1. Preguntas de entrenamiento del tipo genérico 1 . . . . . . . . . . . . . . . . . . . 182 









6.10.Preguntas de entrenamiento del tipo genérico 10 . . . . . . . . . . . . . . . . . . 191 

6.11.Preguntas de evaluación del tipo genérico 1 . . . . . . . . . . . . . . . . . . . . . . 192 






6.17.Preguntas de evaluación del tipo genérico 7 . . . . . . . . . . . . . . . . . . . . . . 198

Índice de tablas XI 



6.20.Preguntas de evaluación del tipo genérico 10 . . . . . . . . . . . . . . . . . . . . . 201

Índice de figuras 

2.1. Grafo que representa el texto del ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 38 

4.1. Enlaces al lema prohibition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 

4.2. Árbol de relaciones de dependencia entre las palabras de la frase. . . . 103 

5.1. Árbol de dependencias del tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 

5.2. Árbol de constituyentes del tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 

5.3. Árbol lógico del tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

5.4. Arquitectura del sistema de vinculación textual. . . . . . . . . . . . . . . . . . . 129 

5.5. Ajuste del umbral sobre el corpus de desarrollo . . . . . . . . . . . . . . . . . . . 130

1. Introducción 

El Procesamiento del Lenguaje Natural (PLN) es una disciplina con una 

destacada trayectoria. Nace en la década de los años sesenta, como un subarea 

de la Inteligencia Artificial y la Lingüística, con el objeto de estudiar los problemas 

derivados de la generación y comprensión automática del lenguaje natural. 

Durante los últimos años se está produciendo un notable crecimiento de la 

cantidad de información en formato digital unido a la fuerte expansión de las 

comunicaciones entre ordenadores como vía principal de transmisión de información 

entre usuarios. La gran cantidad de información disponible junto al 

creciente número de usuarios finales que disponen de acceso directo a dicha 

información a través de las redes de ordenadores, ha derivado la investigación 

en sistemas de información textual o sistemas de PLN que faciliten el análisis, 

la localización, la gestión, el acceso y el tratamiento automático de toda esta 

información. 

En este marco de sobrecarga de información, las técnicas de minería de 

textos (y en concreto aplicaciones tales como Recuperación de Información, 

Búsqueda de Respuestas, Extracción de Información y análisis de la información 

en general tratadas desde el punto de vista de las Tecnologías del Lenguaje 

Humano) pueden ayudar a los usuarios a organizar, buscar y comprender la 

información de carácter multilingüe presente en la Web. 

Aparte de esta cantidad ingente de información multilingüe que debe ser 

tratada por los sistemas de PLN, se debe considerar también que en los últimos 

años se está produciendo una adaptación de aplicaciones o sistemas de 

PLN del dominio abierto al dominio restringido, y viceversa. Un claro ejemplo 

de ello sucede con los sistemas de Búsqueda de Respuestas: aunque se ha 

trabajado con intensidad en las aplicaciones de Búsqueda de Respuestas en dominios 

abiertos tal y como se refleja en las competiciones CLEF y TREC, sin 

embargo, se muestra una tendencia a estudiar la aplicación de estas técnicas 

sobre dominios restringidos, tal y como se observa en la edición especial de la 

revista Computational Linguistics dedicada a QA sobre dominios restringidos 

(Daelemans & van den Bosch, 2007).

2 1. Introducción 

1.1 La independencia del dominio en los sistemas de 

PLN 

Tradicionalmente, la información requerida por los sistemas basados en conocimiento 

se ha adquirido manualmente en colaboración con expertos del 

área tratada, con el alto coste que ello supone. Sin embargo, la creciente disponibilidad 

de recursos textuales on-line y el número potencial de aplicaciones 

de adquisición de conocimiento a partir de datos textuales ha derivado hacia 

un incremento en la investigación en el campo de la Extracción de Información. 

Uno de los principales inconvenientes de la aplicación de la Extracción de 

Información es su dependencia del dominio. Hay que considerar, por ejemplo, 

la definición de qué contenido se considera relevante para cada dominio con 

anterioridad al proceso de Extracción de Información. El intento de reducir 

el alto coste de adaptación manual de las aplicaciones de Extracción de Información 

a nuevos dominios ha conducido a la reciente investigación en la 

aplicación de diferentes técnicas de aprendizaje automático (Riloff & Jones, 

1999) (Yangarber, 2003). 

En relación al tratamiento de textos en los dominios restringidos, por ejemplo 

en el campo de la biomedicina, desde la última década se está prestando 

especial interés en la utilización de técnicas de PLN para la minería de textos, 

es decir, para el análisis, la extracción y la estructuración de la información 

contenida en colecciones de textos biomédicos. 

Tomando como ejemplo el marco de la Extracción de Información, se acaba 

de introducir que ésta está cobrando gran importancia tanto en el dominio 

abierto como en los dominios restringidos. Es por ello por lo que los sistemas 

de Extracción de Información deben ser capaces de trabajar sobre cualquier 

dominio, tanto en el dominio abierto como en cualquier dominio restringido. 

Para ello, deben disponer de un mecanismo de representación formal del texto 

capaz de abstraer el conocimiento del texto independientemente de cuál sea su 

dominio. 

Por ejemplo, si se considera como marco de referencia el dominio biomédico, 

las técnicas de Extracción de Información son de indudable interés para la ayuda 

a la construcción de recursos de utilidad para los investigadores biomédicos: 

bases de datos de entidades biológicas (genes, proteínas, compuestos químicos, 

enfermedades, etc.) y relaciones entre éstas, ontologías y tesauros que clasifican 

conceptos biomédicos, o redes de interacción entre entidades biomédicas. 

Estas técnicas también pueden ser útiles para la clasificación y recuperación 

de documentos biomédicos o el análisis y estructuración de historiales clínicos.

1.3 Exposición del problema 3 

1.2 La multilingualidad en los sistemas de PLN 

La investigación en el campo de la Recuperación de Información está especialmente 

centrada en el desarrollo de sistemas robustos de Recuperación 

de Información multilingüe. Un sistema CLIR (Cross Language Information 

Retrieval) es un sistema de Recuperación de Información que tiene capacidad 

para operar sobre una colección de documentos multilingüe, esto es, un sistema 

capaz de recuperar todos los documentos relevantes que se encuentran en la 

colección, independientemente del idioma utilizado tanto en la consulta como 

en los propios documentos. 

Una opción en el ámbito del PLN es que los sistemas en general y, los sistemas 

de Búsqueda de Respuestas Multilingües en particular, dispongan de 

un mecanismo de representación formal del texto capaz de modelar el conocimiento 

del texto en las diferentes lenguas tratadas por los sistemas. 

1.3 Exposición del problema 

Para exponer el problema planteado en el trabajo de investigación, cabe 

considerar el estudio previo desarrollado por Cámara de la Fuente (2004) en 

el ámbito de la representación lingüística del conocimiento y su relevancia en 

la ingeniería lingüística. 

La representación del conocimiento es uno de los problemas inherentes en las 

diferentes áreas de la Inteligencia Artificial (IA). En el ámbito de la semántica 

léxica y computacional, Díez (1999) hace la distinción entre conocimiento y 

razonamiento: 

Además, tenemos que distinguir también entre conocimiento y razonamiento, 

ya que el primero está ligado a los sistemas de representación 

y almacenamiento de la información y el segundo a la recuperación, 

conexión e inferencias y cálculos hechos con esa información (motores 

de inferencia), creando información nueva. A priori, cualquier sistema 

de representación del conocimiento ha de servir para realizar tareas de 

razonamiento. 

Según Kirakowski (1988), en lo que respecta al contenido semántico que 

puede englobar el saber, se pueden tipificar cinco tipos de conocimiento: 

Conocimiento de procedimientos. También se conoce como conocimiento 

procedural, y se refiere a cómo se hacen las cosas. 

Conocimiento de objetos y hechos. También se conoce como conocimiento 

declarativo, y se refiere al conocimiento sensorial. Éste es 

esencial tanto para interpretar el mundo externo como para ubicar su


propio yo en un contexto. 

Conocimiento de consecuencias. También se conoce como conocimiento 

de razonamiento, y se refiere al que se infiere a partir del conocimiento 

de procedimientos y del conocimiento de objetos y de hechos. 

Asimismo, este tipo de conocimiento sienta las bases para generar 

razonamiento basado en casos y para facilitar el aprendizaje en conocimiento 

procedural y declarativo. 

Conocimiento de definiciones. Es el conocimiento articulado, elaborado, 

asentado, sintetizado y formulado derivado del conocimiento de 

procedimientos, de hechos y de consecuencias. Este tipo de conocimiento 

tiene fundamentos epistemológicos y se representa de forma 

textual mediante la descripción de sus características y la estructuración 

de las relaciones que existen entre los conceptos (estructuras 

conceptuales) que subyacen al texto de la definición. Este conocimiento 

se utiliza como recurso lingüístico lexicográfico para adquirir 

conocimiento de forma automatizada, extrayéndolo de las estructuras 

conceptuales. Asimismo, este conocimiento contribuye al modelado 

del conocimiento dando pautas para la organización de la macroestructura 

y de la microestructura del conocimiento de un dominio. 

Metaconocimiento. Es el conocimiento acerca del conocimiento que 

tiene como objetivo automatizar la gestión del conocimiento, es decir, 

guiar la planificación y la aplicación del conocimiento en el entorno 

de un sistema. Este tipo de conocimiento, por tanto, incluye información 

acerca del conocimiento de definiciones, de procedimientos, 

de objetos y de hechos que posee un sistema. Este término determina 

la existencia de un nivel de conocimiento abstracto que identifica 

los fundamentos implícitos y explícitos del conocimiento en un sistema. 

Este tipo de conocimiento es una metodología y técnica utilizada 

en ingeniería lingüística para desarrollar sistemas basados en conocimiento 

(ingeniería del conocimiento). 

La gestión del conocimiento es un concepto que engloba la adquisición 

(también conocido como gestión del aprendizaje), la representación, la 

generación, y la transferencia de saber. El ámbito de este trabajo de 

investigación se centra en la representación del conocimiento. Por ello, 

se descarta la posibilidad de introducir terminología y conceptualizaciones 

relacionadas con la adquisición, generación y transferencia del 

conocimiento. 

Dentro de los recursos que se pueden utilizar para la representación 

de conocimiento, cabe destacar el papel del lenguaje por su relevancia 

particular. El lenguaje es básico en el desarrollo y transferencia


de contenidos. Se ha demostrado que las tareas vinculadas a la gestión 

del conocimiento están íntimamente relacionadas con los procesos 

cognitivo-lingüísticos que tienen lugar en el cerebro, y se materializan 

en forma de conocimiento representado a través del lenguaje (Kandel 

et al. , 1996). 

El lenguaje es un fenómeno complejo y dinámico en el sentido de que 

está siempre en movimiento: por ser una herramienta universalmente 

utilizada que siempre está siendo actualizada por los agentes que intervienen 

e interactúan en el acto de la comunicación, y porque produce 

manifestaciones de formas espontáneas dependientes de las condiciones 

psicológicas, fisiológicas y sociales. Esta diversidad compleja siempre 

creciente debe buscar una coherencia dentro de la misma estructura 

del sistema y dentro de un entramado aparentemente caótico (Steels, 

1997) (Steels, 2000). Esta concepción del lenguaje responde a un paradigma 

complejo como un mapa abierto, conectable, descentralizado 

y con múltiples jerarquías variables, reflejo de las estructuras y la organización 

del conocimiento humano (bioconocimiento). Se trata de un 

paradigma de conocimiento complejo alternativo al paradigma lineal de 

los modelos inductivos y deductivos (causa-efecto). 

Se denomina conocimiento a las conceptualizaciones representadas que 

explican la naturaleza tanto del mundo real como del mundo abstracto, 

pero el conocimiento en sí, no existe en la naturaleza (Galinsky, 2000). 

En concreto, se representa el contenido de los razonamientos. Como ya 

hemos visto, la representación se hace a través de símbolos de diversa 

índole: de tipo lingüístico, de tipo visual, de tipo auditivo, etc. Los 

símbolos son transportadores de conocimiento que pueden apelar a cualquiera 

de nuestros sentidos para hacernos llegar el contenido semántico 

y el sentido perceptivo que encierran. 

En el marco del lenguaje natural, el texto es la forma más potente de 

representación del conocimiento y, por tanto, de gestionar la información 

(Codina et al. , 2001). En este ámbito, los términos son unidades 

de naturaleza lingüística que representan conocimiento de un determinado 

dominio y son consensualizaciones para denominar conceptos a 

fin de poderlos transmitir. Ya se ha aludido a la trascendencia del lenguaje 

como fenómeno determinante para el desarrollo de conocimiento. 

Si, además, esto lo unimos a la funcionalidad de los términos, que se 

acaba de explicar, se puede afirmar que no existe conocimiento sin terminología. 

Por ello, los términos son parte fundamental de la estructura 

textual que representa el conocimiento. 

Existen dos disciplinas fundamentales vinculadas a la representación 

lingüística del conocimiento: la terminología y la organización del co-


nocimiento. 

La terminología es un área de la lingüística de reconocido carácter interdisciplinar 

que se nutre de un conjunto específico de conocimientos conceptualizado 

en otras disciplinas (lingüística, ciencia del conocimiento y 

ciencias de la información y la comunicación). Asimismo, es una ciencia 

transdisciplinar porque los productos terminológicos son las piezas de 

representación lingüística en las que debe apoyarse cualquier campo de 

conocimiento científico para poder adquirir, generar y transferir el conocimiento 

específico de cualquier dominio (Cabré, 1999). Eso quiere decir 

que en el campo del derecho, de la medicina, o de la física, por ejemplo, 

la disciplina de la terminología desempeña un papel fundamental como 

analizadora de términos transportadores de conocimiento específico 

de un dominio que median en la comunicación, como identificadora de 

reglas subyacentes en la generación y relación de los términos, y como 

método y habilidad de trabajo. 

La organización del conocimiento es una disciplina de formación reciente 

que estudia las leyes, los principios y los procedimientos para 

estructurar el conocimiento especializado e identificar y establecer la 

arquitectura en la que se sustenta el conocimiento de cualquier dominio. 

Mucho antes de que la organización del conocimiento alcance el estado 

de disciplina, es tratada por Aristóteles en su empeño por fragmentar 

el mundo para entenderlo y, así, poder clasificarlo. Desde entonces, esta 

actividad ha sufrido cambios espectaculares. De concepciones puramente 

metafísicas y especulativas, desarrolladas en el terreno de la filosofía, 

la epistemología y la ontología, se ha pasado a concepciones físicas y 

informático-pragmáticas, desarrolladas desde diversas ramas (biblioteconomía, 

documentación, epistemología, informática, inteligencia artificial, 

semiótica , terminología , etc.), desplegadas a partir de las ciencias 

fundamentales: lingüística, ciencias del conocimiento y ciencias de la 

información y la comunicación. 

Este campo de estudio es de naturaleza interdisciplinar y se nutre de 

los aportes recibidos de la lingüística, las ciencias del conocimiento y las 

ciencias de la información y la comunicación. El objeto de esta disciplina 

es, por una parte, la organización del conocimiento explícito (conocimiento 

representado), es decir, socializado o registrado a fin de optimizar 

la circulación del conocimiento en la sociedad y, por otra, el desarrollo 

de métodos que sustenten paradigmas de conocimiento válidos, 

escalables y ampliables. También se considera una disciplina científica, 

esto es, sujeta al método científico, de carácter aplicado (García-Marco, 

1998).


La representación del conocimiento cobra especial relevancia en los 

ámbitos de la ingeniería lingüística y del conocimiento. Desde que la 

sociedad de la información global y multilingüe -caracterizada por la 

omnipotente influencia de las tecnologías de la información y de la comunicación- 

ha expandido su influencia vertiginosamente, la gestión de 

los recursos lingüísticos se ha convertido en una necesidad ineludible 

para la mayoría de las entidades públicas y privadas. 

La industria del conocimiento irrumpe con fuerza ofreciendo respuestas 

que contribuyan a la creación de más conocimiento a partir de información 

codificada como simples datos. Esta industria, por su estrecha 

relación con la codificación del conocimiento como información textual, 

depende de métodos, herramientas y recursos lingüísticos que han venido 

desarrollando las industrias de la lengua. 

Especialmente en el sector público se crean nuevas asociaciones, comunidades 

y grupos de interés que se involucran como usuarios o como 

desarrolladores en actividades relacionadas con la gestión de recursos 

lingüísticos. Para abastecer de materia prima al mercado son necesarios 

nuevos lenguajes relacionados con dominios de especial interés, relacionados 

también con los diferentes registros de la lengua, con una 

dimensión diferente entre el lenguaje escrito y el oral, y por último, 

relacionados con la tipología y estructuración textual. De esta materia 

prima lingüística se abastecen ámbitos tan diversos como el de la traducción 

e interpretación, el reconocimiento de voz, la recuperación de 

información en entornos abiertos (Internet) y cerrados (Intranet), y la 

gestión del conocimiento. Todas estas aplicaciones a las que se dedica 

la ingeniería lingüística están relacionadas con la gestión de la información 

y del conocimiento. Son aplicaciones que precisan trabajar con 

el conocimiento representado en forma de productos terminográficos, 

sistemas conceptuales y otros recursos lingüísticos, así como métodos, 

herramientas y experiencia acumulada en este sector de la industria de 

la lengua. 

Desde el punto de vista cognitivo, los sistemas desarrollados en el ámbito 

de la ingeniería lingüística están estrechamente vinculados a la ingeniería 

del conocimiento, porque sus planteamientos se basan en estructuras 

lingüísticas que conforman sistemas conceptuales variables que 

ofrecen respuestas probables. Esta visión cognitiva se está aplicando en 

muchos de los retos asociados al procesamiento del lenguaje natural. 

En este sentido, los nuevos sistemas de Traducción Automática, por 

ejemplo, se basan en corpus textuales paralelos que se indexan utilizando 

bases de conocimiento que ayudan a estructurar y desambiguar los 

posibles resultados que ofrece la máquina (Hutchins & Somers, 1992). 

Es un planteamiento diferente con respecto a las primeras épocas de


la ingeniería lingüística. La primera época parecía ser meramente estadística 

hasta que se introdujeron estrategias basadas en conocimiento 

lingüístico de tipo morfológico y después sintáctico. El renacimiento de 

la relevancia de la semántica en los desarrollos de la ingeniería lingüística 

es el resultado de los avances aportados por la ciencia del conocimiento. 

Esta evolución de planteamientos corresponde a un cambio de paradigma 

del conocimiento, de uno lineal a otro complejo. Los sistemas de 

Recuperación de Información también han sufrido una transformación 

cuya evolución ha repercutido en su denominación: sistemas de recuperación 

de conocimiento, sistemas de gestión de conocimiento. 

La ingeniería lingüística es una actividad eminentemente aplicada. Es 

el resultado de representar en forma de artefactos y lenguajes artificiales 

las deducciones que se obtienen del área de trabajo de la lingüística 

textual, de la lingüística computacional, de la informática, de la terminología 

y de la organización del conocimiento. 

Las áreas de la ingeniería lingüística vinculadas al diseño y desarrollo 

de sistemas basados en conocimiento son: adquisición de conocimiento 

(knowledge acquisition), modelado de conocimiento (knowledge modelling), 

representación de conocimiento (knowledge representation) e 

infraestructura para el desarrollo de ingeniería de conocimiento (knowledge 

engineering development infrastructure). 

En el contexto del PLN, según Moreno et al. (1999), todo sistema de 

PLN intenta simular un comportamiento lingüístico humano; para ello 

debe tomar conciencia tanto de las estructuras propias del lenguaje, 

como del conocimiento acerca del universo del discurso. Según esta definición, 

los sistemas de PLN deben contar con algún tipo de mecanismo 

que les permita tener un conocimiento de lo que se está indicando en el 

texto. Este mecanismo coincide con un modelo de representación formal 

del texto capaz de identificar el conocimiento que se está representando 

en él. 

En los últimos años, se está incorporando cierta tendencia en los sistemas 

de PLN que hace que, por un lado, deben ser capaces de manejar 

grandes cantidades de información en diferentes lenguas y, por otro lado, 

deben manejar información bajo cualquier dominio de aplicación, 

es decir, tanto en el dominio abierto como en cualquier dominio restringido. 

Este requisito hace que el modelo de representación formal del texto 

deba tratar los detalles referentes tanto a la independencia del dominio 

como a la independencia de la lengua.


Para entender la necesidad de dotar a los sistemas de PLN de esquemas 

y modelos de representación formal del lenguaje, cabe hacer un retroceso 

temporal y centrarse en definiciones previas planteadas en el ámbito 

de las bases de datos para los modelos de datos, o de la inteligencia artificial 

en relación a las propiedades de los esquemas de representación 

del conocimiento. 

Según Ullman et al. (1999), en el ámbito de las bases de datos, un 

modelo de datos se puede definir como “un conjunto de herramientas 

conceptuales útiles para describir los datos, las relaciones entre ellos y 

la semántica asociada a los datos”. Los modelos de datos constituyen 

un vehículo fundamental para la representación del conocimiento en los 

sistemas de información. 

Por otro lado, en el ámbito de la inteligencia artificial, según Russell et 

al. (1996) y teniendo en cuenta también las consideraciones del inicio 

de la sección, la representación del conocimiento se define como el “proceso 

de transformación del conocimiento de un dominio a un lenguaje 

simbólico para ser procesado computacionalmente”. Rich et al. (1994) 

define la representación del conocimiento como una “combinación de 

estructuras de datos (que nos permiten representar mediante un formalismo 

determinado las verdades relevantes en algún dominio) asociadas 

con mecanismos interpretativos que nos permiten manipular el conocimiento 

representado a fin de crear soluciones a problemas nuevos”. 

Continuando en el ámbito de la IA, la representación del conocimiento 

tiene una gran importancia, hasta el punto de que actualmente se habla 

de la Ingeniería del Conocimiento. Concretamente, la ingeniería del 

conocimiento es un ámbito de la inteligencia artificial cuyo propósito se 

centra en desarrollar sistemas basados en representaciones de conocimiento 

experto (Cámara de la Fuente, 2004). 

Los elementos básicos de la representación del conocimiento son los 

símbolos. Éstos se refieren a hechos de interés pertenecientes al dominio 

a representar. Los hechos se definen como “las verdades en un 

cierto mundo” y es lo que se quiere representar. Todo lenguaje de representación 

de conocimiento debe definir dos aspectos fundamentales: 

la sintaxis y la semántica. La sintaxis identifica las posibles formas de 

construir y combinar los elementos del lenguaje para representar los 

hechos del dominio real. La semántica determina la relación entre los 

elementos del lenguaje y su interpretación en el dominio. 

También existen dos fases en la representación del conocimiento: la fase 

de codificación y la fase de decodificación. La fase de codificación 

(representación) hace referencia a la conversión de los hechos reales a 

su representación interna. Por el contrario, la fase de decodificación se


refiere a los procesos inferenciales realizados sobre la representación interna 

del conocimiento que la convierten en hechos del mundo real. 

La representación del conocimiento debe ser capaz de captar generalizaciones, 

ser comprensible, ser fácilmente modificable e incrementable, 

ser usado en diversas situaciones y propósitos, permitir diversos grados 

de detalle, captar la incertidumbre y la imprecisión, representar distinciones 

importantes y focalizar el conocimiento relevante. 

Las características de una buena representación son: 

Precisa: Los objetos y las relaciones importantes deben aparecer explícitamente 

y de forma conjunta. 

Eficiente: Las restricciones inherentes al problema se muestran pero 

no los detalles irrelevantes. 

Transparente: La representación debe ser transparente, es decir, se 

entiende lo que se dice. 

Completa y concisa: Están representados con eficacia todos los objetos 

y relaciones. 

Rápidos y computables: Se puede almacenar y recuperar la información 

con rapidez, y se pueden crear mediante un procedimiento ya 

existente. 

Considerando todo ello, las partes que debe tener toda representación 

son: 

Parte léxica: Determina qué símbolos están permitidos en el vocabulario 

de la representación. 

Una parte estructural que describe las restricciones sobre la forma en 

que los símbolos pueden ordenarse. 

Una parte operativa que especifica los procedimientos de acceso que 

permiten crear descripciones, modificarlas y responder a preguntas 

utilizándolas. 

Una parte semántica que establece una forma de asociar el significado 

con las descripciones. 

Además, en el marco de la inteligencia artificial, según Russell et al. 

(1996), las propiedades que deben tener los esquemas de representación

del conocimiento son: 


Adecuación de la representación: Capacidad del esquema de representación 

para representar adecuadamente todo el conocimiento pertinente 

de un dominio. El objetivo consiste en soportar cualquier tipo 

de conocimiento relevante. 

Adecuación inferencial: Posibilidad de manipular las estructuras de 

representación de forma que se puedan derivar nuevas estructuras 

asociadas con nuevo conocimiento inferido a partir del antiguo. 

Eficiencia inferencial: Posibilidad de mejora del proceso inferencial 

mediante la inclusión de heurísticas y guías que agilicen la inferencia. 

El objetivo perseguido consiste en procesar el conocimiento e inferir 

nuevo conocimiento con un coste computacional aceptable. 

Eficiencia adquisicional: Capacidad del esquema para incorporar fácilmente 

nuevo conocimiento tanto de forma manual (reglas) como de 

forma automática (aprendizaje automático). 

Otras características: 

• Transparencia: Posibilidad de identificar fácilmente el conocimiento 

representado. Consecuencia de ello, debe ser posible interpretar 

directamente (a ojo) lo que representa cada estructura. 

• Naturalidad y claridad: Posibilidad de representar el conocimiento 

en su forma original (el conocimiento no sufre ningún tipo de 

transformación). Por ejemplo, tratar directamente frases en lenguaje 

natural. 

• Modularidad: Capacidad del esquema para soportar la fragmentación 

del conocimiento sin perder eficiencia ni eficacia. 

• Granularidad: Grado de detalle de la representación del conocimiento. 

Depende de los requisitos del problema y del tipo de conocimiento 

a representar. 

La definición de modelo de datos propuesta por Ullman et al. (1999) 

considera que los elementos básicos del modelo de datos son los datos. 

Según la Real Academia de la Lengua, la palabra es el elemento básico 

para la comunicación, a través del lenguaje. Por ello, los elementos 

básicos de los modelos de representación formal del lenguaje son las 

palabras. En ellos, quedan definidas las palabras, las relaciones entre


las palabras y la semántica asociada a las palabras. Además, como se 

contemplará en el siguiente capítulo, los modelos de representación del 

lenguaje quedan enmarcados dentro de esquemas de representación del 

conocimiento, y como tal, deben cumplir las propiedades del esquema. 

Esto es, los modelos de representación del lenguaje deben cumplir las 

propiedades de los esquemas de representación del conocimiento definidas 

por Russell et al. y presentadas anteriormente. 

1.4 Objetivos de la tesis 

Existen diferentes modelos de representación formal del texto tal y como 

se matizará en el siguiente capítulo. La utilización de formas lógicas 

para tareas relacionadas con el tratamiento semántico o la representación 

del conocimiento ha despertado últimamente un creciente interés, 

debido a que permite expresar textos en lenguaje natural con un grado 

de formalismo que mantiene un buen equilibrio entre la complejidad del 

modelo y la expresividad del mismo. 

Diferentes investigadores han incorporado las formas lógicas en sus sistemas 

de PLN para abordar la representación del conocimiento expresado 

en los textos. Aunque en los siguientes capítulos se detallan los enfoques 

de formas lógicas planteados en los principales sistemas de PLN por estos 

autores, se puede concluir que estos modelos de formas lógicas, por 

una parte, no abordan el problema de la independencia del dominio de 

aplicación del sistema de PLN y, por otra parte, tampoco son capaces 

de solventar los problemas derivados de la independencia de la lengua. 

Con el propósito de solventar los problemas de la independencia del dominio 

y de la lengua, en el marco de esta tesis se buscará un modelo de 

representación que, por una parte, permita la representación formal de 

textos en cualquier dominio de aplicación (tanto en el dominio abierto 

como en cualquier dominio restringido) y, por otra parte, permita 

representar cualquier texto con independencia de la lengua en la que 

esté escrito. 

Para ello, el citado modelo de representación debe cumplir las propiedades 

de ser precisa (introduce únicamente los elementos necesarios que 

reflejan el contenido de la oración asociada), independiente del dominio 

(cualquier texto en cualquier ámbito puede ser representado según este 

modelo), conceptualmente completa (permite obtener una representación 

conceptual completa y no ambigua del texto) e independiente de la 

lengua (este planteamiento permite representar formalmente los textos 

en cualquier lengua).

1.4 Objetivos de la tesis 13 

Como propósito del trabajo de investigación, conviene destacar también 

el desarrollo de un marco de evaluación que tenga en cuenta los aspectos 

relativos a las propiedades fundamentales del modelo de representación 

del texto desarrollado. Ello implica que este marco de evaluación debe 

considerar los matices referentes a la precisión, completitud conceptual, 

independencia del dominio e independencia de la lengua en la evaluación 

global de modelo de representación. 

Siguiendo este marco, los siguientes capítulos de la tesis están estructurados 

del siguiente modo: 

Capítulo 2. Estado del arte. En el capítulo siguiente se hace una clasificación 

de los sistemas de PLN comúnmente conocidos según su grado 

de uso de información lingüística y se detalla las necesidades que estos 

sistemas tienen en cuanto a la representación formal del texto procesado. 

También se presenta un estudio de los diferentes enfoques llevados 

a cabo para realizar la representación formal del texto. En primer lugar 

se indican las características básicas de los enfoques. A continuación 

se introducen los detalles de las aproximaciones concretas de representación 

formal del texto. Se analizan las carencias que presentan estas 

aproximaciones en cuanto al tratamiento del texto tanto independiente 

del dominio como independiente de la lengua. 

Capítulo 3. La forma lógica. En este capítulo se contrastan dos 

de los modelos de representación formal del texto mediante la forma 

lógica más extendidos en el PLN. Se presentan las características más 

relevantes, similitudes y diferencias entre tales modelos. Se analizan las 

ventajas y los inconvenientes de ambos enfoques justificado con ello las 

carencias existentes entre tales modelos que originan el desarrollo del 

nuevo modelo lógico-conceptual de representación del texto desarrollado 

en la investigación. Finalmente, se detallan las principales características 

a nivel de diseño e implementación de este nuevo modelo. 

Capítulo 4. La forma lógico-conceptual. En este capítulo se introduce 

el tratamiento lógico-conceptual que es el verdadero artífice de 

proporcionar tanto la independencia del dominio como de la lengua en 

las representaciones formales del texto derivadas a partir del recurso desarrollado 

en la investigación. Ello lo hace tomando como núcleo de la 

representación la forma lógica inferida según lo detallado en el capítulo 

anterior. 

Capítulo 5. Evaluación. En este capítulo se define el marco de evaluación 

que determina la validez del recurso lógico-conceptual desarrollado 

en la investigación. Para ello se presentan las diferentes evaluaciones 

realizadas a los diferentes sistemas de PLN que han utilizado el recurso


en este desarrollo de sus funciones. 

Capítulo 6. Conclusiones finales. En este capítulo quedan recogidas 

las conclusiones obtenidas al desarrollar este trabajo de investigación y 

se definen las líneas de trabajo futuras que se pretenden desarrollar. 

Finalmente quedan reflejadas las referencias bibliográficas utilizadas en 

el desarrollo de este trabajo de investigación. 

Anexo A. Reglas simples de derivación de predicados en la 

forma lógica. Con objeto de facilitar su comprensión, este anexo presenta 

en detalle las reglas simples de derivación de los predicados de la 

forma lógica a partir de los nodos hojas del árbol de dependencias, que 

se introducen en el capítulo 3. 

Anexo B. Reglas complejas de derivación de predicados en la 

forma lógica. Con la misma finalidad que el anexo anterior, este anexo 

presenta en detalle las reglas complejas de derivación de los predicados 

de la forma lógica a partir del análisis y estudio de las relaciones de 

dependencia en los nodos intermedios del árbol de dependencias, introducidas 

también en el capítulo 3. 

Anexo C. Preguntas desarrolladas para la evaluación de la tarea 

de clasificación. Este anexo presenta en detalle la colección de 

preguntas desarrollada para la tarea de evaluación de la clasificación de 

preguntas médicas introducida en el capítulo 5.

2. Estado del arte 

Es bastante común encontrarse con aplicaciones que hacen algún tipo 

de procesamiento del léxico o del habla. Un ejemplo de ello son los 

editores de texto, que incorporan herramientas para la corrección ortográfica 

(escribir casaq en lugar de casa). Otro ejemplo es Google que 

nos permite recuperar información de internet basándose en las palabras 

clave introducidas. Un tercer ejemplo son los vehículos que incorporan 

tecnología de reconocimiento de voz para interactuar con el teléfono 

móvil de su conductor permitiéndole, por ejemplo, establecer una llamada 

telefónica (el conductor pronunciando la frase imperativa “Llama 

al 609...” o “Llama a la oficina” haría que su teléfono móvil llamase, 

bien al número deseado o, bien a la oficina, siendo oficina una entrada 

de la agenda del teléfono). Esta tecnología también permite la síntesis 

mediante voz de los mensajes de texto que se reciben en el teléfono 

móvil del conductor. 

Este tipo de aplicaciones, aunque realizan un procesamiento del lenguaje 

(secuencias fónicas, términos, ...), no son aplicaciones puras del 

PLN. Antes de justificar el por qué, conviene analizar las definiciones 

que, según diferentes investigadores, se han dado del PLN: 

Según (Sosa, 1997), el PLN se concibe como el reconocimiento y utilización 

de la información expresada en lenguaje humano a través del uso 

de sistemas informáticos. En PLN se investiga cómo el lenguaje puede 

ser utilizado para cumplir diferentes tareas y la manera de modelar el 

conocimiento. 

Según (Darriba, 2007), el PLN se define como el desarrollo de modelos 

computacionales de determinados aspectos de lenguaje humano para 

que, partiendo de esos modelos se puedan realizar “programas” capaces 

de comprender o producir enunciados en lenguaje natural. 

La primera definición se refiere al reconocimiento de la información 

expresada en lenguaje humano mientras que la segunda definición se 

refiere a la comprensión del texto. Basándonos en estas dos definiciones 

se deduce que la comprensión adecuada del texto es una de las 

tareas más importantes y complejas del PLN. La comprensión del texto

16 2. Estado del arte 

consiste en su transformación a una determinada representación formal 

(Jurafsky & Martin, 2000). Por lo tanto, en el contexto del PLN, los 

sistemas realizan un preproceso del texto con el objeto de obtener una 

representación formal que facilite su comprensión. 

Las aplicaciones mencionadas al comienzo del capítulo no realizan 

ningún preproceso para obtener una representación formal del texto 

que van a procesar, y es por ello por lo que no son consideradas como 

aplicaciones puras en el ámbito del PLN. En contrapartida, las aplicaciones 

del PLN sí que obtienen una representación formal del texto con 

el objeto de facilitar su comprensión. 

En los siguientes apartados, se presentan las aplicaciones o sistemas más 

comunes del PLN categorizados según el grado de información lingüística 

que incorporan. Posteriormente se muestran las técnicas que utilizan 

estos sistemas, agrupadas también, según su grado de uso de PLN. Más 

adelante, se detallan los diferentes modelos de representación formal del 

texto utilizados por los sistemas de PLN. Finalmente, se presentan las 

conclusiones de este capítulo. 

2.1 Aplicaciones del PLN 

En los últimos años, debido a la evolución de la sociedad hacia la cada 

vez mayor interacción con las nuevas tecnologías, han surgido una serie 

de problemas cuya solución ha precisado de la incorporación del PLN. 

Con el propósito de hacer frente a toda esta problemática, en el ámbito 

del PLN, han surgido diferentes sistemas. A continuación se presentan 

algunos de los diferentes tipos de sistemas de PLN existentes clasificados 

de menor a mayor grado de uso de información lingüística 1 : 

Los sistemas de Traducción Automática (Shimohata et al. , 2001) 

(Hayashi et al. , 2001) cuya función consiste en realizar la traducción 

correcta de un lenguaje a otro, tomando en cuenta lo que se quiere 

expresar en cada oración. 

Los sistemas de Categorización Automática de Textos (Kang, 2004) 

(Bi et al. , 2004) cuya función consiste en la clasificación automática 

de documentos en categorías predefinidas. 

Los sistemas de Recuperación de Información (Strzalkowski et al. , 

1998) (Galvez et al. , 2005) que se encargan de recuperar aquellos 

1 Aunque puedan existir sistemas de un mismo tipo que divergan significativamente en el grado de 

información lingüística, esta clasificación se ha hecho considerando únicamente el grado de uso 

de información lingüística empleado por los primeros sistemas existentes de cada tipo

2.1 Aplicaciones del PLN 17 

textos o documentos de una gran colección documental que satisfagan 

las necesidades de información del usuario. 

Los sistemas de Corrección de Textos (Veronis, 1988) (Vosse, 1992) 

que permiten la detección y corrección de errores, no sólo ortográficos, 

sino también gramaticales. 

Los sistemas de Diálogo (Sikorski & Allen, 1996) (Castro et al. , 2003) 

que reciben como entrada frases del lenguaje natural expresadas de 

forma oral y generan como salida frases del lenguaje natural expresadas 

asimismo de forma oral. La finalidad de estos sistemas es emular 

el comportamiento inteligente de un ser humano que realiza una tarea 

concreta y proporciona información de la misma de forma automática, 

por ejemplo, horarios de salida de aviones, partes meteorológicos, 

estado de cuentas bancarias, etc. 

Los sistemas de Extracción de Información (Sasaki & Matsuo, 2000) 

(Yangarber et al. , 2000) cuyo propósito consiste en detectar la información 

que es relevante dentro de un conjunto de textos, ignorando 

la no relevante, y estructurarla para su almacenamiento en una base 

de datos. 

Los sistemas de Búsqueda de Respuestas (Ferrández & Ferrández, 

2007) (Pérez et al. , 2004) que tienen como objeto dar una respuesta 

concreta a la pregunta formulada por el usuario. 

Los sistemas de Generación de Resúmenes (Aone et al. , 1997) (Barzilay 

& Elhadad, 1997) que se centran en condensar la información 

más relevante de un texto. 

Existen diferentes taxonomías de clasificación de los sistemas de PLN. 

Una de ellas es la propuesta por Contreras (2001) que los clasifica en 

simbólicos, empíricos o estadísticos y conexionistas. Los dos últimos son 

los llamados matemáticos debido a que tienen una fuerte componente 

de matemática y estadística, mientras que los simbólicos están basados 

en el conocimiento, emplean reglas y algoritmos que representan el conocimiento 

del lenguaje natural. También están los sistemas híbridos, 

que son aquellos que integran una combinación de diversos modelos. 

En base a esta clasificación realizada por Contreras (2001) y debido a 

que los enfoques estadísticos y conexionistas hacen un fuerte hincapié en 

el uso de la matemática y, sobre todo, en la estadística, determinados 

autores como, por ejemplo, Partee et al. (2004) y Manning et al. (1999) 

se refieren a ellos como sistemas estadísticos del PLN. De este modo, 

los diferentes sistemas de PLN, en función de su metodología, se clasi-


fican en sistemas estadísticos y en sistemas basados en reglas de PLN o 

conocimiento lingüístico. Los sistemas híbridos, debido a que a pesar de 

tener una parte matemática hacen uso de las técnicas de PLN, se clasifican 

dentro de los sistemas basados en reglas de PLN. Seguidamente 

se presentan las características básicas de estos dos tipos de sistemas, 

según su metodología, y a lo largo de este capítulo se comentarán diferentes 

sistemas concretos de PLN, tanto estadísticos como basados en 

conocimiento lingüístico, atendiendo al enfoque empleado para llevar a 

cabo la representación formal del texto. 

2.1.1 Sistemas estadísticos 

Los sistemas estadísticos involucran colecciones de muestras del lenguaje 

(corpus), las cuales son etiquetadas y usadas para crear modelos 

estadísticos. El propósito perseguido por los sistemas estadísticos consiste 

en la aplicación de los modelos de probabilidad y estadísticos para 

inferir conocimiento directamente de los datos, buscando irregularidades 

significativas. Los modelos estadísticos empleados por este tipo de 

sistemas (Marquez, 2001) se basan en los conceptos básicos de la teoría 

de probabilidad: probabilidad condicionada e independencia de sucesos. 

Las técnicas básicas consisten en calcular las frecuencias de las palabras 

que aparecen en un conjunto de textos, y deducir todas las probabilidades 

medias y condicionadas, por ejemplo, calcular el parsing más 

probable de una frase a partir de los parsings anteriores. 

El método de estimación más sencillo consiste en el manejo de frecuencias 

relativas extraídas de un corpus lingüístico. Este método tiene tres 

fases claramente diferenciadas: recolección de datos, anotación de las 

unidades del corpus y cálculo de frecuencias de las unidades. También 

existen otras técnicas más avanzadas (Rumelhart et al. , 1994), basadas 

en la utilización de redes neuronales y algoritmos evolutivos, cuyo 

propósito principal se basa en la idea de simular la capacidad lingüística, 

el aprendizaje y la evolución del lenguaje natural. Para ello, se trata 

de simular la propia naturalidad del lenguaje, y se aplican técnicas de 

aprendizaje y representaciones simbólicas que evolucionan. 

2.1.2 Sistemas basados en reglas de PLN o conocimiento 

lingüístico 

En contrapartida con los sistemas estadísticos, los sistemas basados en 

reglas de PLN utilizan conocimiento lingüístico para realizar su cometido. 

Estas técnicas lingüísticas pueden ser de diversa índole (POS, 

morfología, dependencias, sintaxis, ...) incluso se pueden combinar varias 

de ellas. Básicamente, el funcionamiento de los sistemas basados en

2.1 Aplicaciones del PLN 19 

reglas de PLN se centra en el diseño de una serie de reglas o heurísticas 

a partir de las técnicas lingüísticas utilizadas. El diseño de reglas 

o heurísticas puede ser empleado por los sistemas para, por ejemplo, 

emparejar patrones o hacer inferencias (si a se relaciona con b y b se 

relaciona con c, entonces a se relaciona con c). Más adelante se profundizará 

en los aspectos relacionados con la representación textual de los 

sistemas basados en reglas de PLN. 

En los últimos años, se están experimentando una serie de tendencias 

en el ámbito del PLN que están derivando hacia la multilingualidad de 

los sistemas más comunes del PLN y hacia su implantación en determinados 

dominios restringidos. Desde el punto de vista de la multilingualidad 

de los sistemas de PLN, se está haciendo especial énfasis en 

que los sistemas de PLN sean capaces de manejar diferentes lenguas. 

Un claro ejemplo de ello son los sistemas de Búsqueda de Respuestas 

(Jung & Lee, 2002) capaces de obtener la respuesta en un idioma diferente 

al de la pregunta formulada por el usuario. La otra peculiaridad a 

tener en cuenta en los sistemas de PLN es su adaptación a los dominios 

restringidos. Un ejemplo de ello son también los sistemas de Búsqueda 

de Respuestas (Mollá & Vicedo, 2004), diseñados para trabajar con 

documentos y preguntas tanto en el dominio abierto como en cualquier 

dominio restringido. 

Tal y como se comenta en este capítulo, los diferentes sistemas de PLN 

(Búsqueda de Respuestas, Generación de Resúmenes, Categorización 

del Texto, sistemas de Diálogo, ...) no procesan el texto directamente 

tal cual ha sido escrito o transcrito sino que, previo a su procesamiento, 

el texto es transformado en una representación formal que preserva sus 

características relevantes. Es por ello por lo que la representación formal 

del texto es una cuestión muy importante a tener en cuenta en el PLN. 

A lo largo de los últimos años se han propuesto diferentes alternativas 

de representación del texto. En este capítulo se van a introducir las 

diferentes representaciones formales del texto propuestas por diferentes 

investigadores en PLN. Estas representaciones se estructuran en dos 

categorías atendiendo al grado de uso de información lingüística empleado 

para obtener la representación formal del texto: sin información 

lingüística y con información lingüística. Los modelos de representación 

que hacen un escaso uso de la información lingüística están basados en 

el tratamiento de la palabra como unidad básica, mientras que por el 

contrario, aquellos modelos que emplean un alto contenido de información 

lingüística consideran el texto o la secuencia de la palabras en la 

representación, descartando la palabra como unidad básica de la propia 

representación.


2.2 Representación textual sin contenido lingüístico 

Este enfoque se centra en hacer un análisis de los modelos de representación 

textual que ignoran la información lingüística para realizar su 

cometido. Se distinguen dos modelos: el modelo básico y el modelo de 

n-gramas. Seguidamente se presentan estos dos modelos de representación. 

2.2.1 Modelo básico de representación 

Para algunos investigadores la representación básica del texto se corresponde 

con el modelo de bolsa de palabras (bag-of-words). El elemento 

básico de este modelo de representación es la palabra. De este modo, 

el texto correspondiente a cada documento se representa siguiendo el 

modelo de espacio vectorial (VSM) de Salton (1989). La idea de este 

modelo se centra en la construcción de un vector de términos y pesos 

dónde: 

los términos se corresponden con los lemas de las palabras que componen 

el texto. En este modelo, las palabras que más se utilizan en 

cada idioma no se suelen representar. A este conjunto de palabras se 

les conoce como palabras de parada (stopwords). 

los pesos asociados a los términos se calculan acorde a una de las 

siguientes alternativas: 

• Modelo binario. En este modelo, el peso del término puede tomar 

dos valores: 0 si el término no aparece en el documento, o 1 si el 

término aparece en el documento. 

• Frecuencia del término (TF). En este modelo, el peso del término 

se corresponde con el número de apariciones que tiene en el documento. 

• TF.IDF (Term-Frequency, Inverse Document Frequency). En este 

modelo, el peso del término se calcula en función de sus ocurrencias 

en el documento y del valor inverso de su frecuencia de aparición 

en el conjunto de documentos a representar. Este valor se computa 

según la expresión: 

T F.IDFtermino = T Ftermino ∗ log( N 

dftermino ) 

donde N es el número de documentos a representar y dftermino es el 

número de documentos donde aparece el término.

2.2 Representación textual sin contenido lingüístico 21 

En este modelo, las unidades básicas de representación son los términos 

de las palabras (su raíz), considerando que las palabras de parada no 

quedan representadas. La raíz de una palabra guarda cierta similitud 

con su lema, aunque no son exactamente la misma cosa. El lema de una 

palabra se corresponde con la forma no marcada (forma estándar) de 

la palabra, mientras que la raíz es fruto del resultado de aplicar una 

heurística a las palabras para eliminar sus desinencias morfológicas obteniendo 

de este modo un término que se aproxima a su lema pero que 

es más representativo de la palabra. Este término es la raíz o stem. Para 

obtener la raíz de las palabras se utiliza el algoritmo de Porter (1980), 

la técnica de stemming más común en sistemas de PLN, que permite 

obtener la forma canónica de cada palabra. Por ejemplo, las palabras 

analyzing, analyzer y analysis tienen la misma forma canónica, siendo 

ésta (la raíz) analy. El ejemplo 1 muestra una representación siguiendo 

este modelo. 

(1) Frase: The story of Mr. Fly and the Emergency Rescue 

Committee who saved thousands in Marseille. 

Representación: La tabla 2.1 detalla la representación 

de la frase siguiendo este modelo. 

Término (raíz) Peso 

stori 1.84449 

fly 6.19484 

emerg 6.47296 

rescu 6.19484 

committe 4.08194 

save 3.06725 

thousand 2.33944 

marseil 5.13363 

Tabla 2.1. Ejemplo de representación según el modelo de bolsa de palabras 

Este modelo de representación del texto no tiene en cuenta aspectos 

naturales de la oración como, por ejemplo, la secuencialidad de palabras 

ni las relaciones sintácticas. Por ejemplo, las frases “Federer hit the 

ball” y “The ball hit Federer” tendrían la misma representación en este 

modelo cuando, desde el punto de vista lógico y semántico, representan 

cosas claramente diferenciadas. 

2.2.2 Modelo de n-gramas 

El modelo de representación de n-gramas (Caropreso et al. , 2001), 

(Lewis, 1992), (Mladenic & Grobelnik, 1998) está formado a través de


frases estadísticas definidas como n-gramas normalizados considerando 

el filtrado de palabras (stoplist filtering), el stemming y el orden alfabético. 

En general, se trata de una ventana deslizante de tamaño n 

caracteres que se desplaza a lo largo del texto extrayendo n caracteres 

en cada iteración. 

El modelo básico de n-gramas consiste en establecer una ventana deslizante 

de longitud fija (Kjell et al. , 1994), (Keselj et al. , 2003), donde n 

indica el número de caracteres que se toman de cada palabra (2-gramas, 

3-gramas, 4-gramas,...). Una variación de este modelo es el modelo de 

n-gramas de longitud variable (Silva & Lopes, 1999), donde el tamaño 

de la ventana deslizante de caracteres no es fija, sino que tiene un tamaño 

variable. 

Según diferentes autores de los mencionados en este modelo, una de 

las ventajas de los n-gramas es que permite abordar el problema de las 

palabras con la misma raíz pero con distintos sufijos sin necesidad de 

hacer stemming. Por ejemplo, según el modelo anterior, las palabras 

analyzing, analyzer y analysis tienen la misma representación siendo 

ésta analy. En cambio, siguiendo el modelo de n-gramas, la representación 

de estas palabras produciría n-gramas diferentes aunque algunos 

serían comunes entre sí. A continuación se muestra el ejemplo 2 que 

ilustra la representación formal del texto según el modelo de n-gramas 

de longitud fija de tamaño 3 (también llamado trigrama). 


Committee. 

Representación: 2 “ Th” “The” “he ” “e s” “ st” 

“sto” “tor” “ory” “ry ” “y o” “ of” “of ” “f M” 

“ Mr” “Mr.” “r. ” “. F” “ Fl” “Fly” “ly ” “y a” 

“ an” “and” “nd ” “d t” “ th” “the” “he ” “e E” 

“ Em” “Eme” “mer” “erg” “rge” “gen” “enc” 

“ncy” “cy ” “y R” “ Re” “Res” “esc” “scu” “cue” 

“ue ” “e C” “ Co” “Com” “omm” “mmi” “mit” 

“itt” “tte” “te.” “e. ” 

Una variante de la representación siguiendo el modelo de n-gramas son 

los n-gramas de palabras. Concretamente, los n-gramas de palabras son 

combinaciones de n palabras consecutivas. Seguidamente, en el ejemplo 

3 se muestra la representación de la frase anterior según el modelo de 

trigramas de palabras. 

2 El símbolo ‘ ’ representa el espacio en blanco que separa cada una de las palabras del texto.

2.3 Representación textual con contenido lingüístico 23 


Committee. 

Representación: “The story of” “story of Mr.” “of 

Mr. Fly” “Mr. Fly and” “Fly and the” “and the 

Emergency” “the Emergency Rescue” “Emergency 

Rescue Committee” 

Una segunda variante de este modelo son los skip n-gramas. Un skip ngrama 

es una combinación de n palabras en el orden en el que aparecen 

en la frase, pero permitiendo saltos arbitrarios entre ellas. A continuación, 

en el ejemplo 4 se muestra la representación de la frase anterior 

según el modelo de skip trigramas con salto unitario. 


Committee. 

Representación: “The of Fly” “story Mr. and” “of 

Fly the” “Mr. and Emergency” “Fly the Rescue” 

“and Emergency Committee” 

2.3 Representación textual con contenido 

lingüístico 

Se acaba de presentar el enfoque de representación textual sin contenido 

lingüístico, en el que el texto es representado como una bolsa de palabras 

o como una secuencia de n-gramas, dónde se ignoran por completo 

los significados e ideas que se expresan en el texto. 

El enfoque de representación textual con contenido lingüístico se centra 

en estudiar los modelos de representación textual que utilizan el 

conocimiento lingüístico para el desarrollo de su función. Los modelos 

basados en este enfoque pretenden tratar, en menor o mayor medida, 

los significados e ideas que se expresan en el texto. 

2.3.1 Modelo de representación sintáctica 

El análisis sintáctico de constituyentes convierte el texto de entrada 

en otras estructuras (comúnmente árboles), que son más útiles para el 

posterior análisis y capturan la jerarquía implícita de la entrada. Por 

ello, el modelo de representación sintáctica (Roger et al. , 2005) (Croft 

et al. , 1991) (Mauldin, 1991) utiliza el árbol de análisis sintáctico para 

representar formalmente las oraciones del texto. De este modo, las 

palabras de las oraciones se transforman en estructuras que muestran 

las relaciones gramaticales existentes entre las palabras. El ejemplo 5


muestra la representación formal del texto según el modelo de representación 

sintáctica. 

(5) Frase: John drove his car yesterday. 

Representación: La tabla 2.2 ilustra la representación 

de la frase según las pautas descrutas en este 

modelo de representación 

Parte izda. regla gramatical Parte drcha. regla gramatical 

S NP1 VP 

NP1 

HEAD1 

HEAD1 

John 

VP HEAD2 NP2 NP3 

HEAD2 

drove 

NP2 

T HEAD3 

T his 

HEAD3 

car 

NP3 

yesterday 

Tabla 2.2. Ejemplo de representación según el modelo de representación sintáctica 

2.3.2 Modelo basado en relaciones de dependencia entre 

palabras 

En este modelo (Matsumura et al. , 2006), para representar el texto, se 

utiliza la información sintáctica definida en las relaciones de dependencia 

entre las palabras de la frase. Según la definición propuesta por Lin 

(1998b), una relación de dependencia entre dos de palabras es una relación 

binaria asimétrica entre una palabra llamada núcleo y otra palabra 

llamada modificador. Normalmente, las relaciones de dependencia constituyen 

un árbol que enlaza todas las palabras de la frase. Este árbol de 

dependencias tiene diferentes niveles de palabras porque una palabra en 

la frase puede tener diferentes modificadores, pero cada palabra debe 

modificar, al menos, a otra palabra. La raíz del árbol de dependencia 

no modifica a ninguna palabra. A ella se la denomina el núcleo de la 

frase. 

Por ello, las palabras se estructuran según dos tipos: las que representan 

concepto y las que indican relación. Las palabras que representan concepto 

son aquellas cuya categoría gramatical se corresponde con sustantivo, 

adjetivo, adverbio y los constituyentes de los nominales complejos. 

Las palabras que indican relación son las preposiciones, los verbos, los 

auxiliares y sus combinaciones. A continuación se muestra el ejemplo


6 donde se matiza la representación formal del texto según el modelo 

basado en relaciones de dependencia entre palabras. 



Representación: La tabla 2.3 ilustra la representación 

de la frase según este modelo. 

Modificador Núcleo Relación de dependencia 

Marseille [N] in [Prep] pcomp-n 

who [N] saved [V] whn-subj 

thousands [N] saved [V] obj 

in [Prep] saved [V] mod 

Emergency [N] Committee [N] lex-mod 

Rescue [N] Committee [N] lex-mod 

saved [V] Committee [N] rel 

Mr. [N] Fly [N] lex-mod 

Committee [N] Fly [N] conj 

Fly [N] of [Prep] pcomp-n 

The [Det] story [N] det 

of [Prep] story [N] mod 

Tabla 2.3. Ejemplo de representación según el modelo basado en relaciones de dependencias entre 

palabras 

2.3.3 Modelo de fusión de pares de dependencias sintácticas 

Este modelo (Vilares et al. , 2002) se centra en la unión de los términos 

multipalabra. Un término multipalabra es un término formado por 

dos o más palabras con contenido (sustantivos, verbos y adjetivos) 3 . 

Una de las técnicas para la obtención de los términos multipalabra es la 

simplificación del texto (Jacquemin & Tzoukeman, 1999): en un primer 

paso, se eliminan las palabras de parada y se obtienen las raíces de las 

palabras, y, finalmente se extraen los términos y se fusionan, por ejemplo, 

mediante emparejado de patrones (Dillon & Gray, 1983) o criterios 

estadísticos (Fagan, 1987). El emparejado de patrones sintácticos se basa 

en la hipótesis de que las partes que más información aportan del 

texto se corresponden con patrones sintácticos específicos (Justeson & 

Katz, 1995). De este modo, las relaciones sintácticas se identifican mediante 

patrones sintácticos de sintagmas nominales y de sus variantes 

sintácticas y morfosintácticas. Aplicando este modelo se derivan cinco 

métodos para representar al texto: 

3 Ejemplo: the neighbour’s big dog


pln: texto plano eliminando las palabras de parada. 

lem: fusión de términos monopalabra mediante lematización. 

fam: fusión de términos monopalabra mediante familias morfológicas 

4 . 

FNL: fusión de términos multipalabra mediante pares de dependencias 

sintácticas y lematización. 

FNF: fusión de términos multipalabra mediante pares de dependencias 

sintácticas y familias morfológicas. 

En el ejemplo 7 se detalla la representación formal del texto según el 

modelo de fusión de pares de dependencias sintácticas. 

(7) Frase: Docenas de niños muy alegres han tenido que 

aprender hoy en el colegio una lección de historia. 

Representación: La tabla 2.4 muestra la representación 

de la oración anterior en base a este modelo 

de representación. 

Constituyentes originales Fusión 

[docena NCFP N] [de P P] [docena de Cifra SNum] 

[docena de Cifra SNum] [niño NCMP N] [niño NCMP N] 

[muy WQ SAdv] [alegre AQFP A] [alegre AQFP SAdj] 

[niño NCMP N] [alegre AQFP SAdj] [niño NCMP SN] 

[haber V3PRI V] [tener VPMS V] [tener V3PRI GV1] 

[tener V3PRI GV1] [que Cs Cs] [aprender VRI GV1] [aprender V3PRI GV2] 

[el DAMS DA] [colegio NCMS N] [colegio NCMS SN] 

[un DAFS DA] [lección NCFS N] [lección NCFS SN] 

[de P P] [historia NCFS N] [historia NCFS SN] 

Tabla 2.4. Ejemplo de representación según el modelo de fusión de pares de dependencias sintácticas 

2.3.4 Modelo de formas lógicas 

Diferentes investigadores del área del PLN han definido la forma lógica 

como “una representación del conocimiento lógico de primer orden de 

oraciones expresadas mediante lenguaje natural” (Rus, 2002) (Rus & 

4 Una familia morfológica es un conjunto de palabras obtenidas a partir de una raíz morfológica 

común mediante mecanismos de derivación.


Moldovan, 2002). En este modelo (Moldovan et al. , 2003) (Mollá et al. 

, 2002) la representación del texto se lleva a cabo mediante formas lógicas. 

La forma lógica de la oración representa su estructura lógica y 

está formada a partir de predicados enlazados. Existen diferentes métodos 

de derivación de la forma lógica, así como de su formato, en lo que 

se refiere a la composición de cada uno de los predicados que la forman. 

En los próximos capítulos se hablará con detalle de todo ello. A continuación, 

el ejemplo 8 detalla la representación formal del texto según 

el modelo de formas lógicas. 

(8) Frase: An earthquake occurred on the east coast of 

Hokkaido. 

Representación: earthquake NN(x1) & occur VB(e1,x1,x4) 

& on IN(e1,x2) & east coast NN(x2) & of IN(x2,x3) 

& hokkaido NN(x3) 

2.3.5 Modelo de representación semántica basado en grafos 

El propósito perseguido en este modelo es que exista un mapeo entre las 

palabras del texto y objetos determinados de una fuente de conocimiento, 

de modo que se puedan crear correctas estructuras que correspondan 

con los significados de las palabras combinadas unas con otras. 

Existen diversos esquemas de representación semántica del texto. Un 

claro ejemplo es el modelo de grafos semánticos (Semantic Graph Model) 

(Shaban, 2006) cuya representación consiste en un grafo basado en 

estructuras de datos donde las entidades (agentes, objetos, estados, acciones, 

eventos, lugares, ...) son representados como vértices del grafo, 

mientras que las relaciones entre ellos se representan como arcos. Cada 

nodo (vértice) almacena la información sobre la entidad que representa, 

pudiendo incluir el texto original, la información sintáctica, el significado 

semántico y las relaciones con otros nodos. De este modo, cada nodo 

tendrá los siguientes atributos: 

Name: Identificador exclusivo del nodo 

Type: clasificación de la entidad (agente, objeto, acción, ...) 

Texto: el texto original 

Syn: la etiqueta POS 

Sen: los sinónimos de la entidad según la fuente de conocimiento


Sem: el significado desambiguado de la entidad 

Rel: las relaciones con otros nodos del grafo 

Para poder representar el texto como un grafo, el primer paso consiste 

en realizar el análisis sintáctico del texto y, a continuación, se deriva el 

grafo, donde determinadas estructuras del árbol de análisis sintáctico 

se corresponden con nodos y arcos del grafo. Seguidamente se detalla 

un ejemplo de representación formal del texto según el modelo de representación 

semántico. 

(9) Frase: John eats the apple standing beside the tree. 

Representación: En las tablas 2.5 y 2.6 se aprecia la 

representación de la frase anterior en base a este 


Nodo 1 Nodo 2 Nodo 3 

Name: Agent1 Name: Action1 Name: Object1 

Type: Agent Type: Action Type: Object 

Text: John Text: eats Text: the apple 

Syn.: Noun, Subject Syn.: verb Syn.: object 

Sen.: Agent Name Sen.: chow, chunk, eats, Sen.: apple, orchard apple 

Sem.: Agent Name (1) grub tree, Malus pumila 

Rel.: Action1 (.9), Sem.: eat (.9) Sem.: apple tree (.8) 

Action2 (.85) Rel.: Object1 (.9) Rel.: NIL 

Tabla 2.5. Ejemplo de representación según el modelo de representación semántica (I) 

Nodo 4 Nodo 5 

Name: Action2 Name: Object2 

Type: Action Type: Object 

Text: standing Text: beside the tree 

Syn.: verb Syn.: adverb 

Sen.: status, position, motion, movement, move, mobility Sen.: 

Sem.: position (.7) Sem.: beside the tree (.8) 

Rel.: Object2 (.8) Sem.: NIL 

Tabla 2.6. Ejemplo de representación según el modelo de representación semántica (II) 

Cabe destacar también la representación basada en marcos (frames) 

como una especialización de este modelo. El concepto de marco fue propuesto 

en la década de los setenta por Minsky (1975). La idea principal


del marco es muy simple: un marco representa un objeto o un concepto. 

Las relaciones entre objetos y conceptos vienen denotadas por los 

huecos (slots). Los atributos permiten determinar las propiedades de 

los objetos y/o conceptos. 

2.3.6 Modelo basado en ontología 

Atendiendo a la propia composición del lenguaje humano, un concepto 

puede ser expresado mediante distintas palabras sinónimas, y también, 

dada una palabra, ésta puede tener diferentes significados según su contexto. 

Los modelos de representación vistos hasta ahora no tienen en 

cuenta ninguna de estas consideraciones. Los modelos de representación 

del texto basados en ontología tienen, por una parte, una componente 

matemática y, por otra parte, una fuerte componente basada en la 

exploración de alguna ontología que permite la consideración todo tipo 

de características semánticas del lenguaje. La ontología clásica utilizada 

en este modelo de representación formal del texto suele ser WordNet 

(Miller, 1995). 

Siguiendo el modelo basado en ontología, en la representación del texto, 

sólo se tienen en cuenta aquellas palabras cuyas categorías gramaticales 

son sustantivo, adjetivo, verbo o adverbio, ya que la base de datos léxica 

WordNet sólo tiene entradas de este tipo de palabras. Las entradas 

de WordNet se agrupan en synsets según su categoría gramatical. Un 

synset agrupa a una serie de palabras sinónimas de la misma categoría 

gramatical incluyendo su número de sentido. Cada synset de WordNet 

está identificado exclusivamente por un identificador de synset, que es 

un número de ocho dígitos. Por ejemplo, el synset 02853224 agruparía 

las palabras car, auto, automotive y motorcar con sentido 1, y machine 

con sentido 2. 

Diferentes autores han utilizado este modelo de representación en sus 

investigaciones tales como Gonzalo et al. (1998), Scott et al. (1999), 

Junker et al. (1997), Vicedo (2002) y Petridis et al. (2001). Sanderson 

(2000) hace un buen estudio de las diferentes variaciones de este modelo 

aplicadas a la Recuperación de Información. A continuación se muestra 

el ejemplo 10 en el que se presenta la representación formal del texto 

según el modelo híbrido considerando únicamente el sentido de las palabras 

en WordNet. 

(10) Frase: A bank is an institution that lends money to 

business establishments and plays an important role 

in commerce.


Representación: La tabla 2.7 muestra la representación 

de la frase siguiendo las pautas descritas en 

este modelo. 

Palabra Representación 

bank bank n#10 

institution institution n#4 

lends lend v#2 

money money n#3 

business business n#1 

establishments establishment n#7 

plays play v#17 

important important a#1 

role role n#4 

commerce commerce n#3 

Tabla 2.7. Ejemplo de representación según el modelo híbrido 

2.3.7 Modelo basado en análisis de la semántica latente 

(LSA) 

El análisis de la semántica latente (Latent Semantic Analysis) es una 

técnica que consiste en analizar las relaciones entre los textos y la terminología 

contenida en ellos mediante el uso de conceptos que relacionan 

a ambos. 

El modelo basado en análisis de la semántica latente (Deerwester et al. , 

1990), (Hasan & Matsumoto, 1999) utiliza una matriz que relaciona los 

términos y los textos donde se describen las apariciones de los términos 

en los textos. Los elementos de la matriz siguen una proporcionalidad 

relativa al número de apariciones de cada uno de los términos en cada 

uno de los textos. La técnica de análisis de la semántica latente transforma 

esta matriz de ocurrencias en una relación entre los términos y 

algunos conceptos, y en otra relación entre estos conceptos y los textos. 

De este modo, los términos y los textos quedan relacionados a través de 

los conceptos. El ejemplo 11 muestra la representación formal del texto 

según el modelo LSA. Los documentos c1-c5 son títulos de publicaciones 

que tratan sobre la interacción persona-ordenador, mientras que los 

documentos m1-m4 tratan sobre la teoría de grafos. 

(11) Frase: The human-computer relation over the EPS 

user interface.

2.5 La representación formal del texto en los sistemas de PLN 31 

Representación: La Tabla 2.8 muestra la frecuencia 

de aparición de los términos en los documentos. 

Términos 

Documentos 

c1 c2 c3 c4 c5 m1 m2 m3 m4 

human 1 0 0 1 0 0 0 0 0 

interface 1 0 1 0 0 0 0 0 0 

computer 1 1 0 0 0 0 0 0 0 

user 0 1 1 0 1 0 0 0 0 

relation 0 0 0 0 1 0 0 0 0 

EPS 0 0 1 1 0 0 0 0 0 

Tabla 2.8. Asignación de frecuencias entre términos y documentos según el modelo LSA 

En el modelo LSA, a partir de la matriz de frecuencias entre términos 

y documentos, se realizan complejas operaciones de cálculo (descomposición 

de valores singulares parametrizada, cálculo de matriz de aproximación, 

correlación de vectores, medias de correlaciones entre pares 

de documentos, etc.) cuyo propósito no es otro que relacionar términosconceptos, 

y conceptos-documentos. 

2.4 Síntesis de los enfoques de representación 

textual 

En las secciones previas del capítulo se han presentado los diferentes 

enfoques de representación formal del texto. Estos enfoques, atendiendo 

a las métodos empleados, se han clasificados en enfoques estadísticos 

y enfoque basados en reglas de PLN. La tabla 2.9 presenta una síntesis 

de estos enfoques de representación textual. 

Además, dentro de cada enfoque, tenemos diferentes modelos de representación 

formal del texto. La tabla 2.10 sintetiza los diferentes modelos 

de representación textual vistos en las secciones previas del capítulo. 

2.5 La representación formal del texto en los 

sistemas de PLN 

A continuación se presenta la utilización que los diferentes sistemas 

más comunes de PLN han efectuado de los distintos modelos de representación 

formal del texto presentados a lo largo de este capítulo. En 

concreto, se introducen los detalles más significativos de los modelos de


Enfoques sin cont. lingüístico Enfoques con cont. lingüístico 

Representar el lenguaje a partir de la Representar la estructura lógica del 

Idea matemática y la estadística. lenguaje (conocimiento del 

lenguaje). 

Aplicación de cálculos matemáticos Aplicación de reglas y heurísticas 

Consiste y estadísticos sobre las derivaciones basadas en PLN para derivar las 

de las palabras. estructuras del lenguaje. 

TF Análisis léxico 

Técnicas TF.IDF Análisis Morfológico 

WIDF Análisis sintáctico 

... ... 

Híbrido 

LSA 

Básico (bag of words) Relaciones de dependencia 

Modelos N-gramas Fusión de pares de dependencias 

sintácticas 

Representación sintáctica 

Formas lógicas 

Representación semántica 

Ventajas Coste computacional moderado Enriquecimiento lingüístico. 

Uso escaso de recursos lingüísticos Mayor precisión. 

No aportan ningún tipo de Mayor coste computacional. 

Limitaciones conocimiento lingüístico. En algunos casos, sobreutilización 

de recursos lingüísticos. 

Tabla 2.9. Síntesis de los enfoques de representación textual 

representación formal del texto utilizados por los diferentes sistemas en 

la áreas de Búsqueda de Respuestas, Recuperación de Información, Traducción 

Automática, Categorización Automática de Textos, sistemas de 

Diálogo, Extracción de Información y Generación de Resúmenes. Para 

ello, se detallan mecanismos de representación formal del texto de los 

sistemas de PLN que han causado un impacto relevante en el seno de 

la investigación en cada una de estas áreas. 

2.5.1 La representación formal del texto en los sistemas de 

Búsqueda de Respuestas 

En este apartado se detallan los modelos de representación formal del 

texto que utilizan los sistemas de Búsqueda de Respuestas desarrollados 

en los centros de investigación de Texas, Washington y Trento bajo 

la supervisión de los investigadores Dan I. Moldovan, Dina Demner- 

Fushman y Bernardo Magnini respectivamente. 

El sistema COGEX de Moldovan et al. (2007) utiliza un mecanismo 

de representación formal del texto basado en formas lógicas. A la forma 

lógica se le incorpora información semántica de dos maneras: (1) la


Consiste Ventajas Limitaciones 

Representación del texto Moderado coste Ambigüedad. 

Modelo en base a complejos computacional. Uso No tiene en cuenta 

básico cálculos sobre derivaciones escaso de recursos la naturalidad 

de las palabras. lingüísticos del lenguaje. 

Representación del texto Considera la naturalidad No aporta ningún 

Modelo en base a una ventana del lenguaje (ej. orden tipo de conoci- 

N-gramas deslizante de caracteres de las palabras miento lingüístico 

de tamaño fijo o variable. en la frase.) del texto. 

Modelo Representación del texto Tiene en cuenta el Desambiguación. 

basado en base a cálculos significado asociado Sobreutilización de 

en estadísticos e información a las palabras fuentes de conoci- 

Ontología conceptual. del texto. miento lingüístico. 

Representación del texto Tiene en cuenta el Elevado coste 

Modelo en base a matrices estadís- significado asociado computacional. 

LSA ticas que relacionan textos, a las palabras Desambiguación. 

conceptos y documentos. del texto. 

Representación del texto 

Modelo en base a relaciones Granularidad. Elevado coste 

Dependencias de dependencia entre Precisión. computacional. 

pares de palabras. 

Modelo Representación del texto Elevada complejidad. 

Fusión en base a relaciones Granularidad. Alto coste 

Dependencias entre pares de Precisión. computacional. 

Sintácticas dependencias sintácticas. 

Representación del texto Granularidad. Ambigüedad. 

Modelo en base a relaciones Claridad. Elevado coste 

Sintáctico entre pares de Expresividad. computacional. 

dependencias sintácticas. 

Modelo Representación del texto Alta complejidad. 

Formas en base a secuencias Claridad. Elevado coste 

Lógicas de predicados lógicos No ambigüedad. computacional. 

relacionados. 

Modelo Representación del texto Semántica. Alta complejidad. 

Semántico en base a grafos Claridad. Elevado coste 

basado en semánticos dirigidos No ambigüedad. computacional. 

Grafos y acíclicos. 

Tabla 2.10. Síntesis de los modelos de representación textual 

clase semántica detectada por el reconocedor de entidades; y (2) las relaciones 

semánticas obtenidas a partir de un análisis semántico (Bixler 

et al. , 2005). Las relaciones semánticas son del tipo: es-un, parte-de, 

es-resultado-de, es-una-manera-de-hacer y es-resultado-de. A continuación 

se muestra el ejemplo 12 donde se representa la frase dada con su 

forma lógica asociada. 

(12) Frase: Bin Laden reportedly purchased anthrax a half 

decade ago from a supplier in North Korea.


Representación: Bin NN(x1) & Laden NN(x2) & nn NNC(x3, 

x1, x2) & human NE(x3) & reportedly RB(x4, e1) 

& purchase VB(e1, x3, x5) & anthrax NN(x5) & 

half JJ(x6, x7) & decade NN(x7) & ago JJ(x8, x7) 

& from IN(e1, x9) & supplier NN(x9) & in IN(x9, 

x12) & North NN(x10) & Korea NN(x11) & nn NNC(x12, 

x10, x11) & location NE(x12) 

Las relaciones semánticas de la frase del ejemplo están expresadas en la 

tabla 2.11. Estas relaciones semánticas se representan en la forma lógica 

mediante la introducción de nuevos predicados. Estos nuevos predicados 

conservan la estructura de sus análogos originales detallados en secciones 

anteriores de este capítulo introduciendo como novedad el concepto 

de rol semántico (Moreda et al. , 2008). Un rol semántico describe una 

función abstracta desempeñada por un elemento que participa en una 

acción. Básicamente modelan el tipo de relación semántica existente 

(rol semántico), y sus argumentos se corresponden con los argumentos 

identificadores de los predicados de la forma lógica vinculados en las 

relaciones semánticas. A continuación, el ejemplo 13 muestra la representación 

de las relaciones semánticas existentes en la frase. 

(13) Frase: Bin Laden reportedly purchased anthrax a half 

decade ago from a supplier in North Korea. 

Representación de relaciones semánticas: AGENT SR(x3, 

e1) & TOPIC SR(e1, x4) & THEME SR(x5, e1) 

& RECIPIENT SR(x9, e1) & TEMPORAL SR(x7, 

e1) & MEASURE SR(x6, x7) & LOCATION SR(x12, 

x9) 

Relaciones semánticas 

AGENT(Bin Laden, purchased) 

TOPIC(purchased, reportedly) 

THEME(anthrax, purchased) 

RECIPIENT(a supplier in North Korea, purchased) 

TEMPORAL(a half decade ago, purchased) 

MEASURE(a half, decade) 

LOCATION(in North Korea, a supplier) 

Tabla 2.11. Relaciones semánticas de la frase del ejemplo 

El sistema de Demner-Fushman et al. (2007) aplica un preproceso de 

los documentos a representar consistente en la normalización de los mismos. 

Para ello elimina plurales, posesivos, palabras compuestas, otros 

guiones, variantes deletreadas (spelling variants), etc. A continuación


obtiene una representación estadística de los documentos siguiendo el 

modelo de n-gramas, teniendo un total de 1250391 n-gramas con tamaño 

de n variable desde 1 hasta 8. En el proceso de representación, 

el índice almacena el número de ocurrencias de cada n-grama en cada 

documento. 

Como mejora y optimización de la representación formal del texto se 

propone utilizar una representación basada en el modelo de análisis 

sintáctico y el reconocimiento de la terminología del corpus. 

El sistema DIOGENE de Bernardo Magnini et. al (2002) hace un preproceso 

que consiste, en un primer paso, en una tokenización y etiquetado 

PoS de las palabras y, en un segundo paso, en el reconocimiento 

de expresiones multipalabra. Una vez realizado este preproceso, el texto 

es representado formalmente siguiendo el modelo de representación 

híbrido. Para ello identifica cada palabra o expresión multipalabra con 

su sentido asociado en la base de datos léxica WordNet. 


Recuperación de Información 


texto que utilizan los sistemas de Recuperación de Información desarrollados 

en los centros de investigación de Amsterdam, Barcelona (Yahoo) 

y Maryland bajo la supervisión de los investigadores Marteen de Rijke, 

Ricardo Baeza-Yates y Jimmy Lin respectivamente. 

El sistema de Balog et al. (2007) obtiene una representación formal del 

documento basada en el modelo de bolsa de palabras (bag-of-words). 

De este modo, las estimaciones que hace para determinar si un documento 

es candidato a ser relevante para una query es puramente 

estadística ya que se basa en la formulación propuesta por Bayes: 

P (documento|query) = P (query|documento)P (documento)/P (query). 

El sistema de Baeza-Yates et al. (2007) obtiene una representación formal 

del texto basada en el modelo de bolsa de palabras. En el proceso 

de recuperación maneja conceptos totalmente estadísticos tales como 

las frecuencias normalizadas de los términos, la distribución de las frecuencias, 

y las correlaciones de las frecuencias entre los términos de los 

documentos y de las queries. 

El sistema de Jimmy Lin (2006), al igual que los dos sistemas predecesores 

en este apartado, obtiene también una representación formal 

del texto basada en el modelo de bolsa de palabras. Para ello utiliza 

una variante del modelo de pesado TF.IDF. Básicamente se centra en


computar estadísticamente las frecuencias de aparición de los términos 

tanto en los documentos como en las queries, tratando de establecer 

algún tipo de relación entre ambos. 


Traducción Automática 


texto que utilizan los sistemas de Traducción Automática desarrollados 

en los centros de investigación de California, Kyoto y Washington bajo 

la supervisión de los investigadores Chin-Yew Lin, Takao Doi y Chris 

Quirk respectivamente. 

El sistema de Lin et al. (2004) obtiene una representación formal del 

texto basada en el modelo de n-gramas y su variante modelo de skip 

n-gramas. La Traducción Automática se basa en complejos cálculos basados 

en la estadística sobre los n-gramas de tamaño 1 y 2, y los skipbigramas. 

El sistema de Doi et al. (2005), al igual que el anterior sistema presentado 

(Lin et al. (2004)), obtiene también una representación formal 

del texto basada en el modelo de n-gramas. La Traducción Automática 

se basa, básicamente, en la computación de las probabilidades que 

relacionan las secuencias de palabras y las expresiones tratadas en los 

n-gramas. 

El sistema de Quirk et al. (2005) obtiene la representación formal del 

texto aplicando el modelo basado en el análisis de dependencias. En 

el proceso de traducción utiliza también segmentación y alineamiento 

paralelo a partir de la representación obtenida como árbol de dependencias. 


Categorización Automática de Textos 


texto que utilizan los sistemas de Categorización Automática de Textos 

desarrollados en los centros de investigación de Texas, Passau y 

Pittsburgh bajo la supervisión de los investigadores Rada Mihalcea, 

Karl-Michael Schneider y William W. Cohen respectivamente. 

El enfoque de Categorización Automática de Textos presentado por 

Hassan et al. (2007) modela la distribución de probabilidad de las palabras 

características de cada documento a partir de una representación 

formal del texto muy similar a los grafos presentados en el modelo


semántico. Los grafos se construyen teniendo en cuenta las siguientes 

consideraciones: 

si un término no ha sido previamente modelado en el grafo, entonces 

se añade un nodo que representa al término. 

un término sólo puede ser representado por un único nodo del grafo, 

independientemente del número de apariciones en el documento. 

se dibuja un arco no dirigido entre dos nodos si los términos que representan 

dichos nodos co-ocurren para un tamaño de ventana dado. 

A continuación, el ejemplo 14 muestra la representación de un texto 

según este modelo de representación considerando un tamaño de ventana 

igual a 2. 

(14) Texto: London-based sugar operator Kaines Ltd confirmed 

it sold two cargoes of white sugar to India 

out of an estimated overall sales total of four or five 

cargoes in which other brokers participated. The 

sugar, for April/May and April/June shipment, was 

sold at between 214 and 218 dlrs a tonne cif, it 

said. 

Representación: En la figura 2.1 se puede contemplar 

la representación del texto anterior en base a este 


En la aplicación de la Categorización Automática de Textos propuesta 

por Schneider (2004), la representación formal del texto se basa en 

el modelo de bolsa de palabras. De este modo, cada documento tiene 

asociado un vector característico bidimensional. La primera dimensión 

del vector refleja las diferentes palabras del documento mientras que la 

segunda dimensión del vector indica la frecuencia de aparición de cada 

una de las palabras en el documento. En base a este modelo de representación, 

la clasificación se basa en una computación estocástica de 

estos vectores basada en Naive Bayes considerando la divergencia KL. 

La propuesta de Categorización Automática de Textos planteada por 

Zelikovitz et al. (2007) utiliza una representación formal del texto basada 

en el modelo bolsa de palabras. Sobre esta representación y la incorporación 

de conocimiento del medio (background knowledge) al sistema 

WHIRL (Word-based Heterogeneous Information Retrieval Language) 

realiza el proceso de clasificación de los textos.


tonne 

dirs 

shipment 

cif 

June May 

April 

participated 

brokers 

total 

London 

sales 

Figura 2.1. Grafo que representa el texto del ejemplo 

based 

estimated 

India 

sugar 

operator 

Kaines 

confirmed 

sold 

cargoes 

white 


Diálogo 


texto que utilizan los sistemas de Diálogo desarrollados en los centros 

de investigación de Saarsbrucken, Wisconsin, Rochester y Valencia bajo 

la supervisión de los investigadores Ralf Engel, Susan M. Haller, James 

F. Allen y Emilio Sanchís respectivamente. 

El sistema de Diálogo multimodal de Engel et al. (2007) utiliza un analizador 

sintáctico que usa dos tipos de reglas: 

el primer tipo de reglas es un conjunto de reglas específicas del dominio 

cuyo propósito es convertir las expresiones de entrada al sistema 

en una representación sintáctica intermedia. 

el segundo tipo de reglas es un conjunto de reglas independiente del 

dominio cuyo objeto se centra en realizar una transformación de las 

representaciones sintácticas intermedias obtenidas en el paso previo 

en un árbol de derivación basado en una gramática adyacente (treeadjoining 

grammar). 

El sistema de Diálogo propuesto por McRoy et al. (1998) plantea una 

representación profunda mixta (mixed-depth representation) del tex-


to que maneja tanto información sintáctica como conceptual. Para ello 

utiliza un análisis sintáctico con una gramática basada en lingüística 

(linguistically based grammar) para capturar la sintaxis y la conceptualización 

de las expresiones de entrada al sistema. 

Además, la representación del conocimiento del dominio y la representación 

del discurso se realiza en un framework uniforme como una red 

semántica proposicional. En este framework la información se representa 

como un grafo compuesto de nodos y arcos dirigidos etiquetados que 

cumplen las siguientes propiedades: 

cada nodo representa un único concepto. 

cada concepto representado en la red tiene un único nodo asociado. 

el conocimiento representado sobre cada concepto es representado por 

la estructura de toda la red conectada al nodo que representa el concepto. 

El sistema de Diálogo propuesto por Poesio et al. (1994) utiliza un 

análisis sintáctico para representar la semántica léxica. A esta representación 

la llama “episódica lógica” (episodic logic) y la define como 

una “lógica situacional desarrollada como una representación semántica 

y del conocimiento adecuada para la comprensión general del lenguaje 

natural”. Para ello, cada una de las reglas de la gramática se empareja 

con una regla semántica, y de este modo se construye el árbol de análisis 

sintáctico de la frase. 

El sistema de Diálogo DIHANA (2005) obtiene una representación basada 

en frames de las expresiones de usuario. Los frames se obtienen en 

dos pasos: el primero de ellos consiste en obtener una frase semántica 

definida como una “sequential Intermediate Semantic Language (ISL)” 

de la expresión de entrada al sistema; el segundo paso consiste en traducir 

esta frase semántica en su correspondiente frame asociado. Para 

ello utiliza un procesamiento totalmente estocástico basado en los modelos 

ocultos de Markov y el uso de n-gramas sobre un amplio corpus 

de aprendizaje. 


Extracción de Información 


texto que utilizan los sistemas de Extracción de Información desarrollados 

en los centros de investigación de Chennai, París y Sheffield bajo 

la supervisión de los investigadores Manjula Dhevi, Patrick Gallinari y


Yorick Wilks respectivamente. 

La propuesta presentada por Manjula et al. (2003) realiza una representación 

formal del texto enriqueciendo el modelo de bolsa de palabras 

con relaciones léxicas, conceptuales y contextuales. Las relaciones léxicas 

las adquiere explotando las relaciones definidas en la base de datos 

léxica WordNet. Las relaciones conceptuales son extraídas a partir de la 

definición de la glosa de WordNet, incluyendo su synset. De este modo, 

a cada término representado mediate el modelo de bolsa de palabras 

le extiende su representación incluyendo esta información extraída de 

WordNet. Para la obtención de las relaciones contextuales aplica una 

serie de heurísticas de PLN sobre el análisis de dependencias entre las 

palabras. 

El enfoque planteado por Amini et al. (1999) considera la representación 

formal del texto siguiendo el modelo basado en bolsa de palabras 

enriquecido con información morfosintáctica (concretamente el POS de 

las palabras). Sobre este tipo de representación realiza una computación 

matemática aplicando los modelos ocultos de Markov y los perceptrones 

multicapa. 

La propuesta planteada por Kuper et al. (2003) representa formalmente 

el texto basándose en el modelo de formas lógicas. Concretamente, para 

la lengua inglesa, define una gramática para resolver, entre otros, los 

sujetos y objetos lógicos así como los pronombres y las expresiones 

definitivas (ej. “the Barcelona striker”) derivando, a partir de dicha 

gramática, la forma lógica. A continuación aplica una serie de reglas 

de extracción de información basadas en lógica para operar sobre las 

formas lógicas obtenidas a partir del análisis sintáctico. 


Generación de Resúmenes 


texto que utilizan los sistemas de Generación de Resúmenes desarrollados 

en los centros de investigación de Texas, Toyohashi y California 

bajo la supervisión de los investigadores Rada Mihalcea, Hiroyuki Sakai 

y Eduard Hovy respectivamente. 

La propuesta presentada por Rada Mihalcea et al. (2005) para la Generación 

Automática de Resúmenes realiza representación formal del 

texto como un grafo que contiene vértices y arcos donde los vértices 

representan los conceptos extraídos del texto y los arcos representan las 

relaciones existentes entre los conceptos. A partir de esta representación 

aplica una computación estadística que asigna a cada vértice del gra-

2.6 Conclusiones 41 

fo y a cada arco un factor de peso indicador de su relevancia en el grafo. 

El planteamiento definido en el trabajo de investigación de Hiroyuki 

Sakai et al. (2004) propone una representación formal del texto basada 

en el modelo básico de representación. Sobre esta representación aplica 

complejos cálculos matemáticos para computar las apariciones de los 

términos en los documentos, sus entropías, y el cálculo de similitudes. 

La aproximación planteada por Lin et al. (2002) propone una representación 

formal del texto basada en n-gramas. En concreto, la identificación 

de conceptos la realiza aplicando unigramas, bigramas y trigramas. 

Sobre esta representación aplica un procesamiento estadístico con 

el propósito de realizar la tarea propuesta. 

2.6 Conclusiones 

En los últimos años se está produciendo en la sociedad una utilización, 

cada vez mayor, por una parte de los sistemas de PLN y, por otra, de los 

sistemas que hacen uso del PLN. Un claro ejemplo de los primeros son 

los sistemas de búsqueda de respuestas, que permiten obtener de una 

colección documental una respuesta concreta a una pregunta formulada, 

mientras que un claro ejemplo de los segundos, son los sistemas de 

control domótico que facilitan al usuario la interacción sobre los diferentes 

elementos del hogar domótico a través de las órdenes expresadas 

en lenguaje natural. 

Los sistemas de PLN, no son capaces de procesar el texto tal cual está escrito 

o transcrito sino que, para su proceso, el texto precisa ser representado 

formalmente, facilitando con ello la comprensión de los que se 

expresa en el texto. Existen numerosos modelos de representación del 

texto. Estos modelos, atendiendo a las técnicas utilizadas, se clasifican 

en estadísticos o basados en PLN. 

A lo largo del capítulo se han presentado las aplicaciones o sistemas 

más comunes del PLN categorizados según el grado de PLN que incorporan. 

Éstos son: los sistemas de Traducción Automática, los sistemas 

de Categorización Automática de Textos, los sistemas de Recuperación 

de Información, los sistemas de Corrección de Textos, los sistemas 

de Diálogo, los sistemas de Extracción de Información, los sistemas de 

Búsqueda de Respuestas y los sistemas de Generación de Resúmenes. 

Además se han mostrado los diferentes modelos de representación formal 

del texto empleados por estos sistemas, agrupados también, según 

su grado de uso de información lingüística. Concretamente, los modelos 

de representación formal del texto se han clasificado en modelos sin


contenido lingüístico y en modelos con contenido lingüístico atendiendo 

a la información lingüística que incorporan. Dentro de los modelos sin 

contenido lingüístico tenemos el modelo básico (bag-of-words) y el modelo 

de n-gramas. Por otro lado, dentro de los modelos con contenido 

lingüístico nos encontramos con el modelo de representación sintáctica, 

el modelo basado en relaciones de dependencia entre palabras, el 

modelo de fusión de pares de dependencias sintácticas, el modelo de 

formas lógicas, el modelo de representación semántica basado en grafos, 

el modelo basado en ontología y el modelo basado en el análisis de 

la semántica latente (LSA). 

También se ha hecho una síntesis tanto de los diferentes métodos de representación 

formal del texto como de los diferentes modelos dentro de 

cada método, y tras esta síntesis, se han presentado los diferentes usos 

y enfoques que los principales sistemas de PLN vistos en el capítulo hacen 

de estos modelos de representación. Estos modelos de representación 

no abordan el problema de la independencia del dominio y de la lengua. 

Una vez analizado todo ello y, teniendo en consideración que las últimas 

tendencias en el ámbito del PLN han derivado a que los sistemas de 

PLN por un lado, sean capaces de tratar la multilingualidad y, por otro 

lado, sean adaptables del dominio abierto a cualquier dominio restringido, 

el trabajo de investigación presentado en esta tesis se centra en 

desarrollar un recurso lógico-conceptual para la representación formal 

del texto que contemple aspectos como la independencia de la lengua y 

su fácil adaptación del dominio abierto a cualquier dominio restringido 

y viceversa. 

El recurso lógico-conceptual desarrollado para la representación del texto 

se enmarca dentro del modelo de formas lógicas. En los siguientes 

capítulos se detalla este modelo y se presentan los diferentes recursos de 

representación textual existentes en el marco de este modelo. También 

se matizan los detalles del recurso presentado para que contemple su 

implantación en dominios abiertos y en cualquier dominio restringido y 

para que dé soporte a los aspectos de la multilingualidad.

3. La Forma Lógica 

El instrumento fundamental de comunicación humana son las lenguas 

naturales. Las lenguas naturales están formadas por palabras que se relacionan 

y estructuran formando oraciones. Uno de los principales tipos 

de oraciones son las del tipo declarativo que se utilizan para la descripción 


Aristóteles (384 adC - 322 adC) fue el primero en emplear el término 

“Lógica” para referirse al estudio de los argumentos dentro del lenguaje 

natural. En el Organon 1 , Aristóteles la define como ‘el arte de la argumentación 

correcta y verdadera. Luego, podemos deducir que desde 

antes de Cristo, ya existía una estrecha relación entre la lógica y la lengua 

natural. Se plantea otra definición más aplicada de la lógica como 

la disciplina que estudia los métodos de formalización del conocimiento 

humano (Sperschneider & Antoniou, 1991). 

Existen diferentes sistemas lógicos tales como lógica aristotélica, lógica 

baconiana, lógica matemática, lógica de primer orden, lógica de segundo 

orden, lógica booleana y empirismo lógico que a continuación se pasa a 

describir brevemente: 

Lógica aristotélica. La lógica aristotélica (Lear, 1980) (Parry & Hacker, 

1991) se ocupa del estudio de los conceptos, dedicando especial 

atención a los predicables, y de las categorías (o predicamentos), que 

se completa con el análisis de los juicios y de las formas de razonamiento, 

prestando especial atención a los razonamientos deductivos 

categóricos o silogismos, como formas de demostración especialmente 

adecuadas al conocimiento científico. 

Lógica baconiana (Garret, 2003). La parte constructiva de la lógica es 

la exposición de la teoría de la inducción baconiana, o método baconiano. 

Éste no consiste en una simple recogida de datos, sino en una 

observación cuidadosa y completa de los hechos, que llama historia 

natural y experimental, realizada según tablas de presencia, ausencia 

y comparación o grados. La inducción baconiana supone de hecho la 

obtención de hipótesis o conjeturas por eliminación, las cuales somete 

1 El Organon es un conjunto de obras escritas por Aristóteles de Estagira.

44 3. La Forma Lógica 

de nuevo a otras pruebas. 

Lógica matemática. La lógica matemática (Ben-Ari, 2001), también 

llamada lógica simbólica, consiste en el estudio matemático de la lógica 

y en la aplicación de este estudio a otras áreas de las matemáticas. 

La lógica matemática estudia los sistemas formales en relación con el 

modo en el que codifican conceptos intuitivos de objetos matemáticos 

como conjuntos, números, demostraciones y computación. La lógica 

matemática suele dividirse en cuatro subcampos: teoría de modelos, 

teoría de la demostración, teoría de conjuntos y teoría de la recursión. 

Lógica de primer orden (Fitting, 1990). La lógica de primer orden 

(LPO) o cálculo de predicados de primer orden es cualquier sistema 

de la lógica matemática que extiende la lógica proposicional empleando 

variables, predicados y cuantificadores de variables. La lógica de 

primer orden consta de objetos, propiedades de esos objetos y relaciones 

entre los objetos. A lo largo del capítulo se profundiza en los 

detalles de la lógica de primer orden. 

Lógica de segundo orden (Manzano, 1996). La lógica de segundo orden 

es una extensión de la lógica de primer orden en la que se añaden 

variables y cuantificadores que operan sobre conjuntos de individuos. 

Lógica booleana. La lógica booleana (Roth Jr., 2006), conocida también 

como álgebra booleana, es un sistema matemático deductivo centrado 

en los valores cero y uno (falso y verdadero). Su álgebra consiste 

en un método para resolver problemas de lógica que recurre solamente 

a los valores binarios 1 y 0 y a tres operadores fundamentales: and 

(y), or (o) y not (no). 

Empirismo lógico. El empirismo lógico, también denominado positivismo 

lógico, sostiene que un enunciado es cognitivamente significativo 

sólo si, posee un método de verificación empírica o es analítico. 

Sólo los enunciados de la ciencia empírica cumplen con el primer requisito, 

y sólo los enunciados de la lógica y las matemáticas cumplen 

con el segundo. 

Para manejar formalmente el conocimiento humano descrito en los textos 

es necesario disponer de un elemento que permita, por una parte, tener 

una representación formal del conocimiento y, por otra parte, hacer 

deducciones sobre el conocimiento que se está representando (Garrido, 

2003). Este elemento es la forma lógica y se compone de una secuencia 

de uno o más predicados relacionados entre sí. Cada predicado tiene, 

al menos, un argumento, pudiendo tener varios según el tipo de predicado. 

Cada uno de los argumentos de los predicados queda instanciado

3.1 El cálculo de predicados de primer orden en el PLN 45 

mediante variables. A continuación se define formalmente cada uno de 

estos elementos constituyentes de la forma lógica: 

Símbolos de predicado. Los predicados son los elementos principales 

de la forma lógica. Mediante su uso, se establecen las propiedades y 

relaciones de los objetos. Es decir, a través de la utilización de predicados 

se definen las propiedades y relaciones de aquellas palabras o 

secuencias de palabras susceptibles de ser entidades de pensamiento 

autónomas e independientes. 

Argumentos de predicado. Mediante su utilización, de manera estática, 

quedan representados los objetos que relaciona el predicado. 

Variables. Se utilizan para instanciar los argumentos de los predicados 

e identifican exclusivamente tanto a los objetos como a los propios 

predicados. 

Símbolos de puntuación: ( ) ,. Estos símbolos son utilizados por los 

predicados. Entre paréntesis se detallan los argumentos de los predicados, 

separados por comas. 

Por ejemplo, PRED(., ., ..., .) es un símbolo de predicado de n argumentos 

en el que cada argumento quedará instanciado por una variable. 

El empleo de estos símbolos para representar la forma lógica viene derivado 

de la simbología utilizada en el cálculo de predicados de primer 

orden, tal y como se refleja a continuación. 

3.1 El cálculo de predicados de primer orden en el 

PLN 

Según Moore (1995), una de los mayores aplicaciones de la lógica en el 

ámbito de la inteligencia artificial es, por una parte, su utilización como 

formalismo de representación del conocimiento en un sistema computacional 

inteligente y, por otra parte, el empleo de la deducción lógica para 

la abstracción de inferencias en el marco del conocimiento representado. 

En la mayor parte de las ocasiones, el uso de la lógica como mecanismo 

de representación formal y el uso de la deducción lógica para la abstracción 

de inferencias del conocimiento representado van de la mano. 

Es por ello por lo que muchos autores las consideran simultáneamente. 

En cambio Newell (1980) considera que “el rol de la lógica es el de una 

herramienta para el análisis del conocimiento, no para el razonamiento 

de agentes inteligentes”.


Según matiza Poesio (2000), la teoría de propósito general mejor conocida 

para la representación del conocimiento es la lógica de primer 

orden, también conocida como cálculo de predicados de primer orden. 

El cálculo de predicados de primer orden, como sucede con otras teorías 

de representación del conocimiento, permite expresar ciertos tipos de información: 

en el caso del cálculo de predicados de primer orden, ciertas 

propiedades de conjuntos de objetos. Este proceso se lleva a cabo utilizando 

para ello una sintaxis y una semántica. 

En el inicio del capítulo se ha comentado, por una parte, que las frases 

declarativas constituyen el elemento básico de descripción del conocimiento 

y, por otra parte, que la lógica es la disciplina que estudia los 

métodos de formalización del conocimiento humano. Por lo tanto, en 

lógica se estudian los métodos de formalización de frases declarativas. 

Para ello existen dos niveles de abstracción según el grado de detalle 

que se quiera formalizar: lógica proposicional y cálculo de predicados 

de primer orden. 

La lógica proposicional o lógica de enunciados toma como elemento 

básico las frases declarativas simples o proposiciones, que son aquellos 

elementos de una frase que constituyen por sí solos una unidad de comunicación 

de conocimientos y pueden ser considerados verdaderos o 

falsos. 

El cálculo de predicados de primer orden estudia las frases declarativas 

con mayor grado de detalle, considerando la estructura interna de las 

proposiciones. Se tomarán como elementos básicos los objetos y las relaciones 

entre dichos objetos distinguiéndose qué se afirma (predicado 

o relación) y de quién se afirma (objeto). 

El cálculo de predicados de primer orden, y en general la lógica, permite 

hacer deducciones sobre un universo de discurso. Por ello, es imprescindible 

disponer de un lenguaje preciso que permita describir aquellos 

aspectos relevantes de la realidad objeto de estudio. Este lenguaje, conocido 

como lenguaje de primer orden, consta de unos símbolos y unas 

reglas precisas para combinarlos en expresiones sintácticamente correctas, 

en fórmulas. Con el lenguaje de primer orden se puede representar 

el conocimiento descrito en el texto mediante la utilización de fórmulas. 

Con la interpretación del lenguaje de primer orden, es decir, con la interpretación 

de sus fórmulas, se define el valor de verdad de tales fórmulas. 

Seguidamente se detallan los matices que se hacen en la forma lógica 

desde la perspectiva del lenguaje de primer orden, la interpretación y

la evaluación de fórmulas. 

3.1.1 Lenguaje de primer orden 


El lenguaje de primer orden es un conjunto de símbolos, un alfabeto, y 

unas reglas que nos dicen que unas secuencias de símbolos son correctas 

y otras no (unas están bien escritas y otras no). Seguidamente, se 

estudia la adaptación de estos elementos a la forma lógica. 

Alfabeto. Un lenguaje de primer orden, L, viene definido por un par 

(A, F), donde A es un alfabeto de símbolos y F el conjunto de todas 

las expresiones sintácticamente correctas (fórmulas bien formadas) que 

se pueden construir utilizando los símbolos de A. Del alfabeto se emplean 

las siguientes clases de símbolos: 

Variables. Se utilizan las variables para representar los objetos del 

universo de discurso que cumplen los predicados de la forma lógica 

y, junto a los predicados, indican las relaciones existentes en la forma 

lógica. Las variables vienen integradas en los predicados como 

argumentos de los mismos. Como criterio de unificación, las variables 

se suelen identificar a través de las últimas letras del alfabeto en 

minúsculas, pudiéndose utilizar subíndices. Por ejemplo: x, y, z, x1, 

y1 y z1 son símbolos de variable. 

Símbolos de predicado. Los predicados son los elementos principales 

de la forma lógica. Mediante su uso, se establecen las propiedades y 

relaciones de los objetos. 

Símbolos de puntuación: ( ) ,. Estos símbolos son utilizados en las 

definición de los predicados. Entre paréntesis vendrán dados los argumentos 

de los predicados y éstos, a su vez, estarán separados por 

comas. 

Término. En la adaptación del lenguaje de primer orden a la forma 

lógica, se hablará de términos para referirse única y exclusivamente a 

las variables, cuyo principal propósito será instanciar elementos determinados 

del universo de discurso. 

Fórmula atómica. En la adaptación del lenguaje de primer orden a 

la forma lógica, el concepto de fórmula atómica o átomo es equivalente 

al original del lenguaje de primer orden. Luego, si PRED(., ., ..., .) es 

un símbolo de predicado de n argumentos y t1, t2, ..., tn son términos, 

entonces PRED(t1, t2, ..., tn) es una fórmula atómica o átomo.


Fórmula bien formada. En la adaptación del lenguaje de primer 

orden a la forma lógica, únicamente la secuencia de una o más fórmulas 

atómicas relacionadas serán fórmulas bien formadas. Según se ha comentado, 

las fórmulas atómicas se corresponden con los predicados. La 

secuencia de uno o más predicados relacionados consecutivos compone 

la forma lógica. Luego, la forma lógica es una fórmula bien formada. 

Fórmulas abiertas. En las fórmulas bien formadas o formas lógicas, 

tal y como se acaba de comentar, no se utilizan los cuantificadores, luego 

ninguna variable está en el alcance de ningún cuantificador. Es por 

ello que todas las ocurrencias de variable serán libres. Por lo tanto, las 

formas lógicas tendrán la consideración de fórmulas abiertas. 

3.1.2 Interpretación 

En la definición original de Interpretación, se trata de dotar a cada 

símbolo del lenguaje de un contenido, es decir, establecer los valores 

que definen la evaluación a cierto o falso de las fórmulas. En este sentido 

se pretende que: 

las variables identifican a los objetos del universo de discurso. 

los predicados denotan las propiedades y relaciones sobre los objetos 

del universo de discurso. 

las fórmulas bien formadas sean enunciados o sentencias sobre el universo. 

En la adaptación del lenguaje de primer orden L=(A, F) a la forma 

lógica, el objetivo es la asignación a cada símbolo del alfabeto A de un 

valor del universo de discurso de forma que, utilizando esta asignación 

como base, se pueda definir el valor de verdad de cualquier fórmula 

de dicho lenguaje. Para ello se introduce el concepto de interpretación 

adaptada a la forma lógica. 

Interpretación adaptada a la forma lógica. Una interpretación I 

de un lenguaje de primer orden, L=(A, F), es una dupla (D, E) 2 donde: 

D es un conjunto no vacío, llamado dominio de I, en el que las variables 

de A toman valores, y que constituye el universo de discurso. 

2 Nótese que K y H desaparecen del concepto de interpretación original del cálculo de predicados de 

primer orden porque en la adaptación del lenguaje de primer orden a la forma lógica desaparecen 

tanto los símbolos de constante como los símbolos de función


E es una aplicación que asigna a cada símbolo de predicado n-ario 

una relación sobre D n . 

Para ilustrar la definición anterior, se plantea el ejemplo de forma lógica 

“P(x) Q(z, x, y) R(z, w) S(w)”. Cabe suponer que el universo de discurso 

está identificado y definido a través de términos instanciados mediante 

el empleo de variables y, ello deriva que también esté bien definido 

L=(A, F). 

3.1.3 Evaluación de formas lógicas 

Al hacer referencia a la evaluación de las formulas o formas lógicas, como 

se ha comentado anteriormente, se hablará de la evaluación de fórmulas 

abiertas ya que las formas lógicas se corresponden con fórmulas abiertas. 

Debido a que en las formas lógicas no se manejan operadores (paréntesis, 

cuantificadores, conjunción, ...) no tiene sentido hablar de orden de 

precedencia entre ellos. 

El resultado de evaluar una fórmula abierta o forma lógica G con n 

(n > 0) variables libres en una interpretación, es una relación n-aria, 

RG, definida sobre el dominio de la interpretación D. Cada tupla de 

esta relación es tal que, al sustituir las variables libres por las correspondientes 

componentes de la tupla, la fórmula cerrada que resulta es 

cierta en la interpretación. Si la relación RG coincide con Dn la fórmula 

se evalúa simplemente a cierto; si RG no contiene ninguna tupla, entonces 

la fórmula se evalúa a falso. 

Tomando como ejemplo la forma lógica “P(x) Q(z, x, y) R(z, w) S(w)”, 

las tuplas que harán cierta la forma lógica deberán cumplir que las variables 

x, y, z y w quedarán instanciadas con objetos que harán ciertos 

cada uno de los predicados. Cualquier otra tupla que no cumpla alguna 

de las propiedades anteriores, hará falsa la forma lógica. 

Continuando en el marco de las consideraciones realizadas por Poesio 

(2000), una de las razones por las que el cálculo de predicados de primer 

orden es tan popular es porque sus formalizaciones son validadas, 

ésto es, permite deducir a partir de un conjunto de frases expresadas 

en lenguaje natural aquellas frases cuyas consecuencias se deducen a 

partir de la semántica especificada por otras frases. Estas formalizaciones 

se especifican a partir de la aplicación de reglas de inferencia y de 

un conjunto de axiomas. En concreto, una regla de inferencia consiste 

en un conjunto de proposiciones llamadas premisas, y una proposición 

llamada conclusión. La regla de inferencia es un escenario en el que 

se consideran las premisas verdaderas y, en consecuencia, la conclusión 

también es verdadera. Una regla de inferencia es válida sólo en este su-


puesto. Un claro ejemplo de sistema completo de formalización validada 

en base a reglas de inferencias es la deducción natural (Gamut, 1991). 

Poesio también concluye que el cálculo de predicados de primer orden 

tiene una problemática asociada cuando es usado como herramienta 

para capturar las inferencias relacionadas con la comprensión de las expresiones 

formuladas en lenguaje natural. 

Un primer problema son los costes computacionales que acarrea. En 

determinadas situaciones, no se garantiza que un proceso de inferencia 

vaya a terminar. Este hecho sugiere que el cálculo de predicados de 

primer orden no pueda ser una caracterización apropiada del modo en 

que los humanos hacen inferencias, debido a que los humanos pueden 

inferir más rápidamente que los sistemas. Debido a ello, diferentes investigadores 

han desarrollado sistemas lógicos menos potentes que el 

cálculo de predicados de primer orden y, consecuentemente, mucho más 

eficientes. Prolog (Colmerauer & Roussel, 1996) y la forma lógica son el 

mejor ejemplo de ello. Otros investigadores, especialmente los lingüistas, 

opinan que el problema del cálculo de predicados de primer orden 

es justo todo lo contrario: no tiene la suficiente potencia. 

Según Moore (1995), los formalismos de representación basados en lógica 

ofrecen la posibilidad de representar la información sobre una situación 

aunque no se disponga de la descripción completa de la situación. 

Los métodos de inferencia basados en deducción permiten dar respuesta 

lógica a preguntas complejas utilizando para ello la base de conocimiento 

que contiene la información, aún cuando una pregunta no se 

puede evaluar directamente. Para ello, la lógica de primer orden permite 

representar información incompleta sobre las situaciones. Cualquier 

mecanismo de representación que considere estas peculiaridades será, al 

menos, una extensión de la clásica lógica de primer orden, y cualquier 

sistema de inferencia capaz de manejar adecuadamente este tipo de generalizaciones 

tendrá la consideración de sistema automático-deductivo. 

3.2 La forma lógica en el PLN 

La utilización de la forma lógica para describir predicados lingüísticos y, 

en concreto, la utilización de la forma lógica en tareas de procesamiento 

del lenguaje natural se remonta a la década de los sesenta. Prueba de 

ello son las investigaciones realizadas por autores como Davidson (1967) 

y Barwise et al. (1983) que utilizan la forma lógica como mecanismo de 

representación formal del conocimiento representado en el texto.

3.2 La forma lógica en el PLN 51 

Donald Davidson (1967) plantea un marco teórico para representar formalmente 

las oraciones de acción (action sentences) en base a formas 

lógicas. Ejemplos de frases de acción son las siguientes: “Vasco da Gama 

discovered the north pole”, “Aristotle married Jocasta” y “I am telling 

falsities”. En la propuesta de representación planteada en este estudio, 

la forma lógica se basa en una extensión del lenguaje de primer orden 

derivado de la lógica clásica de primer orden (cálculo de predicados de 

primer orden) que se aborda a lo largo del capítulo. En la representación 

destaca la utilización de predicados, variables libres y ligadas como 

argumentos de los predicados, y conectivas lógicas. Según esta representación, 

cada predicado representa una acción e incluye tantos argumentos 

como sean necesarios para representar los agentes que intervienen 

en la acción. Estos argumentos están instanciados mediante variables 

(ligadas y no ligadas). El ejemplo 15, mostrado a continuación, refleja 

la representación formal de una oración en base a la forma lógica planteada 

por Davidson. Existen extensiones a esta representación formal 

basada en formas lógicas planteada por Davidson. La representación 

formal basada en formas lógicas propuesta por Hobbs (1985) extiende 

a la predecesora propuesta por Davidson en el punto de que incluye 

predicados predecesores en la forma lógica indicadores de los predicados 

de acciones. La propuesta realizada por Balkanski (1991) considera 

los problemas derivados de la realización de acciones (especialmente 

expresiones temporales) en la forma lógica de Davidson. 

(15) Frase: Mary gave the pencil. 

Representación: (∃e) Giving(Mary, pencil, e) 

El fuerte planteamiento teórico propuesto en el trabajo de investigación 

de Barwise et al. (1983) se centra en la semántica de vecindarios 

(neighborhood semantics), siendo ésta una semántica que delimita las 

situaciones mínimas en la definición de los criterios de verdad. Para ello 

valida diferentes principios lógicos derivados de la lógica clásica de primer 

orden (cálculo de predicados de primer orden) basados en cláusulas 

semánticas. En base a este planteamiento teórico define un nuevo marco 

semántico conocido como semántica de situación (situation semantics). 

También, en el ámbito de la interpretación semántica basada en la unificación, 

se diseñan gramáticas de unificación que tienen un componente 

elevado de utilización de la lógica en general y, en concreto, de la forma 

lógica en la tarea del diseño de las reglas de las gramáticas. En el diseño 

de estas reglas se consideran dos tipos de reglas: 

Reglas sintácticas. Estas reglas reflejan las estructuras sintácticas dadas 

en las oraciones por sus constituyentes.


Reglas de interpretación semántica. Relacionadas con las anteriores 

reglas sintácticas, las reglas de interpretación semántica permiten dar 

significado a las estructuras sintácticas obtenidas por las anteriores 

reglas sintácticas. 

En este segundo tipo de reglas, por cada expresión de categoría gramatical 

definida en las reglas sintácticas, una forma lógica especifica 

la interpretación semántica del correspondiente constituyente. 

Este tipo de gramáticas suelen ser modeladas a partir de la utilización 

del lenguaje de programación lógica Prolog (Colmerauer & Roussel, 

1996). El desarrollo basado en este lenguaje de programación tiene un 

alto componente lógico basado en cláusulas de Horn (Hodges, 1993) que 

constituyen reglas del tipo modus ponendo ponens, es decir, si es verdad 

el antecedente, entonces es verdad el consecuente. Trabajos como el de 

Pereira et al. (1983) son un claro ejemplo de este tipo de tratamiento. 

Este trabajo de investigación explora las relaciones entre el parsing 

y la deducción destacando el procedimiento de pruebas de deducción 

para las cláusulas definidas. La conexión entre el análisis sintáctico y 

la deducción está basada en la axiomatización de gramáticas libres de 

contexto en cláusulas definidas, siendo las cláusulas definidas un subconjunto 

de la lógica de primer orden (Kowalski, 1980) (van Emden & 

Kowalski, 1976). La axiomatización permite identificar algoritmos de 

análisis sintácticos libres de contexto con procedimientos de prueba para 

una clase restringida de cláusulas definidas derivadas a partir de una 

serie de reglas libres de contexto. Cuando se utiliza un procedimiento 

de pruebas de cláusulas definidas, como Prolog, una declaración objetivo 

requiere el procedimiento de prueba para encontrar posibles instancias 

que cumplan dicha declaración objetivo. Para la deducción en las 

cláusulas definidas cabe destacar que la regla de inferencia fundamental 

se basa en una aplicación de reglas de resolución. Como beneficio principal 

destaca el mecanismo teóricamente limpio para conectar el análisis 

sintáctico con la inferencia necesaria para la interpretación semántica. 

En la década de los ochenta, el trabajo presentado por Stallard (1987) 

utiliza las formas lógicas como mecanismo de representación formal 

del texto utilizando la notación definida en la lógica de primer orden. 

Este trabajo presenta un esquema en dos niveles para la interpretación 

semántica del texto donde el primer nivel trata las consecuencias 

semánticas de la estructura sintáctica mientras que el segundo nivel 

trata la elección adecuada del significado de las palabras. En el primer 

nivel, los significados de las palabras ambiguas, referencias pronominales, 

nominales compuestos y metonímias no son tratadas sino que son 

representadas por variables libres sobre predicados y funciones. La dependencia 

del contexto del significado léxico es tratada en el segundo 

nivel como un proceso de propagación de restricciones que asigna valo-

3.2 La forma lógica en el PLN 53 

res a esas variables sobre la base de la coherencia lógica del resultado 

global. Para la derivación de la forma lógica utiliza un parser de unificación 

sobre una gramática grande. En la forma lógica utiliza variables 

libres y variables ligadas. Las variables libres tienen la peculiaridad de 

que vienen determinadas por las estructuras del análisis sintáctico. Seguidamente, 

el ejemplo 16 muestra la forma lógica de una expresión 

siguiendo esta metodología. En dicho ejemplo, las variables libres están 

subrayadas. 

(16) Frase: John has a car. 

Representación: (∃x (car x) & (have John x)) 

Continuando con la programación lógica llevada a cabo durante la década 

de los noventa en el seno del PLN, en el libro de Jurafsky & Martin 

(2000), se presenta el recurso Attribute Logic Engine (ALE). Este recurso 

está implementado en Prolog e integra el parsing estructural de 

las frases con la programación lógica de restricciones cuyo tipos característicos 

se estructuran como términos. La programación lógica y el 

análisis sintáctico pueden ser usados en conjunto o de manera independiente. 

Los términos implicados en las gramáticas y en los programas 

lógicos están especificados utilizando una extensión tipada de la lógica 

de pares atributo-valor de Rounds-Kasper, incluyendo variables, disjunción 

plena, inecuaciones y descripciones funcionales. 

En relación al trabajo de investigación presentado por Delisle et al. 

(1994) que permite la extracción del conocimiento de textos técnicos, 

los autores consideran que la sintaxis es una indicación segura del significado. 

En consecuencia, la interpretación semántica del texto comienza 

desde la sintaxis más superficial. El componente lingüístico integra un 

parser así como un intérprete semántico asistido por el usuario que memoriza 

la experiencia acumulada en el proceso. Las estructuras semánticas 

resultantes son traducidas a cláusulas de Horn, una representación 

susceptible de aprendizaje basado en explicación (Explanation-based 

Learning, EBL). Un motor EBL realiza el aprendizaje a nivel de símbolo 

en las representaciones tanto de la teoría del dominio como de la 

muestra dada por la parte lingüística del sistema. A continuación en 

el ejemplo 17 se detalla la representación formal de una frase según su 

cláusula de Horn asociada por este sistema. 

(17) Frase: Jim is a resident of Canada because he is serving 

abroad in the armed forces.


Representación: is resident of(jim, canada) :- serve agt lat benf(jim, 

abroad, armed forces) 

La clásica Teoría de Representación del Discurso formulada por Hans 

Kamp (1981) (1993) también tiene un alto componente del cálculo de 

predicados de primer orden. En esta teoría se utiliza el cálculo de predicados 

de primer orden como mecanismo de representación en la interpretación. 

La interpretación se consigue en dos pasos fundamentales: 

el primero de ellos consiste en la construcción de las representaciones 

semánticas referidas como Estructuras de Representación del Discurso 

(DRSs) a partir del discurso de entrada; el segundo y definitivo paso 

consiste en la interpretación teórico-modélica de las DRSs. Seguidamente, 

el ejemplo 18 muestra la DRS de una frase definida en esta clásica 

Teoría de Representación del Discurso. 

(18) Frase: If Pedro owns a donkey, he likes it. 

Representación: ∃x ∃y (pedro(x) ∧ donkey(y) ∧ own(x, y) ⇒ 

∃z ∃w (bealt(z, w), z = x, w = y)) 

La forma lógica presentada en el trabajo de investigación de Lascarides 

& Asher (1993) introduce entidades de discurso que reflejan los eventos 

y los tiempos con el propósito de capturar la referencia deíctica. Para 

ello, tiene en cuenta los eventos, los estados de los eventos y los instantes 

temporales. En esta propuesta se define la función cs que recibe como 

único argumento un evento y devuelve su estado. A continuación, los 

ejemplos 19 y 20 muestran la representación de dos frases con sendas 

formas lógicas asociadas en las que se puede apreciar las representaciones 

de los eventos y los tiempos. 

(19) Frase: Max stood up. 

Representación: [e, t][t ≺ now, hold(e, t), standup(max, 

e)] 

(20) Frase: Max had stood up. 

Representación: [s, t][s : [e][standup(max, e) , s = 

cs(e)], hold(s, t), t ≺ now] 

En el ejemplo 19, la forma lógica introduce las entidades de discurso e 

y t, y los predicados que indican que el evento e es “Max” realizando 

la acción “stand up”, y que e es llevado a cabo en el instante temporal 

anterior al actual. Por el contrario, en el ejemplo 20, en la forma lógica 

se indica que s es el estado consecuente del evento “Max standing up”, 

y se lleva a cabo en el instante temporal t que precede al actual (now).

3.3 La forma lógica en aplicaciones de PLN 55 

En el ejemplo se aplica la regla definida por Moens et al. (1988) que 

dice “a perfect transforms an event into a consequent state, and asserts 

that the consequent state holds”. Consecuentemente y, en relación a los 

estados consecuentes, asume que las siguientes reglas son materializadas 

entre un evento y su estado consecuente: 

(∀t)(hold(cs(e), t) → (∃t ′ )(hold(e, t ′ ) ∧ t ′ ≺ t)) 

(∀t ′ )(hold(e, t ′ ) → (∃t)(hold(cs(e), t) ∧ t ′ ≺ t)) 

De este modo un estado es materializado si y sólo si el evento es llevado 

a cabo en un instante temporal más temprano. 

Una vez analizados los diferentes enfoques teóricos aplicados al PLN 

tanto de la lógica como de la forma lógica, la tabla 3.1 recoge, a modo 

de síntesis, las características más relevantes de cada uno de ellos. 

3.3 La forma lógica en aplicaciones de PLN 

En la década de los 80, Moore (1981) llega a una conclusión que a fecha 

de hoy todavía sigue siendo válida: “If real progress is to be made on 

understanding the logical form of natural-language utterances, it must 

be studied in a unified way and treated as an important research problem 

in its own right”. 

Como consecuencia de esta conclusión efectuada por Moore y de las 

previas investigaciones realizadas en las pasadas décadas referentes a la 

utilización de la lógica en general y, en particular, de la forma lógica en 

el ámbito del PLN, durante la década actual, diferentes investigadores 

del área del PLN han introducido en sus trabajos de investigación el 

concepto de la forma lógica, tales como Rus (2002) y Moldovan (2002), 

que definen la forma lógica como “una representación del conocimiento 

lógico de primer orden de oraciones expresadas mediante lenguaje 

natural”. De esta definición cabe deducir que toda oración expresada 

en lenguaje natural podrá ser representada mediante su forma lógica 

asociada. 

Distintos sistemas de Extracción de Información y Búsqueda de Respuestas 

han utilizado las formas lógicas en sus tareas de procesamiento. 

El formato de la forma lógica depende de cada autor. Antes de entrar 

a especificar los dos tipos de formas lógicas que comúnmente se han 

empleado en el PLN, cabe hacer una definición de algunos conceptos 

introducidos por Mollá et al. (2002):


Características Ventajas/Desventajas 

Formalismo de representación Representación del conocimiento 

Moore basado en lógica. Abstracción incompleto. Dar respuesta lógica 

(Moore, 1995) de inferencias de conocimiento a preguntas complejas. 

mediante deducción lógica. 

Representación del conocimiento Formalizaciones validadas. 

Poesio a través del CPPO. Elevado coste computacional. 

(Dale et al. , 2000) Formalizaciones especificadas Potencia insuficiente. 

mediante reglas y axiomas. 

Representación formal de las Extensión del lenguaje de primer 

Davidson oraciones de acción en base orden especificado en el CPPO. 

(Davidson, 1967) a formas lógicas. Dificultad de comprensión. 

No considera temporalidad. 

Extensión de la forma lógica Dificultad de comprensión algo 

Hobbs definida por Davidson. Inclusión menor. Especificación de la 

(Hobbs, 1985) de predicados indicadores de realización de acciones. 

la realización de acciones. 

Extensión de la forma lógica Dificultad de comprensión algo 

Balkanski definida por Davidson. menor. Temporalidad de la 

(Balkanski, 1991) Tratamiento lógico-temporal realización de acciones. 

de la realización de acciones. 

Utiliza el CPPO basado en Semántica de vecindarios que 

Barwise cláusulas semánticas. delimita las situaciones 

(Barwise & Perry, 1983) Gramáticas modeladas mediante mínimas en la definición 

la utilización de Prolog. de criterios de verdad. 

Conexión del análisis sintáctico Conexión del análisis 

Pereira y la deducción basada en sintáctico con la inferencia 

(Pereira & Warren, 1983) axiomatización de GLC mediante necesaria para la 

cláusulas definidas de Prolog. interpretación semántica. 

Utilización de formas Interpretación semántica en 

Stallard lógicas mediante notación dos niveles. Derivación de 

(Stallard, 1987) definida en CPPO para la la forma lógica a partir 

representación formal del texto. de análisis sintáctico. 

Análisis sintáctico estructural La programación lógica y 

Jurafsky integrado con programación el análisis sintáctico 

(Jurafsky & Martin, 2000) lógica de restricciones cuyos pueden ser usados en 

tipos característicos se estructuran conjunto o de manera 

en términos. Uso de Prolog. independiente. 

Delisle Utilización de cláusulas de Horn Cláusulas de Horn 

(Delisle et al. , 1994) para representar formalmente derivadas a partir 

las frases del texto. de análisis sintáctico. 

Kamp Utilización del CPPO Formulación de la 

(Kamp, 1981) como mecanismo de Teoría de Representación 

(Kamp & Reyle, 1993) representación en la interpretación. del discurso. 

Lascarides Utilización de formas Consideración de los 

(Lascarides & Asher, 1993) lógicas en la representación eventos, sus estados y 

de las oraciones del texto. los instantes temporales. 

Tabla 3.1. Síntesis de los enfoques basados tanto en lógica como en formas lógicas aplicados al 

PLN


Objeto: es todo aquello de lo cual es posible una percepción, es decir, 

son todas las cosas que encontramos en nuestra experiencia. Los 

objetos se utilizan para representar las realidades independientes o 

sustancias que nos encontramos en las oraciones. Se suelen identificar 

con una letra (generalmente la letra ’o’) seguida de un número. 

A continuación, en el ejemplo 21 se muestra la identificación de los 

objetos (no sintácticos) de la oración. 

(21) Frase: Juan pasea por el jardín alegremente. 

Objetos: Juan, identificado por o1, y jardín, identificado 

por o2. 

Eventos: representan las relaciones existentes entre los objetos. Se suelen 

identificar mediante una letra (generalmente la letra ’e’) seguida 

de un número. Seguidamente, el ejemplo 22 muestra la identificación 

de los eventos de la oración anterior. 


Eventos: pasear por, identificado por e1. 

Propiedades: con ellas se representan las características tanto de los 

objetos como de los eventos. La identificación de la propiedad se suele 

hacer con una letra (generalmente la letra ’p’) seguida de un número. 

A continuación, el ejemplo 23 detalla la identificación de las propiedades 

de la oración anterior. 


Propiedades: alegremente, identificada por p1. 

Una vez que se han introducido estos conceptos, a continuación se detallan 

dos de los enfoques de formas lógicas más utilizados en el PLN: 

Mollá et al. (2002), en la definición de la forma lógica, utiliza tres 

tipos de predicados: 

• Objetos. Este tipo de predicado es usado para representar los objetos 

(no sintácticos) de las oraciones y tiene tres argumentos. El 

primer argumento quedará instanciado con el propio objeto. El segundo 

argumento quedará instanciado con una variable que iden-


tificará exclusivamente al propio predicado. El tercer argumento 

vendrá instanciado con una variable que identificará exclusivamente 

al propio objeto. 

• Eventos. Este tipo de predicado es utilizado representar los eventos, 

es decir, las relaciones existentes entre los objetos. Los predicados 

del tipo evento tienen tres argumentos. El primero de ellos quedará 

instanciado con el propio evento. El segundo argumento es 

instanciado con la variable que identifica exclusivamente al propio 

predicado. El tercer argumento vendrá instanciado con una lista de 

variables que identifica de manera exclusiva a los objetos implicados 

en el evento. 

• Propiedades. Se utiliza este tipo de predicados para representar las 

propiedades, es decir, las características tanto de los eventos como 

de los objetos. Este tipo de predicados tiene también tres argumentos. 

El primer argumento queda instanciado con la propiedad. El 

segundo de ellos queda instanciado con la variable que identifica de 

manera exclusiva el propio predicado. El tercer argumento queda 

identificado con una variable que identifica al objeto/evento (o su 

predicado asociado) que cumple dicha propiedad. 

Además, pueden aparecer otros tipos de predicados en la forma lógica 

cuyo único propósito es el de relacionar otros predicados de la misma. 

Un ejemplo de ellos son los predicados asociados a las preposiciones 

que tienen dos argumentos que identifican a los predicados relacionados 

por medio de la preposición. Se ha de considerar también que 

la forma lógica de Mollá et al. (2002) está orientada a manejar textos 

en el dominio restringido de los manuales del sistema operativo 

Unix. Es por ello por lo que también introduce predicados dependientes 

del dominio de aplicación. A continuación, el ejemplo 24 muestra 

la representación de una frase del manual del sistema operativo Unix 

mediante su forma lógica asociada. 

(24) Frase: cp copies very long files. 

Forma lógica: holds(e1), object(cp, o1, x1), evt(copy, 

e1, [x1, x2]), object(file, o2, x2), prop(long, p1, 

x2), prop(very, p2, p1) 

En la forma lógica del ejemplo, el predicado holds(e1) es dependiente 

del dominio de aplicación e indica que el predicado identificado por 

la variable e1, es decir, object(cp, o1, x1), pertenece al dominio res-

tringido de manuales del sistema operativo Unix. 


Moldovan et al. (2003) distingue cuatro tipos de predicados según su 

función sintáctica. Cada predicado incluye su raíz léxica: 

• Sustantivo. Este tipo de predicado representa a los sustantivos de 

la frase y tiene un único argumento que se instancia con la variable 

que identifica al objeto que cumple el predicado. 

• Verbo. Este tipo de predicado representa a los verbos de la frase y 

tiene tres argumentos. El primer argumento se instancia con la variable 

que identifica exclusivamente la acción del verbo. El segundo 

argumento se corresponde con la variable que identifica al objeto 

que desempeña el rol de sujeto sintáctico del verbo. El tercer argumento 

se corresponde con la variable que identifica al objeto que 

hace las funciones de objeto sintáctico del verbo. 

• Adjetivo. Este tipo de predicado representa a los adjetivos que aparecen 

en la frase y tiene un único argumento que se instancia con 

la variable que identifica al objeto que cumple el predicado. Generalmente, 

el adjetivo suele acompañar a un sustantivo. Este hecho 

hace que en la forma lógica ambos predicados queden instanciados 

por la misma variable. 

• Adverbio. Este tipo de predicado representa a los adverbios que 

aparecen en la frase y tiene un único argumento que se instancia 

con la variable que identifica al objeto que cumple el predicado. Generalmente, 

el adverbio suele acompañar al verbo y, en este caso, en 

la forma lógica ambos quedan identificados por la misma variable. 

Al igual que en el caso de la forma lógica de Mollá et al., en este 

formato de forma lógica, también existen predicados cuya función es 

relacionar otros predicados de la forma lógica. Un ejemplo de ello son 

también las preposiciones que introducen predicados con dos argumentos 

que quedan instanciados con las variables identificadoras de 

los predicados relacionados mediante la preposición. A continuación 

el ejemplo 25 ilustra la representación de una frase a través de su 

forma lógica asociada. 

(25) Frase: John gave Mary the book on Saturday. 

Forma lógica: John NN(x1) give VB(e1, x1, x3) Mary:NN (x2) 

book NN(x3) on IN(e1, x4) Saturday NN(x4)


Metodología de derivación de la forma lógica. 

Además del formato de ambas formas lógicas, la metodología de obtención 

de la forma lógica también es una cuestión a tener en cuenta. 

Ambos métodos de obtención de la formas lógicas utilizan un análisis 

sintáctico en su labor de derivación de la forma lógica de las frases expresadas 

en lenguaje natural: 

Mollá et al. (2002) utiliza Link Grammar como módulo de análisis 

sintáctico. Link Grammar es un analizador sintáctico basado en una 

gramática de diccionario que cuenta con alrededor de 60.000 palabras 

(Sleator & Temperley, 1993). Link Grammar devuelve las relaciones 

de dependencia entre pares de palabras de la frase, pero tiene un 

inconveniente y es que no devuelve la dirección de la dependencia 

entre los pares de palabras. Con objeto de solventar este problema, 

el sistema ExtrAns incorpora un módulo que añade la dirección de 

las dependencias a la salida de Link Grammar. Además, como el sistema 

ExtrAns está enfocado al dominio restringido de los manuales 

de las páginas del sistema operativo Unix, es necesario incorporar al 

diccionario de Link Grammar toda la terminología de comandos del 

sistema operativo. 

Moldovan et al. (2003) utiliza el árbol de análisis sintáctico para construir 

la forma lógica. El analizador sintáctico utilizado está basado en 

el estilo de análisis sintáctico de Penn Treebank (Marcus et al. , 1994). 

Partiendo del árbol de análisis sintáctico de constituyentes de la frase 

en lenguaje natural, aplica una serie de reglas de transformación que 

derivan la forma lógica asociada (Rus, 2002). 

Con todo ésto, cabe deducir, que el formato de forma lógica empleado 

por Mollá et al. (2002) es muy ad-hoc al dominio del manual de 

usuario de Unix, empleando predicados como holds e introduciendo en 

ocasiones diversos predicados para un mismo objeto-concepto que hacen 

a la forma lógica muy compleja de leer e interpretar, mientras que el 

formato escogido por Moldovan et al. es más natural que el formato de 

Mollá et al. y hace a la forma lógica más fácil de ser leída e interpretada. 

Referente a la metodología de derivación de ambas formas lógicas, el 

método escogido por Mollá et al. presenta el inconveniente de que aparte 

del análisis sintáctico, hay que resolver la dirección de las dependencias 

entre pares de palabras dadas por Link Grammar, mientras que 

la metodología empleada por Moldovan et al. no tiene problemas de 

ésta índole ya que utiliza directamente el árbol de análisis sintáctico de 

constituyentes. Como dicen Courtin y Genthial (1998), el procesamiento 

basado en análisis sintáctico permite añadir información semántica a

3.4 La forma lógica extendida: independiente del dominio y de la lengua 61 

las palabras. En dominios abiertos, el método de derivación de formas 

lógicas a partir del análisis sintáctico mejora el conocimiento del sistema. 

Por otro lado, en los dominios restringidos, existen otras fuentes de 

conocimiento tales como tesauros y ontologías de dominio que pueden 

ser usados para incorporar información conceptual y semántica a las 

palabras de la frase. Cuando con este propósito se hace uso de este tipo 

de recursos, la derivación de las formas lógicas a partir de dependencias 

entre pares de palabras es mucho más precisa. 

3.4 La forma lógica extendida: independiente del 

dominio y de la lengua 

Se acaban de introducir dos modelos distintos de forma lógica aplicados 

al PLN. Por una parte, la forma lógica de Mollá et al. se aplica a 

dominios restringidos, mientras que por otro lado, la forma lógica de 

Moldovan et al. está enfocada hacia el dominio abierto. 

Se debe considerar que en los últimos años las herramientas del PLN 

se han extendido hacia los dominios restringidos. Un claro ejemplo de 

esto último ha ocurrido con la adaptación de los sistemas de Búsqueda 

de Respuestas de dominio abierto hacia los dominios restringidos 

como puede comprobarse en la edición especial de la prestigiosa revista 

Computational Linguistics dedicada a QA en dominios restringidos 

(Daelemans & van den Bosch, 2007). Cuando se trabaja sobre dominios 

restringidos, se dispone de multitud de recursos léxicos y semánticos que 

aportan información de diversa índole a las frases expresadas en lenguaje 

natural. La adaptación de los sistemas del PLN hacia los dominos 

restringidos hace que los propios sistemas necesiten de la utilización de 

mecanismos de representación formal del texto capaces de tratar textos 

tanto en el dominio abierto como en los dominios restringidos. En 

los últimos tiempos también han surgido una serie de tendencias que 

han derivado hacia el tratamiento multilingüe de la información. Por 

ello también los sistemas de PLN deben disponer de un mecanismo que 

proporcione la representación formal de los textos en diferentes lenguas. 

Las formas lógicas introducidas en el inicio del capítulo no tienen en 

cuenta estas dos consideraciones referentes a la independencia del dominio 

y de la lengua. La forma lógica de Mollá et al. introduce terminología 

adicional dependiente del dominio para matizar aquellos predicados que 

son exclusivos del dominio restringido. Un ejemplo de ello es el predicado 

holds que hemos visto en el anterior ejemplo. Además, introduce 

variables para identificar exclusivamente, y de manera independiente, 

tanto los predicados como los objetos asociados a tales predicados. Ello 

hace que la forma lógica añada mucha terminología que la hace difícil


de leer y, en algunos casos, de interpretar. En contrapartida, la forma 

lógica de Moldovan et al. introduce únicamente la terminología necesaria 

para matizar los detalles relevantes de las frases asociadas. Ello 

hace que esta forma lógica sea más sencilla de leer y de interpretar que 

la forma lógica de Mollá et al. 

Considerando todo ello, la propuesta que se plantea en el trabajo de 

investigación se centra en la derivación de una forma lógica precisa, 

independiente del dominio, conceptualmente completa e independiente 

de la lengua: 

Precisa: el propósito perseguido consiste en derivar una forma lógica 

que introduzca únicamente los elementos necesarios para reflejar el 

contenido de la frase asociada. Es decir, todos los elementos constituyentes 

de la forma lógica tendrán la suficiente entidad por sí solos y 

en conjunto para dotar de contenido a la forma lógica. 

Independiente del dominio: la forma lógica es adaptable para trabajar 

tanto en sistemas de dominio abierto como en sistemas de dominio 

restringido. 

Conceptualmente completa: el propósito que se persigue es el de obtener 

una representación conceptual completa y no ambigua del texto. 

Independiente de la lengua: la forma lógica debe ser capaz de modelar 

en cualquier lengua el conocimiento asociado al texto procesado. 

Estos retos propuestos a la forma lógica se abordan en el capítulo actual 

y en el próximo. A continuación se detalla el proceso de derivación de 

formas lógicas a partir de frases expresadas en lenguaje natural. 

La forma lógica de una frase se deriva a partir de la aplicación de 

reglas basadas en PLN a las relaciones de dependencia entre los pares 

de palabras de la frase. 

3.4.1 Obtención de las relaciones de dependencia entre pares 

de palabras 

El primer paso necesario para obtener la forma lógica de una frase es 

obtener las relaciones de dependencia entre los pares de palabras de la 

frase. 

Según la definición propuesta por Lin (1998b), una relación de dependencia 

entre dos de palabras es una relación binaria asimétrica entre una


palabra llamada núcleo y otra palabra llamada modificador. Normalmente, 

las relaciones de dependencia constituyen un árbol que enlaza 

todas las palabras de la frase. Este árbol de dependencias tiene diferentes 

niveles de palabras porque una palabra en la frase puede tener 

diferentes modificadores, pero cada palabra debe modificar, al menos, 

a otra palabra. La raíz del árbol de dependencia no modifica a ninguna 

palabra. A ella se la denomina la cabeza de la frase. A continuación, el 

ejemplo 26 detalla las relaciones de dependencia entre las palabras de 

una frase. 



Representación: Véase Tabla 3.2 

Modificador Cabeza Relación de dependencia 

Marseille [N] in [Prep] pcomp-n 

who [N] saved [V] whn-subj 

thousands [N] saved [V] obj 

in [Prep] saved [V] mod 

Emergency [N] Committee [N] lex-mod 

Rescue [N] Committee [N] lex-mod 

saved [V] Committee [N] rel 

Mr. [N] Fly [N] lex-mod 

Committee [N] Fly [N] conj 

Fly [N] of [Prep] pcomp-n 

The [Det] story [N] det 

of [Prep] story [N] mod 

Tabla 3.2. Relaciones de dependencias entre las palabras de la frase 

3.4.2 Derivación de la forma lógica 

Una vez que las relaciones de dependencias han sido obtenidas, el siguiente 

paso para inferir automáticamente la forma lógica de la frase 

consiste en analizar las relaciones de dependencia entre las palabras de 

la frase. A continuación se muestra el algoritmo de derivación de la forma 

lógica.


Algoritmo: Derivación de la forma lógica de una frase 

Entrada: frase 

Salida: forma logica 

arbol dependencias := derivacion arbol dependencias(frase) 

para cada (nodo en hojas(arbol dependencias)) 

aplica regla simple(nodo) 

fpara cada 

para cada (nodo en recorrido post orden(arbol dependencias)) 

si (no es hoja(nodo)) 

para cada (hijo en hijos in orden(nodo)) 

aplica regla compleja(nodo, hijo) 

fpara cada 

fsi 

fpara cada 

forma logica := forma logica(dame raiz(arbol dependencias)) 

devuelve forma logica 

fAlgoritmo 

De este modo, cabe matizar que la derivación de la forma lógica consiste 

en un proceso composicional que comienza en las hojas del árbol de 

dependencias y continúa por sus ramificaciones en sentido ascendente 

hasta llegar a la raíz. En cada nodo del árbol de dependencias se puede 

inferir, al menos, un predicado, aunque pueden haber nodos del árbol 

de dependencias que no infieran ningún predicado. De este modo, todo 

nodo del árbol de dependencias, infiera o no algún predicado de la forma 

lógica, recogerá los predicados que vengan de sus nodos inferiores, en 

caso de que tenga nodos por debajo de él, los agrupará y los enviará a 

su nodo superior, junto con el predicado o predicados que dicho nodo 

pueda inferir. El nodo raíz del árbol de dependencias será el que obtenga 

la forma lógica de la frase, en función de los predicados que le vengan 

de sus nodos inferiores, y del predicado o predicados que pueda inferir 

dicho nodo. Para ello, sobre cada uno de los nodos del árbol de derivación 

se le aplican una serie de reglas basadas en PLN. En los Anexos 

A y B del presente trabajo de investigación están detalladas las tareas 

computacionales que se ejecutan para aplicar las reglas basadas en PLN 

que permiten derivar las formas lógicas partiendo del árbol de análisis 

de dependencias. Estas reglas pueden ser de dos tipos dependiendo si 

el nodo es o no un nodo hoja:


Reglas simples: las reglas simples se aplican sobre los nodos hoja del 

árbol de dependencias. A continuación, en el cuadro 27 se muestra el 

pseudocódigo asociado al procesamiento de las reglas simples. 

Reglas complejas: las reglas complejas tienen como origen de la dependencia 

un nodo hoja o un intermedio del árbol de dependencias 

y como destino de la dependencia, un nodo intermedio o la raíz del 

árbol de dependencias. Seguidamente, en el cuadro 28 se presenta el 

pseudocódigo asociado a la computación de las reglas complejas. 

(27) 

(28) 

Algoritmo: Regla Simple 

Entrada: nodo hoja 

var predicado := nulo 

si (generaPredicado(nodo hoja)) 

predicado := nuevo predicado() 

predicado.lema := nodo hoja.lema 

predicado.infoSintactica := InfoSin(nodo hoja) 

predicado.argumentos := Args(predicado.infoSintactica) 

fsi 

asocia(predicado, nodo hoja) 

fAlgoritmo 

Algoritmo: Regla Compleja 

Entrada: modificador, núcleo 

var relacion := Rel Dependencia(modificador, núcleo) 

var esAntMod := Antes En Frase(modificador, núcleo) 

Analiza Caso(modificador, núcleo, relacion, esAntMod) 

fAlgoritmo 

En relación a la aplicación de las reglas complejas 28, cabe matizar 

que la mayor parte del contenido del Anexo B está dedicado al estudio, 

análisis y diseño de la función Analiza Caso. Dicha función se encarga 

de analizar toda la casuística existente para la generación o modificación 

del predicado asociado al núcleo de la dependencia. Para ello analiza la 

cabeza, el modificador, el tipo de relación de dependencia y la posición 

del modificador (anterior o posterior) con respecto a la cabeza. 

Existe una distinción entre reglas simples y reglas complejas porque, 

como se ha matizado anteriormente, la derivación de la forma lógica 

consiste en un proceso composicional que comienza en las hojas del


árbol de dependencias y termina en la raíz del árbol de dependencias. 

En las hojas del árbol de dependencia, no se arrastra ningún constituyente 

de la forma lógica (predicados, variables, ...) que venga desde 

un nodo inferior, porque las hojas del árbol no tienen ningún nodo por 

debajo de ellas. Es por ello por lo que no se tiene que hacer ningún 

tipo de comprobación sobre los constituyentes de la forma lógica que 

vienen heredados de los nodos inferiores, ya que no viene ninguno. En 

cambio, en los nodos intermedios, sí que se tienen constituyentes que 

vienen heredados desde nodos inferiores, con lo cual se tienen que enlazar 

los constituyentes que vienen heredados de los nodos inferiores con 

el constituyente tratado en el nodo intermedio. 

Por ejemplo, un argumento del predicado generado en el nodo tratado 

puede depender del argumento de un predicado generado en un nodo 

inferior. Este tipo de comprobaciones nunca se darán en los nodos hojas, 

debido a que en los nodos hojas no se arrastra ningún tipo de constituyente 

de la forma lógica. En los nodos hojas, mediante la aplicación de 

las reglas simples, se generan los predicados y las variables instanciadoras 

de los argumentos de los predicados, en el caso de que ambos se 

generen, y será en los nodos intermedios y en la raíz, mediante la aplicación 

de las reglas complejas, donde se comprueben los constituyentes 

que vienen heredados de los nodos inferiores al tratado, en el proceso 

de generación del predicado o los predicados y las variables, en el caso 

de que se generen, en el citado nodo. 

Más adelante se muestra un ejemplo de derivación de una forma lógica a 

partir de una oración donde se detalla la computación del algoritmo especificado 

previamente y se pueden comprobar claramente la aplicación 

de cada una de las reglas simples y complejas sobre el árbol de análisis 

de dependencias. En los Anexos A y B de este trabajo de investigación 

están especificadas cada una de las reglas simples y complejas de PLN 

aplicadas al árbol de análisis de dependencias para la derivación de la 

forma lógica. 

Cabe volver a matizar que la forma lógica es inferida, por una parte, 

a través de la aplicación de una serie de reglas simples de PLN sobre 

las hojas del árbol de dependencias y, por otra parte, a través de reglas 

complejas de PLN aplicadas a las dependencias entre pares de palabras 

(núcleo y modificador) en el árbol de dependencia. 

En el diseño de las reglas simples, sólamente se ha contemplado la categoría 

léxica de la palabra mientras que en el diseño de las reglas 

compuestas se he tenido en cuenta la categoría léxica del núcleo, la 

categoría léxica del modificador, el tipo de relación de dependencia y 

la posición relativa del modificador (antes o después del núcleo). La


Tabla 3.3 muestra un pequeño subconjunto de reglas simples de PLN 

mientras que en la Tabla 3.4 están reflejadas algunas reglas complejas. 

En ellas, la columna Hoja refleja la categoría léxica de la palabra que 

está en la hoja del árbol de dependencias, la columna CLC muestra 

la categoría léxica de la palabra situada en el núcleo de la relación de 

dependencia, la columna CLM indica la categoría léxica de la palabra 

situada en el modificador de la relación de dependencia, la columna RD 

detalla la relación de dependencia existente entre núcleo y modificador, 

la columna PM indica la posición relativa del modificador respecto al 

núcleo (anterior o posterior en la frase) y, la columna LF muestra la 

forma lógica derivada en el nodo núcleo de la dependencia, en el caso 

de haberse aplicado una regla compleja, o en las hojas del árbol, en el 

caso de haberse aplicado una regla simple. 

Hoja FL 

Det void 

A lema:JJ( nueva variable x) 

N lema:NN( nueva variable x) 

Tabla 3.3. Subconjunto de reglas simples de PLN aplicadas a las hojas en el árbol de dependencias 

CLC CLM RD PM FL 

N Det det anterior lema núcleo:NN( nueva variable x) 

A A mod anterior FL modificador + lema núcleo:JJ( variable x modificador) 

VBE N subj anterior FL modificador + 

lema núcleo:VB( nueva variable e, variable x modificador, nueva variable x) 

VBE A pred posterior FL núcleo + 

Atributo:IN( variable e núcleo, variable x modificador) + FL modificador 

Tabla 3.4. Subconjunto de reglas complejas de PLN aplicadas a las relaciones de dependencia 

El formato de esta forma lógica es muy parecido al formato de la forma 

lógica de Moldovan et al. (2003). Este formato introduce predicados 

en la forma lógica de manera composicional. Los predicados tienen la 

forma Lema Palabra:Información Sintáctica(argumentos), es decir, incluyen 

tanto el lema como la información sintáctica de las propiedades 

que están representando en ellos. En función de la información sintáctica, 

variará el número de argumentos del predicado. Los argumentos de 

los predicados pueden ser de dos tipos: 

Tipo e: son usados únicamente para identificar las acciones asociadas 

a los predicados del tipo verbo.


Tipo x: se utilizan para identificar el resto de argumentos de los predicados. 

En la forma lógica cabe destacar los siguientes tipos de predicado: 

Sustantivo: Se utiliza este tipo de predicados para identificar a los 

sustantivos de las oraciones. Tiene un único argumento que es instanciado 

con una variable que identifica exclusivamente al objeto que 

cumple dicho predicado. A continuación, el ejemplo 29 introduce la 

derivación de este tipo de predicado. 

(29) Expresión: The house... 

Representación: house:NN(x1) 

Verbo: Este tipo de predicados se utiliza para representar los verbos 

que aparecen en las oraciones. Tiene tres argumentos. El primer argumento, 

de tipo e, identifica la acción del verbo. El segundo argumento 

se utiliza para identificar al objeto que hace las funciones de sujeto 

sintáctico de la acción. El tercer argumento se utiliza para identificar 

al objeto que hace las funciones de objeto sintáctico de la acción. 

En aquellas oraciones en las que el verbo sea intransitivo, o bien tengan 

el sujeto omitido, las variables instanciadoras del segundo y tercer 

argumento del predicado serán zombies (dummies), es decir, no se relacionarán 

con ningún otro predicado de la forma lógica. El ejemplo 

30 detallado a continuación muestra la de derivación de este tipo de 

predicado en la forma lógica. 

(30) Expresión: Nicolas bought a car. 

Representación: Nicolas:NN(x1) buy:VB(e1, x1, x2) 

car:NN(x2) 

Adjetivo: Este tipo de predicado es utilizado para representar los adjetivos 

que aparecen en las oraciones. Tiene un único argumento que es 

instanciado con una variable que identifica exclusivamente al objeto 

que cumple dicho predicado. Además, cuando en la oración el adjetivo 

modifica a un sustantivo, ambos predicados quedan instanciados por 

la misma variable identificadora del objeto que cumple ambos predicados. 

Seguidamente, se detalla en el ejemplo 31 la derivación de este 

tipo de predicado. 

(31) Expresión: Nicolas bought a green car.


Representación: Nicolas:NN(x1) buy:VB(e1, x1, x2) 

green:JJ(x2) car:NN(x2) 

Adverbio: Este tipo de predicado se utiliza para representar los adverbios 

de las oraciones. Tiene un único argumento que es instanciado 

con una variable que identifica exclusivamente al objeto que cumple 

dicho predicado. Además, cuando en la oración el adverbio acompaña 

directamente al verbo, ambos predicados quedan instanciados por la 

misma variable, indicando así que la acción del verbo cumple el predicado 

del tipo adverbio. Seguidamente, en el ejemplo 32 se detalla la 


(32) Expresión: Nicolas quickly bought a green car. 

Representación: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1, 

x1, x2) green:JJ(x2) car:NN(x2) 

Preposición: Se utiliza este tipo de predicados para enlazar los objetos 

que cumplen los dos predicados asociados a las palabras de la 

oración que quedan relacionadas mediante la preposición. Este tipo 

de predicado tiene dos argumentos que se instancian con las variables 

identificadoras de los objetos asociados a los predicados que relaciona. 

A continuación, se muestra en el ejemplo 33 el resultado fruto de la 


(33) Expresión: Nicolas quickly bought a green car in 

London. 


x1, x2) green:JJ(x2) car:NN(x2) in:IN(e1, x3) 

London:(x3) 

Atributo. Se utiliza este tipo de predicado para denotar que un verbo 

copulativo tiene un atributo en la frase debido a que este tipo de 

verbos nunca tendrán objetos sintácticos relacionados. Este predicado 

tiene dos argumentos. El primer argumento instanciará la acción 

del predicado asociado al verbo copulativo mientras que el segundo 

atributo hará lo propio con la variable identificadora del objeto que 

cumple el predicado asociado al atributo. A continuación, en el ejemplo 

34 se muestra la derivación de este tipo de predicado. 

(34) Expresión: The car is green. 

Representación: car:NN(x1) be:VB(e1, x1, x3) Atributo:IN(e1, 

x2) green:JJ(x2)


Conjunción/Disyunción. Este tipo de predicado se utiliza para representar 

las conjunciones y disyunciones que aparecen en las oraciones. 

Tiene tres argumentos. El primero de ellos identifica al objeto que 

cumple dicho predicado. El segundo y el tercero identifican a los objetos 

que cumplen los predicados relacionados mediante el predicado 

conjunción/disyunción. A continuación, el ejemplo 35 detalla un ejemplo 

de derivación de este tipo de predicado. 

(35) Expresión: Nicolas quickly bought a green car and a 

motorbike in London. 


x1, x4) green:JJ(x2) car:NN(x2) and:CC(x4, x2, 

x3) motorbike:NN(x3) in:IN(e1, x5) London:(x5) 

Nominal compuesto. Este tipo de predicado se utiliza para reflejar 

los nominales compuestos presentes en las oraciones. Tiene tres argumentos. 

El primero identifica al objeto resultante de la composición 

de los nominales. Los dos restantes argumentos identifican a los objetos 

que cumplen los predicados asociados a los nominales simples. 

Seguidamente, en el ejemplo 36 se presenta la derivación de este tipo 

de predicado. 

(36) Expresión: Nicolas Smith quickly bought a green car 

and a motorbike in London. 

Representación: Nicolas:NN(x1) Nicolas Smith:NNC(x3, 

x1, x2) Smith:NN(x2) quickly:RB(e1) buy:VB(e1, 

x3, x6) green:JJ(x4) car:NN(x4) and:CC(x6, x4, 

x5) motorbike:NN(x5) in:IN(e1, x7) London:(x7) 

Aposición. Al igual que ocurre con los nominales complejos, la aposición 

marca una relación muy estrecha entre dos elementos de la 

oración. Este tipo de relaciones tiene entidad suficiente para ser representada 

en la forma lógica. Este tipo de predicado que se utiliza para 

reflejar las aposiciones presentes en las oraciones tiene tres argumentos. 

El primero identifica al objeto resultante de la propia aposición. 

Los dos restantes argumentos identifican a los objetos que cumplen los 

predicados constituyentes de la aposición. A continuación, el ejemplo 

37 muestra la derivación de este tipo de predicado. 

(37) Expresión: Nicolas Smith, the bank manager, quickly 

bought a green car and a motorbike in London.


Representación: Nicolas:NN(x1) Nicolas Smith:NNC(x3, 

x1, x2) Smith:NN(x2) Nicolas Smith bank manager:APPO(x7, 

x3, x6) bank:NN(x4) bank manager:NNC(x6, x4, 

x5) manager:NN(x5) quickly:RB(e1) buy:VB(e1, 

x7, x10) green:JJ(x8) car:NN(x8) and:CC(x10, 

x8, x9) motorbike:NN(x9) in:IN(e1, x11) London:(x11) 

3.4.3 Ejemplo de derivación 

Una vez especificado este complejo proceso de derivación de las formas 

lógicas asociadas a oraciones expresadas en lenguaje natural, cabe hacer 

una síntesis del mismo mediante la derivación de la forma lógica 

asociada a la frase “The aspirin is effective”. 

El primer paso consiste en encontrar las relaciones de dependencia 

entre las palabras de la frase. A continuación, el cuadro 38 muestra 

el análisis de dependencias entre las palabras de la frase. 

(38) Frase: The aspirin is effective. 

Representación: En la tabla 3.5 se pueden contemplar 

las relaciones de dependencia existentes en la 

frase anterior 

Modificador Cabeza Relación de dependencia 

The [Det] aspirin [N] det 

aspirin [N] is [V] subj 

effective [N] is [V] pred 

Tabla 3.5. Relaciones de dependencias entre las palabras de la frase 

El segundo paso consiste en aplicar las reglas simples de PLN a las 

hojas del árbol de dependencias, generando con ello los predicados de 

la forma lógica asociados a las hojas. A continuación, el cuadro 39 

detalla la aplicación de este paso del algoritmo. 

(39) Paso: Aplicación de reglas simples a los nodos hoja. 

Representación: La tabla 3.6 detalla la aplicación de 

este paso del algoritmo 

En este paso del algoritmo (ver tabla 3.6) se aprecia que la hoja The 

[Det] no genera ningún predicado en la forma lógica, mientras que la


hoja effective [A] genera el predicado effective:JJ(x1), un predicado 

cuyo lema viene determinado por effective, su información sintáctica 

la define JJ, y su único argumento se instancia con la variable x1, que 

identifica al objeto que cumple este predicado. 

Finalmente, el último paso del algoritmo consiste en aplicar las reglas 

complejas de PLN a las ramificaciones y a la raíz del árbol de dependencias. 

En la raíz del árbol de dependencias queda derivada la forma 

lógica. A continuación, el cuadro 40 detalla la aplicación de este paso 

del algoritmo. 

(40) Paso: Aplicación de reglas complejas a los nodos que 

no son hoja. 

Representación: La tabla 3.7 detalla la aplicación de 

este paso del algoritmo 

En este paso del algoritmo (ver tabla 3.7) se procesan las tres relaciones 

de dependencia existentes: 

1. La primera relación de dependencia tiene como núcleo el sustantivo 

aspirin, como modificador el determinante The, la relación de 

dependencia es del tipo det y la posición del modificador es anterior 

al núcleo. Con estas premisas, la regla aplicada consiste en 

generar un nuevo predicado asociado al sustantivo aspirin e instanciado 

con una nueva variable que identifica al objeto que cumple 

este predicado. Tras aplicar la regla a esta relación de dependencia, 

la forma lógica asociada al núcleo de la dependencia queda del modo 

aspirin:NN(x2), es decir, contiene un predicado cuyo lema viene 

identificado por aspirin, su información sintáctica la define NN, y 

su único argumento queda instanciado por la variable x2. 

2. La segunda relación de dependencia tiene como núcleo el verbo 

is(be), como modificador el sustantivo aspirin, la relación de dependencia 

está etiquetada con el tipo subj y la posición del modificador 

es anterior al núcleo. Ello hace que la regla aplicar consista en generar 

un predicado asociado al verbo is(be). Este predicado tiene tres 

argumentos: la variable e1 instancia la acción del verbo, la variable 

x2 instancia al objeto que hace las funciones de sujeto sintáctico 

del verbo y la variable x3 instancia al objeto que desempeña el rol 

de objeto sintáctico del verbo. La regla también dice que a este 

predicado hay que anteponerle el predicado asociado al modificador 

y, además, que el primer argumento del predicado del modificador 

y el segundo argumento del predicado del núcleo, deben quedar 

instanciados por la misma variable debido al tipo de relación de


dependencia (el modificador es el sujeto sintáctico del núcleo). Una 

vez aplicada la regla, la forma lógica asociada al núcleo queda del 

modo aspirin:NN(x2) be:VB(e1, x2, x3). 

3. La última relación de dependencia tiene como núcleo el verbo is(be), 

como modificador el adjetivo effective, la relación de dependencia 

es del tipo pred y la posición del modificador es posterior a la posición 

del núcleo. Bajo estas premisas, la regla consiste en generar 

un predicado cuyo lema viene determinado por Atributo, la información 

sintáctica queda definida en IN, dicho predicado tiene dos 

argumentos: el primero de ellos queda instanciado con la variable 

identificadora de la acción del verbo, e1, mientras que el segundo 

queda instanciado con la variable identificadora del objeto que cumple 

el predicado asociado al adjetivo. La regla dice también que hay 

que concatenar el predicado asociado al modificador de la dependencia. 

Tras la aplicación de la regla asociada a la última dependencia 

la forma lógica queda del modo “aspirin:NN(x2) be:VB(e1, x2, x3) 

Atributo:IN(e1, x1) effective:JJ(x1)”. 

Hoja FL 

The [Det] void 

effective [A] effective:JJ(x1) 

Tabla 3.6. Reglas simples de PLN aplicadas a las hojas del árbol de dependencias 

CLC CLM RD PM FL 

aspirin [N] The [Det] det anterior aspirin:NN(x2) 

is [VBE] aspirin [N] subj anterior aspirin:NN(x2) be:VB(e1, x2, x3) 

is [VBE] effective [A] pred posterior aspirin:NN(x2) be:VB(e1, x2, x3) 

Atributo:IN(e1, x1) effective:JJ(x1) 

Tabla 3.7. Reglas complejas de PLN aplicadas a las relaciones de dependencias 

Una vez que todas estas reglas de PLN se han aplicado sobre el árbol 

de dependencias de la frase “The aspirin is effective”, la forma lógica 

derivada es “aspirin:NN(x2) be:VB(e1, x2, x3) Atributo:IN(e1, x1) effective:NN(x1)”. 

En ella, cabe destacar que el predicado Atributo que 

relaciona los predicados be y effective como consecuencia de que el sustantivo 

effective es el atributo del verbo intransitivo be. Además, como 

dicho verbo no tiene objeto, el argumento x3 del predicado be es zombie.



A lo largo del capítulo se ha introducido como, desde antes de Cristo, 

uno de los principales cometidos de la lógica en general es la representación 

y gestión del conocimiento del universo del discurso. También se ha 

analizado la fuerte vinculación existente entre la lógica de primer orden 

o el cálculo de predicados de primer orden y la representación formal del 

conocimiento expresado en los textos mediante oraciones formuladas en 

lenguaje natural. Fruto de ello se originan las primeras investigaciones 

con un alto componente teórico en el seno del PLN durante las décadas 

de los sesenta, setenta y ochenta. A partir de la década de los ochenta y, 

sobre todo, en la década de los noventa, en el ámbito del PLN, empieza 

a despertar especial interés el empleo de la forma lógica, como una 

extensión de la clásica lógica de primer orden, para la representación 

del conocimiento expresado en los textos. En el capítulo se analizan los 

diferentes enfoques del uso de la clásica lógica de primer orden así como 

de sus diferentes extensiones, en especial de la forma lógica, que, en el 

ámbito del PLN, se están llevando a cabo desde los años sesenta. Estos 

enfoques quedan sintetizados en el capítulo. 

Ya en el nuevo siglo, una parte importante de los sistemas de PLN 

incorporan la forma lógica como mecanismo de representación formal 

del texto. En estos sistemas, la forma lógica queda definida como “una 

representación del conocimiento lógico de primer orden de oraciones 

expresadas mediante lenguaje natural”. De esta definición se deduce 

que toda oración expresada en lenguaje natural podrá ser representada 

mediante su forma lógica asociada. A lo largo del capítulo se ha especificado 

la vinculación existente de la forma lógica como una extensión 

de la lógica de primer orden o cálculo de predicados de primer orden. 

Tal y como se detalla en el transcurso del capítulo, la representación 

formal del texto mediante la utilización de la forma lógica se remonta 

a la década de los sesenta. Prueba de ello son las diferentes investigaciones 

en esta materia que han sido presentadas en el discurrir de este 

capítulo. Gran parte de estos autores de la época coinciden en la utilización 

de un parser que permita, partiendo del análisis sintáctico de 

las oraciones, la derivación de las formas lógicas asociadas. Como se ha 

matizado a lo largo del capítulo, la granularidad que aporta el análisis 

de dependencias junto con la información semántica adquirida de los 

diferentes recursos de PLN hacen que este tratamiento sea mucho más 

preciso que el análisis sintáctico. En la última década, los autores que 

más relevancia le han dado a la representación formal del texto mediante 

la utilización de formas lógicas han sido Moldovan y Mollá.


El formato de la forma lógica y su proceso de derivación depende de 

cada autor. La técnica propuesta en este trabajo de investigación para 

derivar la forma lógica de una oración declarativa consiste en aplicar un 

conjunto de reglas sobre cada uno de los nodos del árbol de dependencias 

de la oración. Esta técnica de derivación de la forma lógica consiste 

en un proceso composicional que empieza en los nodos hojas de árbol de 

dependencias y continúa en sentido ascendente por sus ramificaciones 

hasta llegar al nodo raíz, donde la forma lógica queda constituida. Esta 

técnica difiere de las otras dos técnicas de inferencia de la forma lógica 

vistas en el capítulo. La técnica continuísta planteada por Moldovan 

et al. (2003) utiliza el árbol de análisis sintáctico de constituyentes en 

el proceso de derivación de la forma lógica. La técnica empleada por 

Mollá el at. (2002) parte del análisis sintáctico, resuelve el sentido de 

las dependencias y, a partir de estas últimas deriva la forma lógica, introduciendo 

en ella predicados alternativos dependientes del dominio 

de aplicación de su sistema (comandos del sistema operativo Unix). 

La forma lógica de Moldovan está diseñada para el texto en dominio 

abierto, mientras que la de Mollá está concebida para trabajar en un 

dominio restringido concreto. El propósito perseguido en esta investigación 

es que la forma lógica sea capaz de trabajar tratar textos en el 

dominio abierto como en cualquier dominio restringido. En el siguiente 

capítulo se detalla cómo se consigue este propósito. 

Desde el punto de vista de la independencia de la lengua, tanto la forma 

lógica de Moldovan como la de Mollá no consideran una representación 

independiente de la lengua de la oración asociada, ya que únicamente 

modelan una representación en la lengua inglesa. En cambio, la forma 

lógica planteada en esta tesis tiene un tratamiento independiente 

de la lengua que permite representaciones en cualquier lengua, incluso 

planteamientos multilingües. En el siguiente capítulo se detalla cómo se 

consigue el tratamiento independiente de la lengua.

4. La forma lógico-conceptual 

Como se está comentado a lo largo de este trabajo de investigación, 

la forma lógica, por definición, permite disponer de “una representación 

del conocimiento lógico de primer orden de oraciones expresadas 

mediante lenguaje natural”, es decir, facilita la comprensión del texto 

mediante su transformación en una determinada representación formal. 

También se ha comentado que las últimas tendencias en el ámbito del 

PLN han derivado a que los sistemas de PLN por un lado, sean capaces 

de tratar la multilingualidad y, por otro lado, sean adaptables del dominio 

abierto a cualquier dominio restringido y viceversa. Ello requiere que 

los sistemas de PLN dispongan de algún mecanismo de representación 

formal del texto que sea capaz de contemplar estas dos particularidades. 

Como se ha detallado en el anterior capítulo donde se realiza un 

estudio sobre las diferentes representaciones de texto existentes utilizando 

la forma lógica, las propuestas existentes hasta el momento no 

contemplan los detalles de la independencia del dominio y de la lengua, 

frente a la propuesta presentada en esta tesis que sí que abarca estas 

dos propiedades. Por un lado, es capaz de representar el texto tanto 

en dominios abiertos como en cualquier dominio restringido y, por otro 

lado, es capaz de obtener una representación del texto independiente de 

la lengua, todo ello basándose en los recursos disponibles de PLN pertenecientes 

tanto al dominio abierto como a los dominios restringidos. 

Tal y como se ha detallado en el anterior capítulo, los predicados inferidos 

en la forma lógica tienen una relación directa con las palabras 

de la frase que representa formalmente la forma lógica. A lo largo del 

presente capítulo se aborda el problema, pero cabe adelantar que, con 

el propósito de abordar los matices inherentes a la independencia del 

dominio y de la lengua, los predicados de la forma lógica necesitan incorporar 

conocimiento semántico a través de la información conceptual 

que representan sus palabras asociadas según el contexto de la frase. 

Este tratamiento conceptual llevado a cabo en la forma lógica hace que 

la forma lógica tenga la consideración de forma lógico-conceptual. 

Seguidamente se describen los detalles de la extensión de la forma lógica 

a la forma lógico-conceptual. Posteriormente, se especifica la aplicación

78 4. La forma lógico-conceptual 

de la forma lógico-conceptual al tratamiento de las particularidades 

referentes a la independencia del dominio para, finalmente, matizar los 

aspectos que permiten tratar la independencia de la lengua. 

4.1 Tratamiento lógico-conceptual y representación 

semántica 

El propósito perseguido consiste en, a partir de la representación formal 

del texto mediante la forma lógica, dotar a esta última de una 

mayor granularidad semántica a través de la conceptualización de sus 

predicados asociados a las palabras del texto representado. Para ello, 

se debe disponer de algún recurso del tipo ontológico o tesauro capaz 

de conceptualizar las unidades léxicas presentes en el texto. Cuando las 

unidades léxicas asociadas a los predicados quedan conceptualizadas, la 

información relativa a los conceptos pasa a enriquecer la representación 

formal del texto en la forma lógica. En este instante, en el que la forma 

lógica incorpora la información conceptual asociada a sus predicados, 

la propia forma lógica pasa a recibir el tratamiento de forma lógicoconceptual. 

En determinadas ocasiones, una palabra puede tener asociada más de 

un concepto. Ello implica que el predicado asociado a esa palabra quede 

multiconceptualizado, produciendo que, a partir de la original forma 

lógica, se deriven diversas formas lógico-conceptuales. 

A lo largo del presente capítulo se explica la derivación de formas lógicoconceptuales 

a partir de una forma lógica pero, cabe adelantar que el 

número de formas lógico-conceptuales viene determinado por el producto 

cartesiano (todos con todos) de los predicados conceptualizados en 

la forma lógica. 

García de Quesada (2001) hace un análisis teórico de la distinción entre 

los conceptos de concepto y término. En este análisis justifica que, desde 

un principio, los teóricos que se han dedicado al estudio y descripción de 

la definición en terminografía han tenido clara la necesidad de otorgar 

prioridad al concepto sobre el término. El papel nuclear de los conceptos 

en la gestión terminológica es indiscutible. Sin embargo, en la práctica 

terminográfica real, es innegable que el concepto de concepto es, quizá, 

uno de los más difíciles de delimitar y definir. 

En el estudio realizado en Sager (1990) se recogen las siguientes definiciones 

de concepto establecidas en diversas instituciones estandarizadoras:

4.1 Tratamiento lógico-conceptual y representación semántica 79 

Los conceptos son constructos mentales, abstracciones que se pueden 

emplear para clasificar los distintos objetos del mundo exterior e interior 

(Recomendación Estándar Británica para la selección, formación 

y definición de términos técnicos). 

Los objetos de todos los campos de conocimiento y actividades humanas, 

las cosas, sus propiedades, cualidades, fenómenos, etc., se representan 

mediante conceptos (Propuesta de revisión del Reino Unido 

para el documento de la ISO R/704). 

Un concepto es un constructo mental para la clasificación de objetos 

individuales del mundo exterior e interior por medio de una abstracción 

más o menos arbitraria (Borrador de 1968 del estándar ISO 704). 

Un concepto es una unidad de pensamiento, generada mediante la 

agrupación de objetos individuales relacionados entre sí por características 

comunes (Borrador de documento DIN, alemán). 

Un concepto es un grupo coherente de juicios sobre un objeto cuyo 

núcleo se compone de aquellos juicios que reflejan las características 

inherentes del objeto (Propuesta de la Unión Soviética para la revisión 

del documento ISO 704). 

Un concepto es una unidad de pensamiento. 

Además, también añade las siguientes puntualizaciones: 

1. Un concepto se usa para estructurar el conocimiento y percepción 

del mundo circundante y no necesita ser expresado. 

2. Distintas escuelas de pensamiento tienen definiciones diferentes del 

concepto concepto (Versión final del Draft International Standard 

ISO/DIS 704, 1985). 

A continuación, el autor propone que dada la gran diversidad de opiniones, 

para los propósitos de la terminología es mejor dejar el concepto 

sin definir (Sager, 1990). 

En el marco del trabajo de investigación que nos ocupa, no creemos que 

sea necesario debatir la naturaleza de concepto. Esta tarea nos llevaría 

a multitud de cuestiones de naturaleza filosófica que quedan lejos de 

los objetivos de esta tesis. Según matiza García de Quesada en su tesis 

(García de Quesada, 2001), los conceptos no son más que una formalización 

posible de una parte del conocimiento. Estos conceptos serán un


punto de referencia para el término, que se puede definir en este contexto, 

como la formalización de uno o varios conceptos, para su uso en la 

comunicación experta, preferentemente. Según matiza De Bessé (1997), 

lo que se ha de definir no es el término, sino el objeto o idea en cuestión, 

y más concretamente su representación conceptual. Dubuc y Lauriston 

(1997) concluyen que, de la misma forma, en terminografía bilingüe el 

establecimiento de equivalencias en ambas lenguas se realiza a través de 

la representación conceptual, de manera que la equivalencia no es entre 

los términos sino entre los conceptos designados por dichos términos. 

El objetivo fundamental que se persigue en esta investigación consiste 

en tener una representación formal del texto que sea independiente del 

dominio y de la lengua. Para abordar este problema, el enfoque adoptado 

en esta tesis se basa en dotar de contenido semántico a la forma 

lógica. Tal y como se acaba de justificar, este reto se consigue a partir 

de la forma lógica y del empleo de recursos del tipo ontológico o tesauros 

que permiten dotar de información conceptual a los predicados 

cuyas palabras asociadas queden conceptualizadas en dichos recursos. 

Este tratamiento conceptual de los predicados de la forma lógica da 

lugar a las formas lógico-conceptuales. 

A continuación se especifican los requisitos que se deben cumplir para 

poder tener una representación formal del texto independiente del dominio 

y de la lengua según el tratamiento lógico-conceptual presentado 

en este trabajo de investigación: 

Recurso conceptual: Independientemente del dominio de los textos a 

representar, tanto en el dominio abierto como en el dominio restringido, 

se debe disponer de recursos que aporten, con mayor o menor 

granularidad, la información conceptual que representan las palabras. 

Generalmente, un concepto viene siempre identificado por un identificador 

exclusivo del propio concepto. 

Conexión multilingüe: El recurso conceptual debe tener una conexión 

entre las diferentes lenguas. 

Tratamiento de categorías semánticas: En los dominios específicos, 

suele ser bastante común disponer de ontologías de categorías semánticas 

del dominio. Cuando se dispone de esta información, cada concepto 

definido en el tesauro está asociado a su categoría o categorías 

semánticas. Únicamente en este caso, y de manera excepcional, la representación 

lógico-conceptual incorporará no sólo el concepto, sino 

también sus categorías semánticas asociadas enriqueciendo semánticamente 

aún más si cabe el predicado de la forma lógica.

4.1 Tratamiento lógico-conceptual y representación semántica 81 

Según matiza Dick (1991), los conceptos representan una entidad, acción 

o estado que pueden ser descritos en el lenguaje, y las relaciones 

conceptuales muestran los roles que cada entidad juega. Una de las conclusiones 

a las que llega en esta tesis doctoral viene determinada en la 

frase “a concept is the basic unit for representing knowledge”. Dada esta 

conclusión y, en la línea de otros trabajos de investigación previos 

en el dominio abierto (Baziz et al. , 2005) (Ramakrishnanan & Bhattacharyya, 

2003) (Zhang & Li, 2005) (Gomez-Hidalgo et al. , 2004), que 

también utilizan los conceptos asociados a las palabras para representar 

formalmente el texto, en esta tesis se ha optado por la continuación de 

esta tendencia consistente en la extracción de la información conceptual 

de las unidades léxicas del texto para su representación formal. De este 

modo, se incorpora a la forma lógica la información conceptual asociada 

a sus predicados conceptualizados, tanto en el dominio abierto como en 

cualquier dominio restringido. 

Para tratar de entender mejor este proceso, en el marco del tratamiento 

semántico de la forma lógica, a continuación se presentan las propiedades 

explotadas de los recursos ontológicos y tesauros tanto en el dominio 

abierto como en los dominios restringidos. En el caso particular, en el 

dominio abierto, el recurso utilizado es WordNet, mientras que en el 

ámbito del dominio restringido, se introduce el dominio médico, explotando 

el recurso UMLS. 

4.1.1 WordNet y EuroWordNet 

En la base de datos léxica WordNet (Miller, 1995), el núcleo fundamental 

es el synset. Un synset se define como un conjunto de palabras 

que tienen el mismo significado (sinónimos). Debido a ello, un synset 

contiene una o más palabras con sentido (también llamadas conceptos) 

y cada palabra con sentido (concepto) pertenece única y exclusivamente 

a un sólo synset. Dicho de otro modo, cada concepto tiene asociado 

exactamente una palabra que lo representa léxicamente y, cada palabra 

puede estar relacionada con al menos un concepto. Cada synset tiene un 

identificador exclusivo formado por una combinación de dígitos. Como 

ejemplo, la tabla 4.1 muestra los synsets del sustantivo car. 

WordNet es un recurso que está disponible en multitud de lenguas (inglés, 

español, catalán, euskera, checo,...). Con el propósito de interconectar 

diferentes lenguas europeas, se desarrolló el recurso EuroWordNet 

(Vossen, 1998) (Vossen, 2002). El objetivo de EuroWordNet es la construcción 

de un recurso léxico-semántico de diversas lenguas, integradas 

e interconectadas, tomando WordNet como punto de referencia. Las 

conexiones entre los WordNet de cada lengua se realiza mediante equi-


Identificador Conceptos del synset 

02958343 car#1, auto#1, automobile#1, machine#6, motorcar#1 

02959942 car#2, railcar#1, railway car#1, railroad car#1 

02960501 car#3, gondola#3 

02960352 car#4, elevator car#1 

02934451 cable car#1, car#5 

Tabla 4.1. Synsets del sustantivo car 

valencias a una estructura interlingüística, el Inter-Lingual-Index (ILI). 

Es decir, el ILI conecta los synsets de las diferentes lenguas. Como 

ejemplo, la figura 4.1 muestra las relaciones existentes entre la lengua 

inglesa y la lengua española del sustantivo prohibition. En este ejemplo, 

el sustantivo prohibition tiene cuatro entradas de synset en el WordNet 

inglés, dos de las cuales (la segunda y la cuarta) están relacionadas con 

synsets del WordNet español a través del ILI. Diferentes autores han 

utilizado el ILI de EuroWordNet para tratar los aspectos relevantes de 

la multilingualidad en sus investigaciones en PLN (Soria et al. , 2006) 

(Marchetti et al. , 2006) (Ferrández et al. , 2006b). 

4.1.2 UMLS 

En el dominio médico existen distintos recursos que aportan conocimiento 

relativo a su terminología. El más extendido es UMLS (Unified 

Medical Language System) (Humphreys & Lindberg, 1993). Este recurso 

está compuesto a partir de la integración de tres fuentes de conocimiento: 

el Metatesauro, el Lexicón Especializado y la Red Semántica que 

cabe describir brevemente a continuación: 

El Metatesauro es el núcleo de UMLS y consta de una colección de 

conceptos y términos extraídos de diferentes vocabularios controlados, 

incluyendo también sus relaciones. 

El Lexicón Especializado es una base de datos de información léxicográfica 

para el uso en PLN. 

La Red Semántica consta de un conjunto de categorías y sus relaciones 

cuya utilidad es la de clasificar y relacionar las entradas del 

metatesauro. 

De entre estos tres recursos de UMLS, el que mejor se adapta a la necesidad 

de extracción de los conceptos es el Metateusauro, que será el 

que se utilizará. Además, cabe destacar que, tal y como se acaba de 

describir, UMLS incorpora una Red Semántica en la que los conceptos

4.2 Derivación de las formas lógico-conceptuales 83 

representados en el Metatesauro quedan categorizados semánticamente. 

Ello permite que dado un concepto se pueda conocer cuál es su tipo 

semántico o categoría semántica. 

En UMLS, independientemente de la lengua, dado un término se puede 

conocer el concepto o conceptos que tiene asociados. Cada concepto 

tiene un identificador exclusivo, y se relaciona con uno o varios tipos 

semánticos de los categorizados en la Red Semántica. También, dado un 

concepto, es posible conocer los términos que se asocian a dicho concepto 

en cada una de las lenguas tratadas en este recurso. Como ejemplo, la 

tabla 4.2 muestra la información semántica del sustantivo aspirin. En 

este ejemplo están detallados únicamente los términos en las lenguas 

inglesa y española, descartando el resto de términos que tiene asociados 

el concepto. 

Identificador Concepto Tipo Semántico Términos 

Organic Chemical Aspirin, 2-(Acetyloxy)benzoic Acid, 

C0004057 Aspirin Pharmacologic Substance Acetylsalicylic Acid, ..., 

Aspirina, Ácido Acetilsalicílico, ... 

Tabla 4.2. Información semántica relativa al sustantivo aspirin 

4.2 Derivación de las formas lógico-conceptuales 

Se acaba de comentar que la forma lógico-conceptual es una extensión 

de la forma lógica que enriquece a ésta última desde una perspectiva 

semántica a través de la incorporación de la información conceptual 

asociada a sus predicados. En este contexto también se ha justificado la 

necesidad de utilización de recursos del tipo ontológico o tesauros que 

permitan extraer la información conceptual asociada a los predicados 

de la forma lógica. 

Según se ha matizado en la sección anterior, en este tipo de recursos, 

la terminología está asociada a los conceptos. Además, cada concepto 

tiene un identificador exclusivo que lo diferencia del resto de conceptos 

del recurso. También cabe destacar que, en los recursos pertenecientes a 

los dominios restringidos, los conceptos quedan categorizados semánticamente 

en tipos o categorías semánticas pertenecientes al dominio restringido. 

Al igual que los conceptos, cada tipo o categoría semántica 

cuenta con un identificador exclusivo que lo diferencia del resto de tipos 

o categorías semánticas del recurso.


Situándose en el ámbito de la forma lógica, la terminología susceptible 

de ser conceptualizada se corresponde con los propios predicados de 

la forma lógica. Ésto quiere decir que, dado un predicado de la forma 

lógica, el tratamiento lógico-conceptual, en un primer lugar, tratará de 

extraer del recurso la información conceptual del predicado, en el caso 

de que dicho predicado quede conceptualizado en el recurso. Concretamente, 

la información conceptual susceptible de ser extraída se corresponde 

con el identificador único del concepto (o los identificadores de 

los diferentes conceptos, en el caso de que el predicado sea multiconceptualizado 

en el recurso). Además, si se está realizando la representación 

formal del texto en el ámbito de cualquier dominio restringido, y en 

el recurso empleado estén categorizados semánticamente los conceptos, 

también serán extraídos del recurso los identificadores de las categorías 

semánticas relacionadas con cada uno de los conceptos asociados al 

predicado. Una vez que toda esta información semántica ha sido extraída 

del recurso, el siguiente paso consiste en reflejar esta información 

semántica en la forma lógica, dando origen a la forma lógico-conceptual. 

A lo largo del capítulo anterior se ha comentado que en la forma lógica 

los predicados tienen la forma Lema Palabra:Información Sintáctica(argumentos), 

es decir, incluyen tanto el lema como la información 

sintáctica de las propiedades que están representando en ellos. En la 

forma lógico-conceptual, aquellos predicados de la forma lógica que tengan 

asociado algún concepto en el recurso utilizado tendrán la forma 

Id Concepto:Lema Palabra:Info Sintáctica(argumentos), es decir, incorporarán 

también la información del concepto que tienen asociado en el 

recurso empleado. En el caso de que un predicado tenga asociado más 

de un concepto en el recurso, se derivarán tantos predicados lógicoconceptuales 

como conceptos tengan asociados en el recurso. Este hecho 

da origen a que de una forma lógica se deriven diversas formas lógicoconceptuales 

como resultado del producto cartesiano de los predicados 

conceptualizados, tal y como se ha comentado en la sección anterior. 

Luego, el número de formas lógico-conceptuales derivadas de la forma 

lógica viene determinado por la combinación de conceptualizaciones de 

cada predicado conceptualizado con el resto de los predicados. El resto 

de predicados que no estén conceptualizados, no sufrirán ninguna alteración, 

manteniendo su estructura original definida en la forma lógica. 

También puede darse el caso de formas lógicas cuyos predicados no tengan 

conceptualización alguna. En este caso, la forma lógica derivará una 

única forma lógico-conceptual, teniendo ambas la misma representación. 

Cabe volver a matizar que las formas lógico-conceptuales derivadas a 

partir de una forma lógica se obtienen mediante el producto cartesiano 

de todos los predicados conceptualizados.

4.2 Derivación de las formas lógico-conceptuales 85 

No conviene olvidar que en el anterior capítulo se matizó que la forma 

lógica debe ser conceptualmente completa. Esto es, de manera sofisticada, 

el propósito final de la forma lógica es conseguir una única 

representación semántica no ambigua de la frase asociada. La representación 

semántica de una frase se corresponde con una única forma 

lógico-conceptual de las derivadas a partir de la forma lógica original. 

Concretamente, la representación semántica de la frase es el resultado 

de la desambiguación de la forma lógico-conceptual, de entre todas las 

formas lógico-conceptuales derivadas, en la que cada predicado, en el 

caso de ser multiconceptualizado, queda asociado con aquel concepto 

que mejor representa el concepto de la unidad léxica según el contexto 

de la frase asociada. A continuación, el ejemplo 41 detalla la derivación 

de las formas lógico-conceptuales asociadas a una forma lógica, así como 

la representación semántica de su frase asociada como resultado de la 

desambiguación de la forma lógico-conceptual más significativa según 

el contexto de entre todas las posibles. En el capítulo siguiente, donde 

se matizan los detalles de la evaluación del recurso lógico-conceptual 

desarrollado en el trabajo de investigación, se especifican los matices 

referentes al proceso de desambiguación utilizado. 

(41) Forma Lógica: P1:NN(x1) P2:VB(e1, x1, x2) P3:NN(x2) 

P4:IN(e1, x3) P5:NN(x3) 

Predicados Conceptualizados: La tabla 4.3 detalla 

la conceptualización de predicados de la anterior 


Formas Lógico-Conceptuales: La tabla 4.4 muestra 

las formas lógico-conceptuales derivadas a partir de 

la conceptualización de predicados sobre la anterior 


Representación semántica: 1 C1:P1:NN(x1) C2:P2:VB(e1, 

x1, x2) C5:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3). 

Predicado Conceptos 

P1 C1 

P2 C2, C3 

P3 C4, C5 

Tabla 4.3. Predicados conceptualizados de la forma lógica 

1 En el ejemplo se asume que los conceptos que mejor conceptualizan a los predicados P2 y P3 son 

C2 y C5 respectivamente.


Conceptos Combinados Forma Lógico-Conceptual 

C1, C2, C4 C1:P1:NN(x1) C2:P2:VB(e1, x1, x2) C4:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3) 




Tabla 4.4. Formas lógico-conceptuales derivadas de la forma lógica original 

El anterior ejemplo 41 modela el proceso dentro del marco lógicoconceptual 

llevado a cabo y que concluye en la obtención de la representación 

semántica de la frase. Este ejemplo está presentado desde 

un punto de vista muy teórico y formal permitiendo distinguir las diferentes 

etapas del proceso lógico-conceptual desarrollado y que concluye 

con la obtención de la representación semántica de la frase fruto de la 

desambiguación de la forma lógico-conceptual en la que cada predicado 

conceptualizado es asociado al concepto que mejor le identifica en el 

contexto de la frase. 

Haciendo una síntesis del proceso lógico-conceptual de una manera más 

natural con un ejemplo, cabe pensar en la frase “Ayer ingresé el dinero 

en el banco”. Este frase deriva una forma lógica que contiene una serie de 

predicados, entre los cuales, uno de ellos se asocia a la palabra “banco”. 

Analizando los diferentes conceptos que tiene asociados esta palabra 2 

se obtiene que del predicado original asociado a la palabra “banco” en la 

forma lógica, se derivan n predicados lógico-conceptuales (un predicado 

lógico-conceptual por cada concepto asociado a la palabra) que serán 

combinados en las diferentes formas lógico-conceptuales obtenidas fruto 

del producto cartesiano de los predicados conceptualizados. Finalmente, 

la representación semántica de la frase se corresponde con aquella 

forma lógico-conceptual en la que cada predicado conceptualizado es 

asociado al concepto que mejor le identifica según el contexto de la 

frase. Concluyendo este proceso lógico-conceptual, en la representación 

semántica de la frase “Ayer ingresé el dinero en el banco”, el predicado 

conceptualizado asociado a la palabra “banco” vendrá definido por el 

concepto “sucursal financiera” que es el concepto que mejor le identifica 

en el contexto de la oración. 

Según se está comentando a lo largo del capítulo, cuando se está procesando 

el texto en el ámbito de cualquier dominio restringido, es más 

que probable que, en el recurso ontológico o tesauro dependiente del 

dominio, los conceptos sean asignados a los tipos semánticos del dominio 

categorizados en el recurso. Extraordinariamente, cuando se dispone 

de esta información, los predicados conceptualizados incorporan 

2 Los conceptos asociados a la palabra banco son: asiento, mesa de trabajo, sucursal financiera, 

etc.

4.3 Independencia del dominio en la forma lógica 87 

también la información relativa a su categoría o tipo semántico, consiguiendo 

con ello un enriquecimiento semántico del predicado conceptualizado 

en particular, y de la representación en general. En concreto, 

incluyen el identificador exclusivo de la categoría semántica a la que 

pertenece el concepto. Si el concepto pertenece a más de una categoría 

semántica, incorporan los identificadores de todas las categorías 

semánticas a las que pertenece el concepto. Considerando esta característica, 

cada uno de los predicados lógico-conceptuales pasa de tener la 

forma Id Concepto:Lema Palabra:Info Sintáctica(argumentos) a tener 

la forma Id Concepto(Id TS1, ..., Id TSn):Lema Palabra:Info Sintáctica(argumentos). 

Es decir, a continuación del identificador del concepto 

se incluyen entre paréntesis y separados por comas cada uno de los 

identificadores de los tipos o categorías semánticas del dominio a las 

que pertenece el concepto. 

Se acaba de presentar el proceso de derivación de las formas lógicoconceptuales 

inferidas a partir de la incorporación de la información 

conceptual a los predicados de la forma lógica. Este tratamiento lógicoconceptual 

permite que la representación formal del texto sea independiente 

del dominio y de la lengua, tal y como se pasa a explicar en las 

siguientes secciones del capítulo. 

4.3 Independencia del dominio en la forma lógica 

En la sección anterior se ha tratado la derivación de las formas lógicoconceptuales 

a partir de la extracción de la información conceptual asociada 

a los predicados de la original forma lógica. Para ello se debe 

disponer de algún recurso del tipo ontológico o tesauro que proporcione 

la información conceptual de la terminología presente en las oraciones 

del texto. Ello quiere decir que, a partir de los términos presentes en 

el texto, se debe extraer del recurso toda la información conceptual 

asociada a ellos. Hasta el momento se propone este planteamiento sin 

entrar en matices inherentes al dominio en el que se enmarca el texto. 

El texto a representar puede estar bajo cualquier dominio, bien sea el 

dominio abierto, bien sea cualquier dominio específico. Ello quiere decir 

que, dependiendo del dominio de aplicación en el que se enmarque el 

texto, se deberá disponer de un recurso ontológico o tesauro dependiente 

de dicho dominio capaz de conceptualizar la terminología del dominio 

atendiendo a los requisitos establecidos en la sección previa del capítulo. 

Este planteamiento, hace que el tratamiento lógico-conceptual sea 

independiente del dominio. Lo único que es dependiente del dominio es 

el recurso conceptual en el ámbito de cada dominio específico.


Una vez especificadas todas estas consideraciones, se puede hablar de 

tratamiento lógico-conceptual modular donde existe un modulo cambiante 

que se corresponde con el recurso conceptual utilizado en el proceso. 

Por ejemplo, si se está representando formalmente el texto en el 

dominio A, el módulo cambiante se corresponde con un recurso dependiente 

del dominio A que cumpla los requisitos establecidos en la 

sección anterior del capítulo. Si por el contrario, se quiere representar 

formalmente el texto en el ámbito del dominio B, entonces habrá que 

instanciar el módulo cambiante a un recurso dependiente del dominio B 

que cumpla los requisitos establecidos en la sección anterior del capítulo. 

Y así sucesivamente para cualquier dominio. De este modo, cabe concluir 

que el tratamiento lógico-conceptual es siempre fijo, atendiendo a 

las especificaciones definidas en la sección previa del capítulo, e independiente 

del dominio. Lo único que depende del dominio es el módulo 

cambiante que se corresponde con el recurso del dominio utilizado en 

cada momento, y que variará en función de que se represente el texto 

en un dominio de aplicación o en otro. El resto del tratamiento lógicoconceptual 

permanece siempre constante. 

Una vez realizados estos matices sobre la independencia del dominio en 

el tratamiento lógico-conceptual, a continuación se enfoca este tratamiento 

lógico-conceptual tomando como referencia dos dominios diferentes: 

el primero de ellos es el dominio abierto, mientras que el segundo 

se corresponde con un dominio específico, concretamente, el dominio 

médico. 

4.3.1 La forma lógico-conceptual en el dominio abierto 

Cuando se está procesando texto en el dominio abierto, se dispone de 

recursos ontológicos o tesauros del dominio abierto como WordNet (Miller, 

1995), que nos permite conocer con todo detalle la información 

conceptual asociada a las palabras del texto. 

Tal y como se está comentando a lo largo del capítulo, la forma lógicoconceptual 

no es más que la incorporación de información conceptual 

a los predicados de la forma lógica. En el dominio abierto, tomando 

como referencia el recurso WordNet, los predicados susceptibles 

de tener algún concepto asociado en WordNet son aquellos cuya 

información sintáctica se corresponda con sustantivo, verbo, adjetivo, 

adverbio y nominal compuesto. De este modo, en la forma lógicoconceptual, 

si un predicado representa un concepto tendrá la forma 

Id Concepto WordNet:Lema Palabra:Info Sintáctica(argumentos). Por el 

contrario, si un predicado no representa ningún concepto, su forma en 

la forma lógico-conceptual no variará respecto a su estructura original

en la forma lógica. 


Una vez introducidos los matices referentes a la utilización del recurso 

WordNet como fuente del conocimiento conceptual asociado a las palabras 

del texto, a continuación, el ejemplo 42 muestra claramente el 

proceso de transformación o derivación de una forma lógica en una o 

más formas lógico-conceptuales. 

(42) Frase: You can proceed to the bank near the corner. 

Forma Lógica: you:NN(x1) proceed:VB(e1, x1, x2) 

to:IN(e1, x3) bank:NN(x3) near:IN(x3, x4) corner:NN(x4) 

Predicados Conceptualizados: 3 La tabla 4.5 detalla 



Formas Lógico-Conceptuales: Las formas lógico-conceptuales 

son derivadas siguiendo un procedimiento similar al 

del anterior ejemplo 41. En dicho ejemplo, la tabla 

4.4 muestra la derivación de las formas lógicoconceptuales 

fruto del producto cartesiano de los 

predicados. 

Predicado Concepto Identificador Concepto 

Bank river bank#1(09213565) 

bank:NN(x3) Depository finantial institution bank#2(08420278) 

Bank building bank#9(02787772) 

corner:NN(x4) Geometric corner corner#2(08544275) 

Street corner corner#4(03109486) 

proceed:VB(e1, x1, x2) Continue proceed#1(00781000) 

Follow a procedure proceed#3(02372605) 

Tabla 4.5. Predicados conceptualizados de la forma lógica 

Se acaba de introducir, en el ámbito del dominio abierto, la forma lógicoconceptual 

como una extensión de la forma lógica que permite añadir 

información conceptual sobre algunos de sus predicados. La información 

conceptual asociada a los predicados se extrae del recurso WordNet. A 

continuación se detalla la derivación de la representación semántica de 

la frase a partir de la desambiguación de las formas lógico-conceptuales 

donde cobran especial interés los predicados multiconceptualizados. Tal 

3 Los conceptos del ejemplo han sido obtenidos del recurso léxico WordNet. No se han tenido en 

cuenta todos los conceptos que puede representar cada predicado con el propósito de no hacer 

muy complejo y extenso el ejemplo de derivación de la formas lógico-conceptuales.


y como se ha comentado en la sección anterior, en el marco del proceso 

lógico conceptual llevado a cabo, para la obtención de la representación 

semántica de la frase, cada predicado multiconceptualizado se desambigua 

con el concepto que mejor le identifica en el contexto de la frase. 

4.3.2 La representación semántica de la frase en el dominio 

abierto 

A lo largo de este trabajo de investigación, se ha hablado de la forma 

lógica como un mecanismo que permite obtener una representación 

formal de las frases expresadas en lenguaje natural. Cuando en el procesamiento, 

se hace uso de algún recurso ontológico o tesauro capaz de 

dotar a los predicados de la forma lógica de su información conceptual, 

se pueden derivar automáticamente las formas lógico-conceptuales asociadas 

a la forma lógica de la frase. A pesar de que una oración puede 

tener diversas formas lógico-conceptuales, sólo debe tener una representación 

semántica y ésta debe ser única. Esta representación semántica 

se corresponderá con una única forma lógico-conceptual de las asociadas 

a la oración. En la representación semántica de la frase cada predicado 

multiconceptualizado adquiere el concepto más relevante según el 

contexto de la frase. Es por ello por lo que, según el ámbito de aplicación 

de la forma lógica (Búsqueda de Respuestas, Recuperación de 

Información, Extracción de Información, ...), el sistema debe disponer 

de algún mecanismo de desambiguación que, partiendo de las formas 

lógico-conceptuales asociadas a la frase, sea capaz de seleccionar aquella 

que considera más adecuada, siendo ésta la representación semántica 

de la oración. Siguiendo esta definición y, dado el anterior ejemplo 42, 

a continuación, el cuadro 43 detalla la representación semántica de la 

frase. 

(43) Frase: You can proceed to the bank near the corner. 

Predicados Multiconceptualizados Desambiguados: 

La tabla 4.6 detalla la desambiguación de los predicados 

multiconceptualizados en la anterior forma 

lógica. 

Representación semántica: you:NN(x1) 00781000:proceed:VB(e1, 

x1, x2) to:IN(e1, x3) 02787772:bank:NN(x3) 

near:IN(x3, x4) 03109486:corner:NN(x4) 

Se acaba de introducir, en el ámbito del dominio abierto, la representación 

semántica de la frase a partir de la desambiguación de los predicados 

multiconceptualizados en la forma lógico-conceptual, tal y como 

se detalla en el marco del tratamiento lógico-conceptual. En el dominio 

abierto, el recurso léxico WordNet es una buena fuente de información


Predicado Concepto Desambiguado Identificador Concepto 

bank:NN(x3) Bank building bank#9(02787772) 

corner:NN(x4) Street corner corner#4(03109486) 

proceed:VB(e1, x1, x2) Continue proceed#1(00781000) 

Tabla 4.6. Predicados multiconceptualizados desambiguados de la forma lógico-conceptual 

conceptual. En cambio, cuando se está trabajando sobre un dominio 

restringido, se debe disponer de otros recursos del tipo ontológico y tesauros 

que sean también una buena fuente de información conceptual 

sobre dicho dominio restringido. A continuación se presenta se presenta 

la aplicación del tratamiento lógico-conceptual en el dominio restringido 

cuyo propósito final consiste en la obtención de la representación 

semántica de las oraciones. El dominio específico tomado de referencia 

es el dominio médico. 

4.3.3 La forma lógico-conceptual en los dominios restringidos 

La clave del tratamiento lógico-conceptual en los dominios restringidos 

está en encontrar el recurso del tipo ontológico o tesauro específico 

del dominio que pueda ser utilizado para extraer la información conceptual 

de la terminología dependiente del dominio, e incorporar esta 

información a los predicados de la forma lógico-conceptual atendiendo 

al procedimiento explicado en la sección anterior. Si se dispone del mencionado 

recurso se podrá llevar a cabo el tratamiento lógico-conceptual 

en el dominio restringido. En el caso de que no se disponga de tal recurso 

no tiene ningún sentido realizar el tratamiento lógico-conceptual en 

el dominio restringido puesto que la terminología específica del dominio 

restringido presente en el texto no podrá ser conceptualizada bajo 

ningún concepto atendiendo a la semántica del dominio restringido. 

El hecho de disponer de un recurso del tipo ontológico o tesauro del 

dominio restringido para ser incorporado como fuente del conocimiento 

conceptual de dicho dominio específico no excluye que también se 

pueda utilizar cualquier otro recurso, tanto del dominio abierto, como 

del dominio específico, pudiendo ambos coexistir en el proceso lógicoconceptual. 

Una justificación de ello está en utilizar WordNet (o cualquier 

otro recurso del dominio abierto que cumpla las especificaciones 

matizadas en la anterior sección) junto con el recurso específico del dominio 

restringido en el tratamiento lógico-conceptual en el ámbito de 

un dominio restringido. Ello se justifica porque, en general, los recursos 

ontológicos o tesauros en el marco de un dominio específico conceptualizan 

únicamente la terminología específica del dominio, dejando sin 

conceptualizar el resto de la terminología. Para solventar este problema, 

el recurso WordNet es utilizado para extraer la información conceptual


del resto de las unidades léxicas no conceptualizadas por el recurso específico 

del dominio restringido. Si se utiliza un recurso específico del 

dominio y otro recurso del dominio abierto en el tratamiento lógicoconceptual 

del texto en el ámbito de un dominio restringido, el recurso 

específico del dominio restringido debe ser predominante sobre el recurso 

del dominio abierto. Esto se justifica porque si un predicado de 

la forma lógica puede ser conceptualizado en ambos recursos, la conceptualización 

realizada por el recurso específico del dominio le dará al 

predicado una semántica más cercana al propio dominio restringido que 

la conceptualización realizada por el recurso del dominio abierto, que 

le dará una conceptualización más genérica. 

Una vez realizadas estas consideraciones, a continuación se detalla el 

tratamiento lógico-conceptual de la forma lógica tomando como referencia 

el dominio médico. 

La forma lógico-conceptual en el dominio médico. Se ha comentado 

que, en el dominio abierto, se dispone de WordNet como un recurso 

capaz de extraer información conceptual sobre determinadas palabras 

del texto atendiendo a su categoría sintáctica. Además, en el dominio 

médico, existen distintos recursos que aportan conocimiento de la 

terminología médica. El más extendido es UMLS (Unified Medical Language 

System) (Humphreys & Lindberg, 1993), presentado al inicio del 

capítulo. De las tres fuentes de conocimiento de las que consta UMLS 

(Metatesauro, Lexicón Especializado y Red Semántica), la que mejor 

se adapta a la necesidad de extracción de los conceptos asociados a los 

predicados de la forma lógica es el Metateusauro, que será el que se 

utilizará. 

Cuando se emplea la forma lógica para representar formalmente los 

textos en el ámbito del dominio médico, la terminología susceptible de 

ser concepto se corresponde con los predicados asociados tanto a los 

sustantivos como a los nominales complejos acompañados de sus posibles 

adjetivos modificadores, así como a los predicados asociados a los 

verbos. Además, los adverbios y los adjetivos pueden ser tratados conceptualmente 

a través de WordNet. 

De este modo y dada la forma lógica de la frase, se buscará en el metatesauro 

de UMLS la información conceptual de los lemas de aquellos 

predicados de la forma lógica cuya categoría sintáctica se corresponda 

con sustantivo o nominal complejo, incluyendo sus posibles adjetivos 

modificadores, y verbo. Seguidamente, se buscará en WordNet la información 

conceptual asociada a los predicados del tipo anterior que no 

han sido conceptualizados en el Metatesauro de UMLS, y la información 

conceptual asociada a los predicados del tipo adverbio y adjetivo.


Una vez que la información conceptual de estos predicados ha sido obtenida, 

tanto del metatesauro de UMLS como de WordNet, el siguiente 

paso consiste en derivar todas las formas lógico-conceptuales tal y como 

se ha explicado en la sección anterior. Finalmente, la representación 

semántica de la frase se calculará a partir de la desambiguación de las 

formas lógico-conceptuales derivadas tal y como se matiza también en 

la sección previa del capítulo. 

Con el propósito de simplificar este proceso, a continuación, el ejemplo 

44 detalla claramente el proceso de transformación de una forma lógica 

en una o más formas lógico-conceptuales en el dominio médico. 

(44) Frase: Accupril treats high blood pressure. 

Forma Lógica: accupril:NN(x1) treat:VB(e1, x1, x2) 

high:JJ(x2) blood:NN(x3) blood pressure:NNC(x2, 

x3, x4) pressure:NN(x4) 

Predicados Conceptualizados: 4 La tabla 4.7 detalla 



Formas Lógico-Conceptuales: Atendiendo a la metodología 

especificada en la sección previa del capítulo, 

se derivan 480 formas lógico-conceptuales fruto 

de la combinación de los conceptos asociados a 

cada predicado (2 ∗ 4 ∗ 1 ∗ 3 ∗ 5 ∗ 4). 

Cabe destacar que el predicado blood pressure:NNC(x2, x3, x4) como 

tal, tiene cuatro conceptos asociados que son: Blood Pressure, 

Blood pressure determination, Blood pressure finding y Systemic arterial pressure. 

Además, dicho predicado tiene un predicado del tipo adjetivo (high:JJ(x2)) 

que lo modifica y, tal y como se ha comentado, este predicado interviene 

también, junto con el nominal complejo, en la identificación de 

conceptos del nominal complejo. Es por ello por lo que a la combinación 

de estos dos predicados se les asocia el concepto Hypertensive disease. 

Además, la tabla 4.8 detalla la codificación de los tipos semánticos de 

UMLS asociados a los predicados conceptualizados. 

4.3.4 La representación semántica de la frase en los dominios 

restringidos 

En el ámbito de los dominios restringidos, igual que sucede en el dominio 

abierto, a pesar de que una oración puede tener diversas formas 

4 Por simplificar el ejemplo, se considera que según WordNet, el predicado del tipo adjetivo 

high:NN(x2) tiene asociado únicamente el concepto high#1(01210854), descartando el resto de 

conceptos del adjetivo.


Predicado Concepto Identificador Concepto 

accupril:NN(x1) Accupril C0244580(T109, T121) 

Received therapy or drug for C0332154(T169) 

treat:VB(e1, x1, x2) Treated with C0332293(T061) 

Treating C1522326(T169) 

Treatment intent C1292734(T169) 

Blood C0005767(T024) 

blood:NN(x3) In Blood C0005768(T031) 

Bloods C0392895(T098) 

Pressure-physical agent C0033095(T067) 

pressure:NN(x4) Baresthesia C0234222(T042) 

Pressure(finding) C0460139(T033) 

Pressure-action C1306345(T169) 

Blood Pressure C0005823(T040) 

Blood pressure determination C0005824(T060) 

Blood pressure finding C1271104(T033) 

blood pressure:NNC(x2, x3, x4) Systemic arterial pressure C1272641(T033) 

Hypertensive disease C0020538(T047) 

Tabla 4.7. Conceptos de UMLS asociados a los predicados de la forma lógica 

Identificador Tipo Semántico 

T024 Tissue 

T031 Body Substance 

T033 Finding 

T040 Organism Function 

T042 Organ or Tissue Function 

T047 Disease or Syndrome 

T060 Diagnostic Procedure 

T061 Therapeutic or Preventive Procedure 

T067 Phenomenon or Process 

T098 Population Group 

T109 Organic Chemical 

T121 Pharmacologic Substance 

T169 Functional Concept 

Tabla 4.8. Tipos semánticos en UMLS asociados a los predicados conceptualizados 

lógico-conceptuales, únicamente debe tener una representación semántica. 

Esta representación semántica se asociará con una única forma 

lógico-conceptual de las asociadas a la oración, fruto del proceso de 

desambiguación entre todas las formas lógico-conceptuales derivadas. 

Del mismo modo en el que se ha explicado anteriormente el tratamiento 

de las formas lógico-conceptuales, tanto a nivel general como en el 

ámbito del dominio abierto, se detalla a continuación la representación 

semántica de la frase para el dominio médico. 

La representación semántica de la frase en el dominio médico. 

Atendiendo a las especificaciones del tratamiento lógico-conceptual matizadas 

a lo largo del capítulo y, dado el anterior ejemplo 44, el cuadro

4.4 La independencia de la lengua de la forma lógica 95 

45 detalla la representación semántica de la frase definida en el ámbito 

del dominio médico. 

(45) Frase: Accupril treats high blood pressure. 

Predicados Multiconceptualizados Desambiguados: 

La tabla 4.9 detalla la desambiguación de los predicados 

multiconceptualizados en la anterior forma 

lógica. 

Representación semántica: C0244580(T109, T121):accupril:NN(x1) 

C0332154(T169):treat:VB(e1, x1, x2) 01210854:high:JJ(x2) 

C0005767(T024):blood:NN(x3) C0020538(T047):blood pressure:NNC(x2, 

x3, x4) C0033095(T067):pressure:NN(x4) 

Predicado Concepto Desambiguado Identificador Concepto 

treat:VB(e1, x1, x2) Received therapy or drug for C0332154(T169) 

blood:NN(x3) Blood C0005767(T024) 

blood pressure:NNC(x2, x3, x4) Hypertensive disease C0020538(T047) 

pressure:NN(x4) Pressure-physical agent C0033095(T067) 

Tabla 4.9. Predicados multiconceptualizados desambiguados de la forma lógico-conceptual en el 

dominio médico 

En la actual sección se han matizado las especificaciones que permiten 

que el tratamiento lógico-conceptual sea independiente del dominio. La 

siguiente sección del capítulo hace lo propio desde el punto de vista de 

la independencia de la lengua. 

4.4 La independencia de la lengua de la forma 

lógica 

El hecho de hablar de independencia de la lengua significa que el tratamiento 

lógico-conceptual detallado en el capítulo se le puede aplicar a 

cualquier oración con el objeto de obtener su representación semántica, 

independientemente de la lengua en la que esté expresada dicha oración. 

Además, en el marco de la independencia de la lengua, nos estamos refiriendo 

también al tratamiento que permite obtener representaciones 

semánticas equivalentes de una misma oración expresada en diferentes 

lenguas. Por ejemplo, supóngase una misma oración expresada en 

la lengua A y en la lengua B. La representación semántica de la frase 

expresada en la lengua A debe ser equivalente a la representación 

semántica de la frase expresada en la lengua B. A continuación se especifica 

el tratamiento lógico-conceptual que permite adquirir el grado


de independencia de la lengua alcanzado en esta investigación. 

Según a la conclusión planteada con anterioridad en el capítulo a la que 

llegan Dubuc y Lauriston (1997) en su investigación previa, de la misma 

forma, en terminografía bilingüe el establecimiento de equivalencias 

en ambas lenguas se realiza a través de la representación conceptual, 

de manera que la equivalencia no es entre los términos sino entre los 

conceptos designados por dichos términos. 

Esta conclusión a la que llegan Dubuc y Lauriston justifica la necesidad 

de un recurso en el que por un lado, la terminología esté conceptualizada 

y, por otro lado, exista una conexión entre los términos de las diferentes 

lenguas a través de los conceptos. Ello quiere decir que para conseguir 

un tratamiento lógico-conceptual independiente de la lengua, la terminología 

perteneciente a las lenguas a tratar debe estar conceptualizada 

en algún recurso del tipo ontológico o tesauro del modo que exista una 

conexión conceptual entre la terminología de las diferentes lenguas. Por 

ejemplo, si las lenguas a relacionar son el inglés y el español, debe haber 

algún recurso de este tipo que permita establecer que los términos run 

y correr conceptualmente reflejan lo mismo. 

Es sabido que las lenguas más extendidas en el mundo son la lengua 

inglesa, el chino y la lengua árabe. No es necesario dar cifras para afirmar 

que en un universo con formas globales de comunicación, donde ya 

existe una tradición de uso del inglés, acompañada de una realidad de 

poder en todos los niveles sustentada en ese idioma, el inglés es la lengua 

franca de nuestra época; mucho más cuando en inglés se crea y se 

bautiza la ciencia. Se trata de la primera lengua de intercambio común. 

Su expansión está asegurada se mire desde la óptica que se mire. Debido 

a ello, la lengua inglesa dispone de multitud de recursos frente a otras 

lenguas. Prueba de ello es, por ejemplo, el recurso WordNet. La última 

versión del WordNet en lengua inglesa es la 2.1, mientras que la última 

versión en otras lenguas son anteriores a ella. Por ejemplo, la última 

versión de WordNet para la lengua española es la 1.5. 

Debido a la extensión y a la riqueza de recursos disponibles en la lengua 

inglesa frente al resto de lenguas, para comparar que n representaciones 

semánticas de una misma oración en n lenguas diferentes (una representación 

semántica por cada lengua) son equivalentes, cada una de las 

representaciones semánticas será ‘transformada de su lengua origen a 

la lengua inglesa, siempre que la lengua origen no sea la lengua inglesa, 

en cuyo caso, no será necesario el proceso de transformación. 

En un proceso de transformación entre una lengua origen y la lengua 

inglesa, aparte de la traducción entre los términos, otras consideraciones


deben ser tenidas en cuenta como, por ejemplo, el orden de las palabras 

en la frase. Cabe pensar en la expresión en la lengua española “el coche 

rojo”. Su traducción a la lengua inglesa viene dada por la expresión 

“the red car”. Aparte de la traducción de los diferentes términos, en 

la expresión dada en la lengua española, el adjetivo sucede al nombre; 

mientras que en la expresión dada en la lengua inglesa, el adjetivo precede 

al nombre. Este tipo de alteraciones sintácticas producidas en el 

proceso de traducción de una lengua original a la lengua inglesa viene 

especificado en las gramáticas contrastivas entre la lengua original y 

la lengua inglesa. Una gramática contrastiva es aquella que estudia la 

relación y posición que ocupan dos lenguas. Normalmente se estudia 

entre lenguas de un mismo origen. Algunos gramáticos clasifican como 

contrastivas al estudio de dos lenguas que no comparten origen. Es por 

ello por lo que para tratar de conservar la máxima naturalidad en la 

transformación de la representación semántica de la frase de una lengua 

original a la lengua inglesa, el tratamiento lógico-conceptual se hace eco 

de las reglas especificadas en las gramáticas contrastivas entre la lengua 

original y la lengua inglesa. 

Una vez realizadas estas consideraciones, la transformación de la representación 

semántica obtenida en la lengua origen a su representación 

semántica equivalente en la lengua inglesa se lleva a cabo del siguiente 

modo: 

La traducción de los predicados conceptualizados se realiza según la 

conexión existente en el recurso multilingüe entre la lengua origen y la 

lengua inglesa a través de los conceptos. Si esta conexión conceptual 

no existe, la traducción se realiza utilizando un diccionario bilingüe 

entre la lengua origen y la lengua inglesa. 

Aquellos predicados que no son conceptualizados en el recurso multilingüe, 

son traducidos utilizando un diccionario bilingüe entre la 

lengua origen y la lengua inglesa. 

Una vez que ya ha sido materializada la traducción de los predicados 

de la representación semántica de la lengua origen a la lengua inglesa, 

el siguiente paso consiste en aplicar las reglas contrastivas entre la 

lengua origen y la lengua inglesa que derivan en una posible alteración 

de la secuencia de predicados de la representación semántica para 

adaptar tal representación semántica a la lengua inglesa. Las reglas 

contrastivas que se deben aplicar sobre la estructura de predicados 

de la representación semántica depende de cada lengua origen. Ello 

se justifica porque cada lengua tiene sus propias reglas gramaticales, 

y la lengua inglesa tiene también las suyas propias. Por ejemplo, las 

reglas contrastivas entre la lengua española y la lengua inglesa son di-


ferentes a las reglas contrastivas entre la lengua alemana y la lengua 

inglesa. 

Debido a la extensión y complejidad que supone establecer el conjunto 

de reglas contrastivas en las diferentes lenguas, a partir de ahora y hasta 

el final del capítulo haremos énfasis en las reglas contrastivas entre la 

lengua española y la lengua inglesa. Ello no significa que el tratamiento 

lógico-conceptual sólo sea posible llevarlo a cabo en estas dos lenguas. 

El tratamiento lógico-conceptual es independiente de la lengua. Como 

se ha matizado en esta sección, lo único dependiente de la lengua es la 

utilización de recursos conceptuales bilingües entre las lenguas origen y 

la lengua inglesa, los diccionarios bilingües entre las lenguas origen y la 

lengua inglesa, y las reglas contrastivas a aplicar sobre los predicados 

de las representaciones semánticas entre las propias lenguas origen y la 

lengua inglesa. Una vez que se dispone de todo ello, la representación 

formal del texto basada en el tratamiento lógico-conceptual es independiente 

de la lengua. 

El subconjunto de reglas contrastivas entre la lengua española y la lengua 

inglesa aplicadas sobre los predicados de la representación semántica 

de la frase en español se basa en las reglas contrastivas derivadas 

previamente a raíz de los estudios en este tema realizados por los investigadores 

Fernandez et al. (2003) and Martinez-Vazquez (1996). Concretamente, 

el subconjunto de reglas contrastivas aplicadas sobre los 

predicados de la representación semántica viene especificado en la tabla 

4.10. En ella cabe destacar que la regla número cuatro es recursiva porque, 

según se ha matizado en el capítulo anterior, un nominal complejo 

(NNC) puede derivar a otros de manera recursiva. Las reglas en las que 

intervienen predicados del tipo sustantivo (NN) se aplican siempre que 

dicho predicados se correspondan con nombres comunes, nunca nombres 

propios. Además, en la regla número 1, el predicado del tipo sustantivo 

(NN) no podrá ir nunca precedido por ningún otro predicado del mismo 

tipo. 

Id. Regla Estructura Espa~nola Estructura Inglesa 

1 NN + JJ Traducción(JJ) + Traducción(NN) 

2 JJ1 + NN + JJ2 Traducción(JJ1) + Traducción(JJ2) + Traducción(NN) 

3 NN1 + NN2 Traducción(NN2) + Traducción(NN1) 

4 NNC + ”de- NN Traducción(NN) + Traducción(NNC) 

5 NN1 + JJ + ”de- NN2 Traducción(JJ) + Traducción(NN2) + Traducción(NN1) 

Tabla 4.10. Reglas contrastivas aplicadas entre la lenguas española e inglesa


Como ejemplo de aplicación de las reglas contrastivas especificadas en 

la tabla 4.10, en la tabla 4.11 se especifican las traducciones finales de 

bajo nivel (aplicadas directamente a los términos) fruto de la aplicación 

de cada una de estas reglas. 

Id. Regla Expresión Espa~nola Traducción Inglesa 

1 coche rojo red car 

2 bonitos ojos verdes beautiful green eyes 

3 coche eléctrico electric car 

4 oficina de billetes de estación de tren train station ticket office 

5 modelo múltiple de regresión multiple regression model 

Tabla 4.11. Ejemplos de aplicación de las reglas contrastivas 

Se acaban de introducir las propiedades referentes a la independencia de 

la lengua en el marco del tratamiento lógico-conceptual. A continuación 

se matiza este tratamiento desde el punto de vista tanto del dominio 

abierto como del dominio restringido. 

4.4.1 La independencia de la lengua de la forma lógica en el 

dominio abierto 

A lo largo del capitulo se detalla que cuando se procesa el texto en dominio 

abierto, partiendo del recurso WordNet es posible asociar conceptos 

de este recurso con los lemas de determinados predicados (sustantivos, 

adjetivos, verbos, adverbios y nominales complejos). 

En relación a la forma lógica, cuando el lema de un predicado del tipo 

sustantivo, adjetivo, adverbio, verbo o nominal compuesto tiene algún 

concepto asociado en WordNet, lo que se hace es buscar las relaciones 

de ese concepto a través del ILI en las diferentes lenguas. Como ejemplo, 

la figura 4.1 muestra las relaciones existentes entre la lengua inglesa y 

la lengua española del lema prohibition. En este ejemplo, el sustantivo 

prohibition tiene cuatro entradas en el WordNet inglés, dos de las cuales 

(la segunda y la cuarta) están relacionadas con synsets del WordNet 

español a través del ILI. Los synsets del ejemplo están ordenados de 

mayor a menor frecuencia de aparición. 

De este modo, es decir, mediante la exploración de los synsets de 

las lenguas origen y destino, el concepto asociado al predicado lógicoconceptual 

puede ser traducido, en el caso de que exista conexión entre 

los synsets de las lenguas origen y la lengua inglesa. Para ello, si los synsets 

de ambas lenguas están conectados a través del ILI, la traducción 

del predicado lógico-conceptual se llevará a cabo del siguiente modo:


El identificador del concepto asociado al lema del predicado se corresponderá 

con el synset de WordNet en la lengua inglesa relacionado a 

través del ILI. 

Los restantes constituyentes del predicado lógico-conceptual, es decir, 

tanto el lema como su categoría, no serán traducidos. 

Figura 4.1. Enlaces al lema prohibition 

Una vez que se han traducido los predicados que tienen una relación a 

través del ILI, el siguiente paso es traducir el resto de predicados utilizando 

para ello diccionarios que integren las lenguas implicadas en la 

traducción. Los predicados que, a pesar de quedar conceptualizados en 

la lengua origen, no están relacionados con ningún synset de la lengua 

inglesa a través del ILI, no quedarán conceptualizados en la representación 

semántica transformada, debido a que su traducción se realiza a 

través del empleo de diccionarios, y no a través de la relación entre los 

conceptos entre las diferentes lenguas. 

Como ejemplo, para una traducción español-inglés de los predicados de 

la forma lógica que no están conceptualizados en WordNet o, que a pesar 

de estarlo, no están enlazados en el ILI, se utilizan dos diccionarios: 

Free Translation y Babylon 5 . El proceso de traducción queda especificado 

a través del siguiente algoritmo: 

5 http://www.freetranslation.com y http://www.babylon.com


Algoritmo: Traducción del lema del predicado a partir de FT y WR 

Entrada: lema 

Salida: lema traducido 

trad FT := traduce en FT(predicado.lema) 

trad WR := traduce en WR(predicado.lema) 

si (trad WR == NULL) 

lema traducido := trad FT 

sino 

si (trad WR.contiene(trad FT)) 

lema traducido := trad FT 

sino 

lema traducido := trad WR.obten traduccion en(1) 

fsi 

fsi 

devuelve lema traducido 

fAlgoritmo 

El funcionamiento del algoritmo es el siguiente: 

Se busca el lema del predicado en Free Translation. Este diccionario 

devuelve una palabra o una expresión, sin entrar en detalles del tipo 

categoría gramatical de la palabra o expresión devuelta, ejemplos de 

utilización en frases, etc. 

Se busca el lema del predicado en Babylon. Este diccionario devuelve 

una lista de palabras o expresiones clasificadas según su categoría 

gramatical. 

Se produce una comparación entre la palabras o expresiones devueltas 

por Free Translation y la lista de palabras o expresiones clasificadas 

según su categoría gramatical devuelta por Babylon consistente en: 

• Si Babylon no devuelve ninguna lista de palabras o expresiones cuya 

categoría gramatical coincida con el tipo de predicado, entonces la 

traducción es la palabra o expresión devuelta por Free Translation. 

• Si la palabra o expresión devuelta por Free Translation se encuentra 

en la lista de palabras o expresiones devuelta por Babylon dentro 

de las clasificadas en la categoría gramatical coincidente con el tipo 

de predicado, entonces la palabra o expresión devuelta por Free 

Translation es la traducción a ese predicado. 

• Si la palabra o expresión devuelta por Free Translation no se encuentra 

en la lista de palabras o expresiones devuelta por Babylon


dentro de las clasificadas en la categoría gramatical coincidente con 

el tipo de predicado, entonces la traducción es la primera palabra o 

expresión devuelta por Babylon según la categoría gramatical asociada 

al tipo de predicado. 

Con el propósito de clarificar este proceso, el cuadro 46 muestra un 

ejemplo de transformación según esta metodología de la representación 

semántica de la oración dada. En este ejemplo, con objeto de evitar la 

redundancia, se ha omitido el paso de derivación de las formas lógicoconceptuales, 

pasando directamente de la forma lógica a la representación 

semántica de la oración. 

(46) Frase: Usted puede proceder al banco cerca de la esquina. 

Árbol de dependencias: La figura 4.2 muestra el árbol 

de relaciones de dependencia entre las palabras de 

la oración. 

Forma lógica: usted:NN(x1) proceder:VB(e1, x1, x2) 

a:IN(e1, x3) banco:NN(x3) cerca de:IN(x3, x4) esquina:NN(x4) 

Representación semántica: 6 usted:NN(x1) 01360914:proceder:VB(e1, 

x1, x2) a:IN(e1, x3) 06227059:banco:NN(x3) 

cerca de:IN(x3, x4) 02501820:esquina:NN(x4) 

Traducción de predicados: La tabla 4.12 detalla la 

traducción realizada sobre los predicados de la representación 

semántica, y la tabla 4.13 detalla los 

conceptos en la versión inglesa de WordNet que 

han sido traducidos a través del ILI. 

Representación semántica transformada: you:NN(x1) 

01360914:proceder:VB(e1, x1, x2) to:IN(e1, x3) 

06227059:banco:NN(x3) near:IN(x3, x4) 02501820:esquina:NN(x4) 

Se acaba de detallar el tratamiento independiente de la lengua de las 

formas lógico-conceptuales en el dominio abierto. A continuación se va 

a proceder a especificar el tratamiento independiente de la lengua de 

las formas lógico-conceptuales en el dominio restringido, tomando como 

marco de referencia el dominio médico. 

6 Los identificadores de los conceptos (códigos de synsets) han sido extraídos utilizando la versión 

1.6 de WordNet

usted 

puede 

subj 

obj 

proceder 


obj 

pm 

a el 

loc 

banco cerca 

det 

pm 

de la 

Figura 4.2. Árbol de relaciones de dependencia entre las palabras de la frase. 

mod 

esquina 

Predicado Traducción Recurso 

usted:NN(x1) you:NN(x1) Diccionario 

01360914:proceder:VB(e1, x1, x2) 01360914:proceder:VB(e1, x1, x2) ILI 

a:IN(e1, x3) to:IN(e1, x3) Diccionario 

06227059:banco:NN(x3) 06227059:banco:NN(x3) ILI 

cerca de:IN(x3, x4) near:IN(x3, x4) Diccionario 

02501820:esquina:NN(x4) 02501820:esquina:NN(x4) ILI 

Tabla 4.12. Traducción al español de los predicados de la forma lógica 

Identificador Conceptos del synset 

01360914 proceed#2, go forward#1, continue#4 

06227059 depository financial institution#1, bank#1, banking concern#1, banking company#1 

02501820 corner#4, street corner#1, turning point#2 

Tabla 4.13. Conceptos de la version inglesa de Wornet 1.5 traducidos mediante el ILI 

4.4.2 La independencia de la lengua de la forma lógica en los 

dominios restringidos 

Al igual que se ha comentado en el dominio abierto, para tratar la independencia 

de la lengua en el dominio restringido se necesita de algún 

recurso del tipo ontológico o tesauro multilingüe capaz de aportar la información 

conceptual asociada a los lemas de determinados predicados 

de la forma lógica, y además, que en dicho recurso multilingüe exista 

una interconexión de esos conceptos entre sus diferentes lenguas. No 

obstante, para aquellos predicados de la forma lógica que no estén conceptualizados 

en dicho recurso, al igual que se ha hecho en el dominio 

abierto, se pueden utilizar recursos del dominio abierto como el ILI y, 

además, se debe disponer de diccionarios que den soporte a la traducción 

de palabras entre las lenguas a tratar. Seguidamente se matizan 

los detalles para tratar la independencia de la lengua de la forma lógica 

det


en el dominio médico. 

La independencia de la lengua de la forma lógica en el dominio 

médico. Como se ha detallado al inicio del capítulo, el metatesauro de 

UMLS es un recurso multilingüe. Diferentes autores han utilizado dicho 

recurso para tratar los detalles referentes a la multilingualidad en sus 

trabajos de investigación tales como Tran et al. (2004) y Eichmann et al. 

(1998). En el metatesauro está recogida toda la terminología relacionada 

con un concepto. Además esta terminología está disponible en todas 

las lenguas tratadas en el recurso. Por ello, cuando se conceptualiza un 

predicado a partir del metatesauro, implícitamente se está traduciendo 

dicho predicado (debido a que toda la terminología multilingüe asociada 

a cada concepto está bajo el ámbito del concepto). Para realizar la 

traducción del resto de los predicados de la representación semántica 

que no son conceptualizados en el metatesauro, se sigue el mismo proceso 

recientemente especificado para el dominio abierto. 

Con el propósito hacer más claro este proceso de transformación, el 

cuadro 47 muestra un ejemplo de transformación según este método de 

la representación semántica de la oración dada. En este ejemplo, con 

objeto de evitar la redundancia, se ha omitido tanto el paso de derivación 

del árbol de análisis de dependencias entre las palabras de la frase, 

como el paso de inferencia de las formas lógico-conceptuales. 

(47) Frase: Acupril trata la tensión arterial alta. 

Forma lógica: acupril:NN(x1) tratar:VB(e1, x1, x2) 

tensión:NN(x3) tensión arterial:NNC(x2, x3, x4) 

arterial:NN(x4) alta:JJ(x2) 

Representación semántica: C0244580(T109, T121):acupril:NN(x1) 

C0332154(T169):tratar:VB(e1, x1, x2) C0033095(T067):tensión:NN(x3) 

C0020538(T047):tensión arterial:NNC(x2, x3, x4) 

C0005767(T024):arterial:NN(x4) 01159358:alta:JJ(x2) 

Traducción de predicados: El único predicado traducido 

es a través del ILI, quedando del modo 

01159358:alta:JJ(x4). 

Representación semántica transformada: C0244580(T109, 

T121):acupril:NN(x1) C0332154(T169):tratar:VB(e1, 

x1, x2) C0033095(T067):tensión:NN(x3) C0020538(T047):tensión arterial:NNC(x2, 

x3, x4) C0005767(T024):arterial:NN(x4) 01159358:alta:JJ(x2)



En los últimos años, se está implantando una clara tendencia enfocada 

a que los sistemas más comunes del PLN sean capaces de afrontar los retos 

referentes, por un lado, a manejar textos tanto en dominios abiertos 

como en dominios restringidos y, por otro lado, a considerar los detalles 

referentes a la independencia de la lengua. Para afrontar estos retos, los 

sistemas de PLN deben disponer de un mecanismo de representación 

formal del texto que sea tanto independiente del dominio como de la 

lengua. 

La forma lógica presentada en este trabajo de investigación, por definición, 

es capaz de dotar a los sistemas de PLN de una representación del 

conocimiento lógico de primer orden de oraciones expresadas mediante 

lenguaje natural. 

En el capítulo se muestra que el concepto es la unidad básica de representación 

del conocimiento. También se muestra que, en terminografía 

bilingüe el establecimiento de equivalencias en ambas lenguas se realiza 

a través de la representación conceptual, de manera que la equivalencia 

no es entre los términos sino entre los conceptos designados por dichos 

términos. Luego, para obtener una representación formal del texto que 

considere los aspectos referentes tanto a la independencia del dominio 

como de la lengua, se debe hacer uso de recursos ontológicos y tesauros 

que permitan identificar la información conceptual asociada a la terminología 

presente en el texto. 

En la forma lógica, las palabras con sentido del texto (sus lemas) quedan 

representadas mediante predicados relacionados. Cuando se dispone de 

algún recurso del tipo ontológico o tesauro, la forma lógica es capaz 

de adquirir la información conceptual asociada a algunos de sus predicados, 

en concreto aquellos predicados que quedan conceptualizados 

en dicho recurso. Con ello y, partiendo de la forma lógica, se derivan 

una serie de formas lógico-conceptuales, que integran la información 

conceptual asociada a los predicados conceptualizados. El número de 

formas lógico-conceptuales derivadas viene determinado por el producto 

cartesiano “todos con todos” de las conceptualizaciones de todos los 

predicados conceptualizados de la forma lógica. Cada oración tiene una 

única representación semántica que la identifica. Para ello es necesario 

un proceso de desambiguación que permita identificar la forma lógicoconceptual 

de entre todas las formas lógico-conceptuales derivadas en 

la que el concepto asociado a cada predicado es el más adecuado según 

el contexto de la oración. Esta forma lógico-conceptual desambiguada 

se corresponderá con la representación semántica de la frase.


Los requisitos que se deben cumplir para poder tener una representación 

formal del texto independiente del dominio y de la lengua según el 

tratamiento lógico-conceptual son: a) disponer de un recurso conceptual 

en el que quede conceptualizada la terminología presente en el texto; b) 

que exista una conexión multilingüe de la terminología conceptualizada 

en las diferentes lenguas a través del recurso; c) que los recursos del 

dominio restringido, de manera opcional, categoricen semánticamente 

los conceptos del recurso. 

En función del dominio del texto, bien sea dominio abierto o algún 

dominio restringido, la forma lógica utilizará un determinado recurso 

ontológico o tesauro del dominio (o más de uno) para extraer la información 

conceptual asociada a los predicados. La utilización del recurso 

en el ámbito del dominio en que se enmarquen los textos a procesar 

es la única característica que depende del dominio en el tratamiento 

lógico-conceptual. El resto del tratamiento es totalmente independiente 

del dominio, es decir, cualquier texto bajo cualquier dominio puede 

ser representado formalmente mediante la forma lógica, siempre que se 

reúnan los requisitos mencionados en el anterior párrafo. Cuando se trabaja 

con texto en el dominio abierto, el recurso utilizado para aportar la 

información conceptual a la forma lógica es WordNet. En cambio, cuando 

se trabaja en un dominio restringido, se recurre a recursos dependientes 

del dominio restringido que aportan la información conceptual 

en el mencionado dominio restringido. Además, independientemente de 

los recursos disponibles en el dominio restringido, siempre se puede hacer 

uso del recurso WordNet de dominio abierto, con el propósito de 

aportar también información conceptual. Para el ejemplo de representación 

formal de textos en el dominio médico, la forma lógica hace uso 

del metatesauro de UMLS que aporta información conceptual en el dominio 

restringido, y de WordNet. 

Del mismo modo que sucede con la independencia del dominio, cuando 

se quiere obtener una representación formal del texto que sea independiente 

de la lengua, los mencionados recursos ontológicos o tesauros 

deben ser multilingües. Además se debe hacer uso de diccionarios que 

traten la interconexión de las lenguas tratadas. En este sentido, y para 

tratar la representación de las lenguas inglesa y española vista en los 

ejemplos, WordNet a través del ILI de EuroWordNet, el metatesauro 

multilingüe de UMLS, y los diccionarios Free Translation y Babylon 

han sido introducidos. 

La utilización que la forma lógica hace de estos recursos permite el tratamiento 

de la independencia del dominio y de la lengua a través del 

tratamiento lógico-conceptual. Es por ello por lo que el recurso lógico-


conceptual desarrollado en este trabajo de investigación es tanto independiente 

del dominio como independiente de la lengua.

5. Evaluación del recurso lógico-conceptual 

para la representación formal del texto 

La evaluación de cualquier sistema o recurso de PLN requiere del estudio 

y/o análisis de los siguientes conceptos: 

Eficacia: este concepto mide la capacidad que tiene el sistema o el 

recurso para lograr sus objetivos. 

Eficiencia: este concepto indica la cantidad de recursos que necesita 

el sistema o el recurso para lograr sus objetivos. 

A lo largo del capítulo se destaca que la mayoría de evaluaciones que se 

proponen para indicar lo bueno o lo malos que son los sistemas o recursos 

del PLN sólo tienen en cuenta el concepto de eficacia, siendo una 

pequeña minoría las que consideran también el concepto de eficiencia. 

No conviene perder de vista que, ante dos sistemas o recursos de PLN 

diferentes cuyos niveles de eficacia son muy parejos, siempre será mejor 

el que menor número de recursos necesite para alcanzar los objetivos, 

esto es, el más eficiente. Es por ello por lo que, a la hora de evaluar lo 

bueno o lo malo que es el recurso desarrollado, se hará siempre desde 

estos dos conceptos: la eficacia y la eficiencia. 

Corcho y Gómez-Pérez et al. (2001) plantean una forma de evaluar los 

recursos de representación del conocimiento a partir de la definición 

de un marco de evaluación en el que queden integrados los componentes 

principales que constituyen el recurso de representación del conocimiento 

a evaluar. Una vez definido este marco, la evaluación global 

del recurso se estructura en evaluaciones parciales que, tanto de manera 

individual como de un modo colectivo, indican la validez de cada uno 

de estos componentes así como la validez global del recurso de representación 


Tal y como se comenta a lo largo de los sucesivos capítulos del trabajo 

de investigación, el recurso desarrollado consiste en un mecanismo de 

representación formal del texto basado en formas lógicas cuyos componentes 

o características fundamentales son: ser precisa, conceptualmente 

completa, independiente del dominio e independiente de la lengua. El 

recurso de representación formal del texto desarrollado puede ser usado

110 5. Evaluación del recurso lógico-conceptual para la representación formal del texto 

por cualquier sistema de PLN para el desempeño de sus funciones. 

Tomando como referencia el método de evaluación propuesto por Corcho 

y Gómez-Pérez et al. (2001) y, considerando las características principales 

del propio recurso, los matices que debe contemplar la evaluación 

global del recurso son: 

Precisión: La evaluación debe reflejar los aspectos referentes a la cantidad 

de constituyentes que componen la representación. Esto es, se 

evalúa que la representación tenga el suficiente detalle para identificar 

formalmente el texto asociado y que deje de lado los detalles superfluos, 

irrelevantes y redundantes de las oraciones asociadas. 

Completitud conceptual: La evaluación debe plasmar las particularidades 

referidas a la completitud conceptual y a la no ambigüedad de la 

representación. Esto es, la incorporación de la información semántica 

referida a los conceptos de las palabras representadas en las oraciones 

debe quedar reflejada en la representación formal de cada oración 

y, además, esta información conceptual debe ser no ambigua, con el 

propósito de no introducir ambigüedad en la representación. 

Independencia del dominio: La evaluación debe contemplar los detalles 

referentes al comportamiento del recurso tanto en el dominio 

abierto como en cualquier dominio restringido. Esto es, la portabilidad 

del recurso, el mantenimiento de sus propiedades pese al proceso 

de migración de un dominio a otro y el apoyo que pueda proporcionar 

al proceso de portabilidad de la herramienta en la que se está implantando. 

Independencia de la lengua: La evaluación debe plasmar también los 

aspectos referentes al comportamiento del recurso en cualquier lengua. 

Esto es, la portabilidad del recurso, el mantenimiento de sus 

propiedades pese al proceso de migración de una lengua a otra y el 

apoyo que pueda proporcionar al proceso de portabilidad de la herramienta 

en la que se está implantando. 

Sin embargo, estudios iniciales realizados durante la ejecución de este 

trabajo determinaron que era prácticamente imposible encontrar una 

única tarea de evaluación que tenga en cuenta a la vez todo este tipo 

de matices. Es por ello, por lo que la evaluación practicada al recurso 

debe ser llevada a cabo a través de diferentes tareas de evaluación que, 

en su conjunto, engloben todos los matices detallados. 

Como se viene detallando en el transcurso de este trabajo de investigación, 

el recurso desarrollado puede ser integrado en cualquier sistema

5.1 Análisis y determinación de las tareas de evaluación 111 

de PLN con el propósito de brindar al sistema la representación formal 

del texto que debe procesar. Por ello, la utilidad o validez que la incorporación 

del recurso ejerce en el sistema de PLN puede ser evaluada de 

manera global en el marco de la tarea o tareas estándares de evaluación 

del sistema de PLN. 

Una vez tenidas en cuenta todas estas consideraciones, el siguiente paso 

consiste en analizar y determinar las diferentes tareas de evaluación que 

tengan en cuenta estos matices. 

5.1 Análisis y determinación de las tareas de 

evaluación 

Existen diferentes campañas internacionales de evaluación donde los sistemas 

más comunes del PLN pueden ser evaluados, tales como TREC, 

CLEF, SENSEVAL, PASCAL RTE, etc. Básicamente, el objetivo fundamental 

de todas estas campañas se centra en definir tareas estándares 

de evaluación aplicadas a los diferentes sistemas de PLN que permitan 

cuantificar la validez de estos sistemas y establecer una comparación 

referente al funcionamiento entre los diferentes sistemas participantes a 

la vez que promueven las líneas de investigación sobre dichos recursos 

y herramientas. 

Por otra parte, al inicio del capítulo se justifica que los propósitos fundamentales 

de la evaluación del recurso desarrollado en la investigación 

deben considerar los cuatro matices detallados. 

Con este objeto, en el proceso de análisis y determinación de las tareas 

de evaluación, en un primer lugar, se tienen en cuenta las campañas 

internacionales de evaluación existentes cuyas tareas consideren alguno 

de los matices planteados. En segundo lugar, para el resto de matices 

, es necesario el diseño de tareas de evaluación ad-hoc. Finalmente, se 

evalúa la validez del recurso desarrollado en la investigación en el marco 

de cada una de estas tareas. 

Según se ha detallado en el capítulo dos, existe un amplio espectro de 

diferentes sistemas de PLN donde el recurso puede ser incorporado con 

la finalidad de evaluar la validez que la incorporación del recurso aporta 

a cada uno de los diferentes sistemas. El llevar a cabo este proceso de 

evaluación con todo el abanico de sistemas de PLN haría interminable 

el mismo. Con objeto de evitar esto, se ha escogido una muestra más 

reducida del espectro de sistemas de PLN que abarque las necesidades 

de representación formal del texto que tienen en su conjunto el amplio 

espectro de sistemas de PLN. Concretamente, los sistemas de PLN en


los que se va a evaluar la validez que aporta la incorporación del recurso 

son: Vinculación o Implicación Textual, Recuperación de Información 

y Búsqueda de Repuestas. A continuación se matiza el porqué de la 

elección de esta muestra de sistemas de PLN. 

La elección de la vinculación o implicación textual en esta muestra es 

debido a que, como se justifica más adelante, la vinculación textual 

resume las necesidades principales de inferencia semántica de otros sistemas 

del PLN como la Búsqueda de Respuestas, la Recuperación de 

Información, la Extracción de Información y la Generación Automática 

de Resúmenes. Estas necesidades de inferencia semántica requieren de 

una representación formal del texto. Por ello y, dado este contexto, en 

la evaluación de la Vinculación Textual se están evaluando también, 

indirectamente, las necesidades de representación formal del texto de 

todo este subconjunto de sistemas de PLN. 

De un modo más complementario a lo matizado en el párrafo anterior, 

la elección de la Recuperación de Información y de la Búsqueda de Respuestas 

se ha efectuado porque estos dos tipos de sistemas, tanto a nivel 

cuantitativo como a nivel cualitativo, han centrado uno de los mayores 

esfuerzos de la última década de las investigaciones en el área de PLN, 

tal y como demuestran la multitud de proyectos de investigación surgidos 

en el seno de los diferentes grupos de investigación en el área de 

PLN en esta última década. 

Más concretamente, para la evaluación del recurso se han seleccionado 

las tareas Cross-Language Speech Retrieval (CL-SR), Answer Validation 

Exercise (AVE) y Multiple Language Question Answering (QA- 

CLEF), todas ellas pertenecientes a las campañas de evaluación del 

CLEF. Además, la tarea Recognising Textual Entailment (RTE) en el 

marco de la campaña de evaluación PASCAL RTE también ha sido 

considerada en el escenario de la evaluación del recurso. Por último, 

también se efectúa una evaluación ad-hoc de la clasificación de preguntas 

médicas según la taxonomía genérica planteada en el estudio 

realizado por Ely et al. (2000). 

En las siguientes secciones del capítulo, en lo que respecta a la especificación 

de cada una de las tareas de evaluación efectuadas al recurso, 

se especifica la relación de cada una de ellas con los diferentes matices 

planteados en el capítulo. No obstante, la tabla 5.1 introduce la relación 

existente entre cada una de estas tareas y cada uno de los matices. 

Las siguientes secciones del capítulo especifican con detalle la aplicación 

de cada una de estas tareas desarrolladas en el marco de la evaluación 

del recurso presentado en el trabajo de investigación. Finalmente se

5.2 Evaluación en la tarea Cross-Language Speech Retrieval del CLEF 2005 113 

Matices 

Tareas 

CL-SR AVE QACLEF RTE Clasificación Preguntas 

Precisión X 

Completitud conceptual X X X X 

Ind. del dominio X 

Ind. de la lengua X 

Tabla 5.1. Relación existente entre las tareas de evaluación y los matices contemplados en la 

evaluación 

muestra un análisis exhaustivo de los resultados obtenidos en cada una 

de las tareas de evaluación. 

5.2 Evaluación en la tarea Cross-Language Speech 

Retrieval del CLEF 2005 

5.2.1 Introducción 

El objetivo de la tarea Cross-Language Speech Retrieval de la conferencia 

CLEF 2005 (White et al. , 2006) consiste en evaluar el rendimiento 

de diferentes sistemas de PLN en tareas de Recuperación de Documentos 

Transcritos. Para ello, los sistemas deben ser capaces de identificar 

los segmentos de texto tópicamente coherentes en entrevistas hechas en 

inglés en una condición de fronteras conocidas. Estas entrevistas fueron 

realizadas a supervivientes, testigos y rescatadores del Holocausto 

judío. El propósito de esta tarea se resume en una Recuperación de 

Información sobre habla transcrita en documentos. Básicamente, cada 

entrevista está formada por unos segmentos ordenados secuencialmente 

que son transcritos a documentos sobre los que se aplica el proceso 

de Recuperación de Información. Cada documento se compone de una 

serie de campos: 

INTERVIEWDATA. Contiene los nombres y las fechas de nacimiento 

de los entrevistados. 

NAME. Contiene los nombres del resto de personas mencionadas en 

la entrevista. 

MANUALKEYWORD. Contiene palabras clave extraídas de un tesauro. 

Estas palabras clave suelen referencias a sujetos, objetos y lugares 

mencionados en la entrevista. 

SUMMARY. Contiene un resumen de tres frases de la entrevista.


ASRTEXT2003A. Contiene la secuencia de palabras producida por 

un transcriptor de habla con una elevada tasa de error. 

ASRTEXT2004A. Contiene la secuencia de palabras producida por 

un transcriptor de habla con una tasa de error inferior a la anterior. 

AUTOKEYWORD2004A1. Contiene un conjunto de palabras clave 

extraídas del tesauro de modo automático a partir de un clasificador 

basado en el vecino más cercano sobre las palabras de la transcripción 

ASRTEXT2004A. 

AUTOKEYWORD2004A2. Contiene un conjunto de palabras clave 

extraídas del tesauro de modo automático a partir de un clasificador 

basado en el segundo vecino más cercano sobre las palabras de la 

transcripción ASRTEXT2004A. 

La tarea Cross-Language Speech Retrieval presenta diferentes medidas 

de evaluación que revelan la validez de los sistemas participantes en 

dicha tarea. Concretamente, estas medidas de evaluación son: la media 

de precisión no interpolada (MAP), la r-precisión (Rprec), la medida 

basada en la preferencia binaria (Bpref) y la precisión a los N documentos 

recuperados (pN). A continuación se define cada una de ellas: 

La media de precisión no interpolada (MAP) actúa sobre la lista de 

mil documentos que los sistemas consideran relevantes para cada tópico. 

Esta medida, sobre la lista de documentos devuelta por los sistemas, 

destaca aquellos que son relevantes y penaliza aquellos que no lo 

son. Por ello, la medida recompensa los sistemas que recuperan los documentos 

relevantes en los primeros lugares. La MAP es la media de 

la precisión obtenida después que cada documento relevante es recuperado, 

siendo la precisión la relación entre el número de documentos 

relevantes recuperados y el número de documentos recuperados. Para 

calcularla se considera: 

• Cuando no se ha recuperado todavía ningún documento relevante, 

la precisión es 0. 

• Cada vez que se obtiene un documento relevante se calcula la precisión. 

• La MAP se calcula como media aritmética de las precisiones anteriores. 

La r-precisión (Rprec) calcula la precisión considerando que existen 

un total de r documentos relevantes para cada tópico y, en consecuen-


cia, se define como la precisión después de r documentos recuperados. 

La medida basada en la preferencia binaria (Bpref) utiliza la información 

de los criterios de relevancia para definir la frecuencia en la 

que los documentos relevantes son recuperados con anterioridad a los 

documentos no relevantes. 

La precisión a los N documentos recuperados (pN) se define como la 

relación entre el número de documentos relevantes recuperados sobre 

los N primeros documentos recuperados. 

Estas medidas de evaluación son indicadores de la eficacia de los sistemas. 

En las siguientes subsecciones se introduce la medida que cuantifica 

la validez de los sistemas desde el punto de vista de la eficiencia. 

5.2.2 Motivación y aportaciones esperadas 

Básicamente, la resolución de este problema se efectúa aplicando un 

sistema de Recuperación de Información sobre las transcripciones de 

las entrevistas donde las palabras clave en el proceso de Recuperación 

de Información son identificadas a partir del conjunto de palabras que 

componen cada uno de los tópicos. 

En este tipo de problemas, donde a partir de una oración o conjunto de 

oraciones, en este caso el tópico, es necesaria la estimación de qué palabras 

(términos) son los más relevantes o que mejor describen al tópico, 

el desarrollo de heurísticas que permitan pesar los términos en función 

de su importancia estructural y conceptual tiene especial interés, 

indicándole este hecho de algún modo al sistema de Recuperación de 

Información para que sea tenido en cuenta en el propio proceso de Recuperación 

de Información. En este trabajo, se pretende demostrar que 

el uso de la forma lógico-conceptual favorece la construcción de dichas 

heurísticas, mejorando con ello la eficacia del proceso de Recuperación 

de Información. 

Cabe adelantar que el desarrollo de esta heurística puede ser efectuado 

a partir de otras representaciones formales del texto, no necesariamente 

la forma lógica. Por ello se pretende demostrar también que el desarrollo 

de esta heurística bajo el formalismo de la forma lógico-conceptual optimiza 

su eficiencia frente a otros tipos de representación formal. Luego, 

se está evaluando el matiz de precisión definido al inicio del capítulo. 

En la siguiente subsección se analiza la estructura del tópico, se introduce 

el sistema de Recuperación de Información utilizado en el proceso 

y se detalla la heurística y su aplicación al sistema de Recuperación de 

Información.


5.2.3 Desarrollo 

En el marco de las tareas de evaluación derivadas en el ámbito de la Recuperación 

de Información en las competencias CLEF, los tópicos están 

compuestos de un título, una descripción y una narrativa. El título contiene 

las palabras clave de búsqueda y suele estar formado entre dos y 

seis palabras. La descripción es bastante similar al título y describe de 

manera escueta en una sola frase la acción a realizar. La narrativa detalla 

en mayor medida el objeto del tópico y suele estar formada por 

varias frases. La tabla 5.2 muestra un ejemplo de tópico. 

Tópico Descripción Narrativa 

Jewish Provide testimonies or The relevant material should 

resistance describe actions of describe actions of only- or mostly 

in Europe Jewish resistance in Europe Jewish resistance in Europe. Both 

before and during the war. individual and group-based actions... 

Tabla 5.2. Ejemplo de tópico 

Para realizar el proceso de Recuperación de Información, se utiliza el 

sistema estadístico de Recuperación de Pasajes IR-n (Llopis, 2003) que, 

en su fase de indexación, asigna un peso a las palabras (términos) presentes 

en la colección documental según el modelo bag of words. 

Tras hacer un pequeño análisis sobre la descripción de los tópicos, se 

concluye que determinadas palabras podrían ser más relevantes que 

otras en el proceso de Recuperación de Información. Es por ello que 

el peso de estas palabras debería sufrir un incremento moderado del 

peso original asignado por el sistema IR-n en la fase de indexación. 

Concretamente, estas palabras son aquellas que en la oración actúan 

como objeto indirecto o circunstancial. De ahí que la heurística del tipo 

lingüístico aplicada consista en hacer un análisis sobre la forma lógica 

de los tópicos, detectando este tipo de palabras con el propósito de incrementarles 

su peso original en un determinado porcentaje. 

A continuación se presenta la materialización de esta heurística aplicando 

el recurso de representación formal del texto desarrollado en la 

investigación, se analizan los resultados en términos de eficacia que la incorporación 

de esta heurística produce en el sistema de Recuperación de 

Pasajes IR-n y, por último, se analizan los resultados en términos de eficiencia 

desde dos enfoques claramente diferenciados: el primer enfoque 

consiste en analizar los resultados de eficiencia aplicando la heurística 

mediante el recurso desarrollado, mientras que, el segundo enfoque 

consiste en analizar los resultados en términos de eficiencia aplicando


la heurística mediante otros recursos de representación formal del texto. 

Para materializar la heurística utilizando el recurso desarrollado en la 

investigación, en la forma lógica de los tópicos, aquellos predicados del 

tipo preposición (IN) cuyo segundo argumento instancie, bien un objeto 

que cumpla un predicado del tipo sustantivo (NN) o bien un objeto 

que derive en otro objeto que cumpla un predicado del tipo sustantivo, 

deben propiciar un incremento porcentual en el peso de los términos 

(palabras) asociados a este tipo de predicados según sus pesos originales 

asignados por el sistema IR-n. 

Aparte de mejorar la eficacia del proceso de Recuperación de Información, 

la aplicación de esta heurística también tiene como propósito la 

determinación de qué valor porcentual de incremento del peso original 

de las palabras (términos) del tópico produce, en el caso de que así sea, 

la mejor optimización de la eficacia del proceso de Recuperación de Información. 

Para ello, este porcentaje toma valores empíricos a partir del 

100 % del peso de los términos del tópico en el intervalo de un umbral 

razonable de veinte puntos porcentuales con incrementos sucesivos de 

un punto porcentual. En el ejemplo 48 se muestra un escenario de este 

proceso donde la aplicación de la heurística hace que se incremente en 

un valor porcentual el peso original de este tipo de términos. 

(48) Tópico: The story of Mr. Fly and the Emergency Rescue 


Forma lógica asociada: story:NN(x14) of:IN(x14, x13) 

mr:NN(x10) mr fly:NNC(x11, x10, x12) fly:NN(x12) 

and:CC(x13, x11, x6) emergency:NN(x5) emergency 

rescue committee:NNC(x6, x5, x7) rescue:NN(x8) 

rescue committee:NNC(x7, x8, x9) committee:NN(x9) 

who:NN(x13) save:VB(e1, x13, x2) thousand:NN(x2) 

in:IN(e1, x3) marseille:NN(x3) 

Predicados implicados: of:IN(x14, x13) mr:NN(x10) 

mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13, 

x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6, 

x5, x7) rescue:NN(x8) rescue committee:NNC(x7, 

x8, x9) committee:NN(x9) in:IN(e1, x3) marseille:NN(x3) 

Palabras (términos) implicadas: Variant, Fry, Emergency, 

Rescue, Committee y Marseille.


Pesos originales y modificados: La tabla 5.3 detalla 

esta información. 

Término (stem) Peso inicial Peso actualizado 

stori 1.84449 1.84449 

fly 6.19484 7.124066 

emerg 6.47296 7.443904 

rescu 6.19484 7.124066 

committe 4.08194 4.694231 

save 3.06725 3.06725 

thousand 2.33944 2.33944 

marseil 5.13363 5.9036745 

Tabla 5.3. Pesos de los términos asignados por el sistema IR-n y su actualización según la heurística 

aplicada sobre la forma lógica del tópico 

Con el propósito de comprobar el grado de eficacia de este tratamiento 

heurístico, su aplicación ha sido llevada a cabo en la tarea de Recuperación 

de Información bilingüe inglés-portugués de la edición del año 2004 

de la competencia CLEF. Esta prueba realizada no ha sido publicada 

en el marco de la competencia CLEF porque su realización se produjo a 

posteriori, aunque para ello, el sistema de Recuperación de Información 

bilingüe inglés-portugués base es la versión del sistema IR-n con tamaño 

de pasaje normalizado que se presentó en la competencia CLEF en su 

edición del año 2004 (Llopis et al. , 2005). 

Los propósitos fundamentales que tiene esta prueba son dos. Por una 

parte, el primero de ellos consiste en justificar la motivación consiguiendo 

una mejora de la eficacia del proceso de Recuperación de Información 

global mediante el incremento de los pesos de algunos términos del 

tópico según lo especificado en la heurística aplicada a su representación 

formal basada en la forma lógica. Por otra parte, el segundo propósito 

consiste en determinar qué porcentaje de incremento del peso de los 

términos del tópico optimiza la eficacia del proceso de Recuperación de 

Información. 

A continuación, la tabla 5.4 detalla la eficacia del proceso de Recuperación 

de Información aplicando la heurística especificada tomando un 

umbral máximo de 20 puntos porcentuales con incrementos unitarios 

de los pesos originales de los términos de los tópicos asignados por el 

sistema IR-n. 

Analizando los resultados de evaluación obtenidos en el proceso de Recuperación 

de Información (véase tabla 5.4) cabe concluir que, por una


Peso términos Precisión 

Valor original 0.2975 

+1 % 0.2975 

+2 % 0.2975 

+3 % 0.2976 

+4 % 0.2978 

+5 % 0.2979 

+6 % 0.2981 

+7 % 0.2983 

+8 % 0.2987 

+9 % 0.2997 

+10 % 0.3014 

+11 % 0.3022 

+12 % 0.3025 

+13 % 0.3034 

+14 % 0.3066 

+15 % 0.3086 

+16 % 0.3047 

+17 % 0.3009 

+18 % 0.2961 

+19 % 0.2907 

+20 % 0.2889 

Tabla 5.4. Precisión del proceso de Recuperación de Información aplicando la heurística sobre la 

forma lógica del tópico 

parte, la aplicación de la heurística detallada contribuye en la mejora de 

la eficacia del proceso de Recuperación de Información y, que además, el 

porcentaje de incremento de los pesos originales de los términos asignados 

por el sistema IR-n se corresponde con quince puntos porcentuales. 

Por ello, en el ámbito de la Recuperación de los Documentos Transcritos, 

este incremento porcentual de quince puntos se aplica a los pesos 

de los términos de los tópicos que cumplen la heurística. De este modo, 

se han llevado a cabo dos experimentos: 

El experimento UATDASR04 se basa en la indexación de la transcripción 

ASRTEXT2004A y en la Recuperación de Información partiendo 

de la combinación de los campos texto y descripción de los tópicos 

originales. 

El experimento UATDASR04FL se basa en el experimento anterior 

sobre el que se efectúa una alteración de los pesos de algunas palabras 

del tópico atendiendo a la heurística aplicadas a la representación formal 

del tópico mediante la forma lógica. Concretamente, el porcentaje 

de incremento del peso de los términos se corresponde con un 15 % 

debido a que, según la evaluación anterior, este incremento es el que 

optimiza el proceso de Recuperación de Información.


5.2.4 Resultados 

Evaluación de la eficacia. Los resultados obtenidos en ambos experimentos 

quedan detallados en la tabla 5.5. La columna map muestra 

la media de la medida de precisión no interpolada mientras que en las 

restantes columnas se detalla la precisión a los 5, 20, 100 y 1000 documentos 

respectivamente. 

Experimento map p5 p20 p100 p1000 Rprec Bpref 

UATDASR04 0,0724 0,1840 0,1660 0,1036 0,0313 0,1246 0,0899 

UATDASR04LF 0,0768 0,2160 0,1740 0,1088 0,0324 0,1230 0,0949 

Tabla 5.5. Resultados de evaluación en la tarea CL-SR del CLEF 2005 

Como se puede apreciar en los resultados presentados en la tabla 5.5, el 

incremento en el peso de las palabras que cumplen las especificaciones 

detalladas anteriormente en la heurística contribuye a mejorar sensiblemente 

la precisión de la Recuperación de Pasajes del sistema estadístico 

IR-n, haciendo que este incremento de la precisión sea de un 6,08 % respecto 

a su valor original. La aplicación de esta heurística demuestra 

que, en términos de eficacia, la utilización del recurso contribuye a la 

mejora del proceso base de Recuperación de Información. 

También, de manera explícita, se pretende demostrar que la elección de 

nuestro recurso para la materialización de la heurística del tipo lingüístico 

es el más óptimo, en términos de eficiencia, frente a otros recursos 

de representación formal del texto capaces de satisfacer también el desarrollo 

de dicha heurística. Ello queda reflejado a continuación. 

Evaluación de la eficiencia. La heurística del tipo lingüístico que se 

acaba de detallar precisa de una representación formal de los tópicos 

que le proporcione la información lingüística necesaria para la aplicación 

de las reglas. En este sentido, cualquier modelo de representación 

con contenido lingüístico de los tratados en el capítulo 2 que identifique 

la categoría léxica e indique la relación existente entre las palabras de 

los tópicos serviría de base al desarrollo de la heurística. 

La Real Academia Española define el adjetivo “preciso/a” como “necesario, 

indispensable, que es menester para un fin”. Tomando como base 

esta definición, en la evaluación de la eficiencia se pretende premiar al 

modelo de representación con contenido lingüístico que sea más preciso, 

es decir, aquel que su representación tenga el suficiente detalle para la 

aplicación de la heurística ignorando aspectos superfluos, irrelevantes y 

redundantes. Ello implica que de todos los modelos de representación


formal del texto capaces de materializar el desarrollo de la heurística 

será más preciso aquel cuya representación contenga menor número 

de constituyentes ya que, según la definición recién especificada, este 

modelo, haciendo uso de un menor número de constituyentes en la representación, 

es capaz de representar la información necesaria para el 

desarrollo de la heurística, ignorando detalles superfluos, irrelevantes y 

redundantes introducidos por el resto de modelos. 

Por ello, y con el objeto de evaluar y contrastar lo más o menos precisos 

que son los diferentes modelos de representación capaces de dar soporte 

al desarrollo de la heurística, se hace hincapié en el concepto de eficiencia 

introducido al inicio del capítulo, que permite cuantificar el número 

de items o constituyentes que introducen las diferentes representaciones 

formales del texto según el modelo aplicado. De este modo, aquel modelo 

cuya representación haga uso de un menor número de constituyentes 

para identificar formalmente al texto asociado será el más eficiente y, 

en consecuencia, el más preciso según este punto de vista. 

Desde el punto de vista de la eficiencia, se va a establecer una comparación 

de los tamaños (según el número de constituyentes) de las 

diferentes representaciones formales de los tópicos para la aplicación de 

la heurística entre los modelos de representación formal capaces de dar 

soporte al desarrollo de esta heurística que son: el basado en el árbol 

de análisis de dependencias, el basado en el árbol de análisis sintáctico 

de constituyentes, y el recurso de formas lógicas desarrollado como embrión 

del recurso lógico-conceptual. Para ello, conviene tener un ejemplo 

común de la representación de un mismo tópico según cada uno de estos 

modelos de representación formal. Ello queda presentado en el ejemplo 

49. 

(49) Tópico: The story of Mr. Fly and the Emergency Rescue 


Árbol de dependencias: Véase figura 5.1 

Árbol de constituyentes: Véase figura 5.2 

Forma lógica: story:NN(x14) of:IN(x14, x13) mr:NN(x10) 

mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13, 

x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6, 

x5, x7) rescue:NN(x8) rescue committee:NNC(x7, 

x8, x9) committee:NN(x9) who:NN(x13) save:VB(e1, 

x13, x2) thousand:NN(x2) in:IN(e1, x3) marseille:NN(x3)


story [N] 

Árbol lógico: Véase figura 5.3 1 

det mod e 

The [Det] of [Prep] 

pcomp-n s 

Fly [N] 

lex-mod conj e 

Mr. [U] Committee [N] 

lex-mod rel t 

Emergency [U] Rescue [U] () fin [C] 

Figura 5.1. Árbol de dependencias del tópico 

The 

[NP] 

n-chunk 

n-chunk 

story 

[NN] 

of 

[IN] 

sppart 

n-chunk 

Mr. Fly 

[NP] 

and 

[CC] 

the 

[DT] 

sn-chunk 

nex-coord n-chunk 

Figura 5.2. Árbol de constituyentes del tópico 

whn i p 

who [N] saved [V] 

subj obj mod p 

() who [N] thousands [N] in [Prep] 

S 

Emergency Rescue Committee 

[NP] 

who 

[WP] 

saved 

[VBD] 

pcomp-n p 

Marseille [N] 

wh-prc vb-chunk n-chunk spin n-chunk 

thousands 

[NNS] 

in 

[IN] 

sp-chunk 

Según el ejemplo 49, para la representación formal de un mismo tópico, 

el árbol de análisis de dependencias tiene 15 nodos (constituyentes), el 

árbol de análisis de constituyentes tiene 26 nodos y el árbol lógico tiene 

10 nodos. Si se consideran los 75 tópicos que se han utilizado en la evaluación, 

la tabla 5.6 detalla el número de nodos total que se obtienen 

con cada uno de estos tres modelos de representación. 

Marseille 

[NP] 

1 El árbol lógico simplemente representa los predicados relacionados de la forma lógica en forma 

de árbol con objeto de facilitar el estudio de la complejidad

story:NN(x14) 


save:VB(e1, x13, x2) 

who:NN(x13) thousand:NN(x2) in:IN(e1, x3) 

and:CC(x13, x11, x6) marseille:NN(x3) 

of:IN(x14, x13) mr_fly:NNC(x11, x10, x12) emergency_rescue_committee:NNC(x6, x5, x7) 

Figura 5.3. Árbol lógico del tópico 

Representación N o nodos 

Árbol constituyentes 1628 

Árbol dependencias 1059 

Árbol lógico 771 

Tabla 5.6. Número de nodos obtenidos por cada formalismo en la representación de los tópicos 

Si se comparan estos resultados de eficiencia reflejados en la tabla 5.6 

se obtiene que la representación basada en el árbol lógico es un 52,64 % 

más eficiente que la basada en el árbol de constituyentes, y un 27,2 % 

más eficiente que la basada en el árbol de dependencias. 

Acorde a lo especificado en los párrafos anteriores, aquel mecanismo de 

representación formal que sea más eficiente, es decir, que menor número 

de constituyentes introduzca en la representación implica que, será también 

el más preciso, es decir, introduce la menor cantidad de información 

necesaria para el desarrollo de la heurística tratando de evitar detalles 

superfluos, irrelevantes y redundantes. 

Tal y como se acaba de demostrar en esta evaluación, la representación 

del árbol lógico, derivado a partir de la forma lógica, es la más 

eficiente de las representaciones debido a que es la que menor número 

de nodos contiene. Por ello y, aunque la heurística lingüística puede ser 

aplicada a partir de diferentes representaciones formales del texto, es la 

representación basada en formas lógicas la más precisa frente al resto 

de representaciones quedando demostrado con ello el matiz de precisión 

introducido en el marco global de evaluación. 

5.2.5 Análisis y discusión 

Dentro del amplio espectro de sistemas de PLN, con la participación 

en esta tarea, se ha demostrado la validez del recurso representación


formal del texto en el ámbito de la Recuperación de Información. Para 

ello, sobre la representación formal de los tópicos implicados en el 

proceso de Recuperación de Información, se ha aplicado una heurística 

que hace que determinadas palabras del tópico incrementen su importancia 

o relevancia en el proceso. Desde el punto de vista de la eficacia, 

los resultados obtenidos tras la aplicación de esta heurística mejoran 

los resultados obtenidos por el sistema de Recuperación de Información 

base produciendo un incremento de un 6,08 % del valor original de la 

medida map. 

Desde el punto de vista de la eficacia, el recurso de formas lógicas no es 

imprescindible para la aplicación de la heurística ya que ésta se puede 

aplicar sobre cualquier otro tipo de representación formal, como se ha 

demostrado con los árboles de dependencias y de constituyentes. 

Uno de los propósitos fundamentales de la participación en esta tarea es 

demostrar el matiz de precisión introducido al inicio del capítulo. Para 

ello, desde el punto de vista de la eficiencia, la utilización del recurso de 

formas lógicas para la representación formal de los tópicos mejora los 

resultados de la aplicación de la heurística sobre cualquier otro tipo de 

representación, tal y como se ha demostrado en la subsección anterior. 

Ello demuestra que la representación basada en formas lógicas obtenida 

a partir del recurso lógico-conceptual es más precisa que el resto de 

representaciones. 

5.3 Participación en la tarea Recognising Textual 

Entailment del PASCAL 2006 


El reconocimiento de la Vinculación o Implicación Textual (Recognising 

Textual Entailment) (Bar-Haim et al. , 2006) ha sido propuesto en los 

últimos años en el ámbito del PLN como una tarea genérica que captura 

las necesidades principales de inferencia semántica a través de las aplicaciones 

del PLN como la Búsqueda de Respuestas, la Recuperación de 

Información, la Extracción de Información y la Generación Automática 

de Resúmenes. 

El Textual Entailment o Implicación Textual consiste en decidir, dados 

dos fragmentos de texto denominados texto (T) e hipótesis (H), si el 

texto vincula a la hipótesis, es decir, si el significado de la hipótesis 

es inferido a través del texto. El ejemplo 50 muestra una vinculación 

textual, es decir, T vincula a H.

5.3 Participación en la tarea Recognising Textual Entailment del PASCAL 2006 125 

(50) Texto (T): His family has steadfastly denied the charges. 

Hipótesis (H): The charges were denied by his family. 

La tarea PASCAL RTE (Recognising Textual Entailment) (Bar-Haim 

et al. , 2006) promociona la formación de una comunidad investigadora 

en al ámbito de la tarea de vinculación textual. La principal tarea consiste 

en determinar si una hipótesis (H) es vinculada por un texto (T). 

Uno de los principales objetivos de su conjunto de datos se centra en 

proveer ejemplos “realistas” de pares texto-hipótesis, la mayoría de ellos 

basados en las salidas proporcionadas por los sistemas actuales de PLN. 

En concreto se basan en las características de aplicación de los sistemas 

mencionados anteriormente: Búsqueda de Respuestas, Recuperación de 

Información, Extracción de Información y Generación Automática de 

Resúmenes. Cada porción del conjunto de datos incluye ejemplos típicos 

de pares texto-hipótesis obtenidas a partir de los aciertos y los fallos 

obtenidos por estas aplicaciones. Los ejemplos representan diferentes 

niveles de razonamiento de la vinculación tales como léxico, sintáctico, 

morfológico y lógico. 

Dicha tarea proporciona un marco de evaluación común a los sistemas 

de Textual Entailment. Los sistemas de Textual Entailment participantes 

en esta tarea de evaluación deberán decidir dados los pares texto e 

hipótesis, si el texto vincula a la hipótesis o no, y estos resultados se 

compararán con las anotaciones manuales correspondientes. 

La evaluación de las ejecuciones de los sistemas es automática. Los criterios 

devueltos por los sistemas son comparados con los criterios de 

relevancia asignados manualmente por los anotadores. El porcentaje de 

emparejamiento de criterios debe proveer la precisión de la tarea (ej. la 

relación de respuestas correctas). 

Como una segunda medida de evaluación, la precisión media (average 

precision) evalúa la capacidad de los sistemas en determinar las implicaciones 

correctas de acuerdo a su coeficiente de confianza, en orden 

decreciente desde el par texto-hipótesis que posee un coeficiente mayor 

hasta el que posee el menor coeficiente. Se define formalmente esta medida 

como: 

P recMedia = 1 ni=1 #correctos hasta par i 

E(i) R 

i 

donde n es la cantidad de pares en el corpus, R es la cantidad de pares 

positivos, E(i) es 1 si el par es positivo y 0 si no lo es, e i recorre todos 

los pares ordenados según el coeficiente de confianza. Estas dos medidas


de evaluación miden la validez de los sistemas desde el punto de vista 

del concepto de eficacia. 


Dentro del amplio espectro de las aplicaciones del PLN, la tarea de 

la vinculación textual resume las necesidades principales de inferencia 

semántica de otros sistemas del PLN como la Búsqueda de Respuestas, 

la Recuperación de Información, la Extracción de Información y la Generación 

Automática de Resúmenes. 

El problema de la Implicación o Vinculación Textual se resuelve mediante 

la comparación de las representaciones semánticas asociadas al 

texto y a la hipótesis. A partir de ambas representaciones semánticas 

y su comparación, el sistema de Textual Entailment debe decidir si el 

texto vincula o no a la hipótesis. Para realizar esta función el sistema 

necesita de conocimiento semántico que le permita saber el grado de 

relación existente entre las palabras del texto y de la hipótesis. 

El recurso de representación semántica desarrollado en el trabajo de 

investigación, a través del tratamiento lógico-conceptual llevado a cabo 

sobre la forma lógica, reúne los requisitos necesarios para su integración 

en el sistema de textual entailment. Por ello, se pretende que el 

núcleo del sistema de vinculación textual sea la propia representación 

semántica del par texto-hipótesis derivada a partir de este tratamiento. 

A partir del par de representaciones semánticas texto-hipótesis, se 

pretende aplicar una serie de técnicas de exploración en la jerarquía de 

WordNet para decidir si existe o no vinculación entre ambas representaciones, 

produciendo con ello la salida generada por el sistema. 

El propósito de la aplicación de la investigación en esta tarea emergente 

de Textual Entailment pretende demostrar la validez del recurso en 

el ámbito de la propia tarea visto desde el enfoque del matiz de completitud 

conceptual detallado al inicio del capítulo. Con ello quedaría 

demostrado que el tratamiento lógico-conceptual proporcionado por el 

recurso que hace que la representación semántica incorpore la información 

conceptual contenida en WordNet asociada a las palabras del par 

texto-hipótesis y, a su vez, que esta información conceptual sea no ambigua, 

es perfectamente válido para ser incorporado en el sistema de 

vinculación textual. 

Para demostrar la validez del recurso de representación desde el punto 

de vista del matiz de la completitud conceptual se realiza la evaluación 

global del sistema de vinculación textual desarrollado en el ámbito de la 

tarea RTE. En esta evaluación se pretende que, los resultados del siste-


ma desarrollado ronden la media de los resultados de todos los sistemas 

participantes en la tarea, según las medidas de evaluación especificadas 

en el apartado anterior. Con ello quedaría demostrada la validez del 

recurso en el ámbito del Textual Entailment. 


La tarea RTE considera que T vincula a H si, típicamente, un humano 

que lee T inferiría que H es más que probable que sea verdadero. Esta 

definición algo informal se basa en (y asume) la comprensión humana 

común del lenguaje así como el conocimiento común del mundo. La 

tabla 5.7 muestra varios ejemplos del reconocimiento de la vinculación 

textual a partir de la salida de los diferentes sistemas del PLN. 

Texto Hipótesis Tarea Vinculación 

The drugs that slow down or halt Alzheimer’s disease 

Alzheimer’s disease work best the is treated RI SÍ 

earlier you administer them. using drugs. 

Drew Walker, NHS Tayside’s public 

health director, said: ‘‘It is A case of rabies RI NO 

important to stress that this is was confirmed. 

not a confirmed case of rabies.’’ 

Yoko Ono unveiled a bronze statue 

of her late husband, John Lennon, Yoko Ono is 

to complete the official renaming John Lenonn’s BR SÍ 

of England’s Liverpool Airport as widow. 

Liverpool John Lennon Airport 

Arabic, for example, is used 

densely across North Africa and Arabic is the 

from the Eastern Mediterranean primary BR NO 

to the Philippines, as the key language of the 

language of the Arab world and Philippines. 

the primary vehicle of Islam. 

About two weeks before the trial 

started, I was in Shapiro’s Shapiro works in BR SÍ 

office in Century City. Century City. 

Meanwhile, in his interview to a 

Western print publication since his 

election as president of Iran 

earlier this year, Ahmadinejad Ahmadinejad is a EI SÍ 

attacked the ‘‘threat’’ to bring citizen of Iran. 

the issue of Iran’s nuclear 

activity to the UN Security council 

by the US, France and Britain. 

Tabla 5.7. Ejemplos de reconocimiento de la Vinculación Textual


Los criterios de relevancia y las pautas seguidas para su diseño se detallan 

a continuación: 

La Vinculación Textual es una relación bidireccional. La hipótesis debe 

ser inferida a partir del texto, pero el texto no necesariamente es 

inferido a partir de la hipótesis. 

La hipótesis debe ser plenamente inferida por el texto. Los criterios no 

consideran si la hipótesis incluye partes que pueden no ser inferidas a 

partir del texto. 

Los casos en que la inferencia es muy probable (pero no completamente 

cierta) son juzgados como vinculación positiva. En los ejemplos de 

la tabla 5.7, en el marco del quinto se puede pensar que aunque Shapiro’s 

office está en Century City, el sujeto nunca llega a su oficina y, 

en consecuencia, trabaja en otra parte. Sin embargo, esta interpretación 

del texto es muy improbable y, en consecuencia, la vinculación 

encaja con gran probabilidad. 

La definición de vinculación permite suposiciones del conocimiento 

del mundo del tipo: una empresa tiene un director general, un director 

general es un empleado de la compañía, un empleado es una 

persona, etc. Por ejemplo, en la última vinculación de la tabla 5.7, la 

vinculación depende de conocer que el presidente de un país es también 

un ciudadano de ese país. 

El experimento desarrollado (Ferrández et al. , 2006a) para abordar 

el problema de la vinculación textual existente entre texto e hipótesis 

consiste en establecer una comparación entre las representaciones 

semánticas asociadas a T y H, obteniendo un factor de similitud y, en 

base a este factor, decidir si existe vinculación o no. Para ello, el primer 

paso consiste en analizar la relación existente entre los predicados del 

tipo verbo (VB) del texto y la hipótesis. Si los conceptos que representan 

ambos predicados tienen algún tipo de relación 2 , a continuación se 

analiza la relación existente entre los restantes predicados relacionados 

con los predicados del tipo verbo. Las relaciones entre predicados se 

indica asignándoles un peso que toma valores entre 0 y 1 dependiendo 

del grado de relación existente entre ambos predicados. Si este peso toma 

un valor próximo a cero significa que apenas existe relación entre 

ambos predicados, mientras que si toma un valor próximo a 1 significa 

que ambos predicados están muy relacionados. Todos estos pesos derivados 

del análisis de los pares de predicados del texto y la hipótesis son 

2 Por ejemplo, los conceptos representados por los verbos run y walk tendrían relación. Sin embargo, 

no ocurriría lo mismo con los conceptos que representan los verbos eat y run.


sumados y normalizados, produciendo el factor de similitud entre texto 

e hipótesis. Si este factor de similitud supera cierto umbral implica que 

existe una relación de vinculación textual entre T y H; en otro caso, no 

existe dicha relación de vinculación textual entre T y H. Este umbral 

ha sido establecido previamente en la fase de entrenamiento del sistema 

con el corpus de desarrollo. La figura 5.4 resume esta arquitectura 

general del sistema de vinculación textual. 

FL Texto 

Texto 

Derivación de las 

Formas Lógicas 

Computación de la similitud 

Semántica entre Formas Lógicas 

factor 

¿Implicación? 

SI NO 

Figura 5.4. Arquitectura del sistema de vinculación textual 

Hipótesis 

FL Hipótesis 

Para el cálculo del peso de la relación entre pares de predicados se han 

seguido dos estrategias: la primera de ellas está basada en las relaciones 

entre sentidos definidas en el recurso léxico WordNet (Miller, 1995) 

mientras que la segunda está basada en la medida de Lin (Lin, 1998a). 

Ambas estrategias se basan en la jerarquía definida en WordNet. 

Para determinar el valor del umbral se asignan valores empíricos sobre 

tres ejecuciones diferentes: WNsuperficial, WNdetallado y WNLin. 

WNsuperficial hace uso de tres relaciones de WordNet (sinonimia, hiponimia 

y entailment) que se consideran más adecuadas para la tarea de 

implicación textual. WNdetallado utiliza seis relaciones (hiperonimia, 

hiponimia, implicación, sinonimia, meronimia y holonimia) para obtener 

el peso de similitud entre dos conceptos. La última ejecución, que 

utiliza la medida de similitud de Lin, se le denomina WNLin. La figura 

5.5 muestra la relación existente entre los valores empíricos que toma 

el umbral y la precisión obtenida por el sistema para cada uno de estos 

valores en la fase de entrenamiento del sistema. 

El umbral que mejores resultados de precisión obtiene sobre el corpus 

de desarrollo es de 0.24 para las ejecuciones WNLin y WNdetallado, 

mientras que para la ejecución WNsuperficial el mejor umbral empírico 

es de 0.25. Aunque los umbrales son bastante parecidos y sufren un 

comportamiento similar conforme se van aumentando, para la evalua-


Accuracy 

0,55 

0,545 

0,54 

0,535 

0,53 

0,525 

0,52 

0,515 

0,51 

0,505 

0,5 

0,1 0,2 0,21 0,23 0,24 0,25 0,26 0,3 0,5 0,7 

Umbral 

Figura 5.5. Ajuste del umbral sobre el corpus de desarrollo 

ción se considera el valor de 0.24. 

WNLin 

WNsuperficial 

WNcomplejo 

Como se puede apreciar en los ejemplos de vinculación textual de la 

tabla 5.7, debe existir cierta vinculación entre los pares de palabras del 

texto y de la hipótesis (ej. husband y widow, treat y administer, president 

y citizen, etc). Por ello, para la desambiguación del sentido de 

las palabras se consideran, en conjunto, los pares de palabras del texto 

y la hipótesis. Para ello son tenidos en cuenta únicamente la mitad de 

los sentidos de WordNet ordenados por frecuencia de aparición. Dada 

esta consideración del número de sentidos a considerar, a continuación 

se analizan las relaciones de similitud semántica existentes entre los 

pares de conceptos asociados a las palabras del texto y la hipótesis. 

La relación que maximiza la similitud semántica desambigua el sentido 

del par de palabras del texto y la hipótesis. Ello permite determinar el 

concepto asociado a cada predicado de la forma lógica. A continuación 

se especifican las dos estrategias seguidas para determinar la similitud 

semántica entre los pares de palabras del texto y la hipótesis. 

Estrategia basada en las relaciones entre sentidos de Word- 

Net. En la base de datos léxica WordNet (Miller, 1995), un synset es 

un conjunto de conceptos que expresan el mismo significado. Se define 

un concepto como el uso de una palabra en un determinado contexto 

(sentido). De este modo, esta estrategia nos permite conocer si dos conceptos 

distintos están relacionados entre si mediante la composición de 

diferentes relaciones definidas en WordNet. Estas relaciones son: hiperonimia, 

hiponimia, entailment, similitud, meronimia y holonimia. La 

longitud del camino que debe relacionar los dos conceptos, en el caso de 

que exista esta relación, nunca debe exceder los cuatro synsets. Cada 

una de estas relaciones definida en WordNet tiene asociado un peso: 

0.8 para la relación de hiperonimia, 0.7 para la relaciones de hiponimia 

y entailment, 0.9 para la relación de similitud, y 0.5 para las relaciones 

de meronimia y holonimia. De este modo, el peso del camino entre 

dos conceptos distintos se calcula como el producto de los pesos de las 

relaciones existentes en el camino. Esta técnica es una derivación de


la técnica empleada por Moldovan y Novischi (2002) en su algoritmo 

SpreadWeights. 

Estrategia basada en la medida de Lin. En este enfoque, la relación 

entre dos conceptos es un valor calculado aplicando la medida 

de similitud de Lin (1998a) que viene integrada en el recurso Word- 

Net::Similarity (Pedersen et al. , 2004). Este recurso consiste en un 

software de dominio abierto desarrollado en la Universidad de Minnesota 

que permite calcular la relación existente entre dos conceptos, o 

entre dos palabras. La medida de similitud de Lin se centra en el análisis 

de las relaciones es-a de WordNet. Está considerada como una medida 

basada en el contenido de la información, frente a la anterior medida que 

se centra en la ruta de las relaciones. Esta medida aumenta el contenido 

de la información del least common subsumer (LCS) 3 de dos conceptos 

con la suma del contenido de información de los propios conceptos. 


La evaluación del sistema de Textual Entailment se enmarca dentro de 

la evaluación estándar definida en la tarea PASCAL Second Recognising 

Textual Entailment Challenge (Bar-Haim et al. , 2006). En ella, 

los sistemas tiene que decidir si existe entailment o no entre los 800 

pares de texto e hipótesis de la colección de test. Los resultados del 

Textual Entailment vienen determinados a través de dos medidas de 

evaluación: la precisión (accuracy) y la precisión media (average precision). 

La tabla 5.8 muestra los resultados obtenidos obtenidos por los 

sistemas participantes en la tarea. 

Ambas medidas de evaluación presentan ligeras contradicciones a la hora 

de decidir, según los números obtenidos en ellas, que el sistema A 

es mejor que el sistema B. Por ejemplo, se puede dar el caso en el que 

sistema A obtiene mejor resultado que el sistema B en la medida de precisión, 

pero el sistema B obtiene mejor resultado que el sistema A en 

la medida de precisión media. Concretamente, en la competición RTE2 

participaron 23 sistemas en 41 ejecuciones. La media de la precisión de 

estos sistemas ronda el 58,55 % mientras que la media de la precisión 

media ronda los 59,09 puntos porcentuales. Según la medida de precisión, 

la ejecución basada en la medida Lin ocupa el puesto número 29 

alcanzando una precisión del 55,63 %, mientras que la ejecución basada 

en relaciones de WordNet ocupa el puesto número 34 obteniendo 

una precisión del 54,75 %. En cambio, si nos fijamos en la medida de 

precisión media, la participación fue de 18 sistemas con un total de 31 

ejecuciones. En el ámbito de la precisión media, la ejecución basada 

en la medida Lin ocupa el puesto número 12 alcanzando un valor de 

3 LCS es el concepto más específico que dos conceptos comparten como antecesor


Grupo Ejecución Precisión Precisión Media 

LCC (Hickl et al. ) 1 0.7538 0.8082 

LCC (Tatu et al. ) 1 0.7375 0.7133 

Milán y Roma (Zanzotto et al. ) 1 0.6388 0.6441 

Dallas (Adams et al. ) 1 0.6262 0.6282 

Milán y Roma (Zanzotto et al. ) 2 0.6250 0.6317 

Roma y Leeds (Bos et al. ) 1 0.6162 0.6689 

Colorado (Nielsen et al. ) 2 0.6112 0.6379 

Roma y Leeds (Bos et al. ) 2 0.6062 0.6042 

Stanford (de Marneffe et al. ) 2 0.6050 0.5800 

ITC-irst y Trento (Kouylekov et al. ) 2 0.6050 0.5046 

Tilburg y Twente (Marsi et al. ) 1 0.6050 

Colorado (Nielsen et al. ) 1 0.6025 0.6396 

Microsoft y Stanford (Vanderwende et al. ) 1 0.6025 0.6181 

UNED (Herrera et al. ) 1 0.5975 0.5663 

Memphis (Rus et al. ) 1 0.5900 0.6047 

Saarland (Burchart et al. ) 1 0.5900 

Amsterdam (Katrenko et al. ) 1 0.5900 

UNED (Herrera et al. ) 2 0.5887 

Microsoft y Stanford (Vanderwende et al. ) 2 0.5850 0.6170 

Memphis (Rus et al. ) 2 0.5837 0.5785 

Ottawa (Inkpen et al. ) 2 0.5825 0.5816 

CL Research (Litkowski et al. ) 1 0.5813 

Ottawa (Inkpen et al. ) 1 0.5800 0.5751 

Saarland (Burchart et al. ) 2 0.5775 

Stanford (de Marneffe et al. ) 1 0.5763 0.6131 

ITC-irst y Trento (Kouylekov et al. ) 1 0.5725 0.5249 

Amsterdam (Katrenko et al. ) 2 0.5713 

CL Research (Litkowski et al. ) 2 0.5663 

Alicante (Ferrández et al.) Lin 0.5563 0.6089 

Venecia (Delmonte et al. ) 1 0.5563 0.5685 

Thomson y Minnesota (Schilder et al. ) 2 0.5550 

Alicante (Kozareva et al. ) 2 0.5500 0.5485 

Alicante (Kozareva et al. ) 1 0.5487 0.5589 

Alicante (Ferrández et al.) Rel. WN 0.5475 0.5743 

Sussex (Clarke et al. ) 2 0.5475 0.5260 

Dublin (Newman et al. ) 2 0.5437 0.5103 

Thomson y Minnesota (Schilder et al. ) 1 0.5437 

Melbourne (Nicholson et al. ) 1 0.5288 0.5464 

Sussex (Clarke et al. ) 1 0.5275 0.5254 

Dublin (Newman et al. ) 1 0.5250 0.5052 

Melbourne (Nicholson et al. ) 2 0.5088 0.5053 

Tabla 5.8. Resultados de la evaluación en la tarea Recognising Textual Entailment


60,89 puntos porcentuales mientras que la ejecución basada en relaciones 

de WordNet ocupa el puesto número 19 con una precisión media 

del 57,43 %. 

Analizando los resultados en términos de eficacia obtenidos en ambas 

medidas y comparándolos con la media de los resultados obtenidos por 

los sistemas participantes en la tarea, se puede concluir que el recurso 

de representación formal del texto desarrollado en la investigación es 

totalmente valido para su incorporación en los sistemas de Vinculación 

Textual. 


El principal propósito de la participación en la tarea Recognising Textual 

Entailment viene marcado por el tratamiento lógico-conceptual de 

la información manejada en los pares texto-hipótesis para decidir si 

el texto vincula o no la hipótesis. El tratamiento lógico de la información 

se centra en el manejo de los predicados de las formas lógicas 

asociadas tanto al texto como a la hipótesis. Desde el punto de vista 

del tratamiento conceptual de la información se trata de establecer el 

grado de relación que pueda existir entre determinados predicados de 

ambas formas lógicas. Estas relaciones vienen determinadas a partir de 

la exploración de conceptos mediante la jerarquía definida en el recurso 

léxico WordNet. 

Analizando los resultados de eficacia obtenidos de la participación en 

la tarea RTE, se puede concluir que el procedimiento empleado para 

resolver el problema del textual entailment obtiene unos resultados 

en la media de los obtenidos por el resto de sistemas participantes en 

esta competición. Se puede concluir que la aplicación del recurso lógicoconceptual 

como núcleo del sistema es un método válido en el tratamiento 

de la Vinculación Textual. 

Una vez demostrada la validez del recurso en el problema de la vinculación 

textual y, debido a que la tarea de la vinculación textual resume 

las necesidades principales de inferencia semántica de otros sistemas 

del PLN como la Búsqueda de Respuestas, la Recuperación de Información, 

la Extracción de Información y la Generación Automática de 

Resúmenes, podemos concluir también que la aplicación del recurso en 

estas cuatro aplicaciones del PLN es perfectamente válida desde el punto 

de vista del matiz de completitud conceptual detallado al inicio del 

capítulo.


5.4 Participación en la tarea Answer Validation 

Exercise del CLEF 2006 

5.4.1 Objetivos 

El objetivo de la tarea Answer Validation Exercise del CLEF 2006 

(Peñas et al. , 2007) consiste en evaluar los sistemas capaces de decidir 

si la respuesta devuelta por un sistema de Búsqueda de Respuestas es 

correcta o no. El punto de partida de la tarea AVE es la reformulación 

de la validación de la respuesta como un problema de reconocimiento 

del Textual Entailment bajo la presunción de que la hipótesis puede ser 

generada automáticamente instanciando patrones de hipótesis con las 

respuestas devueltas por los sistemas de Búsqueda de Respuestas. Con 

ello se pretende promover nuevas líneas de investigación en el desarrollo 

y evaluación de subsistemas capaces de validar la corrección de las 

respuestas devueltas por los sistemas de Búsqueda de Respuestas. 

Los sistemas participantes en la tarea de evaluación deben devolver un 

valor de dos posibles (SÍ o NO) para cada par de texto-hipótesis indicando 

si el texto vincula o no la hipótesis (ej. la respuesta es correcta 

acorde al texto). 

La evaluación se basa únicamente en la detección de las respuestas 

correctas, considerando si existe o no la suficiente evidencia de éstas. 

Las medidas de evaluación utilizadas para describir la eficacia de los sistemas 

participantes en la tarea AVE son la precisión, la cobertura y la 

medida F sobre los pares con entailment verdadero. La precisión (véase 

51) y la cobertura (véase 52) han sido definidas en las secciones previas 

del capítulo. En cambio, la medida F (véase 53) se define como la 

media armónica ponderada (factor 1) de precisión y cobertura. Esto es 

así porque el propósito perseguido es destacar aquellos sistemas capaces 

de detectar vinculación en los pares texto-hipótesis, o capaces de detectar 

si existe suficiente evidencia para considerar que existe vinculación 

entre el texto y la hipótesis. 

(51) precision = 

(52) cobertura = 

(53) F = 2·precision·cobertura 

precision+cobertura 

| correctos pronosticados como SI | 

| {pronosticados como SI} ∩ {pares DESCONOCIDOS} | 

| correctos pronosticados como SI | 

| {pares SI} |

5.4 Participación en la tarea Answer Validation Exercise del CLEF 2006 135 


El problema planteado en la tarea Answer Validation Exercise es claramente 

un problema de Vinculación Textual o Textual Entailment en el 

que el conjunto de pares texto-hipótesis se deriva a partir de los recursos 

existentes para la tarea de Búsqueda de Respuestas de la campaña de 

evaluación CLEF así como de las respuestas generadas por los sistemas 

participantes en dicha tarea. En la sección anterior del capítulo, donde 

se detalla todo lo relativo a la participación en la tarea PASCAL RTE, 

se ha especificado este problema. Debido a la similitud existente entre 

la anterior tarea PASCAL RTE y la tarea Answer Validation Exercise, 

tanto la motivación como las aportaciones esperadas para la tarea 

Answer Validation Exercise son exactamente las mismas que para su 

homóloga PASCAL RTE y, por ello, no cabe repetir lo ya especificado 

anteriormente en el capítulo. 

Como novedad y extensión a todo lo anterior, conviene matizar que 

se quiere medir la eficacia del sistema desde el punto de vista de la 

precisión, cobertura y medida F, frente a la precisión y precisión media 

utilizadas en la anterior tarea PASCAL RTE. También se quiere 

contrastar la eficacia del sistema en el conjunto de los nuevos sistemas 

participantes en esta tarea. 


Con diferencia a anteriores campañas de evaluación de los sistemas de 

Búsqueda de Respuestas, un fragmento de texto es requerido para apoyar 

la corrección de las respuestas. Los criterios de relevancia de la 

Búsqueda de Respuestas se diseñan considerando el fragmento de texto 

dado como conservando la relación directa entre los criterios de relevancia 

de la Búsqueda de Respuestas y los del Reconocimiento de la 

Implicación Textual: 

Los pares correspondientes a respuestas consideradas como correctas 

tienen un valor de vinculación igual a S Í. 

Los pares correspondientes a respuestas consideradas como incorrectas 

o no soportadas tienen un valor de vinculación igual a NO. 

Los pares correspondientes a respuestas consideradas como inexactas 

tienen un valor de vinculación igual a DESCONOCIDO y son ignoradas 

de la propuesta de evaluación. 

Los pares de provenientes de respuestas no evaluadas en la tarea de 

Búsqueda de Respuestas son etiquetados también como DESCONO-


CIDO así como excluidos de la evaluación. 

La colección se ha construido del siguiente modo: los textos se corresponden 

con cada una de las respuestas devueltas por los sistemas de 

Búsqueda de Respuestas para cada una de las preguntas, mientras que 

las hipótesis se obtienen a partir de las preguntas expresadas de modo 

afirmativo junto con su respuesta correcta. 

Debido a que se trata de un problema de reconocimiento del Textual 

Entailment, el experimento realizado para resolver el problema planteado 

por la tarea AVE (Ferrández et al. , 2007) es exactamente el mismo 

que el realizado para la tarea PASCAL RTE detallado en la sección 

anterior del capítulo con la salvedad de las particularidades incluidas 

en las medidas de evaluación de la tarea AVE frente a las de la tarea 

PASCAL RTE. 


La tabla 5.9 muestra los resultados obtenidos de la participación en la 

tarea AVE del CLEF 2006. 

Grupo Sistema Medida F Precisión Cobertura 

LCC COGEX 0.4559 0.3261 0.7576 

Roma ZNZ - TV 2 0.4106 0.2838 0.7424 

ITC-irst itc-irst 0.3919 0.3090 0.5354 

Roma ZNZ - TV 1 0.3780 0.2707 0.6263 

Alicante MLEnt 2 0.3720 0.2487 0.7374 

Alicante Lin 0.3177 0.2040 0.7172 

Alicante MLEnt 1 0.3174 0.2114 0.6364 

Alicante Rel. WN 0.3070 0.2144 0.5404 

Twente utwente.ta 0.3022 0.3313 0.2778 

Twente utwente.lcs 0.2759 0.2692 0.2828 

Valencia ebisbal 0.075 0.2143 0.0455 

Tabla 5.9. Resultados de la evaluación en la tarea Answer Validation Exercise 

A pesar de que se utilizan las medidas de evaluación precisión, cobertura 

y medida F, es ésta última la que combina los resultados obtenidos por 

las dos anteriores y, en consecuencia, es la más adecuada para sacar las 

conclusiones pertinentes a la validez de los sistemas desde el punto de 

vista de la eficacia. La media de la medida F de todos los sistemas es 

de 32,76 puntos porcentuales. Comparando este valor con los resultados 

obtenidos por el sistema desarrollado (31,77 % para la ejecución basada 

en la medida Lin y 30,70 % para la ejecución basada en la exploración 

de las relaciones de WordNet) cabe concluir que el sistema desarrollado

5.4 Participación en la tarea Answer Validation Exercise del CLEF 2006 137 

tomando como núcleo principal el tratamiento lógico-conceptual que 

proporciona el recurso de representación formal del texto está en la 

media del resto de sistemas de vinculación textual participantes en la 

tarea. 


El cometido principal de la participación en la tarea Answer Validation 

Exercise del CLEF 2006, al igual que en la participación en la tarea 

Recognising Textual Entailment viene determinado por el tratamiento 

lógico-conceptual de la información manejada en los pares texto-hipótesis 

para decidir si el texto vincula la hipótesis o no. El tratamiento lógico 

de la información se centra en el manejo de los predicados de las formas 

lógicas asociadas tanto al texto como a la hipótesis. Desde el punto de 

vista del tratamiento conceptual de la información se trata de establecer 

el grado de relación que pueda existir entre determinados predicados 

de ambas formas lógicas. Estas relaciones vienen determinadas a partir 

exploración de conceptos mediante la jerarquía definida en el recurso 

léxico WordNet. 

Al igual que ocurría en la participación en la tarea PASCAL RTE, 

analizando los resultados de eficacia obtenidos de la participación en 

la tarea AVE del CLEF 2006, se puede concluir que el procedimiento 

empleado para resolver el problema del Textual Entailment obtiene 

unos resultados obtiene unos resultados en la media de los obtenidos 

por el resto de sistemas participantes en esta competición. Por ello, 

analizando y comparando los resultados obtenidos según las medidas 

de evaluación utilizadas en la tarea PASCAL RTE como los resultados 

obtenidos según las medidas de evaluación utilizadas en la tarea AVE, 

se puede concluir que la aplicación del recurso lógico-conceptual como 

núcleo del sistema es un método válido en el tratamiento de la Vinculación 

Textual. 

Al igual que se detalla en la sección anterior del capítulo, una vez demostrada 

la validez del recurso en el problema de la vinculación textual 

y, debido a que la tarea de la vinculación textual resume las necesidades 

principales de inferencia semántica de otros sistemas del PLN 

como la Búsqueda de Respuestas, la Recuperación de Información, la 

Extracción de Información y la Generación Automática de Resúmenes, 

podemos concluir también que la aplicación del recurso en estas cuatro 

aplicaciones del PLN es perfectamente válida desde el punto de vista 

del matiz de completitud conceptual detallado al inicio del capítulo.


5.5 Participación en la tarea Multilingual Question 

Answering del CLEF 2008 


La tarea de evaluación Multilingual Question Answering (Forner et al. 

, 2008) propone dos subtareas para evaluar la validez de los sistemas de 

Búsqueda de Respuestas: 

La subtarea monolingüe en la que el idioma de las preguntas (source 

language) y el idioma de la colección de documentos (target language) 

es el mismo. 

La subtarea de idiomas cruzados en la que las preguntas se formulan 

en un idioma diferente al de la colección de documentos. 

En esta tarea, los sistemas deben dar respuesta a 200 preguntas relacionadas 

por tópico del modo más exacto posible. Cada respuesta debe ser 

extraída de alguna porción de texto contenida en algún documento de 

la colección. Estas porciones de texto pueden ser extraídas de diferentes 

secciones de los documentos relevantes y pueden ser resumidas hasta un 

máximo de 700 bytes. No existen restricciones particulares en la longitud 

de las respuestas aportadas por los sistemas, pero se penalizan las 

piezas innecesarias de información en ellas. 

Las preguntas se relacionan por tópico del siguiente modo: 

El tópico es nombrado bien en la primera pregunta o bien en la respuesta 

a esta primera pregunta. 

Las siguientes preguntas pueden tener correferencias al tópico expresado 

en el primer par pregunta-respuesta. 

Por ejemplo, si el tópico es “George W. Bush”, el conjunto de preguntas 

relacionadas podrías ser: 

(54) Q1: Who is George W. Bush? 

Q2: When was he born? 

Q3: Who is his wife? 

La colección de documentos de la subtarea de idiomas cruzados inglésespañol 

comprende las noticias de los años 1994 y 1995 publicadas por

5.5 Participación en la tarea Multilingual Question Answering del CLEF 2008 139 

la agencia española de noticias EFE. 

Las preguntas pueden ser de tres tipos: 

Factuales. Estas preguntas se basan en hechos y pueden referirse a una 

persona, un lugar, etc. Estas preguntas sólo pueden tener ocho tipos 

de respuesta: persona, tiempo, lugar, organización, medida, cómputo, 

objeto y otro. 

Definición. Éstas son del tipo “Qué/Quién es X?” y se dividen en 

cuatro subtipos: persona, organización, objeto y otro. 

Lista cerrada. La respuesta a este tipo de preguntas es una lista de 

elementos. 

Los criterios de evaluación consideran la respuestas devueltas por los 

sistemas en uno de los siguientes cuatro tipos: 

R (correcta) si la respuesta es correcta. 

W (incorrecta) si la respuesta es incorrecta. 

X (inexacta) si la respuesta contiene menos o más información de la 

requerida como correcta. 

U (no soportada) si el documento contenedor de la respuesta es 

erróneo o no se corresponde con ninguno de los de la colección. También 

se consideran en este tipo aquellas respuestas cuya porción de 

texto no contiene la respuesta exacta. 

La principal medida de evaluación es la precisión aunque también, debido 

a que los sistemas pueden devolver más de una respuesta por pregunta, 

se consideran en la evaluación las dos siguientes medidas: 

la medida de confianza ponderada Confident Weighted Score (CWS). 

Las respuestas están en un orden decreciente de confianza y CWS 

premia a los sistemas dan las respuestas correctas en los primeros lugares 

del ranking. 

el rango de media recíproca Mean Reciprocal Rank (MRR) sobre N 

respuestas calculadas por pregunta (para considerar las tres respuestas). 

Esta medida mide el número de respuestas correctas en las primeras 

N posiciones. Por ejemplo, si la respuesta correcta está en la 

tercera posición y N vale 3, su valor es de 1/3.



En lo que respecta a la evaluación llevada a cabo hasta el actual apartado, 

el recurso lógico-conceptual ha sido integrado en sistemas de PLN 

que procesan textos en la lengua inglesa. Por el contrario, en el ámbito 

de esta evaluación, el recurso se incorpora a un sistema de Búsqueda de 

Respuestas en el que la colección documental se compone de un gran 

volumen de noticias en español de la agencia EFE. Sin embargo, la colección 

de preguntas que procesa el sistema viene dada en la lengua inglesa. 

Con el propósito de traducir cada una de estas preguntas de la lengua 

inglesa a la española, se va a integrar el recurso de representación desarrollado 

en el sistema de Búsqueda de Respuestas. Con ello se pretende 

que, a partir del tratamiento lógico-conceptual que hace a la representación 

formal del texto independiente de la lengua, las preguntas representadas 

sean traducidas de la lengua inglesa a la española. 

Tal y como se matiza en el tercer capítulo, el núcleo de la representación 

es la forma lógica. En la forma lógica, alguna de las palabras del texto 

a representar como los determinantes y las palabras que indican los 

tiempos verbales, no son representadas porque son consideradas como 

irrelevantes en la propia representación. Este hecho implica que, en el 

proceso de traducción de las preguntas a partir de esta representación, 

la propia traducción va a tener una calidad ligeramente inferior a la obtenida 

por cualquier sistema de Traducción Automática que considera 

todas las palabras de las preguntas. Debido a ello y a que el recurso 

desarrollado no ha sido originalmente concebido para ser utilizado en 

tareas de traducción, se pretende que los resultados del proceso global 

de Búsqueda de Respuestas aplicando la traducción de las preguntas a 

través del tratamiento lógico-conceptual proporcionado por el recurso 

no sean muy inferiores a los obtenidos aplicando cualquier sistema de 

Traducción Automática. 

Con ello quedaría demostrado que el tratamiento lógico-conceptual proporcionado 

por el recurso que hace que la representación semántica incorpore 

la información conceptual contenida en WordNet y relacionada 

entre las diferentes lenguas a través de EuroWordNet es perfectamente 

válido para ser incorporado en el sistema de Búsqueda de Respuestas. 

Desde esta óptica quedarían demostrador los matices de completitud 

conceptual e independencia de la lengua tratados al inicio del capítulo. 


El problema de Búsqueda de Respuestas sobre la colección de documentos 

de EFE en el idioma español a preguntas traducidas del inglés al

5.5 Participación en la tarea Multilingual Question Answering del CLEF 2008 141 

idioma español se solventa aplicando el sistema de Búsquedas de Respuestas 

AliQAn (Roger et al. , 2005) desarrollado en el propio grupo 

de investigación. AliQAn es un sistema de Búsqueda de Respuestas en 

el dominio abierto que hace un uso intenso de herramientas de PLN, en 

concreto, etiquetado POS, análisis parcial y desambiguación del sentido 

de las palabras. 

Este sistema, partiendo del análisis parcial, identifica las distintas estructuras 

gramaticales de una frase, llamadas bloques sintácticos (SB). 

Estos bloques se corresponden con sintagmas verbales, sintagmas nominales 

o sintagmas preposicionales. Para detectar y extraer las respuestas 

a las preguntas, a partir de las porciones de texto devueltas por el módulo 

de Recuperación de Información, establece un emparejado entre los 

bloques sintácticos de estas porciones de texto y los bloques sintácticos 

de las preguntas. 

Con el propósito de traducir las preguntas del inglés al español para 

poder ser procesadas por AliQAn se utiliza el tratamiento lógicoconceptual 

que proporciona el recurso de formas lógicas desarrollado en 

el trabajo de investigación. En concreto, este proceso se basa en el tratamiento 

especificado en las secciones 4.4 y 4.4.1 del anterior capítulo. 

Mediante este procedimiento de traducción, la traducción de preguntas 

se basa en la traducción de los diferentes predicados lógico-conceptuales 

que tiene la representación semántica de las preguntas. Según lo especificado 

en el trabajo de investigación, la representación semántica, 

derivada a partir de la forma lógica, no incluye en ésta algunos constituyentes 

del texto como determinantes y tiempos verbales que, al no 

tenerlos en la representación, hacen que la calidad de la traducción sea 

algo inferior a la calidad de la traducción realizada por cualquier otro 

mecanismo de traducción que disponga de toda la información dada en 

las frases o expresiones a traducir. 

Para demostrar este hecho, se utiliza un sistema de Traducción Automática 

inglés-español 4 con el que se comparará el resultado global del proceso 

de Búsqueda de Respuestas ante la traducción de las preguntas 

realizada con este traductor automático frente a la traducción de las 

preguntas realizada a partir del tratamiento lógico-conceptual incorporado 

en el recurso de formas lógicas. Con ello, se pretende demostrar 

que, aunque el tratamiento lógico-conceptual que proporciona el recurso 

de formas lógicas, permite obtener una representación en cualquier lengua 

de la oración representada, la traducción entre diferentes lenguas 

a partir de esta representación, no es tan buena como la Traducción 

4 Free Translation en http://www.freetranslation.com


Automática debido a que en esta representación, no están representadas 

algunas palabras de la frase como determinantes y tiempos verbales que, 

no son cruciales en la propia representación semántica, pero sí cobran 

especial interés a la hora de traducir una oración entre las diferentes 

lenguas. 

Además, en sistemas de Búsqueda de Respuestas que tienen un alto 

componente lingüístico, como AliQAn, el hecho de omitir palabras en 

la traducción implica que surjan errores en el etiquetado de los bloques 

sintácticos y, en consecuencia, un decremento del resultado global del 

proceso de Búsqueda de Respuestas. 


La tabla 5.10 muestra los resultados del proceso global de Búsqueda 

de Respuestas obtenidos en las dos ejecuciones sobre las 200 preguntas 

tratadas en cada ejecución. En el marco de la precisión, principal 

medida de evaluación de la Recuperación de Información, la ejecución 

que traduce las preguntas mediante Traducción Automática obtiene un 

12,5 % de precisión frente al 9 % de precisión obtenido en la ejecución 

que traduce las preguntas a partir del tratamiento lógico-conceptual. 

Ejecución #R #W #X #U % Precisión CSW MRR 

Trad. aut. 25 173 0 2 12.5 0.011 0.1450 

Lógico-C. 18 176 3 3 9 0.006 0.1108 

Tabla 5.10. Resultados de la Búsqueda de Respuestas inglés-español 

Considerando estos valores de precisión en el marco de la Búsqueda 

de Respuestas, la traducción de las preguntas a partir del tratamiento 

lógico-conceptual obtiene un rendimiento del 72 % del rendimiento obtenido 

por la Traducción Automática. Teniendo en cuenta que el recurso 

lógico-conceptual no ha sido originalmente concebido para traducir textos 

entre diferentes lenguas y, haciendo eco de la pérdida de palabras 

que tiene el tratamiento lógico-conceptual para hacer la traducción, este 

resultado es mucho más que aceptable. 


El principal propósito de la participación en la tarea Multilingual Question 

Answering viene marcado por el tratamiento lógico-conceptual de 

las preguntas formuladas en la lengua inglesa que permite su traducción 

a la lengua española. Este tratamiento requiere la utilización de los

5.6 Evaluación en la clasificación de preguntas médicas 143 

WordNets de ambas lenguas relacionados a partir de EuroWordNet. 

Analizando los resultados de eficacia obtenidos por el “traductor” 

lógico-conceptual y el traductor automático en la participación en la 

tarea Multilingual Question Answering, se puede concluir que el procedimiento 

lógico-conceptual empleado para resolver el problema de traducción 

de las preguntas obtiene unos resultados más que aceptables. 

Se puede concluir que la aplicación del recurso lógico-conceptual como 

núcleo del proceso de traducción de la pregunta es un método válido 

para ser incorporado en el sistema de Búsqueda de Respuestas entre 

lenguas cruzadas. 

Por ello, se puede concluir que la aplicación del recurso en la Búsqueda 

de Respuestas entre lenguas cruzadas es perfectamente válido desde el 

punto de vista de los matices de completitud conceptual e independencia 

de la lengua tratados al inicio del capítulo. 

5.6 Evaluación en la clasificación de preguntas 

médicas 


Una de las principales tareas de los sistemas de Búsqueda de Respuestas 

es la clasificación y el análisis de las preguntas formuladas al sistema. 

Básicamente esta tarea tiene como propósito principal identificar tanto 

el tipo de pregunta como el tipo de respuesta esperado, así como la 

detección de las palabras clave de la pregunta. Toda esta información 

la etiqueta de alguna manera para informar de ello al resto de tareas 

que componen en su conjunto el proceso de Búsqueda de Respuestas. 

Cuando se trabaja en Búsqueda de Respuestas en el dominio abierto, se 

tiende a darle más prioridad a la cobertura que a la precisión, ésto es, se 

le suele dar más importancia al gran abanico de preguntas de diferente 

naturaleza capaces de ser contestadas por los sistemas (ej. ¿Dónde 

está situado el edificio más grande del mundo?, ¿Cuántos torneos de la 

ATP ganó Roger Federer en el año 2006?, ¿Cuándo se casó por primera 

vez Elizabeth Taylor?, ¿Quién es Bill Clinton?,...) que a la precisión 

de la respuestas devueltas por el sistema para cualquier pregunta. Por 

el contrario, cuando se habla de la Búsqueda de Respuestas en los dominios 

específicos, se reduce notablemente la cobertura por la propia 

naturaleza del dominio específico y la precisión pasa a cobrar una mayor 

importancia. 

La primera tarea que hacen los sistemas de Búsqueda de Respuestas es 

la clasificación de las preguntas formuladas al sistema. Esta tarea re-


quiere de una gran precisión porque errores en esta tarea condiciona negativamente 

el resultado global de la Búsqueda de Respuestas. Además, 

en cualquier dominio específico, se reduce notablemente la tipología de 

preguntas capaces de ser resueltas por los sistemas de Búsqueda de 

Respuestas. 

Ésto es, se reduce la cobertura del sistema de Búsqueda 

de Respuestas y, en consecuencia, se requiere que el proceso tenga una 

elevada precisión dada la reducida muestra de preguntas que el sistema 

es capaz de resolver. 

El objetivo perseguido en este hito consiste en desarrollar un clasificador 

de preguntas médicas (Terol et al. , 2007) basado en el tratamiento 

lógico-conceptual de las preguntas y en el manejo de la terminología 

empleada en el dominio médico. 

Las diferentes preguntas en el dominio de la medicina pueden ser muy 

numerosas, más aún si se tienen en cuenta cada una de sus disciplinas. 

Con el propósito de construir un clasificador preciso, la tipología de 

preguntas médicas tratadas por el clasificador se centra en las definidas 

por Ely et al. (2000) en la taxonomía de preguntas propuesta. Esta taxonomía 

de preguntas se obtiene de las diez preguntas más frecuentes 

que, según un estudio practicado a 103 médicos de familia de Iowa y 

a 49 médicos de atención primaria de Oregón, manejan este tipo de 

especialistas. Concretamente, estas diez preguntas son: 

1. What is the drug of choice for condition x? 

2. What is the cause of symptom x? 

3. What test is indicated in situation x? 

4. What is the dose of drug x? 

5. How should I treat condition x (not limited to drug treatment)? 

6. How should I manage condition x (not specifying diagnostic or therapeutic)? 

7. What is the cause of physical finding x? 

8. What is the cause of test finding x? 

9. Can drug x cause (adverse) finding y? 

10. Could this patient have condition x?


Para evaluar la validez del clasificador se utiliza la medida de precisión, 

ésto es, la relación entre el número de preguntas clasificadas correctamente 

y el número de preguntas clasificadas. 


En lo que respecta la evaluación llevada a cabo hasta este punto del 

trabajo de investigación, se han contemplado únicamente las particularidades 

referidas al tratamiento del texto en el dominio abierto. Por el 

contrario y, en el ámbito de la evaluación de la clasificación de preguntas 

planteada en esta sección del capítulo, se va a utilizar el recurso para 

realizar la representación formal del texto en el ámbito de un dominio 

restringido, concretamente, el dominio médico. Con ello se pretende 

demostrar la validez del recurso desde el punto de vista del matiz de 

independencia del dominio visto al inicio del capítulo. Esto es, tanto la 

portabilidad del recurso al dominio restringido como el mantenimiento 

de sus propiedades pese al proceso de migración al dominio médico. 

Las diferentes tareas de evaluación vistas hasta este punto del trabajo 

de investigación permiten que los resultados proporcionados por el resto 

de sistemas participantes en dichas tareas puedan ser comparados con 

los resultados proporcionados por los sistemas desarrollados que utilizan 

el recurso de formas lógicas. En cambio, al ser ésta una tarea de 

evaluación ad-hoc, no se pueden contrastar los resultados del clasificador 

desarrollado con otros clasificadores debido a que no se dispone de 

la participación de tales clasificadores. Con el propósito de contrastar 

la validez del clasificador frente a algún otro clasificador del mismo tipo 

de preguntas, se va a integrar en la evaluación otro clasificador desarrollado 

mediante aprendizaje automático utilizando la técnica Support 

Vector Machine (SVM) que es la técnica que, en general, mejor resultados 

de clasificación de preguntas obtiene en el tratamiento basado en 

aprendizaje automático (Zhang & Lee, 2003). 

El problema de la clasificación de las preguntas médicas según la taxonomía 

planteada por Ely et al. (2000) se resuelve mediante la comparación 

de la representación semántica asociada a la pregunta con cada 

una de las representaciones semánticas asociadas a las preguntas genéricas 

de la taxonomía. Mediante esta comparación, el clasificador debe 

decidir con cuál de los diez tipos genéricos se corresponde la pregunta 

formulada al sistema. Para realizar esta función el sistema necesita de 

conocimiento semántico del dominio médico. 

El recurso de representación semántica desarrollado en el trabajo de 

investigación, a través del tratamiento lógico-conceptual en el dominio 

médico llevado a cabo sobre la forma lógica, reúne los requisitos necesa-


rios para su integración en el clasificador de preguntas médicas. Por ello, 

se pretende que el núcleo del clasificador sea la propia representación 

semántica de las preguntas tratadas. A partir de las representaciones 

semánticas de las preguntas genéricas y de cada una de las preguntas 

tratadas, se pretende aplicar una técnica de comparación para que el 

clasificador decida el tipo de la pregunta tratada. 

Por ello, el segundo propósito de la aplicación de la investigación en 

la clasificación de preguntas en el dominio médico pretende demostrar 

también la validez del recurso en el ámbito de la propia tarea visto desde 

el enfoque del matiz de completitud conceptual detallado al inicio 

del capítulo. Con ello quedaría también demostrado que el tratamiento 

lógico-conceptual proporcionado por el recurso que hace que la representación 

semántica incorpore la información conceptual contenida en 

el tesauro médico asociada a las palabras de las preguntas y, a su vez, 

que esta información conceptual sea no ambigua, es perfectamente válido 

para ser incorporado en el clasificador de las preguntas médicas. 

Para demostrar la validez del recurso de representación desde el punto 

de vista del matiz de la completitud conceptual se realiza la evaluación 

de la clasificación de las preguntas. En esta evaluación se pretende que, 

los resultados del sistema desarrollado estén en la línea e incluso superen 

los resultados obtenidos por el otro clasificador basado en aprendizaje 

automático. 


En esta subsección del capítulo, en un primer lugar se van a introducir 

las consideraciones tenidas en cuenta para el desarrollo del clasificador 

de preguntas médicas basado en el tratamiento lógico-conceptual. 

Posteriormente, se va a presentar la evaluación ad-hoc llevada a cabo 

sobre este clasificador (Terol et al. , 2007). En tercer lugar se presentarán 

las características básicas del clasificador basado en aprendizaje 

automático (SVM). Por último, se introducen las características de la 

nueva evaluación ad-hoc, más extensa que la anterior, utilizada para 

contrastar la validez de ambos clasificadores. 

Desde el punto de vista del desarrollo del clasificador basado en el tratamiento 

lógico-conceptual, se considera que cada una de las diez preguntas 

genéricas tiene uno o más patrones semánticos asociados. En 

concreto, un patrón semántico está compuesto por una combinación de 

verbos y tipos semánticos que pueden o deben aparecer en cualquier 

pregunta expresada en lenguaje natural que esté asociada a una de las 

preguntas genéricas tratadas. Como se detalla en el capítulo anterior, la 

semántica asociada a la terminología médica expresada en este dominio


es manejada a partir de la información disponible en el Metatesauro 

(Humphreys & Lindberg, 1993) de UMLS (Lindberg & Humphreys, 

1993). Por ejemplo, los patrones “Pharmacologic Substance + treat + 

Sign or Symptom” y “Clinical Drug + control + Disease or Syndrome” 

serían dos ejemplos de patrones semánticos asociados a la primera pregunta 

genérica. Los patrones tienen asociados dos umbrales que relacionan 

el número de entidades médicas que contienen: 

MELT, definido como el número mínimo de entidades médicas que 

la forma semántica de una pregunta debe tener para poder asociarse 

con el patrón. 

MEUT, que se define como el número máximo de entidades médicas 

que la forma semántica de una pregunta puede tener para poder asociarse 

con el patrón. 

En caso concreto de los dos patrones de anterior ejemplo, tanto MELT 

como MEUT quedarían instanciadas a dos entidades médicas. 

Al igual que las preguntas genéricas tienen uno o más patrones semánticos 

asociados, cada una de las preguntas a clasificar tiene una única forma 

semántica asociada. La forma semántica de una pregunta a clasificar 

tiene la misma estructura que un patrón semántico, es decir, consta de 

uno o más verbos y tipos semánticos. A continuación, el ejemplo 55 

detalla la forma semántica asociada a una pregunta: 

(55) Pregunta: What drug can I take to manage my high 

blood pressure? 

Forma semántica: Pharmacologic Substance + take 

+ manage + Disease or Syndrome 

La tarea de clasificación de preguntas debe decidir si la pregunta a 

clasificar pertenece a alguna clase (se empareja con alguna pregunta 

genérica) o no pertenece a ninguna clase (no se empareja con ninguna 

pregunta genérica). Para conseguir este objetivo, esta tarea se enfoca 

en el tratamiento de las formas semánticas de las preguntas a clasificar 

y los patrones semánticos de las preguntas genéricas, y se realiza 

siguiendo los siguientes pasos: 

Derivar la representación semántica asociada a la pregunta a clasificar, 

tal y como se explica en el capítulo anterior.


Extraer el verbo principal de la representación semántica. 

Derivar la forma semántica de la pregunta a clasificar, calculando con 

ello su marcador de entidades médicas (MESQ). MESQ se define como 

el número de entidades médicas en la forma de la pregunta del 

usuario. 

Filtrar aquellos patrones en cuya lista de verbos esté contenido el verbo 

principal de la representación semántica de la pregunta a clasificar 

y que, además, cumplan la restricción MELT ≤ MESQ ≤ MEUT . 

Asignar la medida de emparejado de entidades (EMM) definida como 

el número de entidades médicas que se deben emparejar entre la 

pregunta y el patrón. 

Seleccionar el patrón que minimiza diferencia entre EMM y MELT. 

A continuación, el ejemplo 56 muestra un escenario de la tarea de clasificación 

de la pregunta concreta “What drug manages temperature?”, 

emparejada con el primer tipo genérico de preguntas de la taxonomía. 

(56) Pregunta: What drug manages temperature? 

Representación semántica: T121:C1254351:drug:NN(x2) 

manage:VB(e1, x2, x1) T032:C0005903:temperature:NN(x1) 

Verbo Principal: manage 

Forma semántica: Pharmacologic Substance(T121) + 

manage + Organism Attribute(T032). MESQ=2 

Patrones Comparables: 5 P11, P12, P13, P14, P15 y 

P16 

EMM: P Q 

11 = 1, P Q 

12 = 2, P Q 

13 = 1, P Q 

14 = 0, P Q 

15 = 1 

y P Q 

16 = 0 

Patrón Seleccionado: P12 

5 En este ejemplo sólo se comparan patrones del primer tipo genérico


Clase de Pregunta Genérica: GE1 (primera pregunta 

genérica) 

La primera tarea de evaluación ad-hoc propuesta para cuantificar la 

validez del clasificador de preguntas médicas basado en el tratamiento 

lógico-conceptual (Terol et al. , 2007) se basa en una evaluación de similares 

características realizada por Chung et al. (Chung et al. , 2004) 

en un trabajo de investigación previo sobre la Búsqueda de Respuestas 

en dominios restringidos. Concretamente, para definir el corpus de evaluación 

de preguntas, por una parte, se han desarrollado una serie de 

preguntas que encajan con cada una de las preguntas genéricas tratadas 

por el clasificador y, por otra parte, se ha utilizado el corpus de las 200 

preguntas de evaluación de la tarea en inglés QA del CLEF 2005. De 

este modo, el corpus de evaluación se puede dividir en las siguientes 

clases de preguntas: 

GQ: 50 preguntas asociadas a la taxonomía de preguntas tratada 

por el clasificador del modo: GQ1 es la subclase que contiene cinco 

preguntas asociadas con la primera pregunta genérica, GQ2 es la subclase 

que contiene cinco preguntas asociadas con la segunda pregunta 

genérica, ..., GQ10 es la subclase que contiene cinco preguntas asociadas 

con la décima pregunta genérica. 

OQ: las 200 preguntas de la tarea de evaluación QA en inglés del 

CLEF 2005. 

De este modo, el clasificador debe clasificar cada una de las preguntas 

tratadas en una de las siguientes clases de preguntas: 

GE: Esta clase de preguntas incluye las preguntas genéricas de la taxonomía 

tratada siendo: GE1 la subclase asociada a la primera pregunta 

genérica, GE2 la subclase asociada a la segunda pregunta genérica, 

..., GE10 la subclase asociada a la décima pregunta genérica. 

OE: El resto de preguntas de cualquier otro dominio. 

De este modo, la tarea de evaluación consiste en comprobar si cada una 

de las 250 preguntas (GQ1, ..., GQ10 y OQ) tratadas por el clasificador 

son correctamente clasificadas en sus clases asociadas (GE1, ..., GE10 y 

OE). Como medida de evaluación aplicamos la medida de precisión (P) 

definida como el ratio entre el número de preguntas clasificadas correctamente 

y el número de preguntas clasificadas.


El principal cometido del clasificador consiste en decidir, dada una pregunta, 

si dicha pregunta se corresponde con una de las 10 preguntas 

genéricas tratadas, y en este caso cuál, o si por el contrario, dicha pregunta 

no se corresponde con ninguna de las genéricas de la taxonomía 

tratada. Para ello, el clasificador realiza una comparación entre la forma 

semántica de la pregunta tratada y los patrones semánticos de las 

preguntas genéricas que realiza del siguiente modo: 

El primer paso consiste en derivar la forma semántica de la pregunta 

tratada así como su MESQ, del mismo modo que se ha visto en el 

ejemplo 56. 

Seguidamente, se extrae el verbo principal de la forma semántica. 

El siguiente paso consiste en encontrar los patrones semánticos de 

las preguntas genéricas cuyo verbo coincida con el verbo de la forma 

semántica de la pregunta tratada y se cumpla que MELT ≤ 

MESQ ≤ MEUT . 

Finalmente calculamos el factor EMM definido como el número de 

entidades médicas que tienen en común la forma semántica de la pregunta 

y el patron semántico. 

El último paso consiste en quedarse con el patrón semántico cuya diferencia 

entre el factor EMM y el umbral MELT es mínima. 

Si ningún patrón semántico cumple los requisitos de este proceso, entonces 

la pregunta tratada no se asocia con ninguna de las preguntas 

genéricas de la taxonomía. 

Los resultados obtenidos en esta primera tarea de clasificación se muestran 

en las tablas 5.11 y 5.12. En la tabla 5.11 se muestran los resultados 

obtenidos en la clasificación de cada subclase de preguntas, mientras que 

en la tabla 5.12 se muestran los mismos resultados desde un punto de 

vista más global de la evaluación taxonomía de preguntas genéricas. 

Se puede apreciar en la tabla 5.12 que el resultado global de la clasificación 

de preguntas es de un 94,4 %. Analizando este valor se puede llegar 

a una primera conclusión de que el método de clasificación de preguntas 

médicas desarrollado a partir del tratamiento lógico-conceptual aportado 

en el recurso, es un método factible. 

Con el propósito de realizar una comparación con algún otro tipo de 

clasificador, en el seno del grupo de investigación, se ha desarrollado 

un clasificador para el mismo tipo de preguntas basado en aprendizaje


Clase Clasificada Clase Relacionada Preguntas Correctas Precisión 

GQ1 GE1 5 5 1 

GQ2 GE2 5 5 1 

GQ3 GE3 5 3 0.6 

GQ4 GE4 5 4 0.8 

GQ5 GE5 5 5 1 

GQ6 GE6 5 4 0.8 

GQ7 GE7 5 4 0.8 

GQ8 GE8 5 3 0.6 

GQ9 GE9 5 5 1 

GQ10 GE10 5 4 0.8 

OQ OE 200 194 0.97 

Tabla 5.11. Evaluación detallada de la clasificación de preguntas 

Clase Clasificada Clase Relacionada Preguntas Correctas Precisión 

GQ GE 50 42 0.84 

OQ OE 200 194 0.97 

Global − 250 231 0.944 

Tabla 5.12. Evaluación global de la clasificación de preguntas 

automático utilizando la técnica SVM (Bisbal et al. , 2005). Este clasificador 

se basa en características textuales superficiales que hacen un 

escaso uso de recursos y herramientas lingüísticas adicionales. 

Este segundo clasificador basado en aprendizaje automático requiere de 

un entrenamiento previo a la clasificación. Para ello se han desarrollado 

300 preguntas (30 preguntas por cada uno de los 10 tipos genéricos). 

En el Anexo C están detalladas cada una de estas 300 preguntas. 

Para la clasificación se elaborado tres diferentes colecciones de preguntas 

que también están detalladas en el anexo C: 

Colección 1: Contiene cien preguntas de test (diez de cada tipo genérico) 

con un léxico similar a las preguntas de entrenamiento. 

Colección 2: Modifica las preguntas de la colección 1 incluyendo alteraciones 

del léxico consistentes en el cambio de los tiempos verbales 

y la utilización de sinónimos para los verbos y los sustantivos. 

Colección 3: Modifica las preguntas de la colección 2 incluyendo alteraciones 

del léxico consistentes en la supresión de la terminología 

guía. En esta versión, las expresiones “drug accupril” y “situation 

constipated” de la colección 2 pasarían a la forma “accupril” y “constipated” 

respectivamente.


Luego, en la segunda tarea de evaluación ad-hoc de la clasificación de 

las preguntas médicas, se van a tener en cuenta estás tres colecciones. 

Para ello, cada uno de los dos clasificadores va a lanzar tres ejecuciones 

de la clasificación: La primera ejecución toma como origen la colección 

1, la segunda hace lo propio con la segunda colección mientras que la 

tercera considera la tercera colección. 


La tabla 5.13 muestra los resultados de la clasificación global de preguntas 

en términos de precisión de los dos clasificadores en cada una de 

las tres ejecuciones propuestas en la evaluación. 

Ejecución Clasificador lógico-conceptual Clasificador SVM 

1 0.98 1 

2 0.98 0.73 

3 0.98 0.45 

Tabla 5.13. Precisión de los clasificadores en cada ejecución de la evaluación 

Tras apreciar los resultados obtenidos por ambos clasificadores, cabe 

concluir que el clasificador lógico-conceptual es constante en la clasificación 

obteniendo una precisión del 98 % pese a las alteraciones del 

léxico introducidas en las diferentes ejecuciones. Por el contrario, el clasificador 

basado en aprendizaje automático es muy irregular, empeorando 

considerablemente los resultados de la clasificación ante alteraciones 

del léxico. Este segundo clasificador, al igual que cualquier clasificador 

basado en aprendizaje automático, necesita una muestra amplia y muy 

rica en cuanto a variaciones léxicas de cada tipo de preguntas para obtener 

un 100 % de precisión. 

Además, por este mismo motivo, en esta segunda tarea de evaluación 

ad-hoc, no se han considerado otras preguntas como las del CLEF tratadas 

en la primera evaluación. Resulta prácticamente inviable disponer 

de una muestra de entrenamiento con las infinitas preguntas que se le 

podrían hacer al clasificador, que le permitiese realizar una clasificación 

post-entrenamiento con ciertas garantías. 


En el ámbito de la evaluación de la clasificación de preguntas en el dominio 

médico, se ha utilizado el tratamiento lógico-conceptual proporcionado 

por el recurso para realizar la representación formal del texto

en el ámbito del restringido dominio médico. 


Al ser ésta una tarea de evaluación ad-hoc, con el propósito de comparar 

los resultados obtenidos por el clasificador lógico-conceptual con 

algún otro tipo de clasificador, se ha mediante aprendizaje automático 

utilizando la técnica Support Vector Machine (SVM) que es la técnica 

que, en general, mejor resultados de clasificación de preguntas obtiene 

en el tratamiento basado en aprendizaje automático (Zhang & Li, 2005). 

El problema de la clasificación de las preguntas médicas según la taxonomía 

planteada por Ely et al. (2000) se resuelve mediante la comparación 

de la representación semántica asociada (forma semántica) a 

la pregunta con cada una de las representaciones semánticas asociadas 

a las preguntas genéricas de la taxonomía (patrones semánticos). Mediante 

esta comparación, el clasificador debe decidir con cuál de los diez 

tipos genéricos se corresponde la pregunta formulada al sistema. Para 

realizar esta función, el sistema necesita de conocimiento semántico del 

dominio médico obtenido a partir del metatesauro de UMLS (Humphreys 

& Lindberg, 1993). 

Tras realizar un análisis de los resultados de la clasificación de preguntas 

médicas obtenidos en ambas tareas de evaluación ad-hoc, se demuestra 

la validez del recurso desde el punto de vista del matiz de independencia 

del dominio visto al inicio del capítulo. Esto es, tanto la portabilidad 

del recurso al dominio restringido como el mantenimiento de sus propiedades 

pese al proceso de migración al dominio médico. 

También, en el marco de este análisis y comparación de los resultados 

de ambos clasificadores, se demuestra la validez del propio recurso desde 

el enfoque del matiz de completitud conceptual detallado al inicio del 

capítulo. Ésto es, queda demostrado también que el tratamiento lógicoconceptual 

proporcionado por el recurso que hace que la representación 

semántica incorpore la información conceptual contenida en el tesauro 

médico asociada a las palabras de las preguntas y, a su vez, que esta 

información conceptual sea no ambigua, es perfectamente válido para 

ser incorporado en el clasificador de las preguntas médicas. 


A lo largo del capítulo se justifica la necesidad de evaluar toda la funcionalidad 

proporcionada por el recurso lógico-conceptual a partir de 

diferentes evaluaciones que, en su conjunto, engloben las diferentes aportaciones 

efectuadas por el recurso lógico-conceptual.


Por ello, para demostrar la validez del recurso lógico-conceptual se define 

un marco de evaluación en el que queden integrados los componentes 

principales que constituyen el recurso lógico-conceptual. Una vez definido 

este marco, la evaluación global del recurso se estructura en evaluaciones 

parciales que, tanto de manera individual como de un modo 

colectivo, indican la validez de cada uno de estos componentes así como 

la validez global del recurso lógico-conceptual. 

Debido a que el recurso lógico-conceptual consiste en un mecanismo de 

representación formal del texto basado en formas lógicas cuyos componentes 

o características fundamentales son: ser precisa, conceptualmente 

completa, independiente del dominio e independiente de la lengua, los 

matices que contempla este marco de evaluación son: precisión, completitud 

conceptual e independencia tanto del dominio como de la lengua. 

Por ello, la evaluación practicada al recurso es llevada a cabo a través 

de diferentes tareas de evaluación que, en su conjunto, engloban todos 

los matices detallados. De este modo, la utilidad o validez que la incorporación 

del recurso ejerce en los sistemas de PLN es evaluada de 

manera global en el marco de la tarea o tareas estándares de evaluación 

de cada sistema de PLN. 

En el proceso de análisis y determinación de las tareas de evaluación que 

deben ser practicadas al recurso para demostrar su validez, en un primer 

lugar, se tienen en cuenta las campañas internacionales de evaluación 

existentes cuyas tareas consideren alguno de los matices planteados. En 

segundo lugar, para el resto de matices no contemplados por este primer 

conjunto de tareas de evaluación, es necesario el planteamiento de 

tareas de evaluación ad-hoc. Finalmente, se evalúa la validez del recurso 

desarrollado en la investigación en el marco de cada una de estas tareas. 

En el ámbito del amplio espectro de diferentes sistemas de PLN donde 

el recurso puede ser incorporado con la finalidad de evaluar la validez 

que la incorporación del recurso aporta a cada uno de los diferentes 

sistemas, el hecho de llevar a cabo este proceso de evaluación con todo 

el abanico de sistemas de PLN haría interminable el propio proceso de 

evaluación. Con objeto de evitar ésto, se ha escogido una muestra más 

reducida del espectro de sistemas de PLN que abarque las necesidades 

de representación formal del texto que tienen en su conjunto el amplio 

espectro de sistemas de PLN. Concretamente, los sistemas de PLN 

en los que se evalúa la validez que aporta la incorporación del recurso 

lógico-conceptual son: Recuperación de Información, Búsqueda de Repuestas 

y, Vinculación o Implicación Textual.


Más concretamente, para la evaluación del recurso se han analizado 

las tareas Cross-Language Speech Retrieval (CL-SR), Answer Validation 

Exercise (AVE) y Multiple Language Question Answering (QA- 

CLEF), todas ellas pertenecientes a las campañas de evaluación del 

CLEF. Además, la tarea Recognising Textual Entailment (RTE) en el 

marco de la campaña de evaluación PASCAL RTE también ha sido 

considerada en el escenario de la evaluación del recurso. Por último, 

también se efectúa una evaluación ad-hoc de la clasificación de preguntas 

médicas según la taxonomía genérica planteada en el estudio 

realizado por Ely et al. (2000). 

En la tarea CL-SR de la edición del año 2005 de la campaña de evaluación 

CLEF, se pretende demostrar que la aplicación de heurísticas 

del tipo lingüístico sobre el proceso de Recuperación de Información 

contribuyen en la mejora de la eficacia del propio proceso de recuperación 

de información. A pesar de que este tipo de heurísticas pueden 

ser llevadas a cabo mediante diferentes representaciones formales del 

texto, se pretende demostrar también que la forma lógica es, de todas 

ellas, la representación formal que optimiza la eficiencia de la aplicación 

de las heurísticas lingüísticas. Con ello se pretende demostrar la validez 

del recurso desde el punto de vista del matiz de precisión definido 

en el marco de la evaluación. Desde el punto de vista de la eficacia, 

analizando los resultados de ambas tareas de evaluación, se demuestra 

que, en efecto, la aplicación de heurísticas del tipo lingüístico sobre el 

proceso de Recuperación de Información contribuye al incremento de la 

precisión del propio proceso de Recuperación de Información. Desde el 

punto de vista de la eficiencia, se verifica también que, la aplicación de 

las formas lógicas en el desarrollo de las heurísticas del tipo lingüístico 

es la más optima frente a otro tipo de representaciones formales del 

texto. Con todo ello se puede concluir que el recurso lógico-conceptual 

es perfectamente válido desde el punto de vista del matiz de precisión 

definido en el marco de la evaluación. 

Con la participación en las tareas RTE y AVE se pretende demostrar 

que el recurso lógico-conceptual es válido desde el punto de vista del 

matiz de completitud conceptual definido en el marco de la evaluación. 

Con ello quedaría demostrado que el tratamiento lógico-conceptual que 

aporta el recurso mediante la incorporación de la información conceptual 

no ambigua contenida en WordNet asociada a las palabras del 

par texto-hipótesis sobre sus respectivas representaciones semánticas es 

perfectamente válido para su incorporación en el núcleo del sistema 

de Vinculación Textual. Tras analizar los resultados obtenidos por el 

sistema de Vinculación Textual en ambas tareas y comparar estos resultados 

con los obtenidos por el resto de sistemas se concluye la validez 

del sistema de vinculación textual desarrollado a partir del tratamiento


lógico-conceptual y, en consecuencia, se demuestra la validez del recurso 

lógico-conceptual desde el punto de vista del matiz de completitud 

conceptual definido en el marco de la evaluación. 

Mediante la participación en la tarea QACLEF se pretende demostrar 

que el recurso lógico-conceptual es válido desde el punto de vista de los 

matices de completitud conceptual e independencia de la lengua definidos 

en el marco de la evaluación. Analizando los resultados en esta 

tarea se demuestra que el recurso lógico-conceptual es válido desde estos 

dos matices, siendo capaz de obtener una representación común de 

cualquier oración expresada en sus diferentes lenguas a través del tratamiento 

lógico-conceptual. 

Mediante la participación en la tarea ad-hoc de clasificación de preguntas 

médicas se pretende demostrar que el recurso lógico-conceptual es 

válido desde el punto de vista de los matices de completitud conceptual 

e independencia del dominio definidos en el marco de la evaluación. 

Analizando los diferentes resultados obtenidos por el clasificador 

de preguntas lógico-conceptual y comparándolos con los obtenidos por 

el clasificador de preguntas basado en aprendizaje automático se concluye 

que la validez del recurso lógico-conceptual desde ambos matices. 

En general y, tras analizar los resultados de la evaluación del recurso 

lógico-conceptual en el marco de las evaluaciones definido en estas tareas 

y, considerando los matices que contemplan cada una de ellas, cabe 

concluir que el recurso lógico-conceptual desarrollado en la investigación 

es preciso, conceptualmente completo e independiente tanto del dominio 

como de la lengua. Con ello quedan totalmente alcanzados los objetivos 

planteados al inicio del trabajo de investigación.

6. Conclusiones finales 

Durante los últimos años se está produciendo un notable crecimiento 

de la cantidad de información multilingüe en formato digital unido a 

la fuerte expansión de las comunicaciones entre ordenadores como vía 

principal de transmisión de información entre usuarios. La gran cantidad 

de información multilingüe disponible junto al creciente número de 

usuarios finales que disponen de acceso directo a dicha información a 

través de las redes de ordenadores, ha derivado la investigación en sistemas 

de información textual o sistemas de PLN que faciliten el análisis, 

la localización, la gestión, el acceso y el tratamiento automático de toda 

esta información multilingüe. 

Aparte de esta cantidad ingente de información multilingüe que debe 

ser tratada por los sistemas de PLN, se debe considerar también que en 

los últimos años se está produciendo una adaptación de aplicaciones o 

sistemas de PLN del dominio abierto al dominio restringido, y viceversa. 

Los diferentes sistemas de PLN (Búsqueda de Respuestas, Recuperación 

de Información, Generación de Resúmenes, Categorización Automática 

del Texto, ...) no procesan el texto directamente tal cual ha sido escrito o 

transcrito sino que, previo a su procesamiento, el texto es transformado 

en una representación formal que preserva sus características relevantes. 

Es por ello por lo que la representación formal del texto es una cuestión 

muy importante a tener en cuenta en el PLN. 

El trabajo de investigación desarrollado en esta tesis profundiza en el estudio 

de los mecanismos de representación formal del texto que incorporan 

los diferentes sistemas de PLN para realizar su cometido. Dadas las 

necesidades de procesamiento del texto tanto en entornos multilingües 

como en entornos multidominio, se ha definido un nuevo mecanismo 

o recurso de representación formal del texto que puede ser utilizado 

por cualquier sistema de PLN con la particularidad de ser sencillamente 

adaptable y portable tanto a cualquier dominio como a cualquier 

lengua.

158 6. Conclusiones finales 

6.1 Aportaciones 

A continuación se resumen las principales contribuciones de esta Tesis: 

1. Recopilación de los diferentes tipos de sistemas de PLN. 

Se han descrito las características básicas de las diferentes aplicaciones 

de PLN en base a las actuaciones que deben llevar a cabo 

para realizar su cometido. Se han establecido una serie de pautas 

para la clasificación de este tipo de aplicaciones según el grado de 

información lingüística utilizado en el desempeño de sus funciones. 

2. Análisis de las últimas tendencias en los sistemas de PLN. 

Se ha efectuado un análisis de las predisposiciones surgidas durante 

la última década en los sistemas más comunes del PLN, detectándose 

que: 

a) Estos sistemas son capaces de procesar el texto tanto en el dominio 

abierto como en cualquier dominio restringido. 

b) Los sistemas de PLN son capaces de trabajar indistintamente en 

diferentes lenguas. 

3. Recopilación, estudio y clasificación de los modelos de representación 

formal del texto. 

Se ha justificado la necesidad que tienen los diferentes sistemas de 

PLN de disponer de algún mecanismo de representación formal del 

texto que facilite su análisis y comprensión. En esta Tesis se ha 

realizado una clasificación y un profundo estudio de los diferentes 

enfoques de representación formal del texto existentes, así como una 

comparación de los diferentes enfoques destacando las ventajas e inconvenientes 

de unos frente a otros. Se ha efectuado también un 

estudio referente a la integración de estos modelos de representación 

formal del texto en los principales sistemas de PLN. 

4. Análisis y estudio de los modelos de representación formal del texto 

basados en lógica y en formas lógicas. 

Se examinan los diferentes modelos de representación del conocimiento 

que hacen uso de un fuerte formalismo lógico, desembocando 

en un estudio exhaustivo de los dos modelos de representación del 

texto basados en formas lógicas más utilizados y referenciados en el

PLN durante la última década. 

6.1 Aportaciones 159 

5. Definición de un nuevo modelo de representación formal del texto 

basado en formas lógicas. 

El recurso lógico-conceptual es un modelo de representación formal 

del texto basado en formas lógicas que se diferencia del resto por: 

a) El método de inferencia de la forma lógica se realiza de manera 

composicional a partir del árbol de dependencias de la frase 

resolviendo, en un primer lugar, los nodos hoja del árbol de dependencias 

y, en segundo lugar, las relaciones de dependencia 

entre los nodos intermedios del árbol hasta llegar a la raíz donde, 

definitivamente, queda inferida la forma lógica. 

b) La información semántica representada en la forma lógica se 

efectúa mediante los conceptos asociados a las palabras de la 

frase que quedan representadas mediante los predicados. Si, 

además, el recurso o recursos utilizados para extraer está información 

conceptual de las palabras permite adquirir más información 

semántica que pueda resultar de utilidad en la representación 

como los tipos o categorías semánticas de los conceptos, 

esta información es incorporada también en la propia representación. 

c) Este tratamiento hace que el recurso lógico-conceptual sea tanto 

independiente del dominio como de la lengua. La portabilidad 

del recurso lógico-conceptual tanto entre diferentes dominios como 

entre diferentes lenguas depende única y exclusivamente de 

la disposición o no que se tenga de un recurso en el que queden 

conceptualizadas las palabras del nuevo dominio o la nueva lengua 

a tratar. 

6. Definición de un nuevo marco de evaluación. 

Con objeto de evaluar la validez del recurso lógico-conceptual se ha 

definido un marco de evaluación en el que quedan integrados los 

componentes principales del recurso. Este marco de evaluación global 

se estructura en evaluaciones parciales con objeto de, tanto de 

manera individual como de un modo colectivo, indicar la validez de 

cada uno de estos componentes así como la validez global del recurso 

lógico-conceptual. En este marco de evaluación han sido incluidas 

diferentes tareas de PLN:


a) Evaluación del recurso lógico-conceptual en tareas de Recuperación 

de Información. 

Mediante la evaluación en la tarea Cross Language Speech Retrieval 

en el ámbito de las conferencias CLEF-2005 y CLEF-2006 

se verifica la validez del recurso lógico-conceptual desde el punto 

de vista del matiz de precisión definido en el marco global de 

evaluación. 

b) Evaluación del recurso lógico-conceptual en tareas de Implicación 

o Vinculación Textual. 

Al evaluar el recurso lógico-conceptual en la tareas Recognising 

Textual Entailment, en el ámbito de la conferencia PASCAL- 

2006, y Answer Validation Exercise, en el marco de la conferencia 

CLEF-2006, queda consolidada la validez del recurso lógicoconceptual 

desde el punto de vista del matiz de completitud conceptual 

definido en el marco global de evaluación. 

c) Evaluación del recurso lógico-conceptual en tareas de Búsqueda 

de Respuestas. 

Mediante la evaluación en la tarea Multilingual Question Answering 

en el ámbito de las conferencia CLEF-2008 se verifica 

la validez del recurso lógico-conceptual desde el punto de vista 

de los matices de completitud conceptual e independencia de la 

lengua definidos en el marco global de evaluación. 

d) Evaluación del recurso lógico-conceptual en tareas de clasificación 

de preguntas. 

Al evaluar el recurso lógico-conceptual en la tarea ad-hoc de clasificación 

de preguntas médicas queda consolidada la validez del 

recurso lógico-conceptual desde el punto de vista de los matices 

de completitud conceptual e independencia del dominio definidos 

en el marco global de evaluación. 

6.2 Trabajos futuros 

Desde el inicio de la investigación, el objetivo del recurso lógicoconceptual 

ha sido siempre el incremento paulatino de su funcionalidad. 

En esta línea, las directrices de estudio futuras son las siguientes:

Incorporación de roles semánticos en la representación. 

6.2 Trabajos futuros 161 

La información semántica presente en la representación formal del 

texto se corresponde con la conceptualización de determinados predicados 

de la forma lógica. Especialmente en la última década, los roles 

semánticos han emergido de un modo notable en diferentes sistemas 

de PLN. Por ello, se pretende dotar al recurso lógico-conceptual de 

esta nueva funcionalidad que proporcione a la representación formal 

del texto la información relativa a los roles semánticos para que, de 

este modo, los diferentes sistemas de PLN que hagan uso del recurso 

lógico-conceptual puedan tener toda esta información semántica en el 

desempeño de sus funciones. 

Resolución de la correferencia. 

Tras un periodo de tiempo en el que se le había restado importancia 

frente a otra problemática, la correferencia está volviendo a tener un 

auge en los últimos años en el seno del PLN. Por ello, se pretende 

dotar al recurso lógico-conceptual de técnicas que resuelvan este problema 

e identifiquen la correferencia, cuando ésta se produzca, en la 

representación formal del texto, facilitando así esta información a los 

sistemas de PLN. 

Adaptación del recurso lógico-conceptual ante los nuevos retos de la 

comunicación digital. 

La actual Sociedad de la Información utiliza nuevos instrumentos para 

la propagación de la información permitiendo que sus usuarios 

no sean sólo consumidores, sino también productores de sus propios 

mensajes. Estos nuevos mensajes se integran día a día en Internet 

conformando la llamada web 2.0, como la mayor plataforma comunicativa 

y colaborativa de la historia. Como consecuencia, se dispone 

de un gran volumen de información digital en el que destacan los registros 

de uso con diferentes grados de ritualidad (formal/informal) y 

especialización, emitidos desde diferentes actitudes subjetivas y desde 

diferentes situaciones de espacio y tiempo que deben ser analizadas y 

comprendidas por los sistemas de PLN. 

Ello hace que en la representación formal del texto a través del recurso 

lógico-conceptual deban quedar reflejados los detalles referentes a los 

sentimientos y actitudes del productor de la información analizando, 

entre otros, expresiones del tipo gestual como son los emoticonos con 

el objetivo de detectar e interpretar contenidos indirectos como son 

la ironía y el sarcasmo.


Otro detalle a tener en cuenta consiste en contemplar en la representación 

formal del texto las nuevas unidades léxicas que simplifican la 

escritura de palabras y expresiones utilizando menor número de caracteres. 

Ejemplo de ello son expresiones del tipo xq (porque), aptc 

(apetece), see u (adios), etc. 

Extensión de la evaluación del recurso a otros sistemas de PLN. 

Se ha evaluado el recurso en el ámbito de la Recuperación de Información, 

la Búsqueda de Respuestas y Vinculación Textual. Se pretende 

extender este espectro de evaluación a otros sistemas de PLN tales 

como la Categorización Automática del Texto, la Generación de 

Resúmenes, los Sistemas de Diálogo, la Extracción de Información, 

etc. 

Estudio de nuevas métricas de evaluación. 

Se han considerado métricas de evaluación que indican la validez del 

recurso desde los puntos de vista de las propiedades de precisión, 

completitud conceptual e independencia tanto del dominio como de 

la lengua. Estas métricas han sido tenidas en cuenta desde la perspectiva 

de los conceptos de eficacia y eficiencia. Sería interesante sopesar 

también nuevas métricas que indiquen la validez de las propiedades 

del recurso desde el punto de vista del concepto de efectividad. 

Incorporación del recurso a una plataforma de integración de herramientas 

de PLN. 

Desde el punto de vista de la programación, la integración del recurso 

efectuada por los sistemas de PLN no ha sido trivial ya que previamente 

se han tenido que resolver diferentes dependencias entre los 

lenguajes de programación y las plataformas. Para evitar este tipo de 

problemas, la incorporación del recurso a la plataforma de integración 

InTime (Gómez, 2008) permitiría que los diferentes sistemas de PLN 

pudiesen integrar el recurso de una manera modular y, en consecuencia, 

ello permitiría una extensibilidad del recurso hacia los sistemas 

de PLN de un modo sencillo. 

6.3 Producción científica 

Revistas indexadas (SCI): 

• R.M. Terol, P. Martínez-Barco y M. Palomar (2007). A knowledge 

based method for the medical question answering problem. Compu-

6.3 Producción científica 163 

ters in Biology and Medicine 37(10). Índice de impacto en 2007: 

1.170 (Journal Citation Reports r○ 2008, published by Thomson 

Reuters) 

Revistas no indexadas: 

• R.M. Terol, P. Martínez-Barco y M. Palomar (2006). Aplicación de 

técnicas basadas en PLN al tratamiento de preguntas médicas en 

Búsqueda de Respuestas. Procesamiento del Lenguaje Natural, 37. 

• 

Ó. Ferrández, R.M. Terol, R. Muñoz, P. Martínez-Barco y M. Palomar 

(2006). Un Sistema basado en Conocimiento para el Reconocimiento 

de Implicación Textual. Procesamiento del Lenguaje Natural, 

37. 

Capítulos de libro: 

• R.M. Terol, M. Puchol-Blasco, M. Pardiño, J.M. Gómez, S. Roger, 

K. Vila, A. Ferrández, J. Peral y P. Martínez-Barco (2009). 

Integrating Logic Forms and Anaphora Resolution in the AliQAn 

System, en: Peters, C.;... (Eds.) .... 9th Workshop of the Cross- 

Language Evaluation Forum, CLEF 2008, Aarhus, Denmark, September 

17-19, 2008, Revised Selected Papers. Lecture Notes in Computer 

Science, Vol. x/2009, Springer-Verlag. (Pendiente de publicación) 

• M. Pardiño, J.M. Gómez, H. Llorens, R.M. Terol, B. Navarro, E. Saquete, 

P. Martínez-Barco, P. Moreda y M. Palomar (2009). IBQAst: 

a Question Answering system for text transcriptions, en: Peters, 

C.;... (Eds.) .... 9th Workshop of the Cross-Language Evaluation 

Forum, CLEF 2008, Aarhus, Denmark, September 17-19, 2008, 

Revised Selected Papers. Lecture Notes in Computer Science, Vol. 

x/2009, Springer-Verlag. (Pendiente de publicación) 

• 


(2007). A Knowledge-Based Textual Entailment Approach 

Applied to the AVE Task, en: Peters, C.; Clough, P.; Gey, F.; 

Karlgren, J.; Magnini, B.; Oard, D.; de Rijke, M.; Stempfhuber, 

M. (Eds.) Evaluation of Multilingual and Multi-modal Information 

Retrieval. 7th Workshop of the Cross-Language Evaluation Forum, 

CLEF 2006, Alicante, Spain, September 20-22, 2006, Revised Selected 

Papers. Lecture Notes in Computer Science, Vol. 4730/2007, 

Springer-Verlag.


• R.M. Terol, P. Martínez-Barco y M. Palomar (2007). Applying Logic 

Forms and Statistical Methods to CL-SR Performance, en: Peters, 

C.; Clough, P.; Gey, F.; Karlgren, J.; Magnini, B.; Oard, D.; 

de Rijke, M.; Stempfhuber, M. (Eds.) Evaluation of Multilingual 

and Multi-modal Information Retrieval. 7th Workshop of the Cross- 

Language Evaluation Forum, CLEF 2006, Alicante, Spain, September 

20-22, 2006, Revised Selected Papers. Lecture Notes in Computer 

Science, Vol. 4730/2007, Springer-Verlag. 

• 

• 


(2006). Deep vs. Shallow Semantic Analysis Applied to Textual 

Entailment Recognition, en: Salakoski, T.; Ginter, F.; Pyysalo, S.; 

Pahikkala, T. (Eds.) Advances in Natural Language Processing. 5th 

International Conference on NLP, FinTAL 2006 Turku, Finland, 

August 23-25, 2006 Proceedings, Lecture Notes in Computer Science, 

Vol. 4139/2006, Springer-Verlag. 


(2006). A Knowledge Based Strategy for Recognising Textual 

Entailment, en: Sojka, P.; Kopecek, I.; Pala, K. (Eds.) Text, Speech 

and Dialogue. 9th International Conference, TSD 2006, Brno, Czech 

Republic, September 11-15, 2006. Proceedings, Lecture Notes in 

Computer Science, Vol. 4188/2006, Springer-Verlag. 

• R.M. Terol, P. Martínez-Barco y M. Palomar (2007). Applying NLP 

Techniques and Biomedical Resources to Medical Questions in QA 

Performance, en: Gelbukh, A.; Reyes-Garcia, C.A. (Eds.) MICAI 

2006: Advances in Artificial Intelligence. 5th Mexican International 

Conference on Artificial Intelligence, Apizaco, Mexico, November 

13-17, 2006. Proceedings, Lecture Notes in Computer Science, Vol. 

4293/2006, Springer-Verlag. 

• E. Noguera, F. Llopis, R. Muñoz, R.M. Terol, M.A. García-Cumbreras, 

F. Martínez-Santiago, y A. Montejo-Raez (2005). Bilingual and 

Multilingual Experiments with the IR-n system, en: Peters, C.; Gonzalo, 

J.; Müller, H.; Jones, G.J.F.; Kluck, M.; Magnini, B.; de Rijke, 

M. (Eds.) Accessing Multilingual Information Repositories. 6th 

Workshop of the Cross-Language Evalution Forum, CLEF 2005, 

Vienna, Austria, 21-23 September, 2005, Revised Selected Papers, 

Lecture Notes in Computer Science, Volume 4022/2006. Springer- 

Verlag. 

• R.M. Terol, P. Martínez-Barco, M. Palomar, R. Muñoz, F. Llopis 

y E. Noguera (2005). The University of Alicante at CL-SR Track, 

en: Peters, C.; Gonzalo, J.; Müller, H.; Jones, G.J.F.; Kluck, M.;

6.3 Producción científica 165 

Magnini, B.; de Rijke, M. (Eds.) Accessing Multilingual Information 

Repositories. 6th Workshop of the Cross-Language Evalution 

Forum, CLEF 2005, Vienna, Austria, 21-23 September, 2005, Revised 

Selected Papers, Lecture Notes in Computer Science, Volume 

4022/2006. Springer-Verlag. 

• F. Llopis, R. Muñoz, R.M. Terol y E. Noguera (2005). IR-n r2: 

Using Normalized Passages, en: Peters, C.; Clough, P.; Gonzalo, 

J.; Jones, G.J.F.; Kluck, M.; Magnini, B. (Eds.) Multilingual Information 

Access for Text, Speech and Images. 5th Workshop of the 

Cross-Language Evaluation Forum, CLEF 2004, Bath, UK, September 

15-17, 2004, Revised Selected Papers, Lecture Notes in Computer 

Science, Volume 3491/2005. Springer-Verlag. 

• R.M. Terol, P. Martínez-Barco, F. Llopis y T. Martínez (2005). An 

Application of NLP Rules to Spoken Document Segmentation Task, 

en: Montoyo, A.; Muñoz, R.; Métais, E. (Eds.) Natural Language 

Processing and Information Systems. 10th International Conference 

on Applications of Natural Language to Information Systems, 

NLDB 2005, Alicante, Spain, June 15-17, 2005. Proceedings, Lecture 

Notes in Computer Science, Volume 3513/2005. Springer-Verlag. 

• R.M. Terol, P. Martínez-Barco y M. Palomar (2004). An architecture 

for Spoken Document Retrieval, en: Sojka, P.; Kopecek, I.; 

Pala, K. (Eds.) Text, Speech and Dialogue. 7th International Conference, 

TSD 2004, Brno, Czech Republic, September 8-11, 2004. 

Proceedings, Lecture Notes in Computer Science, Vol. 3206/2004, 

Springer-Verlag. 

Congresos internacionales: 

• M. Pardiño, R.M. Terol, P. Martínez-Barco, F. Llopis y E. Noguera 

(2007). Using IR-n for Information retrieval of Genomics Track 16th 

Text REtrieval Conference (TREC-16), Gaithersburg (EEUU). 

• R.M. Terol (2006) Applying NLP Methods to Medical QA Performance 

I Congreso Internacional de Tecnologías del Lenguaje Humano 

(INAOE), Tonantzintla (México). 

• 


(2006). An Approach Based on Logic Forms and WordNet 

relationships to Textual Entailment Performance. The Second PAS- 

CAL Recognising Textual Entailment Challenge (PASCAL RTE-2), 

Venecia (Italia).


• R.M. Terol, P. Martínez-Barco y M. Palomar (2005). Applying Logic 

Forms to Biomedical Q-A. International Symposium on Innovations 

in Intelligent Systems and Applications, Estambul (Turquía). 

• R.M. Terol, P. Martínez-Barco y M. Palomar (2003). Architecture 

of a multimodal dialogue system oriented to multilingual 

question-answering. Recent Advances on Natural Language Processing 

(RANLP 2003). Borovets (Bulgaria).

Anexo A. Reglas simples de derivación de 

predicados en la forma lógica 

En el capítulo 3 se ha comentado que la derivación de la forma lógica 

consiste en un proceso composicional que empieza en las hojas del 

árbol de dependencias y continúa por sus ramificaciones en sentido ascendente 

hasta llegar a la raíz. Luego, la primera tarea del proceso de 

derivación de la forma lógica consiste en resolver los nodos hoja del 

árbol de dependencias. En el mismo capítulo, también se ha justificado 

la necesidad de reglas simples cuyo propósito es resolver los predicados 

de la forma lógica generados en las hojas del árbol de dependencias. A 

continuación se especifican estas reglas simples. 

Especificación de las reglas simples 

Tal y como matiza el algoritmo Regla Simple detallado en el capítulo 3, 

el primer paso consiste en decidir si el nodo hoja genera o no un predicado 

en la forma lógica. Los nodos hoja que infieren un predicado en la 

forma son aquellos cuya categoría léxica se corresponda con sustantivo, 

adjetivo, indeterminado y preposición. Cabe destacar, que en el análisis 

de dependencias, los adverbios son etiquetados de la misma manera 

que los adjetivos y, en la forma lógica, tienen el mismo tratamiento, a 

excepción de los adverbios que indican la negación del verbo. 

Una vez comprobada la categoría léxica del nodo hoja, en el caso de 

que ésta se corresponda con algún tipo de los comentados en el párrafo 

anterior, el siguiente paso del algoritmo consiste en generar el predicado 

asociado al nodo hoja. A continuación se especifica la derivación de los 

predicados asociados a los nodos hoja atendiendo a la categoría léxica 

de los nodos hoja. 

Derivación de predicados en nodos hoja del tipo sustantivo 

Los nodos hoja del tipo sustantivo infieren un predicado con un único 

argumento que queda instanciado con una variable del tipo x. A continuación, 

el cuadro 57 muestra un ejemplo de derivación del predicado 

asociado a un nodo hoja de tipo sustantivo.

168 

(57) Expresión: The northeast of London. 

Nodo hoja: London 

Predicado inferido: london:NN(x1) 

Derivación de predicados en nodos hoja del tipo adjetivo 

Los nodos hoja del tipo adjetivo infieren un predicado con un único 

argumento que queda instanciado con una variable del tipo x. A continuación, 

el cuadro 59 muestra un ejemplo de derivación del predicado 

asociado a un nodo hoja de tipo adjetivo. 

(58) Expresión: The red house. 

Nodo hoja: red 

Predicado inferido: red:JJ(x1) 

Derivación de predicados en nodos hoja del tipo indeterminado 

Los nodos hoja del tipo indeterminado infieren un predicado con un 

único argumento que queda instanciado con una variable del tipo x. 

Como característica significativa, el tipo de predicado inferido no es 

posible determinado en este nivel del proceso de inferencia de la forma 

lógica. Ello lo realizará la regla compleja que tenga en cuenta los detalles 

significativos al núcleo, modificador, tipo y posición de la dependencia, 

tal y como se matiza en el siguiente anexo. A continuación, el cuadro 

59 muestra un ejemplo de derivación del predicado asociado a un nodo 

hoja de tipo indeterminado. 

(59) Expresión: The magnetic resonance imaging. 

Nodo hoja: magnetic 

Predicado inferido: magnetic: (x1) 

Nodo hoja: resonance 

Predicado inferido: resonance: (x2) 

Derivación de predicados en nodos hoja del tipo preposición 

Este tipo de nodo hoja tiene un tratamiento especial. Se suele dar en 

los phrasal verbs. Por ello, la estrategia de la regla simple en este caso 

es no hacer nada y dejar que sea la regla compleja quien resuelva la 

dependencia. A continuación, el cuadro 60 muestra un ejemplo de este 

tratamiento. 

(60) Expresión: Switch the light on.

Nodo hoja: on 

Predicado inferido: ∅ 

169

Anexo B. Reglas complejas de derivación 

de predicados en la forma lógica 

Continuando en el marco del proceso composicional de derivación de 

las formas lógicas que tiene su origen en las hojas del árbol de dependencias 

y continúa por sus ramificaciones en sentido ascendente hasta 

llegar a la raíz, en este apartado se hace un análisis de las reglas complejas 

de derivación que, según se ha comentado en el capítulo 3, tienen 

en cuenta las categorías léxicas tanto del núcleo como del modificador 

de la dependencia, la posición del modificador (anterior o posterior) 

frente al núcleo de la dependencia y el tipo de relación de dependencia. 

Además, el núcleo de la dependencia tiene en cuenta los predicados 

inferidos hasta el momento por el modificador o los nodos inferiores a 

éste para, si procede, relacionarlos con el predicado o predicados que se 

puedan generar en dicho núcleo. 

La casuística que se puede dar en las reglas complejas es muy extensa. 

Cabe pensar que las reglas complejas dependen de los cuatro factores 

mencionados en el anterior apartado (categorías léxicas tanto del núcleo 

como del modificador de la dependencia, la posición del modificador 

frente al núcleo de la dependencia y el tipo de relación de dependencia). 

Cada una de las combinaciones de los valores que pueden adquirir 

estos factores da origen a una regla compleja diferente. Si se analizan 

todas ellas, la redacción y posterior lectura de este anexo sería tediosa. 

Para evitar producir este efecto, la estrategia seguida consiste en especificar 

alguna de las reglas complejas que se tienen en cuenta para inferir 

los principales predicados de la forma lógica explicados en el capítulo 

3, simplificando con ello la redacción y posterior lectura de este anexo. 

A continuación se detallan estas reglas complejas. 

Reglas de derivación de predicados del tipo sustantivo 

En un nodo intermedio del tipo sustantivo, el número de reglas complejas 

que se pueden dar es muy alto, dependiendo de los factores mencionados 

al inicio del anexo. Básicamente, todas estas reglas complejas 

tienen en común la derivación del predicado de tipo sustantivo asociado 

al nodo núcleo de la relación de dependencia, así como la comproba-

172 

ción de existencia de algún tipo de relación entre predicados inferidos 

en los nodos inferiores y el predicado de tipo sustantivo inferido en el 

nodo núcleo tratado que deba ser reflejada de algún modo en la forma 

lógica. En el caso de que exista alguna relación entre estos nodos que 

deba ser reflejada en la forma lógica, ésta se resuelve en el nodo núcleo 

de la relación de dependencia, relacionando el nuevo predicado del tipo 

sustantivo generado en el nodo núcleo de la relación de dependencia 

con los predicados inferidos en sus nodos inferiores en el marco de este 

proceso composicional. Esta comprobación se debe tener en cuenta, no 

sólo para los predicados del tipo sustantivo tratados en este apartado, 

sino también para los restantes tipos de predicado que se detallan a 

continuación en este anexo. 

Para clarificar mejor este proceso, a continuación se especifica la aplicación 

de tres reglas complejas sobre tres ejemplos de relaciones de dependencia 

cuyo núcleo es un predicado del tipo sustantivo. En el ejemplo 

61 no se da ninguna relación que deba ser tratada en el nodo núcleo 

de la relación de dependencia y reflejada consiguientemente en la forma 

lógica. Por el contrario, en los ejemplos 62 y 63 sí que se trata la relación 

existente entre los predicados de la forma lógica inferidos en los nodos 

inferiores al nodo núcleo de la relación de dependencia y el predicado 

inferido en el propio nodo núcleo que debe ser tenida en cuenta en la 



Nodo modificador: the 

Categoría léxica nodo modificador: Det 

Posición nodo modificador: anterior 

Predicados del nodo modificador: ∅ 

Nodo núcleo: house 

Categoría léxica del nodo núcleo: N 

Relación de dependencia: det 

Predicados del nodo núcleo: house:NN( ) 1 

Restricciones a tratar: Ninguna. 


Nodo modificador: red 

Categoría léxica nodo modificador: A 

1 Todavía ninguna variable instancia el predicado porque faltan relaciones de dependencia por 

resolver en el nodo núcleo


Predicados del nodo modificador: red:JJ(x1) 

Nodo núcleo: house 


Relación de dependencia: mod 

Predicados del nodo núcleo: red:JJ(x1) house:NN( ) 

Restricciones a tratar: Sí. 

173 

Predicados del nodo núcleo tras tratamiento de restricciones: 

red:JJ(x1) house:NN(x1) 


Nodo modificador: of 

Categoría léxica nodo modificador: Prep 

Posición nodo modificador: posterior 

Predicados del nodo modificador: of:IN( , x1) 2 london:NN(x1) 

Nodo núcleo: northeast 



Predicados del nodo núcleo: northeast:NN(x2) of:IN( , 

x1) london:NN(x1) 



northeast:NN(x2) of:IN(x2, x1) london:NN(x1) 

Reglas de derivación de predicados del tipo verbo 

Del mismo modo que sucede en el caso de los sustantivos, el número de 

reglas complejas que se pueden dar en una relación de dependencia en 

la que el nodo núcleo de la relación es del tipo verbo es muy elevado. 

Para simplificar, a continuación se van a mostrar tres ejemplos de ellas. 

El ejemplo 64 muestra una relación de dependencia del tipo sujeto. Estas 

dos relaciones de dependencia originan que se tengan que realizar 

comprobaciones entre los predicados provenientes de los nodos modificadores 

y el predicado generado en el nodo núcleo, reflejando con ello 

las relaciones entre estos predicados de la forma lógica. Por el contrario, 

el ejemplo 65 muestra una relación de dependencia del tipo objeto. Por 

2 El nodo modificador previamente no resolvió el primer argumento del predicado of:IN de aridad 

2. Esta tarea la deja para la resolución de la relación dependencia actual.

174 

último, el ejemplo 66 muestra la relación de dependencia relativa a un 

phrasal verb. Esta última relación de dependencia produce que al lema 

del predicado generado en el nodo núcleo se le concatene el lema de la 

preposición del nodo modificador. 

(64) Expresión: Peter had filled the tank up. 

Nodo modificador: Peter 

Categoría léxica nodo modificador: N 


Predicados del nodo modificador: peter:NN(x1) 

Nodo núcleo: filled 

Categoría léxica del nodo núcleo: V 

Relación de dependencia: subj 

Predicados del nodo núcleo: peter:NN(x1) fill:VB(e1, 

, ) 



peter:NN(x1) fill:VB(e1, x1, ) 


Nodo modificador: tank 



Predicados del nodo modificador: tank:NN(x2) 



Relación de dependencia: obj 


x1, ) tank:NN(x2) 



peter:NN(x1) fill:VB(e1, x1, x2) tank:NN(x2) 


Nodo modificador: up 

Categoría léxica nodo modificador: Prep 

Posición nodo modificador: posterior

Predicados del nodo modificador: ∅ 





x1, x2) tank:NN(x2) 


175 


peter:NN(x1) fill up:VB(e1, x1, x2) tank:NN(x2) 

Reglas de derivación de predicados del tipo adjetivo 

En lenguaje natural es bastante frecuente encontrar la secuencia de dos 

o más adjetivos que modifican a un sustantivo o a un sintagma nominal. 

Ejemplo de ello son las expresiones “long fair hair”, “massive young 

stars”, etc. Cuando en la fase análisis de las relaciones de dependencias 

se encuentra una expresión de este tipo, la regla que la resuelve ha de 

realizar la comprobación entre los predicados provenientes del nodo modificador 

y el predicado generado en el nodo núcleo, reflejando con ello 

las relaciones entre estos predicados de la forma lógica. A continuación, 

el ejemplo 67 muestra la resolución de la relación de dependencia relativa 

a este tipo de expresiones. 

(67) Expresión: Susan has long fair hair and blue eyes. 

Nodo modificador: long 



Predicados del nodo modificador: long:JJ(x1) 

Nodo núcleo: fair 

Categoría léxica del nodo núcleo: A 


Predicados del nodo núcleo: long:JJ(x1) fair:JJ( ) 



long:JJ(x1) fair:JJ(x1)

176 

Reglas de derivación de predicados del tipo preposición 

Este tipo de reglas de derivación siempre van a tener que realizar comprobaciones 

entre el predicado proveniente del nodo modificador y el 

predicado generado en el nodo núcleo, reflejando de este modo las relaciones 

entre estos predicados de la forma lógica. A continuación, el 

ejemplo 68 refleja la regla que resuelve un caso particular de relación 

de dependencia asociada a una preposición en el nodo núcleo. 


Nodo modificador: London 



Predicados del nodo modificador: london:NN(x1) 

Nodo núcleo: of 

Categoría léxica del nodo núcleo: Prep 

Relación de dependencia: pcomp-n 

Predicados del nodo núcleo: of:JJ( , ) london:NN(x1) 



of:JJ( , x1) london:NN(x1) 

Reglas de derivación de predicados del tipo atributo 

En este tipo de reglas, el nodo núcleo de la relación de dependencia 

es siempre un verbo copulativo. La característica principal de este tipo 

de reglas es que deben chequear las relaciones existentes entre los predicados 

del nodo núcleo y modificador de la relación de dependencia, 

quedando reflejadas en el predicado del tipo atributo inferido en la regla. 

Seguidamente se especifica en el ejemplo 69 la aplicación de una de 

estas reglas. 

(69) Expresión: The car is green. 

Nodo modificador: green 



Predicados del nodo modificador: green:JJ(x1)

Nodo núcleo: is 


Relación de dependencia: pred 

Predicados del nodo núcleo: be:VB(e1, , ) Atributo:IN( 

, ) green:JJ(x1) 


177 


be:VB(e1, , ) Atributo:IN(e1, x1) green:JJ(x1) 

Reglas de derivación de predicados del tipo conjunción/disyunción 

Este tipo de reglas de derivación incorporan en la forma lógica el predicado 

asociado a la relación de conjunción/disyunción existente entre 

los predicados inferidos en los nodos inferiores al nodo cabeza de la dependencia. 

Para ello, siempre van a tener que realizar comprobaciones 

entre los predicados provenientes de los nodos modificadores y el predicado 

generado en el nodo núcleo, reflejando de este modo esta relación 

de conjunción/disyunción entre estos predicados de la forma lógica. A 

continuación, el ejemplo 70 detalla la aplicación de una de estas reglas. 

(70) Expresión: U.S. and Iraqi forces have begun a push 

into Falluja. 

Nodo modificador: forces 



Predicados del nodo modificador: iraqi:JJ(x1) forces:NN(x1) 

Nodo núcleo: U.S. 


Relación de dependencia: conj 

Predicados del nodo núcleo: u.s.:NN(x2) and:CC(x3, 

x2, ) iraqi:JJ(x1) forces:NN(x1) 



u.s.:NN(x2) and:CC(x3, x2, x1) iraqi:JJ(x1) forces:NN(x1)

178 

Reglas de derivación de predicados del tipo nominal 

compuesto 

Este tipo de reglas de derivación, cuyo propósito es inferir en la forma 

lógica el predicado asociado al nominal compuesto a partir de los predicados 

asociados a los nominales simples, siempre van a tener que realizar 

comprobaciones entre el predicado proveniente del nodo modificador y 

el predicado generado en el nodo núcleo, reflejando de este modo esta 

relación entre ambos predicados de la forma lógica. A continuación, el 

ejemplo 71 detalla la aplicación de una de estas reglas. 

(71) Expresión: Peter Douglas had filled the tank up. 

Nodo modificador: Peter 



Predicados del nodo modificador: Peter:NN(x1) 

Nodo núcleo: Douglas 


Relación de dependencia: nn 

Predicados del nodo núcleo: peter:NN(x1) peter douglas:NNC(x3, 

, x2) douglas:NN(x2) 



peter:NN(x1) peter douglas:NNC(x3, , x2) douglas:NN(x2) 

A veces sucede que, en el árbol de dependencias, el nominal simple proveniente 

del nodo modificador de la relación de dependencia está etiquetado 

incorrectamente. En este caso, todos los predicados inferidos en la 

forma lógica a partir de los dos nodos implicados en la relación se infieren 

en el tratamiento de esta regla compleja, con lo que no es necesario 

ningún tipo de comprobación adicional, ya que desde nodos inferiores 

no viene ningún predicado. A continuación, el ejemplo 72 muestra la 

regla compleja que resuelve este tipo de casos. 

(72) Expresión: The position of pitcher on a baseball team. 

Nodo modificador: baseball 

Categoría léxica nodo modificador: U 


Predicados del nodo modificador: ∅

Nodo núcleo: team 


Relación de dependencia: lex-mod 

Predicados del nodo núcleo: baseball:NN(x1) baseball 

team:NNC(x3, x1, x2) team:NN(x2) 

Restricciones a tratar: No porque todos los predicados 

se infieren en el nodo núcleo. 

Reglas de derivación de predicados del tipo aposición 

Este tipo de reglas de derivación incorporan en la forma lógica el predicado 

asociado a la relación de aposición existente entre los predicados 

inferidos en los nodos inferiores al nodo cabeza de la dependencia. Para 

ello, siempre van a tener que realizar comprobaciones entre los predicados 

provenientes de los nodos modificadores y el predicado generado 

en el nodo núcleo, reflejando de este modo esta relación de aposición 

entre estos predicados de la forma lógica. A continuación, el ejemplo 73 

detalla la aplicación de una de estas reglas. 

(73) Expresión: Tony Blair, the British Prime Minister, will 

visit Iraq next week. 

Nodo modificador: Minister 



179 

Predicados del nodo modificador: tony:NN(x1) tony blair:NNC(x3, 

x1, x2) blair:NN(x2) 

Nodo núcleo: Blair 


Relación de dependencia: appo 

Predicados del nodo núcleo: tony:NN(x1) tony blair:NNC(x3, 

x1, x2) blair:NN(x2) tony blair british prime minister:APPO(x7, 

x3, ) british:JJ(x4) prime:NN(x5) prime minister:NNC(x4, 

x5, x6) minister:NN(x6) 



tony:NN(x1) tony blair:NNC(x3, x1, x2) blair:NN(x2) 

tony blair british prime minister:APPO(x7, x3, x4)

180 

british:JJ(x4) prime:NN(x5) prime minister:NNC(x4, 

x5, x6) minister:NN(x6)

Anexo C. Preguntas desarrolladas para la 

evaluación de la tarea de clasificación 

Este anexo muestra las 300 preguntas de entrenamiento y las 300 de evaluación 

(100 en cada una de las tres versiones) que se han utilizado en 

el marco de la tarea de evaluación del recurso lógico-conceptual referida 

a la clasificación de preguntas médicas según la taxonomía planteada 

en el estudio de Ely et al. (Ely et al. , 2000).

182 

Preguntas de entrenamiento 

Primer tipo genérico 

La tabla 6.1 muestra la colección de preguntas de entrenamiento asociadas 

al primer tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

1 What is the drug of choice for condition high blood pressure? 

2 Is drug flunitrazepam indicated in situation anxiety? 

3 Is drug galantamine indicated for condition pink eye? 

4 What are the indications for drug liothyronine? 

5 Is any drug indicated for situation scabies? 

6 Does drug dosulepin work for condition slapped cheek syndrome? 

7 How effective is drug edronax for condition stress? 

8 Should this kind of patient get prophylactic drug efexor to prevent condition threadworms? 

9 Is prophylactic drug elavil indicated to prevent condition tuberculosis? 

10 What prophylactic drug should I give to prevent condition ulcerative colitis? 

11 How effective is prophylactic drug epanutin in preventing condition urinary tract infection? 

12 For how long is drug epilim effective in preventing condition varicose veins? 

13 Name the drugs that treat cerebral palsy. 

14 List the drugs that manage catarrh. 

15 Tell me the drugs that prevent cellulitis. 

16 What is the drug of choice for condition chlamydia? 

17 Is drug abacavir indicated in situation coccydinia? 

18 Is drug abafungin indicated indicated for condition cold sores? 

19 What are the indications for drug abamectin? 

20 Is any drug indicated for situation constipation? 

21 Does drug abciximab work for condition crohn’s disease? 

22 How effective is drug abecarnil for condition cystic fibrosis? 

23 Should this kind of patient get prophylactic drug abiraterone to prevent condition cystitis? 

24 Is prophylactic drug abitesartan indicated to prevent condition deafblindness? 

25 What prophylactic drug should I give to prevent condition diphtheria? 

26 How effective is prophylactic drug ablukast in preventing condition dry eye syndrome? 

27 For how long is drug abunidazole effective in preventing condition duodenal ulcer? 

28 Name the drugs that treat dyspepsia. 

29 List the drugs that manage dysphagia. 

30 Tell me the drugs that prevent dystonia. 

Tabla 6.1. Preguntas de entrenamiento del tipo genérico 1

Segundo tipo genérico 


al segundo tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

31 What is the cause of symptom abdominal pain? 

32 What is the differential diagnosis of symptom missed menstrual period? 

33 Could symptom dermatitis be a result of condition dementia? 

34 What is the likelihood that symptom dysmenorrhea is coming from condition eczema? 

35 Name the possible causes of symptom vaginal discharge. 

36 List the possible causes of symptom nail discoloration. 

37 Tell me the possible causes of symptom swollen dlands. 

38 What is the cause of symptom hair loss? 

39 What is the differential diagnosis of symptom hematemesis? 

40 Could symptom impotence be a result of condition congenital cataracts? 

41 What is the likelihood that symptom hyperventilation is coming from condition ectropion? 

42 Name the possible causes of symptom infertility. 

43 List the possible causes of symptom insomnia. 

44 Tell me the possible causes of symptom itch. 

45 What is the cause of symptom knee pain? 

46 What is the differential diagnosis of symptom watery eye? 

47 Could symptom muscle cramps be a result of condition embolism? 

48 What is the likelihood that symptom lethargy is coming from condition encephalitis? 

49 Name the possible causes of symptom Diarrhea. 

50 List the possible causes of symptom Dizziness. 

51 Tell me the possible causes of symptom confusion. 

52 What is the cause of symptom Anemia? 

53 What is the differential diagnosis of symptom breast lumps? 

54 Could symptom lymphadenopathy be a result of condition epidermolysis bullosa? 

55 What is the likelihood that symptom mastodynia is coming from condition epiglottitis? 

56 Name the possible causes of symptom mennorrhagia. 

57 List the possible causes of symptom pleurisy. 

58 Tell me the possible causes of symptom pyrosis. 

59 What is the cause of symptom red eye? 

60 What is the differential diagnosis of symptom rubor? 

Tabla 6.2. Preguntas de entrenamiento del tipo genérico 2 

183

184 

Tercer tipo genérico 


al tercer tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

61 What test is indicated in situation swollen glands? 

62 Is test HIDA scan indicated in situation yeast infection? 

63 What test is appropriate with clinical finding autosplenectomy? 

64 What is the best test in situation toe tingling? 

65 What test is indicated in situation profound bronchospasm? 

66 Is test magnetic resonance imaging indicated in situation hypertension? 

67 What test is appropriate with clinical finding rheumatic fever? 

68 What is the best test in situation atrial fibrillation? 

69 What test is indicated in situation hypoxia? 

70 Is test myocardial biopsy indicated in situation laryngospasm? 

71 What test is appropriate with clinical finding hyperparathyroidism? 

72 What is the best test in situation anticipated apnoea? 

73 What test is indicated in situation multifocal ventricular ectopics? 

74 Is test CT scan indicated in situation cardiac arrest? 

75 What test is appropriate with clinical finding bronchial asthma? 

76 What is the best test in situation bradycardia? 

77 What test is indicated in situation osteoarthritis? 

78 Is occult fecal blood test indicated in situation anaphylaxis? 

79 What test is appropriate with clinical finding super ventricular tachycardia? 

80 What is the best test in situation breathing system failure? 

81 Name the tests for patients in situation myocardial infartion. 

82 List the possible tests indicated in situation total spinal anaesthesia. 

83 Tell me the best test in situation oxygen supply failure. 

84 Name the tests for patients in situation unanticipated apnoea. 

85 List the possible tests indicated in situation malignant hyperpyrexia. 

86 Tell me the best test in situation gastric aspiration. 

87 Name the tests for patients in situation bradycardia. 

88 List the possible tests indicated in situation cardiac ischemia. 

89 Tell me the best test in situation hypercarbia. 

90 Name the tests for patients in situation ventricular ectopics. 


Cuarto tipo genérico 


al cuarto tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

91 What is the dose of drug prinivil? 

92 Should I change the dose of drug aspirin? 

93 What is the maximum dose of drug accupril? 

94 What are equivalent doses among members of drug class benzodiazepine? 

95 How do you prescribe drug viagra? 

96 How do you administer drug clomipramine? 

97 When I start drug acyclovir? 

98 How should I stop drug Concordin? 

99 How long should I give drug dalmane? 

100 When should I give drug donopezil? 

101 List the possible dosages of drug fadrozole. 

102 Tell me the dosage of drug famotidine. 

103 What is the dose of drug fananserin? 

104 Should I change the dose of drug faralimomab? 

105 What is the maximum dose of drug toremifene? 

106 What are equivalent doses among members of drug class 4-aminopyridine? 

107 How do you prescribe drug faropenem? 

108 How do you administer drug fulvestrant? 

109 When I start drug fasoracetam? 

110 How should I stop drug flosequinan? 

111 How long should I give drug fluticasone? 

112 When should I give drug floxuridine? 

113 List the possible dosages of drug flucloxacillin. 

114 Tell me the dosage of drug fluconazole. 

115 What is the dose of drug flucytosine? 

116 Should I change the dose of drug fludarabine? 

117 What is the maximum dose of drug fludiazepam? 

118 What are equivalent doses among members of drug class fludorex? 

119 How do you prescribe drug fludrocortisone? 

120 How do you administer drug fludroxycortide? 


185

186 

Quinto tipo genérico 


al quinto tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

121 How should I manage condition fibromyalgia? 

122 How do you manage condition depression? 

123 How well do you manage condition constipation? 

124 How should I manage condition acne? 

125 How do you manage condition allergies? 

126 How well do you manage condition asthma? 

127 How should I manage condition autism? 

128 How do you manage condition back pain? 

129 How well do you manage condition bulimia? 

130 How should I manage condition cataracts? 

131 How do you manage condition chlamydia? 

132 How well do you manage condition cirrhosis? 

133 How should I manage condition cystitis? 

134 How do you manage condition deafness? 

135 How well do you manage condition dementia? 

136 How should I manage condition dysphasia? 

137 How do you manage condition eczema? 

138 How well do you manage condition epilepsy? 

139 How should I manage condition gallstones? 

140 How do you manage condition glaucoma? 

141 How well do you manage condition gonorrhea? 

142 How should I manage condition hemophilia? 

143 How do you manage condition heartburn? 

144 How well do you manage condition hepatitis? 

145 How should I manage condition impotence? 

146 How do you manage condition indigestion? 

147 How well do you manage condition infertility? 

148 How should I manage condition insomnia? 

149 How do you manage condition leukemia? 

150 How well do you manage condition meningitis? 


Sexto tipo genérico 


al sexto tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

151 What is the cause of physical finding angiokeratomas? 

152 What is the differential diagnosis of physical finding pulsus alterans? 

153 At what level does physical finding ulnar deviation become clinically important? 

154 What is considered normal for physical finding succussion splash? 

155 Could physical finding argyll robertson pupils be a result of condition anaemia? 

156 What is the likehood that sign deafness is coming from condition arthritis? 

157 Name the possible causes of physical finding alert mentation. 

158 List the causes of physical finding cool skin capillary refill. 

159 Tell me the causes of physical finding normal mucous membranes. 

160 What is the cause of physical finding increased heart rate? 

161 What is the differential diagnosis of physical finding thready pulse? 

162 At what level does physical respiratory rate deviation become clinically important? 

163 What is considered normal for physical finding blood pressure? 

164 Could physical finding slow skin turgor be a result of condition narcolepsy? 

165 What is the likehood that sign earache is coming from condition psoriasis? 

166 Name the possible causes of physical decreased urine output. 

167 List the causes of physical finding xanthelasma. 

168 Tell me the causes of physical finding ulnar deviation. 

169 What is the cause of physical finding titubation? 

170 What is the differential diagnosis of physical finding tophi? 

171 At what level does physical finding suck reflex become clinically important? 

172 What is considered normal for physical finding subcutaneous nodules? 

173 Could physical finding striae be a result of condition meningitis? 

174 What is the likehood that sign erythema is coming from condition menopause? 

175 Name the possible causes of physical finding strawberry tongue. 

176 List the causes of physical finding simian crease. 

177 Tell me the causes of physical finding pulsus alterans. 

178 What is the cause of physical finding petechiae? 

179 What is the differential diagnosis of physical finding pingueculae? 

180 At what level does physical finding ptosis become clinically important? 


187

188 

Séptimo tipo genérico 


al séptimo tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

181 How should I treat condition fibromyalgia? 

182 How do you treat condition depression? 

183 How well do you treat condition constipation? 

184 How should I treat condition allergies? 

185 How do you treat condition asthma? 

186 How well do you treat condition autism? 

187 How should I treat condition bedwetting? 

188 How do you treat condition blepharospasm? 

189 How well do you treat condition blindness? 

190 How should I treat condition bulimia? 

191 How do you treat condition cataracts? 

192 How well do you treat condition chlamydia? 

193 How should I treat condition cirrhosis? 

194 How do you treat condition cleft lip? 

195 How well do you treat condition cold sores? 

196 How should I treat condition cot death? 

197 How do you treat condition cystic fibrosis? 

198 How well do you treat condition deafness? 

199 How should I treat condition downs syndrome? 

200 How do you treat condition gauchers disease? 

201 How well do you treat condition huntington disease? 

202 How should I treat condition legionnaire disease? 

203 How do you treat condition meniere disease? 

204 How well do you treat condition muscular dystrophy? 

205 How should I treat condition polycystic ovary syndrome? 

206 How do you treat condition polymyalgia rheumatica? 

207 How well do you treat condition repetitive strain injury? 

208 How should I treat condition restless legs? 

209 How do you treat condition systemic lupus erythematosus? 

210 How well do you treat condition ulcerative colitis? 


Octavo tipo genérico 


al octavo tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

211 What is the cause of test finding bronchoscopy? 

212 What is the differential diagnosis of test finding hemoglobin electrophoresis? 

213 Could test finding home blood glucose test be condition diabetes? 

214 Could test finding pericardial drainage be a result of condition endometriosis? 

215 What is the likehood that test finding ECG is coming from condition endometriosis? 

216 How should I interpret test finding treadmill test? 

217 How should I use test finding acoustic reflex test in my decision? 

218 At what level does the value of ACTH test clinically important? 

219 What are the normal values of AFP test? 

220 How good is allergy test in situation mammalgia? 

221 What are the performance characteristics of DST test in situation menstrual cramps? 

222 What is the efficacy of screening with dobutamine stress test? 

223 What is the efficacy of screening for condition febrile convulsions? 

224 When should I do drug screening test? 

225 When should I do DST test to monitor condition food intolerance? 

226 How often should screening dipyridamole stress test be done? 

227 How often should you screen for condition gallstones? 

228 Name the cause of test finding FOBT. 

229 Tell me the cause of test finding FSH. 

230 What is the cause of test finding funduscopy? 

231 What is the differential diagnosis of test finding fetoscopy? 

232 Could test finding free cortisol test be condition endocarditis? 

233 Could test finding fasting blood sugar test be a result of condition encephalitis? 

234 What is the likehood that test finding GHb test is coming from condition epiglottitis? 

235 How should I interpret test finding globulin test? 

236 How should I use test finding glaucoma test in my decision? 

237 At what level does the value of GHb test clinically important? 

238 What are the normal values of gastric ulcer test? 

239 How good is galactosemia test in situation dyspepsia? 

240 What are the performance characteristics of HFE test in situation vertigo? 


189

190 

Noveno tipo genérico 


al noveno tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

241 Could this patient have condition gauchers disease? 

242 What is the likelihood that this patient has condition parkinson disease? 

243 What does this patient have whooping cough? 

244 Could this patient have condition chest infection? 

245 What is the likelihood that this patient has condition chronic fatigue syndrome? 

246 What does this patient have coeliac disease? 

247 Could this patient have condition conjunctivitis? 

248 What is the likelihood that this patient has condition cradle cap? 

249 What does this patient have diverticulitis? 

250 Could this patient have condition erectile dysfunction? 

251 What is the likelihood that this patient has condition food intolerance? 

252 What does this patient have glandular fever? 

253 Could this patient have condition hay fever? 

254 What is the likelihood that this patient has condition irritable bowel syndrome? 

255 What does this patient have kidney failure? 

256 Could this patient have condition jet lag? 

257 What is the likelihood that this patient has condition kidney stones? 

258 What does this patient have labyrinthitis? 

259 Could this patient have condition laryngitis? 

260 What is the likelihood that this patient has condition migraine? 

261 What does this patient have MRSA? 

262 Could this patient have condition multiple sclerosis? 

263 What is the likelihood that this patient has condition nappy rash? 

264 What does this patient have nosebleed? 

265 Could this patient have condition obesity? 

266 What is the likelihood that this patient has condition phobias? 

267 What does this patient have renal colic? 

268 Could this patient have condition shingles? 

269 What is the likelihood that this patient has condition tennis elbow? 

270 What does this patient have threadworms? 


Décimo tipo genérico 


al décimo tipo genérico de las preguntas de la taxonomía. 

N o 

Pregunta 

271 Could drug accupril cause adverse finding muscle pain? 

272 Could finding angioid streaks be cause by drug nitrazepam? 

273 Does drug reboxetine cause finding arcus senilis? 

274 What are the adverse effects of drug temazepam? 

275 What is the likehood of adverse effect uterine hemorrhage resulting from drug cytotec? 

276 How long do the adverse effects from drug escitalopram last after stopping it? 

277 Which drug has the fewest adverse effects? 

278 How can drug exelon be administered without causing adverse effect deafness? 

279 What dose of drug fluvoxamine cause adverse effect fever? 

280 What dose of drug perphenazine cause any adverse effect? 

281 Is drug flupenthixol save to use in situation vertigo? 

282 Is drug fluoxetine contraindicated in situation warts? 

283 Could drug phentermine cause adverse finding angiokeratomas? 

284 Could finding pulsus alterans be cause by drug tacalcitol? 

285 Does drug tacrine cause finding ulnar deviation? 

286 What are the adverse effects of drug talaporfin? 

287 What is the likehood of adverse effect abdominal pain resulting from drug talipexole? 

288 How long do the adverse effects from drug taltirelin last after stopping it? 

289 How can drug tandospirone be administered without causing adverse effect asthenia? 

290 What dose of drug taranabant cause adverse effect diarrhea? 

291 What dose of drug tazarotene cause any adverse effect? 

292 Is drug flupenthixol save to use in situation dyspepsia? 

293 Is drug fluoxetine contraindicated in situation mammalgia? 

294 Could drug tazobactam cause adverse finding bronchial asthma? 

295 Could finding hyperparathyroidism be cause by drug tazobactam? 

296 Does drug paclitaxel cause finding rheumatic fever? 

297 What are the adverse effects of drug pagoclone? 

298 What is the likehood of adverse effect autosplenectomy resulting from drug palonosetron? 

299 How long do the adverse effects from drug pamaquine last after stopping it? 

300 How can drug panadiplon be administered without causing adverse effect rhabdomyolysis? 


191

192 

Preguntas de evaluación 

Primer tipo genérico 

La tabla 6.11 muestra la colección de preguntas de evaluación, en cada 

una de sus tres versiones, asociadas al primer tipo genérico de las preguntas 

de la taxonomía. 

N o 

V Pregunta 

1 What are the indications for drug reboxetine? 

7 2 What are the indications for drug reboxetine? 

3 What are the indications of reboxetine? 

1 Is any drug indicated for situation total spinal anaesthesia? 

16 2 Is any drug prescribed for situation total spinal anaesthesia? 

3 Is any drug prescribed for total spinal anaesthesia? 

1 Is drug nitrazepam indicated for condition dementia? 

29 2 Could drug nitrazepam be prescribed for condition dementia? 

3 Could nitrazepam be prescribed for dementia? 

1 Is drug accupril indicated in situation myocardial infartion? 

33 2 Is drug accupril prescribed in situation myocardial infartion? 

3 Is accupril prescribed in myocardial infartion? 

1 Does drug temazepam work for condition congenital cataracts? 

42 2 Could drug temazepam be prescribed for condition congenital cataracts? 

3 Could temazepam be prescribed for congenital cataracts? 

1 What is the drug of choice for condition eczema? 

57 2 What is the drug of selection for condition eczema? 

3 What is the drug of selection for eczema? 

1 How effective is drug cytotec for condition parkinson disease? 

64 2 How good is drug cytotec for condition parkinson disease? 

3 How good is cytotec for parkinson disease? 

1 Name the drugs that treat ectropion. 

72 2 Name the drugs that control ectropion. 

3 Name the drugs that control ectropion. 

1 List the drugs that manage fibromyalgia. 

87 2 List the drugs that control fibromyalgia. 

3 List the drugs that control fibromyalgia. 

1 Tell me the drugs that prevent depression. 

100 2 Tell me the drugs that control depression. 

3 Tell me the drugs that control depression. 

Tabla 6.11. Preguntas de evaluación del tipo genérico 1

Segundo tipo genérico 


una de sus tres versiones, asociadas al segundo tipo genérico de las 

preguntas de la taxonomía. 

N o 

V Pregunta 

1 Could symptom abdominal pain be a result of condition fibromyalgia? 

10 2 Does symptom abdominal pain induced by condition fibromyalgia? 

3 Does abdominal pain induced by fibromyalgia? 

1 What is the likelihood that symptom headache is coming from condition depression? 

13 2 What is the likeliness that symptom headache is induced from condition depression? 

3 What is the likeliness that headache is induced from depression? 

1 Name the possible causes of symptom fever. 

21 2 Name the potential reasons of symptom fever. 

3 Name the potential reasons of fever. 

1 List the possible causes of symptom body ache. 

37 2 List the potential reasons of symptom body ache. 

3 List the potential reasons of body ache. 

1 Tell me the possible causes of symptom moist skin. 

41 2 Tell me the potential reasons of symptom moist skin. 

3 Tell me the potential reasons of moist skin. 

1 What is the cause of symptom nausea? 

59 2 Which one is the reason of symptom nausea? 

3 Which one is the reason of nausea? 

1 What is the differential diagnosis of symptom depression? 

70 2 What is the differential diagnosis of symptom depression? 

3 What is the differential diagnosis of depression? 

1 Could symptom irritability be a result of condition acne? 

77 2 Is symptom irritability induced by condition acne? 

3 Is irritability induced by acne? 

1 What is the likelihood that symptom bedwetting is coming from condition asthma? 

90 2 What is the likeliness that symptom bedwetting is induced by condition asthma? 

3 What is the likeliness that bedwetting is induced by asthma? 

1 Name the possible causes of symptom vomiting. 

96 2 Name the potential reasons of symptom vomiting. 

3 Name the potential reasons of vomiting. 

Tabla 6.12. Preguntas de evaluación del tipo genérico 2 

193

194 

Tercer tipo genérico 


una de sus tres versiones, asociadas al tercer tipo genérico de las preguntas 


N o 

V Pregunta 

1 Name the tests for patients in situation cardiac emergency. 

1 2 Name the tests for patients in situation cardiac emergency. 

3 Name the tests for patients in cardiac emergency. 

1 List the possible tests indicated in situation respiratory emergency. 

17 2 List the potential tests suggested in situation respiratory emergency. 

3 List the potential tests suggested in respiratory emergency. 

1 Tell me the best test in situation oxygen medical emergency. 

30 2 Tell me the best test in situation oxygen medical emergency. 

3 Tell me the best test in oxygen medical emergency. 

1 What test is indicated in situation yeast vaginitis? 

32 2 Which test is suggested in situation yeast vaginitis? 

3 Which test is suggested in yeast vaginitis? 

1 Is test bronchoscopy indicated in situation oral thrush? 

50 2 Could test bronchoscopy be suggested in situation oral thrush? 

3 Could bronchoscopy be suggested in oral thrush? 

1 What test is appropriate with physical finding angiokeratomas? 

51 2 Which test is appropriate with physical finding angiokeratomas? 

3 Which test is appropriate with angiokeratomas? 

1 What is the best test in situation candida infection? 

67 2 Which test is the best one in situation candida infection? 

3 Which test is the best one in candida infection? 

1 What test is indicated in situation systemic infection? 

79 2 Which test is prescribed in situation systemic infection? 

3 Which test is prescribed in systemic infection? 

1 Is ACTH test indicated in situation opportunistic infection? 

82 2 Could ACTH test be suggested in situation opportunistic infection? 

3 Could ACTH test be suggested in opportunistic infection? 

1 What test is appropriate with physical finding pulsus alterans? 

94 2 Which test is appropriate with physical finding pulsus alterans? 

3 Which test is appropriate with pulsus alterans? 


Cuarto tipo genérico 


una de sus tres versiones, asociadas al cuarto tipo genérico de las preguntas 


N o 

V Pregunta 

1 List the possible dosages of drug abacavir. 

9 2 List the potential dosages of drug abacavir. 

3 List the potential dosages of abacavir. 

1 Tell me the dosage of drug abafungin. 

20 2 Tell me the dosage of drug abafungin. 

3 Tell me the dosage of abafungin. 

1 What is the dose of drug abamectin? 

27 2 Which one is the dose of drug abamectin? 

3 Which one is the dose of abamectin? 

1 Should I change the dose of drug abciximab? 

31 2 Should I change the dose of drug abciximab? 

3 Should I change the dose of abciximab? 

1 What is the maximum dose of drug abecarnil? 

43 2 Which one is the upper dose of drug abecarnil? 

3 Which one is the upper dose of abecarnil? 

1 What are equivalent doses among members of drug class bisphosphonate? 

52 2 Whose are tantamount doses among members of drug class bisphosphonate? 

3 Whose are tantamount doses among members of bisphosphonate? 

1 How do you prescribe drug perphenazine? 

61 2 How can drug perphenazine be dispensed? 

3 How can perphenazine be dispensed? 

1 How do you administer drug fluvoxamine? 

73 2 How can drug fluvoxamine be dispensed? 

3 How can fluvoxamine be dispensed? 

1 When I start drug exelon? 

81 2 When do I begin to take drug exelon? 

3 When do I begin to take exelon? 

1 How should I stop drug escitalopram? 

91 2 How should I end drug escitalopram? 

3 How should I end escitalopram? 


195

196 

Quinto tipo genérico 


una de sus tres versiones, asociadas al quinto tipo genérico de las preguntas 


N o 

V Pregunta 

1 How should I manage condition gauchers disease? 

8 2 How should be handled condition gauchers disease? 

3 How should be handled gauchers disease? 

1 How do you manage condition parkinson disease? 

19 2 How does condition parkinson disease be handled? 

3 How does parkinson disease be handled? 

1 How well do you manage condition chest infection? 

28 2 How good should condition chest infection be handled? 

3 How good should chest infection be handled? 

1 How should I manage condition chronic fatigue syndrome? 

39 2 How should condition chronic fatigue syndrome be handled? 

3 How should chronic fatigue syndrome be handled? 

1 How do you manage condition conjunctivitis? 

49 2 How could condition conjunctivitis be handled? 

3 How could conjunctivitis be handled? 

1 How well do you manage condition cradle cap? 

60 2 How good could condition cradle cap be handled? 

3 How good could cradle cap be handled? 

1 How should I manage condition erectile dysfunction? 

69 2 How should condition erectile dysfunction be handled? 

3 How should erectile dysfunction be handled? 

1 How do you manage condition back chlamydia? 

80 2 How should be handled condition back chlamydia? 

3 How should be handled back chlamydia? 

1 How well do you manage condition cold sores? 

89 2 How good should be handled condition cold sores? 

3 How good should be handled cold sores? 

1 How should I manage condition cystic fibrosis? 

99 2 How should condition cystic fibrosis be handled? 

3 How should cystic fibrosis be handled? 


Sexto tipo genérico 


una de sus tres versiones, asociadas al sexto tipo genérico de las preguntas 


N o 

V Pregunta 

1 What is the cause of clinical finding rheumatic fever? 

3 2 Which one is the reason of clinical finding rheumatic fever? 

3 Which one is the reason of rheumatic fever? 

1 What is the differential diagnosis of clinical finding autosplenectomy? 

11 2 What is the differential diagnosis of clinical finding autosplenectomy? 

3 What is the differential diagnosis of autosplenectomy? 

1 At what level does physical finding muscle pain become clinically important? 

22 2 At what degree does physical finding muscle pain become clinically important? 

3 At what degree does muscle pain become clinically important? 

1 What is considered normal for physical finding angioid streaks? 

34 2 What is considered normal for physical finding angioid streaks? 

3 What is considered normal for angioid streaks? 

1 Could physical finding arcus senilis be a result of condition anaemia? 

48 2 Should physical finding arcus senilis produced by condition anaemia? 

3 Should arcus senilis produced by anaemia? 

1 What is the likehood that sign deafness is coming from condition arthritis? 

55 2 Which one is the likeliness that sign deafness is induced by condition arthritis? 

3 Which one is the likeliness that deafness is induced by arthritis? 

1 Name the possible causes of physical finding angiokeratomas. 

62 2 Name the possible reasons of physical finding angiokeratomas. 

3 Name the possible reasons of angiokeratomas. 

1 List the causes of physical finding bronchial asthma. 

71 2 List the reasons of physical finding bronchial asthma. 

3 List the reasons of bronchial asthma. 

1 Tell me the causes of clinical finding hyperparathyroidism. 

83 2 Tell me the reasons of clinical finding hyperparathyroidism. 

3 Tell me the reasons of hyperparathyroidism. 

1 What is the cause of clinical finding super ventricular tachycardia? 

92 2 Which one is the reason of clinical finding super ventricular tachycardia? 

3 Which one is the reason of super ventricular tachycardia? 


197

198 

Séptimo tipo genérico 


una de sus tres versiones, asociadas al séptimo tipo genérico de las preguntas 


N o 

V Pregunta 

1 How should I treat condition gauchers disease? 

2 2 How good should condition gauchers disease be cared for? 

3 How good should gauchers disease be cared for? 

1 How do you treat condition parkinson disease? 

14 2 How should be cared for condition parkinson disease? 

3 How should be cared for parkinson disease? 

1 How well do you treat condition chest infection? 

23 2 How does condition chest infection be cared for? 

3 How does chest infection be cared for? 

1 How should I treat condition chronic fatigue syndrome? 

40 2 How should condition chronic fatigue syndrome be cared for? 

3 How should chronic fatigue syndrome be cared for? 

1 How do you treat condition conjunctivitis? 

44 2 How could condition conjunctivitis be cared for? 

3 How could conjunctivitis be cared for? 

1 How well do you treat condition cradle cap? 

53 2 How good could condition cradle cap be cared for? 

3 How good could cradle cap be cared for? 

1 How should I treat condition erectile dysfunction? 

63 2 How should condition erectile dysfunction be cared for? 

3 How should erectile dysfunction be cared for? 

1 How do you treat condition back chlamydia? 

78 2 How should be cared for condition back chlamydia? 

3 How should be cared for back chlamydia? 

1 How well do you treat condition cold sores? 

84 2 How good should be cared for condition cold sores? 

3 How good should be cared for cold sores? 

1 How should I treat condition cystic fibrosis? 

93 2 How should condition cystic fibrosis be cared for? 

3 How should cystic fibrosis be cared for? 


Octavo tipo genérico 


una de sus tres versiones, asociadas al octavo tipo genérico de las preguntas 


N o 

V Pregunta 

1 What is the cause of test finding HIDA scan? 

6 2 Which one is the reason of test finding HIDA scan? 

3 Which one is the reason of HIDA scan? 

1 What is the differential diagnosis of test finding magnetic resonance imaging? 

12 2 Which one is the differential diagnosis of test finding magnetic resonance imaging? 

3 Which one is the differential diagnosis of magnetic resonance imaging? 

1 Could test finding myocardial biopsy be condition conjunctivitis? 

24 2 Could test finding myocardial biopsy be stimulate condition conjunctivitis? 

3 Could myocardial biopsy be stimulate conjunctivitis? 

1 Could test finding CT scan be a result of condition cradle cap? 

36 2 Could test finding CT scan be stimulated by condition cradle cap? 

3 Could CT scan be stimulated by cradle cap? 

1 What is the likehood that test finding occult fecal blood test is coming from condition dysfunction? 

45 2 Which one is the likeliness that test finding occult fecal blood test is induced by condition dysfunction? 

3 Which one is the likeliness that occult fecal blood test is induced by dysfunction? 

1 How should I interpret test finding endoscopy? 

54 2 How can test finding endoscopy be construed? 

3 How can endoscopy be construed? 

1 How should I use test finding biopsy in my decision? 

65 2 How can I utilise test finding biopsy in my conclusion? 

3 How can I utilise biopsy in my conclusion? 

1 At what level does the value of EEG clinically important? 

76 2 At what degree does the value of EEG clinically important? 

3 At what degree does the value of EEG clinically important? 

1 What are the normal values of PET scan? 

85 2 What are the normal values of PET scan? 

3 What are the normal values of PET scan? 

1 Tell me the cause of test nuclear scan. 

97 2 Tell me the reason of test nuclear scan. 

3 Tell me the reason of nuclear scan. 


199

200 

Noveno tipo genérico 


una de sus tres versiones, asociadas al noveno tipo genérico de las preguntas 


N o 

V Pregunta 

1 Could this patient have condition chlamydia? 

4 2 Does the patient suffer condition chlamydia? 

3 Does the patient suffer chlamydia? 

1 What is the likelihood that this patient has condition cold sores? 

18 2 Which one is the likeliness that the patient suffers condition cold sores? 

3 Which one is the likeliness that the patient suffers cold sores? 

1 What does this patient have cystic fibrosis? 

26 2 What does the patient suffer condition cystic fibrosis? 

3 What does the patient suffer cystic fibrosis? 

1 Could this patient have condition dyspepsia? 

38 2 Can the patient suffer condition dyspepsia? 

3 Can the patient suffer dyspepsia? 

1 What is the likelihood that this patient has condition dysphagia? 

47 2 Which one is the likeliness that the patient suffer condition dysphagia? 

3 Which one is the likeliness that the patient suffer dysphagia? 

1 What does this patient have dystonia? 

58 2 What does this patient suffer condition dystonia? 

3 What does this patient suffer dystonia? 

1 Could this patient have condition dementia? 

66 2 Can the patient suffer condition dementia? 

3 Can the patient suffer dementia? 

1 What is the likelihood that this patient has condition eczema? 

75 2 Which one is the likeliness that the patient suffers condition eczema? 

3 Which one is the likeliness that the patient suffers eczema? 

1 What does this patient have congenital cataracts? 

86 2 What does the patient suffer condition congenital cataracts? 

3 What does the patient suffer congenital cataracts? 

1 Could this patient have condition ectropion? 

98 2 Can the patient suffer condition ectropion? 

3 Can the patient suffer ectropion? 


Décimo tipo genérico 


una de sus tres versiones, asociadas al décimo tipo genérico de las preguntas 


N o 

V Pregunta 

1 Could drug abacavir cause adverse finding abdominal pain? 

5 2 Can drug abacavir origin adverse finding abdominal pain? 

3 Can abacavir origin adverse finding abdominal pain? 

1 Could finding autosplenectomy be cause by drug abafungin? 

15 2 Can adverse finding autosplenectomy be origined by drug abafungin? 

3 Can adverse finding autosplenectomy be origined by abafungin? 

1 Does drug abamectin cause finding rheumatic fever? 

25 2 Does drug abamectin induce finding rheumatic fever? 

3 Does abamectin induce rheumatic fever? 

1 What are the adverse effects of drug abciximab? 

35 2 Whose are the adverse effects of drug abciximab? 

3 Whose are the adverse effects of abciximab? 

1 What is the likehood of adverse effect bloody stool resulting from drug abecarnil? 

46 2 Which is the likeliness of adverse effect bloody stool resulting from drug abecarnil? 

3 Which is the likeliness of adverse effect bloody stool resulting from abecarnil? 

1 How long do the adverse effects from drug fadrozole last after stopping it? 

56 2 How long do the adverse effects from drug fadrozole last after ending it? 

3 How long do the adverse effects from fadrozole last after ending it? 


68 2 Which drug has the fewest adverse effects? 


1 How can drug famotidine be administered without causing adverse effect gastroenteritis? 

74 2 How can drug famotidine be prescribed without causing adverse effect gastroenteritis? 

3 How can famotidine be prescribed without causing adverse effect gastroenteritis? 

1 What dose of drug prinivil cause adverse effect colitis? 

88 2 Which dose of drug prinivil cause adverse effect colitis? 

3 Which dose of prinivil cause adverse effect colitis? 

1 What dose of drug aspirin cause any adverse effect? 

95 2 Which dose of drug aspirin cause any adverse effect? 

3 Which dose of aspirin cause any adverse effect? 


201

Referencias 

Amini, M.-R., Zaragoza, H., & Gallinari, P. 1999. Stochastic Models 

for Surface Information Extraction in Texts. In: Proceedings of the 

International Conference of Artificial Neural Networks (ICANN). 

Aone, C., Okurowski, M.E., Gorlinsky, J., & Larsen, B. 1997. A Scalable 

Summarization System using Robust NLP. Pages 66–73 of: Proceedings 

of the Workshop on Intelligent Scalable Text Summarization 

at the ACL/EACL Conference. 

Baeza-Yates, R., Gionis, A., Junqueira, F., Murdock, V., Plachouras, 

V., & Silvestri, F. 2007. The Impact of Caching on Search Engines. 

In: Proceedings of The 30th Annual International ACM SIGIR 

Conference. 

Balkanski, C.T. 1991. Logical Form of Complex Sentences in Task- 

Oriented Dialogues. In: Proceedings of the 29th Annual Meeting of 

the Association for Computational Linguistics. 

Balog, K., Hofmann, K., Weerkamp, W., & de Rijke, M. 2007. Query 

and Document Models for Enterprise Search. In: Proceedings of 

the Sixteenth Text REtrieval Conference (TREC). 

Bar-Haim, R., Dagan, I., Dolan, B., Ferro, L., Giampiccolo, D., Magnini, 

B., & Szpektor, I. 2006. The Second PASCAL Recognising 

Textual Entailment Challenge. In: Proceedings of the Second PAS- 

CAL Recognising Textual Entailment Challenge. 

Barwise, J., & Perry, J. 1983. Situations and Attitudes. Cambridge, 

MA: MIT Press. 

Barzilay, R., & Elhadad, M. 1997. Using Lexical Chains for Text Summarization. 

Pages 10–17 of: Proceedings of the Workshop on Intelligent 

Scalable Text Summarization at the ACL/EACL Conference. 

Baziz, M., Boughanem, M., & Aussenac-Gilles, N. 2005. A Conceptual 

Indexing Approach for the TREC Robust Task. In: Proceedings of 

the Fourteenth Text REtrieval Conference (TREC 2005). 

Ben-Ari, M. 2001. Mathematical Logic for Computer Science. Springer- 

Verlag. 

Bessé, B. De. 1997. Terminological Definitions. Handbook of Terminology 

Management. John Benjamins: 63-74. 

Bi, Y., Bell, D., & Guan, J. 2004. Combining Evidence from Classifiers 

in Text Categorization. Pages 521–528 of: 8th International

204 Referencias 

Conference on Knowledge-Based Intelligent Information and Engineering 

Systems. 

Bisbal, E., Tomás, D., Moreno, L., Vicedo, J.L., & Suárez, A. 2005. 

A Multilingual SVM-Based Question Classification System. Pages 

806–815 of: MICAI 2005: Advances in Artificial Intelligence. 

Bixler, D., Moldovan, D., & Fowler, A. 2005. Using knowledge extraction 

and maintenance techniques to enhance analytical performance. 

In: Proceedings of the 2005 International Conference on 

Intelligence Analysis. 

Cabré, M. T. 1999. La Terminología. Representación y Comunicación. 

Barcelona: Institut Universitari de Lingüística Aplicada. Universitat 

Pompeu Fabra. 

Caropreso, M. F., Matwin, S., & Sebastiani, F. 2001. A learnerindependent 

evaluation of the usefulness of statistical phrases for 

automated text categorization. Pages 78–102 of: Text Databases 

and Document Management: Theory and Practice. 

Castro, M.J., Vilar, D., Aibar, P., & Sanchis, E. 2003. Dialogue Act 

Classification in a Spoken Dialogue System. Pages 260–270 of: 

Proceedings of the 10th Conference of the Spanish Association for 

Artificial Intelligence (CAEPIA´03). 

Chung, H., Song, Y.-I., Han, K.-S., Yoon, D.-S., Lee, J.-Y., Rim, H.- 

C., & Kim, S.-H. 2004. A practical QA system in restricted domains. 

In: Proceedings of 42nd Annual Meeting of the Association 

for Computational Linguistics. 

Cámara de la Fuente, L. 2004. La representación lingüística del conocimiento 

y su relevancia en la ingeniería lingüística. Hipertext.net, 

2. 

Codina, L., Domènech, M., Martí, J., & Rojo, A. 2001. Elementos a 

considerar en la representación del conocimiento de cara a la recuperación 

de información (el punto de vista cognitivo). In: La 

terminología científico-técnica: reconocimiento, análisis y extracción 

de información formal y semántica (DGES PB96-0293). 

Colmerauer, A., & Roussel, P. 1996. The birth of Prolog. History of 

programming languages, 331–367. 

Contreras, H.Y. 2001. Procesamiento del Lenguaje Natural basado en 

una “gramática de estilos´´ para el idioma español. Ph.D. thesis, 

Universidad de los Andes. 

Corcho, O., & Gómez-Pérez, A. 2001. Evaluating Knowledge Representation 

and Reasoning Capabilities of Ontology Specification Languages. 

In: Proceedings of the EON2002 Workshop on Evaluation 

of Ontology-based Tools. 

Courtin, J., & Genthial, D. 1998. Parsing with dependency relations and 

robust parsing. Pages 88–94 of: Proceedings of COLING-ACL’98 

Workshop on Processing of Dependency-based Grammars.

Referencias 205 

Croft, W.B., Turtle, H.R., & Lewis, D.D. 1991. The use of phrases 

and sructured queries in information retrieval. Pages 32–43 of: 

Proceedings of ACM SIGIR. 

Daelemans, W., & van den Bosch, A. 2007. Special Section on 

Restricted-Domain Question Answering. Computational Linguistics, 

33(1). 

Dale, R., Somers, H. L., & Moisl, H. 2000. Semantic Analysis. Handbook 

of Natural Language Processing. Marcel Dekker, Inc. New York, 

NY, USA. 

Darriba, V.M. 2007. Universidad de Vigo: Asignatura Lenguajes Naturales. 

Campus de Orense. Chap. Tema 1 y 2. 

Davidson, D. 1967. The Logical Form of Action Sentences. Pages 81–95 

of: Rescher, N. (ed), The Logic of Decision and Action. 

Deerwester, S., Dumais, S.T., Furnas, G.W., K, T.K. Landauer T., & 

Harshman, R. 1990. Indexing by Latent Semantic Analysis. Journal 

of the American Society for Information Science. 

Delisle, S., Barker, K., Delannoy, J.-F., Matwin, S., & Szpakowicz, S. 

1994. From Text to Horn Clauses: Combining Linguistic Analysis 

and Machine Learning. In: Proceedings of Canadian AI-94. 

Demner-Fushman, D., Humphrey, S. M., Ide, N. C., Loane, R. F., Mork, 

J. G., Ruch, P., Ruiz, M. E., Smith, L. H., Wilbur, W. J., & Aronsona, 

A. R. 2007. Combining resources to find answers to biomedical 

questions. In: Proceedings of the Sixteenth Text REtrieval Conference 

(TREC). 

Díez, P. L. 1999. La relación de meronimia en los sustantivos del léxico 

español: contribución a la semántica computacional. Vol. 2. Estudios 

de Lingüística Española. 

Dick, J. P. 1991. A conceptual, case-relation representation of text for 

intelligent retrieval. Ph.D. thesis, University of Toronto. 

Dillon, M., & Gray, A.S. 1983. FASIT: A fully automatic syntactically 

based indexing system. Journal of the American Society for 

Information Science, 34(2), 99–108. 

Doi, T., & Sumita, E. 2005. Splitting Input for Machine Translation 

Using N-gram Language Model Together with Utterance Similarity. 

IEICE Transactions, 88-D(6), 1256–1264. 

Dubuc, R., & Lauriston, A. 1997. Terms and Contexts. Handbook of 

Terminology Management. John Benjamins: 80-88. 

Eichmann, D., Ruiz, M., & Srinivasan, P. 1998. Cross-Language Information 

Retrieval with the UMLS Metathesaurus. Pages 72–80 of: 

Proc. of the 21st Annual International ACM SIGIR Conference on 

Research and Development in Information Retrieval. 

Ely, J.W., Osheroff, J.A., Gorman, P.N., Ebell, M.H., Chambliss, M.L., 

Pifer, E.A., & Stavri, P.Z. 2000. A taxonomy of generic clinical 

questions: classification study. Pages 429–432 of: British Medical 

Journal (BMJ), vol. 321.


Engel, R., & Sonntag, D. 2007. Text Generation in the SmartWeb 

Multimodal Dialogue System. In: KI 2007: Proceedings of the 30th 

Annual German Conference on Artificial Intelligence. 

Fagan, J.L. 1987. Automatic phrase indexing for document retrieval: 

An examination of syntactic and non-syntactic methods. Pages 

91–101 of: Proceedings of ACM SIGIR. 

Fernández, F., & Montero-Fleta, B. 2003. La premodificación nominal 

en el ámbito de la informática. Estudio contrastivo inglés-español. 

Universidad de Valencia. 

Ferrández, O., Terol, R.M., Martínez-Barco, P., & Palomar, M. 2006a. 

A Knowledge Based Strategy for Recognising Textual Entailment. 

Pages 53–60 of: Text, Speech and Dialogue. 

Ferrández, O., Terol, R.M., Muñoz, R., Martínez-Barco, P., & Palomar, 

M. 2007. A Knowledge-Based Textual Entailment Approach 

Applied to the AVE Task. Pages 490–493 of: Evaluation of Multilingual 

and Multi-modal Information Retrieval, 7th Workshop of 

the Cross-Language Evaluation Forum. 

Ferrández, S., & Ferrández, A. 2007. The Negative Effect of Machine 

Translation on Cross-Lingual Question Answering. Pages 494–505 

of: CICLing 2007. 

Ferrández, S., Ferrández, A., Roger, S., López-Moreno, P., & Peral, J. 

2006b. BRILI, an English-Spanish Question Answering System. 

Pages 23–29 of: Proceedings of the International Multiconference 

on Computer Science and Information Technology. 

Fitting, M. 1990. First-Order logic and automated theorem proving. 

Springer-Verlag. 

Forner, P., Peñas, A., Alegria, I., Forascu, C., Moreau, N., Osenova, 

P., Prokopidis, P., Rocha, P., Sacaleanu, B., Sutcliffe, R., & Sang, 

E.T.K. 2008. Overview of the CLEF 2008 Multilingual Question 

Answering Track. In: Working Notes for the CLEF 2008 Workshop. 

Galinsky, C. 2000. Terminology and Knowledge Representation. In: 

KnowTech 2000 Conference and Exhibition. 

Galvez, C., de Moya-Anegón, F., & Solana, V.H. 2005. Term conflation 

methods in information retrieval. Journal of Documentation, 61(4), 

520–547. 

Gamut, L. T. F. 1991. Logic, Language and Meaning. Chicago: Univ. 

chicago Press. 

García-Marco, F. J. 1998. El concepto de información: una aproximación 

transdisciplinar. Revista general de información y documentación, 

8(1), 303–326. 

García de Quesada, M. 2001. Estructura definicional terminográfica en 

el subdominio de la oncología clínica. Ph.D. thesis, University of 

Granada. 

Garret, A. V. 2003. Meaning in Spinoza’s Method. Cambridge University 

Press.


Garrido, M. 2003. Lógica simbólica. Ed. Tecnos. 

Gómez, J.M. 2008. InTiMe: plataforma de integración de recursos de 

PLN. In: Procesamiento del lenguaje natural. N. 40. 

Gomez-Hidalgo, J.M., Cortijo, J.C., Puertas, E., & Ruiz, M. 2004. Concept 

Indexing for Automated Text Categorization. Pages 195–206 

of: Proceedings of the 9th International Conference on Applications 

of Natural Language to Information Systems, NLDB 2004. 

Gonzalo, J., Verdejo, F., & Cigarran, J. 1998. Indexing with Word- 

Net synsets can improve text retrieval. In: Proceeding of the CO- 

LING/ACL Workshop on Usage of WordNet in Natural Language 

Processing. 

Hasan, M., & Matsumoto, Y. 1999. Document Clustering: Before and 

After the Singular Value Decomposition. Information Processing 

Society of Japan (IPSJ-TR:99-NL-134.), 47–55. 

Hassan, S., Mihalcea, R., & Banea, C. 2007. Random-Walk Term 

Weighting for Improved Text Classification. In: Proceedings of 

the IEEE International Conference on Semantic Computing (ICSC 

2007). 

Hayashi, M., Yamada, S., Kataoka, A., & Yokoo, A. 2001. ALT-J/C A 

Prototype Japanese-to-Chinese Automatic Language Translation 

System. Pages 157–161 of: In proceedings of the MT Summit VIII. 

Hobbs, J. 1985. Ontological promiscuity. In: Proceedings of the 23rd 

Annual Meeting of the Association for Computational Linguistics. 

Hodges, W. 1993. Logical features of Horn Clauses. In: Handbook of 

logic in artificial intelligence and logic programming (vol. 1). 

Humphreys, B.L., & Lindberg, D.A.D. 1993. The UMLS proyect: making 

the conceptual connection between users and the information 

they need. Pages 170–177 of: Bulletin of the Medical Library Association, 

vol. 81. 

Hurtado, L. F., Blat, F., García, F., Grau, S., Griol, D., Sanchís, E., 

Segarra, E., & Torres, E. 2005. Sistema de diálogo para el Proyecto 

DIHANA. Procesamiento del Lenguaje Natural, 35. 

Hutchins, J. W., & Somers, H. L. 1992. An introduction to machine 

translation. Academic Press. 

Jacquemin, C., & Tzoukeman, E. 1999. NLP for term variant extraction: 

A synergy of morphology, lexicon and syntax. Pages 25–74 of: 

Natural Language Information Retrieval. 

Jung, H., & Lee, G.G. 2002. Multilingual question answering with high 

portability on relational databases. International Conference On 

Computational Linguistics. Proceeding of the 2002 conference on 

multilingual summarization and question answering, 19. 

Junker, M., & Abecker, A. 1997. Exploiting thesaurus knowledge in rule 

induction for text classification. Pages 202–207 of: Proceedings of 

RANLP-97, 2nd International Conference on Recent Advances in 

Natural Language Processing.


Jurafsky, D., & Martin, J. H. 2000. Speech and Language Processing. 

An Introduction to Natural Language Processing, Computational 

Linguistics and Speech Recognition. London: Prentice Hall. 

Justeson, J.S., & Katz, S.M. 1995. NLP for term variant extraction: 

A synergy of morphology, lexicon and syntax. Natural Language 

Engineering, 1, 9–27. 

Kamp, H. 1981. A theory of truth and semantic representation. Pages 

277–322 of: Formal Methods in the Study of Language. 

Kamp, H., & Reyle, U. 1993. From Discourse to Logic: Introduction 

to Modeltheoretic Semantics of Natural Language, Formal Logic 

and Discourse Representation Theory. Institute for Computational 

Linguistics, University of Stuttgart. 

Kandel, E. R., Schwartz, I. H., & Jessel, T. M. 1996. Essentials of 

Neural Science and Behavior. McGraw-Hill/Appleton & Lange. 

Kang, S.-S. 2004. Term-Specific Language Modeling Approach to Text 

Categorization. Pages 735–742 of: International Conference on 

Computational Science and Its Applications - ICCSA 2004. 

Keselj, V., Peng, F., Cercone, N., & Thomas, C. 2003. N-gram-based 

Author Profiles for Authorship Attribution. In: Proceedings of the 

Conference Pacific Association for Computational Linguistics. 

Kirakowski, J. 1988. Human/Computer Interaction: From Voltage to 

Knowledge. Chartwell-Bratt. 

Kjell, B., Addison-Woods, W., & Frieder, O. 1994. Discrimination of 

authorship using visualization. Information Processing and Management, 

30(1). 

Kowalski, R. 1980. Logic for Problem Solving. North Holland, New 

York. 

Kuper, J., Saggion, H., Cunningham, H., Declerck, T., de Jong, F., 

Reidsma, D., Wilks, Y., & Wittenburg, P. 2003. Intelligent Multimedia 

Indexing and Retrieval through Multi-source Information 

Extraction and Merging. In: International Joint Conferences on 

Artificial Intelligence (IJCAI). 

Lascarides, A., & Asher, N. 1993. Temporal Interpretation, Discourse 

Relations, and Commonsense Entailment. Linguistics and Philosophy, 

16, 437–493. 

Lear, J. 1980. Aristotle and Logical Theory. Cambridge University 

Press. 

Lewis, D. D. 1992. Representation and learning in information retrieval. 

Ph.D. thesis, University of Massachusetts. 

Lin, C.-Y., & Hovy, E. 2002. From Single to Multi-document Summarization: 

A Prototype System and its Evaluation. Pages 457–464 

of: Proceedings of the 40th Annual Meeting of the Association for 

Computational Linguistics (ACL). 

Lin, C.-Y., & Och, F. J. 2004. Automatic evaluation of machine translation 

quality using longest common subsequence and skip-bigram


statistics. In: Proceedings of the 42nd Annual Meeting on Association 

for Computational Linguistics. 

Lin, D. 1998a. An Information-Theoretic Definition of Similarity. Pages 

296–304 of: Proceedings of the International Conference on Machine 

Learning. 

Lin, D. 1998b. Dependency-based Evaluation of MINIPAR. In: Workshop 

on the Evaluation of Parsing Systems. 

Lin, J. 2006. The role of information retrieval in answering complex 

questions. Pages 523–530 of: Proceedings of the COLING/ACL 

2006. 

Lindberg, D.A.D., & Humphreys, B.L. 1993. The Unified Medical Language 

System. Pages 281–291 of: Methods of Information in Medicine, 

vol. 32. 

Llopis, F. 2003. IR-n: Un Sistema de Recuperación de Información 

basado en pasajes. Ph.D. thesis, Universidad de Alicante. 

Llopis, F., Muñoz, R., Terol, R.M., & Noguera, E. 2005. IR-n r2: Using 

Normalized Passages. Multilingual Information Access for Text, 

Speech and Images, 90–99. 

Magnini, B., Negri, M., Prevete, R., & Tanev, H. 2002. Mining Knowledge 

from Repeated Co-occurrences: DIOGENE at TREC-2002. 

In: Proceedings of The Eleventh Text Retrieval Conference (TREC 

2002). 

Manjula, D., Aghila, G, & Geetha, T. V. 2003. Document Knowledge 

Representation using Description Logics for Information Extraction 

and Querying. In: Proceedings of the International Conference 

on Information Technology: Computers and Communications. 

Manning, C. D., & Schütze, H. 1999. Foundations of Statistical Natural 

Language Processing. Cambridge: The MIT Press. 

Manzano, M. 1996. Extensions of first order logic. Cambridge University 

Press. 

Marchetti, A., Tesconi, M., Ronzano, F., Rosella, M., Bertagna, F., 

Monachini, M., Soria, C., Calzolari, N., Huang, C.-R., & Hsieh, S.- 

K. 2006. Toward an Architecture for the Global Wordnet Initiative. 

In: Proceedings of the 3rd Italian Semantic Web Workshop. 

Marcus, M.P., Santorini, B., & Marcinkiewicz, M.A. 1994. Building a 

Large Annotated Corpus of English: The Penn Treebank. Computational 

Linguistics, 19, 313–330. 

Marquez, L. 2001. Tratamiento del lenguaje natural. Edicions Universitat 

Barcelona. Chap. Aprendizaje automático y procesamiento del 

lenguaje natural, pages 133–188. 

Martínez-Vázquez, M. 1996. Gramática contrastiva inglés-español. Servicio 

de publicaciones de la Universidad de Huelva. 

Matsumura, A., Takasu, A., & Adachi, J. 2006. Effect of relationships 

between words on Japanese information retrieval. ACM Transac-


tions on Asian Language Information Processing (TALIP), 5(3), 

264–289. 

Mauldin, M.L. 1991. Performance in ferret: a conceptual information 

retrieval system. Pages 347–355 of: Proceedings of ACM SIGIR. 

McRoy, S., Haller, S., & Ali, S. 1998. Mixed Depth Representations for 

Dialog Processing. In: Proceedings of Cognitive Science ’98. 

Mihalcea, R., & Tarau, P. 2005. An Algorithm for Language Independent 

Single and Multiple Document Summarization. In: Proceedings 

of the International Joint Conference on Natural Language 

Processing (IJCNLP). 

Miller, G. A. 1995. WordNet: A Lexical Database for English. Communications 

of the ACM, 38(11), 39 – 41. 

Minsky, M. 1975. A Framework for Representing Knowledge. The Psychology 

of Computer Vision, McGraw-Hill. 

Mladenic, D., & Grobelnik, M. 1998. Word sequences as features in textlearning. 

Pages 145–148 of: Proceedings of ERK-98, the Seventh 

Electrotechnical and Computer Science Conference. 

Moens, M., & Steedman, M.J. 1988. Temporal ontology and temporal 

reference. Computational Linguistics, 14, 15–28. 

Moldovan, D., & Novischi, A. 2002. Lexical Chains for Question Answering. 

Pages 1–7 of: Proceedings of the 19th International Conference 

on Computational Linguistics, vol. 1. 

Moldovan, D., Clark, C., Harabagiu, S., & Maiorano, S. 2003. COGEX: 

a logic prover for question answering. Pages 87–93 of: Proceedings 

of HTL-NAACL 2003, Human Language Technology Conference. 

Moldovan, D., Clark, C., Harabagiu, S., & Maiorano, S. 2007. COGEX: 

A semantically and contextually logic prover for question answering. 

Journal of Applied Logic, 5(1), 49–69. 

Mollá, D., & Vicedo, J.L. 2004. Question Answering in Restricted Domains. 

Association for Computational Linguistics. 

Mollá, D., Schwitter, R., Hess, M., & Fournier, R. 2002. ExtrAns, 

an answer extraction system. TAL Special Issue on Information 

Retrieval Oriented Natural Language Processing, 495–522. 

Moore, R. 1981. Problems in logical form. In: Proceedings of the 19th 


Moore, R. C. 1995. Logic and Representation. CSLI Lecture Notes. 

Moreda, P., Llorens, H., Saquete, E., & Palomar, M. 2008. The influence 

of Semantic Roles in QA: A comparative analysis. In: Actas del 

XXIV Congreso de la SEPLN. 

Moreno, L., Palomar, M., Molina, A., & Ferrández, A. 1999. Introducción 

al Procesamiento del Lenguaje Natural. Alicante: Universidad 

de Alicante. 

Newell, A. 1980. The Knowledge Level. Presidential Address, American 

Association for Artificial Intelligence, 2(2), 1–20. 

Parry, W. T., & Hacker, E. A. 1991. Aristotelian Logic. SUNY Press.


Partee, B. H., ter Meulen, A. G., & Wall, R. 2004. Mathematical Methods 

in Linguistics. Springer. 

Peñas, A., Rodrigo, A., Sama, V., & Verdejo, F. 2007. Overview of the 

Answer Validation Exercise 2006. Pages 257–264 of: Evaluation of 

Multilingual and Multi-modal Information Retrieval, 7th Workshop 

of the Cross-Language Evaluation Forum. 

Pedersen, T., Patwardhan, S., & Michelizzi, J. 2004. Word- 

Net::Similarity - Measuring the Relatedness of Concepts. In: Proceedings 

of the 19th National Conference on Artificial Intelligence. 

Pereira, F. C. N., & Warren, D. H. D. 1983. Parsing as Deduction. In: 

Proceedings of 21st Annual Meeting of the Association for Computational 

Linguistics. 

Petridis, V., Kaburlaos, V. G., Fragkou, P., & Kehagias, A. 2001. Text 

classification using the σ-FLNMAP neural network. In: Proceedings 

of the 2001 International Joint Conference on Neural Networks. 

Poesio, M., Ferguson, G., Heeman, P., Hwang, C. H., Traum, D. R., 

Allen, J. F., Martin, N., & Schubert, L. K. 1994. Knowledge Representation 

in the TRAINS System. In: In Working Notes of the 

AAAI 1994 Fall Symposium on 156 Knowledge Representation for 

Natural Language Processing in Implemented Systems. 

Porter, M.F. 1980. An algorithm for suffix stripping. Program, 14(3), 

130–137. 

Pérez, M., Solorio, T., Montes, M., López, A., & Villaseñor, L. 2004. 

Question answering for Spanish based on lexical and context annotation. 

Pages 325–333 of: Advances in Artificial Intelligence - 

IBERAMIA 2004. 

Quirk, C., Menezes, A., & C.Cherry. 2005. Dependency Treelet Translation: 

Syntactically Informed Phrasal SMT. In: Proceedings of 43rd 


Ramakrishnanan, G., & Bhattacharyya, P. 2003. Text Representation 

with WordNet Synsets Using Soft Sense Disambiguation. Ingenierie 

des Systems d Information, 8(3), 55–70. 

Rich, E., & Knight, K. 1994. Inteligencia Artificial. McGraw Hill. 

Riloff, E, & Jones, R. 1999. Learning Dictionaries for Information Extraction 

by Multilevel Bootstrapping. In: Proceedings of the 13th 

National Conference on Artificial Intelligence (AAAI). 

Roger, S., Ferrández, S., Ferrández, A., Peral, J., Llopis, F., Aguilar, A., 

& Tomás, D. 2005. AliQAn, Spanish QA System at CLEF-2005. 

Pages 457–466 of: Accessing Multilingual Information Repositories, 

6th Workshop of the Cross-Language Evalution Forum. 

Roth Jr., C.H. 2006. Fundamentos de diseño lógico. Ed. Thomson. 

Rumelhart, D.E., Widrow, B., & Lehr, M.A. 1994. The Basic Ideas in 

Neural Networks. Communications of the ACM (CACM), 37(3). 

Rus, V. 2002. Logic Form for WordNet Glosses. Ph.D. thesis, Southern 

Methodist University.


Rus, V., & Moldovan, D.I. 2002. High performance logic form transformation. 

International Journal for Tools with Artificial Intelligence, 

3, 437–454. 

Russell, S., & Norving, P. 1996. Inteligencia Artificial: un enfoque moderno. 

Prentice Hall. 

Sager, J. C. 1990. A Practical Course in Terminology Processing. John 

Benjamins Publishing Company. 

Sakay, H., & Masuyama, S. 2004. A multiple-document summarization 

system with user interaction. Proceedings of the 20th International 

Conference on Computational Linguistics. 

Salton, G. 1989. Automatic text processing: the transformation, analysis, 

and retrieval of information by computer. Addison Wesley. 

Sanderson, M. 2000. Retrieving with Good Sense. Information Retrieval 

Journal, 2(1), 49–61. 

Sasaki, Y., & Matsuo, Y. 2000. Learning Semantic-Level Information 

Extraction Rules by Type-Oriented ILP. In: Proceedings of the 18th 

International Conference on Computational Linguistics, COLING- 

2000. 

Schneider, K. 2004. A new feature selection score for multinomial naive 

Bayes text classification based on KL-divergence. In: Proceedings 

of 42st Annual Meeting of the Association for Computational Linguistics. 

Scott, S., & Matwin, S. 1999. Feature engineering for text classification. 

Pages 379–388 of: Proceedings of ICML-99, 16th International 

Conference on Machine Learning. 

Shaban, K. 2006. A Semantiic Graph Modell for Text Representatiion 

and Matchiing iin Document Miiniing. Ph.D. thesis, University of 

Waterloo. 

Shimohata, S., Kitamura, M., Sukehiro, T., & Murata, T. 2001. Collaborative 

Translation Environment on the Web. Pages 331–334 of: 

In proceedings of the MT Summit VIII. 

Sikorski, T., & Allen, J. F. 1996. A Task-Based Evaluation of the 

TRAINS-95 Dialogue System. Pages 207–220 of: Workshop on 

Dialogue Processing in Spoken Language Systems. 

Silva, J., & Lopes, G. 1999. A local Maxima Method and a Fair Dispersion 

Normalization for Extracting Multiword Units. In: Proceedings 

of the 6th Meeting on the Mathematics of Language. 

Sleator, D., & Temperley, D. 1993. Parsing English with a link grammar. 

In: Porceedings of Third International Workshop on Parsing 

Technologies. 

Soria, C., Tesconi, M., Marchetti, A., Bertagna, F., Monachini, M., 

Huang, C.-H., & Calzolari, N. 2006. Towards Agent-based Crosslingual 

Interoperability of Distributed Lexical Resources. Pages 

17–24 of: Proceedings of the Workshop on Multilingual Langua-


ge Resources and Interoperability. Association for Computational 

Linguistics. 

Sosa, E. 1997. Procesamiento del lenguaje natural: revisión del estado 

actual, bases teóricas y aplicaciones (Parte I). El profesional de la 

información. 

Sperschneider, V., & Antoniou, G. 1991. Logic: A foundation for Computer 

Science. Addison-Wesley. 

Stallard, D. 1987. The logical analysis of lexical ambiguity. In: Proceedings 

of the 25th annual meeting on Association for Computational 

Linguistics. 

Steels, L. 1997. Synthesising the Origins of Language and Meaning 

Using Co-evolution, Self-organisation and Level formation. In: Approaches 

to the Evolution of Language: Social and Cognitive bases. 

Steels, L. 2000. The puzzle of language evolution. Kognitionswissenschaft, 

8(4), 143–150. 

Strzalkowski, T., Wang, J., & Wise, B. 1998. Summarization-based 

Query Expansion in Information Retrieval. In: Proceedings of the 

17th International Conference on Computational Linguistics (CO- 

LING´98) and 36th Annual Meeting of the Association for Computational 

Linguistics (ACL´98). 

Terol, R.M., Martinez-Barco, P., & Palomar, M. 2007. A knowledge 

based method for the medical question answering problem. Pages 

1511 – 1521 of: Computers in Biology and Medicine, vol. 37. 

Tran, T.D., Garcelon, N., Burgun, A., & Beux, P. Le. 2004. Experiments 

in cross-language medical information retrieval using a mixing 

translation module. Medinfo, 11(2), 946–949. 

Ullman, J. D., & Widom, J. 1999. Introducción a los Sistemas de Bases 

de Datos. Prentice Hall. 

van Emden, M. H., & Kowalski, R. 1976. The Semantics of Predicate 

Logic as a Programming Language. Journal of the ACM, 24(4), 

733–742. 

Veronis, J. 1988. Morphosyntactic correction in natural language interfaces. 

Pages 708–713 of: Proceedings of the 13th International 

Conference on Computational Linguistics (COLING´88). 

Vicedo, J.L. 2002. SEMQA: un modelo semántico aplicado a los sistemas 

de búsqueda de respuestas. Ph.D. thesis, University of Alicante. 

Vilares, J., Barcala, F. M., & Alonso, A. 2002. Using Syntactic 

Dependency-Pairs Conflation to Improve Retrieval Performance in 

Spanish. Pages 381–390 of: CICLing. 

Vosse, T. 1992. Detecting and correcting morpho-syntactic errors in 

real texts. Pages 111–118 of: Proceedings of the Third Conference 

on Applied Natural Language Processing. 

Vossen, P. 1998. A Multilingual Database with Lexical Semantic Networks. 

Dordrecht: Kluwer Academic Publisher.


Vossen, P. 2002. EuroWordNet General Document. Part A. Final Document. 

EuroWordNet (LE2-4003, LE4-8328). 

White, R.W., Oard, D.W., Jones, G.J.F., Soergel, D., & Huang, X. 

2006. Overview of the CLEF-2005 Cross-Language Speech Retrieval 

Track. Pages 744 – 759 of: Accessing Multilingual Information 

Repositories. 

Yangarber, R. 2003. Counter-Training in Discovery of Semantic Patterns. 

In: Proceedings of the 41th Annual Meeting of the Association 

for Computational Linguistics (ACL). 

Yangarber, R., Grishman, R., Tapanainen, P., & Huttunen, S. 2000. 

Unsupervised Discovery of Scenario-Level Patterns for Information 

Extraction. In: Proceedings of the 18th International Conference 

on Computational Linguistics, COLING-2000. 

Zelikovitz, S., Cohen, W. W., & Hirsh, H. 2007. Extending WHIRL 

with background knowledge for improved text classification. Information 

Retrieval, 10(1), 35–67. 

Zhang, D., & Lee, W.S. 2003. Question classification using support vector 

machines. Annual ACM Conference on Research and Development 

in Information Retrieval. Proceedings of the 26th annual international 

ACM SIGIR conference on Research and development 

in informaion retrieval, 26–32. 

Zhang, J, & Li, C. 2005. A Comparative Study for WordNet Guided 

Text Representation. Pages 883–887 of: Proceedings of AI 2005: 

Advances in Artificial Intelligence.

Representación del conocimiento textual mediante técnicas lógico ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?