08.05.2013 Views

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

Representación del conocimiento textual mediante técnicas lógico ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Representación</strong> <strong>del</strong> <strong>conocimiento</strong><br />

<strong>textual</strong> <strong>mediante</strong> <strong>técnicas</strong><br />

<strong>lógico</strong>-conceptuales en aplicaciones de<br />

tecnologías <strong>del</strong> lenguaje humano<br />

Tesis Doctoral<br />

Presentada por<br />

Rafael Muñoz Terol<br />

Dirigida por<br />

Dr. Patricio Martínez Barco<br />

Dpto. de Lenguajes y Sistemas Informáticos<br />

Universidad de Alicante<br />

Alicante, marzo de 2009


A mis sobrinos: José,<br />

Ainhoa y Samuel


Agradecimientos<br />

Esta Tesis no habría sido posible sin el alentador trabajo de mi director,<br />

Patricio Martínez Barco. Quiero agradecerle no sólo su atenta labor de dirección<br />

(que ya es por sí misma motivo sobrado), sino también por su constante<br />

ánimo y por todo lo que he podido aprender de él en el día a día.<br />

Mi más que profundo agradecimiento a Manuel Palomar y Pepe Clavel quienes,<br />

junto a mi director, me dieron la oportunidad de trabajar en el Grupo<br />

de Investigación en Procesamiento <strong>del</strong> Lenguaje Natural, allá por el mes de<br />

noviembre de 2002.<br />

A mis tocayos Muñoz y Romero, Borja Navarro, José Luis Vicedo, David<br />

Tomás, Fernando Llopis, Sergio y Óscar Ferrández, Marcel Puchol y Elisa<br />

Noguera por su ayuda y colaboración en las diferentes etapas <strong>del</strong> trabajo de<br />

investigación.<br />

En general, quiero hacer una mención muy especial a todos y cada uno de<br />

mis compañeros <strong>del</strong> Grupo de Procesamiento <strong>del</strong> Lenguaje y Sistemas de Información<br />

de la Universidad de Alicante, sin cuyos ánimos y colaboración me<br />

habría resultado muy difícil la finalización de este trabajo.<br />

Un agradecimiento muy especial va dirigido a mis compañeros de despacho<br />

Santi, Sonia e Irene quienes no han dejado de apoyarme durante el transcurso<br />

de este profundo trabajo de investigación.<br />

A mi madre y la memoria de mi padre y mis tías, por inculcarme desde<br />

niño el valor <strong>del</strong> esfuerzo para alcanzar los objetivos desde el profundo respeto<br />

hacia los demás. A mis tíos, primos y sobrinos por su gran cercanía y apoyo<br />

incondicional durante toda esta etapa predoctoral.


Índice general<br />

1.. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.1. La independencia <strong>del</strong> dominio en los sistemas de PLN . . . . . . . . . . 2<br />

1.2. La multilingualidad en los sistemas de PLN . . . . . . . . . . . . . . . . . . 3<br />

1.3. Exposición <strong>del</strong> problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.. Estado <strong>del</strong> arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

2.1. Aplicaciones <strong>del</strong> PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.1.1. Sistemas estadísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.1.2. Sistemas basados en reglas de PLN o <strong>conocimiento</strong> lingüístico<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.2. <strong>Representación</strong> <strong>textual</strong> sin contenido lingüístico . . . . . . . . . . . . . . . 20<br />

2.2.1. Mo<strong>del</strong>o básico de representación . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.2.2. Mo<strong>del</strong>o de n-gramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.3. <strong>Representación</strong> <strong>textual</strong> con contenido lingüístico . . . . . . . . . . . . . . 23<br />

2.3.1. Mo<strong>del</strong>o de representación sintáctica . . . . . . . . . . . . . . . . . . . . 23<br />

2.3.2. Mo<strong>del</strong>o basado en relaciones de dependencia entre palabras 24<br />

2.3.3. Mo<strong>del</strong>o de fusión de pares de dependencias sintácticas . . . . 25<br />

2.3.4. Mo<strong>del</strong>o de formas lógicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.3.5. Mo<strong>del</strong>o de representación semántica basado en grafos . . . . . 27<br />

2.3.6. Mo<strong>del</strong>o basado en ontología . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

2.3.7. Mo<strong>del</strong>o basado en análisis de la semántica latente (LSA) . . 30<br />

2.4. Síntesis de los enfoques de representación <strong>textual</strong> . . . . . . . . . . . . . . 31<br />

2.5. La representación formal <strong>del</strong> texto en los sistemas de PLN . . . . . . 31<br />

2.5.1. La representación formal <strong>del</strong> texto en los sistemas de<br />

Búsqueda de Respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

2.5.2. La representación formal <strong>del</strong> texto en los sistemas de Recuperación<br />

de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

2.5.3. La representación formal <strong>del</strong> texto en los sistemas de Traducción<br />

Automática . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

2.5.4. La representación formal <strong>del</strong> texto en los sistemas de Categorización<br />

Automática de Textos . . . . . . . . . . . . . . . . . . . . . 36<br />

2.5.5. La representación formal <strong>del</strong> texto en los sistemas de Diálogo 38<br />

2.5.6. La representación formal <strong>del</strong> texto en los sistemas de Extracción<br />

de Información . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


VI Índice general<br />

2.5.7. La representación formal <strong>del</strong> texto en los sistemas de Generación<br />

de Resúmenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

2.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

3.. La Forma Lógica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.1. El cálculo de predicados de primer orden en el PLN . . . . . . . . . . . 45<br />

3.1.1. Lenguaje de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

3.1.2. Interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

3.1.3. Evaluación de formas lógicas . . . . . . . . . . . . . . . . . . . . . . . . . . 49<br />

3.2. La forma lógica en el PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

3.3. La forma lógica en aplicaciones de PLN . . . . . . . . . . . . . . . . . . . . . . 55<br />

3.4. La forma lógica extendida: independiente <strong>del</strong> dominio y de la<br />

lengua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />

3.4.1. Obtención de las relaciones de dependencia entre pares de<br />

palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

3.4.2. Derivación de la forma lógica . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

3.4.3. Ejemplo de derivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71<br />

3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

4.. La forma <strong>lógico</strong>-conceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />

4.1. Tratamiento <strong>lógico</strong>-conceptual y representación semántica . . . . . . 78<br />

4.1.1. WordNet y EuroWordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81<br />

4.1.2. UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />

4.2. Derivación de las formas <strong>lógico</strong>-conceptuales . . . . . . . . . . . . . . . . . . 83<br />

4.3. Independencia <strong>del</strong> dominio en la forma lógica . . . . . . . . . . . . . . . . . 87<br />

4.3.1. La forma <strong>lógico</strong>-conceptual en el dominio abierto . . . . . . . . . 88<br />

4.3.2. La representación semántica de la frase en el dominio abierto 90<br />

4.3.3. La forma <strong>lógico</strong>-conceptual en los dominios restringidos . . . 91<br />

4.3.4. La representación semántica de la frase en los dominios<br />

restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

4.4. La independencia de la lengua de la forma lógica . . . . . . . . . . . . . . 95<br />

4.4.1. La independencia de la lengua de la forma lógica en el<br />

dominio abierto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99<br />

4.4.2. La independencia de la lengua de la forma lógica en los<br />

dominios restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />

4.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

5.. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación<br />

formal <strong>del</strong> texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109<br />

5.1. Análisis y determinación de las tareas de evaluación . . . . . . . . . . . 111<br />

5.2. Evaluación en la tarea Cross-Language Speech Retrieval <strong>del</strong><br />

CLEF 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

5.2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

5.2.2. Motivación y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 115<br />

5.2.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116


Índice general VII<br />

5.2.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120<br />

5.2.5. Análisis y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

5.3. Participación en la tarea Recognising Textual Entailment <strong>del</strong><br />

PASCAL 2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />

5.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124<br />

5.3.2. Motivación y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 126<br />

5.3.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br />

5.3.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131<br />

5.3.5. Análisis y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133<br />

5.4. Participación en la tarea Answer Validation Exercise <strong>del</strong> CLEF<br />

2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134<br />

5.4.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134<br />

5.4.2. Motivación y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 135<br />

5.4.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

5.4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />

5.4.5. Análisis y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137<br />

5.5. Participación en la tarea Multilingual Question Answering <strong>del</strong><br />

CLEF 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138<br />

5.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138<br />

5.5.2. Motivación y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 140<br />

5.5.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140<br />

5.5.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142<br />

5.5.5. Análisis y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142<br />

5.6. Evaluación en la clasificación de preguntas médicas . . . . . . . . . . . . 143<br />

5.6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143<br />

5.6.2. Motivación y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 145<br />

5.6.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146<br />

5.6.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152<br />

5.6.5. Análisis y discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152<br />

5.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153<br />

6.. Conclusiones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157<br />

6.1. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158<br />

6.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160<br />

6.3. Producción científica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />

Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203


Índice de tablas<br />

2.1. Ejemplo de representación según el mo<strong>del</strong>o de bolsa de palabras . . . . 21<br />

2.2. Ejemplo de representación según el mo<strong>del</strong>o de representación sintáctica 24<br />

2.3. Ejemplo de representación según el mo<strong>del</strong>o basado en relaciones de<br />

dependencias entre palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.4. Ejemplo de representación según el mo<strong>del</strong>o de fusión de pares de<br />

dependencias sintácticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.5. Ejemplo de representación según el mo<strong>del</strong>o de representación semántica<br />

(I) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.6. Ejemplo de representación según el mo<strong>del</strong>o de representación semántica<br />

(II) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.7. Ejemplo de representación según el mo<strong>del</strong>o híbrido . . . . . . . . . . . . . . . . 30<br />

2.8. Asignación de frecuencias entre términos y documentos según el mo<strong>del</strong>o<br />

LSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

2.9. Síntesis de los enfoques de representación <strong>textual</strong> . . . . . . . . . . . . . . . . . 32<br />

2.10.Síntesis de los mo<strong>del</strong>os de representación <strong>textual</strong> . . . . . . . . . . . . . . . . . 33<br />

2.11.Relaciones semánticas de la frase <strong>del</strong> ejemplo . . . . . . . . . . . . . . . . . . . . . 34<br />

3.1. Síntesis de los enfoques basados tanto en lógica como en formas<br />

lógicas aplicados al PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />

3.2. Relaciones de dependencias entre las palabras de la frase . . . . . . . . . . 63<br />

3.3. Subconjunto de reglas simples de PLN aplicadas a las hojas en el<br />

árbol de dependencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

3.4. Subconjunto de reglas complejas de PLN aplicadas a las relaciones<br />

de dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

3.5. Relaciones de dependencias entre las palabras de la frase . . . . . . . . . . 71<br />

3.6. Reglas simples de PLN aplicadas a las hojas <strong>del</strong> árbol de dependencias 73<br />

3.7. Reglas complejas de PLN aplicadas a las relaciones de dependencias . 73<br />

4.1. Synsets <strong>del</strong> sustantivo car . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />

4.2. Información semántica relativa al sustantivo aspirin . . . . . . . . . . . . . . . 83<br />

4.3. Predicados conceptualizados de la forma lógica . . . . . . . . . . . . . . . . . . . 85<br />

4.4. Formas <strong>lógico</strong>-conceptuales derivadas de la forma lógica original . . . . 86<br />

4.5. Predicados conceptualizados de la forma lógica . . . . . . . . . . . . . . . . . . . 89<br />

4.6. Predicados multiconceptualizados desambiguados de la forma <strong>lógico</strong>conceptual<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91<br />

4.7. Conceptos de UMLS asociados a los predicados de la forma lógica . . 94


X Índice de tablas<br />

4.8. Tipos semánticos en UMLS asociados a los predicados conceptualizados<br />

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94<br />

4.9. Predicados multiconceptualizados desambiguados de la forma <strong>lógico</strong>conceptual<br />

en el dominio médico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

4.10.Reglas contrastivas aplicadas entre la lenguas española e inglesa . . . . 98<br />

4.11.Ejemplos de aplicación de las reglas contrastivas . . . . . . . . . . . . . . . . . . 99<br />

4.12.Traducción al español de los predicados de la forma lógica . . . . . . . . . 103<br />

4.13.Conceptos de la version inglesa de Wornet 1.5 traducidos <strong>mediante</strong><br />

el ILI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103<br />

5.1. Relación existente entre las tareas de evaluación y los matices contemplados<br />

en la evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113<br />

5.2. Ejemplo de tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116<br />

5.3. Pesos de los términos asignados por el sistema IR-n y su actualización<br />

según la heurística aplicada sobre la forma lógica <strong>del</strong> tópico . . . . 118<br />

5.4. Precisión <strong>del</strong> proceso de Recuperación de Información aplicando la<br />

heurística sobre la forma lógica <strong>del</strong> tópico. . . . . . . . . . . . . . . . . . . . . . . . 119<br />

5.5. Resultados de evaluación en la tarea CL-SR <strong>del</strong> CLEF 2005 . . . . . . . . 120<br />

5.6. Número de nodos obtenidos por cada formalismo en la representación<br />

de los tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

5.7. Ejemplos de re<strong>conocimiento</strong> de la Vinculación Textual . . . . . . . . . . . . . 127<br />

5.8. Resultados de la evaluación en la tarea Recognising Textual Entailment 132<br />

5.9. Resultados de la evaluación en la tarea Answer Validation Exercise . 136<br />

5.10.Resultados de la Búsqueda de Respuestas inglés-español . . . . . . . . . . . 142<br />

5.11.Evaluación detallada de la clasificación de preguntas . . . . . . . . . . . . . . 151<br />

5.12.Evaluación global de la clasificación de preguntas . . . . . . . . . . . . . . . . . 151<br />

5.13.Precisión de los clasificadores en cada ejecución de la evaluación . . . . 152<br />

6.1. Preguntas de entrenamiento <strong>del</strong> tipo genérico 1 . . . . . . . . . . . . . . . . . . . 182<br />

6.2. Preguntas de entrenamiento <strong>del</strong> tipo genérico 2 . . . . . . . . . . . . . . . . . . . 183<br />

6.3. Preguntas de entrenamiento <strong>del</strong> tipo genérico 3 . . . . . . . . . . . . . . . . . . . 184<br />

6.4. Preguntas de entrenamiento <strong>del</strong> tipo genérico 4 . . . . . . . . . . . . . . . . . . . 185<br />

6.5. Preguntas de entrenamiento <strong>del</strong> tipo genérico 5 . . . . . . . . . . . . . . . . . . . 186<br />

6.6. Preguntas de entrenamiento <strong>del</strong> tipo genérico 6 . . . . . . . . . . . . . . . . . . . 187<br />

6.7. Preguntas de entrenamiento <strong>del</strong> tipo genérico 7 . . . . . . . . . . . . . . . . . . . 188<br />

6.8. Preguntas de entrenamiento <strong>del</strong> tipo genérico 8 . . . . . . . . . . . . . . . . . . . 189<br />

6.9. Preguntas de entrenamiento <strong>del</strong> tipo genérico 9 . . . . . . . . . . . . . . . . . . . 190<br />

6.10.Preguntas de entrenamiento <strong>del</strong> tipo genérico 10 . . . . . . . . . . . . . . . . . . 191<br />

6.11.Preguntas de evaluación <strong>del</strong> tipo genérico 1 . . . . . . . . . . . . . . . . . . . . . . 192<br />

6.12.Preguntas de evaluación <strong>del</strong> tipo genérico 2 . . . . . . . . . . . . . . . . . . . . . . 193<br />

6.13.Preguntas de evaluación <strong>del</strong> tipo genérico 3 . . . . . . . . . . . . . . . . . . . . . . 194<br />

6.14.Preguntas de evaluación <strong>del</strong> tipo genérico 4 . . . . . . . . . . . . . . . . . . . . . . 195<br />

6.15.Preguntas de evaluación <strong>del</strong> tipo genérico 5 . . . . . . . . . . . . . . . . . . . . . . 196<br />

6.16.Preguntas de evaluación <strong>del</strong> tipo genérico 6 . . . . . . . . . . . . . . . . . . . . . . 197<br />

6.17.Preguntas de evaluación <strong>del</strong> tipo genérico 7 . . . . . . . . . . . . . . . . . . . . . . 198


Índice de tablas XI<br />

6.18.Preguntas de evaluación <strong>del</strong> tipo genérico 8 . . . . . . . . . . . . . . . . . . . . . . 199<br />

6.19.Preguntas de evaluación <strong>del</strong> tipo genérico 9 . . . . . . . . . . . . . . . . . . . . . . 200<br />

6.20.Preguntas de evaluación <strong>del</strong> tipo genérico 10 . . . . . . . . . . . . . . . . . . . . . 201


Índice de figuras<br />

2.1. Grafo que representa el texto <strong>del</strong> ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

4.1. Enlaces al lema prohibition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

4.2. Árbol de relaciones de dependencia entre las palabras de la frase. . . . 103<br />

5.1. Árbol de dependencias <strong>del</strong> tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />

5.2. Árbol de constituyentes <strong>del</strong> tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />

5.3. Árbol <strong>lógico</strong> <strong>del</strong> tópico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123<br />

5.4. Arquitectura <strong>del</strong> sistema de vinculación <strong>textual</strong>. . . . . . . . . . . . . . . . . . . 129<br />

5.5. Ajuste <strong>del</strong> umbral sobre el corpus de desarrollo . . . . . . . . . . . . . . . . . . . 130


1. Introducción<br />

El Procesamiento <strong>del</strong> Lenguaje Natural (PLN) es una disciplina con una<br />

destacada trayectoria. Nace en la década de los años sesenta, como un subarea<br />

de la Inteligencia Artificial y la Lingüística, con el objeto de estudiar los problemas<br />

derivados de la generación y comprensión automática <strong>del</strong> lenguaje natural.<br />

Durante los últimos años se está produciendo un notable crecimiento de la<br />

cantidad de información en formato digital unido a la fuerte expansión de las<br />

comunicaciones entre ordenadores como vía principal de transmisión de información<br />

entre usuarios. La gran cantidad de información disponible junto al<br />

creciente número de usuarios finales que disponen de acceso directo a dicha<br />

información a través de las redes de ordenadores, ha derivado la investigación<br />

en sistemas de información <strong>textual</strong> o sistemas de PLN que faciliten el análisis,<br />

la localización, la gestión, el acceso y el tratamiento automático de toda esta<br />

información.<br />

En este marco de sobrecarga de información, las <strong>técnicas</strong> de minería de<br />

textos (y en concreto aplicaciones tales como Recuperación de Información,<br />

Búsqueda de Respuestas, Extracción de Información y análisis de la información<br />

en general tratadas desde el punto de vista de las Tecnologías <strong>del</strong> Lenguaje<br />

Humano) pueden ayudar a los usuarios a organizar, buscar y comprender la<br />

información de carácter multilingüe presente en la Web.<br />

Aparte de esta cantidad ingente de información multilingüe que debe ser<br />

tratada por los sistemas de PLN, se debe considerar también que en los últimos<br />

años se está produciendo una adaptación de aplicaciones o sistemas de<br />

PLN <strong>del</strong> dominio abierto al dominio restringido, y viceversa. Un claro ejemplo<br />

de ello sucede con los sistemas de Búsqueda de Respuestas: aunque se ha<br />

trabajado con intensidad en las aplicaciones de Búsqueda de Respuestas en dominios<br />

abiertos tal y como se refleja en las competiciones CLEF y TREC, sin<br />

embargo, se muestra una tendencia a estudiar la aplicación de estas <strong>técnicas</strong><br />

sobre dominios restringidos, tal y como se observa en la edición especial de la<br />

revista Computational Linguistics dedicada a QA sobre dominios restringidos<br />

(Daelemans & van den Bosch, 2007).


2 1. Introducción<br />

1.1 La independencia <strong>del</strong> dominio en los sistemas de<br />

PLN<br />

Tradicionalmente, la información requerida por los sistemas basados en <strong>conocimiento</strong><br />

se ha adquirido manualmente en colaboración con expertos <strong>del</strong><br />

área tratada, con el alto coste que ello supone. Sin embargo, la creciente disponibilidad<br />

de recursos <strong>textual</strong>es on-line y el número potencial de aplicaciones<br />

de adquisición de <strong>conocimiento</strong> a partir de datos <strong>textual</strong>es ha derivado hacia<br />

un incremento en la investigación en el campo de la Extracción de Información.<br />

Uno de los principales inconvenientes de la aplicación de la Extracción de<br />

Información es su dependencia <strong>del</strong> dominio. Hay que considerar, por ejemplo,<br />

la definición de qué contenido se considera relevante para cada dominio con<br />

anterioridad al proceso de Extracción de Información. El intento de reducir<br />

el alto coste de adaptación manual de las aplicaciones de Extracción de Información<br />

a nuevos dominios ha conducido a la reciente investigación en la<br />

aplicación de diferentes <strong>técnicas</strong> de aprendizaje automático (Riloff & Jones,<br />

1999) (Yangarber, 2003).<br />

En relación al tratamiento de textos en los dominios restringidos, por ejemplo<br />

en el campo de la biomedicina, desde la última década se está prestando<br />

especial interés en la utilización de <strong>técnicas</strong> de PLN para la minería de textos,<br />

es decir, para el análisis, la extracción y la estructuración de la información<br />

contenida en colecciones de textos biomédicos.<br />

Tomando como ejemplo el marco de la Extracción de Información, se acaba<br />

de introducir que ésta está cobrando gran importancia tanto en el dominio<br />

abierto como en los dominios restringidos. Es por ello por lo que los sistemas<br />

de Extracción de Información deben ser capaces de trabajar sobre cualquier<br />

dominio, tanto en el dominio abierto como en cualquier dominio restringido.<br />

Para ello, deben disponer de un mecanismo de representación formal <strong>del</strong> texto<br />

capaz de abstraer el <strong>conocimiento</strong> <strong>del</strong> texto independientemente de cuál sea su<br />

dominio.<br />

Por ejemplo, si se considera como marco de referencia el dominio biomédico,<br />

las <strong>técnicas</strong> de Extracción de Información son de indudable interés para la ayuda<br />

a la construcción de recursos de utilidad para los investigadores biomédicos:<br />

bases de datos de entidades biológicas (genes, proteínas, compuestos químicos,<br />

enfermedades, etc.) y relaciones entre éstas, ontologías y tesauros que clasifican<br />

conceptos biomédicos, o redes de interacción entre entidades biomédicas.<br />

Estas <strong>técnicas</strong> también pueden ser útiles para la clasificación y recuperación<br />

de documentos biomédicos o el análisis y estructuración de historiales clínicos.


1.3 Exposición <strong>del</strong> problema 3<br />

1.2 La multilingualidad en los sistemas de PLN<br />

La investigación en el campo de la Recuperación de Información está especialmente<br />

centrada en el desarrollo de sistemas robustos de Recuperación<br />

de Información multilingüe. Un sistema CLIR (Cross Language Information<br />

Retrieval) es un sistema de Recuperación de Información que tiene capacidad<br />

para operar sobre una colección de documentos multilingüe, esto es, un sistema<br />

capaz de recuperar todos los documentos relevantes que se encuentran en la<br />

colección, independientemente <strong>del</strong> idioma utilizado tanto en la consulta como<br />

en los propios documentos.<br />

Una opción en el ámbito <strong>del</strong> PLN es que los sistemas en general y, los sistemas<br />

de Búsqueda de Respuestas Multilingües en particular, dispongan de<br />

un mecanismo de representación formal <strong>del</strong> texto capaz de mo<strong>del</strong>ar el <strong>conocimiento</strong><br />

<strong>del</strong> texto en las diferentes lenguas tratadas por los sistemas.<br />

1.3 Exposición <strong>del</strong> problema<br />

Para exponer el problema planteado en el trabajo de investigación, cabe<br />

considerar el estudio previo desarrollado por Cámara de la Fuente (2004) en<br />

el ámbito de la representación lingüística <strong>del</strong> <strong>conocimiento</strong> y su relevancia en<br />

la ingeniería lingüística.<br />

La representación <strong>del</strong> <strong>conocimiento</strong> es uno de los problemas inherentes en las<br />

diferentes áreas de la Inteligencia Artificial (IA). En el ámbito de la semántica<br />

léxica y computacional, Díez (1999) hace la distinción entre <strong>conocimiento</strong> y<br />

razonamiento:<br />

Además, tenemos que distinguir también entre <strong>conocimiento</strong> y razonamiento,<br />

ya que el primero está ligado a los sistemas de representación<br />

y almacenamiento de la información y el segundo a la recuperación,<br />

conexión e inferencias y cálculos hechos con esa información (motores<br />

de inferencia), creando información nueva. A priori, cualquier sistema<br />

de representación <strong>del</strong> <strong>conocimiento</strong> ha de servir para realizar tareas de<br />

razonamiento.<br />

Según Kirakowski (1988), en lo que respecta al contenido semántico que<br />

puede englobar el saber, se pueden tipificar cinco tipos de <strong>conocimiento</strong>:<br />

Conocimiento de procedimientos. También se conoce como <strong>conocimiento</strong><br />

procedural, y se refiere a cómo se hacen las cosas.<br />

Conocimiento de objetos y hechos. También se conoce como <strong>conocimiento</strong><br />

declarativo, y se refiere al <strong>conocimiento</strong> sensorial. Éste es<br />

esencial tanto para interpretar el mundo externo como para ubicar su


4 1. Introducción<br />

propio yo en un contexto.<br />

Conocimiento de consecuencias. También se conoce como <strong>conocimiento</strong><br />

de razonamiento, y se refiere al que se infiere a partir <strong>del</strong> <strong>conocimiento</strong><br />

de procedimientos y <strong>del</strong> <strong>conocimiento</strong> de objetos y de hechos.<br />

Asimismo, este tipo de <strong>conocimiento</strong> sienta las bases para generar<br />

razonamiento basado en casos y para facilitar el aprendizaje en <strong>conocimiento</strong><br />

procedural y declarativo.<br />

Conocimiento de definiciones. Es el <strong>conocimiento</strong> articulado, elaborado,<br />

asentado, sintetizado y formulado derivado <strong>del</strong> <strong>conocimiento</strong> de<br />

procedimientos, de hechos y de consecuencias. Este tipo de <strong>conocimiento</strong><br />

tiene fundamentos epistemo<strong>lógico</strong>s y se representa de forma<br />

<strong>textual</strong> <strong>mediante</strong> la descripción de sus características y la estructuración<br />

de las relaciones que existen entre los conceptos (estructuras<br />

conceptuales) que subyacen al texto de la definición. Este <strong>conocimiento</strong><br />

se utiliza como recurso lingüístico lexicográfico para adquirir<br />

<strong>conocimiento</strong> de forma automatizada, extrayéndolo de las estructuras<br />

conceptuales. Asimismo, este <strong>conocimiento</strong> contribuye al mo<strong>del</strong>ado<br />

<strong>del</strong> <strong>conocimiento</strong> dando pautas para la organización de la macroestructura<br />

y de la microestructura <strong>del</strong> <strong>conocimiento</strong> de un dominio.<br />

Meta<strong>conocimiento</strong>. Es el <strong>conocimiento</strong> acerca <strong>del</strong> <strong>conocimiento</strong> que<br />

tiene como objetivo automatizar la gestión <strong>del</strong> <strong>conocimiento</strong>, es decir,<br />

guiar la planificación y la aplicación <strong>del</strong> <strong>conocimiento</strong> en el entorno<br />

de un sistema. Este tipo de <strong>conocimiento</strong>, por tanto, incluye información<br />

acerca <strong>del</strong> <strong>conocimiento</strong> de definiciones, de procedimientos,<br />

de objetos y de hechos que posee un sistema. Este término determina<br />

la existencia de un nivel de <strong>conocimiento</strong> abstracto que identifica<br />

los fundamentos implícitos y explícitos <strong>del</strong> <strong>conocimiento</strong> en un sistema.<br />

Este tipo de <strong>conocimiento</strong> es una metodología y técnica utilizada<br />

en ingeniería lingüística para desarrollar sistemas basados en <strong>conocimiento</strong><br />

(ingeniería <strong>del</strong> <strong>conocimiento</strong>).<br />

La gestión <strong>del</strong> <strong>conocimiento</strong> es un concepto que engloba la adquisición<br />

(también conocido como gestión <strong>del</strong> aprendizaje), la representación, la<br />

generación, y la transferencia de saber. El ámbito de este trabajo de<br />

investigación se centra en la representación <strong>del</strong> <strong>conocimiento</strong>. Por ello,<br />

se descarta la posibilidad de introducir terminología y conceptualizaciones<br />

relacionadas con la adquisición, generación y transferencia <strong>del</strong><br />

<strong>conocimiento</strong>.<br />

Dentro de los recursos que se pueden utilizar para la representación<br />

de <strong>conocimiento</strong>, cabe destacar el papel <strong>del</strong> lenguaje por su relevancia<br />

particular. El lenguaje es básico en el desarrollo y transferencia


1.3 Exposición <strong>del</strong> problema 5<br />

de contenidos. Se ha demostrado que las tareas vinculadas a la gestión<br />

<strong>del</strong> <strong>conocimiento</strong> están íntimamente relacionadas con los procesos<br />

cognitivo-lingüísticos que tienen lugar en el cerebro, y se materializan<br />

en forma de <strong>conocimiento</strong> representado a través <strong>del</strong> lenguaje (Kan<strong>del</strong><br />

et al. , 1996).<br />

El lenguaje es un fenómeno complejo y dinámico en el sentido de que<br />

está siempre en movimiento: por ser una herramienta universalmente<br />

utilizada que siempre está siendo actualizada por los agentes que intervienen<br />

e interactúan en el acto de la comunicación, y porque produce<br />

manifestaciones de formas espontáneas dependientes de las condiciones<br />

psicológicas, fisiológicas y sociales. Esta diversidad compleja siempre<br />

creciente debe buscar una coherencia dentro de la misma estructura<br />

<strong>del</strong> sistema y dentro de un entramado aparentemente caótico (Steels,<br />

1997) (Steels, 2000). Esta concepción <strong>del</strong> lenguaje responde a un paradigma<br />

complejo como un mapa abierto, conectable, descentralizado<br />

y con múltiples jerarquías variables, reflejo de las estructuras y la organización<br />

<strong>del</strong> <strong>conocimiento</strong> humano (bio<strong>conocimiento</strong>). Se trata de un<br />

paradigma de <strong>conocimiento</strong> complejo alternativo al paradigma lineal de<br />

los mo<strong>del</strong>os inductivos y deductivos (causa-efecto).<br />

Se denomina <strong>conocimiento</strong> a las conceptualizaciones representadas que<br />

explican la naturaleza tanto <strong>del</strong> mundo real como <strong>del</strong> mundo abstracto,<br />

pero el <strong>conocimiento</strong> en sí, no existe en la naturaleza (Galinsky, 2000).<br />

En concreto, se representa el contenido de los razonamientos. Como ya<br />

hemos visto, la representación se hace a través de símbolos de diversa<br />

índole: de tipo lingüístico, de tipo visual, de tipo auditivo, etc. Los<br />

símbolos son transportadores de <strong>conocimiento</strong> que pueden apelar a cualquiera<br />

de nuestros sentidos para hacernos llegar el contenido semántico<br />

y el sentido perceptivo que encierran.<br />

En el marco <strong>del</strong> lenguaje natural, el texto es la forma más potente de<br />

representación <strong>del</strong> <strong>conocimiento</strong> y, por tanto, de gestionar la información<br />

(Codina et al. , 2001). En este ámbito, los términos son unidades<br />

de naturaleza lingüística que representan <strong>conocimiento</strong> de un determinado<br />

dominio y son consensualizaciones para denominar conceptos a<br />

fin de poderlos transmitir. Ya se ha aludido a la trascendencia <strong>del</strong> lenguaje<br />

como fenómeno determinante para el desarrollo de <strong>conocimiento</strong>.<br />

Si, además, esto lo unimos a la funcionalidad de los términos, que se<br />

acaba de explicar, se puede afirmar que no existe <strong>conocimiento</strong> sin terminología.<br />

Por ello, los términos son parte fundamental de la estructura<br />

<strong>textual</strong> que representa el <strong>conocimiento</strong>.<br />

Existen dos disciplinas fundamentales vinculadas a la representación<br />

lingüística <strong>del</strong> <strong>conocimiento</strong>: la terminología y la organización <strong>del</strong> co-


6 1. Introducción<br />

nocimiento.<br />

La terminología es un área de la lingüística de reconocido carácter interdisciplinar<br />

que se nutre de un conjunto específico de <strong>conocimiento</strong>s conceptualizado<br />

en otras disciplinas (lingüística, ciencia <strong>del</strong> <strong>conocimiento</strong> y<br />

ciencias de la información y la comunicación). Asimismo, es una ciencia<br />

transdisciplinar porque los productos termino<strong>lógico</strong>s son las piezas de<br />

representación lingüística en las que debe apoyarse cualquier campo de<br />

<strong>conocimiento</strong> científico para poder adquirir, generar y transferir el <strong>conocimiento</strong><br />

específico de cualquier dominio (Cabré, 1999). Eso quiere decir<br />

que en el campo <strong>del</strong> derecho, de la medicina, o de la física, por ejemplo,<br />

la disciplina de la terminología desempeña un papel fundamental como<br />

analizadora de términos transportadores de <strong>conocimiento</strong> específico<br />

de un dominio que median en la comunicación, como identificadora de<br />

reglas subyacentes en la generación y relación de los términos, y como<br />

método y habilidad de trabajo.<br />

La organización <strong>del</strong> <strong>conocimiento</strong> es una disciplina de formación reciente<br />

que estudia las leyes, los principios y los procedimientos para<br />

estructurar el <strong>conocimiento</strong> especializado e identificar y establecer la<br />

arquitectura en la que se sustenta el <strong>conocimiento</strong> de cualquier dominio.<br />

Mucho antes de que la organización <strong>del</strong> <strong>conocimiento</strong> alcance el estado<br />

de disciplina, es tratada por Aristóteles en su empeño por fragmentar<br />

el mundo para entenderlo y, así, poder clasificarlo. Desde entonces, esta<br />

actividad ha sufrido cambios espectaculares. De concepciones puramente<br />

metafísicas y especulativas, desarrolladas en el terreno de la filosofía,<br />

la epistemología y la ontología, se ha pasado a concepciones físicas y<br />

informático-pragmáticas, desarrolladas desde diversas ramas (biblioteconomía,<br />

documentación, epistemología, informática, inteligencia artificial,<br />

semiótica , terminología , etc.), desplegadas a partir de las ciencias<br />

fundamentales: lingüística, ciencias <strong>del</strong> <strong>conocimiento</strong> y ciencias de la<br />

información y la comunicación.<br />

Este campo de estudio es de naturaleza interdisciplinar y se nutre de<br />

los aportes recibidos de la lingüística, las ciencias <strong>del</strong> <strong>conocimiento</strong> y las<br />

ciencias de la información y la comunicación. El objeto de esta disciplina<br />

es, por una parte, la organización <strong>del</strong> <strong>conocimiento</strong> explícito (<strong>conocimiento</strong><br />

representado), es decir, socializado o registrado a fin de optimizar<br />

la circulación <strong>del</strong> <strong>conocimiento</strong> en la sociedad y, por otra, el desarrollo<br />

de métodos que sustenten paradigmas de <strong>conocimiento</strong> válidos,<br />

escalables y ampliables. También se considera una disciplina científica,<br />

esto es, sujeta al método científico, de carácter aplicado (García-Marco,<br />

1998).


1.3 Exposición <strong>del</strong> problema 7<br />

La representación <strong>del</strong> <strong>conocimiento</strong> cobra especial relevancia en los<br />

ámbitos de la ingeniería lingüística y <strong>del</strong> <strong>conocimiento</strong>. Desde que la<br />

sociedad de la información global y multilingüe -caracterizada por la<br />

omnipotente influencia de las tecnologías de la información y de la comunicación-<br />

ha expandido su influencia vertiginosamente, la gestión de<br />

los recursos lingüísticos se ha convertido en una necesidad ineludible<br />

para la mayoría de las entidades públicas y privadas.<br />

La industria <strong>del</strong> <strong>conocimiento</strong> irrumpe con fuerza ofreciendo respuestas<br />

que contribuyan a la creación de más <strong>conocimiento</strong> a partir de información<br />

codificada como simples datos. Esta industria, por su estrecha<br />

relación con la codificación <strong>del</strong> <strong>conocimiento</strong> como información <strong>textual</strong>,<br />

depende de métodos, herramientas y recursos lingüísticos que han venido<br />

desarrollando las industrias de la lengua.<br />

Especialmente en el sector público se crean nuevas asociaciones, comunidades<br />

y grupos de interés que se involucran como usuarios o como<br />

desarrolladores en actividades relacionadas con la gestión de recursos<br />

lingüísticos. Para abastecer de materia prima al mercado son necesarios<br />

nuevos lenguajes relacionados con dominios de especial interés, relacionados<br />

también con los diferentes registros de la lengua, con una<br />

dimensión diferente entre el lenguaje escrito y el oral, y por último,<br />

relacionados con la tipología y estructuración <strong>textual</strong>. De esta materia<br />

prima lingüística se abastecen ámbitos tan diversos como el de la traducción<br />

e interpretación, el re<strong>conocimiento</strong> de voz, la recuperación de<br />

información en entornos abiertos (Internet) y cerrados (Intranet), y la<br />

gestión <strong>del</strong> <strong>conocimiento</strong>. Todas estas aplicaciones a las que se dedica<br />

la ingeniería lingüística están relacionadas con la gestión de la información<br />

y <strong>del</strong> <strong>conocimiento</strong>. Son aplicaciones que precisan trabajar con<br />

el <strong>conocimiento</strong> representado en forma de productos terminográficos,<br />

sistemas conceptuales y otros recursos lingüísticos, así como métodos,<br />

herramientas y experiencia acumulada en este sector de la industria de<br />

la lengua.<br />

Desde el punto de vista cognitivo, los sistemas desarrollados en el ámbito<br />

de la ingeniería lingüística están estrechamente vinculados a la ingeniería<br />

<strong>del</strong> <strong>conocimiento</strong>, porque sus planteamientos se basan en estructuras<br />

lingüísticas que conforman sistemas conceptuales variables que<br />

ofrecen respuestas probables. Esta visión cognitiva se está aplicando en<br />

muchos de los retos asociados al procesamiento <strong>del</strong> lenguaje natural.<br />

En este sentido, los nuevos sistemas de Traducción Automática, por<br />

ejemplo, se basan en corpus <strong>textual</strong>es paralelos que se indexan utilizando<br />

bases de <strong>conocimiento</strong> que ayudan a estructurar y desambiguar los<br />

posibles resultados que ofrece la máquina (Hutchins & Somers, 1992).<br />

Es un planteamiento diferente con respecto a las primeras épocas de


8 1. Introducción<br />

la ingeniería lingüística. La primera época parecía ser meramente estadística<br />

hasta que se introdujeron estrategias basadas en <strong>conocimiento</strong><br />

lingüístico de tipo morfo<strong>lógico</strong> y después sintáctico. El renacimiento de<br />

la relevancia de la semántica en los desarrollos de la ingeniería lingüística<br />

es el resultado de los avances aportados por la ciencia <strong>del</strong> <strong>conocimiento</strong>.<br />

Esta evolución de planteamientos corresponde a un cambio de paradigma<br />

<strong>del</strong> <strong>conocimiento</strong>, de uno lineal a otro complejo. Los sistemas de<br />

Recuperación de Información también han sufrido una transformación<br />

cuya evolución ha repercutido en su denominación: sistemas de recuperación<br />

de <strong>conocimiento</strong>, sistemas de gestión de <strong>conocimiento</strong>.<br />

La ingeniería lingüística es una actividad eminentemente aplicada. Es<br />

el resultado de representar en forma de artefactos y lenguajes artificiales<br />

las deducciones que se obtienen <strong>del</strong> área de trabajo de la lingüística<br />

<strong>textual</strong>, de la lingüística computacional, de la informática, de la terminología<br />

y de la organización <strong>del</strong> <strong>conocimiento</strong>.<br />

Las áreas de la ingeniería lingüística vinculadas al diseño y desarrollo<br />

de sistemas basados en <strong>conocimiento</strong> son: adquisición de <strong>conocimiento</strong><br />

(knowledge acquisition), mo<strong>del</strong>ado de <strong>conocimiento</strong> (knowledge mo<strong>del</strong>ling),<br />

representación de <strong>conocimiento</strong> (knowledge representation) e<br />

infraestructura para el desarrollo de ingeniería de <strong>conocimiento</strong> (knowledge<br />

engineering development infrastructure).<br />

En el contexto <strong>del</strong> PLN, según Moreno et al. (1999), todo sistema de<br />

PLN intenta simular un comportamiento lingüístico humano; para ello<br />

debe tomar conciencia tanto de las estructuras propias <strong>del</strong> lenguaje,<br />

como <strong>del</strong> <strong>conocimiento</strong> acerca <strong>del</strong> universo <strong>del</strong> discurso. Según esta definición,<br />

los sistemas de PLN deben contar con algún tipo de mecanismo<br />

que les permita tener un <strong>conocimiento</strong> de lo que se está indicando en el<br />

texto. Este mecanismo coincide con un mo<strong>del</strong>o de representación formal<br />

<strong>del</strong> texto capaz de identificar el <strong>conocimiento</strong> que se está representando<br />

en él.<br />

En los últimos años, se está incorporando cierta tendencia en los sistemas<br />

de PLN que hace que, por un lado, deben ser capaces de manejar<br />

grandes cantidades de información en diferentes lenguas y, por otro lado,<br />

deben manejar información bajo cualquier dominio de aplicación,<br />

es decir, tanto en el dominio abierto como en cualquier dominio restringido.<br />

Este requisito hace que el mo<strong>del</strong>o de representación formal <strong>del</strong> texto<br />

deba tratar los detalles referentes tanto a la independencia <strong>del</strong> dominio<br />

como a la independencia de la lengua.


1.3 Exposición <strong>del</strong> problema 9<br />

Para entender la necesidad de dotar a los sistemas de PLN de esquemas<br />

y mo<strong>del</strong>os de representación formal <strong>del</strong> lenguaje, cabe hacer un retroceso<br />

temporal y centrarse en definiciones previas planteadas en el ámbito<br />

de las bases de datos para los mo<strong>del</strong>os de datos, o de la inteligencia artificial<br />

en relación a las propiedades de los esquemas de representación<br />

<strong>del</strong> <strong>conocimiento</strong>.<br />

Según Ullman et al. (1999), en el ámbito de las bases de datos, un<br />

mo<strong>del</strong>o de datos se puede definir como “un conjunto de herramientas<br />

conceptuales útiles para describir los datos, las relaciones entre ellos y<br />

la semántica asociada a los datos”. Los mo<strong>del</strong>os de datos constituyen<br />

un vehículo fundamental para la representación <strong>del</strong> <strong>conocimiento</strong> en los<br />

sistemas de información.<br />

Por otro lado, en el ámbito de la inteligencia artificial, según Russell et<br />

al. (1996) y teniendo en cuenta también las consideraciones <strong>del</strong> inicio<br />

de la sección, la representación <strong>del</strong> <strong>conocimiento</strong> se define como el “proceso<br />

de transformación <strong>del</strong> <strong>conocimiento</strong> de un dominio a un lenguaje<br />

simbólico para ser procesado computacionalmente”. Rich et al. (1994)<br />

define la representación <strong>del</strong> <strong>conocimiento</strong> como una “combinación de<br />

estructuras de datos (que nos permiten representar <strong>mediante</strong> un formalismo<br />

determinado las verdades relevantes en algún dominio) asociadas<br />

con mecanismos interpretativos que nos permiten manipular el <strong>conocimiento</strong><br />

representado a fin de crear soluciones a problemas nuevos”.<br />

Continuando en el ámbito de la IA, la representación <strong>del</strong> <strong>conocimiento</strong><br />

tiene una gran importancia, hasta el punto de que actualmente se habla<br />

de la Ingeniería <strong>del</strong> Conocimiento. Concretamente, la ingeniería <strong>del</strong><br />

<strong>conocimiento</strong> es un ámbito de la inteligencia artificial cuyo propósito se<br />

centra en desarrollar sistemas basados en representaciones de <strong>conocimiento</strong><br />

experto (Cámara de la Fuente, 2004).<br />

Los elementos básicos de la representación <strong>del</strong> <strong>conocimiento</strong> son los<br />

símbolos. Éstos se refieren a hechos de interés pertenecientes al dominio<br />

a representar. Los hechos se definen como “las verdades en un<br />

cierto mundo” y es lo que se quiere representar. Todo lenguaje de representación<br />

de <strong>conocimiento</strong> debe definir dos aspectos fundamentales:<br />

la sintaxis y la semántica. La sintaxis identifica las posibles formas de<br />

construir y combinar los elementos <strong>del</strong> lenguaje para representar los<br />

hechos <strong>del</strong> dominio real. La semántica determina la relación entre los<br />

elementos <strong>del</strong> lenguaje y su interpretación en el dominio.<br />

También existen dos fases en la representación <strong>del</strong> <strong>conocimiento</strong>: la fase<br />

de codificación y la fase de decodificación. La fase de codificación<br />

(representación) hace referencia a la conversión de los hechos reales a<br />

su representación interna. Por el contrario, la fase de decodificación se


10 1. Introducción<br />

refiere a los procesos inferenciales realizados sobre la representación interna<br />

<strong>del</strong> <strong>conocimiento</strong> que la convierten en hechos <strong>del</strong> mundo real.<br />

La representación <strong>del</strong> <strong>conocimiento</strong> debe ser capaz de captar generalizaciones,<br />

ser comprensible, ser fácilmente modificable e incrementable,<br />

ser usado en diversas situaciones y propósitos, permitir diversos grados<br />

de detalle, captar la incertidumbre y la imprecisión, representar distinciones<br />

importantes y focalizar el <strong>conocimiento</strong> relevante.<br />

Las características de una buena representación son:<br />

Precisa: Los objetos y las relaciones importantes deben aparecer explícitamente<br />

y de forma conjunta.<br />

Eficiente: Las restricciones inherentes al problema se muestran pero<br />

no los detalles irrelevantes.<br />

Transparente: La representación debe ser transparente, es decir, se<br />

entiende lo que se dice.<br />

Completa y concisa: Están representados con eficacia todos los objetos<br />

y relaciones.<br />

Rápidos y computables: Se puede almacenar y recuperar la información<br />

con rapidez, y se pueden crear <strong>mediante</strong> un procedimiento ya<br />

existente.<br />

Considerando todo ello, las partes que debe tener toda representación<br />

son:<br />

Parte léxica: Determina qué símbolos están permitidos en el vocabulario<br />

de la representación.<br />

Una parte estructural que describe las restricciones sobre la forma en<br />

que los símbolos pueden ordenarse.<br />

Una parte operativa que especifica los procedimientos de acceso que<br />

permiten crear descripciones, modificarlas y responder a preguntas<br />

utilizándolas.<br />

Una parte semántica que establece una forma de asociar el significado<br />

con las descripciones.<br />

Además, en el marco de la inteligencia artificial, según Russell et al.<br />

(1996), las propiedades que deben tener los esquemas de representación


<strong>del</strong> <strong>conocimiento</strong> son:<br />

1.3 Exposición <strong>del</strong> problema 11<br />

Adecuación de la representación: Capacidad <strong>del</strong> esquema de representación<br />

para representar adecuadamente todo el <strong>conocimiento</strong> pertinente<br />

de un dominio. El objetivo consiste en soportar cualquier tipo<br />

de <strong>conocimiento</strong> relevante.<br />

Adecuación inferencial: Posibilidad de manipular las estructuras de<br />

representación de forma que se puedan derivar nuevas estructuras<br />

asociadas con nuevo <strong>conocimiento</strong> inferido a partir <strong>del</strong> antiguo.<br />

Eficiencia inferencial: Posibilidad de mejora <strong>del</strong> proceso inferencial<br />

<strong>mediante</strong> la inclusión de heurísticas y guías que agilicen la inferencia.<br />

El objetivo perseguido consiste en procesar el <strong>conocimiento</strong> e inferir<br />

nuevo <strong>conocimiento</strong> con un coste computacional aceptable.<br />

Eficiencia adquisicional: Capacidad <strong>del</strong> esquema para incorporar fácilmente<br />

nuevo <strong>conocimiento</strong> tanto de forma manual (reglas) como de<br />

forma automática (aprendizaje automático).<br />

Otras características:<br />

• Transparencia: Posibilidad de identificar fácilmente el <strong>conocimiento</strong><br />

representado. Consecuencia de ello, debe ser posible interpretar<br />

directamente (a ojo) lo que representa cada estructura.<br />

• Naturalidad y claridad: Posibilidad de representar el <strong>conocimiento</strong><br />

en su forma original (el <strong>conocimiento</strong> no sufre ningún tipo de<br />

transformación). Por ejemplo, tratar directamente frases en lenguaje<br />

natural.<br />

• Modularidad: Capacidad <strong>del</strong> esquema para soportar la fragmentación<br />

<strong>del</strong> <strong>conocimiento</strong> sin perder eficiencia ni eficacia.<br />

• Granularidad: Grado de detalle de la representación <strong>del</strong> <strong>conocimiento</strong>.<br />

Depende de los requisitos <strong>del</strong> problema y <strong>del</strong> tipo de <strong>conocimiento</strong><br />

a representar.<br />

La definición de mo<strong>del</strong>o de datos propuesta por Ullman et al. (1999)<br />

considera que los elementos básicos <strong>del</strong> mo<strong>del</strong>o de datos son los datos.<br />

Según la Real Academia de la Lengua, la palabra es el elemento básico<br />

para la comunicación, a través <strong>del</strong> lenguaje. Por ello, los elementos<br />

básicos de los mo<strong>del</strong>os de representación formal <strong>del</strong> lenguaje son las<br />

palabras. En ellos, quedan definidas las palabras, las relaciones entre


12 1. Introducción<br />

las palabras y la semántica asociada a las palabras. Además, como se<br />

contemplará en el siguiente capítulo, los mo<strong>del</strong>os de representación <strong>del</strong><br />

lenguaje quedan enmarcados dentro de esquemas de representación <strong>del</strong><br />

<strong>conocimiento</strong>, y como tal, deben cumplir las propiedades <strong>del</strong> esquema.<br />

Esto es, los mo<strong>del</strong>os de representación <strong>del</strong> lenguaje deben cumplir las<br />

propiedades de los esquemas de representación <strong>del</strong> <strong>conocimiento</strong> definidas<br />

por Russell et al. y presentadas anteriormente.<br />

1.4 Objetivos de la tesis<br />

Existen diferentes mo<strong>del</strong>os de representación formal <strong>del</strong> texto tal y como<br />

se matizará en el siguiente capítulo. La utilización de formas lógicas<br />

para tareas relacionadas con el tratamiento semántico o la representación<br />

<strong>del</strong> <strong>conocimiento</strong> ha despertado últimamente un creciente interés,<br />

debido a que permite expresar textos en lenguaje natural con un grado<br />

de formalismo que mantiene un buen equilibrio entre la complejidad <strong>del</strong><br />

mo<strong>del</strong>o y la expresividad <strong>del</strong> mismo.<br />

Diferentes investigadores han incorporado las formas lógicas en sus sistemas<br />

de PLN para abordar la representación <strong>del</strong> <strong>conocimiento</strong> expresado<br />

en los textos. Aunque en los siguientes capítulos se detallan los enfoques<br />

de formas lógicas planteados en los principales sistemas de PLN por estos<br />

autores, se puede concluir que estos mo<strong>del</strong>os de formas lógicas, por<br />

una parte, no abordan el problema de la independencia <strong>del</strong> dominio de<br />

aplicación <strong>del</strong> sistema de PLN y, por otra parte, tampoco son capaces<br />

de solventar los problemas derivados de la independencia de la lengua.<br />

Con el propósito de solventar los problemas de la independencia <strong>del</strong> dominio<br />

y de la lengua, en el marco de esta tesis se buscará un mo<strong>del</strong>o de<br />

representación que, por una parte, permita la representación formal de<br />

textos en cualquier dominio de aplicación (tanto en el dominio abierto<br />

como en cualquier dominio restringido) y, por otra parte, permita<br />

representar cualquier texto con independencia de la lengua en la que<br />

esté escrito.<br />

Para ello, el citado mo<strong>del</strong>o de representación debe cumplir las propiedades<br />

de ser precisa (introduce únicamente los elementos necesarios que<br />

reflejan el contenido de la oración asociada), independiente <strong>del</strong> dominio<br />

(cualquier texto en cualquier ámbito puede ser representado según este<br />

mo<strong>del</strong>o), conceptualmente completa (permite obtener una representación<br />

conceptual completa y no ambigua <strong>del</strong> texto) e independiente de la<br />

lengua (este planteamiento permite representar formalmente los textos<br />

en cualquier lengua).


1.4 Objetivos de la tesis 13<br />

Como propósito <strong>del</strong> trabajo de investigación, conviene destacar también<br />

el desarrollo de un marco de evaluación que tenga en cuenta los aspectos<br />

relativos a las propiedades fundamentales <strong>del</strong> mo<strong>del</strong>o de representación<br />

<strong>del</strong> texto desarrollado. Ello implica que este marco de evaluación debe<br />

considerar los matices referentes a la precisión, completitud conceptual,<br />

independencia <strong>del</strong> dominio e independencia de la lengua en la evaluación<br />

global de mo<strong>del</strong>o de representación.<br />

Siguiendo este marco, los siguientes capítulos de la tesis están estructurados<br />

<strong>del</strong> siguiente modo:<br />

Capítulo 2. Estado <strong>del</strong> arte. En el capítulo siguiente se hace una clasificación<br />

de los sistemas de PLN comúnmente conocidos según su grado<br />

de uso de información lingüística y se detalla las necesidades que estos<br />

sistemas tienen en cuanto a la representación formal <strong>del</strong> texto procesado.<br />

También se presenta un estudio de los diferentes enfoques llevados<br />

a cabo para realizar la representación formal <strong>del</strong> texto. En primer lugar<br />

se indican las características básicas de los enfoques. A continuación<br />

se introducen los detalles de las aproximaciones concretas de representación<br />

formal <strong>del</strong> texto. Se analizan las carencias que presentan estas<br />

aproximaciones en cuanto al tratamiento <strong>del</strong> texto tanto independiente<br />

<strong>del</strong> dominio como independiente de la lengua.<br />

Capítulo 3. La forma lógica. En este capítulo se contrastan dos<br />

de los mo<strong>del</strong>os de representación formal <strong>del</strong> texto <strong>mediante</strong> la forma<br />

lógica más extendidos en el PLN. Se presentan las características más<br />

relevantes, similitudes y diferencias entre tales mo<strong>del</strong>os. Se analizan las<br />

ventajas y los inconvenientes de ambos enfoques justificado con ello las<br />

carencias existentes entre tales mo<strong>del</strong>os que originan el desarrollo <strong>del</strong><br />

nuevo mo<strong>del</strong>o <strong>lógico</strong>-conceptual de representación <strong>del</strong> texto desarrollado<br />

en la investigación. Finalmente, se detallan las principales características<br />

a nivel de diseño e implementación de este nuevo mo<strong>del</strong>o.<br />

Capítulo 4. La forma <strong>lógico</strong>-conceptual. En este capítulo se introduce<br />

el tratamiento <strong>lógico</strong>-conceptual que es el verdadero artífice de<br />

proporcionar tanto la independencia <strong>del</strong> dominio como de la lengua en<br />

las representaciones formales <strong>del</strong> texto derivadas a partir <strong>del</strong> recurso desarrollado<br />

en la investigación. Ello lo hace tomando como núcleo de la<br />

representación la forma lógica inferida según lo detallado en el capítulo<br />

anterior.<br />

Capítulo 5. Evaluación. En este capítulo se define el marco de evaluación<br />

que determina la validez <strong>del</strong> recurso <strong>lógico</strong>-conceptual desarrollado<br />

en la investigación. Para ello se presentan las diferentes evaluaciones<br />

realizadas a los diferentes sistemas de PLN que han utilizado el recurso


14 1. Introducción<br />

en este desarrollo de sus funciones.<br />

Capítulo 6. Conclusiones finales. En este capítulo quedan recogidas<br />

las conclusiones obtenidas al desarrollar este trabajo de investigación y<br />

se definen las líneas de trabajo futuras que se pretenden desarrollar.<br />

Finalmente quedan reflejadas las referencias bibliográficas utilizadas en<br />

el desarrollo de este trabajo de investigación.<br />

Anexo A. Reglas simples de derivación de predicados en la<br />

forma lógica. Con objeto de facilitar su comprensión, este anexo presenta<br />

en detalle las reglas simples de derivación de los predicados de la<br />

forma lógica a partir de los nodos hojas <strong>del</strong> árbol de dependencias, que<br />

se introducen en el capítulo 3.<br />

Anexo B. Reglas complejas de derivación de predicados en la<br />

forma lógica. Con la misma finalidad que el anexo anterior, este anexo<br />

presenta en detalle las reglas complejas de derivación de los predicados<br />

de la forma lógica a partir <strong>del</strong> análisis y estudio de las relaciones de<br />

dependencia en los nodos intermedios <strong>del</strong> árbol de dependencias, introducidas<br />

también en el capítulo 3.<br />

Anexo C. Preguntas desarrolladas para la evaluación de la tarea<br />

de clasificación. Este anexo presenta en detalle la colección de<br />

preguntas desarrollada para la tarea de evaluación de la clasificación de<br />

preguntas médicas introducida en el capítulo 5.


2. Estado <strong>del</strong> arte<br />

Es bastante común encontrarse con aplicaciones que hacen algún tipo<br />

de procesamiento <strong>del</strong> léxico o <strong>del</strong> habla. Un ejemplo de ello son los<br />

editores de texto, que incorporan herramientas para la corrección ortográfica<br />

(escribir casaq en lugar de casa). Otro ejemplo es Google que<br />

nos permite recuperar información de internet basándose en las palabras<br />

clave introducidas. Un tercer ejemplo son los vehículos que incorporan<br />

tecnología de re<strong>conocimiento</strong> de voz para interactuar con el teléfono<br />

móvil de su conductor permitiéndole, por ejemplo, establecer una llamada<br />

telefónica (el conductor pronunciando la frase imperativa “Llama<br />

al 609...” o “Llama a la oficina” haría que su teléfono móvil llamase,<br />

bien al número deseado o, bien a la oficina, siendo oficina una entrada<br />

de la agenda <strong>del</strong> teléfono). Esta tecnología también permite la síntesis<br />

<strong>mediante</strong> voz de los mensajes de texto que se reciben en el teléfono<br />

móvil <strong>del</strong> conductor.<br />

Este tipo de aplicaciones, aunque realizan un procesamiento <strong>del</strong> lenguaje<br />

(secuencias fónicas, términos, ...), no son aplicaciones puras <strong>del</strong><br />

PLN. Antes de justificar el por qué, conviene analizar las definiciones<br />

que, según diferentes investigadores, se han dado <strong>del</strong> PLN:<br />

Según (Sosa, 1997), el PLN se concibe como el re<strong>conocimiento</strong> y utilización<br />

de la información expresada en lenguaje humano a través <strong>del</strong> uso<br />

de sistemas informáticos. En PLN se investiga cómo el lenguaje puede<br />

ser utilizado para cumplir diferentes tareas y la manera de mo<strong>del</strong>ar el<br />

<strong>conocimiento</strong>.<br />

Según (Darriba, 2007), el PLN se define como el desarrollo de mo<strong>del</strong>os<br />

computacionales de determinados aspectos de lenguaje humano para<br />

que, partiendo de esos mo<strong>del</strong>os se puedan realizar “programas” capaces<br />

de comprender o producir enunciados en lenguaje natural.<br />

La primera definición se refiere al re<strong>conocimiento</strong> de la información<br />

expresada en lenguaje humano mientras que la segunda definición se<br />

refiere a la comprensión <strong>del</strong> texto. Basándonos en estas dos definiciones<br />

se deduce que la comprensión adecuada <strong>del</strong> texto es una de las<br />

tareas más importantes y complejas <strong>del</strong> PLN. La comprensión <strong>del</strong> texto


16 2. Estado <strong>del</strong> arte<br />

consiste en su transformación a una determinada representación formal<br />

(Jurafsky & Martin, 2000). Por lo tanto, en el contexto <strong>del</strong> PLN, los<br />

sistemas realizan un preproceso <strong>del</strong> texto con el objeto de obtener una<br />

representación formal que facilite su comprensión.<br />

Las aplicaciones mencionadas al comienzo <strong>del</strong> capítulo no realizan<br />

ningún preproceso para obtener una representación formal <strong>del</strong> texto<br />

que van a procesar, y es por ello por lo que no son consideradas como<br />

aplicaciones puras en el ámbito <strong>del</strong> PLN. En contrapartida, las aplicaciones<br />

<strong>del</strong> PLN sí que obtienen una representación formal <strong>del</strong> texto con<br />

el objeto de facilitar su comprensión.<br />

En los siguientes apartados, se presentan las aplicaciones o sistemas más<br />

comunes <strong>del</strong> PLN categorizados según el grado de información lingüística<br />

que incorporan. Posteriormente se muestran las <strong>técnicas</strong> que utilizan<br />

estos sistemas, agrupadas también, según su grado de uso de PLN. Más<br />

a<strong>del</strong>ante, se detallan los diferentes mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto utilizados por los sistemas de PLN. Finalmente, se presentan las<br />

conclusiones de este capítulo.<br />

2.1 Aplicaciones <strong>del</strong> PLN<br />

En los últimos años, debido a la evolución de la sociedad hacia la cada<br />

vez mayor interacción con las nuevas tecnologías, han surgido una serie<br />

de problemas cuya solución ha precisado de la incorporación <strong>del</strong> PLN.<br />

Con el propósito de hacer frente a toda esta problemática, en el ámbito<br />

<strong>del</strong> PLN, han surgido diferentes sistemas. A continuación se presentan<br />

algunos de los diferentes tipos de sistemas de PLN existentes clasificados<br />

de menor a mayor grado de uso de información lingüística 1 :<br />

Los sistemas de Traducción Automática (Shimohata et al. , 2001)<br />

(Hayashi et al. , 2001) cuya función consiste en realizar la traducción<br />

correcta de un lenguaje a otro, tomando en cuenta lo que se quiere<br />

expresar en cada oración.<br />

Los sistemas de Categorización Automática de Textos (Kang, 2004)<br />

(Bi et al. , 2004) cuya función consiste en la clasificación automática<br />

de documentos en categorías predefinidas.<br />

Los sistemas de Recuperación de Información (Strzalkowski et al. ,<br />

1998) (Galvez et al. , 2005) que se encargan de recuperar aquellos<br />

1 Aunque puedan existir sistemas de un mismo tipo que divergan significativamente en el grado de<br />

información lingüística, esta clasificación se ha hecho considerando únicamente el grado de uso<br />

de información lingüística empleado por los primeros sistemas existentes de cada tipo


2.1 Aplicaciones <strong>del</strong> PLN 17<br />

textos o documentos de una gran colección documental que satisfagan<br />

las necesidades de información <strong>del</strong> usuario.<br />

Los sistemas de Corrección de Textos (Veronis, 1988) (Vosse, 1992)<br />

que permiten la detección y corrección de errores, no sólo ortográficos,<br />

sino también gramaticales.<br />

Los sistemas de Diálogo (Sikorski & Allen, 1996) (Castro et al. , 2003)<br />

que reciben como entrada frases <strong>del</strong> lenguaje natural expresadas de<br />

forma oral y generan como salida frases <strong>del</strong> lenguaje natural expresadas<br />

asimismo de forma oral. La finalidad de estos sistemas es emular<br />

el comportamiento inteligente de un ser humano que realiza una tarea<br />

concreta y proporciona información de la misma de forma automática,<br />

por ejemplo, horarios de salida de aviones, partes meteoro<strong>lógico</strong>s,<br />

estado de cuentas bancarias, etc.<br />

Los sistemas de Extracción de Información (Sasaki & Matsuo, 2000)<br />

(Yangarber et al. , 2000) cuyo propósito consiste en detectar la información<br />

que es relevante dentro de un conjunto de textos, ignorando<br />

la no relevante, y estructurarla para su almacenamiento en una base<br />

de datos.<br />

Los sistemas de Búsqueda de Respuestas (Ferrández & Ferrández,<br />

2007) (Pérez et al. , 2004) que tienen como objeto dar una respuesta<br />

concreta a la pregunta formulada por el usuario.<br />

Los sistemas de Generación de Resúmenes (Aone et al. , 1997) (Barzilay<br />

& Elhadad, 1997) que se centran en condensar la información<br />

más relevante de un texto.<br />

Existen diferentes taxonomías de clasificación de los sistemas de PLN.<br />

Una de ellas es la propuesta por Contreras (2001) que los clasifica en<br />

simbólicos, empíricos o estadísticos y conexionistas. Los dos últimos son<br />

los llamados matemáticos debido a que tienen una fuerte componente<br />

de matemática y estadística, mientras que los simbólicos están basados<br />

en el <strong>conocimiento</strong>, emplean reglas y algoritmos que representan el <strong>conocimiento</strong><br />

<strong>del</strong> lenguaje natural. También están los sistemas híbridos,<br />

que son aquellos que integran una combinación de diversos mo<strong>del</strong>os.<br />

En base a esta clasificación realizada por Contreras (2001) y debido a<br />

que los enfoques estadísticos y conexionistas hacen un fuerte hincapié en<br />

el uso de la matemática y, sobre todo, en la estadística, determinados<br />

autores como, por ejemplo, Partee et al. (2004) y Manning et al. (1999)<br />

se refieren a ellos como sistemas estadísticos <strong>del</strong> PLN. De este modo,<br />

los diferentes sistemas de PLN, en función de su metodología, se clasi-


18 2. Estado <strong>del</strong> arte<br />

fican en sistemas estadísticos y en sistemas basados en reglas de PLN o<br />

<strong>conocimiento</strong> lingüístico. Los sistemas híbridos, debido a que a pesar de<br />

tener una parte matemática hacen uso de las <strong>técnicas</strong> de PLN, se clasifican<br />

dentro de los sistemas basados en reglas de PLN. Seguidamente<br />

se presentan las características básicas de estos dos tipos de sistemas,<br />

según su metodología, y a lo largo de este capítulo se comentarán diferentes<br />

sistemas concretos de PLN, tanto estadísticos como basados en<br />

<strong>conocimiento</strong> lingüístico, atendiendo al enfoque empleado para llevar a<br />

cabo la representación formal <strong>del</strong> texto.<br />

2.1.1 Sistemas estadísticos<br />

Los sistemas estadísticos involucran colecciones de muestras <strong>del</strong> lenguaje<br />

(corpus), las cuales son etiquetadas y usadas para crear mo<strong>del</strong>os<br />

estadísticos. El propósito perseguido por los sistemas estadísticos consiste<br />

en la aplicación de los mo<strong>del</strong>os de probabilidad y estadísticos para<br />

inferir <strong>conocimiento</strong> directamente de los datos, buscando irregularidades<br />

significativas. Los mo<strong>del</strong>os estadísticos empleados por este tipo de<br />

sistemas (Marquez, 2001) se basan en los conceptos básicos de la teoría<br />

de probabilidad: probabilidad condicionada e independencia de sucesos.<br />

Las <strong>técnicas</strong> básicas consisten en calcular las frecuencias de las palabras<br />

que aparecen en un conjunto de textos, y deducir todas las probabilidades<br />

medias y condicionadas, por ejemplo, calcular el parsing más<br />

probable de una frase a partir de los parsings anteriores.<br />

El método de estimación más sencillo consiste en el manejo de frecuencias<br />

relativas extraídas de un corpus lingüístico. Este método tiene tres<br />

fases claramente diferenciadas: recolección de datos, anotación de las<br />

unidades <strong>del</strong> corpus y cálculo de frecuencias de las unidades. También<br />

existen otras <strong>técnicas</strong> más avanzadas (Rumelhart et al. , 1994), basadas<br />

en la utilización de redes neuronales y algoritmos evolutivos, cuyo<br />

propósito principal se basa en la idea de simular la capacidad lingüística,<br />

el aprendizaje y la evolución <strong>del</strong> lenguaje natural. Para ello, se trata<br />

de simular la propia naturalidad <strong>del</strong> lenguaje, y se aplican <strong>técnicas</strong> de<br />

aprendizaje y representaciones simbólicas que evolucionan.<br />

2.1.2 Sistemas basados en reglas de PLN o <strong>conocimiento</strong><br />

lingüístico<br />

En contrapartida con los sistemas estadísticos, los sistemas basados en<br />

reglas de PLN utilizan <strong>conocimiento</strong> lingüístico para realizar su cometido.<br />

Estas <strong>técnicas</strong> lingüísticas pueden ser de diversa índole (POS,<br />

morfología, dependencias, sintaxis, ...) incluso se pueden combinar varias<br />

de ellas. Básicamente, el funcionamiento de los sistemas basados en


2.1 Aplicaciones <strong>del</strong> PLN 19<br />

reglas de PLN se centra en el diseño de una serie de reglas o heurísticas<br />

a partir de las <strong>técnicas</strong> lingüísticas utilizadas. El diseño de reglas<br />

o heurísticas puede ser empleado por los sistemas para, por ejemplo,<br />

emparejar patrones o hacer inferencias (si a se relaciona con b y b se<br />

relaciona con c, entonces a se relaciona con c). Más a<strong>del</strong>ante se profundizará<br />

en los aspectos relacionados con la representación <strong>textual</strong> de los<br />

sistemas basados en reglas de PLN.<br />

En los últimos años, se están experimentando una serie de tendencias<br />

en el ámbito <strong>del</strong> PLN que están derivando hacia la multilingualidad de<br />

los sistemas más comunes <strong>del</strong> PLN y hacia su implantación en determinados<br />

dominios restringidos. Desde el punto de vista de la multilingualidad<br />

de los sistemas de PLN, se está haciendo especial énfasis en<br />

que los sistemas de PLN sean capaces de manejar diferentes lenguas.<br />

Un claro ejemplo de ello son los sistemas de Búsqueda de Respuestas<br />

(Jung & Lee, 2002) capaces de obtener la respuesta en un idioma diferente<br />

al de la pregunta formulada por el usuario. La otra peculiaridad a<br />

tener en cuenta en los sistemas de PLN es su adaptación a los dominios<br />

restringidos. Un ejemplo de ello son también los sistemas de Búsqueda<br />

de Respuestas (Mollá & Vicedo, 2004), diseñados para trabajar con<br />

documentos y preguntas tanto en el dominio abierto como en cualquier<br />

dominio restringido.<br />

Tal y como se comenta en este capítulo, los diferentes sistemas de PLN<br />

(Búsqueda de Respuestas, Generación de Resúmenes, Categorización<br />

<strong>del</strong> Texto, sistemas de Diálogo, ...) no procesan el texto directamente<br />

tal cual ha sido escrito o transcrito sino que, previo a su procesamiento,<br />

el texto es transformado en una representación formal que preserva sus<br />

características relevantes. Es por ello por lo que la representación formal<br />

<strong>del</strong> texto es una cuestión muy importante a tener en cuenta en el PLN.<br />

A lo largo de los últimos años se han propuesto diferentes alternativas<br />

de representación <strong>del</strong> texto. En este capítulo se van a introducir las<br />

diferentes representaciones formales <strong>del</strong> texto propuestas por diferentes<br />

investigadores en PLN. Estas representaciones se estructuran en dos<br />

categorías atendiendo al grado de uso de información lingüística empleado<br />

para obtener la representación formal <strong>del</strong> texto: sin información<br />

lingüística y con información lingüística. Los mo<strong>del</strong>os de representación<br />

que hacen un escaso uso de la información lingüística están basados en<br />

el tratamiento de la palabra como unidad básica, mientras que por el<br />

contrario, aquellos mo<strong>del</strong>os que emplean un alto contenido de información<br />

lingüística consideran el texto o la secuencia de la palabras en la<br />

representación, descartando la palabra como unidad básica de la propia<br />

representación.


20 2. Estado <strong>del</strong> arte<br />

2.2 <strong>Representación</strong> <strong>textual</strong> sin contenido lingüístico<br />

Este enfoque se centra en hacer un análisis de los mo<strong>del</strong>os de representación<br />

<strong>textual</strong> que ignoran la información lingüística para realizar su<br />

cometido. Se distinguen dos mo<strong>del</strong>os: el mo<strong>del</strong>o básico y el mo<strong>del</strong>o de<br />

n-gramas. Seguidamente se presentan estos dos mo<strong>del</strong>os de representación.<br />

2.2.1 Mo<strong>del</strong>o básico de representación<br />

Para algunos investigadores la representación básica <strong>del</strong> texto se corresponde<br />

con el mo<strong>del</strong>o de bolsa de palabras (bag-of-words). El elemento<br />

básico de este mo<strong>del</strong>o de representación es la palabra. De este modo,<br />

el texto correspondiente a cada documento se representa siguiendo el<br />

mo<strong>del</strong>o de espacio vectorial (VSM) de Salton (1989). La idea de este<br />

mo<strong>del</strong>o se centra en la construcción de un vector de términos y pesos<br />

dónde:<br />

los términos se corresponden con los lemas de las palabras que componen<br />

el texto. En este mo<strong>del</strong>o, las palabras que más se utilizan en<br />

cada idioma no se suelen representar. A este conjunto de palabras se<br />

les conoce como palabras de parada (stopwords).<br />

los pesos asociados a los términos se calculan acorde a una de las<br />

siguientes alternativas:<br />

• Mo<strong>del</strong>o binario. En este mo<strong>del</strong>o, el peso <strong>del</strong> término puede tomar<br />

dos valores: 0 si el término no aparece en el documento, o 1 si el<br />

término aparece en el documento.<br />

• Frecuencia <strong>del</strong> término (TF). En este mo<strong>del</strong>o, el peso <strong>del</strong> término<br />

se corresponde con el número de apariciones que tiene en el documento.<br />

• TF.IDF (Term-Frequency, Inverse Document Frequency). En este<br />

mo<strong>del</strong>o, el peso <strong>del</strong> término se calcula en función de sus ocurrencias<br />

en el documento y <strong>del</strong> valor inverso de su frecuencia de aparición<br />

en el conjunto de documentos a representar. Este valor se computa<br />

según la expresión:<br />

T F.IDFtermino = T Ftermino ∗ log( N<br />

dftermino )<br />

donde N es el número de documentos a representar y dftermino es el<br />

número de documentos donde aparece el término.


2.2 <strong>Representación</strong> <strong>textual</strong> sin contenido lingüístico 21<br />

En este mo<strong>del</strong>o, las unidades básicas de representación son los términos<br />

de las palabras (su raíz), considerando que las palabras de parada no<br />

quedan representadas. La raíz de una palabra guarda cierta similitud<br />

con su lema, aunque no son exactamente la misma cosa. El lema de una<br />

palabra se corresponde con la forma no marcada (forma estándar) de<br />

la palabra, mientras que la raíz es fruto <strong>del</strong> resultado de aplicar una<br />

heurística a las palabras para eliminar sus desinencias morfológicas obteniendo<br />

de este modo un término que se aproxima a su lema pero que<br />

es más representativo de la palabra. Este término es la raíz o stem. Para<br />

obtener la raíz de las palabras se utiliza el algoritmo de Porter (1980),<br />

la técnica de stemming más común en sistemas de PLN, que permite<br />

obtener la forma canónica de cada palabra. Por ejemplo, las palabras<br />

analyzing, analyzer y analysis tienen la misma forma canónica, siendo<br />

ésta (la raíz) analy. El ejemplo 1 muestra una representación siguiendo<br />

este mo<strong>del</strong>o.<br />

(1) Frase: The story of Mr. Fly and the Emergency Rescue<br />

Committee who saved thousands in Marseille.<br />

<strong>Representación</strong>: La tabla 2.1 detalla la representación<br />

de la frase siguiendo este mo<strong>del</strong>o.<br />

Término (raíz) Peso<br />

stori 1.84449<br />

fly 6.19484<br />

emerg 6.47296<br />

rescu 6.19484<br />

committe 4.08194<br />

save 3.06725<br />

thousand 2.33944<br />

marseil 5.13363<br />

Tabla 2.1. Ejemplo de representación según el mo<strong>del</strong>o de bolsa de palabras<br />

Este mo<strong>del</strong>o de representación <strong>del</strong> texto no tiene en cuenta aspectos<br />

naturales de la oración como, por ejemplo, la secuencialidad de palabras<br />

ni las relaciones sintácticas. Por ejemplo, las frases “Federer hit the<br />

ball” y “The ball hit Federer” tendrían la misma representación en este<br />

mo<strong>del</strong>o cuando, desde el punto de vista <strong>lógico</strong> y semántico, representan<br />

cosas claramente diferenciadas.<br />

2.2.2 Mo<strong>del</strong>o de n-gramas<br />

El mo<strong>del</strong>o de representación de n-gramas (Caropreso et al. , 2001),<br />

(Lewis, 1992), (Mladenic & Grobelnik, 1998) está formado a través de


22 2. Estado <strong>del</strong> arte<br />

frases estadísticas definidas como n-gramas normalizados considerando<br />

el filtrado de palabras (stoplist filtering), el stemming y el orden alfabético.<br />

En general, se trata de una ventana deslizante de tamaño n<br />

caracteres que se desplaza a lo largo <strong>del</strong> texto extrayendo n caracteres<br />

en cada iteración.<br />

El mo<strong>del</strong>o básico de n-gramas consiste en establecer una ventana deslizante<br />

de longitud fija (Kjell et al. , 1994), (Keselj et al. , 2003), donde n<br />

indica el número de caracteres que se toman de cada palabra (2-gramas,<br />

3-gramas, 4-gramas,...). Una variación de este mo<strong>del</strong>o es el mo<strong>del</strong>o de<br />

n-gramas de longitud variable (Silva & Lopes, 1999), donde el tamaño<br />

de la ventana deslizante de caracteres no es fija, sino que tiene un tamaño<br />

variable.<br />

Según diferentes autores de los mencionados en este mo<strong>del</strong>o, una de<br />

las ventajas de los n-gramas es que permite abordar el problema de las<br />

palabras con la misma raíz pero con distintos sufijos sin necesidad de<br />

hacer stemming. Por ejemplo, según el mo<strong>del</strong>o anterior, las palabras<br />

analyzing, analyzer y analysis tienen la misma representación siendo<br />

ésta analy. En cambio, siguiendo el mo<strong>del</strong>o de n-gramas, la representación<br />

de estas palabras produciría n-gramas diferentes aunque algunos<br />

serían comunes entre sí. A continuación se muestra el ejemplo 2 que<br />

ilustra la representación formal <strong>del</strong> texto según el mo<strong>del</strong>o de n-gramas<br />

de longitud fija de tamaño 3 (también llamado trigrama).<br />

(2) Frase: The story of Mr. Fly and the Emergency Rescue<br />

Committee.<br />

<strong>Representación</strong>: 2 “ Th” “The” “he ” “e s” “ st”<br />

“sto” “tor” “ory” “ry ” “y o” “ of” “of ” “f M”<br />

“ Mr” “Mr.” “r. ” “. F” “ Fl” “Fly” “ly ” “y a”<br />

“ an” “and” “nd ” “d t” “ th” “the” “he ” “e E”<br />

“ Em” “Eme” “mer” “erg” “rge” “gen” “enc”<br />

“ncy” “cy ” “y R” “ Re” “Res” “esc” “scu” “cue”<br />

“ue ” “e C” “ Co” “Com” “omm” “mmi” “mit”<br />

“itt” “tte” “te.” “e. ”<br />

Una variante de la representación siguiendo el mo<strong>del</strong>o de n-gramas son<br />

los n-gramas de palabras. Concretamente, los n-gramas de palabras son<br />

combinaciones de n palabras consecutivas. Seguidamente, en el ejemplo<br />

3 se muestra la representación de la frase anterior según el mo<strong>del</strong>o de<br />

trigramas de palabras.<br />

2 El símbolo ‘ ’ representa el espacio en blanco que separa cada una de las palabras <strong>del</strong> texto.


2.3 <strong>Representación</strong> <strong>textual</strong> con contenido lingüístico 23<br />

(3) Frase: The story of Mr. Fly and the Emergency Rescue<br />

Committee.<br />

<strong>Representación</strong>: “The story of” “story of Mr.” “of<br />

Mr. Fly” “Mr. Fly and” “Fly and the” “and the<br />

Emergency” “the Emergency Rescue” “Emergency<br />

Rescue Committee”<br />

Una segunda variante de este mo<strong>del</strong>o son los skip n-gramas. Un skip ngrama<br />

es una combinación de n palabras en el orden en el que aparecen<br />

en la frase, pero permitiendo saltos arbitrarios entre ellas. A continuación,<br />

en el ejemplo 4 se muestra la representación de la frase anterior<br />

según el mo<strong>del</strong>o de skip trigramas con salto unitario.<br />

(4) Frase: The story of Mr. Fly and the Emergency Rescue<br />

Committee.<br />

<strong>Representación</strong>: “The of Fly” “story Mr. and” “of<br />

Fly the” “Mr. and Emergency” “Fly the Rescue”<br />

“and Emergency Committee”<br />

2.3 <strong>Representación</strong> <strong>textual</strong> con contenido<br />

lingüístico<br />

Se acaba de presentar el enfoque de representación <strong>textual</strong> sin contenido<br />

lingüístico, en el que el texto es representado como una bolsa de palabras<br />

o como una secuencia de n-gramas, dónde se ignoran por completo<br />

los significados e ideas que se expresan en el texto.<br />

El enfoque de representación <strong>textual</strong> con contenido lingüístico se centra<br />

en estudiar los mo<strong>del</strong>os de representación <strong>textual</strong> que utilizan el<br />

<strong>conocimiento</strong> lingüístico para el desarrollo de su función. Los mo<strong>del</strong>os<br />

basados en este enfoque pretenden tratar, en menor o mayor medida,<br />

los significados e ideas que se expresan en el texto.<br />

2.3.1 Mo<strong>del</strong>o de representación sintáctica<br />

El análisis sintáctico de constituyentes convierte el texto de entrada<br />

en otras estructuras (comúnmente árboles), que son más útiles para el<br />

posterior análisis y capturan la jerarquía implícita de la entrada. Por<br />

ello, el mo<strong>del</strong>o de representación sintáctica (Roger et al. , 2005) (Croft<br />

et al. , 1991) (Mauldin, 1991) utiliza el árbol de análisis sintáctico para<br />

representar formalmente las oraciones <strong>del</strong> texto. De este modo, las<br />

palabras de las oraciones se transforman en estructuras que muestran<br />

las relaciones gramaticales existentes entre las palabras. El ejemplo 5


24 2. Estado <strong>del</strong> arte<br />

muestra la representación formal <strong>del</strong> texto según el mo<strong>del</strong>o de representación<br />

sintáctica.<br />

(5) Frase: John drove his car yesterday.<br />

<strong>Representación</strong>: La tabla 2.2 ilustra la representación<br />

de la frase según las pautas descrutas en este<br />

mo<strong>del</strong>o de representación<br />

Parte izda. regla gramatical Parte drcha. regla gramatical<br />

S NP1 VP<br />

NP1<br />

HEAD1<br />

HEAD1<br />

John<br />

VP HEAD2 NP2 NP3<br />

HEAD2<br />

drove<br />

NP2<br />

T HEAD3<br />

T his<br />

HEAD3<br />

car<br />

NP3<br />

yesterday<br />

Tabla 2.2. Ejemplo de representación según el mo<strong>del</strong>o de representación sintáctica<br />

2.3.2 Mo<strong>del</strong>o basado en relaciones de dependencia entre<br />

palabras<br />

En este mo<strong>del</strong>o (Matsumura et al. , 2006), para representar el texto, se<br />

utiliza la información sintáctica definida en las relaciones de dependencia<br />

entre las palabras de la frase. Según la definición propuesta por Lin<br />

(1998b), una relación de dependencia entre dos de palabras es una relación<br />

binaria asimétrica entre una palabra llamada núcleo y otra palabra<br />

llamada modificador. Normalmente, las relaciones de dependencia constituyen<br />

un árbol que enlaza todas las palabras de la frase. Este árbol de<br />

dependencias tiene diferentes niveles de palabras porque una palabra en<br />

la frase puede tener diferentes modificadores, pero cada palabra debe<br />

modificar, al menos, a otra palabra. La raíz <strong>del</strong> árbol de dependencia<br />

no modifica a ninguna palabra. A ella se la denomina el núcleo de la<br />

frase.<br />

Por ello, las palabras se estructuran según dos tipos: las que representan<br />

concepto y las que indican relación. Las palabras que representan concepto<br />

son aquellas cuya categoría gramatical se corresponde con sustantivo,<br />

adjetivo, adverbio y los constituyentes de los nominales complejos.<br />

Las palabras que indican relación son las preposiciones, los verbos, los<br />

auxiliares y sus combinaciones. A continuación se muestra el ejemplo


2.3 <strong>Representación</strong> <strong>textual</strong> con contenido lingüístico 25<br />

6 donde se matiza la representación formal <strong>del</strong> texto según el mo<strong>del</strong>o<br />

basado en relaciones de dependencia entre palabras.<br />

(6) Frase: The story of Mr. Fly and the Emergency Rescue<br />

Committee who saved thousands in Marseille.<br />

<strong>Representación</strong>: La tabla 2.3 ilustra la representación<br />

de la frase según este mo<strong>del</strong>o.<br />

Modificador Núcleo Relación de dependencia<br />

Marseille [N] in [Prep] pcomp-n<br />

who [N] saved [V] whn-subj<br />

thousands [N] saved [V] obj<br />

in [Prep] saved [V] mod<br />

Emergency [N] Committee [N] lex-mod<br />

Rescue [N] Committee [N] lex-mod<br />

saved [V] Committee [N] rel<br />

Mr. [N] Fly [N] lex-mod<br />

Committee [N] Fly [N] conj<br />

Fly [N] of [Prep] pcomp-n<br />

The [Det] story [N] det<br />

of [Prep] story [N] mod<br />

Tabla 2.3. Ejemplo de representación según el mo<strong>del</strong>o basado en relaciones de dependencias entre<br />

palabras<br />

2.3.3 Mo<strong>del</strong>o de fusión de pares de dependencias sintácticas<br />

Este mo<strong>del</strong>o (Vilares et al. , 2002) se centra en la unión de los términos<br />

multipalabra. Un término multipalabra es un término formado por<br />

dos o más palabras con contenido (sustantivos, verbos y adjetivos) 3 .<br />

Una de las <strong>técnicas</strong> para la obtención de los términos multipalabra es la<br />

simplificación <strong>del</strong> texto (Jacquemin & Tzoukeman, 1999): en un primer<br />

paso, se eliminan las palabras de parada y se obtienen las raíces de las<br />

palabras, y, finalmente se extraen los términos y se fusionan, por ejemplo,<br />

<strong>mediante</strong> emparejado de patrones (Dillon & Gray, 1983) o criterios<br />

estadísticos (Fagan, 1987). El emparejado de patrones sintácticos se basa<br />

en la hipótesis de que las partes que más información aportan <strong>del</strong><br />

texto se corresponden con patrones sintácticos específicos (Justeson &<br />

Katz, 1995). De este modo, las relaciones sintácticas se identifican <strong>mediante</strong><br />

patrones sintácticos de sintagmas nominales y de sus variantes<br />

sintácticas y morfosintácticas. Aplicando este mo<strong>del</strong>o se derivan cinco<br />

métodos para representar al texto:<br />

3 Ejemplo: the neighbour’s big dog


26 2. Estado <strong>del</strong> arte<br />

pln: texto plano eliminando las palabras de parada.<br />

lem: fusión de términos monopalabra <strong>mediante</strong> lematización.<br />

fam: fusión de términos monopalabra <strong>mediante</strong> familias morfológicas<br />

4 .<br />

FNL: fusión de términos multipalabra <strong>mediante</strong> pares de dependencias<br />

sintácticas y lematización.<br />

FNF: fusión de términos multipalabra <strong>mediante</strong> pares de dependencias<br />

sintácticas y familias morfológicas.<br />

En el ejemplo 7 se detalla la representación formal <strong>del</strong> texto según el<br />

mo<strong>del</strong>o de fusión de pares de dependencias sintácticas.<br />

(7) Frase: Docenas de niños muy alegres han tenido que<br />

aprender hoy en el colegio una lección de historia.<br />

<strong>Representación</strong>: La tabla 2.4 muestra la representación<br />

de la oración anterior en base a este mo<strong>del</strong>o<br />

de representación.<br />

Constituyentes originales Fusión<br />

[docena NCFP N] [de P P] [docena de Cifra SNum]<br />

[docena de Cifra SNum] [niño NCMP N] [niño NCMP N]<br />

[muy WQ SAdv] [alegre AQFP A] [alegre AQFP SAdj]<br />

[niño NCMP N] [alegre AQFP SAdj] [niño NCMP SN]<br />

[haber V3PRI V] [tener VPMS V] [tener V3PRI GV1]<br />

[tener V3PRI GV1] [que Cs Cs] [aprender VRI GV1] [aprender V3PRI GV2]<br />

[el DAMS DA] [colegio NCMS N] [colegio NCMS SN]<br />

[un DAFS DA] [lección NCFS N] [lección NCFS SN]<br />

[de P P] [historia NCFS N] [historia NCFS SN]<br />

Tabla 2.4. Ejemplo de representación según el mo<strong>del</strong>o de fusión de pares de dependencias sintácticas<br />

2.3.4 Mo<strong>del</strong>o de formas lógicas<br />

Diferentes investigadores <strong>del</strong> área <strong>del</strong> PLN han definido la forma lógica<br />

como “una representación <strong>del</strong> <strong>conocimiento</strong> <strong>lógico</strong> de primer orden de<br />

oraciones expresadas <strong>mediante</strong> lenguaje natural” (Rus, 2002) (Rus &<br />

4 Una familia morfológica es un conjunto de palabras obtenidas a partir de una raíz morfológica<br />

común <strong>mediante</strong> mecanismos de derivación.


2.3 <strong>Representación</strong> <strong>textual</strong> con contenido lingüístico 27<br />

Moldovan, 2002). En este mo<strong>del</strong>o (Moldovan et al. , 2003) (Mollá et al.<br />

, 2002) la representación <strong>del</strong> texto se lleva a cabo <strong>mediante</strong> formas lógicas.<br />

La forma lógica de la oración representa su estructura lógica y<br />

está formada a partir de predicados enlazados. Existen diferentes métodos<br />

de derivación de la forma lógica, así como de su formato, en lo que<br />

se refiere a la composición de cada uno de los predicados que la forman.<br />

En los próximos capítulos se hablará con detalle de todo ello. A continuación,<br />

el ejemplo 8 detalla la representación formal <strong>del</strong> texto según<br />

el mo<strong>del</strong>o de formas lógicas.<br />

(8) Frase: An earthquake occurred on the east coast of<br />

Hokkaido.<br />

<strong>Representación</strong>: earthquake NN(x1) & occur VB(e1,x1,x4)<br />

& on IN(e1,x2) & east coast NN(x2) & of IN(x2,x3)<br />

& hokkaido NN(x3)<br />

2.3.5 Mo<strong>del</strong>o de representación semántica basado en grafos<br />

El propósito perseguido en este mo<strong>del</strong>o es que exista un mapeo entre las<br />

palabras <strong>del</strong> texto y objetos determinados de una fuente de <strong>conocimiento</strong>,<br />

de modo que se puedan crear correctas estructuras que correspondan<br />

con los significados de las palabras combinadas unas con otras.<br />

Existen diversos esquemas de representación semántica <strong>del</strong> texto. Un<br />

claro ejemplo es el mo<strong>del</strong>o de grafos semánticos (Semantic Graph Mo<strong>del</strong>)<br />

(Shaban, 2006) cuya representación consiste en un grafo basado en<br />

estructuras de datos donde las entidades (agentes, objetos, estados, acciones,<br />

eventos, lugares, ...) son representados como vértices <strong>del</strong> grafo,<br />

mientras que las relaciones entre ellos se representan como arcos. Cada<br />

nodo (vértice) almacena la información sobre la entidad que representa,<br />

pudiendo incluir el texto original, la información sintáctica, el significado<br />

semántico y las relaciones con otros nodos. De este modo, cada nodo<br />

tendrá los siguientes atributos:<br />

Name: Identificador exclusivo <strong>del</strong> nodo<br />

Type: clasificación de la entidad (agente, objeto, acción, ...)<br />

Texto: el texto original<br />

Syn: la etiqueta POS<br />

Sen: los sinónimos de la entidad según la fuente de <strong>conocimiento</strong>


28 2. Estado <strong>del</strong> arte<br />

Sem: el significado desambiguado de la entidad<br />

Rel: las relaciones con otros nodos <strong>del</strong> grafo<br />

Para poder representar el texto como un grafo, el primer paso consiste<br />

en realizar el análisis sintáctico <strong>del</strong> texto y, a continuación, se deriva el<br />

grafo, donde determinadas estructuras <strong>del</strong> árbol de análisis sintáctico<br />

se corresponden con nodos y arcos <strong>del</strong> grafo. Seguidamente se detalla<br />

un ejemplo de representación formal <strong>del</strong> texto según el mo<strong>del</strong>o de representación<br />

semántico.<br />

(9) Frase: John eats the apple standing beside the tree.<br />

<strong>Representación</strong>: En las tablas 2.5 y 2.6 se aprecia la<br />

representación de la frase anterior en base a este<br />

mo<strong>del</strong>o de representación<br />

Nodo 1 Nodo 2 Nodo 3<br />

Name: Agent1 Name: Action1 Name: Object1<br />

Type: Agent Type: Action Type: Object<br />

Text: John Text: eats Text: the apple<br />

Syn.: Noun, Subject Syn.: verb Syn.: object<br />

Sen.: Agent Name Sen.: chow, chunk, eats, Sen.: apple, orchard apple<br />

Sem.: Agent Name (1) grub tree, Malus pumila<br />

Rel.: Action1 (.9), Sem.: eat (.9) Sem.: apple tree (.8)<br />

Action2 (.85) Rel.: Object1 (.9) Rel.: NIL<br />

Tabla 2.5. Ejemplo de representación según el mo<strong>del</strong>o de representación semántica (I)<br />

Nodo 4 Nodo 5<br />

Name: Action2 Name: Object2<br />

Type: Action Type: Object<br />

Text: standing Text: beside the tree<br />

Syn.: verb Syn.: adverb<br />

Sen.: status, position, motion, movement, move, mobility Sen.:<br />

Sem.: position (.7) Sem.: beside the tree (.8)<br />

Rel.: Object2 (.8) Sem.: NIL<br />

Tabla 2.6. Ejemplo de representación según el mo<strong>del</strong>o de representación semántica (II)<br />

Cabe destacar también la representación basada en marcos (frames)<br />

como una especialización de este mo<strong>del</strong>o. El concepto de marco fue propuesto<br />

en la década de los setenta por Minsky (1975). La idea principal


2.3 <strong>Representación</strong> <strong>textual</strong> con contenido lingüístico 29<br />

<strong>del</strong> marco es muy simple: un marco representa un objeto o un concepto.<br />

Las relaciones entre objetos y conceptos vienen denotadas por los<br />

huecos (slots). Los atributos permiten determinar las propiedades de<br />

los objetos y/o conceptos.<br />

2.3.6 Mo<strong>del</strong>o basado en ontología<br />

Atendiendo a la propia composición <strong>del</strong> lenguaje humano, un concepto<br />

puede ser expresado <strong>mediante</strong> distintas palabras sinónimas, y también,<br />

dada una palabra, ésta puede tener diferentes significados según su contexto.<br />

Los mo<strong>del</strong>os de representación vistos hasta ahora no tienen en<br />

cuenta ninguna de estas consideraciones. Los mo<strong>del</strong>os de representación<br />

<strong>del</strong> texto basados en ontología tienen, por una parte, una componente<br />

matemática y, por otra parte, una fuerte componente basada en la<br />

exploración de alguna ontología que permite la consideración todo tipo<br />

de características semánticas <strong>del</strong> lenguaje. La ontología clásica utilizada<br />

en este mo<strong>del</strong>o de representación formal <strong>del</strong> texto suele ser WordNet<br />

(Miller, 1995).<br />

Siguiendo el mo<strong>del</strong>o basado en ontología, en la representación <strong>del</strong> texto,<br />

sólo se tienen en cuenta aquellas palabras cuyas categorías gramaticales<br />

son sustantivo, adjetivo, verbo o adverbio, ya que la base de datos léxica<br />

WordNet sólo tiene entradas de este tipo de palabras. Las entradas<br />

de WordNet se agrupan en synsets según su categoría gramatical. Un<br />

synset agrupa a una serie de palabras sinónimas de la misma categoría<br />

gramatical incluyendo su número de sentido. Cada synset de WordNet<br />

está identificado exclusivamente por un identificador de synset, que es<br />

un número de ocho dígitos. Por ejemplo, el synset 02853224 agruparía<br />

las palabras car, auto, automotive y motorcar con sentido 1, y machine<br />

con sentido 2.<br />

Diferentes autores han utilizado este mo<strong>del</strong>o de representación en sus<br />

investigaciones tales como Gonzalo et al. (1998), Scott et al. (1999),<br />

Junker et al. (1997), Vicedo (2002) y Petridis et al. (2001). Sanderson<br />

(2000) hace un buen estudio de las diferentes variaciones de este mo<strong>del</strong>o<br />

aplicadas a la Recuperación de Información. A continuación se muestra<br />

el ejemplo 10 en el que se presenta la representación formal <strong>del</strong> texto<br />

según el mo<strong>del</strong>o híbrido considerando únicamente el sentido de las palabras<br />

en WordNet.<br />

(10) Frase: A bank is an institution that lends money to<br />

business establishments and plays an important role<br />

in commerce.


30 2. Estado <strong>del</strong> arte<br />

<strong>Representación</strong>: La tabla 2.7 muestra la representación<br />

de la frase siguiendo las pautas descritas en<br />

este mo<strong>del</strong>o.<br />

Palabra <strong>Representación</strong><br />

bank bank n#10<br />

institution institution n#4<br />

lends lend v#2<br />

money money n#3<br />

business business n#1<br />

establishments establishment n#7<br />

plays play v#17<br />

important important a#1<br />

role role n#4<br />

commerce commerce n#3<br />

Tabla 2.7. Ejemplo de representación según el mo<strong>del</strong>o híbrido<br />

2.3.7 Mo<strong>del</strong>o basado en análisis de la semántica latente<br />

(LSA)<br />

El análisis de la semántica latente (Latent Semantic Analysis) es una<br />

técnica que consiste en analizar las relaciones entre los textos y la terminología<br />

contenida en ellos <strong>mediante</strong> el uso de conceptos que relacionan<br />

a ambos.<br />

El mo<strong>del</strong>o basado en análisis de la semántica latente (Deerwester et al. ,<br />

1990), (Hasan & Matsumoto, 1999) utiliza una matriz que relaciona los<br />

términos y los textos donde se describen las apariciones de los términos<br />

en los textos. Los elementos de la matriz siguen una proporcionalidad<br />

relativa al número de apariciones de cada uno de los términos en cada<br />

uno de los textos. La técnica de análisis de la semántica latente transforma<br />

esta matriz de ocurrencias en una relación entre los términos y<br />

algunos conceptos, y en otra relación entre estos conceptos y los textos.<br />

De este modo, los términos y los textos quedan relacionados a través de<br />

los conceptos. El ejemplo 11 muestra la representación formal <strong>del</strong> texto<br />

según el mo<strong>del</strong>o LSA. Los documentos c1-c5 son títulos de publicaciones<br />

que tratan sobre la interacción persona-ordenador, mientras que los<br />

documentos m1-m4 tratan sobre la teoría de grafos.<br />

(11) Frase: The human-computer relation over the EPS<br />

user interface.


2.5 La representación formal <strong>del</strong> texto en los sistemas de PLN 31<br />

<strong>Representación</strong>: La Tabla 2.8 muestra la frecuencia<br />

de aparición de los términos en los documentos.<br />

Términos<br />

Documentos<br />

c1 c2 c3 c4 c5 m1 m2 m3 m4<br />

human 1 0 0 1 0 0 0 0 0<br />

interface 1 0 1 0 0 0 0 0 0<br />

computer 1 1 0 0 0 0 0 0 0<br />

user 0 1 1 0 1 0 0 0 0<br />

relation 0 0 0 0 1 0 0 0 0<br />

EPS 0 0 1 1 0 0 0 0 0<br />

Tabla 2.8. Asignación de frecuencias entre términos y documentos según el mo<strong>del</strong>o LSA<br />

En el mo<strong>del</strong>o LSA, a partir de la matriz de frecuencias entre términos<br />

y documentos, se realizan complejas operaciones de cálculo (descomposición<br />

de valores singulares parametrizada, cálculo de matriz de aproximación,<br />

correlación de vectores, medias de correlaciones entre pares<br />

de documentos, etc.) cuyo propósito no es otro que relacionar términosconceptos,<br />

y conceptos-documentos.<br />

2.4 Síntesis de los enfoques de representación<br />

<strong>textual</strong><br />

En las secciones previas <strong>del</strong> capítulo se han presentado los diferentes<br />

enfoques de representación formal <strong>del</strong> texto. Estos enfoques, atendiendo<br />

a las métodos empleados, se han clasificados en enfoques estadísticos<br />

y enfoque basados en reglas de PLN. La tabla 2.9 presenta una síntesis<br />

de estos enfoques de representación <strong>textual</strong>.<br />

Además, dentro de cada enfoque, tenemos diferentes mo<strong>del</strong>os de representación<br />

formal <strong>del</strong> texto. La tabla 2.10 sintetiza los diferentes mo<strong>del</strong>os<br />

de representación <strong>textual</strong> vistos en las secciones previas <strong>del</strong> capítulo.<br />

2.5 La representación formal <strong>del</strong> texto en los<br />

sistemas de PLN<br />

A continuación se presenta la utilización que los diferentes sistemas<br />

más comunes de PLN han efectuado de los distintos mo<strong>del</strong>os de representación<br />

formal <strong>del</strong> texto presentados a lo largo de este capítulo. En<br />

concreto, se introducen los detalles más significativos de los mo<strong>del</strong>os de


32 2. Estado <strong>del</strong> arte<br />

Enfoques sin cont. lingüístico Enfoques con cont. lingüístico<br />

Representar el lenguaje a partir de la Representar la estructura lógica <strong>del</strong><br />

Idea matemática y la estadística. lenguaje (<strong>conocimiento</strong> <strong>del</strong><br />

lenguaje).<br />

Aplicación de cálculos matemáticos Aplicación de reglas y heurísticas<br />

Consiste y estadísticos sobre las derivaciones basadas en PLN para derivar las<br />

de las palabras. estructuras <strong>del</strong> lenguaje.<br />

TF Análisis léxico<br />

Técnicas TF.IDF Análisis Morfo<strong>lógico</strong><br />

WIDF Análisis sintáctico<br />

... ...<br />

Híbrido<br />

LSA<br />

Básico (bag of words) Relaciones de dependencia<br />

Mo<strong>del</strong>os N-gramas Fusión de pares de dependencias<br />

sintácticas<br />

<strong>Representación</strong> sintáctica<br />

Formas lógicas<br />

<strong>Representación</strong> semántica<br />

Ventajas Coste computacional moderado Enriquecimiento lingüístico.<br />

Uso escaso de recursos lingüísticos Mayor precisión.<br />

No aportan ningún tipo de Mayor coste computacional.<br />

Limitaciones <strong>conocimiento</strong> lingüístico. En algunos casos, sobreutilización<br />

de recursos lingüísticos.<br />

Tabla 2.9. Síntesis de los enfoques de representación <strong>textual</strong><br />

representación formal <strong>del</strong> texto utilizados por los diferentes sistemas en<br />

la áreas de Búsqueda de Respuestas, Recuperación de Información, Traducción<br />

Automática, Categorización Automática de Textos, sistemas de<br />

Diálogo, Extracción de Información y Generación de Resúmenes. Para<br />

ello, se detallan mecanismos de representación formal <strong>del</strong> texto de los<br />

sistemas de PLN que han causado un impacto relevante en el seno de<br />

la investigación en cada una de estas áreas.<br />

2.5.1 La representación formal <strong>del</strong> texto en los sistemas de<br />

Búsqueda de Respuestas<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Búsqueda de Respuestas desarrollados<br />

en los centros de investigación de Texas, Washington y Trento bajo<br />

la supervisión de los investigadores Dan I. Moldovan, Dina Demner-<br />

Fushman y Bernardo Magnini respectivamente.<br />

El sistema COGEX de Moldovan et al. (2007) utiliza un mecanismo<br />

de representación formal <strong>del</strong> texto basado en formas lógicas. A la forma<br />

lógica se le incorpora información semántica de dos maneras: (1) la


2.5 La representación formal <strong>del</strong> texto en los sistemas de PLN 33<br />

Consiste Ventajas Limitaciones<br />

<strong>Representación</strong> <strong>del</strong> texto Moderado coste Ambigüedad.<br />

Mo<strong>del</strong>o en base a complejos computacional. Uso No tiene en cuenta<br />

básico cálculos sobre derivaciones escaso de recursos la naturalidad<br />

de las palabras. lingüísticos <strong>del</strong> lenguaje.<br />

<strong>Representación</strong> <strong>del</strong> texto Considera la naturalidad No aporta ningún<br />

Mo<strong>del</strong>o en base a una ventana <strong>del</strong> lenguaje (ej. orden tipo de conoci-<br />

N-gramas deslizante de caracteres de las palabras miento lingüístico<br />

de tamaño fijo o variable. en la frase.) <strong>del</strong> texto.<br />

Mo<strong>del</strong>o <strong>Representación</strong> <strong>del</strong> texto Tiene en cuenta el Desambiguación.<br />

basado en base a cálculos significado asociado Sobreutilización de<br />

en estadísticos e información a las palabras fuentes de conoci-<br />

Ontología conceptual. <strong>del</strong> texto. miento lingüístico.<br />

<strong>Representación</strong> <strong>del</strong> texto Tiene en cuenta el Elevado coste<br />

Mo<strong>del</strong>o en base a matrices estadís- significado asociado computacional.<br />

LSA ticas que relacionan textos, a las palabras Desambiguación.<br />

conceptos y documentos. <strong>del</strong> texto.<br />

<strong>Representación</strong> <strong>del</strong> texto<br />

Mo<strong>del</strong>o en base a relaciones Granularidad. Elevado coste<br />

Dependencias de dependencia entre Precisión. computacional.<br />

pares de palabras.<br />

Mo<strong>del</strong>o <strong>Representación</strong> <strong>del</strong> texto Elevada complejidad.<br />

Fusión en base a relaciones Granularidad. Alto coste<br />

Dependencias entre pares de Precisión. computacional.<br />

Sintácticas dependencias sintácticas.<br />

<strong>Representación</strong> <strong>del</strong> texto Granularidad. Ambigüedad.<br />

Mo<strong>del</strong>o en base a relaciones Claridad. Elevado coste<br />

Sintáctico entre pares de Expresividad. computacional.<br />

dependencias sintácticas.<br />

Mo<strong>del</strong>o <strong>Representación</strong> <strong>del</strong> texto Alta complejidad.<br />

Formas en base a secuencias Claridad. Elevado coste<br />

Lógicas de predicados <strong>lógico</strong>s No ambigüedad. computacional.<br />

relacionados.<br />

Mo<strong>del</strong>o <strong>Representación</strong> <strong>del</strong> texto Semántica. Alta complejidad.<br />

Semántico en base a grafos Claridad. Elevado coste<br />

basado en semánticos dirigidos No ambigüedad. computacional.<br />

Grafos y acíclicos.<br />

Tabla 2.10. Síntesis de los mo<strong>del</strong>os de representación <strong>textual</strong><br />

clase semántica detectada por el reconocedor de entidades; y (2) las relaciones<br />

semánticas obtenidas a partir de un análisis semántico (Bixler<br />

et al. , 2005). Las relaciones semánticas son <strong>del</strong> tipo: es-un, parte-de,<br />

es-resultado-de, es-una-manera-de-hacer y es-resultado-de. A continuación<br />

se muestra el ejemplo 12 donde se representa la frase dada con su<br />

forma lógica asociada.<br />

(12) Frase: Bin Laden reportedly purchased anthrax a half<br />

decade ago from a supplier in North Korea.


34 2. Estado <strong>del</strong> arte<br />

<strong>Representación</strong>: Bin NN(x1) & Laden NN(x2) & nn NNC(x3,<br />

x1, x2) & human NE(x3) & reportedly RB(x4, e1)<br />

& purchase VB(e1, x3, x5) & anthrax NN(x5) &<br />

half JJ(x6, x7) & decade NN(x7) & ago JJ(x8, x7)<br />

& from IN(e1, x9) & supplier NN(x9) & in IN(x9,<br />

x12) & North NN(x10) & Korea NN(x11) & nn NNC(x12,<br />

x10, x11) & location NE(x12)<br />

Las relaciones semánticas de la frase <strong>del</strong> ejemplo están expresadas en la<br />

tabla 2.11. Estas relaciones semánticas se representan en la forma lógica<br />

<strong>mediante</strong> la introducción de nuevos predicados. Estos nuevos predicados<br />

conservan la estructura de sus análogos originales detallados en secciones<br />

anteriores de este capítulo introduciendo como novedad el concepto<br />

de rol semántico (Moreda et al. , 2008). Un rol semántico describe una<br />

función abstracta desempeñada por un elemento que participa en una<br />

acción. Básicamente mo<strong>del</strong>an el tipo de relación semántica existente<br />

(rol semántico), y sus argumentos se corresponden con los argumentos<br />

identificadores de los predicados de la forma lógica vinculados en las<br />

relaciones semánticas. A continuación, el ejemplo 13 muestra la representación<br />

de las relaciones semánticas existentes en la frase.<br />

(13) Frase: Bin Laden reportedly purchased anthrax a half<br />

decade ago from a supplier in North Korea.<br />

<strong>Representación</strong> de relaciones semánticas: AGENT SR(x3,<br />

e1) & TOPIC SR(e1, x4) & THEME SR(x5, e1)<br />

& RECIPIENT SR(x9, e1) & TEMPORAL SR(x7,<br />

e1) & MEASURE SR(x6, x7) & LOCATION SR(x12,<br />

x9)<br />

Relaciones semánticas<br />

AGENT(Bin Laden, purchased)<br />

TOPIC(purchased, reportedly)<br />

THEME(anthrax, purchased)<br />

RECIPIENT(a supplier in North Korea, purchased)<br />

TEMPORAL(a half decade ago, purchased)<br />

MEASURE(a half, decade)<br />

LOCATION(in North Korea, a supplier)<br />

Tabla 2.11. Relaciones semánticas de la frase <strong>del</strong> ejemplo<br />

El sistema de Demner-Fushman et al. (2007) aplica un preproceso de<br />

los documentos a representar consistente en la normalización de los mismos.<br />

Para ello elimina plurales, posesivos, palabras compuestas, otros<br />

guiones, variantes <strong>del</strong>etreadas (spelling variants), etc. A continuación


2.5 La representación formal <strong>del</strong> texto en los sistemas de PLN 35<br />

obtiene una representación estadística de los documentos siguiendo el<br />

mo<strong>del</strong>o de n-gramas, teniendo un total de 1250391 n-gramas con tamaño<br />

de n variable desde 1 hasta 8. En el proceso de representación,<br />

el índice almacena el número de ocurrencias de cada n-grama en cada<br />

documento.<br />

Como mejora y optimización de la representación formal <strong>del</strong> texto se<br />

propone utilizar una representación basada en el mo<strong>del</strong>o de análisis<br />

sintáctico y el re<strong>conocimiento</strong> de la terminología <strong>del</strong> corpus.<br />

El sistema DIOGENE de Bernardo Magnini et. al (2002) hace un preproceso<br />

que consiste, en un primer paso, en una tokenización y etiquetado<br />

PoS de las palabras y, en un segundo paso, en el re<strong>conocimiento</strong><br />

de expresiones multipalabra. Una vez realizado este preproceso, el texto<br />

es representado formalmente siguiendo el mo<strong>del</strong>o de representación<br />

híbrido. Para ello identifica cada palabra o expresión multipalabra con<br />

su sentido asociado en la base de datos léxica WordNet.<br />

2.5.2 La representación formal <strong>del</strong> texto en los sistemas de<br />

Recuperación de Información<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Recuperación de Información desarrollados<br />

en los centros de investigación de Amsterdam, Barcelona (Yahoo)<br />

y Maryland bajo la supervisión de los investigadores Marteen de Rijke,<br />

Ricardo Baeza-Yates y Jimmy Lin respectivamente.<br />

El sistema de Balog et al. (2007) obtiene una representación formal <strong>del</strong><br />

documento basada en el mo<strong>del</strong>o de bolsa de palabras (bag-of-words).<br />

De este modo, las estimaciones que hace para determinar si un documento<br />

es candidato a ser relevante para una query es puramente<br />

estadística ya que se basa en la formulación propuesta por Bayes:<br />

P (documento|query) = P (query|documento)P (documento)/P (query).<br />

El sistema de Baeza-Yates et al. (2007) obtiene una representación formal<br />

<strong>del</strong> texto basada en el mo<strong>del</strong>o de bolsa de palabras. En el proceso<br />

de recuperación maneja conceptos totalmente estadísticos tales como<br />

las frecuencias normalizadas de los términos, la distribución de las frecuencias,<br />

y las correlaciones de las frecuencias entre los términos de los<br />

documentos y de las queries.<br />

El sistema de Jimmy Lin (2006), al igual que los dos sistemas predecesores<br />

en este apartado, obtiene también una representación formal<br />

<strong>del</strong> texto basada en el mo<strong>del</strong>o de bolsa de palabras. Para ello utiliza<br />

una variante <strong>del</strong> mo<strong>del</strong>o de pesado TF.IDF. Básicamente se centra en


36 2. Estado <strong>del</strong> arte<br />

computar estadísticamente las frecuencias de aparición de los términos<br />

tanto en los documentos como en las queries, tratando de establecer<br />

algún tipo de relación entre ambos.<br />

2.5.3 La representación formal <strong>del</strong> texto en los sistemas de<br />

Traducción Automática<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Traducción Automática desarrollados<br />

en los centros de investigación de California, Kyoto y Washington bajo<br />

la supervisión de los investigadores Chin-Yew Lin, Takao Doi y Chris<br />

Quirk respectivamente.<br />

El sistema de Lin et al. (2004) obtiene una representación formal <strong>del</strong><br />

texto basada en el mo<strong>del</strong>o de n-gramas y su variante mo<strong>del</strong>o de skip<br />

n-gramas. La Traducción Automática se basa en complejos cálculos basados<br />

en la estadística sobre los n-gramas de tamaño 1 y 2, y los skipbigramas.<br />

El sistema de Doi et al. (2005), al igual que el anterior sistema presentado<br />

(Lin et al. (2004)), obtiene también una representación formal<br />

<strong>del</strong> texto basada en el mo<strong>del</strong>o de n-gramas. La Traducción Automática<br />

se basa, básicamente, en la computación de las probabilidades que<br />

relacionan las secuencias de palabras y las expresiones tratadas en los<br />

n-gramas.<br />

El sistema de Quirk et al. (2005) obtiene la representación formal <strong>del</strong><br />

texto aplicando el mo<strong>del</strong>o basado en el análisis de dependencias. En<br />

el proceso de traducción utiliza también segmentación y alineamiento<br />

paralelo a partir de la representación obtenida como árbol de dependencias.<br />

2.5.4 La representación formal <strong>del</strong> texto en los sistemas de<br />

Categorización Automática de Textos<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Categorización Automática de Textos<br />

desarrollados en los centros de investigación de Texas, Passau y<br />

Pittsburgh bajo la supervisión de los investigadores Rada Mihalcea,<br />

Karl-Michael Schneider y William W. Cohen respectivamente.<br />

El enfoque de Categorización Automática de Textos presentado por<br />

Hassan et al. (2007) mo<strong>del</strong>a la distribución de probabilidad de las palabras<br />

características de cada documento a partir de una representación<br />

formal <strong>del</strong> texto muy similar a los grafos presentados en el mo<strong>del</strong>o


2.5 La representación formal <strong>del</strong> texto en los sistemas de PLN 37<br />

semántico. Los grafos se construyen teniendo en cuenta las siguientes<br />

consideraciones:<br />

si un término no ha sido previamente mo<strong>del</strong>ado en el grafo, entonces<br />

se añade un nodo que representa al término.<br />

un término sólo puede ser representado por un único nodo <strong>del</strong> grafo,<br />

independientemente <strong>del</strong> número de apariciones en el documento.<br />

se dibuja un arco no dirigido entre dos nodos si los términos que representan<br />

dichos nodos co-ocurren para un tamaño de ventana dado.<br />

A continuación, el ejemplo 14 muestra la representación de un texto<br />

según este mo<strong>del</strong>o de representación considerando un tamaño de ventana<br />

igual a 2.<br />

(14) Texto: London-based sugar operator Kaines Ltd confirmed<br />

it sold two cargoes of white sugar to India<br />

out of an estimated overall sales total of four or five<br />

cargoes in which other brokers participated. The<br />

sugar, for April/May and April/June shipment, was<br />

sold at between 214 and 218 dlrs a tonne cif, it<br />

said.<br />

<strong>Representación</strong>: En la figura 2.1 se puede contemplar<br />

la representación <strong>del</strong> texto anterior en base a este<br />

mo<strong>del</strong>o de representación<br />

En la aplicación de la Categorización Automática de Textos propuesta<br />

por Schneider (2004), la representación formal <strong>del</strong> texto se basa en<br />

el mo<strong>del</strong>o de bolsa de palabras. De este modo, cada documento tiene<br />

asociado un vector característico bidimensional. La primera dimensión<br />

<strong>del</strong> vector refleja las diferentes palabras <strong>del</strong> documento mientras que la<br />

segunda dimensión <strong>del</strong> vector indica la frecuencia de aparición de cada<br />

una de las palabras en el documento. En base a este mo<strong>del</strong>o de representación,<br />

la clasificación se basa en una computación estocástica de<br />

estos vectores basada en Naive Bayes considerando la divergencia KL.<br />

La propuesta de Categorización Automática de Textos planteada por<br />

Zelikovitz et al. (2007) utiliza una representación formal <strong>del</strong> texto basada<br />

en el mo<strong>del</strong>o bolsa de palabras. Sobre esta representación y la incorporación<br />

de <strong>conocimiento</strong> <strong>del</strong> medio (background knowledge) al sistema<br />

WHIRL (Word-based Heterogeneous Information Retrieval Language)<br />

realiza el proceso de clasificación de los textos.


38 2. Estado <strong>del</strong> arte<br />

tonne<br />

dirs<br />

shipment<br />

cif<br />

June May<br />

April<br />

participated<br />

brokers<br />

total<br />

London<br />

sales<br />

Figura 2.1. Grafo que representa el texto <strong>del</strong> ejemplo<br />

based<br />

estimated<br />

India<br />

sugar<br />

operator<br />

Kaines<br />

confirmed<br />

sold<br />

cargoes<br />

white<br />

2.5.5 La representación formal <strong>del</strong> texto en los sistemas de<br />

Diálogo<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Diálogo desarrollados en los centros<br />

de investigación de Saarsbrucken, Wisconsin, Rochester y Valencia bajo<br />

la supervisión de los investigadores Ralf Engel, Susan M. Haller, James<br />

F. Allen y Emilio Sanchís respectivamente.<br />

El sistema de Diálogo multimodal de Engel et al. (2007) utiliza un analizador<br />

sintáctico que usa dos tipos de reglas:<br />

el primer tipo de reglas es un conjunto de reglas específicas <strong>del</strong> dominio<br />

cuyo propósito es convertir las expresiones de entrada al sistema<br />

en una representación sintáctica intermedia.<br />

el segundo tipo de reglas es un conjunto de reglas independiente <strong>del</strong><br />

dominio cuyo objeto se centra en realizar una transformación de las<br />

representaciones sintácticas intermedias obtenidas en el paso previo<br />

en un árbol de derivación basado en una gramática adyacente (treeadjoining<br />

grammar).<br />

El sistema de Diálogo propuesto por McRoy et al. (1998) plantea una<br />

representación profunda mixta (mixed-depth representation) <strong>del</strong> tex-


2.5 La representación formal <strong>del</strong> texto en los sistemas de PLN 39<br />

to que maneja tanto información sintáctica como conceptual. Para ello<br />

utiliza un análisis sintáctico con una gramática basada en lingüística<br />

(linguistically based grammar) para capturar la sintaxis y la conceptualización<br />

de las expresiones de entrada al sistema.<br />

Además, la representación <strong>del</strong> <strong>conocimiento</strong> <strong>del</strong> dominio y la representación<br />

<strong>del</strong> discurso se realiza en un framework uniforme como una red<br />

semántica proposicional. En este framework la información se representa<br />

como un grafo compuesto de nodos y arcos dirigidos etiquetados que<br />

cumplen las siguientes propiedades:<br />

cada nodo representa un único concepto.<br />

cada concepto representado en la red tiene un único nodo asociado.<br />

el <strong>conocimiento</strong> representado sobre cada concepto es representado por<br />

la estructura de toda la red conectada al nodo que representa el concepto.<br />

El sistema de Diálogo propuesto por Poesio et al. (1994) utiliza un<br />

análisis sintáctico para representar la semántica léxica. A esta representación<br />

la llama “episódica lógica” (episodic logic) y la define como<br />

una “lógica situacional desarrollada como una representación semántica<br />

y <strong>del</strong> <strong>conocimiento</strong> adecuada para la comprensión general <strong>del</strong> lenguaje<br />

natural”. Para ello, cada una de las reglas de la gramática se empareja<br />

con una regla semántica, y de este modo se construye el árbol de análisis<br />

sintáctico de la frase.<br />

El sistema de Diálogo DIHANA (2005) obtiene una representación basada<br />

en frames de las expresiones de usuario. Los frames se obtienen en<br />

dos pasos: el primero de ellos consiste en obtener una frase semántica<br />

definida como una “sequential Intermediate Semantic Language (ISL)”<br />

de la expresión de entrada al sistema; el segundo paso consiste en traducir<br />

esta frase semántica en su correspondiente frame asociado. Para<br />

ello utiliza un procesamiento totalmente estocástico basado en los mo<strong>del</strong>os<br />

ocultos de Markov y el uso de n-gramas sobre un amplio corpus<br />

de aprendizaje.<br />

2.5.6 La representación formal <strong>del</strong> texto en los sistemas de<br />

Extracción de Información<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Extracción de Información desarrollados<br />

en los centros de investigación de Chennai, París y Sheffield bajo<br />

la supervisión de los investigadores Manjula Dhevi, Patrick Gallinari y


40 2. Estado <strong>del</strong> arte<br />

Yorick Wilks respectivamente.<br />

La propuesta presentada por Manjula et al. (2003) realiza una representación<br />

formal <strong>del</strong> texto enriqueciendo el mo<strong>del</strong>o de bolsa de palabras<br />

con relaciones léxicas, conceptuales y con<strong>textual</strong>es. Las relaciones léxicas<br />

las adquiere explotando las relaciones definidas en la base de datos<br />

léxica WordNet. Las relaciones conceptuales son extraídas a partir de la<br />

definición de la glosa de WordNet, incluyendo su synset. De este modo,<br />

a cada término representado mediate el mo<strong>del</strong>o de bolsa de palabras<br />

le extiende su representación incluyendo esta información extraída de<br />

WordNet. Para la obtención de las relaciones con<strong>textual</strong>es aplica una<br />

serie de heurísticas de PLN sobre el análisis de dependencias entre las<br />

palabras.<br />

El enfoque planteado por Amini et al. (1999) considera la representación<br />

formal <strong>del</strong> texto siguiendo el mo<strong>del</strong>o basado en bolsa de palabras<br />

enriquecido con información morfosintáctica (concretamente el POS de<br />

las palabras). Sobre este tipo de representación realiza una computación<br />

matemática aplicando los mo<strong>del</strong>os ocultos de Markov y los perceptrones<br />

multicapa.<br />

La propuesta planteada por Kuper et al. (2003) representa formalmente<br />

el texto basándose en el mo<strong>del</strong>o de formas lógicas. Concretamente, para<br />

la lengua inglesa, define una gramática para resolver, entre otros, los<br />

sujetos y objetos <strong>lógico</strong>s así como los pronombres y las expresiones<br />

definitivas (ej. “the Barcelona striker”) derivando, a partir de dicha<br />

gramática, la forma lógica. A continuación aplica una serie de reglas<br />

de extracción de información basadas en lógica para operar sobre las<br />

formas lógicas obtenidas a partir <strong>del</strong> análisis sintáctico.<br />

2.5.7 La representación formal <strong>del</strong> texto en los sistemas de<br />

Generación de Resúmenes<br />

En este apartado se detallan los mo<strong>del</strong>os de representación formal <strong>del</strong><br />

texto que utilizan los sistemas de Generación de Resúmenes desarrollados<br />

en los centros de investigación de Texas, Toyohashi y California<br />

bajo la supervisión de los investigadores Rada Mihalcea, Hiroyuki Sakai<br />

y Eduard Hovy respectivamente.<br />

La propuesta presentada por Rada Mihalcea et al. (2005) para la Generación<br />

Automática de Resúmenes realiza representación formal <strong>del</strong><br />

texto como un grafo que contiene vértices y arcos donde los vértices<br />

representan los conceptos extraídos <strong>del</strong> texto y los arcos representan las<br />

relaciones existentes entre los conceptos. A partir de esta representación<br />

aplica una computación estadística que asigna a cada vértice <strong>del</strong> gra-


2.6 Conclusiones 41<br />

fo y a cada arco un factor de peso indicador de su relevancia en el grafo.<br />

El planteamiento definido en el trabajo de investigación de Hiroyuki<br />

Sakai et al. (2004) propone una representación formal <strong>del</strong> texto basada<br />

en el mo<strong>del</strong>o básico de representación. Sobre esta representación aplica<br />

complejos cálculos matemáticos para computar las apariciones de los<br />

términos en los documentos, sus entropías, y el cálculo de similitudes.<br />

La aproximación planteada por Lin et al. (2002) propone una representación<br />

formal <strong>del</strong> texto basada en n-gramas. En concreto, la identificación<br />

de conceptos la realiza aplicando unigramas, bigramas y trigramas.<br />

Sobre esta representación aplica un procesamiento estadístico con<br />

el propósito de realizar la tarea propuesta.<br />

2.6 Conclusiones<br />

En los últimos años se está produciendo en la sociedad una utilización,<br />

cada vez mayor, por una parte de los sistemas de PLN y, por otra, de los<br />

sistemas que hacen uso <strong>del</strong> PLN. Un claro ejemplo de los primeros son<br />

los sistemas de búsqueda de respuestas, que permiten obtener de una<br />

colección documental una respuesta concreta a una pregunta formulada,<br />

mientras que un claro ejemplo de los segundos, son los sistemas de<br />

control domótico que facilitan al usuario la interacción sobre los diferentes<br />

elementos <strong>del</strong> hogar domótico a través de las órdenes expresadas<br />

en lenguaje natural.<br />

Los sistemas de PLN, no son capaces de procesar el texto tal cual está escrito<br />

o transcrito sino que, para su proceso, el texto precisa ser representado<br />

formalmente, facilitando con ello la comprensión de los que se<br />

expresa en el texto. Existen numerosos mo<strong>del</strong>os de representación <strong>del</strong><br />

texto. Estos mo<strong>del</strong>os, atendiendo a las <strong>técnicas</strong> utilizadas, se clasifican<br />

en estadísticos o basados en PLN.<br />

A lo largo <strong>del</strong> capítulo se han presentado las aplicaciones o sistemas<br />

más comunes <strong>del</strong> PLN categorizados según el grado de PLN que incorporan.<br />

Éstos son: los sistemas de Traducción Automática, los sistemas<br />

de Categorización Automática de Textos, los sistemas de Recuperación<br />

de Información, los sistemas de Corrección de Textos, los sistemas<br />

de Diálogo, los sistemas de Extracción de Información, los sistemas de<br />

Búsqueda de Respuestas y los sistemas de Generación de Resúmenes.<br />

Además se han mostrado los diferentes mo<strong>del</strong>os de representación formal<br />

<strong>del</strong> texto empleados por estos sistemas, agrupados también, según<br />

su grado de uso de información lingüística. Concretamente, los mo<strong>del</strong>os<br />

de representación formal <strong>del</strong> texto se han clasificado en mo<strong>del</strong>os sin


42 2. Estado <strong>del</strong> arte<br />

contenido lingüístico y en mo<strong>del</strong>os con contenido lingüístico atendiendo<br />

a la información lingüística que incorporan. Dentro de los mo<strong>del</strong>os sin<br />

contenido lingüístico tenemos el mo<strong>del</strong>o básico (bag-of-words) y el mo<strong>del</strong>o<br />

de n-gramas. Por otro lado, dentro de los mo<strong>del</strong>os con contenido<br />

lingüístico nos encontramos con el mo<strong>del</strong>o de representación sintáctica,<br />

el mo<strong>del</strong>o basado en relaciones de dependencia entre palabras, el<br />

mo<strong>del</strong>o de fusión de pares de dependencias sintácticas, el mo<strong>del</strong>o de<br />

formas lógicas, el mo<strong>del</strong>o de representación semántica basado en grafos,<br />

el mo<strong>del</strong>o basado en ontología y el mo<strong>del</strong>o basado en el análisis de<br />

la semántica latente (LSA).<br />

También se ha hecho una síntesis tanto de los diferentes métodos de representación<br />

formal <strong>del</strong> texto como de los diferentes mo<strong>del</strong>os dentro de<br />

cada método, y tras esta síntesis, se han presentado los diferentes usos<br />

y enfoques que los principales sistemas de PLN vistos en el capítulo hacen<br />

de estos mo<strong>del</strong>os de representación. Estos mo<strong>del</strong>os de representación<br />

no abordan el problema de la independencia <strong>del</strong> dominio y de la lengua.<br />

Una vez analizado todo ello y, teniendo en consideración que las últimas<br />

tendencias en el ámbito <strong>del</strong> PLN han derivado a que los sistemas de<br />

PLN por un lado, sean capaces de tratar la multilingualidad y, por otro<br />

lado, sean adaptables <strong>del</strong> dominio abierto a cualquier dominio restringido,<br />

el trabajo de investigación presentado en esta tesis se centra en<br />

desarrollar un recurso <strong>lógico</strong>-conceptual para la representación formal<br />

<strong>del</strong> texto que contemple aspectos como la independencia de la lengua y<br />

su fácil adaptación <strong>del</strong> dominio abierto a cualquier dominio restringido<br />

y viceversa.<br />

El recurso <strong>lógico</strong>-conceptual desarrollado para la representación <strong>del</strong> texto<br />

se enmarca dentro <strong>del</strong> mo<strong>del</strong>o de formas lógicas. En los siguientes<br />

capítulos se detalla este mo<strong>del</strong>o y se presentan los diferentes recursos de<br />

representación <strong>textual</strong> existentes en el marco de este mo<strong>del</strong>o. También<br />

se matizan los detalles <strong>del</strong> recurso presentado para que contemple su<br />

implantación en dominios abiertos y en cualquier dominio restringido y<br />

para que dé soporte a los aspectos de la multilingualidad.


3. La Forma Lógica<br />

El instrumento fundamental de comunicación humana son las lenguas<br />

naturales. Las lenguas naturales están formadas por palabras que se relacionan<br />

y estructuran formando oraciones. Uno de los principales tipos<br />

de oraciones son las <strong>del</strong> tipo declarativo que se utilizan para la descripción<br />

<strong>del</strong> <strong>conocimiento</strong>.<br />

Aristóteles (384 adC - 322 adC) fue el primero en emplear el término<br />

“Lógica” para referirse al estudio de los argumentos dentro <strong>del</strong> lenguaje<br />

natural. En el Organon 1 , Aristóteles la define como ‘el arte de la argumentación<br />

correcta y verdadera. Luego, podemos deducir que desde<br />

antes de Cristo, ya existía una estrecha relación entre la lógica y la lengua<br />

natural. Se plantea otra definición más aplicada de la lógica como<br />

la disciplina que estudia los métodos de formalización <strong>del</strong> <strong>conocimiento</strong><br />

humano (Sperschneider & Antoniou, 1991).<br />

Existen diferentes sistemas <strong>lógico</strong>s tales como lógica aristotélica, lógica<br />

baconiana, lógica matemática, lógica de primer orden, lógica de segundo<br />

orden, lógica booleana y empirismo <strong>lógico</strong> que a continuación se pasa a<br />

describir brevemente:<br />

Lógica aristotélica. La lógica aristotélica (Lear, 1980) (Parry & Hacker,<br />

1991) se ocupa <strong>del</strong> estudio de los conceptos, dedicando especial<br />

atención a los predicables, y de las categorías (o predicamentos), que<br />

se completa con el análisis de los juicios y de las formas de razonamiento,<br />

prestando especial atención a los razonamientos deductivos<br />

categóricos o silogismos, como formas de demostración especialmente<br />

adecuadas al <strong>conocimiento</strong> científico.<br />

Lógica baconiana (Garret, 2003). La parte constructiva de la lógica es<br />

la exposición de la teoría de la inducción baconiana, o método baconiano.<br />

Éste no consiste en una simple recogida de datos, sino en una<br />

observación cuidadosa y completa de los hechos, que llama historia<br />

natural y experimental, realizada según tablas de presencia, ausencia<br />

y comparación o grados. La inducción baconiana supone de hecho la<br />

obtención de hipótesis o conjeturas por eliminación, las cuales somete<br />

1 El Organon es un conjunto de obras escritas por Aristóteles de Estagira.


44 3. La Forma Lógica<br />

de nuevo a otras pruebas.<br />

Lógica matemática. La lógica matemática (Ben-Ari, 2001), también<br />

llamada lógica simbólica, consiste en el estudio matemático de la lógica<br />

y en la aplicación de este estudio a otras áreas de las matemáticas.<br />

La lógica matemática estudia los sistemas formales en relación con el<br />

modo en el que codifican conceptos intuitivos de objetos matemáticos<br />

como conjuntos, números, demostraciones y computación. La lógica<br />

matemática suele dividirse en cuatro subcampos: teoría de mo<strong>del</strong>os,<br />

teoría de la demostración, teoría de conjuntos y teoría de la recursión.<br />

Lógica de primer orden (Fitting, 1990). La lógica de primer orden<br />

(LPO) o cálculo de predicados de primer orden es cualquier sistema<br />

de la lógica matemática que extiende la lógica proposicional empleando<br />

variables, predicados y cuantificadores de variables. La lógica de<br />

primer orden consta de objetos, propiedades de esos objetos y relaciones<br />

entre los objetos. A lo largo <strong>del</strong> capítulo se profundiza en los<br />

detalles de la lógica de primer orden.<br />

Lógica de segundo orden (Manzano, 1996). La lógica de segundo orden<br />

es una extensión de la lógica de primer orden en la que se añaden<br />

variables y cuantificadores que operan sobre conjuntos de individuos.<br />

Lógica booleana. La lógica booleana (Roth Jr., 2006), conocida también<br />

como álgebra booleana, es un sistema matemático deductivo centrado<br />

en los valores cero y uno (falso y verdadero). Su álgebra consiste<br />

en un método para resolver problemas de lógica que recurre solamente<br />

a los valores binarios 1 y 0 y a tres operadores fundamentales: and<br />

(y), or (o) y not (no).<br />

Empirismo <strong>lógico</strong>. El empirismo <strong>lógico</strong>, también denominado positivismo<br />

<strong>lógico</strong>, sostiene que un enunciado es cognitivamente significativo<br />

sólo si, posee un método de verificación empírica o es analítico.<br />

Sólo los enunciados de la ciencia empírica cumplen con el primer requisito,<br />

y sólo los enunciados de la lógica y las matemáticas cumplen<br />

con el segundo.<br />

Para manejar formalmente el <strong>conocimiento</strong> humano descrito en los textos<br />

es necesario disponer de un elemento que permita, por una parte, tener<br />

una representación formal <strong>del</strong> <strong>conocimiento</strong> y, por otra parte, hacer<br />

deducciones sobre el <strong>conocimiento</strong> que se está representando (Garrido,<br />

2003). Este elemento es la forma lógica y se compone de una secuencia<br />

de uno o más predicados relacionados entre sí. Cada predicado tiene,<br />

al menos, un argumento, pudiendo tener varios según el tipo de predicado.<br />

Cada uno de los argumentos de los predicados queda instanciado


3.1 El cálculo de predicados de primer orden en el PLN 45<br />

<strong>mediante</strong> variables. A continuación se define formalmente cada uno de<br />

estos elementos constituyentes de la forma lógica:<br />

Símbolos de predicado. Los predicados son los elementos principales<br />

de la forma lógica. Mediante su uso, se establecen las propiedades y<br />

relaciones de los objetos. Es decir, a través de la utilización de predicados<br />

se definen las propiedades y relaciones de aquellas palabras o<br />

secuencias de palabras susceptibles de ser entidades de pensamiento<br />

autónomas e independientes.<br />

Argumentos de predicado. Mediante su utilización, de manera estática,<br />

quedan representados los objetos que relaciona el predicado.<br />

Variables. Se utilizan para instanciar los argumentos de los predicados<br />

e identifican exclusivamente tanto a los objetos como a los propios<br />

predicados.<br />

Símbolos de puntuación: ( ) ,. Estos símbolos son utilizados por los<br />

predicados. Entre paréntesis se detallan los argumentos de los predicados,<br />

separados por comas.<br />

Por ejemplo, PRED(., ., ..., .) es un símbolo de predicado de n argumentos<br />

en el que cada argumento quedará instanciado por una variable.<br />

El empleo de estos símbolos para representar la forma lógica viene derivado<br />

de la simbología utilizada en el cálculo de predicados de primer<br />

orden, tal y como se refleja a continuación.<br />

3.1 El cálculo de predicados de primer orden en el<br />

PLN<br />

Según Moore (1995), una de los mayores aplicaciones de la lógica en el<br />

ámbito de la inteligencia artificial es, por una parte, su utilización como<br />

formalismo de representación <strong>del</strong> <strong>conocimiento</strong> en un sistema computacional<br />

inteligente y, por otra parte, el empleo de la deducción lógica para<br />

la abstracción de inferencias en el marco <strong>del</strong> <strong>conocimiento</strong> representado.<br />

En la mayor parte de las ocasiones, el uso de la lógica como mecanismo<br />

de representación formal y el uso de la deducción lógica para la abstracción<br />

de inferencias <strong>del</strong> <strong>conocimiento</strong> representado van de la mano.<br />

Es por ello por lo que muchos autores las consideran simultáneamente.<br />

En cambio Newell (1980) considera que “el rol de la lógica es el de una<br />

herramienta para el análisis <strong>del</strong> <strong>conocimiento</strong>, no para el razonamiento<br />

de agentes inteligentes”.


46 3. La Forma Lógica<br />

Según matiza Poesio (2000), la teoría de propósito general mejor conocida<br />

para la representación <strong>del</strong> <strong>conocimiento</strong> es la lógica de primer<br />

orden, también conocida como cálculo de predicados de primer orden.<br />

El cálculo de predicados de primer orden, como sucede con otras teorías<br />

de representación <strong>del</strong> <strong>conocimiento</strong>, permite expresar ciertos tipos de información:<br />

en el caso <strong>del</strong> cálculo de predicados de primer orden, ciertas<br />

propiedades de conjuntos de objetos. Este proceso se lleva a cabo utilizando<br />

para ello una sintaxis y una semántica.<br />

En el inicio <strong>del</strong> capítulo se ha comentado, por una parte, que las frases<br />

declarativas constituyen el elemento básico de descripción <strong>del</strong> <strong>conocimiento</strong><br />

y, por otra parte, que la lógica es la disciplina que estudia los<br />

métodos de formalización <strong>del</strong> <strong>conocimiento</strong> humano. Por lo tanto, en<br />

lógica se estudian los métodos de formalización de frases declarativas.<br />

Para ello existen dos niveles de abstracción según el grado de detalle<br />

que se quiera formalizar: lógica proposicional y cálculo de predicados<br />

de primer orden.<br />

La lógica proposicional o lógica de enunciados toma como elemento<br />

básico las frases declarativas simples o proposiciones, que son aquellos<br />

elementos de una frase que constituyen por sí solos una unidad de comunicación<br />

de <strong>conocimiento</strong>s y pueden ser considerados verdaderos o<br />

falsos.<br />

El cálculo de predicados de primer orden estudia las frases declarativas<br />

con mayor grado de detalle, considerando la estructura interna de las<br />

proposiciones. Se tomarán como elementos básicos los objetos y las relaciones<br />

entre dichos objetos distinguiéndose qué se afirma (predicado<br />

o relación) y de quién se afirma (objeto).<br />

El cálculo de predicados de primer orden, y en general la lógica, permite<br />

hacer deducciones sobre un universo de discurso. Por ello, es imprescindible<br />

disponer de un lenguaje preciso que permita describir aquellos<br />

aspectos relevantes de la realidad objeto de estudio. Este lenguaje, conocido<br />

como lenguaje de primer orden, consta de unos símbolos y unas<br />

reglas precisas para combinarlos en expresiones sintácticamente correctas,<br />

en fórmulas. Con el lenguaje de primer orden se puede representar<br />

el <strong>conocimiento</strong> descrito en el texto <strong>mediante</strong> la utilización de fórmulas.<br />

Con la interpretación <strong>del</strong> lenguaje de primer orden, es decir, con la interpretación<br />

de sus fórmulas, se define el valor de verdad de tales fórmulas.<br />

Seguidamente se detallan los matices que se hacen en la forma lógica<br />

desde la perspectiva <strong>del</strong> lenguaje de primer orden, la interpretación y


la evaluación de fórmulas.<br />

3.1.1 Lenguaje de primer orden<br />

3.1 El cálculo de predicados de primer orden en el PLN 47<br />

El lenguaje de primer orden es un conjunto de símbolos, un alfabeto, y<br />

unas reglas que nos dicen que unas secuencias de símbolos son correctas<br />

y otras no (unas están bien escritas y otras no). Seguidamente, se<br />

estudia la adaptación de estos elementos a la forma lógica.<br />

Alfabeto. Un lenguaje de primer orden, L, viene definido por un par<br />

(A, F), donde A es un alfabeto de símbolos y F el conjunto de todas<br />

las expresiones sintácticamente correctas (fórmulas bien formadas) que<br />

se pueden construir utilizando los símbolos de A. Del alfabeto se emplean<br />

las siguientes clases de símbolos:<br />

Variables. Se utilizan las variables para representar los objetos <strong>del</strong><br />

universo de discurso que cumplen los predicados de la forma lógica<br />

y, junto a los predicados, indican las relaciones existentes en la forma<br />

lógica. Las variables vienen integradas en los predicados como<br />

argumentos de los mismos. Como criterio de unificación, las variables<br />

se suelen identificar a través de las últimas letras <strong>del</strong> alfabeto en<br />

minúsculas, pudiéndose utilizar subíndices. Por ejemplo: x, y, z, x1,<br />

y1 y z1 son símbolos de variable.<br />

Símbolos de predicado. Los predicados son los elementos principales<br />

de la forma lógica. Mediante su uso, se establecen las propiedades y<br />

relaciones de los objetos.<br />

Símbolos de puntuación: ( ) ,. Estos símbolos son utilizados en las<br />

definición de los predicados. Entre paréntesis vendrán dados los argumentos<br />

de los predicados y éstos, a su vez, estarán separados por<br />

comas.<br />

Término. En la adaptación <strong>del</strong> lenguaje de primer orden a la forma<br />

lógica, se hablará de términos para referirse única y exclusivamente a<br />

las variables, cuyo principal propósito será instanciar elementos determinados<br />

<strong>del</strong> universo de discurso.<br />

Fórmula atómica. En la adaptación <strong>del</strong> lenguaje de primer orden a<br />

la forma lógica, el concepto de fórmula atómica o átomo es equivalente<br />

al original <strong>del</strong> lenguaje de primer orden. Luego, si PRED(., ., ..., .) es<br />

un símbolo de predicado de n argumentos y t1, t2, ..., tn son términos,<br />

entonces PRED(t1, t2, ..., tn) es una fórmula atómica o átomo.


48 3. La Forma Lógica<br />

Fórmula bien formada. En la adaptación <strong>del</strong> lenguaje de primer<br />

orden a la forma lógica, únicamente la secuencia de una o más fórmulas<br />

atómicas relacionadas serán fórmulas bien formadas. Según se ha comentado,<br />

las fórmulas atómicas se corresponden con los predicados. La<br />

secuencia de uno o más predicados relacionados consecutivos compone<br />

la forma lógica. Luego, la forma lógica es una fórmula bien formada.<br />

Fórmulas abiertas. En las fórmulas bien formadas o formas lógicas,<br />

tal y como se acaba de comentar, no se utilizan los cuantificadores, luego<br />

ninguna variable está en el alcance de ningún cuantificador. Es por<br />

ello que todas las ocurrencias de variable serán libres. Por lo tanto, las<br />

formas lógicas tendrán la consideración de fórmulas abiertas.<br />

3.1.2 Interpretación<br />

En la definición original de Interpretación, se trata de dotar a cada<br />

símbolo <strong>del</strong> lenguaje de un contenido, es decir, establecer los valores<br />

que definen la evaluación a cierto o falso de las fórmulas. En este sentido<br />

se pretende que:<br />

las variables identifican a los objetos <strong>del</strong> universo de discurso.<br />

los predicados denotan las propiedades y relaciones sobre los objetos<br />

<strong>del</strong> universo de discurso.<br />

las fórmulas bien formadas sean enunciados o sentencias sobre el universo.<br />

En la adaptación <strong>del</strong> lenguaje de primer orden L=(A, F) a la forma<br />

lógica, el objetivo es la asignación a cada símbolo <strong>del</strong> alfabeto A de un<br />

valor <strong>del</strong> universo de discurso de forma que, utilizando esta asignación<br />

como base, se pueda definir el valor de verdad de cualquier fórmula<br />

de dicho lenguaje. Para ello se introduce el concepto de interpretación<br />

adaptada a la forma lógica.<br />

Interpretación adaptada a la forma lógica. Una interpretación I<br />

de un lenguaje de primer orden, L=(A, F), es una dupla (D, E) 2 donde:<br />

D es un conjunto no vacío, llamado dominio de I, en el que las variables<br />

de A toman valores, y que constituye el universo de discurso.<br />

2 Nótese que K y H desaparecen <strong>del</strong> concepto de interpretación original <strong>del</strong> cálculo de predicados de<br />

primer orden porque en la adaptación <strong>del</strong> lenguaje de primer orden a la forma lógica desaparecen<br />

tanto los símbolos de constante como los símbolos de función


3.1 El cálculo de predicados de primer orden en el PLN 49<br />

E es una aplicación que asigna a cada símbolo de predicado n-ario<br />

una relación sobre D n .<br />

Para ilustrar la definición anterior, se plantea el ejemplo de forma lógica<br />

“P(x) Q(z, x, y) R(z, w) S(w)”. Cabe suponer que el universo de discurso<br />

está identificado y definido a través de términos instanciados <strong>mediante</strong><br />

el empleo de variables y, ello deriva que también esté bien definido<br />

L=(A, F).<br />

3.1.3 Evaluación de formas lógicas<br />

Al hacer referencia a la evaluación de las formulas o formas lógicas, como<br />

se ha comentado anteriormente, se hablará de la evaluación de fórmulas<br />

abiertas ya que las formas lógicas se corresponden con fórmulas abiertas.<br />

Debido a que en las formas lógicas no se manejan operadores (paréntesis,<br />

cuantificadores, conjunción, ...) no tiene sentido hablar de orden de<br />

precedencia entre ellos.<br />

El resultado de evaluar una fórmula abierta o forma lógica G con n<br />

(n > 0) variables libres en una interpretación, es una relación n-aria,<br />

RG, definida sobre el dominio de la interpretación D. Cada tupla de<br />

esta relación es tal que, al sustituir las variables libres por las correspondientes<br />

componentes de la tupla, la fórmula cerrada que resulta es<br />

cierta en la interpretación. Si la relación RG coincide con Dn la fórmula<br />

se evalúa simplemente a cierto; si RG no contiene ninguna tupla, entonces<br />

la fórmula se evalúa a falso.<br />

Tomando como ejemplo la forma lógica “P(x) Q(z, x, y) R(z, w) S(w)”,<br />

las tuplas que harán cierta la forma lógica deberán cumplir que las variables<br />

x, y, z y w quedarán instanciadas con objetos que harán ciertos<br />

cada uno de los predicados. Cualquier otra tupla que no cumpla alguna<br />

de las propiedades anteriores, hará falsa la forma lógica.<br />

Continuando en el marco de las consideraciones realizadas por Poesio<br />

(2000), una de las razones por las que el cálculo de predicados de primer<br />

orden es tan popular es porque sus formalizaciones son validadas,<br />

ésto es, permite deducir a partir de un conjunto de frases expresadas<br />

en lenguaje natural aquellas frases cuyas consecuencias se deducen a<br />

partir de la semántica especificada por otras frases. Estas formalizaciones<br />

se especifican a partir de la aplicación de reglas de inferencia y de<br />

un conjunto de axiomas. En concreto, una regla de inferencia consiste<br />

en un conjunto de proposiciones llamadas premisas, y una proposición<br />

llamada conclusión. La regla de inferencia es un escenario en el que<br />

se consideran las premisas verdaderas y, en consecuencia, la conclusión<br />

también es verdadera. Una regla de inferencia es válida sólo en este su-


50 3. La Forma Lógica<br />

puesto. Un claro ejemplo de sistema completo de formalización validada<br />

en base a reglas de inferencias es la deducción natural (Gamut, 1991).<br />

Poesio también concluye que el cálculo de predicados de primer orden<br />

tiene una problemática asociada cuando es usado como herramienta<br />

para capturar las inferencias relacionadas con la comprensión de las expresiones<br />

formuladas en lenguaje natural.<br />

Un primer problema son los costes computacionales que acarrea. En<br />

determinadas situaciones, no se garantiza que un proceso de inferencia<br />

vaya a terminar. Este hecho sugiere que el cálculo de predicados de<br />

primer orden no pueda ser una caracterización apropiada <strong>del</strong> modo en<br />

que los humanos hacen inferencias, debido a que los humanos pueden<br />

inferir más rápidamente que los sistemas. Debido a ello, diferentes investigadores<br />

han desarrollado sistemas <strong>lógico</strong>s menos potentes que el<br />

cálculo de predicados de primer orden y, consecuentemente, mucho más<br />

eficientes. Prolog (Colmerauer & Roussel, 1996) y la forma lógica son el<br />

mejor ejemplo de ello. Otros investigadores, especialmente los lingüistas,<br />

opinan que el problema <strong>del</strong> cálculo de predicados de primer orden<br />

es justo todo lo contrario: no tiene la suficiente potencia.<br />

Según Moore (1995), los formalismos de representación basados en lógica<br />

ofrecen la posibilidad de representar la información sobre una situación<br />

aunque no se disponga de la descripción completa de la situación.<br />

Los métodos de inferencia basados en deducción permiten dar respuesta<br />

lógica a preguntas complejas utilizando para ello la base de <strong>conocimiento</strong><br />

que contiene la información, aún cuando una pregunta no se<br />

puede evaluar directamente. Para ello, la lógica de primer orden permite<br />

representar información incompleta sobre las situaciones. Cualquier<br />

mecanismo de representación que considere estas peculiaridades será, al<br />

menos, una extensión de la clásica lógica de primer orden, y cualquier<br />

sistema de inferencia capaz de manejar adecuadamente este tipo de generalizaciones<br />

tendrá la consideración de sistema automático-deductivo.<br />

3.2 La forma lógica en el PLN<br />

La utilización de la forma lógica para describir predicados lingüísticos y,<br />

en concreto, la utilización de la forma lógica en tareas de procesamiento<br />

<strong>del</strong> lenguaje natural se remonta a la década de los sesenta. Prueba de<br />

ello son las investigaciones realizadas por autores como Davidson (1967)<br />

y Barwise et al. (1983) que utilizan la forma lógica como mecanismo de<br />

representación formal <strong>del</strong> <strong>conocimiento</strong> representado en el texto.


3.2 La forma lógica en el PLN 51<br />

Donald Davidson (1967) plantea un marco teórico para representar formalmente<br />

las oraciones de acción (action sentences) en base a formas<br />

lógicas. Ejemplos de frases de acción son las siguientes: “Vasco da Gama<br />

discovered the north pole”, “Aristotle married Jocasta” y “I am telling<br />

falsities”. En la propuesta de representación planteada en este estudio,<br />

la forma lógica se basa en una extensión <strong>del</strong> lenguaje de primer orden<br />

derivado de la lógica clásica de primer orden (cálculo de predicados de<br />

primer orden) que se aborda a lo largo <strong>del</strong> capítulo. En la representación<br />

destaca la utilización de predicados, variables libres y ligadas como<br />

argumentos de los predicados, y conectivas lógicas. Según esta representación,<br />

cada predicado representa una acción e incluye tantos argumentos<br />

como sean necesarios para representar los agentes que intervienen<br />

en la acción. Estos argumentos están instanciados <strong>mediante</strong> variables<br />

(ligadas y no ligadas). El ejemplo 15, mostrado a continuación, refleja<br />

la representación formal de una oración en base a la forma lógica planteada<br />

por Davidson. Existen extensiones a esta representación formal<br />

basada en formas lógicas planteada por Davidson. La representación<br />

formal basada en formas lógicas propuesta por Hobbs (1985) extiende<br />

a la predecesora propuesta por Davidson en el punto de que incluye<br />

predicados predecesores en la forma lógica indicadores de los predicados<br />

de acciones. La propuesta realizada por Balkanski (1991) considera<br />

los problemas derivados de la realización de acciones (especialmente<br />

expresiones temporales) en la forma lógica de Davidson.<br />

(15) Frase: Mary gave the pencil.<br />

<strong>Representación</strong>: (∃e) Giving(Mary, pencil, e)<br />

El fuerte planteamiento teórico propuesto en el trabajo de investigación<br />

de Barwise et al. (1983) se centra en la semántica de vecindarios<br />

(neighborhood semantics), siendo ésta una semántica que <strong>del</strong>imita las<br />

situaciones mínimas en la definición de los criterios de verdad. Para ello<br />

valida diferentes principios <strong>lógico</strong>s derivados de la lógica clásica de primer<br />

orden (cálculo de predicados de primer orden) basados en cláusulas<br />

semánticas. En base a este planteamiento teórico define un nuevo marco<br />

semántico conocido como semántica de situación (situation semantics).<br />

También, en el ámbito de la interpretación semántica basada en la unificación,<br />

se diseñan gramáticas de unificación que tienen un componente<br />

elevado de utilización de la lógica en general y, en concreto, de la forma<br />

lógica en la tarea <strong>del</strong> diseño de las reglas de las gramáticas. En el diseño<br />

de estas reglas se consideran dos tipos de reglas:<br />

Reglas sintácticas. Estas reglas reflejan las estructuras sintácticas dadas<br />

en las oraciones por sus constituyentes.


52 3. La Forma Lógica<br />

Reglas de interpretación semántica. Relacionadas con las anteriores<br />

reglas sintácticas, las reglas de interpretación semántica permiten dar<br />

significado a las estructuras sintácticas obtenidas por las anteriores<br />

reglas sintácticas.<br />

En este segundo tipo de reglas, por cada expresión de categoría gramatical<br />

definida en las reglas sintácticas, una forma lógica especifica<br />

la interpretación semántica <strong>del</strong> correspondiente constituyente.<br />

Este tipo de gramáticas suelen ser mo<strong>del</strong>adas a partir de la utilización<br />

<strong>del</strong> lenguaje de programación lógica Prolog (Colmerauer & Roussel,<br />

1996). El desarrollo basado en este lenguaje de programación tiene un<br />

alto componente <strong>lógico</strong> basado en cláusulas de Horn (Hodges, 1993) que<br />

constituyen reglas <strong>del</strong> tipo modus ponendo ponens, es decir, si es verdad<br />

el antecedente, entonces es verdad el consecuente. Trabajos como el de<br />

Pereira et al. (1983) son un claro ejemplo de este tipo de tratamiento.<br />

Este trabajo de investigación explora las relaciones entre el parsing<br />

y la deducción destacando el procedimiento de pruebas de deducción<br />

para las cláusulas definidas. La conexión entre el análisis sintáctico y<br />

la deducción está basada en la axiomatización de gramáticas libres de<br />

contexto en cláusulas definidas, siendo las cláusulas definidas un subconjunto<br />

de la lógica de primer orden (Kowalski, 1980) (van Emden &<br />

Kowalski, 1976). La axiomatización permite identificar algoritmos de<br />

análisis sintácticos libres de contexto con procedimientos de prueba para<br />

una clase restringida de cláusulas definidas derivadas a partir de una<br />

serie de reglas libres de contexto. Cuando se utiliza un procedimiento<br />

de pruebas de cláusulas definidas, como Prolog, una declaración objetivo<br />

requiere el procedimiento de prueba para encontrar posibles instancias<br />

que cumplan dicha declaración objetivo. Para la deducción en las<br />

cláusulas definidas cabe destacar que la regla de inferencia fundamental<br />

se basa en una aplicación de reglas de resolución. Como beneficio principal<br />

destaca el mecanismo teóricamente limpio para conectar el análisis<br />

sintáctico con la inferencia necesaria para la interpretación semántica.<br />

En la década de los ochenta, el trabajo presentado por Stallard (1987)<br />

utiliza las formas lógicas como mecanismo de representación formal<br />

<strong>del</strong> texto utilizando la notación definida en la lógica de primer orden.<br />

Este trabajo presenta un esquema en dos niveles para la interpretación<br />

semántica <strong>del</strong> texto donde el primer nivel trata las consecuencias<br />

semánticas de la estructura sintáctica mientras que el segundo nivel<br />

trata la elección adecuada <strong>del</strong> significado de las palabras. En el primer<br />

nivel, los significados de las palabras ambiguas, referencias pronominales,<br />

nominales compuestos y metonímias no son tratadas sino que son<br />

representadas por variables libres sobre predicados y funciones. La dependencia<br />

<strong>del</strong> contexto <strong>del</strong> significado léxico es tratada en el segundo<br />

nivel como un proceso de propagación de restricciones que asigna valo-


3.2 La forma lógica en el PLN 53<br />

res a esas variables sobre la base de la coherencia lógica <strong>del</strong> resultado<br />

global. Para la derivación de la forma lógica utiliza un parser de unificación<br />

sobre una gramática grande. En la forma lógica utiliza variables<br />

libres y variables ligadas. Las variables libres tienen la peculiaridad de<br />

que vienen determinadas por las estructuras <strong>del</strong> análisis sintáctico. Seguidamente,<br />

el ejemplo 16 muestra la forma lógica de una expresión<br />

siguiendo esta metodología. En dicho ejemplo, las variables libres están<br />

subrayadas.<br />

(16) Frase: John has a car.<br />

<strong>Representación</strong>: (∃x (car x) & (have John x))<br />

Continuando con la programación lógica llevada a cabo durante la década<br />

de los noventa en el seno <strong>del</strong> PLN, en el libro de Jurafsky & Martin<br />

(2000), se presenta el recurso Attribute Logic Engine (ALE). Este recurso<br />

está implementado en Prolog e integra el parsing estructural de<br />

las frases con la programación lógica de restricciones cuyo tipos característicos<br />

se estructuran como términos. La programación lógica y el<br />

análisis sintáctico pueden ser usados en conjunto o de manera independiente.<br />

Los términos implicados en las gramáticas y en los programas<br />

<strong>lógico</strong>s están especificados utilizando una extensión tipada de la lógica<br />

de pares atributo-valor de Rounds-Kasper, incluyendo variables, disjunción<br />

plena, inecuaciones y descripciones funcionales.<br />

En relación al trabajo de investigación presentado por Delisle et al.<br />

(1994) que permite la extracción <strong>del</strong> <strong>conocimiento</strong> de textos técnicos,<br />

los autores consideran que la sintaxis es una indicación segura <strong>del</strong> significado.<br />

En consecuencia, la interpretación semántica <strong>del</strong> texto comienza<br />

desde la sintaxis más superficial. El componente lingüístico integra un<br />

parser así como un intérprete semántico asistido por el usuario que memoriza<br />

la experiencia acumulada en el proceso. Las estructuras semánticas<br />

resultantes son traducidas a cláusulas de Horn, una representación<br />

susceptible de aprendizaje basado en explicación (Explanation-based<br />

Learning, EBL). Un motor EBL realiza el aprendizaje a nivel de símbolo<br />

en las representaciones tanto de la teoría <strong>del</strong> dominio como de la<br />

muestra dada por la parte lingüística <strong>del</strong> sistema. A continuación en<br />

el ejemplo 17 se detalla la representación formal de una frase según su<br />

cláusula de Horn asociada por este sistema.<br />

(17) Frase: Jim is a resident of Canada because he is serving<br />

abroad in the armed forces.


54 3. La Forma Lógica<br />

<strong>Representación</strong>: is resident of(jim, canada) :- serve agt lat benf(jim,<br />

abroad, armed forces)<br />

La clásica Teoría de <strong>Representación</strong> <strong>del</strong> Discurso formulada por Hans<br />

Kamp (1981) (1993) también tiene un alto componente <strong>del</strong> cálculo de<br />

predicados de primer orden. En esta teoría se utiliza el cálculo de predicados<br />

de primer orden como mecanismo de representación en la interpretación.<br />

La interpretación se consigue en dos pasos fundamentales:<br />

el primero de ellos consiste en la construcción de las representaciones<br />

semánticas referidas como Estructuras de <strong>Representación</strong> <strong>del</strong> Discurso<br />

(DRSs) a partir <strong>del</strong> discurso de entrada; el segundo y definitivo paso<br />

consiste en la interpretación teórico-modélica de las DRSs. Seguidamente,<br />

el ejemplo 18 muestra la DRS de una frase definida en esta clásica<br />

Teoría de <strong>Representación</strong> <strong>del</strong> Discurso.<br />

(18) Frase: If Pedro owns a donkey, he likes it.<br />

<strong>Representación</strong>: ∃x ∃y (pedro(x) ∧ donkey(y) ∧ own(x, y) ⇒<br />

∃z ∃w (bealt(z, w), z = x, w = y))<br />

La forma lógica presentada en el trabajo de investigación de Lascarides<br />

& Asher (1993) introduce entidades de discurso que reflejan los eventos<br />

y los tiempos con el propósito de capturar la referencia deíctica. Para<br />

ello, tiene en cuenta los eventos, los estados de los eventos y los instantes<br />

temporales. En esta propuesta se define la función cs que recibe como<br />

único argumento un evento y devuelve su estado. A continuación, los<br />

ejemplos 19 y 20 muestran la representación de dos frases con sendas<br />

formas lógicas asociadas en las que se puede apreciar las representaciones<br />

de los eventos y los tiempos.<br />

(19) Frase: Max stood up.<br />

<strong>Representación</strong>: [e, t][t ≺ now, hold(e, t), standup(max,<br />

e)]<br />

(20) Frase: Max had stood up.<br />

<strong>Representación</strong>: [s, t][s : [e][standup(max, e) , s =<br />

cs(e)], hold(s, t), t ≺ now]<br />

En el ejemplo 19, la forma lógica introduce las entidades de discurso e<br />

y t, y los predicados que indican que el evento e es “Max” realizando<br />

la acción “stand up”, y que e es llevado a cabo en el instante temporal<br />

anterior al actual. Por el contrario, en el ejemplo 20, en la forma lógica<br />

se indica que s es el estado consecuente <strong>del</strong> evento “Max standing up”,<br />

y se lleva a cabo en el instante temporal t que precede al actual (now).


3.3 La forma lógica en aplicaciones de PLN 55<br />

En el ejemplo se aplica la regla definida por Moens et al. (1988) que<br />

dice “a perfect transforms an event into a consequent state, and asserts<br />

that the consequent state holds”. Consecuentemente y, en relación a los<br />

estados consecuentes, asume que las siguientes reglas son materializadas<br />

entre un evento y su estado consecuente:<br />

(∀t)(hold(cs(e), t) → (∃t ′ )(hold(e, t ′ ) ∧ t ′ ≺ t))<br />

(∀t ′ )(hold(e, t ′ ) → (∃t)(hold(cs(e), t) ∧ t ′ ≺ t))<br />

De este modo un estado es materializado si y sólo si el evento es llevado<br />

a cabo en un instante temporal más temprano.<br />

Una vez analizados los diferentes enfoques teóricos aplicados al PLN<br />

tanto de la lógica como de la forma lógica, la tabla 3.1 recoge, a modo<br />

de síntesis, las características más relevantes de cada uno de ellos.<br />

3.3 La forma lógica en aplicaciones de PLN<br />

En la década de los 80, Moore (1981) llega a una conclusión que a fecha<br />

de hoy todavía sigue siendo válida: “If real progress is to be made on<br />

understanding the logical form of natural-language utterances, it must<br />

be studied in a unified way and treated as an important research problem<br />

in its own right”.<br />

Como consecuencia de esta conclusión efectuada por Moore y de las<br />

previas investigaciones realizadas en las pasadas décadas referentes a la<br />

utilización de la lógica en general y, en particular, de la forma lógica en<br />

el ámbito <strong>del</strong> PLN, durante la década actual, diferentes investigadores<br />

<strong>del</strong> área <strong>del</strong> PLN han introducido en sus trabajos de investigación el<br />

concepto de la forma lógica, tales como Rus (2002) y Moldovan (2002),<br />

que definen la forma lógica como “una representación <strong>del</strong> <strong>conocimiento</strong><br />

<strong>lógico</strong> de primer orden de oraciones expresadas <strong>mediante</strong> lenguaje<br />

natural”. De esta definición cabe deducir que toda oración expresada<br />

en lenguaje natural podrá ser representada <strong>mediante</strong> su forma lógica<br />

asociada.<br />

Distintos sistemas de Extracción de Información y Búsqueda de Respuestas<br />

han utilizado las formas lógicas en sus tareas de procesamiento.<br />

El formato de la forma lógica depende de cada autor. Antes de entrar<br />

a especificar los dos tipos de formas lógicas que comúnmente se han<br />

empleado en el PLN, cabe hacer una definición de algunos conceptos<br />

introducidos por Mollá et al. (2002):


56 3. La Forma Lógica<br />

Características Ventajas/Desventajas<br />

Formalismo de representación <strong>Representación</strong> <strong>del</strong> <strong>conocimiento</strong><br />

Moore basado en lógica. Abstracción incompleto. Dar respuesta lógica<br />

(Moore, 1995) de inferencias de <strong>conocimiento</strong> a preguntas complejas.<br />

<strong>mediante</strong> deducción lógica.<br />

<strong>Representación</strong> <strong>del</strong> <strong>conocimiento</strong> Formalizaciones validadas.<br />

Poesio a través <strong>del</strong> CPPO. Elevado coste computacional.<br />

(Dale et al. , 2000) Formalizaciones especificadas Potencia insuficiente.<br />

<strong>mediante</strong> reglas y axiomas.<br />

<strong>Representación</strong> formal de las Extensión <strong>del</strong> lenguaje de primer<br />

Davidson oraciones de acción en base orden especificado en el CPPO.<br />

(Davidson, 1967) a formas lógicas. Dificultad de comprensión.<br />

No considera temporalidad.<br />

Extensión de la forma lógica Dificultad de comprensión algo<br />

Hobbs definida por Davidson. Inclusión menor. Especificación de la<br />

(Hobbs, 1985) de predicados indicadores de realización de acciones.<br />

la realización de acciones.<br />

Extensión de la forma lógica Dificultad de comprensión algo<br />

Balkanski definida por Davidson. menor. Temporalidad de la<br />

(Balkanski, 1991) Tratamiento <strong>lógico</strong>-temporal realización de acciones.<br />

de la realización de acciones.<br />

Utiliza el CPPO basado en Semántica de vecindarios que<br />

Barwise cláusulas semánticas. <strong>del</strong>imita las situaciones<br />

(Barwise & Perry, 1983) Gramáticas mo<strong>del</strong>adas <strong>mediante</strong> mínimas en la definición<br />

la utilización de Prolog. de criterios de verdad.<br />

Conexión <strong>del</strong> análisis sintáctico Conexión <strong>del</strong> análisis<br />

Pereira y la deducción basada en sintáctico con la inferencia<br />

(Pereira & Warren, 1983) axiomatización de GLC <strong>mediante</strong> necesaria para la<br />

cláusulas definidas de Prolog. interpretación semántica.<br />

Utilización de formas Interpretación semántica en<br />

Stallard lógicas <strong>mediante</strong> notación dos niveles. Derivación de<br />

(Stallard, 1987) definida en CPPO para la la forma lógica a partir<br />

representación formal <strong>del</strong> texto. de análisis sintáctico.<br />

Análisis sintáctico estructural La programación lógica y<br />

Jurafsky integrado con programación el análisis sintáctico<br />

(Jurafsky & Martin, 2000) lógica de restricciones cuyos pueden ser usados en<br />

tipos característicos se estructuran conjunto o de manera<br />

en términos. Uso de Prolog. independiente.<br />

Delisle Utilización de cláusulas de Horn Cláusulas de Horn<br />

(Delisle et al. , 1994) para representar formalmente derivadas a partir<br />

las frases <strong>del</strong> texto. de análisis sintáctico.<br />

Kamp Utilización <strong>del</strong> CPPO Formulación de la<br />

(Kamp, 1981) como mecanismo de Teoría de <strong>Representación</strong><br />

(Kamp & Reyle, 1993) representación en la interpretación. <strong>del</strong> discurso.<br />

Lascarides Utilización de formas Consideración de los<br />

(Lascarides & Asher, 1993) lógicas en la representación eventos, sus estados y<br />

de las oraciones <strong>del</strong> texto. los instantes temporales.<br />

Tabla 3.1. Síntesis de los enfoques basados tanto en lógica como en formas lógicas aplicados al<br />

PLN


3.3 La forma lógica en aplicaciones de PLN 57<br />

Objeto: es todo aquello de lo cual es posible una percepción, es decir,<br />

son todas las cosas que encontramos en nuestra experiencia. Los<br />

objetos se utilizan para representar las realidades independientes o<br />

sustancias que nos encontramos en las oraciones. Se suelen identificar<br />

con una letra (generalmente la letra ’o’) seguida de un número.<br />

A continuación, en el ejemplo 21 se muestra la identificación de los<br />

objetos (no sintácticos) de la oración.<br />

(21) Frase: Juan pasea por el jardín alegremente.<br />

Objetos: Juan, identificado por o1, y jardín, identificado<br />

por o2.<br />

Eventos: representan las relaciones existentes entre los objetos. Se suelen<br />

identificar <strong>mediante</strong> una letra (generalmente la letra ’e’) seguida<br />

de un número. Seguidamente, el ejemplo 22 muestra la identificación<br />

de los eventos de la oración anterior.<br />

(22) Frase: Juan pasea por el jardín alegremente.<br />

Eventos: pasear por, identificado por e1.<br />

Propiedades: con ellas se representan las características tanto de los<br />

objetos como de los eventos. La identificación de la propiedad se suele<br />

hacer con una letra (generalmente la letra ’p’) seguida de un número.<br />

A continuación, el ejemplo 23 detalla la identificación de las propiedades<br />

de la oración anterior.<br />

(23) Frase: Juan pasea por el jardín alegremente.<br />

Propiedades: alegremente, identificada por p1.<br />

Una vez que se han introducido estos conceptos, a continuación se detallan<br />

dos de los enfoques de formas lógicas más utilizados en el PLN:<br />

Mollá et al. (2002), en la definición de la forma lógica, utiliza tres<br />

tipos de predicados:<br />

• Objetos. Este tipo de predicado es usado para representar los objetos<br />

(no sintácticos) de las oraciones y tiene tres argumentos. El<br />

primer argumento quedará instanciado con el propio objeto. El segundo<br />

argumento quedará instanciado con una variable que iden-


58 3. La Forma Lógica<br />

tificará exclusivamente al propio predicado. El tercer argumento<br />

vendrá instanciado con una variable que identificará exclusivamente<br />

al propio objeto.<br />

• Eventos. Este tipo de predicado es utilizado representar los eventos,<br />

es decir, las relaciones existentes entre los objetos. Los predicados<br />

<strong>del</strong> tipo evento tienen tres argumentos. El primero de ellos quedará<br />

instanciado con el propio evento. El segundo argumento es<br />

instanciado con la variable que identifica exclusivamente al propio<br />

predicado. El tercer argumento vendrá instanciado con una lista de<br />

variables que identifica de manera exclusiva a los objetos implicados<br />

en el evento.<br />

• Propiedades. Se utiliza este tipo de predicados para representar las<br />

propiedades, es decir, las características tanto de los eventos como<br />

de los objetos. Este tipo de predicados tiene también tres argumentos.<br />

El primer argumento queda instanciado con la propiedad. El<br />

segundo de ellos queda instanciado con la variable que identifica de<br />

manera exclusiva el propio predicado. El tercer argumento queda<br />

identificado con una variable que identifica al objeto/evento (o su<br />

predicado asociado) que cumple dicha propiedad.<br />

Además, pueden aparecer otros tipos de predicados en la forma lógica<br />

cuyo único propósito es el de relacionar otros predicados de la misma.<br />

Un ejemplo de ellos son los predicados asociados a las preposiciones<br />

que tienen dos argumentos que identifican a los predicados relacionados<br />

por medio de la preposición. Se ha de considerar también que<br />

la forma lógica de Mollá et al. (2002) está orientada a manejar textos<br />

en el dominio restringido de los manuales <strong>del</strong> sistema operativo<br />

Unix. Es por ello por lo que también introduce predicados dependientes<br />

<strong>del</strong> dominio de aplicación. A continuación, el ejemplo 24 muestra<br />

la representación de una frase <strong>del</strong> manual <strong>del</strong> sistema operativo Unix<br />

<strong>mediante</strong> su forma lógica asociada.<br />

(24) Frase: cp copies very long files.<br />

Forma lógica: holds(e1), object(cp, o1, x1), evt(copy,<br />

e1, [x1, x2]), object(file, o2, x2), prop(long, p1,<br />

x2), prop(very, p2, p1)<br />

En la forma lógica <strong>del</strong> ejemplo, el predicado holds(e1) es dependiente<br />

<strong>del</strong> dominio de aplicación e indica que el predicado identificado por<br />

la variable e1, es decir, object(cp, o1, x1), pertenece al dominio res-


tringido de manuales <strong>del</strong> sistema operativo Unix.<br />

3.3 La forma lógica en aplicaciones de PLN 59<br />

Moldovan et al. (2003) distingue cuatro tipos de predicados según su<br />

función sintáctica. Cada predicado incluye su raíz léxica:<br />

• Sustantivo. Este tipo de predicado representa a los sustantivos de<br />

la frase y tiene un único argumento que se instancia con la variable<br />

que identifica al objeto que cumple el predicado.<br />

• Verbo. Este tipo de predicado representa a los verbos de la frase y<br />

tiene tres argumentos. El primer argumento se instancia con la variable<br />

que identifica exclusivamente la acción <strong>del</strong> verbo. El segundo<br />

argumento se corresponde con la variable que identifica al objeto<br />

que desempeña el rol de sujeto sintáctico <strong>del</strong> verbo. El tercer argumento<br />

se corresponde con la variable que identifica al objeto que<br />

hace las funciones de objeto sintáctico <strong>del</strong> verbo.<br />

• Adjetivo. Este tipo de predicado representa a los adjetivos que aparecen<br />

en la frase y tiene un único argumento que se instancia con<br />

la variable que identifica al objeto que cumple el predicado. Generalmente,<br />

el adjetivo suele acompañar a un sustantivo. Este hecho<br />

hace que en la forma lógica ambos predicados queden instanciados<br />

por la misma variable.<br />

• Adverbio. Este tipo de predicado representa a los adverbios que<br />

aparecen en la frase y tiene un único argumento que se instancia<br />

con la variable que identifica al objeto que cumple el predicado. Generalmente,<br />

el adverbio suele acompañar al verbo y, en este caso, en<br />

la forma lógica ambos quedan identificados por la misma variable.<br />

Al igual que en el caso de la forma lógica de Mollá et al., en este<br />

formato de forma lógica, también existen predicados cuya función es<br />

relacionar otros predicados de la forma lógica. Un ejemplo de ello son<br />

también las preposiciones que introducen predicados con dos argumentos<br />

que quedan instanciados con las variables identificadoras de<br />

los predicados relacionados <strong>mediante</strong> la preposición. A continuación<br />

el ejemplo 25 ilustra la representación de una frase a través de su<br />

forma lógica asociada.<br />

(25) Frase: John gave Mary the book on Saturday.<br />

Forma lógica: John NN(x1) give VB(e1, x1, x3) Mary:NN (x2)<br />

book NN(x3) on IN(e1, x4) Saturday NN(x4)


60 3. La Forma Lógica<br />

Metodología de derivación de la forma lógica.<br />

Además <strong>del</strong> formato de ambas formas lógicas, la metodología de obtención<br />

de la forma lógica también es una cuestión a tener en cuenta.<br />

Ambos métodos de obtención de la formas lógicas utilizan un análisis<br />

sintáctico en su labor de derivación de la forma lógica de las frases expresadas<br />

en lenguaje natural:<br />

Mollá et al. (2002) utiliza Link Grammar como módulo de análisis<br />

sintáctico. Link Grammar es un analizador sintáctico basado en una<br />

gramática de diccionario que cuenta con alrededor de 60.000 palabras<br />

(Sleator & Temperley, 1993). Link Grammar devuelve las relaciones<br />

de dependencia entre pares de palabras de la frase, pero tiene un<br />

inconveniente y es que no devuelve la dirección de la dependencia<br />

entre los pares de palabras. Con objeto de solventar este problema,<br />

el sistema ExtrAns incorpora un módulo que añade la dirección de<br />

las dependencias a la salida de Link Grammar. Además, como el sistema<br />

ExtrAns está enfocado al dominio restringido de los manuales<br />

de las páginas <strong>del</strong> sistema operativo Unix, es necesario incorporar al<br />

diccionario de Link Grammar toda la terminología de comandos <strong>del</strong><br />

sistema operativo.<br />

Moldovan et al. (2003) utiliza el árbol de análisis sintáctico para construir<br />

la forma lógica. El analizador sintáctico utilizado está basado en<br />

el estilo de análisis sintáctico de Penn Treebank (Marcus et al. , 1994).<br />

Partiendo <strong>del</strong> árbol de análisis sintáctico de constituyentes de la frase<br />

en lenguaje natural, aplica una serie de reglas de transformación que<br />

derivan la forma lógica asociada (Rus, 2002).<br />

Con todo ésto, cabe deducir, que el formato de forma lógica empleado<br />

por Mollá et al. (2002) es muy ad-hoc al dominio <strong>del</strong> manual de<br />

usuario de Unix, empleando predicados como holds e introduciendo en<br />

ocasiones diversos predicados para un mismo objeto-concepto que hacen<br />

a la forma lógica muy compleja de leer e interpretar, mientras que el<br />

formato escogido por Moldovan et al. es más natural que el formato de<br />

Mollá et al. y hace a la forma lógica más fácil de ser leída e interpretada.<br />

Referente a la metodología de derivación de ambas formas lógicas, el<br />

método escogido por Mollá et al. presenta el inconveniente de que aparte<br />

<strong>del</strong> análisis sintáctico, hay que resolver la dirección de las dependencias<br />

entre pares de palabras dadas por Link Grammar, mientras que<br />

la metodología empleada por Moldovan et al. no tiene problemas de<br />

ésta índole ya que utiliza directamente el árbol de análisis sintáctico de<br />

constituyentes. Como dicen Courtin y Genthial (1998), el procesamiento<br />

basado en análisis sintáctico permite añadir información semántica a


3.4 La forma lógica extendida: independiente <strong>del</strong> dominio y de la lengua 61<br />

las palabras. En dominios abiertos, el método de derivación de formas<br />

lógicas a partir <strong>del</strong> análisis sintáctico mejora el <strong>conocimiento</strong> <strong>del</strong> sistema.<br />

Por otro lado, en los dominios restringidos, existen otras fuentes de<br />

<strong>conocimiento</strong> tales como tesauros y ontologías de dominio que pueden<br />

ser usados para incorporar información conceptual y semántica a las<br />

palabras de la frase. Cuando con este propósito se hace uso de este tipo<br />

de recursos, la derivación de las formas lógicas a partir de dependencias<br />

entre pares de palabras es mucho más precisa.<br />

3.4 La forma lógica extendida: independiente <strong>del</strong><br />

dominio y de la lengua<br />

Se acaban de introducir dos mo<strong>del</strong>os distintos de forma lógica aplicados<br />

al PLN. Por una parte, la forma lógica de Mollá et al. se aplica a<br />

dominios restringidos, mientras que por otro lado, la forma lógica de<br />

Moldovan et al. está enfocada hacia el dominio abierto.<br />

Se debe considerar que en los últimos años las herramientas <strong>del</strong> PLN<br />

se han extendido hacia los dominios restringidos. Un claro ejemplo de<br />

esto último ha ocurrido con la adaptación de los sistemas de Búsqueda<br />

de Respuestas de dominio abierto hacia los dominios restringidos<br />

como puede comprobarse en la edición especial de la prestigiosa revista<br />

Computational Linguistics dedicada a QA en dominios restringidos<br />

(Daelemans & van den Bosch, 2007). Cuando se trabaja sobre dominios<br />

restringidos, se dispone de multitud de recursos léxicos y semánticos que<br />

aportan información de diversa índole a las frases expresadas en lenguaje<br />

natural. La adaptación de los sistemas <strong>del</strong> PLN hacia los dominos<br />

restringidos hace que los propios sistemas necesiten de la utilización de<br />

mecanismos de representación formal <strong>del</strong> texto capaces de tratar textos<br />

tanto en el dominio abierto como en los dominios restringidos. En<br />

los últimos tiempos también han surgido una serie de tendencias que<br />

han derivado hacia el tratamiento multilingüe de la información. Por<br />

ello también los sistemas de PLN deben disponer de un mecanismo que<br />

proporcione la representación formal de los textos en diferentes lenguas.<br />

Las formas lógicas introducidas en el inicio <strong>del</strong> capítulo no tienen en<br />

cuenta estas dos consideraciones referentes a la independencia <strong>del</strong> dominio<br />

y de la lengua. La forma lógica de Mollá et al. introduce terminología<br />

adicional dependiente <strong>del</strong> dominio para matizar aquellos predicados que<br />

son exclusivos <strong>del</strong> dominio restringido. Un ejemplo de ello es el predicado<br />

holds que hemos visto en el anterior ejemplo. Además, introduce<br />

variables para identificar exclusivamente, y de manera independiente,<br />

tanto los predicados como los objetos asociados a tales predicados. Ello<br />

hace que la forma lógica añada mucha terminología que la hace difícil


62 3. La Forma Lógica<br />

de leer y, en algunos casos, de interpretar. En contrapartida, la forma<br />

lógica de Moldovan et al. introduce únicamente la terminología necesaria<br />

para matizar los detalles relevantes de las frases asociadas. Ello<br />

hace que esta forma lógica sea más sencilla de leer y de interpretar que<br />

la forma lógica de Mollá et al.<br />

Considerando todo ello, la propuesta que se plantea en el trabajo de<br />

investigación se centra en la derivación de una forma lógica precisa,<br />

independiente <strong>del</strong> dominio, conceptualmente completa e independiente<br />

de la lengua:<br />

Precisa: el propósito perseguido consiste en derivar una forma lógica<br />

que introduzca únicamente los elementos necesarios para reflejar el<br />

contenido de la frase asociada. Es decir, todos los elementos constituyentes<br />

de la forma lógica tendrán la suficiente entidad por sí solos y<br />

en conjunto para dotar de contenido a la forma lógica.<br />

Independiente <strong>del</strong> dominio: la forma lógica es adaptable para trabajar<br />

tanto en sistemas de dominio abierto como en sistemas de dominio<br />

restringido.<br />

Conceptualmente completa: el propósito que se persigue es el de obtener<br />

una representación conceptual completa y no ambigua <strong>del</strong> texto.<br />

Independiente de la lengua: la forma lógica debe ser capaz de mo<strong>del</strong>ar<br />

en cualquier lengua el <strong>conocimiento</strong> asociado al texto procesado.<br />

Estos retos propuestos a la forma lógica se abordan en el capítulo actual<br />

y en el próximo. A continuación se detalla el proceso de derivación de<br />

formas lógicas a partir de frases expresadas en lenguaje natural.<br />

La forma lógica de una frase se deriva a partir de la aplicación de<br />

reglas basadas en PLN a las relaciones de dependencia entre los pares<br />

de palabras de la frase.<br />

3.4.1 Obtención de las relaciones de dependencia entre pares<br />

de palabras<br />

El primer paso necesario para obtener la forma lógica de una frase es<br />

obtener las relaciones de dependencia entre los pares de palabras de la<br />

frase.<br />

Según la definición propuesta por Lin (1998b), una relación de dependencia<br />

entre dos de palabras es una relación binaria asimétrica entre una


3.4 La forma lógica extendida: independiente <strong>del</strong> dominio y de la lengua 63<br />

palabra llamada núcleo y otra palabra llamada modificador. Normalmente,<br />

las relaciones de dependencia constituyen un árbol que enlaza<br />

todas las palabras de la frase. Este árbol de dependencias tiene diferentes<br />

niveles de palabras porque una palabra en la frase puede tener<br />

diferentes modificadores, pero cada palabra debe modificar, al menos,<br />

a otra palabra. La raíz <strong>del</strong> árbol de dependencia no modifica a ninguna<br />

palabra. A ella se la denomina la cabeza de la frase. A continuación, el<br />

ejemplo 26 detalla las relaciones de dependencia entre las palabras de<br />

una frase.<br />

(26) Frase: The story of Mr. Fly and the Emergency Rescue<br />

Committee who saved thousands in Marseille.<br />

<strong>Representación</strong>: Véase Tabla 3.2<br />

Modificador Cabeza Relación de dependencia<br />

Marseille [N] in [Prep] pcomp-n<br />

who [N] saved [V] whn-subj<br />

thousands [N] saved [V] obj<br />

in [Prep] saved [V] mod<br />

Emergency [N] Committee [N] lex-mod<br />

Rescue [N] Committee [N] lex-mod<br />

saved [V] Committee [N] rel<br />

Mr. [N] Fly [N] lex-mod<br />

Committee [N] Fly [N] conj<br />

Fly [N] of [Prep] pcomp-n<br />

The [Det] story [N] det<br />

of [Prep] story [N] mod<br />

Tabla 3.2. Relaciones de dependencias entre las palabras de la frase<br />

3.4.2 Derivación de la forma lógica<br />

Una vez que las relaciones de dependencias han sido obtenidas, el siguiente<br />

paso para inferir automáticamente la forma lógica de la frase<br />

consiste en analizar las relaciones de dependencia entre las palabras de<br />

la frase. A continuación se muestra el algoritmo de derivación de la forma<br />

lógica.


64 3. La Forma Lógica<br />

Algoritmo: Derivación de la forma lógica de una frase<br />

Entrada: frase<br />

Salida: forma logica<br />

arbol dependencias := derivacion arbol dependencias(frase)<br />

para cada (nodo en hojas(arbol dependencias))<br />

aplica regla simple(nodo)<br />

fpara cada<br />

para cada (nodo en recorrido post orden(arbol dependencias))<br />

si (no es hoja(nodo))<br />

para cada (hijo en hijos in orden(nodo))<br />

aplica regla compleja(nodo, hijo)<br />

fpara cada<br />

fsi<br />

fpara cada<br />

forma logica := forma logica(dame raiz(arbol dependencias))<br />

devuelve forma logica<br />

fAlgoritmo<br />

De este modo, cabe matizar que la derivación de la forma lógica consiste<br />

en un proceso composicional que comienza en las hojas <strong>del</strong> árbol de<br />

dependencias y continúa por sus ramificaciones en sentido ascendente<br />

hasta llegar a la raíz. En cada nodo <strong>del</strong> árbol de dependencias se puede<br />

inferir, al menos, un predicado, aunque pueden haber nodos <strong>del</strong> árbol<br />

de dependencias que no infieran ningún predicado. De este modo, todo<br />

nodo <strong>del</strong> árbol de dependencias, infiera o no algún predicado de la forma<br />

lógica, recogerá los predicados que vengan de sus nodos inferiores, en<br />

caso de que tenga nodos por debajo de él, los agrupará y los enviará a<br />

su nodo superior, junto con el predicado o predicados que dicho nodo<br />

pueda inferir. El nodo raíz <strong>del</strong> árbol de dependencias será el que obtenga<br />

la forma lógica de la frase, en función de los predicados que le vengan<br />

de sus nodos inferiores, y <strong>del</strong> predicado o predicados que pueda inferir<br />

dicho nodo. Para ello, sobre cada uno de los nodos <strong>del</strong> árbol de derivación<br />

se le aplican una serie de reglas basadas en PLN. En los Anexos<br />

A y B <strong>del</strong> presente trabajo de investigación están detalladas las tareas<br />

computacionales que se ejecutan para aplicar las reglas basadas en PLN<br />

que permiten derivar las formas lógicas partiendo <strong>del</strong> árbol de análisis<br />

de dependencias. Estas reglas pueden ser de dos tipos dependiendo si<br />

el nodo es o no un nodo hoja:


3.4 La forma lógica extendida: independiente <strong>del</strong> dominio y de la lengua 65<br />

Reglas simples: las reglas simples se aplican sobre los nodos hoja <strong>del</strong><br />

árbol de dependencias. A continuación, en el cuadro 27 se muestra el<br />

pseudocódigo asociado al procesamiento de las reglas simples.<br />

Reglas complejas: las reglas complejas tienen como origen de la dependencia<br />

un nodo hoja o un intermedio <strong>del</strong> árbol de dependencias<br />

y como destino de la dependencia, un nodo intermedio o la raíz <strong>del</strong><br />

árbol de dependencias. Seguidamente, en el cuadro 28 se presenta el<br />

pseudocódigo asociado a la computación de las reglas complejas.<br />

(27)<br />

(28)<br />

Algoritmo: Regla Simple<br />

Entrada: nodo hoja<br />

var predicado := nulo<br />

si (generaPredicado(nodo hoja))<br />

predicado := nuevo predicado()<br />

predicado.lema := nodo hoja.lema<br />

predicado.infoSintactica := InfoSin(nodo hoja)<br />

predicado.argumentos := Args(predicado.infoSintactica)<br />

fsi<br />

asocia(predicado, nodo hoja)<br />

fAlgoritmo<br />

Algoritmo: Regla Compleja<br />

Entrada: modificador, núcleo<br />

var relacion := Rel Dependencia(modificador, núcleo)<br />

var esAntMod := Antes En Frase(modificador, núcleo)<br />

Analiza Caso(modificador, núcleo, relacion, esAntMod)<br />

fAlgoritmo<br />

En relación a la aplicación de las reglas complejas 28, cabe matizar<br />

que la mayor parte <strong>del</strong> contenido <strong>del</strong> Anexo B está dedicado al estudio,<br />

análisis y diseño de la función Analiza Caso. Dicha función se encarga<br />

de analizar toda la casuística existente para la generación o modificación<br />

<strong>del</strong> predicado asociado al núcleo de la dependencia. Para ello analiza la<br />

cabeza, el modificador, el tipo de relación de dependencia y la posición<br />

<strong>del</strong> modificador (anterior o posterior) con respecto a la cabeza.<br />

Existe una distinción entre reglas simples y reglas complejas porque,<br />

como se ha matizado anteriormente, la derivación de la forma lógica<br />

consiste en un proceso composicional que comienza en las hojas <strong>del</strong>


66 3. La Forma Lógica<br />

árbol de dependencias y termina en la raíz <strong>del</strong> árbol de dependencias.<br />

En las hojas <strong>del</strong> árbol de dependencia, no se arrastra ningún constituyente<br />

de la forma lógica (predicados, variables, ...) que venga desde<br />

un nodo inferior, porque las hojas <strong>del</strong> árbol no tienen ningún nodo por<br />

debajo de ellas. Es por ello por lo que no se tiene que hacer ningún<br />

tipo de comprobación sobre los constituyentes de la forma lógica que<br />

vienen heredados de los nodos inferiores, ya que no viene ninguno. En<br />

cambio, en los nodos intermedios, sí que se tienen constituyentes que<br />

vienen heredados desde nodos inferiores, con lo cual se tienen que enlazar<br />

los constituyentes que vienen heredados de los nodos inferiores con<br />

el constituyente tratado en el nodo intermedio.<br />

Por ejemplo, un argumento <strong>del</strong> predicado generado en el nodo tratado<br />

puede depender <strong>del</strong> argumento de un predicado generado en un nodo<br />

inferior. Este tipo de comprobaciones nunca se darán en los nodos hojas,<br />

debido a que en los nodos hojas no se arrastra ningún tipo de constituyente<br />

de la forma lógica. En los nodos hojas, <strong>mediante</strong> la aplicación de<br />

las reglas simples, se generan los predicados y las variables instanciadoras<br />

de los argumentos de los predicados, en el caso de que ambos se<br />

generen, y será en los nodos intermedios y en la raíz, <strong>mediante</strong> la aplicación<br />

de las reglas complejas, donde se comprueben los constituyentes<br />

que vienen heredados de los nodos inferiores al tratado, en el proceso<br />

de generación <strong>del</strong> predicado o los predicados y las variables, en el caso<br />

de que se generen, en el citado nodo.<br />

Más a<strong>del</strong>ante se muestra un ejemplo de derivación de una forma lógica a<br />

partir de una oración donde se detalla la computación <strong>del</strong> algoritmo especificado<br />

previamente y se pueden comprobar claramente la aplicación<br />

de cada una de las reglas simples y complejas sobre el árbol de análisis<br />

de dependencias. En los Anexos A y B de este trabajo de investigación<br />

están especificadas cada una de las reglas simples y complejas de PLN<br />

aplicadas al árbol de análisis de dependencias para la derivación de la<br />

forma lógica.<br />

Cabe volver a matizar que la forma lógica es inferida, por una parte,<br />

a través de la aplicación de una serie de reglas simples de PLN sobre<br />

las hojas <strong>del</strong> árbol de dependencias y, por otra parte, a través de reglas<br />

complejas de PLN aplicadas a las dependencias entre pares de palabras<br />

(núcleo y modificador) en el árbol de dependencia.<br />

En el diseño de las reglas simples, sólamente se ha contemplado la categoría<br />

léxica de la palabra mientras que en el diseño de las reglas<br />

compuestas se he tenido en cuenta la categoría léxica <strong>del</strong> núcleo, la<br />

categoría léxica <strong>del</strong> modificador, el tipo de relación de dependencia y<br />

la posición relativa <strong>del</strong> modificador (antes o después <strong>del</strong> núcleo). La


3.4 La forma lógica extendida: independiente <strong>del</strong> dominio y de la lengua 67<br />

Tabla 3.3 muestra un pequeño subconjunto de reglas simples de PLN<br />

mientras que en la Tabla 3.4 están reflejadas algunas reglas complejas.<br />

En ellas, la columna Hoja refleja la categoría léxica de la palabra que<br />

está en la hoja <strong>del</strong> árbol de dependencias, la columna CLC muestra<br />

la categoría léxica de la palabra situada en el núcleo de la relación de<br />

dependencia, la columna CLM indica la categoría léxica de la palabra<br />

situada en el modificador de la relación de dependencia, la columna RD<br />

detalla la relación de dependencia existente entre núcleo y modificador,<br />

la columna PM indica la posición relativa <strong>del</strong> modificador respecto al<br />

núcleo (anterior o posterior en la frase) y, la columna LF muestra la<br />

forma lógica derivada en el nodo núcleo de la dependencia, en el caso<br />

de haberse aplicado una regla compleja, o en las hojas <strong>del</strong> árbol, en el<br />

caso de haberse aplicado una regla simple.<br />

Hoja FL<br />

Det void<br />

A lema:JJ( nueva variable x)<br />

N lema:NN( nueva variable x)<br />

Tabla 3.3. Subconjunto de reglas simples de PLN aplicadas a las hojas en el árbol de dependencias<br />

CLC CLM RD PM FL<br />

N Det det anterior lema núcleo:NN( nueva variable x)<br />

A A mod anterior FL modificador + lema núcleo:JJ( variable x modificador)<br />

VBE N subj anterior FL modificador +<br />

lema núcleo:VB( nueva variable e, variable x modificador, nueva variable x)<br />

VBE A pred posterior FL núcleo +<br />

Atributo:IN( variable e núcleo, variable x modificador) + FL modificador<br />

Tabla 3.4. Subconjunto de reglas complejas de PLN aplicadas a las relaciones de dependencia<br />

El formato de esta forma lógica es muy parecido al formato de la forma<br />

lógica de Moldovan et al. (2003). Este formato introduce predicados<br />

en la forma lógica de manera composicional. Los predicados tienen la<br />

forma Lema Palabra:Información Sintáctica(argumentos), es decir, incluyen<br />

tanto el lema como la información sintáctica de las propiedades<br />

que están representando en ellos. En función de la información sintáctica,<br />

variará el número de argumentos <strong>del</strong> predicado. Los argumentos de<br />

los predicados pueden ser de dos tipos:<br />

Tipo e: son usados únicamente para identificar las acciones asociadas<br />

a los predicados <strong>del</strong> tipo verbo.


68 3. La Forma Lógica<br />

Tipo x: se utilizan para identificar el resto de argumentos de los predicados.<br />

En la forma lógica cabe destacar los siguientes tipos de predicado:<br />

Sustantivo: Se utiliza este tipo de predicados para identificar a los<br />

sustantivos de las oraciones. Tiene un único argumento que es instanciado<br />

con una variable que identifica exclusivamente al objeto que<br />

cumple dicho predicado. A continuación, el ejemplo 29 introduce la<br />

derivación de este tipo de predicado.<br />

(29) Expresión: The house...<br />

<strong>Representación</strong>: house:NN(x1)<br />

Verbo: Este tipo de predicados se utiliza para representar los verbos<br />

que aparecen en las oraciones. Tiene tres argumentos. El primer argumento,<br />

de tipo e, identifica la acción <strong>del</strong> verbo. El segundo argumento<br />

se utiliza para identificar al objeto que hace las funciones de sujeto<br />

sintáctico de la acción. El tercer argumento se utiliza para identificar<br />

al objeto que hace las funciones de objeto sintáctico de la acción.<br />

En aquellas oraciones en las que el verbo sea intransitivo, o bien tengan<br />

el sujeto omitido, las variables instanciadoras <strong>del</strong> segundo y tercer<br />

argumento <strong>del</strong> predicado serán zombies (dummies), es decir, no se relacionarán<br />

con ningún otro predicado de la forma lógica. El ejemplo<br />

30 detallado a continuación muestra la de derivación de este tipo de<br />

predicado en la forma lógica.<br />

(30) Expresión: Nicolas bought a car.<br />

<strong>Representación</strong>: Nicolas:NN(x1) buy:VB(e1, x1, x2)<br />

car:NN(x2)<br />

Adjetivo: Este tipo de predicado es utilizado para representar los adjetivos<br />

que aparecen en las oraciones. Tiene un único argumento que es<br />

instanciado con una variable que identifica exclusivamente al objeto<br />

que cumple dicho predicado. Además, cuando en la oración el adjetivo<br />

modifica a un sustantivo, ambos predicados quedan instanciados por<br />

la misma variable identificadora <strong>del</strong> objeto que cumple ambos predicados.<br />

Seguidamente, se detalla en el ejemplo 31 la derivación de este<br />

tipo de predicado.<br />

(31) Expresión: Nicolas bought a green car.


3.4 La forma lógica extendida: independiente <strong>del</strong> dominio y de la lengua 69<br />

<strong>Representación</strong>: Nicolas:NN(x1) buy:VB(e1, x1, x2)<br />

green:JJ(x2) car:NN(x2)<br />

Adverbio: Este tipo de predicado se utiliza para representar los adverbios<br />

de las oraciones. Tiene un único argumento que es instanciado<br />

con una variable que identifica exclusivamente al objeto que cumple<br />

dicho predicado. Además, cuando en la oración el adverbio acompaña<br />

directamente al verbo, ambos predicados quedan instanciados por la<br />

misma variable, indicando así que la acción <strong>del</strong> verbo cumple el predicado<br />

<strong>del</strong> tipo adverbio. Seguidamente, en el ejemplo 32 se detalla la<br />

derivación de este tipo de predicado.<br />

(32) Expresión: Nicolas quickly bought a green car.<br />

<strong>Representación</strong>: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1,<br />

x1, x2) green:JJ(x2) car:NN(x2)<br />

Preposición: Se utiliza este tipo de predicados para enlazar los objetos<br />

que cumplen los dos predicados asociados a las palabras de la<br />

oración que quedan relacionadas <strong>mediante</strong> la preposición. Este tipo<br />

de predicado tiene dos argumentos que se instancian con las variables<br />

identificadoras de los objetos asociados a los predicados que relaciona.<br />

A continuación, se muestra en el ejemplo 33 el resultado fruto de la<br />

derivación de este tipo de predicado.<br />

(33) Expresión: Nicolas quickly bought a green car in<br />

London.<br />

<strong>Representación</strong>: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1,<br />

x1, x2) green:JJ(x2) car:NN(x2) in:IN(e1, x3)<br />

London:(x3)<br />

Atributo. Se utiliza este tipo de predicado para denotar que un verbo<br />

copulativo tiene un atributo en la frase debido a que este tipo de<br />

verbos nunca tendrán objetos sintácticos relacionados. Este predicado<br />

tiene dos argumentos. El primer argumento instanciará la acción<br />

<strong>del</strong> predicado asociado al verbo copulativo mientras que el segundo<br />

atributo hará lo propio con la variable identificadora <strong>del</strong> objeto que<br />

cumple el predicado asociado al atributo. A continuación, en el ejemplo<br />

34 se muestra la derivación de este tipo de predicado.<br />

(34) Expresión: The car is green.<br />

<strong>Representación</strong>: car:NN(x1) be:VB(e1, x1, x3) Atributo:IN(e1,<br />

x2) green:JJ(x2)


70 3. La Forma Lógica<br />

Conjunción/Disyunción. Este tipo de predicado se utiliza para representar<br />

las conjunciones y disyunciones que aparecen en las oraciones.<br />

Tiene tres argumentos. El primero de ellos identifica al objeto que<br />

cumple dicho predicado. El segundo y el tercero identifican a los objetos<br />

que cumplen los predicados relacionados <strong>mediante</strong> el predicado<br />

conjunción/disyunción. A continuación, el ejemplo 35 detalla un ejemplo<br />

de derivación de este tipo de predicado.<br />

(35) Expresión: Nicolas quickly bought a green car and a<br />

motorbike in London.<br />

<strong>Representación</strong>: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1,<br />

x1, x4) green:JJ(x2) car:NN(x2) and:CC(x4, x2,<br />

x3) motorbike:NN(x3) in:IN(e1, x5) London:(x5)<br />

Nominal compuesto. Este tipo de predicado se utiliza para reflejar<br />

los nominales compuestos presentes en las oraciones. Tiene tres argumentos.<br />

El primero identifica al objeto resultante de la composición<br />

de los nominales. Los dos restantes argumentos identifican a los objetos<br />

que cumplen los predicados asociados a los nominales simples.<br />

Seguidamente, en el ejemplo 36 se presenta la derivación de este tipo<br />

de predicado.<br />

(36) Expresión: Nicolas Smith quickly bought a green car<br />

and a motorbike in London.<br />

<strong>Representación</strong>: Nicolas:NN(x1) Nicolas Smith:NNC(x3,<br />

x1, x2) Smith:NN(x2) quickly:RB(e1) buy:VB(e1,<br />

x3, x6) green:JJ(x4) car:NN(x4) and:CC(x6, x4,<br />

x5) motorbike:NN(x5) in:IN(e1, x7) London:(x7)<br />

Aposición. Al igual que ocurre con los nominales complejos, la aposición<br />

marca una relación muy estrecha entre dos elementos de la<br />

oración. Este tipo de relaciones tiene entidad suficiente para ser representada<br />

en la forma lógica. Este tipo de predicado que se utiliza para<br />

reflejar las aposiciones presentes en las oraciones tiene tres argumentos.<br />

El primero identifica al objeto resultante de la propia aposición.<br />

Los dos restantes argumentos identifican a los objetos que cumplen los<br />

predicados constituyentes de la aposición. A continuación, el ejemplo<br />

37 muestra la derivación de este tipo de predicado.<br />

(37) Expresión: Nicolas Smith, the bank manager, quickly<br />

bought a green car and a motorbike in London.


3.4 La forma lógica extendida: independiente <strong>del</strong> dominio y de la lengua 71<br />

<strong>Representación</strong>: Nicolas:NN(x1) Nicolas Smith:NNC(x3,<br />

x1, x2) Smith:NN(x2) Nicolas Smith bank manager:APPO(x7,<br />

x3, x6) bank:NN(x4) bank manager:NNC(x6, x4,<br />

x5) manager:NN(x5) quickly:RB(e1) buy:VB(e1,<br />

x7, x10) green:JJ(x8) car:NN(x8) and:CC(x10,<br />

x8, x9) motorbike:NN(x9) in:IN(e1, x11) London:(x11)<br />

3.4.3 Ejemplo de derivación<br />

Una vez especificado este complejo proceso de derivación de las formas<br />

lógicas asociadas a oraciones expresadas en lenguaje natural, cabe hacer<br />

una síntesis <strong>del</strong> mismo <strong>mediante</strong> la derivación de la forma lógica<br />

asociada a la frase “The aspirin is effective”.<br />

El primer paso consiste en encontrar las relaciones de dependencia<br />

entre las palabras de la frase. A continuación, el cuadro 38 muestra<br />

el análisis de dependencias entre las palabras de la frase.<br />

(38) Frase: The aspirin is effective.<br />

<strong>Representación</strong>: En la tabla 3.5 se pueden contemplar<br />

las relaciones de dependencia existentes en la<br />

frase anterior<br />

Modificador Cabeza Relación de dependencia<br />

The [Det] aspirin [N] det<br />

aspirin [N] is [V] subj<br />

effective [N] is [V] pred<br />

Tabla 3.5. Relaciones de dependencias entre las palabras de la frase<br />

El segundo paso consiste en aplicar las reglas simples de PLN a las<br />

hojas <strong>del</strong> árbol de dependencias, generando con ello los predicados de<br />

la forma lógica asociados a las hojas. A continuación, el cuadro 39<br />

detalla la aplicación de este paso <strong>del</strong> algoritmo.<br />

(39) Paso: Aplicación de reglas simples a los nodos hoja.<br />

<strong>Representación</strong>: La tabla 3.6 detalla la aplicación de<br />

este paso <strong>del</strong> algoritmo<br />

En este paso <strong>del</strong> algoritmo (ver tabla 3.6) se aprecia que la hoja The<br />

[Det] no genera ningún predicado en la forma lógica, mientras que la


72 3. La Forma Lógica<br />

hoja effective [A] genera el predicado effective:JJ(x1), un predicado<br />

cuyo lema viene determinado por effective, su información sintáctica<br />

la define JJ, y su único argumento se instancia con la variable x1, que<br />

identifica al objeto que cumple este predicado.<br />

Finalmente, el último paso <strong>del</strong> algoritmo consiste en aplicar las reglas<br />

complejas de PLN a las ramificaciones y a la raíz <strong>del</strong> árbol de dependencias.<br />

En la raíz <strong>del</strong> árbol de dependencias queda derivada la forma<br />

lógica. A continuación, el cuadro 40 detalla la aplicación de este paso<br />

<strong>del</strong> algoritmo.<br />

(40) Paso: Aplicación de reglas complejas a los nodos que<br />

no son hoja.<br />

<strong>Representación</strong>: La tabla 3.7 detalla la aplicación de<br />

este paso <strong>del</strong> algoritmo<br />

En este paso <strong>del</strong> algoritmo (ver tabla 3.7) se procesan las tres relaciones<br />

de dependencia existentes:<br />

1. La primera relación de dependencia tiene como núcleo el sustantivo<br />

aspirin, como modificador el determinante The, la relación de<br />

dependencia es <strong>del</strong> tipo det y la posición <strong>del</strong> modificador es anterior<br />

al núcleo. Con estas premisas, la regla aplicada consiste en<br />

generar un nuevo predicado asociado al sustantivo aspirin e instanciado<br />

con una nueva variable que identifica al objeto que cumple<br />

este predicado. Tras aplicar la regla a esta relación de dependencia,<br />

la forma lógica asociada al núcleo de la dependencia queda <strong>del</strong> modo<br />

aspirin:NN(x2), es decir, contiene un predicado cuyo lema viene<br />

identificado por aspirin, su información sintáctica la define NN, y<br />

su único argumento queda instanciado por la variable x2.<br />

2. La segunda relación de dependencia tiene como núcleo el verbo<br />

is(be), como modificador el sustantivo aspirin, la relación de dependencia<br />

está etiquetada con el tipo subj y la posición <strong>del</strong> modificador<br />

es anterior al núcleo. Ello hace que la regla aplicar consista en generar<br />

un predicado asociado al verbo is(be). Este predicado tiene tres<br />

argumentos: la variable e1 instancia la acción <strong>del</strong> verbo, la variable<br />

x2 instancia al objeto que hace las funciones de sujeto sintáctico<br />

<strong>del</strong> verbo y la variable x3 instancia al objeto que desempeña el rol<br />

de objeto sintáctico <strong>del</strong> verbo. La regla también dice que a este<br />

predicado hay que anteponerle el predicado asociado al modificador<br />

y, además, que el primer argumento <strong>del</strong> predicado <strong>del</strong> modificador<br />

y el segundo argumento <strong>del</strong> predicado <strong>del</strong> núcleo, deben quedar<br />

instanciados por la misma variable debido al tipo de relación de


3.4 La forma lógica extendida: independiente <strong>del</strong> dominio y de la lengua 73<br />

dependencia (el modificador es el sujeto sintáctico <strong>del</strong> núcleo). Una<br />

vez aplicada la regla, la forma lógica asociada al núcleo queda <strong>del</strong><br />

modo aspirin:NN(x2) be:VB(e1, x2, x3).<br />

3. La última relación de dependencia tiene como núcleo el verbo is(be),<br />

como modificador el adjetivo effective, la relación de dependencia<br />

es <strong>del</strong> tipo pred y la posición <strong>del</strong> modificador es posterior a la posición<br />

<strong>del</strong> núcleo. Bajo estas premisas, la regla consiste en generar<br />

un predicado cuyo lema viene determinado por Atributo, la información<br />

sintáctica queda definida en IN, dicho predicado tiene dos<br />

argumentos: el primero de ellos queda instanciado con la variable<br />

identificadora de la acción <strong>del</strong> verbo, e1, mientras que el segundo<br />

queda instanciado con la variable identificadora <strong>del</strong> objeto que cumple<br />

el predicado asociado al adjetivo. La regla dice también que hay<br />

que concatenar el predicado asociado al modificador de la dependencia.<br />

Tras la aplicación de la regla asociada a la última dependencia<br />

la forma lógica queda <strong>del</strong> modo “aspirin:NN(x2) be:VB(e1, x2, x3)<br />

Atributo:IN(e1, x1) effective:JJ(x1)”.<br />

Hoja FL<br />

The [Det] void<br />

effective [A] effective:JJ(x1)<br />

Tabla 3.6. Reglas simples de PLN aplicadas a las hojas <strong>del</strong> árbol de dependencias<br />

CLC CLM RD PM FL<br />

aspirin [N] The [Det] det anterior aspirin:NN(x2)<br />

is [VBE] aspirin [N] subj anterior aspirin:NN(x2) be:VB(e1, x2, x3)<br />

is [VBE] effective [A] pred posterior aspirin:NN(x2) be:VB(e1, x2, x3)<br />

Atributo:IN(e1, x1) effective:JJ(x1)<br />

Tabla 3.7. Reglas complejas de PLN aplicadas a las relaciones de dependencias<br />

Una vez que todas estas reglas de PLN se han aplicado sobre el árbol<br />

de dependencias de la frase “The aspirin is effective”, la forma lógica<br />

derivada es “aspirin:NN(x2) be:VB(e1, x2, x3) Atributo:IN(e1, x1) effective:NN(x1)”.<br />

En ella, cabe destacar que el predicado Atributo que<br />

relaciona los predicados be y effective como consecuencia de que el sustantivo<br />

effective es el atributo <strong>del</strong> verbo intransitivo be. Además, como<br />

dicho verbo no tiene objeto, el argumento x3 <strong>del</strong> predicado be es zombie.


74 3. La Forma Lógica<br />

3.5 Conclusiones<br />

A lo largo <strong>del</strong> capítulo se ha introducido como, desde antes de Cristo,<br />

uno de los principales cometidos de la lógica en general es la representación<br />

y gestión <strong>del</strong> <strong>conocimiento</strong> <strong>del</strong> universo <strong>del</strong> discurso. También se ha<br />

analizado la fuerte vinculación existente entre la lógica de primer orden<br />

o el cálculo de predicados de primer orden y la representación formal <strong>del</strong><br />

<strong>conocimiento</strong> expresado en los textos <strong>mediante</strong> oraciones formuladas en<br />

lenguaje natural. Fruto de ello se originan las primeras investigaciones<br />

con un alto componente teórico en el seno <strong>del</strong> PLN durante las décadas<br />

de los sesenta, setenta y ochenta. A partir de la década de los ochenta y,<br />

sobre todo, en la década de los noventa, en el ámbito <strong>del</strong> PLN, empieza<br />

a despertar especial interés el empleo de la forma lógica, como una<br />

extensión de la clásica lógica de primer orden, para la representación<br />

<strong>del</strong> <strong>conocimiento</strong> expresado en los textos. En el capítulo se analizan los<br />

diferentes enfoques <strong>del</strong> uso de la clásica lógica de primer orden así como<br />

de sus diferentes extensiones, en especial de la forma lógica, que, en el<br />

ámbito <strong>del</strong> PLN, se están llevando a cabo desde los años sesenta. Estos<br />

enfoques quedan sintetizados en el capítulo.<br />

Ya en el nuevo siglo, una parte importante de los sistemas de PLN<br />

incorporan la forma lógica como mecanismo de representación formal<br />

<strong>del</strong> texto. En estos sistemas, la forma lógica queda definida como “una<br />

representación <strong>del</strong> <strong>conocimiento</strong> <strong>lógico</strong> de primer orden de oraciones<br />

expresadas <strong>mediante</strong> lenguaje natural”. De esta definición se deduce<br />

que toda oración expresada en lenguaje natural podrá ser representada<br />

<strong>mediante</strong> su forma lógica asociada. A lo largo <strong>del</strong> capítulo se ha especificado<br />

la vinculación existente de la forma lógica como una extensión<br />

de la lógica de primer orden o cálculo de predicados de primer orden.<br />

Tal y como se detalla en el transcurso <strong>del</strong> capítulo, la representación<br />

formal <strong>del</strong> texto <strong>mediante</strong> la utilización de la forma lógica se remonta<br />

a la década de los sesenta. Prueba de ello son las diferentes investigaciones<br />

en esta materia que han sido presentadas en el discurrir de este<br />

capítulo. Gran parte de estos autores de la época coinciden en la utilización<br />

de un parser que permita, partiendo <strong>del</strong> análisis sintáctico de<br />

las oraciones, la derivación de las formas lógicas asociadas. Como se ha<br />

matizado a lo largo <strong>del</strong> capítulo, la granularidad que aporta el análisis<br />

de dependencias junto con la información semántica adquirida de los<br />

diferentes recursos de PLN hacen que este tratamiento sea mucho más<br />

preciso que el análisis sintáctico. En la última década, los autores que<br />

más relevancia le han dado a la representación formal <strong>del</strong> texto <strong>mediante</strong><br />

la utilización de formas lógicas han sido Moldovan y Mollá.


3.5 Conclusiones 75<br />

El formato de la forma lógica y su proceso de derivación depende de<br />

cada autor. La técnica propuesta en este trabajo de investigación para<br />

derivar la forma lógica de una oración declarativa consiste en aplicar un<br />

conjunto de reglas sobre cada uno de los nodos <strong>del</strong> árbol de dependencias<br />

de la oración. Esta técnica de derivación de la forma lógica consiste<br />

en un proceso composicional que empieza en los nodos hojas de árbol de<br />

dependencias y continúa en sentido ascendente por sus ramificaciones<br />

hasta llegar al nodo raíz, donde la forma lógica queda constituida. Esta<br />

técnica difiere de las otras dos <strong>técnicas</strong> de inferencia de la forma lógica<br />

vistas en el capítulo. La técnica continuísta planteada por Moldovan<br />

et al. (2003) utiliza el árbol de análisis sintáctico de constituyentes en<br />

el proceso de derivación de la forma lógica. La técnica empleada por<br />

Mollá el at. (2002) parte <strong>del</strong> análisis sintáctico, resuelve el sentido de<br />

las dependencias y, a partir de estas últimas deriva la forma lógica, introduciendo<br />

en ella predicados alternativos dependientes <strong>del</strong> dominio<br />

de aplicación de su sistema (comandos <strong>del</strong> sistema operativo Unix).<br />

La forma lógica de Moldovan está diseñada para el texto en dominio<br />

abierto, mientras que la de Mollá está concebida para trabajar en un<br />

dominio restringido concreto. El propósito perseguido en esta investigación<br />

es que la forma lógica sea capaz de trabajar tratar textos en el<br />

dominio abierto como en cualquier dominio restringido. En el siguiente<br />

capítulo se detalla cómo se consigue este propósito.<br />

Desde el punto de vista de la independencia de la lengua, tanto la forma<br />

lógica de Moldovan como la de Mollá no consideran una representación<br />

independiente de la lengua de la oración asociada, ya que únicamente<br />

mo<strong>del</strong>an una representación en la lengua inglesa. En cambio, la forma<br />

lógica planteada en esta tesis tiene un tratamiento independiente<br />

de la lengua que permite representaciones en cualquier lengua, incluso<br />

planteamientos multilingües. En el siguiente capítulo se detalla cómo se<br />

consigue el tratamiento independiente de la lengua.


4. La forma <strong>lógico</strong>-conceptual<br />

Como se está comentado a lo largo de este trabajo de investigación,<br />

la forma lógica, por definición, permite disponer de “una representación<br />

<strong>del</strong> <strong>conocimiento</strong> <strong>lógico</strong> de primer orden de oraciones expresadas<br />

<strong>mediante</strong> lenguaje natural”, es decir, facilita la comprensión <strong>del</strong> texto<br />

<strong>mediante</strong> su transformación en una determinada representación formal.<br />

También se ha comentado que las últimas tendencias en el ámbito <strong>del</strong><br />

PLN han derivado a que los sistemas de PLN por un lado, sean capaces<br />

de tratar la multilingualidad y, por otro lado, sean adaptables <strong>del</strong> dominio<br />

abierto a cualquier dominio restringido y viceversa. Ello requiere que<br />

los sistemas de PLN dispongan de algún mecanismo de representación<br />

formal <strong>del</strong> texto que sea capaz de contemplar estas dos particularidades.<br />

Como se ha detallado en el anterior capítulo donde se realiza un<br />

estudio sobre las diferentes representaciones de texto existentes utilizando<br />

la forma lógica, las propuestas existentes hasta el momento no<br />

contemplan los detalles de la independencia <strong>del</strong> dominio y de la lengua,<br />

frente a la propuesta presentada en esta tesis que sí que abarca estas<br />

dos propiedades. Por un lado, es capaz de representar el texto tanto<br />

en dominios abiertos como en cualquier dominio restringido y, por otro<br />

lado, es capaz de obtener una representación <strong>del</strong> texto independiente de<br />

la lengua, todo ello basándose en los recursos disponibles de PLN pertenecientes<br />

tanto al dominio abierto como a los dominios restringidos.<br />

Tal y como se ha detallado en el anterior capítulo, los predicados inferidos<br />

en la forma lógica tienen una relación directa con las palabras<br />

de la frase que representa formalmente la forma lógica. A lo largo <strong>del</strong><br />

presente capítulo se aborda el problema, pero cabe a<strong>del</strong>antar que, con<br />

el propósito de abordar los matices inherentes a la independencia <strong>del</strong><br />

dominio y de la lengua, los predicados de la forma lógica necesitan incorporar<br />

<strong>conocimiento</strong> semántico a través de la información conceptual<br />

que representan sus palabras asociadas según el contexto de la frase.<br />

Este tratamiento conceptual llevado a cabo en la forma lógica hace que<br />

la forma lógica tenga la consideración de forma <strong>lógico</strong>-conceptual.<br />

Seguidamente se describen los detalles de la extensión de la forma lógica<br />

a la forma <strong>lógico</strong>-conceptual. Posteriormente, se especifica la aplicación


78 4. La forma <strong>lógico</strong>-conceptual<br />

de la forma <strong>lógico</strong>-conceptual al tratamiento de las particularidades<br />

referentes a la independencia <strong>del</strong> dominio para, finalmente, matizar los<br />

aspectos que permiten tratar la independencia de la lengua.<br />

4.1 Tratamiento <strong>lógico</strong>-conceptual y representación<br />

semántica<br />

El propósito perseguido consiste en, a partir de la representación formal<br />

<strong>del</strong> texto <strong>mediante</strong> la forma lógica, dotar a esta última de una<br />

mayor granularidad semántica a través de la conceptualización de sus<br />

predicados asociados a las palabras <strong>del</strong> texto representado. Para ello,<br />

se debe disponer de algún recurso <strong>del</strong> tipo onto<strong>lógico</strong> o tesauro capaz<br />

de conceptualizar las unidades léxicas presentes en el texto. Cuando las<br />

unidades léxicas asociadas a los predicados quedan conceptualizadas, la<br />

información relativa a los conceptos pasa a enriquecer la representación<br />

formal <strong>del</strong> texto en la forma lógica. En este instante, en el que la forma<br />

lógica incorpora la información conceptual asociada a sus predicados,<br />

la propia forma lógica pasa a recibir el tratamiento de forma <strong>lógico</strong>conceptual.<br />

En determinadas ocasiones, una palabra puede tener asociada más de<br />

un concepto. Ello implica que el predicado asociado a esa palabra quede<br />

multiconceptualizado, produciendo que, a partir de la original forma<br />

lógica, se deriven diversas formas <strong>lógico</strong>-conceptuales.<br />

A lo largo <strong>del</strong> presente capítulo se explica la derivación de formas <strong>lógico</strong>conceptuales<br />

a partir de una forma lógica pero, cabe a<strong>del</strong>antar que el<br />

número de formas <strong>lógico</strong>-conceptuales viene determinado por el producto<br />

cartesiano (todos con todos) de los predicados conceptualizados en<br />

la forma lógica.<br />

García de Quesada (2001) hace un análisis teórico de la distinción entre<br />

los conceptos de concepto y término. En este análisis justifica que, desde<br />

un principio, los teóricos que se han dedicado al estudio y descripción de<br />

la definición en terminografía han tenido clara la necesidad de otorgar<br />

prioridad al concepto sobre el término. El papel nuclear de los conceptos<br />

en la gestión terminológica es indiscutible. Sin embargo, en la práctica<br />

terminográfica real, es innegable que el concepto de concepto es, quizá,<br />

uno de los más difíciles de <strong>del</strong>imitar y definir.<br />

En el estudio realizado en Sager (1990) se recogen las siguientes definiciones<br />

de concepto establecidas en diversas instituciones estandarizadoras:


4.1 Tratamiento <strong>lógico</strong>-conceptual y representación semántica 79<br />

Los conceptos son constructos mentales, abstracciones que se pueden<br />

emplear para clasificar los distintos objetos <strong>del</strong> mundo exterior e interior<br />

(Recomendación Estándar Británica para la selección, formación<br />

y definición de términos técnicos).<br />

Los objetos de todos los campos de <strong>conocimiento</strong> y actividades humanas,<br />

las cosas, sus propiedades, cualidades, fenómenos, etc., se representan<br />

<strong>mediante</strong> conceptos (Propuesta de revisión <strong>del</strong> Reino Unido<br />

para el documento de la ISO R/704).<br />

Un concepto es un constructo mental para la clasificación de objetos<br />

individuales <strong>del</strong> mundo exterior e interior por medio de una abstracción<br />

más o menos arbitraria (Borrador de 1968 <strong>del</strong> estándar ISO 704).<br />

Un concepto es una unidad de pensamiento, generada <strong>mediante</strong> la<br />

agrupación de objetos individuales relacionados entre sí por características<br />

comunes (Borrador de documento DIN, alemán).<br />

Un concepto es un grupo coherente de juicios sobre un objeto cuyo<br />

núcleo se compone de aquellos juicios que reflejan las características<br />

inherentes <strong>del</strong> objeto (Propuesta de la Unión Soviética para la revisión<br />

<strong>del</strong> documento ISO 704).<br />

Un concepto es una unidad de pensamiento.<br />

Además, también añade las siguientes puntualizaciones:<br />

1. Un concepto se usa para estructurar el <strong>conocimiento</strong> y percepción<br />

<strong>del</strong> mundo circundante y no necesita ser expresado.<br />

2. Distintas escuelas de pensamiento tienen definiciones diferentes <strong>del</strong><br />

concepto concepto (Versión final <strong>del</strong> Draft International Standard<br />

ISO/DIS 704, 1985).<br />

A continuación, el autor propone que dada la gran diversidad de opiniones,<br />

para los propósitos de la terminología es mejor dejar el concepto<br />

sin definir (Sager, 1990).<br />

En el marco <strong>del</strong> trabajo de investigación que nos ocupa, no creemos que<br />

sea necesario debatir la naturaleza de concepto. Esta tarea nos llevaría<br />

a multitud de cuestiones de naturaleza filosófica que quedan lejos de<br />

los objetivos de esta tesis. Según matiza García de Quesada en su tesis<br />

(García de Quesada, 2001), los conceptos no son más que una formalización<br />

posible de una parte <strong>del</strong> <strong>conocimiento</strong>. Estos conceptos serán un


80 4. La forma <strong>lógico</strong>-conceptual<br />

punto de referencia para el término, que se puede definir en este contexto,<br />

como la formalización de uno o varios conceptos, para su uso en la<br />

comunicación experta, preferentemente. Según matiza De Bessé (1997),<br />

lo que se ha de definir no es el término, sino el objeto o idea en cuestión,<br />

y más concretamente su representación conceptual. Dubuc y Lauriston<br />

(1997) concluyen que, de la misma forma, en terminografía bilingüe el<br />

establecimiento de equivalencias en ambas lenguas se realiza a través de<br />

la representación conceptual, de manera que la equivalencia no es entre<br />

los términos sino entre los conceptos designados por dichos términos.<br />

El objetivo fundamental que se persigue en esta investigación consiste<br />

en tener una representación formal <strong>del</strong> texto que sea independiente <strong>del</strong><br />

dominio y de la lengua. Para abordar este problema, el enfoque adoptado<br />

en esta tesis se basa en dotar de contenido semántico a la forma<br />

lógica. Tal y como se acaba de justificar, este reto se consigue a partir<br />

de la forma lógica y <strong>del</strong> empleo de recursos <strong>del</strong> tipo onto<strong>lógico</strong> o tesauros<br />

que permiten dotar de información conceptual a los predicados<br />

cuyas palabras asociadas queden conceptualizadas en dichos recursos.<br />

Este tratamiento conceptual de los predicados de la forma lógica da<br />

lugar a las formas <strong>lógico</strong>-conceptuales.<br />

A continuación se especifican los requisitos que se deben cumplir para<br />

poder tener una representación formal <strong>del</strong> texto independiente <strong>del</strong> dominio<br />

y de la lengua según el tratamiento <strong>lógico</strong>-conceptual presentado<br />

en este trabajo de investigación:<br />

Recurso conceptual: Independientemente <strong>del</strong> dominio de los textos a<br />

representar, tanto en el dominio abierto como en el dominio restringido,<br />

se debe disponer de recursos que aporten, con mayor o menor<br />

granularidad, la información conceptual que representan las palabras.<br />

Generalmente, un concepto viene siempre identificado por un identificador<br />

exclusivo <strong>del</strong> propio concepto.<br />

Conexión multilingüe: El recurso conceptual debe tener una conexión<br />

entre las diferentes lenguas.<br />

Tratamiento de categorías semánticas: En los dominios específicos,<br />

suele ser bastante común disponer de ontologías de categorías semánticas<br />

<strong>del</strong> dominio. Cuando se dispone de esta información, cada concepto<br />

definido en el tesauro está asociado a su categoría o categorías<br />

semánticas. Únicamente en este caso, y de manera excepcional, la representación<br />

<strong>lógico</strong>-conceptual incorporará no sólo el concepto, sino<br />

también sus categorías semánticas asociadas enriqueciendo semánticamente<br />

aún más si cabe el predicado de la forma lógica.


4.1 Tratamiento <strong>lógico</strong>-conceptual y representación semántica 81<br />

Según matiza Dick (1991), los conceptos representan una entidad, acción<br />

o estado que pueden ser descritos en el lenguaje, y las relaciones<br />

conceptuales muestran los roles que cada entidad juega. Una de las conclusiones<br />

a las que llega en esta tesis doctoral viene determinada en la<br />

frase “a concept is the basic unit for representing knowledge”. Dada esta<br />

conclusión y, en la línea de otros trabajos de investigación previos<br />

en el dominio abierto (Baziz et al. , 2005) (Ramakrishnanan & Bhattacharyya,<br />

2003) (Zhang & Li, 2005) (Gomez-Hidalgo et al. , 2004), que<br />

también utilizan los conceptos asociados a las palabras para representar<br />

formalmente el texto, en esta tesis se ha optado por la continuación de<br />

esta tendencia consistente en la extracción de la información conceptual<br />

de las unidades léxicas <strong>del</strong> texto para su representación formal. De este<br />

modo, se incorpora a la forma lógica la información conceptual asociada<br />

a sus predicados conceptualizados, tanto en el dominio abierto como en<br />

cualquier dominio restringido.<br />

Para tratar de entender mejor este proceso, en el marco <strong>del</strong> tratamiento<br />

semántico de la forma lógica, a continuación se presentan las propiedades<br />

explotadas de los recursos onto<strong>lógico</strong>s y tesauros tanto en el dominio<br />

abierto como en los dominios restringidos. En el caso particular, en el<br />

dominio abierto, el recurso utilizado es WordNet, mientras que en el<br />

ámbito <strong>del</strong> dominio restringido, se introduce el dominio médico, explotando<br />

el recurso UMLS.<br />

4.1.1 WordNet y EuroWordNet<br />

En la base de datos léxica WordNet (Miller, 1995), el núcleo fundamental<br />

es el synset. Un synset se define como un conjunto de palabras<br />

que tienen el mismo significado (sinónimos). Debido a ello, un synset<br />

contiene una o más palabras con sentido (también llamadas conceptos)<br />

y cada palabra con sentido (concepto) pertenece única y exclusivamente<br />

a un sólo synset. Dicho de otro modo, cada concepto tiene asociado<br />

exactamente una palabra que lo representa léxicamente y, cada palabra<br />

puede estar relacionada con al menos un concepto. Cada synset tiene un<br />

identificador exclusivo formado por una combinación de dígitos. Como<br />

ejemplo, la tabla 4.1 muestra los synsets <strong>del</strong> sustantivo car.<br />

WordNet es un recurso que está disponible en multitud de lenguas (inglés,<br />

español, catalán, euskera, checo,...). Con el propósito de interconectar<br />

diferentes lenguas europeas, se desarrolló el recurso EuroWordNet<br />

(Vossen, 1998) (Vossen, 2002). El objetivo de EuroWordNet es la construcción<br />

de un recurso léxico-semántico de diversas lenguas, integradas<br />

e interconectadas, tomando WordNet como punto de referencia. Las<br />

conexiones entre los WordNet de cada lengua se realiza <strong>mediante</strong> equi-


82 4. La forma <strong>lógico</strong>-conceptual<br />

Identificador Conceptos <strong>del</strong> synset<br />

02958343 car#1, auto#1, automobile#1, machine#6, motorcar#1<br />

02959942 car#2, railcar#1, railway car#1, railroad car#1<br />

02960501 car#3, gondola#3<br />

02960352 car#4, elevator car#1<br />

02934451 cable car#1, car#5<br />

Tabla 4.1. Synsets <strong>del</strong> sustantivo car<br />

valencias a una estructura interlingüística, el Inter-Lingual-Index (ILI).<br />

Es decir, el ILI conecta los synsets de las diferentes lenguas. Como<br />

ejemplo, la figura 4.1 muestra las relaciones existentes entre la lengua<br />

inglesa y la lengua española <strong>del</strong> sustantivo prohibition. En este ejemplo,<br />

el sustantivo prohibition tiene cuatro entradas de synset en el WordNet<br />

inglés, dos de las cuales (la segunda y la cuarta) están relacionadas con<br />

synsets <strong>del</strong> WordNet español a través <strong>del</strong> ILI. Diferentes autores han<br />

utilizado el ILI de EuroWordNet para tratar los aspectos relevantes de<br />

la multilingualidad en sus investigaciones en PLN (Soria et al. , 2006)<br />

(Marchetti et al. , 2006) (Ferrández et al. , 2006b).<br />

4.1.2 UMLS<br />

En el dominio médico existen distintos recursos que aportan <strong>conocimiento</strong><br />

relativo a su terminología. El más extendido es UMLS (Unified<br />

Medical Language System) (Humphreys & Lindberg, 1993). Este recurso<br />

está compuesto a partir de la integración de tres fuentes de <strong>conocimiento</strong>:<br />

el Metatesauro, el Lexicón Especializado y la Red Semántica que<br />

cabe describir brevemente a continuación:<br />

El Metatesauro es el núcleo de UMLS y consta de una colección de<br />

conceptos y términos extraídos de diferentes vocabularios controlados,<br />

incluyendo también sus relaciones.<br />

El Lexicón Especializado es una base de datos de información léxicográfica<br />

para el uso en PLN.<br />

La Red Semántica consta de un conjunto de categorías y sus relaciones<br />

cuya utilidad es la de clasificar y relacionar las entradas <strong>del</strong><br />

metatesauro.<br />

De entre estos tres recursos de UMLS, el que mejor se adapta a la necesidad<br />

de extracción de los conceptos es el Metateusauro, que será el<br />

que se utilizará. Además, cabe destacar que, tal y como se acaba de<br />

describir, UMLS incorpora una Red Semántica en la que los conceptos


4.2 Derivación de las formas <strong>lógico</strong>-conceptuales 83<br />

representados en el Metatesauro quedan categorizados semánticamente.<br />

Ello permite que dado un concepto se pueda conocer cuál es su tipo<br />

semántico o categoría semántica.<br />

En UMLS, independientemente de la lengua, dado un término se puede<br />

conocer el concepto o conceptos que tiene asociados. Cada concepto<br />

tiene un identificador exclusivo, y se relaciona con uno o varios tipos<br />

semánticos de los categorizados en la Red Semántica. También, dado un<br />

concepto, es posible conocer los términos que se asocian a dicho concepto<br />

en cada una de las lenguas tratadas en este recurso. Como ejemplo, la<br />

tabla 4.2 muestra la información semántica <strong>del</strong> sustantivo aspirin. En<br />

este ejemplo están detallados únicamente los términos en las lenguas<br />

inglesa y española, descartando el resto de términos que tiene asociados<br />

el concepto.<br />

Identificador Concepto Tipo Semántico Términos<br />

Organic Chemical Aspirin, 2-(Acetyloxy)benzoic Acid,<br />

C0004057 Aspirin Pharmacologic Substance Acetylsalicylic Acid, ...,<br />

Aspirina, Ácido Acetilsalicílico, ...<br />

Tabla 4.2. Información semántica relativa al sustantivo aspirin<br />

4.2 Derivación de las formas <strong>lógico</strong>-conceptuales<br />

Se acaba de comentar que la forma <strong>lógico</strong>-conceptual es una extensión<br />

de la forma lógica que enriquece a ésta última desde una perspectiva<br />

semántica a través de la incorporación de la información conceptual<br />

asociada a sus predicados. En este contexto también se ha justificado la<br />

necesidad de utilización de recursos <strong>del</strong> tipo onto<strong>lógico</strong> o tesauros que<br />

permitan extraer la información conceptual asociada a los predicados<br />

de la forma lógica.<br />

Según se ha matizado en la sección anterior, en este tipo de recursos,<br />

la terminología está asociada a los conceptos. Además, cada concepto<br />

tiene un identificador exclusivo que lo diferencia <strong>del</strong> resto de conceptos<br />

<strong>del</strong> recurso. También cabe destacar que, en los recursos pertenecientes a<br />

los dominios restringidos, los conceptos quedan categorizados semánticamente<br />

en tipos o categorías semánticas pertenecientes al dominio restringido.<br />

Al igual que los conceptos, cada tipo o categoría semántica<br />

cuenta con un identificador exclusivo que lo diferencia <strong>del</strong> resto de tipos<br />

o categorías semánticas <strong>del</strong> recurso.


84 4. La forma <strong>lógico</strong>-conceptual<br />

Situándose en el ámbito de la forma lógica, la terminología susceptible<br />

de ser conceptualizada se corresponde con los propios predicados de<br />

la forma lógica. Ésto quiere decir que, dado un predicado de la forma<br />

lógica, el tratamiento <strong>lógico</strong>-conceptual, en un primer lugar, tratará de<br />

extraer <strong>del</strong> recurso la información conceptual <strong>del</strong> predicado, en el caso<br />

de que dicho predicado quede conceptualizado en el recurso. Concretamente,<br />

la información conceptual susceptible de ser extraída se corresponde<br />

con el identificador único <strong>del</strong> concepto (o los identificadores de<br />

los diferentes conceptos, en el caso de que el predicado sea multiconceptualizado<br />

en el recurso). Además, si se está realizando la representación<br />

formal <strong>del</strong> texto en el ámbito de cualquier dominio restringido, y en<br />

el recurso empleado estén categorizados semánticamente los conceptos,<br />

también serán extraídos <strong>del</strong> recurso los identificadores de las categorías<br />

semánticas relacionadas con cada uno de los conceptos asociados al<br />

predicado. Una vez que toda esta información semántica ha sido extraída<br />

<strong>del</strong> recurso, el siguiente paso consiste en reflejar esta información<br />

semántica en la forma lógica, dando origen a la forma <strong>lógico</strong>-conceptual.<br />

A lo largo <strong>del</strong> capítulo anterior se ha comentado que en la forma lógica<br />

los predicados tienen la forma Lema Palabra:Información Sintáctica(argumentos),<br />

es decir, incluyen tanto el lema como la información<br />

sintáctica de las propiedades que están representando en ellos. En la<br />

forma <strong>lógico</strong>-conceptual, aquellos predicados de la forma lógica que tengan<br />

asociado algún concepto en el recurso utilizado tendrán la forma<br />

Id Concepto:Lema Palabra:Info Sintáctica(argumentos), es decir, incorporarán<br />

también la información <strong>del</strong> concepto que tienen asociado en el<br />

recurso empleado. En el caso de que un predicado tenga asociado más<br />

de un concepto en el recurso, se derivarán tantos predicados <strong>lógico</strong>conceptuales<br />

como conceptos tengan asociados en el recurso. Este hecho<br />

da origen a que de una forma lógica se deriven diversas formas <strong>lógico</strong>conceptuales<br />

como resultado <strong>del</strong> producto cartesiano de los predicados<br />

conceptualizados, tal y como se ha comentado en la sección anterior.<br />

Luego, el número de formas <strong>lógico</strong>-conceptuales derivadas de la forma<br />

lógica viene determinado por la combinación de conceptualizaciones de<br />

cada predicado conceptualizado con el resto de los predicados. El resto<br />

de predicados que no estén conceptualizados, no sufrirán ninguna alteración,<br />

manteniendo su estructura original definida en la forma lógica.<br />

También puede darse el caso de formas lógicas cuyos predicados no tengan<br />

conceptualización alguna. En este caso, la forma lógica derivará una<br />

única forma <strong>lógico</strong>-conceptual, teniendo ambas la misma representación.<br />

Cabe volver a matizar que las formas <strong>lógico</strong>-conceptuales derivadas a<br />

partir de una forma lógica se obtienen <strong>mediante</strong> el producto cartesiano<br />

de todos los predicados conceptualizados.


4.2 Derivación de las formas <strong>lógico</strong>-conceptuales 85<br />

No conviene olvidar que en el anterior capítulo se matizó que la forma<br />

lógica debe ser conceptualmente completa. Esto es, de manera sofisticada,<br />

el propósito final de la forma lógica es conseguir una única<br />

representación semántica no ambigua de la frase asociada. La representación<br />

semántica de una frase se corresponde con una única forma<br />

<strong>lógico</strong>-conceptual de las derivadas a partir de la forma lógica original.<br />

Concretamente, la representación semántica de la frase es el resultado<br />

de la desambiguación de la forma <strong>lógico</strong>-conceptual, de entre todas las<br />

formas <strong>lógico</strong>-conceptuales derivadas, en la que cada predicado, en el<br />

caso de ser multiconceptualizado, queda asociado con aquel concepto<br />

que mejor representa el concepto de la unidad léxica según el contexto<br />

de la frase asociada. A continuación, el ejemplo 41 detalla la derivación<br />

de las formas <strong>lógico</strong>-conceptuales asociadas a una forma lógica, así como<br />

la representación semántica de su frase asociada como resultado de la<br />

desambiguación de la forma <strong>lógico</strong>-conceptual más significativa según<br />

el contexto de entre todas las posibles. En el capítulo siguiente, donde<br />

se matizan los detalles de la evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual<br />

desarrollado en el trabajo de investigación, se especifican los matices<br />

referentes al proceso de desambiguación utilizado.<br />

(41) Forma Lógica: P1:NN(x1) P2:VB(e1, x1, x2) P3:NN(x2)<br />

P4:IN(e1, x3) P5:NN(x3)<br />

Predicados Conceptualizados: La tabla 4.3 detalla<br />

la conceptualización de predicados de la anterior<br />

forma lógica.<br />

Formas Lógico-Conceptuales: La tabla 4.4 muestra<br />

las formas <strong>lógico</strong>-conceptuales derivadas a partir de<br />

la conceptualización de predicados sobre la anterior<br />

forma lógica.<br />

<strong>Representación</strong> semántica: 1 C1:P1:NN(x1) C2:P2:VB(e1,<br />

x1, x2) C5:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3).<br />

Predicado Conceptos<br />

P1 C1<br />

P2 C2, C3<br />

P3 C4, C5<br />

Tabla 4.3. Predicados conceptualizados de la forma lógica<br />

1 En el ejemplo se asume que los conceptos que mejor conceptualizan a los predicados P2 y P3 son<br />

C2 y C5 respectivamente.


86 4. La forma <strong>lógico</strong>-conceptual<br />

Conceptos Combinados Forma Lógico-Conceptual<br />

C1, C2, C4 C1:P1:NN(x1) C2:P2:VB(e1, x1, x2) C4:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3)<br />

C1, C2, C5 C1:P1:NN(x1) C2:P2:VB(e1, x1, x2) C5:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3)<br />

C1, C3, C4 C1:P1:NN(x1) C3:P2:VB(e1, x1, x2) C4:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3)<br />

C1, C3, C5 C1:P1:NN(x1) C3:P2:VB(e1, x1, x2) C5:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3)<br />

Tabla 4.4. Formas <strong>lógico</strong>-conceptuales derivadas de la forma lógica original<br />

El anterior ejemplo 41 mo<strong>del</strong>a el proceso dentro <strong>del</strong> marco <strong>lógico</strong>conceptual<br />

llevado a cabo y que concluye en la obtención de la representación<br />

semántica de la frase. Este ejemplo está presentado desde<br />

un punto de vista muy teórico y formal permitiendo distinguir las diferentes<br />

etapas <strong>del</strong> proceso <strong>lógico</strong>-conceptual desarrollado y que concluye<br />

con la obtención de la representación semántica de la frase fruto de la<br />

desambiguación de la forma <strong>lógico</strong>-conceptual en la que cada predicado<br />

conceptualizado es asociado al concepto que mejor le identifica en el<br />

contexto de la frase.<br />

Haciendo una síntesis <strong>del</strong> proceso <strong>lógico</strong>-conceptual de una manera más<br />

natural con un ejemplo, cabe pensar en la frase “Ayer ingresé el dinero<br />

en el banco”. Este frase deriva una forma lógica que contiene una serie de<br />

predicados, entre los cuales, uno de ellos se asocia a la palabra “banco”.<br />

Analizando los diferentes conceptos que tiene asociados esta palabra 2<br />

se obtiene que <strong>del</strong> predicado original asociado a la palabra “banco” en la<br />

forma lógica, se derivan n predicados <strong>lógico</strong>-conceptuales (un predicado<br />

<strong>lógico</strong>-conceptual por cada concepto asociado a la palabra) que serán<br />

combinados en las diferentes formas <strong>lógico</strong>-conceptuales obtenidas fruto<br />

<strong>del</strong> producto cartesiano de los predicados conceptualizados. Finalmente,<br />

la representación semántica de la frase se corresponde con aquella<br />

forma <strong>lógico</strong>-conceptual en la que cada predicado conceptualizado es<br />

asociado al concepto que mejor le identifica según el contexto de la<br />

frase. Concluyendo este proceso <strong>lógico</strong>-conceptual, en la representación<br />

semántica de la frase “Ayer ingresé el dinero en el banco”, el predicado<br />

conceptualizado asociado a la palabra “banco” vendrá definido por el<br />

concepto “sucursal financiera” que es el concepto que mejor le identifica<br />

en el contexto de la oración.<br />

Según se está comentando a lo largo <strong>del</strong> capítulo, cuando se está procesando<br />

el texto en el ámbito de cualquier dominio restringido, es más<br />

que probable que, en el recurso onto<strong>lógico</strong> o tesauro dependiente <strong>del</strong><br />

dominio, los conceptos sean asignados a los tipos semánticos <strong>del</strong> dominio<br />

categorizados en el recurso. Extraordinariamente, cuando se dispone<br />

de esta información, los predicados conceptualizados incorporan<br />

2 Los conceptos asociados a la palabra banco son: asiento, mesa de trabajo, sucursal financiera,<br />

etc.


4.3 Independencia <strong>del</strong> dominio en la forma lógica 87<br />

también la información relativa a su categoría o tipo semántico, consiguiendo<br />

con ello un enriquecimiento semántico <strong>del</strong> predicado conceptualizado<br />

en particular, y de la representación en general. En concreto,<br />

incluyen el identificador exclusivo de la categoría semántica a la que<br />

pertenece el concepto. Si el concepto pertenece a más de una categoría<br />

semántica, incorporan los identificadores de todas las categorías<br />

semánticas a las que pertenece el concepto. Considerando esta característica,<br />

cada uno de los predicados <strong>lógico</strong>-conceptuales pasa de tener la<br />

forma Id Concepto:Lema Palabra:Info Sintáctica(argumentos) a tener<br />

la forma Id Concepto(Id TS1, ..., Id TSn):Lema Palabra:Info Sintáctica(argumentos).<br />

Es decir, a continuación <strong>del</strong> identificador <strong>del</strong> concepto<br />

se incluyen entre paréntesis y separados por comas cada uno de los<br />

identificadores de los tipos o categorías semánticas <strong>del</strong> dominio a las<br />

que pertenece el concepto.<br />

Se acaba de presentar el proceso de derivación de las formas <strong>lógico</strong>conceptuales<br />

inferidas a partir de la incorporación de la información<br />

conceptual a los predicados de la forma lógica. Este tratamiento <strong>lógico</strong>conceptual<br />

permite que la representación formal <strong>del</strong> texto sea independiente<br />

<strong>del</strong> dominio y de la lengua, tal y como se pasa a explicar en las<br />

siguientes secciones <strong>del</strong> capítulo.<br />

4.3 Independencia <strong>del</strong> dominio en la forma lógica<br />

En la sección anterior se ha tratado la derivación de las formas <strong>lógico</strong>conceptuales<br />

a partir de la extracción de la información conceptual asociada<br />

a los predicados de la original forma lógica. Para ello se debe<br />

disponer de algún recurso <strong>del</strong> tipo onto<strong>lógico</strong> o tesauro que proporcione<br />

la información conceptual de la terminología presente en las oraciones<br />

<strong>del</strong> texto. Ello quiere decir que, a partir de los términos presentes en<br />

el texto, se debe extraer <strong>del</strong> recurso toda la información conceptual<br />

asociada a ellos. Hasta el momento se propone este planteamiento sin<br />

entrar en matices inherentes al dominio en el que se enmarca el texto.<br />

El texto a representar puede estar bajo cualquier dominio, bien sea el<br />

dominio abierto, bien sea cualquier dominio específico. Ello quiere decir<br />

que, dependiendo <strong>del</strong> dominio de aplicación en el que se enmarque el<br />

texto, se deberá disponer de un recurso onto<strong>lógico</strong> o tesauro dependiente<br />

de dicho dominio capaz de conceptualizar la terminología <strong>del</strong> dominio<br />

atendiendo a los requisitos establecidos en la sección previa <strong>del</strong> capítulo.<br />

Este planteamiento, hace que el tratamiento <strong>lógico</strong>-conceptual sea<br />

independiente <strong>del</strong> dominio. Lo único que es dependiente <strong>del</strong> dominio es<br />

el recurso conceptual en el ámbito de cada dominio específico.


88 4. La forma <strong>lógico</strong>-conceptual<br />

Una vez especificadas todas estas consideraciones, se puede hablar de<br />

tratamiento <strong>lógico</strong>-conceptual modular donde existe un modulo cambiante<br />

que se corresponde con el recurso conceptual utilizado en el proceso.<br />

Por ejemplo, si se está representando formalmente el texto en el<br />

dominio A, el módulo cambiante se corresponde con un recurso dependiente<br />

<strong>del</strong> dominio A que cumpla los requisitos establecidos en la<br />

sección anterior <strong>del</strong> capítulo. Si por el contrario, se quiere representar<br />

formalmente el texto en el ámbito <strong>del</strong> dominio B, entonces habrá que<br />

instanciar el módulo cambiante a un recurso dependiente <strong>del</strong> dominio B<br />

que cumpla los requisitos establecidos en la sección anterior <strong>del</strong> capítulo.<br />

Y así sucesivamente para cualquier dominio. De este modo, cabe concluir<br />

que el tratamiento <strong>lógico</strong>-conceptual es siempre fijo, atendiendo a<br />

las especificaciones definidas en la sección previa <strong>del</strong> capítulo, e independiente<br />

<strong>del</strong> dominio. Lo único que depende <strong>del</strong> dominio es el módulo<br />

cambiante que se corresponde con el recurso <strong>del</strong> dominio utilizado en<br />

cada momento, y que variará en función de que se represente el texto<br />

en un dominio de aplicación o en otro. El resto <strong>del</strong> tratamiento <strong>lógico</strong>conceptual<br />

permanece siempre constante.<br />

Una vez realizados estos matices sobre la independencia <strong>del</strong> dominio en<br />

el tratamiento <strong>lógico</strong>-conceptual, a continuación se enfoca este tratamiento<br />

<strong>lógico</strong>-conceptual tomando como referencia dos dominios diferentes:<br />

el primero de ellos es el dominio abierto, mientras que el segundo<br />

se corresponde con un dominio específico, concretamente, el dominio<br />

médico.<br />

4.3.1 La forma <strong>lógico</strong>-conceptual en el dominio abierto<br />

Cuando se está procesando texto en el dominio abierto, se dispone de<br />

recursos onto<strong>lógico</strong>s o tesauros <strong>del</strong> dominio abierto como WordNet (Miller,<br />

1995), que nos permite conocer con todo detalle la información<br />

conceptual asociada a las palabras <strong>del</strong> texto.<br />

Tal y como se está comentando a lo largo <strong>del</strong> capítulo, la forma <strong>lógico</strong>conceptual<br />

no es más que la incorporación de información conceptual<br />

a los predicados de la forma lógica. En el dominio abierto, tomando<br />

como referencia el recurso WordNet, los predicados susceptibles<br />

de tener algún concepto asociado en WordNet son aquellos cuya<br />

información sintáctica se corresponda con sustantivo, verbo, adjetivo,<br />

adverbio y nominal compuesto. De este modo, en la forma <strong>lógico</strong>conceptual,<br />

si un predicado representa un concepto tendrá la forma<br />

Id Concepto WordNet:Lema Palabra:Info Sintáctica(argumentos). Por el<br />

contrario, si un predicado no representa ningún concepto, su forma en<br />

la forma <strong>lógico</strong>-conceptual no variará respecto a su estructura original


en la forma lógica.<br />

4.3 Independencia <strong>del</strong> dominio en la forma lógica 89<br />

Una vez introducidos los matices referentes a la utilización <strong>del</strong> recurso<br />

WordNet como fuente <strong>del</strong> <strong>conocimiento</strong> conceptual asociado a las palabras<br />

<strong>del</strong> texto, a continuación, el ejemplo 42 muestra claramente el<br />

proceso de transformación o derivación de una forma lógica en una o<br />

más formas <strong>lógico</strong>-conceptuales.<br />

(42) Frase: You can proceed to the bank near the corner.<br />

Forma Lógica: you:NN(x1) proceed:VB(e1, x1, x2)<br />

to:IN(e1, x3) bank:NN(x3) near:IN(x3, x4) corner:NN(x4)<br />

Predicados Conceptualizados: 3 La tabla 4.5 detalla<br />

la conceptualización de predicados de la anterior<br />

forma lógica.<br />

Formas Lógico-Conceptuales: Las formas <strong>lógico</strong>-conceptuales<br />

son derivadas siguiendo un procedimiento similar al<br />

<strong>del</strong> anterior ejemplo 41. En dicho ejemplo, la tabla<br />

4.4 muestra la derivación de las formas <strong>lógico</strong>conceptuales<br />

fruto <strong>del</strong> producto cartesiano de los<br />

predicados.<br />

Predicado Concepto Identificador Concepto<br />

Bank river bank#1(09213565)<br />

bank:NN(x3) Depository finantial institution bank#2(08420278)<br />

Bank building bank#9(02787772)<br />

corner:NN(x4) Geometric corner corner#2(08544275)<br />

Street corner corner#4(03109486)<br />

proceed:VB(e1, x1, x2) Continue proceed#1(00781000)<br />

Follow a procedure proceed#3(02372605)<br />

Tabla 4.5. Predicados conceptualizados de la forma lógica<br />

Se acaba de introducir, en el ámbito <strong>del</strong> dominio abierto, la forma <strong>lógico</strong>conceptual<br />

como una extensión de la forma lógica que permite añadir<br />

información conceptual sobre algunos de sus predicados. La información<br />

conceptual asociada a los predicados se extrae <strong>del</strong> recurso WordNet. A<br />

continuación se detalla la derivación de la representación semántica de<br />

la frase a partir de la desambiguación de las formas <strong>lógico</strong>-conceptuales<br />

donde cobran especial interés los predicados multiconceptualizados. Tal<br />

3 Los conceptos <strong>del</strong> ejemplo han sido obtenidos <strong>del</strong> recurso léxico WordNet. No se han tenido en<br />

cuenta todos los conceptos que puede representar cada predicado con el propósito de no hacer<br />

muy complejo y extenso el ejemplo de derivación de la formas <strong>lógico</strong>-conceptuales.


90 4. La forma <strong>lógico</strong>-conceptual<br />

y como se ha comentado en la sección anterior, en el marco <strong>del</strong> proceso<br />

<strong>lógico</strong> conceptual llevado a cabo, para la obtención de la representación<br />

semántica de la frase, cada predicado multiconceptualizado se desambigua<br />

con el concepto que mejor le identifica en el contexto de la frase.<br />

4.3.2 La representación semántica de la frase en el dominio<br />

abierto<br />

A lo largo de este trabajo de investigación, se ha hablado de la forma<br />

lógica como un mecanismo que permite obtener una representación<br />

formal de las frases expresadas en lenguaje natural. Cuando en el procesamiento,<br />

se hace uso de algún recurso onto<strong>lógico</strong> o tesauro capaz de<br />

dotar a los predicados de la forma lógica de su información conceptual,<br />

se pueden derivar automáticamente las formas <strong>lógico</strong>-conceptuales asociadas<br />

a la forma lógica de la frase. A pesar de que una oración puede<br />

tener diversas formas <strong>lógico</strong>-conceptuales, sólo debe tener una representación<br />

semántica y ésta debe ser única. Esta representación semántica<br />

se corresponderá con una única forma <strong>lógico</strong>-conceptual de las asociadas<br />

a la oración. En la representación semántica de la frase cada predicado<br />

multiconceptualizado adquiere el concepto más relevante según el<br />

contexto de la frase. Es por ello por lo que, según el ámbito de aplicación<br />

de la forma lógica (Búsqueda de Respuestas, Recuperación de<br />

Información, Extracción de Información, ...), el sistema debe disponer<br />

de algún mecanismo de desambiguación que, partiendo de las formas<br />

<strong>lógico</strong>-conceptuales asociadas a la frase, sea capaz de seleccionar aquella<br />

que considera más adecuada, siendo ésta la representación semántica<br />

de la oración. Siguiendo esta definición y, dado el anterior ejemplo 42,<br />

a continuación, el cuadro 43 detalla la representación semántica de la<br />

frase.<br />

(43) Frase: You can proceed to the bank near the corner.<br />

Predicados Multiconceptualizados Desambiguados:<br />

La tabla 4.6 detalla la desambiguación de los predicados<br />

multiconceptualizados en la anterior forma<br />

lógica.<br />

<strong>Representación</strong> semántica: you:NN(x1) 00781000:proceed:VB(e1,<br />

x1, x2) to:IN(e1, x3) 02787772:bank:NN(x3)<br />

near:IN(x3, x4) 03109486:corner:NN(x4)<br />

Se acaba de introducir, en el ámbito <strong>del</strong> dominio abierto, la representación<br />

semántica de la frase a partir de la desambiguación de los predicados<br />

multiconceptualizados en la forma <strong>lógico</strong>-conceptual, tal y como<br />

se detalla en el marco <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual. En el dominio<br />

abierto, el recurso léxico WordNet es una buena fuente de información


4.3 Independencia <strong>del</strong> dominio en la forma lógica 91<br />

Predicado Concepto Desambiguado Identificador Concepto<br />

bank:NN(x3) Bank building bank#9(02787772)<br />

corner:NN(x4) Street corner corner#4(03109486)<br />

proceed:VB(e1, x1, x2) Continue proceed#1(00781000)<br />

Tabla 4.6. Predicados multiconceptualizados desambiguados de la forma <strong>lógico</strong>-conceptual<br />

conceptual. En cambio, cuando se está trabajando sobre un dominio<br />

restringido, se debe disponer de otros recursos <strong>del</strong> tipo onto<strong>lógico</strong> y tesauros<br />

que sean también una buena fuente de información conceptual<br />

sobre dicho dominio restringido. A continuación se presenta se presenta<br />

la aplicación <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual en el dominio restringido<br />

cuyo propósito final consiste en la obtención de la representación<br />

semántica de las oraciones. El dominio específico tomado de referencia<br />

es el dominio médico.<br />

4.3.3 La forma <strong>lógico</strong>-conceptual en los dominios restringidos<br />

La clave <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual en los dominios restringidos<br />

está en encontrar el recurso <strong>del</strong> tipo onto<strong>lógico</strong> o tesauro específico<br />

<strong>del</strong> dominio que pueda ser utilizado para extraer la información conceptual<br />

de la terminología dependiente <strong>del</strong> dominio, e incorporar esta<br />

información a los predicados de la forma <strong>lógico</strong>-conceptual atendiendo<br />

al procedimiento explicado en la sección anterior. Si se dispone <strong>del</strong> mencionado<br />

recurso se podrá llevar a cabo el tratamiento <strong>lógico</strong>-conceptual<br />

en el dominio restringido. En el caso de que no se disponga de tal recurso<br />

no tiene ningún sentido realizar el tratamiento <strong>lógico</strong>-conceptual en<br />

el dominio restringido puesto que la terminología específica <strong>del</strong> dominio<br />

restringido presente en el texto no podrá ser conceptualizada bajo<br />

ningún concepto atendiendo a la semántica <strong>del</strong> dominio restringido.<br />

El hecho de disponer de un recurso <strong>del</strong> tipo onto<strong>lógico</strong> o tesauro <strong>del</strong><br />

dominio restringido para ser incorporado como fuente <strong>del</strong> <strong>conocimiento</strong><br />

conceptual de dicho dominio específico no excluye que también se<br />

pueda utilizar cualquier otro recurso, tanto <strong>del</strong> dominio abierto, como<br />

<strong>del</strong> dominio específico, pudiendo ambos coexistir en el proceso <strong>lógico</strong>conceptual.<br />

Una justificación de ello está en utilizar WordNet (o cualquier<br />

otro recurso <strong>del</strong> dominio abierto que cumpla las especificaciones<br />

matizadas en la anterior sección) junto con el recurso específico <strong>del</strong> dominio<br />

restringido en el tratamiento <strong>lógico</strong>-conceptual en el ámbito de<br />

un dominio restringido. Ello se justifica porque, en general, los recursos<br />

onto<strong>lógico</strong>s o tesauros en el marco de un dominio específico conceptualizan<br />

únicamente la terminología específica <strong>del</strong> dominio, dejando sin<br />

conceptualizar el resto de la terminología. Para solventar este problema,<br />

el recurso WordNet es utilizado para extraer la información conceptual


92 4. La forma <strong>lógico</strong>-conceptual<br />

<strong>del</strong> resto de las unidades léxicas no conceptualizadas por el recurso específico<br />

<strong>del</strong> dominio restringido. Si se utiliza un recurso específico <strong>del</strong><br />

dominio y otro recurso <strong>del</strong> dominio abierto en el tratamiento <strong>lógico</strong>conceptual<br />

<strong>del</strong> texto en el ámbito de un dominio restringido, el recurso<br />

específico <strong>del</strong> dominio restringido debe ser predominante sobre el recurso<br />

<strong>del</strong> dominio abierto. Esto se justifica porque si un predicado de<br />

la forma lógica puede ser conceptualizado en ambos recursos, la conceptualización<br />

realizada por el recurso específico <strong>del</strong> dominio le dará al<br />

predicado una semántica más cercana al propio dominio restringido que<br />

la conceptualización realizada por el recurso <strong>del</strong> dominio abierto, que<br />

le dará una conceptualización más genérica.<br />

Una vez realizadas estas consideraciones, a continuación se detalla el<br />

tratamiento <strong>lógico</strong>-conceptual de la forma lógica tomando como referencia<br />

el dominio médico.<br />

La forma <strong>lógico</strong>-conceptual en el dominio médico. Se ha comentado<br />

que, en el dominio abierto, se dispone de WordNet como un recurso<br />

capaz de extraer información conceptual sobre determinadas palabras<br />

<strong>del</strong> texto atendiendo a su categoría sintáctica. Además, en el dominio<br />

médico, existen distintos recursos que aportan <strong>conocimiento</strong> de la<br />

terminología médica. El más extendido es UMLS (Unified Medical Language<br />

System) (Humphreys & Lindberg, 1993), presentado al inicio <strong>del</strong><br />

capítulo. De las tres fuentes de <strong>conocimiento</strong> de las que consta UMLS<br />

(Metatesauro, Lexicón Especializado y Red Semántica), la que mejor<br />

se adapta a la necesidad de extracción de los conceptos asociados a los<br />

predicados de la forma lógica es el Metateusauro, que será el que se<br />

utilizará.<br />

Cuando se emplea la forma lógica para representar formalmente los<br />

textos en el ámbito <strong>del</strong> dominio médico, la terminología susceptible de<br />

ser concepto se corresponde con los predicados asociados tanto a los<br />

sustantivos como a los nominales complejos acompañados de sus posibles<br />

adjetivos modificadores, así como a los predicados asociados a los<br />

verbos. Además, los adverbios y los adjetivos pueden ser tratados conceptualmente<br />

a través de WordNet.<br />

De este modo y dada la forma lógica de la frase, se buscará en el metatesauro<br />

de UMLS la información conceptual de los lemas de aquellos<br />

predicados de la forma lógica cuya categoría sintáctica se corresponda<br />

con sustantivo o nominal complejo, incluyendo sus posibles adjetivos<br />

modificadores, y verbo. Seguidamente, se buscará en WordNet la información<br />

conceptual asociada a los predicados <strong>del</strong> tipo anterior que no<br />

han sido conceptualizados en el Metatesauro de UMLS, y la información<br />

conceptual asociada a los predicados <strong>del</strong> tipo adverbio y adjetivo.


4.3 Independencia <strong>del</strong> dominio en la forma lógica 93<br />

Una vez que la información conceptual de estos predicados ha sido obtenida,<br />

tanto <strong>del</strong> metatesauro de UMLS como de WordNet, el siguiente<br />

paso consiste en derivar todas las formas <strong>lógico</strong>-conceptuales tal y como<br />

se ha explicado en la sección anterior. Finalmente, la representación<br />

semántica de la frase se calculará a partir de la desambiguación de las<br />

formas <strong>lógico</strong>-conceptuales derivadas tal y como se matiza también en<br />

la sección previa <strong>del</strong> capítulo.<br />

Con el propósito de simplificar este proceso, a continuación, el ejemplo<br />

44 detalla claramente el proceso de transformación de una forma lógica<br />

en una o más formas <strong>lógico</strong>-conceptuales en el dominio médico.<br />

(44) Frase: Accupril treats high blood pressure.<br />

Forma Lógica: accupril:NN(x1) treat:VB(e1, x1, x2)<br />

high:JJ(x2) blood:NN(x3) blood pressure:NNC(x2,<br />

x3, x4) pressure:NN(x4)<br />

Predicados Conceptualizados: 4 La tabla 4.7 detalla<br />

la conceptualización de predicados de la anterior<br />

forma lógica.<br />

Formas Lógico-Conceptuales: Atendiendo a la metodología<br />

especificada en la sección previa <strong>del</strong> capítulo,<br />

se derivan 480 formas <strong>lógico</strong>-conceptuales fruto<br />

de la combinación de los conceptos asociados a<br />

cada predicado (2 ∗ 4 ∗ 1 ∗ 3 ∗ 5 ∗ 4).<br />

Cabe destacar que el predicado blood pressure:NNC(x2, x3, x4) como<br />

tal, tiene cuatro conceptos asociados que son: Blood Pressure,<br />

Blood pressure determination, Blood pressure finding y Systemic arterial pressure.<br />

Además, dicho predicado tiene un predicado <strong>del</strong> tipo adjetivo (high:JJ(x2))<br />

que lo modifica y, tal y como se ha comentado, este predicado interviene<br />

también, junto con el nominal complejo, en la identificación de<br />

conceptos <strong>del</strong> nominal complejo. Es por ello por lo que a la combinación<br />

de estos dos predicados se les asocia el concepto Hypertensive disease.<br />

Además, la tabla 4.8 detalla la codificación de los tipos semánticos de<br />

UMLS asociados a los predicados conceptualizados.<br />

4.3.4 La representación semántica de la frase en los dominios<br />

restringidos<br />

En el ámbito de los dominios restringidos, igual que sucede en el dominio<br />

abierto, a pesar de que una oración puede tener diversas formas<br />

4 Por simplificar el ejemplo, se considera que según WordNet, el predicado <strong>del</strong> tipo adjetivo<br />

high:NN(x2) tiene asociado únicamente el concepto high#1(01210854), descartando el resto de<br />

conceptos <strong>del</strong> adjetivo.


94 4. La forma <strong>lógico</strong>-conceptual<br />

Predicado Concepto Identificador Concepto<br />

accupril:NN(x1) Accupril C0244580(T109, T121)<br />

Received therapy or drug for C0332154(T169)<br />

treat:VB(e1, x1, x2) Treated with C0332293(T061)<br />

Treating C1522326(T169)<br />

Treatment intent C1292734(T169)<br />

Blood C0005767(T024)<br />

blood:NN(x3) In Blood C0005768(T031)<br />

Bloods C0392895(T098)<br />

Pressure-physical agent C0033095(T067)<br />

pressure:NN(x4) Baresthesia C0234222(T042)<br />

Pressure(finding) C0460139(T033)<br />

Pressure-action C1306345(T169)<br />

Blood Pressure C0005823(T040)<br />

Blood pressure determination C0005824(T060)<br />

Blood pressure finding C1271104(T033)<br />

blood pressure:NNC(x2, x3, x4) Systemic arterial pressure C1272641(T033)<br />

Hypertensive disease C0020538(T047)<br />

Tabla 4.7. Conceptos de UMLS asociados a los predicados de la forma lógica<br />

Identificador Tipo Semántico<br />

T024 Tissue<br />

T031 Body Substance<br />

T033 Finding<br />

T040 Organism Function<br />

T042 Organ or Tissue Function<br />

T047 Disease or Syndrome<br />

T060 Diagnostic Procedure<br />

T061 Therapeutic or Preventive Procedure<br />

T067 Phenomenon or Process<br />

T098 Population Group<br />

T109 Organic Chemical<br />

T121 Pharmacologic Substance<br />

T169 Functional Concept<br />

Tabla 4.8. Tipos semánticos en UMLS asociados a los predicados conceptualizados<br />

<strong>lógico</strong>-conceptuales, únicamente debe tener una representación semántica.<br />

Esta representación semántica se asociará con una única forma<br />

<strong>lógico</strong>-conceptual de las asociadas a la oración, fruto <strong>del</strong> proceso de<br />

desambiguación entre todas las formas <strong>lógico</strong>-conceptuales derivadas.<br />

Del mismo modo en el que se ha explicado anteriormente el tratamiento<br />

de las formas <strong>lógico</strong>-conceptuales, tanto a nivel general como en el<br />

ámbito <strong>del</strong> dominio abierto, se detalla a continuación la representación<br />

semántica de la frase para el dominio médico.<br />

La representación semántica de la frase en el dominio médico.<br />

Atendiendo a las especificaciones <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual matizadas<br />

a lo largo <strong>del</strong> capítulo y, dado el anterior ejemplo 44, el cuadro


4.4 La independencia de la lengua de la forma lógica 95<br />

45 detalla la representación semántica de la frase definida en el ámbito<br />

<strong>del</strong> dominio médico.<br />

(45) Frase: Accupril treats high blood pressure.<br />

Predicados Multiconceptualizados Desambiguados:<br />

La tabla 4.9 detalla la desambiguación de los predicados<br />

multiconceptualizados en la anterior forma<br />

lógica.<br />

<strong>Representación</strong> semántica: C0244580(T109, T121):accupril:NN(x1)<br />

C0332154(T169):treat:VB(e1, x1, x2) 01210854:high:JJ(x2)<br />

C0005767(T024):blood:NN(x3) C0020538(T047):blood pressure:NNC(x2,<br />

x3, x4) C0033095(T067):pressure:NN(x4)<br />

Predicado Concepto Desambiguado Identificador Concepto<br />

treat:VB(e1, x1, x2) Received therapy or drug for C0332154(T169)<br />

blood:NN(x3) Blood C0005767(T024)<br />

blood pressure:NNC(x2, x3, x4) Hypertensive disease C0020538(T047)<br />

pressure:NN(x4) Pressure-physical agent C0033095(T067)<br />

Tabla 4.9. Predicados multiconceptualizados desambiguados de la forma <strong>lógico</strong>-conceptual en el<br />

dominio médico<br />

En la actual sección se han matizado las especificaciones que permiten<br />

que el tratamiento <strong>lógico</strong>-conceptual sea independiente <strong>del</strong> dominio. La<br />

siguiente sección <strong>del</strong> capítulo hace lo propio desde el punto de vista de<br />

la independencia de la lengua.<br />

4.4 La independencia de la lengua de la forma<br />

lógica<br />

El hecho de hablar de independencia de la lengua significa que el tratamiento<br />

<strong>lógico</strong>-conceptual detallado en el capítulo se le puede aplicar a<br />

cualquier oración con el objeto de obtener su representación semántica,<br />

independientemente de la lengua en la que esté expresada dicha oración.<br />

Además, en el marco de la independencia de la lengua, nos estamos refiriendo<br />

también al tratamiento que permite obtener representaciones<br />

semánticas equivalentes de una misma oración expresada en diferentes<br />

lenguas. Por ejemplo, supóngase una misma oración expresada en<br />

la lengua A y en la lengua B. La representación semántica de la frase<br />

expresada en la lengua A debe ser equivalente a la representación<br />

semántica de la frase expresada en la lengua B. A continuación se especifica<br />

el tratamiento <strong>lógico</strong>-conceptual que permite adquirir el grado


96 4. La forma <strong>lógico</strong>-conceptual<br />

de independencia de la lengua alcanzado en esta investigación.<br />

Según a la conclusión planteada con anterioridad en el capítulo a la que<br />

llegan Dubuc y Lauriston (1997) en su investigación previa, de la misma<br />

forma, en terminografía bilingüe el establecimiento de equivalencias<br />

en ambas lenguas se realiza a través de la representación conceptual,<br />

de manera que la equivalencia no es entre los términos sino entre los<br />

conceptos designados por dichos términos.<br />

Esta conclusión a la que llegan Dubuc y Lauriston justifica la necesidad<br />

de un recurso en el que por un lado, la terminología esté conceptualizada<br />

y, por otro lado, exista una conexión entre los términos de las diferentes<br />

lenguas a través de los conceptos. Ello quiere decir que para conseguir<br />

un tratamiento <strong>lógico</strong>-conceptual independiente de la lengua, la terminología<br />

perteneciente a las lenguas a tratar debe estar conceptualizada<br />

en algún recurso <strong>del</strong> tipo onto<strong>lógico</strong> o tesauro <strong>del</strong> modo que exista una<br />

conexión conceptual entre la terminología de las diferentes lenguas. Por<br />

ejemplo, si las lenguas a relacionar son el inglés y el español, debe haber<br />

algún recurso de este tipo que permita establecer que los términos run<br />

y correr conceptualmente reflejan lo mismo.<br />

Es sabido que las lenguas más extendidas en el mundo son la lengua<br />

inglesa, el chino y la lengua árabe. No es necesario dar cifras para afirmar<br />

que en un universo con formas globales de comunicación, donde ya<br />

existe una tradición de uso <strong>del</strong> inglés, acompañada de una realidad de<br />

poder en todos los niveles sustentada en ese idioma, el inglés es la lengua<br />

franca de nuestra época; mucho más cuando en inglés se crea y se<br />

bautiza la ciencia. Se trata de la primera lengua de intercambio común.<br />

Su expansión está asegurada se mire desde la óptica que se mire. Debido<br />

a ello, la lengua inglesa dispone de multitud de recursos frente a otras<br />

lenguas. Prueba de ello es, por ejemplo, el recurso WordNet. La última<br />

versión <strong>del</strong> WordNet en lengua inglesa es la 2.1, mientras que la última<br />

versión en otras lenguas son anteriores a ella. Por ejemplo, la última<br />

versión de WordNet para la lengua española es la 1.5.<br />

Debido a la extensión y a la riqueza de recursos disponibles en la lengua<br />

inglesa frente al resto de lenguas, para comparar que n representaciones<br />

semánticas de una misma oración en n lenguas diferentes (una representación<br />

semántica por cada lengua) son equivalentes, cada una de las<br />

representaciones semánticas será ‘transformada de su lengua origen a<br />

la lengua inglesa, siempre que la lengua origen no sea la lengua inglesa,<br />

en cuyo caso, no será necesario el proceso de transformación.<br />

En un proceso de transformación entre una lengua origen y la lengua<br />

inglesa, aparte de la traducción entre los términos, otras consideraciones


4.4 La independencia de la lengua de la forma lógica 97<br />

deben ser tenidas en cuenta como, por ejemplo, el orden de las palabras<br />

en la frase. Cabe pensar en la expresión en la lengua española “el coche<br />

rojo”. Su traducción a la lengua inglesa viene dada por la expresión<br />

“the red car”. Aparte de la traducción de los diferentes términos, en<br />

la expresión dada en la lengua española, el adjetivo sucede al nombre;<br />

mientras que en la expresión dada en la lengua inglesa, el adjetivo precede<br />

al nombre. Este tipo de alteraciones sintácticas producidas en el<br />

proceso de traducción de una lengua original a la lengua inglesa viene<br />

especificado en las gramáticas contrastivas entre la lengua original y<br />

la lengua inglesa. Una gramática contrastiva es aquella que estudia la<br />

relación y posición que ocupan dos lenguas. Normalmente se estudia<br />

entre lenguas de un mismo origen. Algunos gramáticos clasifican como<br />

contrastivas al estudio de dos lenguas que no comparten origen. Es por<br />

ello por lo que para tratar de conservar la máxima naturalidad en la<br />

transformación de la representación semántica de la frase de una lengua<br />

original a la lengua inglesa, el tratamiento <strong>lógico</strong>-conceptual se hace eco<br />

de las reglas especificadas en las gramáticas contrastivas entre la lengua<br />

original y la lengua inglesa.<br />

Una vez realizadas estas consideraciones, la transformación de la representación<br />

semántica obtenida en la lengua origen a su representación<br />

semántica equivalente en la lengua inglesa se lleva a cabo <strong>del</strong> siguiente<br />

modo:<br />

La traducción de los predicados conceptualizados se realiza según la<br />

conexión existente en el recurso multilingüe entre la lengua origen y la<br />

lengua inglesa a través de los conceptos. Si esta conexión conceptual<br />

no existe, la traducción se realiza utilizando un diccionario bilingüe<br />

entre la lengua origen y la lengua inglesa.<br />

Aquellos predicados que no son conceptualizados en el recurso multilingüe,<br />

son traducidos utilizando un diccionario bilingüe entre la<br />

lengua origen y la lengua inglesa.<br />

Una vez que ya ha sido materializada la traducción de los predicados<br />

de la representación semántica de la lengua origen a la lengua inglesa,<br />

el siguiente paso consiste en aplicar las reglas contrastivas entre la<br />

lengua origen y la lengua inglesa que derivan en una posible alteración<br />

de la secuencia de predicados de la representación semántica para<br />

adaptar tal representación semántica a la lengua inglesa. Las reglas<br />

contrastivas que se deben aplicar sobre la estructura de predicados<br />

de la representación semántica depende de cada lengua origen. Ello<br />

se justifica porque cada lengua tiene sus propias reglas gramaticales,<br />

y la lengua inglesa tiene también las suyas propias. Por ejemplo, las<br />

reglas contrastivas entre la lengua española y la lengua inglesa son di-


98 4. La forma <strong>lógico</strong>-conceptual<br />

ferentes a las reglas contrastivas entre la lengua alemana y la lengua<br />

inglesa.<br />

Debido a la extensión y complejidad que supone establecer el conjunto<br />

de reglas contrastivas en las diferentes lenguas, a partir de ahora y hasta<br />

el final <strong>del</strong> capítulo haremos énfasis en las reglas contrastivas entre la<br />

lengua española y la lengua inglesa. Ello no significa que el tratamiento<br />

<strong>lógico</strong>-conceptual sólo sea posible llevarlo a cabo en estas dos lenguas.<br />

El tratamiento <strong>lógico</strong>-conceptual es independiente de la lengua. Como<br />

se ha matizado en esta sección, lo único dependiente de la lengua es la<br />

utilización de recursos conceptuales bilingües entre las lenguas origen y<br />

la lengua inglesa, los diccionarios bilingües entre las lenguas origen y la<br />

lengua inglesa, y las reglas contrastivas a aplicar sobre los predicados<br />

de las representaciones semánticas entre las propias lenguas origen y la<br />

lengua inglesa. Una vez que se dispone de todo ello, la representación<br />

formal <strong>del</strong> texto basada en el tratamiento <strong>lógico</strong>-conceptual es independiente<br />

de la lengua.<br />

El subconjunto de reglas contrastivas entre la lengua española y la lengua<br />

inglesa aplicadas sobre los predicados de la representación semántica<br />

de la frase en español se basa en las reglas contrastivas derivadas<br />

previamente a raíz de los estudios en este tema realizados por los investigadores<br />

Fernandez et al. (2003) and Martinez-Vazquez (1996). Concretamente,<br />

el subconjunto de reglas contrastivas aplicadas sobre los<br />

predicados de la representación semántica viene especificado en la tabla<br />

4.10. En ella cabe destacar que la regla número cuatro es recursiva porque,<br />

según se ha matizado en el capítulo anterior, un nominal complejo<br />

(NNC) puede derivar a otros de manera recursiva. Las reglas en las que<br />

intervienen predicados <strong>del</strong> tipo sustantivo (NN) se aplican siempre que<br />

dicho predicados se correspondan con nombres comunes, nunca nombres<br />

propios. Además, en la regla número 1, el predicado <strong>del</strong> tipo sustantivo<br />

(NN) no podrá ir nunca precedido por ningún otro predicado <strong>del</strong> mismo<br />

tipo.<br />

Id. Regla Estructura Espa~nola Estructura Inglesa<br />

1 NN + JJ Traducción(JJ) + Traducción(NN)<br />

2 JJ1 + NN + JJ2 Traducción(JJ1) + Traducción(JJ2) + Traducción(NN)<br />

3 NN1 + NN2 Traducción(NN2) + Traducción(NN1)<br />

4 NNC + ”de- NN Traducción(NN) + Traducción(NNC)<br />

5 NN1 + JJ + ”de- NN2 Traducción(JJ) + Traducción(NN2) + Traducción(NN1)<br />

Tabla 4.10. Reglas contrastivas aplicadas entre la lenguas española e inglesa


4.4 La independencia de la lengua de la forma lógica 99<br />

Como ejemplo de aplicación de las reglas contrastivas especificadas en<br />

la tabla 4.10, en la tabla 4.11 se especifican las traducciones finales de<br />

bajo nivel (aplicadas directamente a los términos) fruto de la aplicación<br />

de cada una de estas reglas.<br />

Id. Regla Expresión Espa~nola Traducción Inglesa<br />

1 coche rojo red car<br />

2 bonitos ojos verdes beautiful green eyes<br />

3 coche eléctrico electric car<br />

4 oficina de billetes de estación de tren train station ticket office<br />

5 mo<strong>del</strong>o múltiple de regresión multiple regression mo<strong>del</strong><br />

Tabla 4.11. Ejemplos de aplicación de las reglas contrastivas<br />

Se acaban de introducir las propiedades referentes a la independencia de<br />

la lengua en el marco <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual. A continuación<br />

se matiza este tratamiento desde el punto de vista tanto <strong>del</strong> dominio<br />

abierto como <strong>del</strong> dominio restringido.<br />

4.4.1 La independencia de la lengua de la forma lógica en el<br />

dominio abierto<br />

A lo largo <strong>del</strong> capitulo se detalla que cuando se procesa el texto en dominio<br />

abierto, partiendo <strong>del</strong> recurso WordNet es posible asociar conceptos<br />

de este recurso con los lemas de determinados predicados (sustantivos,<br />

adjetivos, verbos, adverbios y nominales complejos).<br />

En relación a la forma lógica, cuando el lema de un predicado <strong>del</strong> tipo<br />

sustantivo, adjetivo, adverbio, verbo o nominal compuesto tiene algún<br />

concepto asociado en WordNet, lo que se hace es buscar las relaciones<br />

de ese concepto a través <strong>del</strong> ILI en las diferentes lenguas. Como ejemplo,<br />

la figura 4.1 muestra las relaciones existentes entre la lengua inglesa y<br />

la lengua española <strong>del</strong> lema prohibition. En este ejemplo, el sustantivo<br />

prohibition tiene cuatro entradas en el WordNet inglés, dos de las cuales<br />

(la segunda y la cuarta) están relacionadas con synsets <strong>del</strong> WordNet<br />

español a través <strong>del</strong> ILI. Los synsets <strong>del</strong> ejemplo están ordenados de<br />

mayor a menor frecuencia de aparición.<br />

De este modo, es decir, <strong>mediante</strong> la exploración de los synsets de<br />

las lenguas origen y destino, el concepto asociado al predicado <strong>lógico</strong>conceptual<br />

puede ser traducido, en el caso de que exista conexión entre<br />

los synsets de las lenguas origen y la lengua inglesa. Para ello, si los synsets<br />

de ambas lenguas están conectados a través <strong>del</strong> ILI, la traducción<br />

<strong>del</strong> predicado <strong>lógico</strong>-conceptual se llevará a cabo <strong>del</strong> siguiente modo:


100 4. La forma <strong>lógico</strong>-conceptual<br />

El identificador <strong>del</strong> concepto asociado al lema <strong>del</strong> predicado se corresponderá<br />

con el synset de WordNet en la lengua inglesa relacionado a<br />

través <strong>del</strong> ILI.<br />

Los restantes constituyentes <strong>del</strong> predicado <strong>lógico</strong>-conceptual, es decir,<br />

tanto el lema como su categoría, no serán traducidos.<br />

Figura 4.1. Enlaces al lema prohibition<br />

Una vez que se han traducido los predicados que tienen una relación a<br />

través <strong>del</strong> ILI, el siguiente paso es traducir el resto de predicados utilizando<br />

para ello diccionarios que integren las lenguas implicadas en la<br />

traducción. Los predicados que, a pesar de quedar conceptualizados en<br />

la lengua origen, no están relacionados con ningún synset de la lengua<br />

inglesa a través <strong>del</strong> ILI, no quedarán conceptualizados en la representación<br />

semántica transformada, debido a que su traducción se realiza a<br />

través <strong>del</strong> empleo de diccionarios, y no a través de la relación entre los<br />

conceptos entre las diferentes lenguas.<br />

Como ejemplo, para una traducción español-inglés de los predicados de<br />

la forma lógica que no están conceptualizados en WordNet o, que a pesar<br />

de estarlo, no están enlazados en el ILI, se utilizan dos diccionarios:<br />

Free Translation y Babylon 5 . El proceso de traducción queda especificado<br />

a través <strong>del</strong> siguiente algoritmo:<br />

5 http://www.freetranslation.com y http://www.babylon.com


4.4 La independencia de la lengua de la forma lógica 101<br />

Algoritmo: Traducción <strong>del</strong> lema <strong>del</strong> predicado a partir de FT y WR<br />

Entrada: lema<br />

Salida: lema traducido<br />

trad FT := traduce en FT(predicado.lema)<br />

trad WR := traduce en WR(predicado.lema)<br />

si (trad WR == NULL)<br />

lema traducido := trad FT<br />

sino<br />

si (trad WR.contiene(trad FT))<br />

lema traducido := trad FT<br />

sino<br />

lema traducido := trad WR.obten traduccion en(1)<br />

fsi<br />

fsi<br />

devuelve lema traducido<br />

fAlgoritmo<br />

El funcionamiento <strong>del</strong> algoritmo es el siguiente:<br />

Se busca el lema <strong>del</strong> predicado en Free Translation. Este diccionario<br />

devuelve una palabra o una expresión, sin entrar en detalles <strong>del</strong> tipo<br />

categoría gramatical de la palabra o expresión devuelta, ejemplos de<br />

utilización en frases, etc.<br />

Se busca el lema <strong>del</strong> predicado en Babylon. Este diccionario devuelve<br />

una lista de palabras o expresiones clasificadas según su categoría<br />

gramatical.<br />

Se produce una comparación entre la palabras o expresiones devueltas<br />

por Free Translation y la lista de palabras o expresiones clasificadas<br />

según su categoría gramatical devuelta por Babylon consistente en:<br />

• Si Babylon no devuelve ninguna lista de palabras o expresiones cuya<br />

categoría gramatical coincida con el tipo de predicado, entonces la<br />

traducción es la palabra o expresión devuelta por Free Translation.<br />

• Si la palabra o expresión devuelta por Free Translation se encuentra<br />

en la lista de palabras o expresiones devuelta por Babylon dentro<br />

de las clasificadas en la categoría gramatical coincidente con el tipo<br />

de predicado, entonces la palabra o expresión devuelta por Free<br />

Translation es la traducción a ese predicado.<br />

• Si la palabra o expresión devuelta por Free Translation no se encuentra<br />

en la lista de palabras o expresiones devuelta por Babylon


102 4. La forma <strong>lógico</strong>-conceptual<br />

dentro de las clasificadas en la categoría gramatical coincidente con<br />

el tipo de predicado, entonces la traducción es la primera palabra o<br />

expresión devuelta por Babylon según la categoría gramatical asociada<br />

al tipo de predicado.<br />

Con el propósito de clarificar este proceso, el cuadro 46 muestra un<br />

ejemplo de transformación según esta metodología de la representación<br />

semántica de la oración dada. En este ejemplo, con objeto de evitar la<br />

redundancia, se ha omitido el paso de derivación de las formas <strong>lógico</strong>conceptuales,<br />

pasando directamente de la forma lógica a la representación<br />

semántica de la oración.<br />

(46) Frase: Usted puede proceder al banco cerca de la esquina.<br />

Árbol de dependencias: La figura 4.2 muestra el árbol<br />

de relaciones de dependencia entre las palabras de<br />

la oración.<br />

Forma lógica: usted:NN(x1) proceder:VB(e1, x1, x2)<br />

a:IN(e1, x3) banco:NN(x3) cerca de:IN(x3, x4) esquina:NN(x4)<br />

<strong>Representación</strong> semántica: 6 usted:NN(x1) 01360914:proceder:VB(e1,<br />

x1, x2) a:IN(e1, x3) 06227059:banco:NN(x3)<br />

cerca de:IN(x3, x4) 02501820:esquina:NN(x4)<br />

Traducción de predicados: La tabla 4.12 detalla la<br />

traducción realizada sobre los predicados de la representación<br />

semántica, y la tabla 4.13 detalla los<br />

conceptos en la versión inglesa de WordNet que<br />

han sido traducidos a través <strong>del</strong> ILI.<br />

<strong>Representación</strong> semántica transformada: you:NN(x1)<br />

01360914:proceder:VB(e1, x1, x2) to:IN(e1, x3)<br />

06227059:banco:NN(x3) near:IN(x3, x4) 02501820:esquina:NN(x4)<br />

Se acaba de detallar el tratamiento independiente de la lengua de las<br />

formas <strong>lógico</strong>-conceptuales en el dominio abierto. A continuación se va<br />

a proceder a especificar el tratamiento independiente de la lengua de<br />

las formas <strong>lógico</strong>-conceptuales en el dominio restringido, tomando como<br />

marco de referencia el dominio médico.<br />

6 Los identificadores de los conceptos (códigos de synsets) han sido extraídos utilizando la versión<br />

1.6 de WordNet


usted<br />

puede<br />

subj<br />

obj<br />

proceder<br />

4.4 La independencia de la lengua de la forma lógica 103<br />

obj<br />

pm<br />

a el<br />

loc<br />

banco cerca<br />

det<br />

pm<br />

de la<br />

Figura 4.2. Árbol de relaciones de dependencia entre las palabras de la frase.<br />

mod<br />

esquina<br />

Predicado Traducción Recurso<br />

usted:NN(x1) you:NN(x1) Diccionario<br />

01360914:proceder:VB(e1, x1, x2) 01360914:proceder:VB(e1, x1, x2) ILI<br />

a:IN(e1, x3) to:IN(e1, x3) Diccionario<br />

06227059:banco:NN(x3) 06227059:banco:NN(x3) ILI<br />

cerca de:IN(x3, x4) near:IN(x3, x4) Diccionario<br />

02501820:esquina:NN(x4) 02501820:esquina:NN(x4) ILI<br />

Tabla 4.12. Traducción al español de los predicados de la forma lógica<br />

Identificador Conceptos <strong>del</strong> synset<br />

01360914 proceed#2, go forward#1, continue#4<br />

06227059 depository financial institution#1, bank#1, banking concern#1, banking company#1<br />

02501820 corner#4, street corner#1, turning point#2<br />

Tabla 4.13. Conceptos de la version inglesa de Wornet 1.5 traducidos <strong>mediante</strong> el ILI<br />

4.4.2 La independencia de la lengua de la forma lógica en los<br />

dominios restringidos<br />

Al igual que se ha comentado en el dominio abierto, para tratar la independencia<br />

de la lengua en el dominio restringido se necesita de algún<br />

recurso <strong>del</strong> tipo onto<strong>lógico</strong> o tesauro multilingüe capaz de aportar la información<br />

conceptual asociada a los lemas de determinados predicados<br />

de la forma lógica, y además, que en dicho recurso multilingüe exista<br />

una interconexión de esos conceptos entre sus diferentes lenguas. No<br />

obstante, para aquellos predicados de la forma lógica que no estén conceptualizados<br />

en dicho recurso, al igual que se ha hecho en el dominio<br />

abierto, se pueden utilizar recursos <strong>del</strong> dominio abierto como el ILI y,<br />

además, se debe disponer de diccionarios que den soporte a la traducción<br />

de palabras entre las lenguas a tratar. Seguidamente se matizan<br />

los detalles para tratar la independencia de la lengua de la forma lógica<br />

det


104 4. La forma <strong>lógico</strong>-conceptual<br />

en el dominio médico.<br />

La independencia de la lengua de la forma lógica en el dominio<br />

médico. Como se ha detallado al inicio <strong>del</strong> capítulo, el metatesauro de<br />

UMLS es un recurso multilingüe. Diferentes autores han utilizado dicho<br />

recurso para tratar los detalles referentes a la multilingualidad en sus<br />

trabajos de investigación tales como Tran et al. (2004) y Eichmann et al.<br />

(1998). En el metatesauro está recogida toda la terminología relacionada<br />

con un concepto. Además esta terminología está disponible en todas<br />

las lenguas tratadas en el recurso. Por ello, cuando se conceptualiza un<br />

predicado a partir <strong>del</strong> metatesauro, implícitamente se está traduciendo<br />

dicho predicado (debido a que toda la terminología multilingüe asociada<br />

a cada concepto está bajo el ámbito <strong>del</strong> concepto). Para realizar la<br />

traducción <strong>del</strong> resto de los predicados de la representación semántica<br />

que no son conceptualizados en el metatesauro, se sigue el mismo proceso<br />

recientemente especificado para el dominio abierto.<br />

Con el propósito hacer más claro este proceso de transformación, el<br />

cuadro 47 muestra un ejemplo de transformación según este método de<br />

la representación semántica de la oración dada. En este ejemplo, con<br />

objeto de evitar la redundancia, se ha omitido tanto el paso de derivación<br />

<strong>del</strong> árbol de análisis de dependencias entre las palabras de la frase,<br />

como el paso de inferencia de las formas <strong>lógico</strong>-conceptuales.<br />

(47) Frase: Acupril trata la tensión arterial alta.<br />

Forma lógica: acupril:NN(x1) tratar:VB(e1, x1, x2)<br />

tensión:NN(x3) tensión arterial:NNC(x2, x3, x4)<br />

arterial:NN(x4) alta:JJ(x2)<br />

<strong>Representación</strong> semántica: C0244580(T109, T121):acupril:NN(x1)<br />

C0332154(T169):tratar:VB(e1, x1, x2) C0033095(T067):tensión:NN(x3)<br />

C0020538(T047):tensión arterial:NNC(x2, x3, x4)<br />

C0005767(T024):arterial:NN(x4) 01159358:alta:JJ(x2)<br />

Traducción de predicados: El único predicado traducido<br />

es a través <strong>del</strong> ILI, quedando <strong>del</strong> modo<br />

01159358:alta:JJ(x4).<br />

<strong>Representación</strong> semántica transformada: C0244580(T109,<br />

T121):acupril:NN(x1) C0332154(T169):tratar:VB(e1,<br />

x1, x2) C0033095(T067):tensión:NN(x3) C0020538(T047):tensión arterial:NNC(x2,<br />

x3, x4) C0005767(T024):arterial:NN(x4) 01159358:alta:JJ(x2)


4.5 Conclusiones<br />

4.5 Conclusiones 105<br />

En los últimos años, se está implantando una clara tendencia enfocada<br />

a que los sistemas más comunes <strong>del</strong> PLN sean capaces de afrontar los retos<br />

referentes, por un lado, a manejar textos tanto en dominios abiertos<br />

como en dominios restringidos y, por otro lado, a considerar los detalles<br />

referentes a la independencia de la lengua. Para afrontar estos retos, los<br />

sistemas de PLN deben disponer de un mecanismo de representación<br />

formal <strong>del</strong> texto que sea tanto independiente <strong>del</strong> dominio como de la<br />

lengua.<br />

La forma lógica presentada en este trabajo de investigación, por definición,<br />

es capaz de dotar a los sistemas de PLN de una representación <strong>del</strong><br />

<strong>conocimiento</strong> <strong>lógico</strong> de primer orden de oraciones expresadas <strong>mediante</strong><br />

lenguaje natural.<br />

En el capítulo se muestra que el concepto es la unidad básica de representación<br />

<strong>del</strong> <strong>conocimiento</strong>. También se muestra que, en terminografía<br />

bilingüe el establecimiento de equivalencias en ambas lenguas se realiza<br />

a través de la representación conceptual, de manera que la equivalencia<br />

no es entre los términos sino entre los conceptos designados por dichos<br />

términos. Luego, para obtener una representación formal <strong>del</strong> texto que<br />

considere los aspectos referentes tanto a la independencia <strong>del</strong> dominio<br />

como de la lengua, se debe hacer uso de recursos onto<strong>lógico</strong>s y tesauros<br />

que permitan identificar la información conceptual asociada a la terminología<br />

presente en el texto.<br />

En la forma lógica, las palabras con sentido <strong>del</strong> texto (sus lemas) quedan<br />

representadas <strong>mediante</strong> predicados relacionados. Cuando se dispone de<br />

algún recurso <strong>del</strong> tipo onto<strong>lógico</strong> o tesauro, la forma lógica es capaz<br />

de adquirir la información conceptual asociada a algunos de sus predicados,<br />

en concreto aquellos predicados que quedan conceptualizados<br />

en dicho recurso. Con ello y, partiendo de la forma lógica, se derivan<br />

una serie de formas <strong>lógico</strong>-conceptuales, que integran la información<br />

conceptual asociada a los predicados conceptualizados. El número de<br />

formas <strong>lógico</strong>-conceptuales derivadas viene determinado por el producto<br />

cartesiano “todos con todos” de las conceptualizaciones de todos los<br />

predicados conceptualizados de la forma lógica. Cada oración tiene una<br />

única representación semántica que la identifica. Para ello es necesario<br />

un proceso de desambiguación que permita identificar la forma <strong>lógico</strong>conceptual<br />

de entre todas las formas <strong>lógico</strong>-conceptuales derivadas en<br />

la que el concepto asociado a cada predicado es el más adecuado según<br />

el contexto de la oración. Esta forma <strong>lógico</strong>-conceptual desambiguada<br />

se corresponderá con la representación semántica de la frase.


106 4. La forma <strong>lógico</strong>-conceptual<br />

Los requisitos que se deben cumplir para poder tener una representación<br />

formal <strong>del</strong> texto independiente <strong>del</strong> dominio y de la lengua según el<br />

tratamiento <strong>lógico</strong>-conceptual son: a) disponer de un recurso conceptual<br />

en el que quede conceptualizada la terminología presente en el texto; b)<br />

que exista una conexión multilingüe de la terminología conceptualizada<br />

en las diferentes lenguas a través <strong>del</strong> recurso; c) que los recursos <strong>del</strong><br />

dominio restringido, de manera opcional, categoricen semánticamente<br />

los conceptos <strong>del</strong> recurso.<br />

En función <strong>del</strong> dominio <strong>del</strong> texto, bien sea dominio abierto o algún<br />

dominio restringido, la forma lógica utilizará un determinado recurso<br />

onto<strong>lógico</strong> o tesauro <strong>del</strong> dominio (o más de uno) para extraer la información<br />

conceptual asociada a los predicados. La utilización <strong>del</strong> recurso<br />

en el ámbito <strong>del</strong> dominio en que se enmarquen los textos a procesar<br />

es la única característica que depende <strong>del</strong> dominio en el tratamiento<br />

<strong>lógico</strong>-conceptual. El resto <strong>del</strong> tratamiento es totalmente independiente<br />

<strong>del</strong> dominio, es decir, cualquier texto bajo cualquier dominio puede<br />

ser representado formalmente <strong>mediante</strong> la forma lógica, siempre que se<br />

reúnan los requisitos mencionados en el anterior párrafo. Cuando se trabaja<br />

con texto en el dominio abierto, el recurso utilizado para aportar la<br />

información conceptual a la forma lógica es WordNet. En cambio, cuando<br />

se trabaja en un dominio restringido, se recurre a recursos dependientes<br />

<strong>del</strong> dominio restringido que aportan la información conceptual<br />

en el mencionado dominio restringido. Además, independientemente de<br />

los recursos disponibles en el dominio restringido, siempre se puede hacer<br />

uso <strong>del</strong> recurso WordNet de dominio abierto, con el propósito de<br />

aportar también información conceptual. Para el ejemplo de representación<br />

formal de textos en el dominio médico, la forma lógica hace uso<br />

<strong>del</strong> metatesauro de UMLS que aporta información conceptual en el dominio<br />

restringido, y de WordNet.<br />

Del mismo modo que sucede con la independencia <strong>del</strong> dominio, cuando<br />

se quiere obtener una representación formal <strong>del</strong> texto que sea independiente<br />

de la lengua, los mencionados recursos onto<strong>lógico</strong>s o tesauros<br />

deben ser multilingües. Además se debe hacer uso de diccionarios que<br />

traten la interconexión de las lenguas tratadas. En este sentido, y para<br />

tratar la representación de las lenguas inglesa y española vista en los<br />

ejemplos, WordNet a través <strong>del</strong> ILI de EuroWordNet, el metatesauro<br />

multilingüe de UMLS, y los diccionarios Free Translation y Babylon<br />

han sido introducidos.<br />

La utilización que la forma lógica hace de estos recursos permite el tratamiento<br />

de la independencia <strong>del</strong> dominio y de la lengua a través <strong>del</strong><br />

tratamiento <strong>lógico</strong>-conceptual. Es por ello por lo que el recurso <strong>lógico</strong>-


4.5 Conclusiones 107<br />

conceptual desarrollado en este trabajo de investigación es tanto independiente<br />

<strong>del</strong> dominio como independiente de la lengua.


5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual<br />

para la representación formal <strong>del</strong> texto<br />

La evaluación de cualquier sistema o recurso de PLN requiere <strong>del</strong> estudio<br />

y/o análisis de los siguientes conceptos:<br />

Eficacia: este concepto mide la capacidad que tiene el sistema o el<br />

recurso para lograr sus objetivos.<br />

Eficiencia: este concepto indica la cantidad de recursos que necesita<br />

el sistema o el recurso para lograr sus objetivos.<br />

A lo largo <strong>del</strong> capítulo se destaca que la mayoría de evaluaciones que se<br />

proponen para indicar lo bueno o lo malos que son los sistemas o recursos<br />

<strong>del</strong> PLN sólo tienen en cuenta el concepto de eficacia, siendo una<br />

pequeña minoría las que consideran también el concepto de eficiencia.<br />

No conviene perder de vista que, ante dos sistemas o recursos de PLN<br />

diferentes cuyos niveles de eficacia son muy parejos, siempre será mejor<br />

el que menor número de recursos necesite para alcanzar los objetivos,<br />

esto es, el más eficiente. Es por ello por lo que, a la hora de evaluar lo<br />

bueno o lo malo que es el recurso desarrollado, se hará siempre desde<br />

estos dos conceptos: la eficacia y la eficiencia.<br />

Corcho y Gómez-Pérez et al. (2001) plantean una forma de evaluar los<br />

recursos de representación <strong>del</strong> <strong>conocimiento</strong> a partir de la definición<br />

de un marco de evaluación en el que queden integrados los componentes<br />

principales que constituyen el recurso de representación <strong>del</strong> <strong>conocimiento</strong><br />

a evaluar. Una vez definido este marco, la evaluación global<br />

<strong>del</strong> recurso se estructura en evaluaciones parciales que, tanto de manera<br />

individual como de un modo colectivo, indican la validez de cada uno<br />

de estos componentes así como la validez global <strong>del</strong> recurso de representación<br />

<strong>del</strong> <strong>conocimiento</strong>.<br />

Tal y como se comenta a lo largo de los sucesivos capítulos <strong>del</strong> trabajo<br />

de investigación, el recurso desarrollado consiste en un mecanismo de<br />

representación formal <strong>del</strong> texto basado en formas lógicas cuyos componentes<br />

o características fundamentales son: ser precisa, conceptualmente<br />

completa, independiente <strong>del</strong> dominio e independiente de la lengua. El<br />

recurso de representación formal <strong>del</strong> texto desarrollado puede ser usado


110 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

por cualquier sistema de PLN para el desempeño de sus funciones.<br />

Tomando como referencia el método de evaluación propuesto por Corcho<br />

y Gómez-Pérez et al. (2001) y, considerando las características principales<br />

<strong>del</strong> propio recurso, los matices que debe contemplar la evaluación<br />

global <strong>del</strong> recurso son:<br />

Precisión: La evaluación debe reflejar los aspectos referentes a la cantidad<br />

de constituyentes que componen la representación. Esto es, se<br />

evalúa que la representación tenga el suficiente detalle para identificar<br />

formalmente el texto asociado y que deje de lado los detalles superfluos,<br />

irrelevantes y redundantes de las oraciones asociadas.<br />

Completitud conceptual: La evaluación debe plasmar las particularidades<br />

referidas a la completitud conceptual y a la no ambigüedad de la<br />

representación. Esto es, la incorporación de la información semántica<br />

referida a los conceptos de las palabras representadas en las oraciones<br />

debe quedar reflejada en la representación formal de cada oración<br />

y, además, esta información conceptual debe ser no ambigua, con el<br />

propósito de no introducir ambigüedad en la representación.<br />

Independencia <strong>del</strong> dominio: La evaluación debe contemplar los detalles<br />

referentes al comportamiento <strong>del</strong> recurso tanto en el dominio<br />

abierto como en cualquier dominio restringido. Esto es, la portabilidad<br />

<strong>del</strong> recurso, el mantenimiento de sus propiedades pese al proceso<br />

de migración de un dominio a otro y el apoyo que pueda proporcionar<br />

al proceso de portabilidad de la herramienta en la que se está implantando.<br />

Independencia de la lengua: La evaluación debe plasmar también los<br />

aspectos referentes al comportamiento <strong>del</strong> recurso en cualquier lengua.<br />

Esto es, la portabilidad <strong>del</strong> recurso, el mantenimiento de sus<br />

propiedades pese al proceso de migración de una lengua a otra y el<br />

apoyo que pueda proporcionar al proceso de portabilidad de la herramienta<br />

en la que se está implantando.<br />

Sin embargo, estudios iniciales realizados durante la ejecución de este<br />

trabajo determinaron que era prácticamente imposible encontrar una<br />

única tarea de evaluación que tenga en cuenta a la vez todo este tipo<br />

de matices. Es por ello, por lo que la evaluación practicada al recurso<br />

debe ser llevada a cabo a través de diferentes tareas de evaluación que,<br />

en su conjunto, engloben todos los matices detallados.<br />

Como se viene detallando en el transcurso de este trabajo de investigación,<br />

el recurso desarrollado puede ser integrado en cualquier sistema


5.1 Análisis y determinación de las tareas de evaluación 111<br />

de PLN con el propósito de brindar al sistema la representación formal<br />

<strong>del</strong> texto que debe procesar. Por ello, la utilidad o validez que la incorporación<br />

<strong>del</strong> recurso ejerce en el sistema de PLN puede ser evaluada de<br />

manera global en el marco de la tarea o tareas estándares de evaluación<br />

<strong>del</strong> sistema de PLN.<br />

Una vez tenidas en cuenta todas estas consideraciones, el siguiente paso<br />

consiste en analizar y determinar las diferentes tareas de evaluación que<br />

tengan en cuenta estos matices.<br />

5.1 Análisis y determinación de las tareas de<br />

evaluación<br />

Existen diferentes campañas internacionales de evaluación donde los sistemas<br />

más comunes <strong>del</strong> PLN pueden ser evaluados, tales como TREC,<br />

CLEF, SENSEVAL, PASCAL RTE, etc. Básicamente, el objetivo fundamental<br />

de todas estas campañas se centra en definir tareas estándares<br />

de evaluación aplicadas a los diferentes sistemas de PLN que permitan<br />

cuantificar la validez de estos sistemas y establecer una comparación<br />

referente al funcionamiento entre los diferentes sistemas participantes a<br />

la vez que promueven las líneas de investigación sobre dichos recursos<br />

y herramientas.<br />

Por otra parte, al inicio <strong>del</strong> capítulo se justifica que los propósitos fundamentales<br />

de la evaluación <strong>del</strong> recurso desarrollado en la investigación<br />

deben considerar los cuatro matices detallados.<br />

Con este objeto, en el proceso de análisis y determinación de las tareas<br />

de evaluación, en un primer lugar, se tienen en cuenta las campañas<br />

internacionales de evaluación existentes cuyas tareas consideren alguno<br />

de los matices planteados. En segundo lugar, para el resto de matices<br />

, es necesario el diseño de tareas de evaluación ad-hoc. Finalmente, se<br />

evalúa la validez <strong>del</strong> recurso desarrollado en la investigación en el marco<br />

de cada una de estas tareas.<br />

Según se ha detallado en el capítulo dos, existe un amplio espectro de<br />

diferentes sistemas de PLN donde el recurso puede ser incorporado con<br />

la finalidad de evaluar la validez que la incorporación <strong>del</strong> recurso aporta<br />

a cada uno de los diferentes sistemas. El llevar a cabo este proceso de<br />

evaluación con todo el abanico de sistemas de PLN haría interminable<br />

el mismo. Con objeto de evitar esto, se ha escogido una muestra más<br />

reducida <strong>del</strong> espectro de sistemas de PLN que abarque las necesidades<br />

de representación formal <strong>del</strong> texto que tienen en su conjunto el amplio<br />

espectro de sistemas de PLN. Concretamente, los sistemas de PLN en


112 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

los que se va a evaluar la validez que aporta la incorporación <strong>del</strong> recurso<br />

son: Vinculación o Implicación Textual, Recuperación de Información<br />

y Búsqueda de Repuestas. A continuación se matiza el porqué de la<br />

elección de esta muestra de sistemas de PLN.<br />

La elección de la vinculación o implicación <strong>textual</strong> en esta muestra es<br />

debido a que, como se justifica más a<strong>del</strong>ante, la vinculación <strong>textual</strong><br />

resume las necesidades principales de inferencia semántica de otros sistemas<br />

<strong>del</strong> PLN como la Búsqueda de Respuestas, la Recuperación de<br />

Información, la Extracción de Información y la Generación Automática<br />

de Resúmenes. Estas necesidades de inferencia semántica requieren de<br />

una representación formal <strong>del</strong> texto. Por ello y, dado este contexto, en<br />

la evaluación de la Vinculación Textual se están evaluando también,<br />

indirectamente, las necesidades de representación formal <strong>del</strong> texto de<br />

todo este subconjunto de sistemas de PLN.<br />

De un modo más complementario a lo matizado en el párrafo anterior,<br />

la elección de la Recuperación de Información y de la Búsqueda de Respuestas<br />

se ha efectuado porque estos dos tipos de sistemas, tanto a nivel<br />

cuantitativo como a nivel cualitativo, han centrado uno de los mayores<br />

esfuerzos de la última década de las investigaciones en el área de PLN,<br />

tal y como demuestran la multitud de proyectos de investigación surgidos<br />

en el seno de los diferentes grupos de investigación en el área de<br />

PLN en esta última década.<br />

Más concretamente, para la evaluación <strong>del</strong> recurso se han seleccionado<br />

las tareas Cross-Language Speech Retrieval (CL-SR), Answer Validation<br />

Exercise (AVE) y Multiple Language Question Answering (QA-<br />

CLEF), todas ellas pertenecientes a las campañas de evaluación <strong>del</strong><br />

CLEF. Además, la tarea Recognising Textual Entailment (RTE) en el<br />

marco de la campaña de evaluación PASCAL RTE también ha sido<br />

considerada en el escenario de la evaluación <strong>del</strong> recurso. Por último,<br />

también se efectúa una evaluación ad-hoc de la clasificación de preguntas<br />

médicas según la taxonomía genérica planteada en el estudio<br />

realizado por Ely et al. (2000).<br />

En las siguientes secciones <strong>del</strong> capítulo, en lo que respecta a la especificación<br />

de cada una de las tareas de evaluación efectuadas al recurso,<br />

se especifica la relación de cada una de ellas con los diferentes matices<br />

planteados en el capítulo. No obstante, la tabla 5.1 introduce la relación<br />

existente entre cada una de estas tareas y cada uno de los matices.<br />

Las siguientes secciones <strong>del</strong> capítulo especifican con detalle la aplicación<br />

de cada una de estas tareas desarrolladas en el marco de la evaluación<br />

<strong>del</strong> recurso presentado en el trabajo de investigación. Finalmente se


5.2 Evaluación en la tarea Cross-Language Speech Retrieval <strong>del</strong> CLEF 2005 113<br />

Matices<br />

Tareas<br />

CL-SR AVE QACLEF RTE Clasificación Preguntas<br />

Precisión X<br />

Completitud conceptual X X X X<br />

Ind. <strong>del</strong> dominio X<br />

Ind. de la lengua X<br />

Tabla 5.1. Relación existente entre las tareas de evaluación y los matices contemplados en la<br />

evaluación<br />

muestra un análisis exhaustivo de los resultados obtenidos en cada una<br />

de las tareas de evaluación.<br />

5.2 Evaluación en la tarea Cross-Language Speech<br />

Retrieval <strong>del</strong> CLEF 2005<br />

5.2.1 Introducción<br />

El objetivo de la tarea Cross-Language Speech Retrieval de la conferencia<br />

CLEF 2005 (White et al. , 2006) consiste en evaluar el rendimiento<br />

de diferentes sistemas de PLN en tareas de Recuperación de Documentos<br />

Transcritos. Para ello, los sistemas deben ser capaces de identificar<br />

los segmentos de texto tópicamente coherentes en entrevistas hechas en<br />

inglés en una condición de fronteras conocidas. Estas entrevistas fueron<br />

realizadas a supervivientes, testigos y rescatadores <strong>del</strong> Holocausto<br />

judío. El propósito de esta tarea se resume en una Recuperación de<br />

Información sobre habla transcrita en documentos. Básicamente, cada<br />

entrevista está formada por unos segmentos ordenados secuencialmente<br />

que son transcritos a documentos sobre los que se aplica el proceso<br />

de Recuperación de Información. Cada documento se compone de una<br />

serie de campos:<br />

INTERVIEWDATA. Contiene los nombres y las fechas de nacimiento<br />

de los entrevistados.<br />

NAME. Contiene los nombres <strong>del</strong> resto de personas mencionadas en<br />

la entrevista.<br />

MANUALKEYWORD. Contiene palabras clave extraídas de un tesauro.<br />

Estas palabras clave suelen referencias a sujetos, objetos y lugares<br />

mencionados en la entrevista.<br />

SUMMARY. Contiene un resumen de tres frases de la entrevista.


114 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

ASRTEXT2003A. Contiene la secuencia de palabras producida por<br />

un transcriptor de habla con una elevada tasa de error.<br />

ASRTEXT2004A. Contiene la secuencia de palabras producida por<br />

un transcriptor de habla con una tasa de error inferior a la anterior.<br />

AUTOKEYWORD2004A1. Contiene un conjunto de palabras clave<br />

extraídas <strong>del</strong> tesauro de modo automático a partir de un clasificador<br />

basado en el vecino más cercano sobre las palabras de la transcripción<br />

ASRTEXT2004A.<br />

AUTOKEYWORD2004A2. Contiene un conjunto de palabras clave<br />

extraídas <strong>del</strong> tesauro de modo automático a partir de un clasificador<br />

basado en el segundo vecino más cercano sobre las palabras de la<br />

transcripción ASRTEXT2004A.<br />

La tarea Cross-Language Speech Retrieval presenta diferentes medidas<br />

de evaluación que revelan la validez de los sistemas participantes en<br />

dicha tarea. Concretamente, estas medidas de evaluación son: la media<br />

de precisión no interpolada (MAP), la r-precisión (Rprec), la medida<br />

basada en la preferencia binaria (Bpref) y la precisión a los N documentos<br />

recuperados (pN). A continuación se define cada una de ellas:<br />

La media de precisión no interpolada (MAP) actúa sobre la lista de<br />

mil documentos que los sistemas consideran relevantes para cada tópico.<br />

Esta medida, sobre la lista de documentos devuelta por los sistemas,<br />

destaca aquellos que son relevantes y penaliza aquellos que no lo<br />

son. Por ello, la medida recompensa los sistemas que recuperan los documentos<br />

relevantes en los primeros lugares. La MAP es la media de<br />

la precisión obtenida después que cada documento relevante es recuperado,<br />

siendo la precisión la relación entre el número de documentos<br />

relevantes recuperados y el número de documentos recuperados. Para<br />

calcularla se considera:<br />

• Cuando no se ha recuperado todavía ningún documento relevante,<br />

la precisión es 0.<br />

• Cada vez que se obtiene un documento relevante se calcula la precisión.<br />

• La MAP se calcula como media aritmética de las precisiones anteriores.<br />

La r-precisión (Rprec) calcula la precisión considerando que existen<br />

un total de r documentos relevantes para cada tópico y, en consecuen-


5.2 Evaluación en la tarea Cross-Language Speech Retrieval <strong>del</strong> CLEF 2005 115<br />

cia, se define como la precisión después de r documentos recuperados.<br />

La medida basada en la preferencia binaria (Bpref) utiliza la información<br />

de los criterios de relevancia para definir la frecuencia en la<br />

que los documentos relevantes son recuperados con anterioridad a los<br />

documentos no relevantes.<br />

La precisión a los N documentos recuperados (pN) se define como la<br />

relación entre el número de documentos relevantes recuperados sobre<br />

los N primeros documentos recuperados.<br />

Estas medidas de evaluación son indicadores de la eficacia de los sistemas.<br />

En las siguientes subsecciones se introduce la medida que cuantifica<br />

la validez de los sistemas desde el punto de vista de la eficiencia.<br />

5.2.2 Motivación y aportaciones esperadas<br />

Básicamente, la resolución de este problema se efectúa aplicando un<br />

sistema de Recuperación de Información sobre las transcripciones de<br />

las entrevistas donde las palabras clave en el proceso de Recuperación<br />

de Información son identificadas a partir <strong>del</strong> conjunto de palabras que<br />

componen cada uno de los tópicos.<br />

En este tipo de problemas, donde a partir de una oración o conjunto de<br />

oraciones, en este caso el tópico, es necesaria la estimación de qué palabras<br />

(términos) son los más relevantes o que mejor describen al tópico,<br />

el desarrollo de heurísticas que permitan pesar los términos en función<br />

de su importancia estructural y conceptual tiene especial interés,<br />

indicándole este hecho de algún modo al sistema de Recuperación de<br />

Información para que sea tenido en cuenta en el propio proceso de Recuperación<br />

de Información. En este trabajo, se pretende demostrar que<br />

el uso de la forma <strong>lógico</strong>-conceptual favorece la construcción de dichas<br />

heurísticas, mejorando con ello la eficacia <strong>del</strong> proceso de Recuperación<br />

de Información.<br />

Cabe a<strong>del</strong>antar que el desarrollo de esta heurística puede ser efectuado<br />

a partir de otras representaciones formales <strong>del</strong> texto, no necesariamente<br />

la forma lógica. Por ello se pretende demostrar también que el desarrollo<br />

de esta heurística bajo el formalismo de la forma <strong>lógico</strong>-conceptual optimiza<br />

su eficiencia frente a otros tipos de representación formal. Luego,<br />

se está evaluando el matiz de precisión definido al inicio <strong>del</strong> capítulo.<br />

En la siguiente subsección se analiza la estructura <strong>del</strong> tópico, se introduce<br />

el sistema de Recuperación de Información utilizado en el proceso<br />

y se detalla la heurística y su aplicación al sistema de Recuperación de<br />

Información.


116 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

5.2.3 Desarrollo<br />

En el marco de las tareas de evaluación derivadas en el ámbito de la Recuperación<br />

de Información en las competencias CLEF, los tópicos están<br />

compuestos de un título, una descripción y una narrativa. El título contiene<br />

las palabras clave de búsqueda y suele estar formado entre dos y<br />

seis palabras. La descripción es bastante similar al título y describe de<br />

manera escueta en una sola frase la acción a realizar. La narrativa detalla<br />

en mayor medida el objeto <strong>del</strong> tópico y suele estar formada por<br />

varias frases. La tabla 5.2 muestra un ejemplo de tópico.<br />

Tópico Descripción Narrativa<br />

Jewish Provide testimonies or The relevant material should<br />

resistance describe actions of describe actions of only- or mostly<br />

in Europe Jewish resistance in Europe Jewish resistance in Europe. Both<br />

before and during the war. individual and group-based actions...<br />

Tabla 5.2. Ejemplo de tópico<br />

Para realizar el proceso de Recuperación de Información, se utiliza el<br />

sistema estadístico de Recuperación de Pasajes IR-n (Llopis, 2003) que,<br />

en su fase de indexación, asigna un peso a las palabras (términos) presentes<br />

en la colección documental según el mo<strong>del</strong>o bag of words.<br />

Tras hacer un pequeño análisis sobre la descripción de los tópicos, se<br />

concluye que determinadas palabras podrían ser más relevantes que<br />

otras en el proceso de Recuperación de Información. Es por ello que<br />

el peso de estas palabras debería sufrir un incremento moderado <strong>del</strong><br />

peso original asignado por el sistema IR-n en la fase de indexación.<br />

Concretamente, estas palabras son aquellas que en la oración actúan<br />

como objeto indirecto o circunstancial. De ahí que la heurística <strong>del</strong> tipo<br />

lingüístico aplicada consista en hacer un análisis sobre la forma lógica<br />

de los tópicos, detectando este tipo de palabras con el propósito de incrementarles<br />

su peso original en un determinado porcentaje.<br />

A continuación se presenta la materialización de esta heurística aplicando<br />

el recurso de representación formal <strong>del</strong> texto desarrollado en la<br />

investigación, se analizan los resultados en términos de eficacia que la incorporación<br />

de esta heurística produce en el sistema de Recuperación de<br />

Pasajes IR-n y, por último, se analizan los resultados en términos de eficiencia<br />

desde dos enfoques claramente diferenciados: el primer enfoque<br />

consiste en analizar los resultados de eficiencia aplicando la heurística<br />

<strong>mediante</strong> el recurso desarrollado, mientras que, el segundo enfoque<br />

consiste en analizar los resultados en términos de eficiencia aplicando


5.2 Evaluación en la tarea Cross-Language Speech Retrieval <strong>del</strong> CLEF 2005 117<br />

la heurística <strong>mediante</strong> otros recursos de representación formal <strong>del</strong> texto.<br />

Para materializar la heurística utilizando el recurso desarrollado en la<br />

investigación, en la forma lógica de los tópicos, aquellos predicados <strong>del</strong><br />

tipo preposición (IN) cuyo segundo argumento instancie, bien un objeto<br />

que cumpla un predicado <strong>del</strong> tipo sustantivo (NN) o bien un objeto<br />

que derive en otro objeto que cumpla un predicado <strong>del</strong> tipo sustantivo,<br />

deben propiciar un incremento porcentual en el peso de los términos<br />

(palabras) asociados a este tipo de predicados según sus pesos originales<br />

asignados por el sistema IR-n.<br />

Aparte de mejorar la eficacia <strong>del</strong> proceso de Recuperación de Información,<br />

la aplicación de esta heurística también tiene como propósito la<br />

determinación de qué valor porcentual de incremento <strong>del</strong> peso original<br />

de las palabras (términos) <strong>del</strong> tópico produce, en el caso de que así sea,<br />

la mejor optimización de la eficacia <strong>del</strong> proceso de Recuperación de Información.<br />

Para ello, este porcentaje toma valores empíricos a partir <strong>del</strong><br />

100 % <strong>del</strong> peso de los términos <strong>del</strong> tópico en el intervalo de un umbral<br />

razonable de veinte puntos porcentuales con incrementos sucesivos de<br />

un punto porcentual. En el ejemplo 48 se muestra un escenario de este<br />

proceso donde la aplicación de la heurística hace que se incremente en<br />

un valor porcentual el peso original de este tipo de términos.<br />

(48) Tópico: The story of Mr. Fly and the Emergency Rescue<br />

Committee who saved thousands in Marseille.<br />

Forma lógica asociada: story:NN(x14) of:IN(x14, x13)<br />

mr:NN(x10) mr fly:NNC(x11, x10, x12) fly:NN(x12)<br />

and:CC(x13, x11, x6) emergency:NN(x5) emergency<br />

rescue committee:NNC(x6, x5, x7) rescue:NN(x8)<br />

rescue committee:NNC(x7, x8, x9) committee:NN(x9)<br />

who:NN(x13) save:VB(e1, x13, x2) thousand:NN(x2)<br />

in:IN(e1, x3) marseille:NN(x3)<br />

Predicados implicados: of:IN(x14, x13) mr:NN(x10)<br />

mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13,<br />

x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6,<br />

x5, x7) rescue:NN(x8) rescue committee:NNC(x7,<br />

x8, x9) committee:NN(x9) in:IN(e1, x3) marseille:NN(x3)<br />

Palabras (términos) implicadas: Variant, Fry, Emergency,<br />

Rescue, Committee y Marseille.


118 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Pesos originales y modificados: La tabla 5.3 detalla<br />

esta información.<br />

Término (stem) Peso inicial Peso actualizado<br />

stori 1.84449 1.84449<br />

fly 6.19484 7.124066<br />

emerg 6.47296 7.443904<br />

rescu 6.19484 7.124066<br />

committe 4.08194 4.694231<br />

save 3.06725 3.06725<br />

thousand 2.33944 2.33944<br />

marseil 5.13363 5.9036745<br />

Tabla 5.3. Pesos de los términos asignados por el sistema IR-n y su actualización según la heurística<br />

aplicada sobre la forma lógica <strong>del</strong> tópico<br />

Con el propósito de comprobar el grado de eficacia de este tratamiento<br />

heurístico, su aplicación ha sido llevada a cabo en la tarea de Recuperación<br />

de Información bilingüe inglés-portugués de la edición <strong>del</strong> año 2004<br />

de la competencia CLEF. Esta prueba realizada no ha sido publicada<br />

en el marco de la competencia CLEF porque su realización se produjo a<br />

posteriori, aunque para ello, el sistema de Recuperación de Información<br />

bilingüe inglés-portugués base es la versión <strong>del</strong> sistema IR-n con tamaño<br />

de pasaje normalizado que se presentó en la competencia CLEF en su<br />

edición <strong>del</strong> año 2004 (Llopis et al. , 2005).<br />

Los propósitos fundamentales que tiene esta prueba son dos. Por una<br />

parte, el primero de ellos consiste en justificar la motivación consiguiendo<br />

una mejora de la eficacia <strong>del</strong> proceso de Recuperación de Información<br />

global <strong>mediante</strong> el incremento de los pesos de algunos términos <strong>del</strong><br />

tópico según lo especificado en la heurística aplicada a su representación<br />

formal basada en la forma lógica. Por otra parte, el segundo propósito<br />

consiste en determinar qué porcentaje de incremento <strong>del</strong> peso de los<br />

términos <strong>del</strong> tópico optimiza la eficacia <strong>del</strong> proceso de Recuperación de<br />

Información.<br />

A continuación, la tabla 5.4 detalla la eficacia <strong>del</strong> proceso de Recuperación<br />

de Información aplicando la heurística especificada tomando un<br />

umbral máximo de 20 puntos porcentuales con incrementos unitarios<br />

de los pesos originales de los términos de los tópicos asignados por el<br />

sistema IR-n.<br />

Analizando los resultados de evaluación obtenidos en el proceso de Recuperación<br />

de Información (véase tabla 5.4) cabe concluir que, por una


5.2 Evaluación en la tarea Cross-Language Speech Retrieval <strong>del</strong> CLEF 2005 119<br />

Peso términos Precisión<br />

Valor original 0.2975<br />

+1 % 0.2975<br />

+2 % 0.2975<br />

+3 % 0.2976<br />

+4 % 0.2978<br />

+5 % 0.2979<br />

+6 % 0.2981<br />

+7 % 0.2983<br />

+8 % 0.2987<br />

+9 % 0.2997<br />

+10 % 0.3014<br />

+11 % 0.3022<br />

+12 % 0.3025<br />

+13 % 0.3034<br />

+14 % 0.3066<br />

+15 % 0.3086<br />

+16 % 0.3047<br />

+17 % 0.3009<br />

+18 % 0.2961<br />

+19 % 0.2907<br />

+20 % 0.2889<br />

Tabla 5.4. Precisión <strong>del</strong> proceso de Recuperación de Información aplicando la heurística sobre la<br />

forma lógica <strong>del</strong> tópico<br />

parte, la aplicación de la heurística detallada contribuye en la mejora de<br />

la eficacia <strong>del</strong> proceso de Recuperación de Información y, que además, el<br />

porcentaje de incremento de los pesos originales de los términos asignados<br />

por el sistema IR-n se corresponde con quince puntos porcentuales.<br />

Por ello, en el ámbito de la Recuperación de los Documentos Transcritos,<br />

este incremento porcentual de quince puntos se aplica a los pesos<br />

de los términos de los tópicos que cumplen la heurística. De este modo,<br />

se han llevado a cabo dos experimentos:<br />

El experimento UATDASR04 se basa en la indexación de la transcripción<br />

ASRTEXT2004A y en la Recuperación de Información partiendo<br />

de la combinación de los campos texto y descripción de los tópicos<br />

originales.<br />

El experimento UATDASR04FL se basa en el experimento anterior<br />

sobre el que se efectúa una alteración de los pesos de algunas palabras<br />

<strong>del</strong> tópico atendiendo a la heurística aplicadas a la representación formal<br />

<strong>del</strong> tópico <strong>mediante</strong> la forma lógica. Concretamente, el porcentaje<br />

de incremento <strong>del</strong> peso de los términos se corresponde con un 15 %<br />

debido a que, según la evaluación anterior, este incremento es el que<br />

optimiza el proceso de Recuperación de Información.


120 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

5.2.4 Resultados<br />

Evaluación de la eficacia. Los resultados obtenidos en ambos experimentos<br />

quedan detallados en la tabla 5.5. La columna map muestra<br />

la media de la medida de precisión no interpolada mientras que en las<br />

restantes columnas se detalla la precisión a los 5, 20, 100 y 1000 documentos<br />

respectivamente.<br />

Experimento map p5 p20 p100 p1000 Rprec Bpref<br />

UATDASR04 0,0724 0,1840 0,1660 0,1036 0,0313 0,1246 0,0899<br />

UATDASR04LF 0,0768 0,2160 0,1740 0,1088 0,0324 0,1230 0,0949<br />

Tabla 5.5. Resultados de evaluación en la tarea CL-SR <strong>del</strong> CLEF 2005<br />

Como se puede apreciar en los resultados presentados en la tabla 5.5, el<br />

incremento en el peso de las palabras que cumplen las especificaciones<br />

detalladas anteriormente en la heurística contribuye a mejorar sensiblemente<br />

la precisión de la Recuperación de Pasajes <strong>del</strong> sistema estadístico<br />

IR-n, haciendo que este incremento de la precisión sea de un 6,08 % respecto<br />

a su valor original. La aplicación de esta heurística demuestra<br />

que, en términos de eficacia, la utilización <strong>del</strong> recurso contribuye a la<br />

mejora <strong>del</strong> proceso base de Recuperación de Información.<br />

También, de manera explícita, se pretende demostrar que la elección de<br />

nuestro recurso para la materialización de la heurística <strong>del</strong> tipo lingüístico<br />

es el más óptimo, en términos de eficiencia, frente a otros recursos<br />

de representación formal <strong>del</strong> texto capaces de satisfacer también el desarrollo<br />

de dicha heurística. Ello queda reflejado a continuación.<br />

Evaluación de la eficiencia. La heurística <strong>del</strong> tipo lingüístico que se<br />

acaba de detallar precisa de una representación formal de los tópicos<br />

que le proporcione la información lingüística necesaria para la aplicación<br />

de las reglas. En este sentido, cualquier mo<strong>del</strong>o de representación<br />

con contenido lingüístico de los tratados en el capítulo 2 que identifique<br />

la categoría léxica e indique la relación existente entre las palabras de<br />

los tópicos serviría de base al desarrollo de la heurística.<br />

La Real Academia Española define el adjetivo “preciso/a” como “necesario,<br />

indispensable, que es menester para un fin”. Tomando como base<br />

esta definición, en la evaluación de la eficiencia se pretende premiar al<br />

mo<strong>del</strong>o de representación con contenido lingüístico que sea más preciso,<br />

es decir, aquel que su representación tenga el suficiente detalle para la<br />

aplicación de la heurística ignorando aspectos superfluos, irrelevantes y<br />

redundantes. Ello implica que de todos los mo<strong>del</strong>os de representación


5.2 Evaluación en la tarea Cross-Language Speech Retrieval <strong>del</strong> CLEF 2005 121<br />

formal <strong>del</strong> texto capaces de materializar el desarrollo de la heurística<br />

será más preciso aquel cuya representación contenga menor número<br />

de constituyentes ya que, según la definición recién especificada, este<br />

mo<strong>del</strong>o, haciendo uso de un menor número de constituyentes en la representación,<br />

es capaz de representar la información necesaria para el<br />

desarrollo de la heurística, ignorando detalles superfluos, irrelevantes y<br />

redundantes introducidos por el resto de mo<strong>del</strong>os.<br />

Por ello, y con el objeto de evaluar y contrastar lo más o menos precisos<br />

que son los diferentes mo<strong>del</strong>os de representación capaces de dar soporte<br />

al desarrollo de la heurística, se hace hincapié en el concepto de eficiencia<br />

introducido al inicio <strong>del</strong> capítulo, que permite cuantificar el número<br />

de items o constituyentes que introducen las diferentes representaciones<br />

formales <strong>del</strong> texto según el mo<strong>del</strong>o aplicado. De este modo, aquel mo<strong>del</strong>o<br />

cuya representación haga uso de un menor número de constituyentes<br />

para identificar formalmente al texto asociado será el más eficiente y,<br />

en consecuencia, el más preciso según este punto de vista.<br />

Desde el punto de vista de la eficiencia, se va a establecer una comparación<br />

de los tamaños (según el número de constituyentes) de las<br />

diferentes representaciones formales de los tópicos para la aplicación de<br />

la heurística entre los mo<strong>del</strong>os de representación formal capaces de dar<br />

soporte al desarrollo de esta heurística que son: el basado en el árbol<br />

de análisis de dependencias, el basado en el árbol de análisis sintáctico<br />

de constituyentes, y el recurso de formas lógicas desarrollado como embrión<br />

<strong>del</strong> recurso <strong>lógico</strong>-conceptual. Para ello, conviene tener un ejemplo<br />

común de la representación de un mismo tópico según cada uno de estos<br />

mo<strong>del</strong>os de representación formal. Ello queda presentado en el ejemplo<br />

49.<br />

(49) Tópico: The story of Mr. Fly and the Emergency Rescue<br />

Committee who saved thousands in Marseille.<br />

Árbol de dependencias: Véase figura 5.1<br />

Árbol de constituyentes: Véase figura 5.2<br />

Forma lógica: story:NN(x14) of:IN(x14, x13) mr:NN(x10)<br />

mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13,<br />

x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6,<br />

x5, x7) rescue:NN(x8) rescue committee:NNC(x7,<br />

x8, x9) committee:NN(x9) who:NN(x13) save:VB(e1,<br />

x13, x2) thousand:NN(x2) in:IN(e1, x3) marseille:NN(x3)


122 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

story [N]<br />

Árbol <strong>lógico</strong>: Véase figura 5.3 1<br />

det mod e<br />

The [Det] of [Prep]<br />

pcomp-n s<br />

Fly [N]<br />

lex-mod conj e<br />

Mr. [U] Committee [N]<br />

lex-mod rel t<br />

Emergency [U] Rescue [U] () fin [C]<br />

Figura 5.1. Árbol de dependencias <strong>del</strong> tópico<br />

The<br />

[NP]<br />

n-chunk<br />

n-chunk<br />

story<br />

[NN]<br />

of<br />

[IN]<br />

sppart<br />

n-chunk<br />

Mr. Fly<br />

[NP]<br />

and<br />

[CC]<br />

the<br />

[DT]<br />

sn-chunk<br />

nex-coord n-chunk<br />

Figura 5.2. Árbol de constituyentes <strong>del</strong> tópico<br />

whn i p<br />

who [N] saved [V]<br />

subj obj mod p<br />

() who [N] thousands [N] in [Prep]<br />

S<br />

Emergency Rescue Committee<br />

[NP]<br />

who<br />

[WP]<br />

saved<br />

[VBD]<br />

pcomp-n p<br />

Marseille [N]<br />

wh-prc vb-chunk n-chunk spin n-chunk<br />

thousands<br />

[NNS]<br />

in<br />

[IN]<br />

sp-chunk<br />

Según el ejemplo 49, para la representación formal de un mismo tópico,<br />

el árbol de análisis de dependencias tiene 15 nodos (constituyentes), el<br />

árbol de análisis de constituyentes tiene 26 nodos y el árbol <strong>lógico</strong> tiene<br />

10 nodos. Si se consideran los 75 tópicos que se han utilizado en la evaluación,<br />

la tabla 5.6 detalla el número de nodos total que se obtienen<br />

con cada uno de estos tres mo<strong>del</strong>os de representación.<br />

Marseille<br />

[NP]<br />

1 El árbol <strong>lógico</strong> simplemente representa los predicados relacionados de la forma lógica en forma<br />

de árbol con objeto de facilitar el estudio de la complejidad


story:NN(x14)<br />

5.2 Evaluación en la tarea Cross-Language Speech Retrieval <strong>del</strong> CLEF 2005 123<br />

save:VB(e1, x13, x2)<br />

who:NN(x13) thousand:NN(x2) in:IN(e1, x3)<br />

and:CC(x13, x11, x6) marseille:NN(x3)<br />

of:IN(x14, x13) mr_fly:NNC(x11, x10, x12) emergency_rescue_committee:NNC(x6, x5, x7)<br />

Figura 5.3. Árbol <strong>lógico</strong> <strong>del</strong> tópico<br />

<strong>Representación</strong> N o nodos<br />

Árbol constituyentes 1628<br />

Árbol dependencias 1059<br />

Árbol <strong>lógico</strong> 771<br />

Tabla 5.6. Número de nodos obtenidos por cada formalismo en la representación de los tópicos<br />

Si se comparan estos resultados de eficiencia reflejados en la tabla 5.6<br />

se obtiene que la representación basada en el árbol <strong>lógico</strong> es un 52,64 %<br />

más eficiente que la basada en el árbol de constituyentes, y un 27,2 %<br />

más eficiente que la basada en el árbol de dependencias.<br />

Acorde a lo especificado en los párrafos anteriores, aquel mecanismo de<br />

representación formal que sea más eficiente, es decir, que menor número<br />

de constituyentes introduzca en la representación implica que, será también<br />

el más preciso, es decir, introduce la menor cantidad de información<br />

necesaria para el desarrollo de la heurística tratando de evitar detalles<br />

superfluos, irrelevantes y redundantes.<br />

Tal y como se acaba de demostrar en esta evaluación, la representación<br />

<strong>del</strong> árbol <strong>lógico</strong>, derivado a partir de la forma lógica, es la más<br />

eficiente de las representaciones debido a que es la que menor número<br />

de nodos contiene. Por ello y, aunque la heurística lingüística puede ser<br />

aplicada a partir de diferentes representaciones formales <strong>del</strong> texto, es la<br />

representación basada en formas lógicas la más precisa frente al resto<br />

de representaciones quedando demostrado con ello el matiz de precisión<br />

introducido en el marco global de evaluación.<br />

5.2.5 Análisis y discusión<br />

Dentro <strong>del</strong> amplio espectro de sistemas de PLN, con la participación<br />

en esta tarea, se ha demostrado la validez <strong>del</strong> recurso representación


124 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

formal <strong>del</strong> texto en el ámbito de la Recuperación de Información. Para<br />

ello, sobre la representación formal de los tópicos implicados en el<br />

proceso de Recuperación de Información, se ha aplicado una heurística<br />

que hace que determinadas palabras <strong>del</strong> tópico incrementen su importancia<br />

o relevancia en el proceso. Desde el punto de vista de la eficacia,<br />

los resultados obtenidos tras la aplicación de esta heurística mejoran<br />

los resultados obtenidos por el sistema de Recuperación de Información<br />

base produciendo un incremento de un 6,08 % <strong>del</strong> valor original de la<br />

medida map.<br />

Desde el punto de vista de la eficacia, el recurso de formas lógicas no es<br />

imprescindible para la aplicación de la heurística ya que ésta se puede<br />

aplicar sobre cualquier otro tipo de representación formal, como se ha<br />

demostrado con los árboles de dependencias y de constituyentes.<br />

Uno de los propósitos fundamentales de la participación en esta tarea es<br />

demostrar el matiz de precisión introducido al inicio <strong>del</strong> capítulo. Para<br />

ello, desde el punto de vista de la eficiencia, la utilización <strong>del</strong> recurso de<br />

formas lógicas para la representación formal de los tópicos mejora los<br />

resultados de la aplicación de la heurística sobre cualquier otro tipo de<br />

representación, tal y como se ha demostrado en la subsección anterior.<br />

Ello demuestra que la representación basada en formas lógicas obtenida<br />

a partir <strong>del</strong> recurso <strong>lógico</strong>-conceptual es más precisa que el resto de<br />

representaciones.<br />

5.3 Participación en la tarea Recognising Textual<br />

Entailment <strong>del</strong> PASCAL 2006<br />

5.3.1 Introducción<br />

El re<strong>conocimiento</strong> de la Vinculación o Implicación Textual (Recognising<br />

Textual Entailment) (Bar-Haim et al. , 2006) ha sido propuesto en los<br />

últimos años en el ámbito <strong>del</strong> PLN como una tarea genérica que captura<br />

las necesidades principales de inferencia semántica a través de las aplicaciones<br />

<strong>del</strong> PLN como la Búsqueda de Respuestas, la Recuperación de<br />

Información, la Extracción de Información y la Generación Automática<br />

de Resúmenes.<br />

El Textual Entailment o Implicación Textual consiste en decidir, dados<br />

dos fragmentos de texto denominados texto (T) e hipótesis (H), si el<br />

texto vincula a la hipótesis, es decir, si el significado de la hipótesis<br />

es inferido a través <strong>del</strong> texto. El ejemplo 50 muestra una vinculación<br />

<strong>textual</strong>, es decir, T vincula a H.


5.3 Participación en la tarea Recognising Textual Entailment <strong>del</strong> PASCAL 2006 125<br />

(50) Texto (T): His family has steadfastly denied the charges.<br />

Hipótesis (H): The charges were denied by his family.<br />

La tarea PASCAL RTE (Recognising Textual Entailment) (Bar-Haim<br />

et al. , 2006) promociona la formación de una comunidad investigadora<br />

en al ámbito de la tarea de vinculación <strong>textual</strong>. La principal tarea consiste<br />

en determinar si una hipótesis (H) es vinculada por un texto (T).<br />

Uno de los principales objetivos de su conjunto de datos se centra en<br />

proveer ejemplos “realistas” de pares texto-hipótesis, la mayoría de ellos<br />

basados en las salidas proporcionadas por los sistemas actuales de PLN.<br />

En concreto se basan en las características de aplicación de los sistemas<br />

mencionados anteriormente: Búsqueda de Respuestas, Recuperación de<br />

Información, Extracción de Información y Generación Automática de<br />

Resúmenes. Cada porción <strong>del</strong> conjunto de datos incluye ejemplos típicos<br />

de pares texto-hipótesis obtenidas a partir de los aciertos y los fallos<br />

obtenidos por estas aplicaciones. Los ejemplos representan diferentes<br />

niveles de razonamiento de la vinculación tales como léxico, sintáctico,<br />

morfo<strong>lógico</strong> y <strong>lógico</strong>.<br />

Dicha tarea proporciona un marco de evaluación común a los sistemas<br />

de Textual Entailment. Los sistemas de Textual Entailment participantes<br />

en esta tarea de evaluación deberán decidir dados los pares texto e<br />

hipótesis, si el texto vincula a la hipótesis o no, y estos resultados se<br />

compararán con las anotaciones manuales correspondientes.<br />

La evaluación de las ejecuciones de los sistemas es automática. Los criterios<br />

devueltos por los sistemas son comparados con los criterios de<br />

relevancia asignados manualmente por los anotadores. El porcentaje de<br />

emparejamiento de criterios debe proveer la precisión de la tarea (ej. la<br />

relación de respuestas correctas).<br />

Como una segunda medida de evaluación, la precisión media (average<br />

precision) evalúa la capacidad de los sistemas en determinar las implicaciones<br />

correctas de acuerdo a su coeficiente de confianza, en orden<br />

decreciente desde el par texto-hipótesis que posee un coeficiente mayor<br />

hasta el que posee el menor coeficiente. Se define formalmente esta medida<br />

como:<br />

P recMedia = 1 ni=1 #correctos hasta par i<br />

E(i) R<br />

i<br />

donde n es la cantidad de pares en el corpus, R es la cantidad de pares<br />

positivos, E(i) es 1 si el par es positivo y 0 si no lo es, e i recorre todos<br />

los pares ordenados según el coeficiente de confianza. Estas dos medidas


126 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

de evaluación miden la validez de los sistemas desde el punto de vista<br />

<strong>del</strong> concepto de eficacia.<br />

5.3.2 Motivación y aportaciones esperadas<br />

Dentro <strong>del</strong> amplio espectro de las aplicaciones <strong>del</strong> PLN, la tarea de<br />

la vinculación <strong>textual</strong> resume las necesidades principales de inferencia<br />

semántica de otros sistemas <strong>del</strong> PLN como la Búsqueda de Respuestas,<br />

la Recuperación de Información, la Extracción de Información y la Generación<br />

Automática de Resúmenes.<br />

El problema de la Implicación o Vinculación Textual se resuelve <strong>mediante</strong><br />

la comparación de las representaciones semánticas asociadas al<br />

texto y a la hipótesis. A partir de ambas representaciones semánticas<br />

y su comparación, el sistema de Textual Entailment debe decidir si el<br />

texto vincula o no a la hipótesis. Para realizar esta función el sistema<br />

necesita de <strong>conocimiento</strong> semántico que le permita saber el grado de<br />

relación existente entre las palabras <strong>del</strong> texto y de la hipótesis.<br />

El recurso de representación semántica desarrollado en el trabajo de<br />

investigación, a través <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual llevado a cabo<br />

sobre la forma lógica, reúne los requisitos necesarios para su integración<br />

en el sistema de <strong>textual</strong> entailment. Por ello, se pretende que el<br />

núcleo <strong>del</strong> sistema de vinculación <strong>textual</strong> sea la propia representación<br />

semántica <strong>del</strong> par texto-hipótesis derivada a partir de este tratamiento.<br />

A partir <strong>del</strong> par de representaciones semánticas texto-hipótesis, se<br />

pretende aplicar una serie de <strong>técnicas</strong> de exploración en la jerarquía de<br />

WordNet para decidir si existe o no vinculación entre ambas representaciones,<br />

produciendo con ello la salida generada por el sistema.<br />

El propósito de la aplicación de la investigación en esta tarea emergente<br />

de Textual Entailment pretende demostrar la validez <strong>del</strong> recurso en<br />

el ámbito de la propia tarea visto desde el enfoque <strong>del</strong> matiz de completitud<br />

conceptual detallado al inicio <strong>del</strong> capítulo. Con ello quedaría<br />

demostrado que el tratamiento <strong>lógico</strong>-conceptual proporcionado por el<br />

recurso que hace que la representación semántica incorpore la información<br />

conceptual contenida en WordNet asociada a las palabras <strong>del</strong> par<br />

texto-hipótesis y, a su vez, que esta información conceptual sea no ambigua,<br />

es perfectamente válido para ser incorporado en el sistema de<br />

vinculación <strong>textual</strong>.<br />

Para demostrar la validez <strong>del</strong> recurso de representación desde el punto<br />

de vista <strong>del</strong> matiz de la completitud conceptual se realiza la evaluación<br />

global <strong>del</strong> sistema de vinculación <strong>textual</strong> desarrollado en el ámbito de la<br />

tarea RTE. En esta evaluación se pretende que, los resultados <strong>del</strong> siste-


5.3 Participación en la tarea Recognising Textual Entailment <strong>del</strong> PASCAL 2006 127<br />

ma desarrollado ronden la media de los resultados de todos los sistemas<br />

participantes en la tarea, según las medidas de evaluación especificadas<br />

en el apartado anterior. Con ello quedaría demostrada la validez <strong>del</strong><br />

recurso en el ámbito <strong>del</strong> Textual Entailment.<br />

5.3.3 Desarrollo<br />

La tarea RTE considera que T vincula a H si, típicamente, un humano<br />

que lee T inferiría que H es más que probable que sea verdadero. Esta<br />

definición algo informal se basa en (y asume) la comprensión humana<br />

común <strong>del</strong> lenguaje así como el <strong>conocimiento</strong> común <strong>del</strong> mundo. La<br />

tabla 5.7 muestra varios ejemplos <strong>del</strong> re<strong>conocimiento</strong> de la vinculación<br />

<strong>textual</strong> a partir de la salida de los diferentes sistemas <strong>del</strong> PLN.<br />

Texto Hipótesis Tarea Vinculación<br />

The drugs that slow down or halt Alzheimer’s disease<br />

Alzheimer’s disease work best the is treated RI SÍ<br />

earlier you administer them. using drugs.<br />

Drew Walker, NHS Tayside’s public<br />

health director, said: ‘‘It is A case of rabies RI NO<br />

important to stress that this is was confirmed.<br />

not a confirmed case of rabies.’’<br />

Yoko Ono unveiled a bronze statue<br />

of her late husband, John Lennon, Yoko Ono is<br />

to complete the official renaming John Lenonn’s BR SÍ<br />

of England’s Liverpool Airport as widow.<br />

Liverpool John Lennon Airport<br />

Arabic, for example, is used<br />

densely across North Africa and Arabic is the<br />

from the Eastern Mediterranean primary BR NO<br />

to the Philippines, as the key language of the<br />

language of the Arab world and Philippines.<br />

the primary vehicle of Islam.<br />

About two weeks before the trial<br />

started, I was in Shapiro’s Shapiro works in BR SÍ<br />

office in Century City. Century City.<br />

Meanwhile, in his interview to a<br />

Western print publication since his<br />

election as president of Iran<br />

earlier this year, Ahmadinejad Ahmadinejad is a EI SÍ<br />

attacked the ‘‘threat’’ to bring citizen of Iran.<br />

the issue of Iran’s nuclear<br />

activity to the UN Security council<br />

by the US, France and Britain.<br />

Tabla 5.7. Ejemplos de re<strong>conocimiento</strong> de la Vinculación Textual


128 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Los criterios de relevancia y las pautas seguidas para su diseño se detallan<br />

a continuación:<br />

La Vinculación Textual es una relación bidireccional. La hipótesis debe<br />

ser inferida a partir <strong>del</strong> texto, pero el texto no necesariamente es<br />

inferido a partir de la hipótesis.<br />

La hipótesis debe ser plenamente inferida por el texto. Los criterios no<br />

consideran si la hipótesis incluye partes que pueden no ser inferidas a<br />

partir <strong>del</strong> texto.<br />

Los casos en que la inferencia es muy probable (pero no completamente<br />

cierta) son juzgados como vinculación positiva. En los ejemplos de<br />

la tabla 5.7, en el marco <strong>del</strong> quinto se puede pensar que aunque Shapiro’s<br />

office está en Century City, el sujeto nunca llega a su oficina y,<br />

en consecuencia, trabaja en otra parte. Sin embargo, esta interpretación<br />

<strong>del</strong> texto es muy improbable y, en consecuencia, la vinculación<br />

encaja con gran probabilidad.<br />

La definición de vinculación permite suposiciones <strong>del</strong> <strong>conocimiento</strong><br />

<strong>del</strong> mundo <strong>del</strong> tipo: una empresa tiene un director general, un director<br />

general es un empleado de la compañía, un empleado es una<br />

persona, etc. Por ejemplo, en la última vinculación de la tabla 5.7, la<br />

vinculación depende de conocer que el presidente de un país es también<br />

un ciudadano de ese país.<br />

El experimento desarrollado (Ferrández et al. , 2006a) para abordar<br />

el problema de la vinculación <strong>textual</strong> existente entre texto e hipótesis<br />

consiste en establecer una comparación entre las representaciones<br />

semánticas asociadas a T y H, obteniendo un factor de similitud y, en<br />

base a este factor, decidir si existe vinculación o no. Para ello, el primer<br />

paso consiste en analizar la relación existente entre los predicados <strong>del</strong><br />

tipo verbo (VB) <strong>del</strong> texto y la hipótesis. Si los conceptos que representan<br />

ambos predicados tienen algún tipo de relación 2 , a continuación se<br />

analiza la relación existente entre los restantes predicados relacionados<br />

con los predicados <strong>del</strong> tipo verbo. Las relaciones entre predicados se<br />

indica asignándoles un peso que toma valores entre 0 y 1 dependiendo<br />

<strong>del</strong> grado de relación existente entre ambos predicados. Si este peso toma<br />

un valor próximo a cero significa que apenas existe relación entre<br />

ambos predicados, mientras que si toma un valor próximo a 1 significa<br />

que ambos predicados están muy relacionados. Todos estos pesos derivados<br />

<strong>del</strong> análisis de los pares de predicados <strong>del</strong> texto y la hipótesis son<br />

2 Por ejemplo, los conceptos representados por los verbos run y walk tendrían relación. Sin embargo,<br />

no ocurriría lo mismo con los conceptos que representan los verbos eat y run.


5.3 Participación en la tarea Recognising Textual Entailment <strong>del</strong> PASCAL 2006 129<br />

sumados y normalizados, produciendo el factor de similitud entre texto<br />

e hipótesis. Si este factor de similitud supera cierto umbral implica que<br />

existe una relación de vinculación <strong>textual</strong> entre T y H; en otro caso, no<br />

existe dicha relación de vinculación <strong>textual</strong> entre T y H. Este umbral<br />

ha sido establecido previamente en la fase de entrenamiento <strong>del</strong> sistema<br />

con el corpus de desarrollo. La figura 5.4 resume esta arquitectura<br />

general <strong>del</strong> sistema de vinculación <strong>textual</strong>.<br />

FL Texto<br />

Texto<br />

Derivación de las<br />

Formas Lógicas<br />

Computación de la similitud<br />

Semántica entre Formas Lógicas<br />

factor<br />

¿Implicación?<br />

SI NO<br />

Figura 5.4. Arquitectura <strong>del</strong> sistema de vinculación <strong>textual</strong><br />

Hipótesis<br />

FL Hipótesis<br />

Para el cálculo <strong>del</strong> peso de la relación entre pares de predicados se han<br />

seguido dos estrategias: la primera de ellas está basada en las relaciones<br />

entre sentidos definidas en el recurso léxico WordNet (Miller, 1995)<br />

mientras que la segunda está basada en la medida de Lin (Lin, 1998a).<br />

Ambas estrategias se basan en la jerarquía definida en WordNet.<br />

Para determinar el valor <strong>del</strong> umbral se asignan valores empíricos sobre<br />

tres ejecuciones diferentes: WNsuperficial, WNdetallado y WNLin.<br />

WNsuperficial hace uso de tres relaciones de WordNet (sinonimia, hiponimia<br />

y entailment) que se consideran más adecuadas para la tarea de<br />

implicación <strong>textual</strong>. WNdetallado utiliza seis relaciones (hiperonimia,<br />

hiponimia, implicación, sinonimia, meronimia y holonimia) para obtener<br />

el peso de similitud entre dos conceptos. La última ejecución, que<br />

utiliza la medida de similitud de Lin, se le denomina WNLin. La figura<br />

5.5 muestra la relación existente entre los valores empíricos que toma<br />

el umbral y la precisión obtenida por el sistema para cada uno de estos<br />

valores en la fase de entrenamiento <strong>del</strong> sistema.<br />

El umbral que mejores resultados de precisión obtiene sobre el corpus<br />

de desarrollo es de 0.24 para las ejecuciones WNLin y WNdetallado,<br />

mientras que para la ejecución WNsuperficial el mejor umbral empírico<br />

es de 0.25. Aunque los umbrales son bastante parecidos y sufren un<br />

comportamiento similar conforme se van aumentando, para la evalua-


130 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Accuracy<br />

0,55<br />

0,545<br />

0,54<br />

0,535<br />

0,53<br />

0,525<br />

0,52<br />

0,515<br />

0,51<br />

0,505<br />

0,5<br />

0,1 0,2 0,21 0,23 0,24 0,25 0,26 0,3 0,5 0,7<br />

Umbral<br />

Figura 5.5. Ajuste <strong>del</strong> umbral sobre el corpus de desarrollo<br />

ción se considera el valor de 0.24.<br />

WNLin<br />

WNsuperficial<br />

WNcomplejo<br />

Como se puede apreciar en los ejemplos de vinculación <strong>textual</strong> de la<br />

tabla 5.7, debe existir cierta vinculación entre los pares de palabras <strong>del</strong><br />

texto y de la hipótesis (ej. husband y widow, treat y administer, president<br />

y citizen, etc). Por ello, para la desambiguación <strong>del</strong> sentido de<br />

las palabras se consideran, en conjunto, los pares de palabras <strong>del</strong> texto<br />

y la hipótesis. Para ello son tenidos en cuenta únicamente la mitad de<br />

los sentidos de WordNet ordenados por frecuencia de aparición. Dada<br />

esta consideración <strong>del</strong> número de sentidos a considerar, a continuación<br />

se analizan las relaciones de similitud semántica existentes entre los<br />

pares de conceptos asociados a las palabras <strong>del</strong> texto y la hipótesis.<br />

La relación que maximiza la similitud semántica desambigua el sentido<br />

<strong>del</strong> par de palabras <strong>del</strong> texto y la hipótesis. Ello permite determinar el<br />

concepto asociado a cada predicado de la forma lógica. A continuación<br />

se especifican las dos estrategias seguidas para determinar la similitud<br />

semántica entre los pares de palabras <strong>del</strong> texto y la hipótesis.<br />

Estrategia basada en las relaciones entre sentidos de Word-<br />

Net. En la base de datos léxica WordNet (Miller, 1995), un synset es<br />

un conjunto de conceptos que expresan el mismo significado. Se define<br />

un concepto como el uso de una palabra en un determinado contexto<br />

(sentido). De este modo, esta estrategia nos permite conocer si dos conceptos<br />

distintos están relacionados entre si <strong>mediante</strong> la composición de<br />

diferentes relaciones definidas en WordNet. Estas relaciones son: hiperonimia,<br />

hiponimia, entailment, similitud, meronimia y holonimia. La<br />

longitud <strong>del</strong> camino que debe relacionar los dos conceptos, en el caso de<br />

que exista esta relación, nunca debe exceder los cuatro synsets. Cada<br />

una de estas relaciones definida en WordNet tiene asociado un peso:<br />

0.8 para la relación de hiperonimia, 0.7 para la relaciones de hiponimia<br />

y entailment, 0.9 para la relación de similitud, y 0.5 para las relaciones<br />

de meronimia y holonimia. De este modo, el peso <strong>del</strong> camino entre<br />

dos conceptos distintos se calcula como el producto de los pesos de las<br />

relaciones existentes en el camino. Esta técnica es una derivación de


5.3 Participación en la tarea Recognising Textual Entailment <strong>del</strong> PASCAL 2006 131<br />

la técnica empleada por Moldovan y Novischi (2002) en su algoritmo<br />

SpreadWeights.<br />

Estrategia basada en la medida de Lin. En este enfoque, la relación<br />

entre dos conceptos es un valor calculado aplicando la medida<br />

de similitud de Lin (1998a) que viene integrada en el recurso Word-<br />

Net::Similarity (Pedersen et al. , 2004). Este recurso consiste en un<br />

software de dominio abierto desarrollado en la Universidad de Minnesota<br />

que permite calcular la relación existente entre dos conceptos, o<br />

entre dos palabras. La medida de similitud de Lin se centra en el análisis<br />

de las relaciones es-a de WordNet. Está considerada como una medida<br />

basada en el contenido de la información, frente a la anterior medida que<br />

se centra en la ruta de las relaciones. Esta medida aumenta el contenido<br />

de la información <strong>del</strong> least common subsumer (LCS) 3 de dos conceptos<br />

con la suma <strong>del</strong> contenido de información de los propios conceptos.<br />

5.3.4 Resultados<br />

La evaluación <strong>del</strong> sistema de Textual Entailment se enmarca dentro de<br />

la evaluación estándar definida en la tarea PASCAL Second Recognising<br />

Textual Entailment Challenge (Bar-Haim et al. , 2006). En ella,<br />

los sistemas tiene que decidir si existe entailment o no entre los 800<br />

pares de texto e hipótesis de la colección de test. Los resultados <strong>del</strong><br />

Textual Entailment vienen determinados a través de dos medidas de<br />

evaluación: la precisión (accuracy) y la precisión media (average precision).<br />

La tabla 5.8 muestra los resultados obtenidos obtenidos por los<br />

sistemas participantes en la tarea.<br />

Ambas medidas de evaluación presentan ligeras contradicciones a la hora<br />

de decidir, según los números obtenidos en ellas, que el sistema A<br />

es mejor que el sistema B. Por ejemplo, se puede dar el caso en el que<br />

sistema A obtiene mejor resultado que el sistema B en la medida de precisión,<br />

pero el sistema B obtiene mejor resultado que el sistema A en<br />

la medida de precisión media. Concretamente, en la competición RTE2<br />

participaron 23 sistemas en 41 ejecuciones. La media de la precisión de<br />

estos sistemas ronda el 58,55 % mientras que la media de la precisión<br />

media ronda los 59,09 puntos porcentuales. Según la medida de precisión,<br />

la ejecución basada en la medida Lin ocupa el puesto número 29<br />

alcanzando una precisión <strong>del</strong> 55,63 %, mientras que la ejecución basada<br />

en relaciones de WordNet ocupa el puesto número 34 obteniendo<br />

una precisión <strong>del</strong> 54,75 %. En cambio, si nos fijamos en la medida de<br />

precisión media, la participación fue de 18 sistemas con un total de 31<br />

ejecuciones. En el ámbito de la precisión media, la ejecución basada<br />

en la medida Lin ocupa el puesto número 12 alcanzando un valor de<br />

3 LCS es el concepto más específico que dos conceptos comparten como antecesor


132 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Grupo Ejecución Precisión Precisión Media<br />

LCC (Hickl et al. ) 1 0.7538 0.8082<br />

LCC (Tatu et al. ) 1 0.7375 0.7133<br />

Milán y Roma (Zanzotto et al. ) 1 0.6388 0.6441<br />

Dallas (Adams et al. ) 1 0.6262 0.6282<br />

Milán y Roma (Zanzotto et al. ) 2 0.6250 0.6317<br />

Roma y Leeds (Bos et al. ) 1 0.6162 0.6689<br />

Colorado (Nielsen et al. ) 2 0.6112 0.6379<br />

Roma y Leeds (Bos et al. ) 2 0.6062 0.6042<br />

Stanford (de Marneffe et al. ) 2 0.6050 0.5800<br />

ITC-irst y Trento (Kouylekov et al. ) 2 0.6050 0.5046<br />

Tilburg y Twente (Marsi et al. ) 1 0.6050<br />

Colorado (Nielsen et al. ) 1 0.6025 0.6396<br />

Microsoft y Stanford (Vanderwende et al. ) 1 0.6025 0.6181<br />

UNED (Herrera et al. ) 1 0.5975 0.5663<br />

Memphis (Rus et al. ) 1 0.5900 0.6047<br />

Saarland (Burchart et al. ) 1 0.5900<br />

Amsterdam (Katrenko et al. ) 1 0.5900<br />

UNED (Herrera et al. ) 2 0.5887<br />

Microsoft y Stanford (Vanderwende et al. ) 2 0.5850 0.6170<br />

Memphis (Rus et al. ) 2 0.5837 0.5785<br />

Ottawa (Inkpen et al. ) 2 0.5825 0.5816<br />

CL Research (Litkowski et al. ) 1 0.5813<br />

Ottawa (Inkpen et al. ) 1 0.5800 0.5751<br />

Saarland (Burchart et al. ) 2 0.5775<br />

Stanford (de Marneffe et al. ) 1 0.5763 0.6131<br />

ITC-irst y Trento (Kouylekov et al. ) 1 0.5725 0.5249<br />

Amsterdam (Katrenko et al. ) 2 0.5713<br />

CL Research (Litkowski et al. ) 2 0.5663<br />

Alicante (Ferrández et al.) Lin 0.5563 0.6089<br />

Venecia (Delmonte et al. ) 1 0.5563 0.5685<br />

Thomson y Minnesota (Schilder et al. ) 2 0.5550<br />

Alicante (Kozareva et al. ) 2 0.5500 0.5485<br />

Alicante (Kozareva et al. ) 1 0.5487 0.5589<br />

Alicante (Ferrández et al.) Rel. WN 0.5475 0.5743<br />

Sussex (Clarke et al. ) 2 0.5475 0.5260<br />

Dublin (Newman et al. ) 2 0.5437 0.5103<br />

Thomson y Minnesota (Schilder et al. ) 1 0.5437<br />

Melbourne (Nicholson et al. ) 1 0.5288 0.5464<br />

Sussex (Clarke et al. ) 1 0.5275 0.5254<br />

Dublin (Newman et al. ) 1 0.5250 0.5052<br />

Melbourne (Nicholson et al. ) 2 0.5088 0.5053<br />

Tabla 5.8. Resultados de la evaluación en la tarea Recognising Textual Entailment


5.3 Participación en la tarea Recognising Textual Entailment <strong>del</strong> PASCAL 2006 133<br />

60,89 puntos porcentuales mientras que la ejecución basada en relaciones<br />

de WordNet ocupa el puesto número 19 con una precisión media<br />

<strong>del</strong> 57,43 %.<br />

Analizando los resultados en términos de eficacia obtenidos en ambas<br />

medidas y comparándolos con la media de los resultados obtenidos por<br />

los sistemas participantes en la tarea, se puede concluir que el recurso<br />

de representación formal <strong>del</strong> texto desarrollado en la investigación es<br />

totalmente valido para su incorporación en los sistemas de Vinculación<br />

Textual.<br />

5.3.5 Análisis y discusión<br />

El principal propósito de la participación en la tarea Recognising Textual<br />

Entailment viene marcado por el tratamiento <strong>lógico</strong>-conceptual de<br />

la información manejada en los pares texto-hipótesis para decidir si<br />

el texto vincula o no la hipótesis. El tratamiento <strong>lógico</strong> de la información<br />

se centra en el manejo de los predicados de las formas lógicas<br />

asociadas tanto al texto como a la hipótesis. Desde el punto de vista<br />

<strong>del</strong> tratamiento conceptual de la información se trata de establecer el<br />

grado de relación que pueda existir entre determinados predicados de<br />

ambas formas lógicas. Estas relaciones vienen determinadas a partir de<br />

la exploración de conceptos <strong>mediante</strong> la jerarquía definida en el recurso<br />

léxico WordNet.<br />

Analizando los resultados de eficacia obtenidos de la participación en<br />

la tarea RTE, se puede concluir que el procedimiento empleado para<br />

resolver el problema <strong>del</strong> <strong>textual</strong> entailment obtiene unos resultados<br />

en la media de los obtenidos por el resto de sistemas participantes en<br />

esta competición. Se puede concluir que la aplicación <strong>del</strong> recurso <strong>lógico</strong>conceptual<br />

como núcleo <strong>del</strong> sistema es un método válido en el tratamiento<br />

de la Vinculación Textual.<br />

Una vez demostrada la validez <strong>del</strong> recurso en el problema de la vinculación<br />

<strong>textual</strong> y, debido a que la tarea de la vinculación <strong>textual</strong> resume<br />

las necesidades principales de inferencia semántica de otros sistemas<br />

<strong>del</strong> PLN como la Búsqueda de Respuestas, la Recuperación de Información,<br />

la Extracción de Información y la Generación Automática de<br />

Resúmenes, podemos concluir también que la aplicación <strong>del</strong> recurso en<br />

estas cuatro aplicaciones <strong>del</strong> PLN es perfectamente válida desde el punto<br />

de vista <strong>del</strong> matiz de completitud conceptual detallado al inicio <strong>del</strong><br />

capítulo.


134 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

5.4 Participación en la tarea Answer Validation<br />

Exercise <strong>del</strong> CLEF 2006<br />

5.4.1 Objetivos<br />

El objetivo de la tarea Answer Validation Exercise <strong>del</strong> CLEF 2006<br />

(Peñas et al. , 2007) consiste en evaluar los sistemas capaces de decidir<br />

si la respuesta devuelta por un sistema de Búsqueda de Respuestas es<br />

correcta o no. El punto de partida de la tarea AVE es la reformulación<br />

de la validación de la respuesta como un problema de re<strong>conocimiento</strong><br />

<strong>del</strong> Textual Entailment bajo la presunción de que la hipótesis puede ser<br />

generada automáticamente instanciando patrones de hipótesis con las<br />

respuestas devueltas por los sistemas de Búsqueda de Respuestas. Con<br />

ello se pretende promover nuevas líneas de investigación en el desarrollo<br />

y evaluación de subsistemas capaces de validar la corrección de las<br />

respuestas devueltas por los sistemas de Búsqueda de Respuestas.<br />

Los sistemas participantes en la tarea de evaluación deben devolver un<br />

valor de dos posibles (SÍ o NO) para cada par de texto-hipótesis indicando<br />

si el texto vincula o no la hipótesis (ej. la respuesta es correcta<br />

acorde al texto).<br />

La evaluación se basa únicamente en la detección de las respuestas<br />

correctas, considerando si existe o no la suficiente evidencia de éstas.<br />

Las medidas de evaluación utilizadas para describir la eficacia de los sistemas<br />

participantes en la tarea AVE son la precisión, la cobertura y la<br />

medida F sobre los pares con entailment verdadero. La precisión (véase<br />

51) y la cobertura (véase 52) han sido definidas en las secciones previas<br />

<strong>del</strong> capítulo. En cambio, la medida F (véase 53) se define como la<br />

media armónica ponderada (factor 1) de precisión y cobertura. Esto es<br />

así porque el propósito perseguido es destacar aquellos sistemas capaces<br />

de detectar vinculación en los pares texto-hipótesis, o capaces de detectar<br />

si existe suficiente evidencia para considerar que existe vinculación<br />

entre el texto y la hipótesis.<br />

(51) precision =<br />

(52) cobertura =<br />

(53) F = 2·precision·cobertura<br />

precision+cobertura<br />

| correctos pronosticados como SI |<br />

| {pronosticados como SI} ∩ {pares DESCONOCIDOS} |<br />

| correctos pronosticados como SI |<br />

| {pares SI} |


5.4 Participación en la tarea Answer Validation Exercise <strong>del</strong> CLEF 2006 135<br />

5.4.2 Motivación y aportaciones esperadas<br />

El problema planteado en la tarea Answer Validation Exercise es claramente<br />

un problema de Vinculación Textual o Textual Entailment en el<br />

que el conjunto de pares texto-hipótesis se deriva a partir de los recursos<br />

existentes para la tarea de Búsqueda de Respuestas de la campaña de<br />

evaluación CLEF así como de las respuestas generadas por los sistemas<br />

participantes en dicha tarea. En la sección anterior <strong>del</strong> capítulo, donde<br />

se detalla todo lo relativo a la participación en la tarea PASCAL RTE,<br />

se ha especificado este problema. Debido a la similitud existente entre<br />

la anterior tarea PASCAL RTE y la tarea Answer Validation Exercise,<br />

tanto la motivación como las aportaciones esperadas para la tarea<br />

Answer Validation Exercise son exactamente las mismas que para su<br />

homóloga PASCAL RTE y, por ello, no cabe repetir lo ya especificado<br />

anteriormente en el capítulo.<br />

Como novedad y extensión a todo lo anterior, conviene matizar que<br />

se quiere medir la eficacia <strong>del</strong> sistema desde el punto de vista de la<br />

precisión, cobertura y medida F, frente a la precisión y precisión media<br />

utilizadas en la anterior tarea PASCAL RTE. También se quiere<br />

contrastar la eficacia <strong>del</strong> sistema en el conjunto de los nuevos sistemas<br />

participantes en esta tarea.<br />

5.4.3 Desarrollo<br />

Con diferencia a anteriores campañas de evaluación de los sistemas de<br />

Búsqueda de Respuestas, un fragmento de texto es requerido para apoyar<br />

la corrección de las respuestas. Los criterios de relevancia de la<br />

Búsqueda de Respuestas se diseñan considerando el fragmento de texto<br />

dado como conservando la relación directa entre los criterios de relevancia<br />

de la Búsqueda de Respuestas y los <strong>del</strong> Re<strong>conocimiento</strong> de la<br />

Implicación Textual:<br />

Los pares correspondientes a respuestas consideradas como correctas<br />

tienen un valor de vinculación igual a S Í.<br />

Los pares correspondientes a respuestas consideradas como incorrectas<br />

o no soportadas tienen un valor de vinculación igual a NO.<br />

Los pares correspondientes a respuestas consideradas como inexactas<br />

tienen un valor de vinculación igual a DESCONOCIDO y son ignoradas<br />

de la propuesta de evaluación.<br />

Los pares de provenientes de respuestas no evaluadas en la tarea de<br />

Búsqueda de Respuestas son etiquetados también como DESCONO-


136 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

CIDO así como excluidos de la evaluación.<br />

La colección se ha construido <strong>del</strong> siguiente modo: los textos se corresponden<br />

con cada una de las respuestas devueltas por los sistemas de<br />

Búsqueda de Respuestas para cada una de las preguntas, mientras que<br />

las hipótesis se obtienen a partir de las preguntas expresadas de modo<br />

afirmativo junto con su respuesta correcta.<br />

Debido a que se trata de un problema de re<strong>conocimiento</strong> <strong>del</strong> Textual<br />

Entailment, el experimento realizado para resolver el problema planteado<br />

por la tarea AVE (Ferrández et al. , 2007) es exactamente el mismo<br />

que el realizado para la tarea PASCAL RTE detallado en la sección<br />

anterior <strong>del</strong> capítulo con la salvedad de las particularidades incluidas<br />

en las medidas de evaluación de la tarea AVE frente a las de la tarea<br />

PASCAL RTE.<br />

5.4.4 Resultados<br />

La tabla 5.9 muestra los resultados obtenidos de la participación en la<br />

tarea AVE <strong>del</strong> CLEF 2006.<br />

Grupo Sistema Medida F Precisión Cobertura<br />

LCC COGEX 0.4559 0.3261 0.7576<br />

Roma ZNZ - TV 2 0.4106 0.2838 0.7424<br />

ITC-irst itc-irst 0.3919 0.3090 0.5354<br />

Roma ZNZ - TV 1 0.3780 0.2707 0.6263<br />

Alicante MLEnt 2 0.3720 0.2487 0.7374<br />

Alicante Lin 0.3177 0.2040 0.7172<br />

Alicante MLEnt 1 0.3174 0.2114 0.6364<br />

Alicante Rel. WN 0.3070 0.2144 0.5404<br />

Twente utwente.ta 0.3022 0.3313 0.2778<br />

Twente utwente.lcs 0.2759 0.2692 0.2828<br />

Valencia ebisbal 0.075 0.2143 0.0455<br />

Tabla 5.9. Resultados de la evaluación en la tarea Answer Validation Exercise<br />

A pesar de que se utilizan las medidas de evaluación precisión, cobertura<br />

y medida F, es ésta última la que combina los resultados obtenidos por<br />

las dos anteriores y, en consecuencia, es la más adecuada para sacar las<br />

conclusiones pertinentes a la validez de los sistemas desde el punto de<br />

vista de la eficacia. La media de la medida F de todos los sistemas es<br />

de 32,76 puntos porcentuales. Comparando este valor con los resultados<br />

obtenidos por el sistema desarrollado (31,77 % para la ejecución basada<br />

en la medida Lin y 30,70 % para la ejecución basada en la exploración<br />

de las relaciones de WordNet) cabe concluir que el sistema desarrollado


5.4 Participación en la tarea Answer Validation Exercise <strong>del</strong> CLEF 2006 137<br />

tomando como núcleo principal el tratamiento <strong>lógico</strong>-conceptual que<br />

proporciona el recurso de representación formal <strong>del</strong> texto está en la<br />

media <strong>del</strong> resto de sistemas de vinculación <strong>textual</strong> participantes en la<br />

tarea.<br />

5.4.5 Análisis y discusión<br />

El cometido principal de la participación en la tarea Answer Validation<br />

Exercise <strong>del</strong> CLEF 2006, al igual que en la participación en la tarea<br />

Recognising Textual Entailment viene determinado por el tratamiento<br />

<strong>lógico</strong>-conceptual de la información manejada en los pares texto-hipótesis<br />

para decidir si el texto vincula la hipótesis o no. El tratamiento <strong>lógico</strong><br />

de la información se centra en el manejo de los predicados de las formas<br />

lógicas asociadas tanto al texto como a la hipótesis. Desde el punto de<br />

vista <strong>del</strong> tratamiento conceptual de la información se trata de establecer<br />

el grado de relación que pueda existir entre determinados predicados<br />

de ambas formas lógicas. Estas relaciones vienen determinadas a partir<br />

exploración de conceptos <strong>mediante</strong> la jerarquía definida en el recurso<br />

léxico WordNet.<br />

Al igual que ocurría en la participación en la tarea PASCAL RTE,<br />

analizando los resultados de eficacia obtenidos de la participación en<br />

la tarea AVE <strong>del</strong> CLEF 2006, se puede concluir que el procedimiento<br />

empleado para resolver el problema <strong>del</strong> Textual Entailment obtiene<br />

unos resultados obtiene unos resultados en la media de los obtenidos<br />

por el resto de sistemas participantes en esta competición. Por ello,<br />

analizando y comparando los resultados obtenidos según las medidas<br />

de evaluación utilizadas en la tarea PASCAL RTE como los resultados<br />

obtenidos según las medidas de evaluación utilizadas en la tarea AVE,<br />

se puede concluir que la aplicación <strong>del</strong> recurso <strong>lógico</strong>-conceptual como<br />

núcleo <strong>del</strong> sistema es un método válido en el tratamiento de la Vinculación<br />

Textual.<br />

Al igual que se detalla en la sección anterior <strong>del</strong> capítulo, una vez demostrada<br />

la validez <strong>del</strong> recurso en el problema de la vinculación <strong>textual</strong><br />

y, debido a que la tarea de la vinculación <strong>textual</strong> resume las necesidades<br />

principales de inferencia semántica de otros sistemas <strong>del</strong> PLN<br />

como la Búsqueda de Respuestas, la Recuperación de Información, la<br />

Extracción de Información y la Generación Automática de Resúmenes,<br />

podemos concluir también que la aplicación <strong>del</strong> recurso en estas cuatro<br />

aplicaciones <strong>del</strong> PLN es perfectamente válida desde el punto de vista<br />

<strong>del</strong> matiz de completitud conceptual detallado al inicio <strong>del</strong> capítulo.


138 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

5.5 Participación en la tarea Multilingual Question<br />

Answering <strong>del</strong> CLEF 2008<br />

5.5.1 Introducción<br />

La tarea de evaluación Multilingual Question Answering (Forner et al.<br />

, 2008) propone dos subtareas para evaluar la validez de los sistemas de<br />

Búsqueda de Respuestas:<br />

La subtarea monolingüe en la que el idioma de las preguntas (source<br />

language) y el idioma de la colección de documentos (target language)<br />

es el mismo.<br />

La subtarea de idiomas cruzados en la que las preguntas se formulan<br />

en un idioma diferente al de la colección de documentos.<br />

En esta tarea, los sistemas deben dar respuesta a 200 preguntas relacionadas<br />

por tópico <strong>del</strong> modo más exacto posible. Cada respuesta debe ser<br />

extraída de alguna porción de texto contenida en algún documento de<br />

la colección. Estas porciones de texto pueden ser extraídas de diferentes<br />

secciones de los documentos relevantes y pueden ser resumidas hasta un<br />

máximo de 700 bytes. No existen restricciones particulares en la longitud<br />

de las respuestas aportadas por los sistemas, pero se penalizan las<br />

piezas innecesarias de información en ellas.<br />

Las preguntas se relacionan por tópico <strong>del</strong> siguiente modo:<br />

El tópico es nombrado bien en la primera pregunta o bien en la respuesta<br />

a esta primera pregunta.<br />

Las siguientes preguntas pueden tener correferencias al tópico expresado<br />

en el primer par pregunta-respuesta.<br />

Por ejemplo, si el tópico es “George W. Bush”, el conjunto de preguntas<br />

relacionadas podrías ser:<br />

(54) Q1: Who is George W. Bush?<br />

Q2: When was he born?<br />

Q3: Who is his wife?<br />

La colección de documentos de la subtarea de idiomas cruzados inglésespañol<br />

comprende las noticias de los años 1994 y 1995 publicadas por


5.5 Participación en la tarea Multilingual Question Answering <strong>del</strong> CLEF 2008 139<br />

la agencia española de noticias EFE.<br />

Las preguntas pueden ser de tres tipos:<br />

Factuales. Estas preguntas se basan en hechos y pueden referirse a una<br />

persona, un lugar, etc. Estas preguntas sólo pueden tener ocho tipos<br />

de respuesta: persona, tiempo, lugar, organización, medida, cómputo,<br />

objeto y otro.<br />

Definición. Éstas son <strong>del</strong> tipo “Qué/Quién es X?” y se dividen en<br />

cuatro subtipos: persona, organización, objeto y otro.<br />

Lista cerrada. La respuesta a este tipo de preguntas es una lista de<br />

elementos.<br />

Los criterios de evaluación consideran la respuestas devueltas por los<br />

sistemas en uno de los siguientes cuatro tipos:<br />

R (correcta) si la respuesta es correcta.<br />

W (incorrecta) si la respuesta es incorrecta.<br />

X (inexacta) si la respuesta contiene menos o más información de la<br />

requerida como correcta.<br />

U (no soportada) si el documento contenedor de la respuesta es<br />

erróneo o no se corresponde con ninguno de los de la colección. También<br />

se consideran en este tipo aquellas respuestas cuya porción de<br />

texto no contiene la respuesta exacta.<br />

La principal medida de evaluación es la precisión aunque también, debido<br />

a que los sistemas pueden devolver más de una respuesta por pregunta,<br />

se consideran en la evaluación las dos siguientes medidas:<br />

la medida de confianza ponderada Confident Weighted Score (CWS).<br />

Las respuestas están en un orden decreciente de confianza y CWS<br />

premia a los sistemas dan las respuestas correctas en los primeros lugares<br />

<strong>del</strong> ranking.<br />

el rango de media recíproca Mean Reciprocal Rank (MRR) sobre N<br />

respuestas calculadas por pregunta (para considerar las tres respuestas).<br />

Esta medida mide el número de respuestas correctas en las primeras<br />

N posiciones. Por ejemplo, si la respuesta correcta está en la<br />

tercera posición y N vale 3, su valor es de 1/3.


140 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

5.5.2 Motivación y aportaciones esperadas<br />

En lo que respecta a la evaluación llevada a cabo hasta el actual apartado,<br />

el recurso <strong>lógico</strong>-conceptual ha sido integrado en sistemas de PLN<br />

que procesan textos en la lengua inglesa. Por el contrario, en el ámbito<br />

de esta evaluación, el recurso se incorpora a un sistema de Búsqueda de<br />

Respuestas en el que la colección documental se compone de un gran<br />

volumen de noticias en español de la agencia EFE. Sin embargo, la colección<br />

de preguntas que procesa el sistema viene dada en la lengua inglesa.<br />

Con el propósito de traducir cada una de estas preguntas de la lengua<br />

inglesa a la española, se va a integrar el recurso de representación desarrollado<br />

en el sistema de Búsqueda de Respuestas. Con ello se pretende<br />

que, a partir <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual que hace a la representación<br />

formal <strong>del</strong> texto independiente de la lengua, las preguntas representadas<br />

sean traducidas de la lengua inglesa a la española.<br />

Tal y como se matiza en el tercer capítulo, el núcleo de la representación<br />

es la forma lógica. En la forma lógica, alguna de las palabras <strong>del</strong> texto<br />

a representar como los determinantes y las palabras que indican los<br />

tiempos verbales, no son representadas porque son consideradas como<br />

irrelevantes en la propia representación. Este hecho implica que, en el<br />

proceso de traducción de las preguntas a partir de esta representación,<br />

la propia traducción va a tener una calidad ligeramente inferior a la obtenida<br />

por cualquier sistema de Traducción Automática que considera<br />

todas las palabras de las preguntas. Debido a ello y a que el recurso<br />

desarrollado no ha sido originalmente concebido para ser utilizado en<br />

tareas de traducción, se pretende que los resultados <strong>del</strong> proceso global<br />

de Búsqueda de Respuestas aplicando la traducción de las preguntas a<br />

través <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual proporcionado por el recurso<br />

no sean muy inferiores a los obtenidos aplicando cualquier sistema de<br />

Traducción Automática.<br />

Con ello quedaría demostrado que el tratamiento <strong>lógico</strong>-conceptual proporcionado<br />

por el recurso que hace que la representación semántica incorpore<br />

la información conceptual contenida en WordNet y relacionada<br />

entre las diferentes lenguas a través de EuroWordNet es perfectamente<br />

válido para ser incorporado en el sistema de Búsqueda de Respuestas.<br />

Desde esta óptica quedarían demostrador los matices de completitud<br />

conceptual e independencia de la lengua tratados al inicio <strong>del</strong> capítulo.<br />

5.5.3 Desarrollo<br />

El problema de Búsqueda de Respuestas sobre la colección de documentos<br />

de EFE en el idioma español a preguntas traducidas <strong>del</strong> inglés al


5.5 Participación en la tarea Multilingual Question Answering <strong>del</strong> CLEF 2008 141<br />

idioma español se solventa aplicando el sistema de Búsquedas de Respuestas<br />

AliQAn (Roger et al. , 2005) desarrollado en el propio grupo<br />

de investigación. AliQAn es un sistema de Búsqueda de Respuestas en<br />

el dominio abierto que hace un uso intenso de herramientas de PLN, en<br />

concreto, etiquetado POS, análisis parcial y desambiguación <strong>del</strong> sentido<br />

de las palabras.<br />

Este sistema, partiendo <strong>del</strong> análisis parcial, identifica las distintas estructuras<br />

gramaticales de una frase, llamadas bloques sintácticos (SB).<br />

Estos bloques se corresponden con sintagmas verbales, sintagmas nominales<br />

o sintagmas preposicionales. Para detectar y extraer las respuestas<br />

a las preguntas, a partir de las porciones de texto devueltas por el módulo<br />

de Recuperación de Información, establece un emparejado entre los<br />

bloques sintácticos de estas porciones de texto y los bloques sintácticos<br />

de las preguntas.<br />

Con el propósito de traducir las preguntas <strong>del</strong> inglés al español para<br />

poder ser procesadas por AliQAn se utiliza el tratamiento <strong>lógico</strong>conceptual<br />

que proporciona el recurso de formas lógicas desarrollado en<br />

el trabajo de investigación. En concreto, este proceso se basa en el tratamiento<br />

especificado en las secciones 4.4 y 4.4.1 <strong>del</strong> anterior capítulo.<br />

Mediante este procedimiento de traducción, la traducción de preguntas<br />

se basa en la traducción de los diferentes predicados <strong>lógico</strong>-conceptuales<br />

que tiene la representación semántica de las preguntas. Según lo especificado<br />

en el trabajo de investigación, la representación semántica,<br />

derivada a partir de la forma lógica, no incluye en ésta algunos constituyentes<br />

<strong>del</strong> texto como determinantes y tiempos verbales que, al no<br />

tenerlos en la representación, hacen que la calidad de la traducción sea<br />

algo inferior a la calidad de la traducción realizada por cualquier otro<br />

mecanismo de traducción que disponga de toda la información dada en<br />

las frases o expresiones a traducir.<br />

Para demostrar este hecho, se utiliza un sistema de Traducción Automática<br />

inglés-español 4 con el que se comparará el resultado global <strong>del</strong> proceso<br />

de Búsqueda de Respuestas ante la traducción de las preguntas<br />

realizada con este traductor automático frente a la traducción de las<br />

preguntas realizada a partir <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual incorporado<br />

en el recurso de formas lógicas. Con ello, se pretende demostrar<br />

que, aunque el tratamiento <strong>lógico</strong>-conceptual que proporciona el recurso<br />

de formas lógicas, permite obtener una representación en cualquier lengua<br />

de la oración representada, la traducción entre diferentes lenguas<br />

a partir de esta representación, no es tan buena como la Traducción<br />

4 Free Translation en http://www.freetranslation.com


142 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Automática debido a que en esta representación, no están representadas<br />

algunas palabras de la frase como determinantes y tiempos verbales que,<br />

no son cruciales en la propia representación semántica, pero sí cobran<br />

especial interés a la hora de traducir una oración entre las diferentes<br />

lenguas.<br />

Además, en sistemas de Búsqueda de Respuestas que tienen un alto<br />

componente lingüístico, como AliQAn, el hecho de omitir palabras en<br />

la traducción implica que surjan errores en el etiquetado de los bloques<br />

sintácticos y, en consecuencia, un decremento <strong>del</strong> resultado global <strong>del</strong><br />

proceso de Búsqueda de Respuestas.<br />

5.5.4 Resultados<br />

La tabla 5.10 muestra los resultados <strong>del</strong> proceso global de Búsqueda<br />

de Respuestas obtenidos en las dos ejecuciones sobre las 200 preguntas<br />

tratadas en cada ejecución. En el marco de la precisión, principal<br />

medida de evaluación de la Recuperación de Información, la ejecución<br />

que traduce las preguntas <strong>mediante</strong> Traducción Automática obtiene un<br />

12,5 % de precisión frente al 9 % de precisión obtenido en la ejecución<br />

que traduce las preguntas a partir <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual.<br />

Ejecución #R #W #X #U % Precisión CSW MRR<br />

Trad. aut. 25 173 0 2 12.5 0.011 0.1450<br />

Lógico-C. 18 176 3 3 9 0.006 0.1108<br />

Tabla 5.10. Resultados de la Búsqueda de Respuestas inglés-español<br />

Considerando estos valores de precisión en el marco de la Búsqueda<br />

de Respuestas, la traducción de las preguntas a partir <strong>del</strong> tratamiento<br />

<strong>lógico</strong>-conceptual obtiene un rendimiento <strong>del</strong> 72 % <strong>del</strong> rendimiento obtenido<br />

por la Traducción Automática. Teniendo en cuenta que el recurso<br />

<strong>lógico</strong>-conceptual no ha sido originalmente concebido para traducir textos<br />

entre diferentes lenguas y, haciendo eco de la pérdida de palabras<br />

que tiene el tratamiento <strong>lógico</strong>-conceptual para hacer la traducción, este<br />

resultado es mucho más que aceptable.<br />

5.5.5 Análisis y discusión<br />

El principal propósito de la participación en la tarea Multilingual Question<br />

Answering viene marcado por el tratamiento <strong>lógico</strong>-conceptual de<br />

las preguntas formuladas en la lengua inglesa que permite su traducción<br />

a la lengua española. Este tratamiento requiere la utilización de los


5.6 Evaluación en la clasificación de preguntas médicas 143<br />

WordNets de ambas lenguas relacionados a partir de EuroWordNet.<br />

Analizando los resultados de eficacia obtenidos por el “traductor”<br />

<strong>lógico</strong>-conceptual y el traductor automático en la participación en la<br />

tarea Multilingual Question Answering, se puede concluir que el procedimiento<br />

<strong>lógico</strong>-conceptual empleado para resolver el problema de traducción<br />

de las preguntas obtiene unos resultados más que aceptables.<br />

Se puede concluir que la aplicación <strong>del</strong> recurso <strong>lógico</strong>-conceptual como<br />

núcleo <strong>del</strong> proceso de traducción de la pregunta es un método válido<br />

para ser incorporado en el sistema de Búsqueda de Respuestas entre<br />

lenguas cruzadas.<br />

Por ello, se puede concluir que la aplicación <strong>del</strong> recurso en la Búsqueda<br />

de Respuestas entre lenguas cruzadas es perfectamente válido desde el<br />

punto de vista de los matices de completitud conceptual e independencia<br />

de la lengua tratados al inicio <strong>del</strong> capítulo.<br />

5.6 Evaluación en la clasificación de preguntas<br />

médicas<br />

5.6.1 Introducción<br />

Una de las principales tareas de los sistemas de Búsqueda de Respuestas<br />

es la clasificación y el análisis de las preguntas formuladas al sistema.<br />

Básicamente esta tarea tiene como propósito principal identificar tanto<br />

el tipo de pregunta como el tipo de respuesta esperado, así como la<br />

detección de las palabras clave de la pregunta. Toda esta información<br />

la etiqueta de alguna manera para informar de ello al resto de tareas<br />

que componen en su conjunto el proceso de Búsqueda de Respuestas.<br />

Cuando se trabaja en Búsqueda de Respuestas en el dominio abierto, se<br />

tiende a darle más prioridad a la cobertura que a la precisión, ésto es, se<br />

le suele dar más importancia al gran abanico de preguntas de diferente<br />

naturaleza capaces de ser contestadas por los sistemas (ej. ¿Dónde<br />

está situado el edificio más grande <strong>del</strong> mundo?, ¿Cuántos torneos de la<br />

ATP ganó Roger Federer en el año 2006?, ¿Cuándo se casó por primera<br />

vez Elizabeth Taylor?, ¿Quién es Bill Clinton?,...) que a la precisión<br />

de la respuestas devueltas por el sistema para cualquier pregunta. Por<br />

el contrario, cuando se habla de la Búsqueda de Respuestas en los dominios<br />

específicos, se reduce notablemente la cobertura por la propia<br />

naturaleza <strong>del</strong> dominio específico y la precisión pasa a cobrar una mayor<br />

importancia.<br />

La primera tarea que hacen los sistemas de Búsqueda de Respuestas es<br />

la clasificación de las preguntas formuladas al sistema. Esta tarea re-


144 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

quiere de una gran precisión porque errores en esta tarea condiciona negativamente<br />

el resultado global de la Búsqueda de Respuestas. Además,<br />

en cualquier dominio específico, se reduce notablemente la tipología de<br />

preguntas capaces de ser resueltas por los sistemas de Búsqueda de<br />

Respuestas.<br />

Ésto es, se reduce la cobertura <strong>del</strong> sistema de Búsqueda<br />

de Respuestas y, en consecuencia, se requiere que el proceso tenga una<br />

elevada precisión dada la reducida muestra de preguntas que el sistema<br />

es capaz de resolver.<br />

El objetivo perseguido en este hito consiste en desarrollar un clasificador<br />

de preguntas médicas (Terol et al. , 2007) basado en el tratamiento<br />

<strong>lógico</strong>-conceptual de las preguntas y en el manejo de la terminología<br />

empleada en el dominio médico.<br />

Las diferentes preguntas en el dominio de la medicina pueden ser muy<br />

numerosas, más aún si se tienen en cuenta cada una de sus disciplinas.<br />

Con el propósito de construir un clasificador preciso, la tipología de<br />

preguntas médicas tratadas por el clasificador se centra en las definidas<br />

por Ely et al. (2000) en la taxonomía de preguntas propuesta. Esta taxonomía<br />

de preguntas se obtiene de las diez preguntas más frecuentes<br />

que, según un estudio practicado a 103 médicos de familia de Iowa y<br />

a 49 médicos de atención primaria de Oregón, manejan este tipo de<br />

especialistas. Concretamente, estas diez preguntas son:<br />

1. What is the drug of choice for condition x?<br />

2. What is the cause of symptom x?<br />

3. What test is indicated in situation x?<br />

4. What is the dose of drug x?<br />

5. How should I treat condition x (not limited to drug treatment)?<br />

6. How should I manage condition x (not specifying diagnostic or therapeutic)?<br />

7. What is the cause of physical finding x?<br />

8. What is the cause of test finding x?<br />

9. Can drug x cause (adverse) finding y?<br />

10. Could this patient have condition x?


5.6 Evaluación en la clasificación de preguntas médicas 145<br />

Para evaluar la validez <strong>del</strong> clasificador se utiliza la medida de precisión,<br />

ésto es, la relación entre el número de preguntas clasificadas correctamente<br />

y el número de preguntas clasificadas.<br />

5.6.2 Motivación y aportaciones esperadas<br />

En lo que respecta la evaluación llevada a cabo hasta este punto <strong>del</strong><br />

trabajo de investigación, se han contemplado únicamente las particularidades<br />

referidas al tratamiento <strong>del</strong> texto en el dominio abierto. Por el<br />

contrario y, en el ámbito de la evaluación de la clasificación de preguntas<br />

planteada en esta sección <strong>del</strong> capítulo, se va a utilizar el recurso para<br />

realizar la representación formal <strong>del</strong> texto en el ámbito de un dominio<br />

restringido, concretamente, el dominio médico. Con ello se pretende<br />

demostrar la validez <strong>del</strong> recurso desde el punto de vista <strong>del</strong> matiz de<br />

independencia <strong>del</strong> dominio visto al inicio <strong>del</strong> capítulo. Esto es, tanto la<br />

portabilidad <strong>del</strong> recurso al dominio restringido como el mantenimiento<br />

de sus propiedades pese al proceso de migración al dominio médico.<br />

Las diferentes tareas de evaluación vistas hasta este punto <strong>del</strong> trabajo<br />

de investigación permiten que los resultados proporcionados por el resto<br />

de sistemas participantes en dichas tareas puedan ser comparados con<br />

los resultados proporcionados por los sistemas desarrollados que utilizan<br />

el recurso de formas lógicas. En cambio, al ser ésta una tarea de<br />

evaluación ad-hoc, no se pueden contrastar los resultados <strong>del</strong> clasificador<br />

desarrollado con otros clasificadores debido a que no se dispone de<br />

la participación de tales clasificadores. Con el propósito de contrastar<br />

la validez <strong>del</strong> clasificador frente a algún otro clasificador <strong>del</strong> mismo tipo<br />

de preguntas, se va a integrar en la evaluación otro clasificador desarrollado<br />

<strong>mediante</strong> aprendizaje automático utilizando la técnica Support<br />

Vector Machine (SVM) que es la técnica que, en general, mejor resultados<br />

de clasificación de preguntas obtiene en el tratamiento basado en<br />

aprendizaje automático (Zhang & Lee, 2003).<br />

El problema de la clasificación de las preguntas médicas según la taxonomía<br />

planteada por Ely et al. (2000) se resuelve <strong>mediante</strong> la comparación<br />

de la representación semántica asociada a la pregunta con cada<br />

una de las representaciones semánticas asociadas a las preguntas genéricas<br />

de la taxonomía. Mediante esta comparación, el clasificador debe<br />

decidir con cuál de los diez tipos genéricos se corresponde la pregunta<br />

formulada al sistema. Para realizar esta función el sistema necesita de<br />

<strong>conocimiento</strong> semántico <strong>del</strong> dominio médico.<br />

El recurso de representación semántica desarrollado en el trabajo de<br />

investigación, a través <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual en el dominio<br />

médico llevado a cabo sobre la forma lógica, reúne los requisitos necesa-


146 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

rios para su integración en el clasificador de preguntas médicas. Por ello,<br />

se pretende que el núcleo <strong>del</strong> clasificador sea la propia representación<br />

semántica de las preguntas tratadas. A partir de las representaciones<br />

semánticas de las preguntas genéricas y de cada una de las preguntas<br />

tratadas, se pretende aplicar una técnica de comparación para que el<br />

clasificador decida el tipo de la pregunta tratada.<br />

Por ello, el segundo propósito de la aplicación de la investigación en<br />

la clasificación de preguntas en el dominio médico pretende demostrar<br />

también la validez <strong>del</strong> recurso en el ámbito de la propia tarea visto desde<br />

el enfoque <strong>del</strong> matiz de completitud conceptual detallado al inicio<br />

<strong>del</strong> capítulo. Con ello quedaría también demostrado que el tratamiento<br />

<strong>lógico</strong>-conceptual proporcionado por el recurso que hace que la representación<br />

semántica incorpore la información conceptual contenida en<br />

el tesauro médico asociada a las palabras de las preguntas y, a su vez,<br />

que esta información conceptual sea no ambigua, es perfectamente válido<br />

para ser incorporado en el clasificador de las preguntas médicas.<br />

Para demostrar la validez <strong>del</strong> recurso de representación desde el punto<br />

de vista <strong>del</strong> matiz de la completitud conceptual se realiza la evaluación<br />

de la clasificación de las preguntas. En esta evaluación se pretende que,<br />

los resultados <strong>del</strong> sistema desarrollado estén en la línea e incluso superen<br />

los resultados obtenidos por el otro clasificador basado en aprendizaje<br />

automático.<br />

5.6.3 Desarrollo<br />

En esta subsección <strong>del</strong> capítulo, en un primer lugar se van a introducir<br />

las consideraciones tenidas en cuenta para el desarrollo <strong>del</strong> clasificador<br />

de preguntas médicas basado en el tratamiento <strong>lógico</strong>-conceptual.<br />

Posteriormente, se va a presentar la evaluación ad-hoc llevada a cabo<br />

sobre este clasificador (Terol et al. , 2007). En tercer lugar se presentarán<br />

las características básicas <strong>del</strong> clasificador basado en aprendizaje<br />

automático (SVM). Por último, se introducen las características de la<br />

nueva evaluación ad-hoc, más extensa que la anterior, utilizada para<br />

contrastar la validez de ambos clasificadores.<br />

Desde el punto de vista <strong>del</strong> desarrollo <strong>del</strong> clasificador basado en el tratamiento<br />

<strong>lógico</strong>-conceptual, se considera que cada una de las diez preguntas<br />

genéricas tiene uno o más patrones semánticos asociados. En<br />

concreto, un patrón semántico está compuesto por una combinación de<br />

verbos y tipos semánticos que pueden o deben aparecer en cualquier<br />

pregunta expresada en lenguaje natural que esté asociada a una de las<br />

preguntas genéricas tratadas. Como se detalla en el capítulo anterior, la<br />

semántica asociada a la terminología médica expresada en este dominio


5.6 Evaluación en la clasificación de preguntas médicas 147<br />

es manejada a partir de la información disponible en el Metatesauro<br />

(Humphreys & Lindberg, 1993) de UMLS (Lindberg & Humphreys,<br />

1993). Por ejemplo, los patrones “Pharmacologic Substance + treat +<br />

Sign or Symptom” y “Clinical Drug + control + Disease or Syndrome”<br />

serían dos ejemplos de patrones semánticos asociados a la primera pregunta<br />

genérica. Los patrones tienen asociados dos umbrales que relacionan<br />

el número de entidades médicas que contienen:<br />

MELT, definido como el número mínimo de entidades médicas que<br />

la forma semántica de una pregunta debe tener para poder asociarse<br />

con el patrón.<br />

MEUT, que se define como el número máximo de entidades médicas<br />

que la forma semántica de una pregunta puede tener para poder asociarse<br />

con el patrón.<br />

En caso concreto de los dos patrones de anterior ejemplo, tanto MELT<br />

como MEUT quedarían instanciadas a dos entidades médicas.<br />

Al igual que las preguntas genéricas tienen uno o más patrones semánticos<br />

asociados, cada una de las preguntas a clasificar tiene una única forma<br />

semántica asociada. La forma semántica de una pregunta a clasificar<br />

tiene la misma estructura que un patrón semántico, es decir, consta de<br />

uno o más verbos y tipos semánticos. A continuación, el ejemplo 55<br />

detalla la forma semántica asociada a una pregunta:<br />

(55) Pregunta: What drug can I take to manage my high<br />

blood pressure?<br />

Forma semántica: Pharmacologic Substance + take<br />

+ manage + Disease or Syndrome<br />

La tarea de clasificación de preguntas debe decidir si la pregunta a<br />

clasificar pertenece a alguna clase (se empareja con alguna pregunta<br />

genérica) o no pertenece a ninguna clase (no se empareja con ninguna<br />

pregunta genérica). Para conseguir este objetivo, esta tarea se enfoca<br />

en el tratamiento de las formas semánticas de las preguntas a clasificar<br />

y los patrones semánticos de las preguntas genéricas, y se realiza<br />

siguiendo los siguientes pasos:<br />

Derivar la representación semántica asociada a la pregunta a clasificar,<br />

tal y como se explica en el capítulo anterior.


148 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Extraer el verbo principal de la representación semántica.<br />

Derivar la forma semántica de la pregunta a clasificar, calculando con<br />

ello su marcador de entidades médicas (MESQ). MESQ se define como<br />

el número de entidades médicas en la forma de la pregunta <strong>del</strong><br />

usuario.<br />

Filtrar aquellos patrones en cuya lista de verbos esté contenido el verbo<br />

principal de la representación semántica de la pregunta a clasificar<br />

y que, además, cumplan la restricción MELT ≤ MESQ ≤ MEUT .<br />

Asignar la medida de emparejado de entidades (EMM) definida como<br />

el número de entidades médicas que se deben emparejar entre la<br />

pregunta y el patrón.<br />

Seleccionar el patrón que minimiza diferencia entre EMM y MELT.<br />

A continuación, el ejemplo 56 muestra un escenario de la tarea de clasificación<br />

de la pregunta concreta “What drug manages temperature?”,<br />

emparejada con el primer tipo genérico de preguntas de la taxonomía.<br />

(56) Pregunta: What drug manages temperature?<br />

<strong>Representación</strong> semántica: T121:C1254351:drug:NN(x2)<br />

manage:VB(e1, x2, x1) T032:C0005903:temperature:NN(x1)<br />

Verbo Principal: manage<br />

Forma semántica: Pharmacologic Substance(T121) +<br />

manage + Organism Attribute(T032). MESQ=2<br />

Patrones Comparables: 5 P11, P12, P13, P14, P15 y<br />

P16<br />

EMM: P Q<br />

11 = 1, P Q<br />

12 = 2, P Q<br />

13 = 1, P Q<br />

14 = 0, P Q<br />

15 = 1<br />

y P Q<br />

16 = 0<br />

Patrón Seleccionado: P12<br />

5 En este ejemplo sólo se comparan patrones <strong>del</strong> primer tipo genérico


5.6 Evaluación en la clasificación de preguntas médicas 149<br />

Clase de Pregunta Genérica: GE1 (primera pregunta<br />

genérica)<br />

La primera tarea de evaluación ad-hoc propuesta para cuantificar la<br />

validez <strong>del</strong> clasificador de preguntas médicas basado en el tratamiento<br />

<strong>lógico</strong>-conceptual (Terol et al. , 2007) se basa en una evaluación de similares<br />

características realizada por Chung et al. (Chung et al. , 2004)<br />

en un trabajo de investigación previo sobre la Búsqueda de Respuestas<br />

en dominios restringidos. Concretamente, para definir el corpus de evaluación<br />

de preguntas, por una parte, se han desarrollado una serie de<br />

preguntas que encajan con cada una de las preguntas genéricas tratadas<br />

por el clasificador y, por otra parte, se ha utilizado el corpus de las 200<br />

preguntas de evaluación de la tarea en inglés QA <strong>del</strong> CLEF 2005. De<br />

este modo, el corpus de evaluación se puede dividir en las siguientes<br />

clases de preguntas:<br />

GQ: 50 preguntas asociadas a la taxonomía de preguntas tratada<br />

por el clasificador <strong>del</strong> modo: GQ1 es la subclase que contiene cinco<br />

preguntas asociadas con la primera pregunta genérica, GQ2 es la subclase<br />

que contiene cinco preguntas asociadas con la segunda pregunta<br />

genérica, ..., GQ10 es la subclase que contiene cinco preguntas asociadas<br />

con la décima pregunta genérica.<br />

OQ: las 200 preguntas de la tarea de evaluación QA en inglés <strong>del</strong><br />

CLEF 2005.<br />

De este modo, el clasificador debe clasificar cada una de las preguntas<br />

tratadas en una de las siguientes clases de preguntas:<br />

GE: Esta clase de preguntas incluye las preguntas genéricas de la taxonomía<br />

tratada siendo: GE1 la subclase asociada a la primera pregunta<br />

genérica, GE2 la subclase asociada a la segunda pregunta genérica,<br />

..., GE10 la subclase asociada a la décima pregunta genérica.<br />

OE: El resto de preguntas de cualquier otro dominio.<br />

De este modo, la tarea de evaluación consiste en comprobar si cada una<br />

de las 250 preguntas (GQ1, ..., GQ10 y OQ) tratadas por el clasificador<br />

son correctamente clasificadas en sus clases asociadas (GE1, ..., GE10 y<br />

OE). Como medida de evaluación aplicamos la medida de precisión (P)<br />

definida como el ratio entre el número de preguntas clasificadas correctamente<br />

y el número de preguntas clasificadas.


150 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

El principal cometido <strong>del</strong> clasificador consiste en decidir, dada una pregunta,<br />

si dicha pregunta se corresponde con una de las 10 preguntas<br />

genéricas tratadas, y en este caso cuál, o si por el contrario, dicha pregunta<br />

no se corresponde con ninguna de las genéricas de la taxonomía<br />

tratada. Para ello, el clasificador realiza una comparación entre la forma<br />

semántica de la pregunta tratada y los patrones semánticos de las<br />

preguntas genéricas que realiza <strong>del</strong> siguiente modo:<br />

El primer paso consiste en derivar la forma semántica de la pregunta<br />

tratada así como su MESQ, <strong>del</strong> mismo modo que se ha visto en el<br />

ejemplo 56.<br />

Seguidamente, se extrae el verbo principal de la forma semántica.<br />

El siguiente paso consiste en encontrar los patrones semánticos de<br />

las preguntas genéricas cuyo verbo coincida con el verbo de la forma<br />

semántica de la pregunta tratada y se cumpla que MELT ≤<br />

MESQ ≤ MEUT .<br />

Finalmente calculamos el factor EMM definido como el número de<br />

entidades médicas que tienen en común la forma semántica de la pregunta<br />

y el patron semántico.<br />

El último paso consiste en quedarse con el patrón semántico cuya diferencia<br />

entre el factor EMM y el umbral MELT es mínima.<br />

Si ningún patrón semántico cumple los requisitos de este proceso, entonces<br />

la pregunta tratada no se asocia con ninguna de las preguntas<br />

genéricas de la taxonomía.<br />

Los resultados obtenidos en esta primera tarea de clasificación se muestran<br />

en las tablas 5.11 y 5.12. En la tabla 5.11 se muestran los resultados<br />

obtenidos en la clasificación de cada subclase de preguntas, mientras que<br />

en la tabla 5.12 se muestran los mismos resultados desde un punto de<br />

vista más global de la evaluación taxonomía de preguntas genéricas.<br />

Se puede apreciar en la tabla 5.12 que el resultado global de la clasificación<br />

de preguntas es de un 94,4 %. Analizando este valor se puede llegar<br />

a una primera conclusión de que el método de clasificación de preguntas<br />

médicas desarrollado a partir <strong>del</strong> tratamiento <strong>lógico</strong>-conceptual aportado<br />

en el recurso, es un método factible.<br />

Con el propósito de realizar una comparación con algún otro tipo de<br />

clasificador, en el seno <strong>del</strong> grupo de investigación, se ha desarrollado<br />

un clasificador para el mismo tipo de preguntas basado en aprendizaje


5.6 Evaluación en la clasificación de preguntas médicas 151<br />

Clase Clasificada Clase Relacionada Preguntas Correctas Precisión<br />

GQ1 GE1 5 5 1<br />

GQ2 GE2 5 5 1<br />

GQ3 GE3 5 3 0.6<br />

GQ4 GE4 5 4 0.8<br />

GQ5 GE5 5 5 1<br />

GQ6 GE6 5 4 0.8<br />

GQ7 GE7 5 4 0.8<br />

GQ8 GE8 5 3 0.6<br />

GQ9 GE9 5 5 1<br />

GQ10 GE10 5 4 0.8<br />

OQ OE 200 194 0.97<br />

Tabla 5.11. Evaluación detallada de la clasificación de preguntas<br />

Clase Clasificada Clase Relacionada Preguntas Correctas Precisión<br />

GQ GE 50 42 0.84<br />

OQ OE 200 194 0.97<br />

Global − 250 231 0.944<br />

Tabla 5.12. Evaluación global de la clasificación de preguntas<br />

automático utilizando la técnica SVM (Bisbal et al. , 2005). Este clasificador<br />

se basa en características <strong>textual</strong>es superficiales que hacen un<br />

escaso uso de recursos y herramientas lingüísticas adicionales.<br />

Este segundo clasificador basado en aprendizaje automático requiere de<br />

un entrenamiento previo a la clasificación. Para ello se han desarrollado<br />

300 preguntas (30 preguntas por cada uno de los 10 tipos genéricos).<br />

En el Anexo C están detalladas cada una de estas 300 preguntas.<br />

Para la clasificación se elaborado tres diferentes colecciones de preguntas<br />

que también están detalladas en el anexo C:<br />

Colección 1: Contiene cien preguntas de test (diez de cada tipo genérico)<br />

con un léxico similar a las preguntas de entrenamiento.<br />

Colección 2: Modifica las preguntas de la colección 1 incluyendo alteraciones<br />

<strong>del</strong> léxico consistentes en el cambio de los tiempos verbales<br />

y la utilización de sinónimos para los verbos y los sustantivos.<br />

Colección 3: Modifica las preguntas de la colección 2 incluyendo alteraciones<br />

<strong>del</strong> léxico consistentes en la supresión de la terminología<br />

guía. En esta versión, las expresiones “drug accupril” y “situation<br />

constipated” de la colección 2 pasarían a la forma “accupril” y “constipated”<br />

respectivamente.


152 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Luego, en la segunda tarea de evaluación ad-hoc de la clasificación de<br />

las preguntas médicas, se van a tener en cuenta estás tres colecciones.<br />

Para ello, cada uno de los dos clasificadores va a lanzar tres ejecuciones<br />

de la clasificación: La primera ejecución toma como origen la colección<br />

1, la segunda hace lo propio con la segunda colección mientras que la<br />

tercera considera la tercera colección.<br />

5.6.4 Resultados<br />

La tabla 5.13 muestra los resultados de la clasificación global de preguntas<br />

en términos de precisión de los dos clasificadores en cada una de<br />

las tres ejecuciones propuestas en la evaluación.<br />

Ejecución Clasificador <strong>lógico</strong>-conceptual Clasificador SVM<br />

1 0.98 1<br />

2 0.98 0.73<br />

3 0.98 0.45<br />

Tabla 5.13. Precisión de los clasificadores en cada ejecución de la evaluación<br />

Tras apreciar los resultados obtenidos por ambos clasificadores, cabe<br />

concluir que el clasificador <strong>lógico</strong>-conceptual es constante en la clasificación<br />

obteniendo una precisión <strong>del</strong> 98 % pese a las alteraciones <strong>del</strong><br />

léxico introducidas en las diferentes ejecuciones. Por el contrario, el clasificador<br />

basado en aprendizaje automático es muy irregular, empeorando<br />

considerablemente los resultados de la clasificación ante alteraciones<br />

<strong>del</strong> léxico. Este segundo clasificador, al igual que cualquier clasificador<br />

basado en aprendizaje automático, necesita una muestra amplia y muy<br />

rica en cuanto a variaciones léxicas de cada tipo de preguntas para obtener<br />

un 100 % de precisión.<br />

Además, por este mismo motivo, en esta segunda tarea de evaluación<br />

ad-hoc, no se han considerado otras preguntas como las <strong>del</strong> CLEF tratadas<br />

en la primera evaluación. Resulta prácticamente inviable disponer<br />

de una muestra de entrenamiento con las infinitas preguntas que se le<br />

podrían hacer al clasificador, que le permitiese realizar una clasificación<br />

post-entrenamiento con ciertas garantías.<br />

5.6.5 Análisis y discusión<br />

En el ámbito de la evaluación de la clasificación de preguntas en el dominio<br />

médico, se ha utilizado el tratamiento <strong>lógico</strong>-conceptual proporcionado<br />

por el recurso para realizar la representación formal <strong>del</strong> texto


en el ámbito <strong>del</strong> restringido dominio médico.<br />

5.7 Conclusiones 153<br />

Al ser ésta una tarea de evaluación ad-hoc, con el propósito de comparar<br />

los resultados obtenidos por el clasificador <strong>lógico</strong>-conceptual con<br />

algún otro tipo de clasificador, se ha <strong>mediante</strong> aprendizaje automático<br />

utilizando la técnica Support Vector Machine (SVM) que es la técnica<br />

que, en general, mejor resultados de clasificación de preguntas obtiene<br />

en el tratamiento basado en aprendizaje automático (Zhang & Li, 2005).<br />

El problema de la clasificación de las preguntas médicas según la taxonomía<br />

planteada por Ely et al. (2000) se resuelve <strong>mediante</strong> la comparación<br />

de la representación semántica asociada (forma semántica) a<br />

la pregunta con cada una de las representaciones semánticas asociadas<br />

a las preguntas genéricas de la taxonomía (patrones semánticos). Mediante<br />

esta comparación, el clasificador debe decidir con cuál de los diez<br />

tipos genéricos se corresponde la pregunta formulada al sistema. Para<br />

realizar esta función, el sistema necesita de <strong>conocimiento</strong> semántico <strong>del</strong><br />

dominio médico obtenido a partir <strong>del</strong> metatesauro de UMLS (Humphreys<br />

& Lindberg, 1993).<br />

Tras realizar un análisis de los resultados de la clasificación de preguntas<br />

médicas obtenidos en ambas tareas de evaluación ad-hoc, se demuestra<br />

la validez <strong>del</strong> recurso desde el punto de vista <strong>del</strong> matiz de independencia<br />

<strong>del</strong> dominio visto al inicio <strong>del</strong> capítulo. Esto es, tanto la portabilidad<br />

<strong>del</strong> recurso al dominio restringido como el mantenimiento de sus propiedades<br />

pese al proceso de migración al dominio médico.<br />

También, en el marco de este análisis y comparación de los resultados<br />

de ambos clasificadores, se demuestra la validez <strong>del</strong> propio recurso desde<br />

el enfoque <strong>del</strong> matiz de completitud conceptual detallado al inicio <strong>del</strong><br />

capítulo. Ésto es, queda demostrado también que el tratamiento <strong>lógico</strong>conceptual<br />

proporcionado por el recurso que hace que la representación<br />

semántica incorpore la información conceptual contenida en el tesauro<br />

médico asociada a las palabras de las preguntas y, a su vez, que esta<br />

información conceptual sea no ambigua, es perfectamente válido para<br />

ser incorporado en el clasificador de las preguntas médicas.<br />

5.7 Conclusiones<br />

A lo largo <strong>del</strong> capítulo se justifica la necesidad de evaluar toda la funcionalidad<br />

proporcionada por el recurso <strong>lógico</strong>-conceptual a partir de<br />

diferentes evaluaciones que, en su conjunto, engloben las diferentes aportaciones<br />

efectuadas por el recurso <strong>lógico</strong>-conceptual.


154 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

Por ello, para demostrar la validez <strong>del</strong> recurso <strong>lógico</strong>-conceptual se define<br />

un marco de evaluación en el que queden integrados los componentes<br />

principales que constituyen el recurso <strong>lógico</strong>-conceptual. Una vez definido<br />

este marco, la evaluación global <strong>del</strong> recurso se estructura en evaluaciones<br />

parciales que, tanto de manera individual como de un modo<br />

colectivo, indican la validez de cada uno de estos componentes así como<br />

la validez global <strong>del</strong> recurso <strong>lógico</strong>-conceptual.<br />

Debido a que el recurso <strong>lógico</strong>-conceptual consiste en un mecanismo de<br />

representación formal <strong>del</strong> texto basado en formas lógicas cuyos componentes<br />

o características fundamentales son: ser precisa, conceptualmente<br />

completa, independiente <strong>del</strong> dominio e independiente de la lengua, los<br />

matices que contempla este marco de evaluación son: precisión, completitud<br />

conceptual e independencia tanto <strong>del</strong> dominio como de la lengua.<br />

Por ello, la evaluación practicada al recurso es llevada a cabo a través<br />

de diferentes tareas de evaluación que, en su conjunto, engloban todos<br />

los matices detallados. De este modo, la utilidad o validez que la incorporación<br />

<strong>del</strong> recurso ejerce en los sistemas de PLN es evaluada de<br />

manera global en el marco de la tarea o tareas estándares de evaluación<br />

de cada sistema de PLN.<br />

En el proceso de análisis y determinación de las tareas de evaluación que<br />

deben ser practicadas al recurso para demostrar su validez, en un primer<br />

lugar, se tienen en cuenta las campañas internacionales de evaluación<br />

existentes cuyas tareas consideren alguno de los matices planteados. En<br />

segundo lugar, para el resto de matices no contemplados por este primer<br />

conjunto de tareas de evaluación, es necesario el planteamiento de<br />

tareas de evaluación ad-hoc. Finalmente, se evalúa la validez <strong>del</strong> recurso<br />

desarrollado en la investigación en el marco de cada una de estas tareas.<br />

En el ámbito <strong>del</strong> amplio espectro de diferentes sistemas de PLN donde<br />

el recurso puede ser incorporado con la finalidad de evaluar la validez<br />

que la incorporación <strong>del</strong> recurso aporta a cada uno de los diferentes<br />

sistemas, el hecho de llevar a cabo este proceso de evaluación con todo<br />

el abanico de sistemas de PLN haría interminable el propio proceso de<br />

evaluación. Con objeto de evitar ésto, se ha escogido una muestra más<br />

reducida <strong>del</strong> espectro de sistemas de PLN que abarque las necesidades<br />

de representación formal <strong>del</strong> texto que tienen en su conjunto el amplio<br />

espectro de sistemas de PLN. Concretamente, los sistemas de PLN<br />

en los que se evalúa la validez que aporta la incorporación <strong>del</strong> recurso<br />

<strong>lógico</strong>-conceptual son: Recuperación de Información, Búsqueda de Repuestas<br />

y, Vinculación o Implicación Textual.


5.7 Conclusiones 155<br />

Más concretamente, para la evaluación <strong>del</strong> recurso se han analizado<br />

las tareas Cross-Language Speech Retrieval (CL-SR), Answer Validation<br />

Exercise (AVE) y Multiple Language Question Answering (QA-<br />

CLEF), todas ellas pertenecientes a las campañas de evaluación <strong>del</strong><br />

CLEF. Además, la tarea Recognising Textual Entailment (RTE) en el<br />

marco de la campaña de evaluación PASCAL RTE también ha sido<br />

considerada en el escenario de la evaluación <strong>del</strong> recurso. Por último,<br />

también se efectúa una evaluación ad-hoc de la clasificación de preguntas<br />

médicas según la taxonomía genérica planteada en el estudio<br />

realizado por Ely et al. (2000).<br />

En la tarea CL-SR de la edición <strong>del</strong> año 2005 de la campaña de evaluación<br />

CLEF, se pretende demostrar que la aplicación de heurísticas<br />

<strong>del</strong> tipo lingüístico sobre el proceso de Recuperación de Información<br />

contribuyen en la mejora de la eficacia <strong>del</strong> propio proceso de recuperación<br />

de información. A pesar de que este tipo de heurísticas pueden<br />

ser llevadas a cabo <strong>mediante</strong> diferentes representaciones formales <strong>del</strong><br />

texto, se pretende demostrar también que la forma lógica es, de todas<br />

ellas, la representación formal que optimiza la eficiencia de la aplicación<br />

de las heurísticas lingüísticas. Con ello se pretende demostrar la validez<br />

<strong>del</strong> recurso desde el punto de vista <strong>del</strong> matiz de precisión definido<br />

en el marco de la evaluación. Desde el punto de vista de la eficacia,<br />

analizando los resultados de ambas tareas de evaluación, se demuestra<br />

que, en efecto, la aplicación de heurísticas <strong>del</strong> tipo lingüístico sobre el<br />

proceso de Recuperación de Información contribuye al incremento de la<br />

precisión <strong>del</strong> propio proceso de Recuperación de Información. Desde el<br />

punto de vista de la eficiencia, se verifica también que, la aplicación de<br />

las formas lógicas en el desarrollo de las heurísticas <strong>del</strong> tipo lingüístico<br />

es la más optima frente a otro tipo de representaciones formales <strong>del</strong><br />

texto. Con todo ello se puede concluir que el recurso <strong>lógico</strong>-conceptual<br />

es perfectamente válido desde el punto de vista <strong>del</strong> matiz de precisión<br />

definido en el marco de la evaluación.<br />

Con la participación en las tareas RTE y AVE se pretende demostrar<br />

que el recurso <strong>lógico</strong>-conceptual es válido desde el punto de vista <strong>del</strong><br />

matiz de completitud conceptual definido en el marco de la evaluación.<br />

Con ello quedaría demostrado que el tratamiento <strong>lógico</strong>-conceptual que<br />

aporta el recurso <strong>mediante</strong> la incorporación de la información conceptual<br />

no ambigua contenida en WordNet asociada a las palabras <strong>del</strong><br />

par texto-hipótesis sobre sus respectivas representaciones semánticas es<br />

perfectamente válido para su incorporación en el núcleo <strong>del</strong> sistema<br />

de Vinculación Textual. Tras analizar los resultados obtenidos por el<br />

sistema de Vinculación Textual en ambas tareas y comparar estos resultados<br />

con los obtenidos por el resto de sistemas se concluye la validez<br />

<strong>del</strong> sistema de vinculación <strong>textual</strong> desarrollado a partir <strong>del</strong> tratamiento


156 5. Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual para la representación formal <strong>del</strong> texto<br />

<strong>lógico</strong>-conceptual y, en consecuencia, se demuestra la validez <strong>del</strong> recurso<br />

<strong>lógico</strong>-conceptual desde el punto de vista <strong>del</strong> matiz de completitud<br />

conceptual definido en el marco de la evaluación.<br />

Mediante la participación en la tarea QACLEF se pretende demostrar<br />

que el recurso <strong>lógico</strong>-conceptual es válido desde el punto de vista de los<br />

matices de completitud conceptual e independencia de la lengua definidos<br />

en el marco de la evaluación. Analizando los resultados en esta<br />

tarea se demuestra que el recurso <strong>lógico</strong>-conceptual es válido desde estos<br />

dos matices, siendo capaz de obtener una representación común de<br />

cualquier oración expresada en sus diferentes lenguas a través <strong>del</strong> tratamiento<br />

<strong>lógico</strong>-conceptual.<br />

Mediante la participación en la tarea ad-hoc de clasificación de preguntas<br />

médicas se pretende demostrar que el recurso <strong>lógico</strong>-conceptual es<br />

válido desde el punto de vista de los matices de completitud conceptual<br />

e independencia <strong>del</strong> dominio definidos en el marco de la evaluación.<br />

Analizando los diferentes resultados obtenidos por el clasificador<br />

de preguntas <strong>lógico</strong>-conceptual y comparándolos con los obtenidos por<br />

el clasificador de preguntas basado en aprendizaje automático se concluye<br />

que la validez <strong>del</strong> recurso <strong>lógico</strong>-conceptual desde ambos matices.<br />

En general y, tras analizar los resultados de la evaluación <strong>del</strong> recurso<br />

<strong>lógico</strong>-conceptual en el marco de las evaluaciones definido en estas tareas<br />

y, considerando los matices que contemplan cada una de ellas, cabe<br />

concluir que el recurso <strong>lógico</strong>-conceptual desarrollado en la investigación<br />

es preciso, conceptualmente completo e independiente tanto <strong>del</strong> dominio<br />

como de la lengua. Con ello quedan totalmente alcanzados los objetivos<br />

planteados al inicio <strong>del</strong> trabajo de investigación.


6. Conclusiones finales<br />

Durante los últimos años se está produciendo un notable crecimiento<br />

de la cantidad de información multilingüe en formato digital unido a<br />

la fuerte expansión de las comunicaciones entre ordenadores como vía<br />

principal de transmisión de información entre usuarios. La gran cantidad<br />

de información multilingüe disponible junto al creciente número de<br />

usuarios finales que disponen de acceso directo a dicha información a<br />

través de las redes de ordenadores, ha derivado la investigación en sistemas<br />

de información <strong>textual</strong> o sistemas de PLN que faciliten el análisis,<br />

la localización, la gestión, el acceso y el tratamiento automático de toda<br />

esta información multilingüe.<br />

Aparte de esta cantidad ingente de información multilingüe que debe<br />

ser tratada por los sistemas de PLN, se debe considerar también que en<br />

los últimos años se está produciendo una adaptación de aplicaciones o<br />

sistemas de PLN <strong>del</strong> dominio abierto al dominio restringido, y viceversa.<br />

Los diferentes sistemas de PLN (Búsqueda de Respuestas, Recuperación<br />

de Información, Generación de Resúmenes, Categorización Automática<br />

<strong>del</strong> Texto, ...) no procesan el texto directamente tal cual ha sido escrito o<br />

transcrito sino que, previo a su procesamiento, el texto es transformado<br />

en una representación formal que preserva sus características relevantes.<br />

Es por ello por lo que la representación formal <strong>del</strong> texto es una cuestión<br />

muy importante a tener en cuenta en el PLN.<br />

El trabajo de investigación desarrollado en esta tesis profundiza en el estudio<br />

de los mecanismos de representación formal <strong>del</strong> texto que incorporan<br />

los diferentes sistemas de PLN para realizar su cometido. Dadas las<br />

necesidades de procesamiento <strong>del</strong> texto tanto en entornos multilingües<br />

como en entornos multidominio, se ha definido un nuevo mecanismo<br />

o recurso de representación formal <strong>del</strong> texto que puede ser utilizado<br />

por cualquier sistema de PLN con la particularidad de ser sencillamente<br />

adaptable y portable tanto a cualquier dominio como a cualquier<br />

lengua.


158 6. Conclusiones finales<br />

6.1 Aportaciones<br />

A continuación se resumen las principales contribuciones de esta Tesis:<br />

1. Recopilación de los diferentes tipos de sistemas de PLN.<br />

Se han descrito las características básicas de las diferentes aplicaciones<br />

de PLN en base a las actuaciones que deben llevar a cabo<br />

para realizar su cometido. Se han establecido una serie de pautas<br />

para la clasificación de este tipo de aplicaciones según el grado de<br />

información lingüística utilizado en el desempeño de sus funciones.<br />

2. Análisis de las últimas tendencias en los sistemas de PLN.<br />

Se ha efectuado un análisis de las predisposiciones surgidas durante<br />

la última década en los sistemas más comunes <strong>del</strong> PLN, detectándose<br />

que:<br />

a) Estos sistemas son capaces de procesar el texto tanto en el dominio<br />

abierto como en cualquier dominio restringido.<br />

b) Los sistemas de PLN son capaces de trabajar indistintamente en<br />

diferentes lenguas.<br />

3. Recopilación, estudio y clasificación de los mo<strong>del</strong>os de representación<br />

formal <strong>del</strong> texto.<br />

Se ha justificado la necesidad que tienen los diferentes sistemas de<br />

PLN de disponer de algún mecanismo de representación formal <strong>del</strong><br />

texto que facilite su análisis y comprensión. En esta Tesis se ha<br />

realizado una clasificación y un profundo estudio de los diferentes<br />

enfoques de representación formal <strong>del</strong> texto existentes, así como una<br />

comparación de los diferentes enfoques destacando las ventajas e inconvenientes<br />

de unos frente a otros. Se ha efectuado también un<br />

estudio referente a la integración de estos mo<strong>del</strong>os de representación<br />

formal <strong>del</strong> texto en los principales sistemas de PLN.<br />

4. Análisis y estudio de los mo<strong>del</strong>os de representación formal <strong>del</strong> texto<br />

basados en lógica y en formas lógicas.<br />

Se examinan los diferentes mo<strong>del</strong>os de representación <strong>del</strong> <strong>conocimiento</strong><br />

que hacen uso de un fuerte formalismo <strong>lógico</strong>, desembocando<br />

en un estudio exhaustivo de los dos mo<strong>del</strong>os de representación <strong>del</strong><br />

texto basados en formas lógicas más utilizados y referenciados en el


PLN durante la última década.<br />

6.1 Aportaciones 159<br />

5. Definición de un nuevo mo<strong>del</strong>o de representación formal <strong>del</strong> texto<br />

basado en formas lógicas.<br />

El recurso <strong>lógico</strong>-conceptual es un mo<strong>del</strong>o de representación formal<br />

<strong>del</strong> texto basado en formas lógicas que se diferencia <strong>del</strong> resto por:<br />

a) El método de inferencia de la forma lógica se realiza de manera<br />

composicional a partir <strong>del</strong> árbol de dependencias de la frase<br />

resolviendo, en un primer lugar, los nodos hoja <strong>del</strong> árbol de dependencias<br />

y, en segundo lugar, las relaciones de dependencia<br />

entre los nodos intermedios <strong>del</strong> árbol hasta llegar a la raíz donde,<br />

definitivamente, queda inferida la forma lógica.<br />

b) La información semántica representada en la forma lógica se<br />

efectúa <strong>mediante</strong> los conceptos asociados a las palabras de la<br />

frase que quedan representadas <strong>mediante</strong> los predicados. Si,<br />

además, el recurso o recursos utilizados para extraer está información<br />

conceptual de las palabras permite adquirir más información<br />

semántica que pueda resultar de utilidad en la representación<br />

como los tipos o categorías semánticas de los conceptos,<br />

esta información es incorporada también en la propia representación.<br />

c) Este tratamiento hace que el recurso <strong>lógico</strong>-conceptual sea tanto<br />

independiente <strong>del</strong> dominio como de la lengua. La portabilidad<br />

<strong>del</strong> recurso <strong>lógico</strong>-conceptual tanto entre diferentes dominios como<br />

entre diferentes lenguas depende única y exclusivamente de<br />

la disposición o no que se tenga de un recurso en el que queden<br />

conceptualizadas las palabras <strong>del</strong> nuevo dominio o la nueva lengua<br />

a tratar.<br />

6. Definición de un nuevo marco de evaluación.<br />

Con objeto de evaluar la validez <strong>del</strong> recurso <strong>lógico</strong>-conceptual se ha<br />

definido un marco de evaluación en el que quedan integrados los<br />

componentes principales <strong>del</strong> recurso. Este marco de evaluación global<br />

se estructura en evaluaciones parciales con objeto de, tanto de<br />

manera individual como de un modo colectivo, indicar la validez de<br />

cada uno de estos componentes así como la validez global <strong>del</strong> recurso<br />

<strong>lógico</strong>-conceptual. En este marco de evaluación han sido incluidas<br />

diferentes tareas de PLN:


160 6. Conclusiones finales<br />

a) Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual en tareas de Recuperación<br />

de Información.<br />

Mediante la evaluación en la tarea Cross Language Speech Retrieval<br />

en el ámbito de las conferencias CLEF-2005 y CLEF-2006<br />

se verifica la validez <strong>del</strong> recurso <strong>lógico</strong>-conceptual desde el punto<br />

de vista <strong>del</strong> matiz de precisión definido en el marco global de<br />

evaluación.<br />

b) Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual en tareas de Implicación<br />

o Vinculación Textual.<br />

Al evaluar el recurso <strong>lógico</strong>-conceptual en la tareas Recognising<br />

Textual Entailment, en el ámbito de la conferencia PASCAL-<br />

2006, y Answer Validation Exercise, en el marco de la conferencia<br />

CLEF-2006, queda consolidada la validez <strong>del</strong> recurso <strong>lógico</strong>conceptual<br />

desde el punto de vista <strong>del</strong> matiz de completitud conceptual<br />

definido en el marco global de evaluación.<br />

c) Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual en tareas de Búsqueda<br />

de Respuestas.<br />

Mediante la evaluación en la tarea Multilingual Question Answering<br />

en el ámbito de las conferencia CLEF-2008 se verifica<br />

la validez <strong>del</strong> recurso <strong>lógico</strong>-conceptual desde el punto de vista<br />

de los matices de completitud conceptual e independencia de la<br />

lengua definidos en el marco global de evaluación.<br />

d) Evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual en tareas de clasificación<br />

de preguntas.<br />

Al evaluar el recurso <strong>lógico</strong>-conceptual en la tarea ad-hoc de clasificación<br />

de preguntas médicas queda consolidada la validez <strong>del</strong><br />

recurso <strong>lógico</strong>-conceptual desde el punto de vista de los matices<br />

de completitud conceptual e independencia <strong>del</strong> dominio definidos<br />

en el marco global de evaluación.<br />

6.2 Trabajos futuros<br />

Desde el inicio de la investigación, el objetivo <strong>del</strong> recurso <strong>lógico</strong>conceptual<br />

ha sido siempre el incremento paulatino de su funcionalidad.<br />

En esta línea, las directrices de estudio futuras son las siguientes:


Incorporación de roles semánticos en la representación.<br />

6.2 Trabajos futuros 161<br />

La información semántica presente en la representación formal <strong>del</strong><br />

texto se corresponde con la conceptualización de determinados predicados<br />

de la forma lógica. Especialmente en la última década, los roles<br />

semánticos han emergido de un modo notable en diferentes sistemas<br />

de PLN. Por ello, se pretende dotar al recurso <strong>lógico</strong>-conceptual de<br />

esta nueva funcionalidad que proporcione a la representación formal<br />

<strong>del</strong> texto la información relativa a los roles semánticos para que, de<br />

este modo, los diferentes sistemas de PLN que hagan uso <strong>del</strong> recurso<br />

<strong>lógico</strong>-conceptual puedan tener toda esta información semántica en el<br />

desempeño de sus funciones.<br />

Resolución de la correferencia.<br />

Tras un periodo de tiempo en el que se le había restado importancia<br />

frente a otra problemática, la correferencia está volviendo a tener un<br />

auge en los últimos años en el seno <strong>del</strong> PLN. Por ello, se pretende<br />

dotar al recurso <strong>lógico</strong>-conceptual de <strong>técnicas</strong> que resuelvan este problema<br />

e identifiquen la correferencia, cuando ésta se produzca, en la<br />

representación formal <strong>del</strong> texto, facilitando así esta información a los<br />

sistemas de PLN.<br />

Adaptación <strong>del</strong> recurso <strong>lógico</strong>-conceptual ante los nuevos retos de la<br />

comunicación digital.<br />

La actual Sociedad de la Información utiliza nuevos instrumentos para<br />

la propagación de la información permitiendo que sus usuarios<br />

no sean sólo consumidores, sino también productores de sus propios<br />

mensajes. Estos nuevos mensajes se integran día a día en Internet<br />

conformando la llamada web 2.0, como la mayor plataforma comunicativa<br />

y colaborativa de la historia. Como consecuencia, se dispone<br />

de un gran volumen de información digital en el que destacan los registros<br />

de uso con diferentes grados de ritualidad (formal/informal) y<br />

especialización, emitidos desde diferentes actitudes subjetivas y desde<br />

diferentes situaciones de espacio y tiempo que deben ser analizadas y<br />

comprendidas por los sistemas de PLN.<br />

Ello hace que en la representación formal <strong>del</strong> texto a través <strong>del</strong> recurso<br />

<strong>lógico</strong>-conceptual deban quedar reflejados los detalles referentes a los<br />

sentimientos y actitudes <strong>del</strong> productor de la información analizando,<br />

entre otros, expresiones <strong>del</strong> tipo gestual como son los emoticonos con<br />

el objetivo de detectar e interpretar contenidos indirectos como son<br />

la ironía y el sarcasmo.


162 6. Conclusiones finales<br />

Otro detalle a tener en cuenta consiste en contemplar en la representación<br />

formal <strong>del</strong> texto las nuevas unidades léxicas que simplifican la<br />

escritura de palabras y expresiones utilizando menor número de caracteres.<br />

Ejemplo de ello son expresiones <strong>del</strong> tipo xq (porque), aptc<br />

(apetece), see u (adios), etc.<br />

Extensión de la evaluación <strong>del</strong> recurso a otros sistemas de PLN.<br />

Se ha evaluado el recurso en el ámbito de la Recuperación de Información,<br />

la Búsqueda de Respuestas y Vinculación Textual. Se pretende<br />

extender este espectro de evaluación a otros sistemas de PLN tales<br />

como la Categorización Automática <strong>del</strong> Texto, la Generación de<br />

Resúmenes, los Sistemas de Diálogo, la Extracción de Información,<br />

etc.<br />

Estudio de nuevas métricas de evaluación.<br />

Se han considerado métricas de evaluación que indican la validez <strong>del</strong><br />

recurso desde los puntos de vista de las propiedades de precisión,<br />

completitud conceptual e independencia tanto <strong>del</strong> dominio como de<br />

la lengua. Estas métricas han sido tenidas en cuenta desde la perspectiva<br />

de los conceptos de eficacia y eficiencia. Sería interesante sopesar<br />

también nuevas métricas que indiquen la validez de las propiedades<br />

<strong>del</strong> recurso desde el punto de vista <strong>del</strong> concepto de efectividad.<br />

Incorporación <strong>del</strong> recurso a una plataforma de integración de herramientas<br />

de PLN.<br />

Desde el punto de vista de la programación, la integración <strong>del</strong> recurso<br />

efectuada por los sistemas de PLN no ha sido trivial ya que previamente<br />

se han tenido que resolver diferentes dependencias entre los<br />

lenguajes de programación y las plataformas. Para evitar este tipo de<br />

problemas, la incorporación <strong>del</strong> recurso a la plataforma de integración<br />

InTime (Gómez, 2008) permitiría que los diferentes sistemas de PLN<br />

pudiesen integrar el recurso de una manera modular y, en consecuencia,<br />

ello permitiría una extensibilidad <strong>del</strong> recurso hacia los sistemas<br />

de PLN de un modo sencillo.<br />

6.3 Producción científica<br />

Revistas indexadas (SCI):<br />

• R.M. Terol, P. Martínez-Barco y M. Palomar (2007). A knowledge<br />

based method for the medical question answering problem. Compu-


6.3 Producción científica 163<br />

ters in Biology and Medicine 37(10). Índice de impacto en 2007:<br />

1.170 (Journal Citation Reports r○ 2008, published by Thomson<br />

Reuters)<br />

Revistas no indexadas:<br />

• R.M. Terol, P. Martínez-Barco y M. Palomar (2006). Aplicación de<br />

<strong>técnicas</strong> basadas en PLN al tratamiento de preguntas médicas en<br />

Búsqueda de Respuestas. Procesamiento <strong>del</strong> Lenguaje Natural, 37.<br />

•<br />

Ó. Ferrández, R.M. Terol, R. Muñoz, P. Martínez-Barco y M. Palomar<br />

(2006). Un Sistema basado en Conocimiento para el Re<strong>conocimiento</strong><br />

de Implicación Textual. Procesamiento <strong>del</strong> Lenguaje Natural,<br />

37.<br />

Capítulos de libro:<br />

• R.M. Terol, M. Puchol-Blasco, M. Pardiño, J.M. Gómez, S. Roger,<br />

K. Vila, A. Ferrández, J. Peral y P. Martínez-Barco (2009).<br />

Integrating Logic Forms and Anaphora Resolution in the AliQAn<br />

System, en: Peters, C.;... (Eds.) .... 9th Workshop of the Cross-<br />

Language Evaluation Forum, CLEF 2008, Aarhus, Denmark, September<br />

17-19, 2008, Revised Selected Papers. Lecture Notes in Computer<br />

Science, Vol. x/2009, Springer-Verlag. (Pendiente de publicación)<br />

• M. Pardiño, J.M. Gómez, H. Llorens, R.M. Terol, B. Navarro, E. Saquete,<br />

P. Martínez-Barco, P. Moreda y M. Palomar (2009). IBQAst:<br />

a Question Answering system for text transcriptions, en: Peters,<br />

C.;... (Eds.) .... 9th Workshop of the Cross-Language Evaluation<br />

Forum, CLEF 2008, Aarhus, Denmark, September 17-19, 2008,<br />

Revised Selected Papers. Lecture Notes in Computer Science, Vol.<br />

x/2009, Springer-Verlag. (Pendiente de publicación)<br />

•<br />

Ó. Ferrández, R.M. Terol, R. Muñoz, P. Martínez-Barco y M. Palomar<br />

(2007). A Knowledge-Based Textual Entailment Approach<br />

Applied to the AVE Task, en: Peters, C.; Clough, P.; Gey, F.;<br />

Karlgren, J.; Magnini, B.; Oard, D.; de Rijke, M.; Stempfhuber,<br />

M. (Eds.) Evaluation of Multilingual and Multi-modal Information<br />

Retrieval. 7th Workshop of the Cross-Language Evaluation Forum,<br />

CLEF 2006, Alicante, Spain, September 20-22, 2006, Revised Selected<br />

Papers. Lecture Notes in Computer Science, Vol. 4730/2007,<br />

Springer-Verlag.


164 6. Conclusiones finales<br />

• R.M. Terol, P. Martínez-Barco y M. Palomar (2007). Applying Logic<br />

Forms and Statistical Methods to CL-SR Performance, en: Peters,<br />

C.; Clough, P.; Gey, F.; Karlgren, J.; Magnini, B.; Oard, D.;<br />

de Rijke, M.; Stempfhuber, M. (Eds.) Evaluation of Multilingual<br />

and Multi-modal Information Retrieval. 7th Workshop of the Cross-<br />

Language Evaluation Forum, CLEF 2006, Alicante, Spain, September<br />

20-22, 2006, Revised Selected Papers. Lecture Notes in Computer<br />

Science, Vol. 4730/2007, Springer-Verlag.<br />

•<br />

•<br />

Ó. Ferrández, R.M. Terol, R. Muñoz, P. Martínez-Barco y M. Palomar<br />

(2006). Deep vs. Shallow Semantic Analysis Applied to Textual<br />

Entailment Recognition, en: Salakoski, T.; Ginter, F.; Pyysalo, S.;<br />

Pahikkala, T. (Eds.) Advances in Natural Language Processing. 5th<br />

International Conference on NLP, FinTAL 2006 Turku, Finland,<br />

August 23-25, 2006 Proceedings, Lecture Notes in Computer Science,<br />

Vol. 4139/2006, Springer-Verlag.<br />

Ó. Ferrández, R.M. Terol, R. Muñoz, P. Martínez-Barco y M. Palomar<br />

(2006). A Knowledge Based Strategy for Recognising Textual<br />

Entailment, en: Sojka, P.; Kopecek, I.; Pala, K. (Eds.) Text, Speech<br />

and Dialogue. 9th International Conference, TSD 2006, Brno, Czech<br />

Republic, September 11-15, 2006. Proceedings, Lecture Notes in<br />

Computer Science, Vol. 4188/2006, Springer-Verlag.<br />

• R.M. Terol, P. Martínez-Barco y M. Palomar (2007). Applying NLP<br />

Techniques and Biomedical Resources to Medical Questions in QA<br />

Performance, en: Gelbukh, A.; Reyes-Garcia, C.A. (Eds.) MICAI<br />

2006: Advances in Artificial Intelligence. 5th Mexican International<br />

Conference on Artificial Intelligence, Apizaco, Mexico, November<br />

13-17, 2006. Proceedings, Lecture Notes in Computer Science, Vol.<br />

4293/2006, Springer-Verlag.<br />

• E. Noguera, F. Llopis, R. Muñoz, R.M. Terol, M.A. García-Cumbreras,<br />

F. Martínez-Santiago, y A. Montejo-Raez (2005). Bilingual and<br />

Multilingual Experiments with the IR-n system, en: Peters, C.; Gonzalo,<br />

J.; Müller, H.; Jones, G.J.F.; Kluck, M.; Magnini, B.; de Rijke,<br />

M. (Eds.) Accessing Multilingual Information Repositories. 6th<br />

Workshop of the Cross-Language Evalution Forum, CLEF 2005,<br />

Vienna, Austria, 21-23 September, 2005, Revised Selected Papers,<br />

Lecture Notes in Computer Science, Volume 4022/2006. Springer-<br />

Verlag.<br />

• R.M. Terol, P. Martínez-Barco, M. Palomar, R. Muñoz, F. Llopis<br />

y E. Noguera (2005). The University of Alicante at CL-SR Track,<br />

en: Peters, C.; Gonzalo, J.; Müller, H.; Jones, G.J.F.; Kluck, M.;


6.3 Producción científica 165<br />

Magnini, B.; de Rijke, M. (Eds.) Accessing Multilingual Information<br />

Repositories. 6th Workshop of the Cross-Language Evalution<br />

Forum, CLEF 2005, Vienna, Austria, 21-23 September, 2005, Revised<br />

Selected Papers, Lecture Notes in Computer Science, Volume<br />

4022/2006. Springer-Verlag.<br />

• F. Llopis, R. Muñoz, R.M. Terol y E. Noguera (2005). IR-n r2:<br />

Using Normalized Passages, en: Peters, C.; Clough, P.; Gonzalo,<br />

J.; Jones, G.J.F.; Kluck, M.; Magnini, B. (Eds.) Multilingual Information<br />

Access for Text, Speech and Images. 5th Workshop of the<br />

Cross-Language Evaluation Forum, CLEF 2004, Bath, UK, September<br />

15-17, 2004, Revised Selected Papers, Lecture Notes in Computer<br />

Science, Volume 3491/2005. Springer-Verlag.<br />

• R.M. Terol, P. Martínez-Barco, F. Llopis y T. Martínez (2005). An<br />

Application of NLP Rules to Spoken Document Segmentation Task,<br />

en: Montoyo, A.; Muñoz, R.; Métais, E. (Eds.) Natural Language<br />

Processing and Information Systems. 10th International Conference<br />

on Applications of Natural Language to Information Systems,<br />

NLDB 2005, Alicante, Spain, June 15-17, 2005. Proceedings, Lecture<br />

Notes in Computer Science, Volume 3513/2005. Springer-Verlag.<br />

• R.M. Terol, P. Martínez-Barco y M. Palomar (2004). An architecture<br />

for Spoken Document Retrieval, en: Sojka, P.; Kopecek, I.;<br />

Pala, K. (Eds.) Text, Speech and Dialogue. 7th International Conference,<br />

TSD 2004, Brno, Czech Republic, September 8-11, 2004.<br />

Proceedings, Lecture Notes in Computer Science, Vol. 3206/2004,<br />

Springer-Verlag.<br />

Congresos internacionales:<br />

• M. Pardiño, R.M. Terol, P. Martínez-Barco, F. Llopis y E. Noguera<br />

(2007). Using IR-n for Information retrieval of Genomics Track 16th<br />

Text REtrieval Conference (TREC-16), Gaithersburg (EEUU).<br />

• R.M. Terol (2006) Applying NLP Methods to Medical QA Performance<br />

I Congreso Internacional de Tecnologías <strong>del</strong> Lenguaje Humano<br />

(INAOE), Tonantzintla (México).<br />

•<br />

Ó. Ferrández, R.M. Terol, R. Muñoz, P. Martínez-Barco y M. Palomar<br />

(2006). An Approach Based on Logic Forms and WordNet<br />

relationships to Textual Entailment Performance. The Second PAS-<br />

CAL Recognising Textual Entailment Challenge (PASCAL RTE-2),<br />

Venecia (Italia).


166 6. Conclusiones finales<br />

• R.M. Terol, P. Martínez-Barco y M. Palomar (2005). Applying Logic<br />

Forms to Biomedical Q-A. International Symposium on Innovations<br />

in Intelligent Systems and Applications, Estambul (Turquía).<br />

• R.M. Terol, P. Martínez-Barco y M. Palomar (2003). Architecture<br />

of a multimodal dialogue system oriented to multilingual<br />

question-answering. Recent Advances on Natural Language Processing<br />

(RANLP 2003). Borovets (Bulgaria).


Anexo A. Reglas simples de derivación de<br />

predicados en la forma lógica<br />

En el capítulo 3 se ha comentado que la derivación de la forma lógica<br />

consiste en un proceso composicional que empieza en las hojas <strong>del</strong><br />

árbol de dependencias y continúa por sus ramificaciones en sentido ascendente<br />

hasta llegar a la raíz. Luego, la primera tarea <strong>del</strong> proceso de<br />

derivación de la forma lógica consiste en resolver los nodos hoja <strong>del</strong><br />

árbol de dependencias. En el mismo capítulo, también se ha justificado<br />

la necesidad de reglas simples cuyo propósito es resolver los predicados<br />

de la forma lógica generados en las hojas <strong>del</strong> árbol de dependencias. A<br />

continuación se especifican estas reglas simples.<br />

Especificación de las reglas simples<br />

Tal y como matiza el algoritmo Regla Simple detallado en el capítulo 3,<br />

el primer paso consiste en decidir si el nodo hoja genera o no un predicado<br />

en la forma lógica. Los nodos hoja que infieren un predicado en la<br />

forma son aquellos cuya categoría léxica se corresponda con sustantivo,<br />

adjetivo, indeterminado y preposición. Cabe destacar, que en el análisis<br />

de dependencias, los adverbios son etiquetados de la misma manera<br />

que los adjetivos y, en la forma lógica, tienen el mismo tratamiento, a<br />

excepción de los adverbios que indican la negación <strong>del</strong> verbo.<br />

Una vez comprobada la categoría léxica <strong>del</strong> nodo hoja, en el caso de<br />

que ésta se corresponda con algún tipo de los comentados en el párrafo<br />

anterior, el siguiente paso <strong>del</strong> algoritmo consiste en generar el predicado<br />

asociado al nodo hoja. A continuación se especifica la derivación de los<br />

predicados asociados a los nodos hoja atendiendo a la categoría léxica<br />

de los nodos hoja.<br />

Derivación de predicados en nodos hoja <strong>del</strong> tipo sustantivo<br />

Los nodos hoja <strong>del</strong> tipo sustantivo infieren un predicado con un único<br />

argumento que queda instanciado con una variable <strong>del</strong> tipo x. A continuación,<br />

el cuadro 57 muestra un ejemplo de derivación <strong>del</strong> predicado<br />

asociado a un nodo hoja de tipo sustantivo.


168<br />

(57) Expresión: The northeast of London.<br />

Nodo hoja: London<br />

Predicado inferido: london:NN(x1)<br />

Derivación de predicados en nodos hoja <strong>del</strong> tipo adjetivo<br />

Los nodos hoja <strong>del</strong> tipo adjetivo infieren un predicado con un único<br />

argumento que queda instanciado con una variable <strong>del</strong> tipo x. A continuación,<br />

el cuadro 59 muestra un ejemplo de derivación <strong>del</strong> predicado<br />

asociado a un nodo hoja de tipo adjetivo.<br />

(58) Expresión: The red house.<br />

Nodo hoja: red<br />

Predicado inferido: red:JJ(x1)<br />

Derivación de predicados en nodos hoja <strong>del</strong> tipo indeterminado<br />

Los nodos hoja <strong>del</strong> tipo indeterminado infieren un predicado con un<br />

único argumento que queda instanciado con una variable <strong>del</strong> tipo x.<br />

Como característica significativa, el tipo de predicado inferido no es<br />

posible determinado en este nivel <strong>del</strong> proceso de inferencia de la forma<br />

lógica. Ello lo realizará la regla compleja que tenga en cuenta los detalles<br />

significativos al núcleo, modificador, tipo y posición de la dependencia,<br />

tal y como se matiza en el siguiente anexo. A continuación, el cuadro<br />

59 muestra un ejemplo de derivación <strong>del</strong> predicado asociado a un nodo<br />

hoja de tipo indeterminado.<br />

(59) Expresión: The magnetic resonance imaging.<br />

Nodo hoja: magnetic<br />

Predicado inferido: magnetic: (x1)<br />

Nodo hoja: resonance<br />

Predicado inferido: resonance: (x2)<br />

Derivación de predicados en nodos hoja <strong>del</strong> tipo preposición<br />

Este tipo de nodo hoja tiene un tratamiento especial. Se suele dar en<br />

los phrasal verbs. Por ello, la estrategia de la regla simple en este caso<br />

es no hacer nada y dejar que sea la regla compleja quien resuelva la<br />

dependencia. A continuación, el cuadro 60 muestra un ejemplo de este<br />

tratamiento.<br />

(60) Expresión: Switch the light on.


Nodo hoja: on<br />

Predicado inferido: ∅<br />

169


Anexo B. Reglas complejas de derivación<br />

de predicados en la forma lógica<br />

Continuando en el marco <strong>del</strong> proceso composicional de derivación de<br />

las formas lógicas que tiene su origen en las hojas <strong>del</strong> árbol de dependencias<br />

y continúa por sus ramificaciones en sentido ascendente hasta<br />

llegar a la raíz, en este apartado se hace un análisis de las reglas complejas<br />

de derivación que, según se ha comentado en el capítulo 3, tienen<br />

en cuenta las categorías léxicas tanto <strong>del</strong> núcleo como <strong>del</strong> modificador<br />

de la dependencia, la posición <strong>del</strong> modificador (anterior o posterior)<br />

frente al núcleo de la dependencia y el tipo de relación de dependencia.<br />

Además, el núcleo de la dependencia tiene en cuenta los predicados<br />

inferidos hasta el momento por el modificador o los nodos inferiores a<br />

éste para, si procede, relacionarlos con el predicado o predicados que se<br />

puedan generar en dicho núcleo.<br />

La casuística que se puede dar en las reglas complejas es muy extensa.<br />

Cabe pensar que las reglas complejas dependen de los cuatro factores<br />

mencionados en el anterior apartado (categorías léxicas tanto <strong>del</strong> núcleo<br />

como <strong>del</strong> modificador de la dependencia, la posición <strong>del</strong> modificador<br />

frente al núcleo de la dependencia y el tipo de relación de dependencia).<br />

Cada una de las combinaciones de los valores que pueden adquirir<br />

estos factores da origen a una regla compleja diferente. Si se analizan<br />

todas ellas, la redacción y posterior lectura de este anexo sería tediosa.<br />

Para evitar producir este efecto, la estrategia seguida consiste en especificar<br />

alguna de las reglas complejas que se tienen en cuenta para inferir<br />

los principales predicados de la forma lógica explicados en el capítulo<br />

3, simplificando con ello la redacción y posterior lectura de este anexo.<br />

A continuación se detallan estas reglas complejas.<br />

Reglas de derivación de predicados <strong>del</strong> tipo sustantivo<br />

En un nodo intermedio <strong>del</strong> tipo sustantivo, el número de reglas complejas<br />

que se pueden dar es muy alto, dependiendo de los factores mencionados<br />

al inicio <strong>del</strong> anexo. Básicamente, todas estas reglas complejas<br />

tienen en común la derivación <strong>del</strong> predicado de tipo sustantivo asociado<br />

al nodo núcleo de la relación de dependencia, así como la comproba-


172<br />

ción de existencia de algún tipo de relación entre predicados inferidos<br />

en los nodos inferiores y el predicado de tipo sustantivo inferido en el<br />

nodo núcleo tratado que deba ser reflejada de algún modo en la forma<br />

lógica. En el caso de que exista alguna relación entre estos nodos que<br />

deba ser reflejada en la forma lógica, ésta se resuelve en el nodo núcleo<br />

de la relación de dependencia, relacionando el nuevo predicado <strong>del</strong> tipo<br />

sustantivo generado en el nodo núcleo de la relación de dependencia<br />

con los predicados inferidos en sus nodos inferiores en el marco de este<br />

proceso composicional. Esta comprobación se debe tener en cuenta, no<br />

sólo para los predicados <strong>del</strong> tipo sustantivo tratados en este apartado,<br />

sino también para los restantes tipos de predicado que se detallan a<br />

continuación en este anexo.<br />

Para clarificar mejor este proceso, a continuación se especifica la aplicación<br />

de tres reglas complejas sobre tres ejemplos de relaciones de dependencia<br />

cuyo núcleo es un predicado <strong>del</strong> tipo sustantivo. En el ejemplo<br />

61 no se da ninguna relación que deba ser tratada en el nodo núcleo<br />

de la relación de dependencia y reflejada consiguientemente en la forma<br />

lógica. Por el contrario, en los ejemplos 62 y 63 sí que se trata la relación<br />

existente entre los predicados de la forma lógica inferidos en los nodos<br />

inferiores al nodo núcleo de la relación de dependencia y el predicado<br />

inferido en el propio nodo núcleo que debe ser tenida en cuenta en la<br />

forma lógica.<br />

(61) Expresión: The red house.<br />

Nodo modificador: the<br />

Categoría léxica nodo modificador: Det<br />

Posición nodo modificador: anterior<br />

Predicados <strong>del</strong> nodo modificador: ∅<br />

Nodo núcleo: house<br />

Categoría léxica <strong>del</strong> nodo núcleo: N<br />

Relación de dependencia: det<br />

Predicados <strong>del</strong> nodo núcleo: house:NN( ) 1<br />

Restricciones a tratar: Ninguna.<br />

(62) Expresión: The red house.<br />

Nodo modificador: red<br />

Categoría léxica nodo modificador: A<br />

1 Todavía ninguna variable instancia el predicado porque faltan relaciones de dependencia por<br />

resolver en el nodo núcleo


Posición nodo modificador: anterior<br />

Predicados <strong>del</strong> nodo modificador: red:JJ(x1)<br />

Nodo núcleo: house<br />

Categoría léxica <strong>del</strong> nodo núcleo: N<br />

Relación de dependencia: mod<br />

Predicados <strong>del</strong> nodo núcleo: red:JJ(x1) house:NN( )<br />

Restricciones a tratar: Sí.<br />

173<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

red:JJ(x1) house:NN(x1)<br />

(63) Expresión: The northeast of London.<br />

Nodo modificador: of<br />

Categoría léxica nodo modificador: Prep<br />

Posición nodo modificador: posterior<br />

Predicados <strong>del</strong> nodo modificador: of:IN( , x1) 2 london:NN(x1)<br />

Nodo núcleo: northeast<br />

Categoría léxica <strong>del</strong> nodo núcleo: N<br />

Relación de dependencia: mod<br />

Predicados <strong>del</strong> nodo núcleo: northeast:NN(x2) of:IN( ,<br />

x1) london:NN(x1)<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

northeast:NN(x2) of:IN(x2, x1) london:NN(x1)<br />

Reglas de derivación de predicados <strong>del</strong> tipo verbo<br />

Del mismo modo que sucede en el caso de los sustantivos, el número de<br />

reglas complejas que se pueden dar en una relación de dependencia en<br />

la que el nodo núcleo de la relación es <strong>del</strong> tipo verbo es muy elevado.<br />

Para simplificar, a continuación se van a mostrar tres ejemplos de ellas.<br />

El ejemplo 64 muestra una relación de dependencia <strong>del</strong> tipo sujeto. Estas<br />

dos relaciones de dependencia originan que se tengan que realizar<br />

comprobaciones entre los predicados provenientes de los nodos modificadores<br />

y el predicado generado en el nodo núcleo, reflejando con ello<br />

las relaciones entre estos predicados de la forma lógica. Por el contrario,<br />

el ejemplo 65 muestra una relación de dependencia <strong>del</strong> tipo objeto. Por<br />

2 El nodo modificador previamente no resolvió el primer argumento <strong>del</strong> predicado of:IN de aridad<br />

2. Esta tarea la deja para la resolución de la relación dependencia actual.


174<br />

último, el ejemplo 66 muestra la relación de dependencia relativa a un<br />

phrasal verb. Esta última relación de dependencia produce que al lema<br />

<strong>del</strong> predicado generado en el nodo núcleo se le concatene el lema de la<br />

preposición <strong>del</strong> nodo modificador.<br />

(64) Expresión: Peter had filled the tank up.<br />

Nodo modificador: Peter<br />

Categoría léxica nodo modificador: N<br />

Posición nodo modificador: anterior<br />

Predicados <strong>del</strong> nodo modificador: peter:NN(x1)<br />

Nodo núcleo: filled<br />

Categoría léxica <strong>del</strong> nodo núcleo: V<br />

Relación de dependencia: subj<br />

Predicados <strong>del</strong> nodo núcleo: peter:NN(x1) fill:VB(e1,<br />

, )<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

peter:NN(x1) fill:VB(e1, x1, )<br />

(65) Expresión: Peter had filled the tank up.<br />

Nodo modificador: tank<br />

Categoría léxica nodo modificador: N<br />

Posición nodo modificador: posterior<br />

Predicados <strong>del</strong> nodo modificador: tank:NN(x2)<br />

Nodo núcleo: filled<br />

Categoría léxica <strong>del</strong> nodo núcleo: V<br />

Relación de dependencia: obj<br />

Predicados <strong>del</strong> nodo núcleo: peter:NN(x1) fill:VB(e1,<br />

x1, ) tank:NN(x2)<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

peter:NN(x1) fill:VB(e1, x1, x2) tank:NN(x2)<br />

(66) Expresión: Peter had filled the tank up.<br />

Nodo modificador: up<br />

Categoría léxica nodo modificador: Prep<br />

Posición nodo modificador: posterior


Predicados <strong>del</strong> nodo modificador: ∅<br />

Nodo núcleo: filled<br />

Categoría léxica <strong>del</strong> nodo núcleo: V<br />

Relación de dependencia: mod<br />

Predicados <strong>del</strong> nodo núcleo: peter:NN(x1) fill:VB(e1,<br />

x1, x2) tank:NN(x2)<br />

Restricciones a tratar: Sí.<br />

175<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

peter:NN(x1) fill up:VB(e1, x1, x2) tank:NN(x2)<br />

Reglas de derivación de predicados <strong>del</strong> tipo adjetivo<br />

En lenguaje natural es bastante frecuente encontrar la secuencia de dos<br />

o más adjetivos que modifican a un sustantivo o a un sintagma nominal.<br />

Ejemplo de ello son las expresiones “long fair hair”, “massive young<br />

stars”, etc. Cuando en la fase análisis de las relaciones de dependencias<br />

se encuentra una expresión de este tipo, la regla que la resuelve ha de<br />

realizar la comprobación entre los predicados provenientes <strong>del</strong> nodo modificador<br />

y el predicado generado en el nodo núcleo, reflejando con ello<br />

las relaciones entre estos predicados de la forma lógica. A continuación,<br />

el ejemplo 67 muestra la resolución de la relación de dependencia relativa<br />

a este tipo de expresiones.<br />

(67) Expresión: Susan has long fair hair and blue eyes.<br />

Nodo modificador: long<br />

Categoría léxica nodo modificador: A<br />

Posición nodo modificador: anterior<br />

Predicados <strong>del</strong> nodo modificador: long:JJ(x1)<br />

Nodo núcleo: fair<br />

Categoría léxica <strong>del</strong> nodo núcleo: A<br />

Relación de dependencia: mod<br />

Predicados <strong>del</strong> nodo núcleo: long:JJ(x1) fair:JJ( )<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

long:JJ(x1) fair:JJ(x1)


176<br />

Reglas de derivación de predicados <strong>del</strong> tipo preposición<br />

Este tipo de reglas de derivación siempre van a tener que realizar comprobaciones<br />

entre el predicado proveniente <strong>del</strong> nodo modificador y el<br />

predicado generado en el nodo núcleo, reflejando de este modo las relaciones<br />

entre estos predicados de la forma lógica. A continuación, el<br />

ejemplo 68 refleja la regla que resuelve un caso particular de relación<br />

de dependencia asociada a una preposición en el nodo núcleo.<br />

(68) Expresión: The northeast of London.<br />

Nodo modificador: London<br />

Categoría léxica nodo modificador: N<br />

Posición nodo modificador: posterior<br />

Predicados <strong>del</strong> nodo modificador: london:NN(x1)<br />

Nodo núcleo: of<br />

Categoría léxica <strong>del</strong> nodo núcleo: Prep<br />

Relación de dependencia: pcomp-n<br />

Predicados <strong>del</strong> nodo núcleo: of:JJ( , ) london:NN(x1)<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

of:JJ( , x1) london:NN(x1)<br />

Reglas de derivación de predicados <strong>del</strong> tipo atributo<br />

En este tipo de reglas, el nodo núcleo de la relación de dependencia<br />

es siempre un verbo copulativo. La característica principal de este tipo<br />

de reglas es que deben chequear las relaciones existentes entre los predicados<br />

<strong>del</strong> nodo núcleo y modificador de la relación de dependencia,<br />

quedando reflejadas en el predicado <strong>del</strong> tipo atributo inferido en la regla.<br />

Seguidamente se especifica en el ejemplo 69 la aplicación de una de<br />

estas reglas.<br />

(69) Expresión: The car is green.<br />

Nodo modificador: green<br />

Categoría léxica nodo modificador: A<br />

Posición nodo modificador: posterior<br />

Predicados <strong>del</strong> nodo modificador: green:JJ(x1)


Nodo núcleo: is<br />

Categoría léxica <strong>del</strong> nodo núcleo: V<br />

Relación de dependencia: pred<br />

Predicados <strong>del</strong> nodo núcleo: be:VB(e1, , ) Atributo:IN(<br />

, ) green:JJ(x1)<br />

Restricciones a tratar: Sí.<br />

177<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

be:VB(e1, , ) Atributo:IN(e1, x1) green:JJ(x1)<br />

Reglas de derivación de predicados <strong>del</strong> tipo conjunción/disyunción<br />

Este tipo de reglas de derivación incorporan en la forma lógica el predicado<br />

asociado a la relación de conjunción/disyunción existente entre<br />

los predicados inferidos en los nodos inferiores al nodo cabeza de la dependencia.<br />

Para ello, siempre van a tener que realizar comprobaciones<br />

entre los predicados provenientes de los nodos modificadores y el predicado<br />

generado en el nodo núcleo, reflejando de este modo esta relación<br />

de conjunción/disyunción entre estos predicados de la forma lógica. A<br />

continuación, el ejemplo 70 detalla la aplicación de una de estas reglas.<br />

(70) Expresión: U.S. and Iraqi forces have begun a push<br />

into Falluja.<br />

Nodo modificador: forces<br />

Categoría léxica nodo modificador: N<br />

Posición nodo modificador: posterior<br />

Predicados <strong>del</strong> nodo modificador: iraqi:JJ(x1) forces:NN(x1)<br />

Nodo núcleo: U.S.<br />

Categoría léxica <strong>del</strong> nodo núcleo: N<br />

Relación de dependencia: conj<br />

Predicados <strong>del</strong> nodo núcleo: u.s.:NN(x2) and:CC(x3,<br />

x2, ) iraqi:JJ(x1) forces:NN(x1)<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

u.s.:NN(x2) and:CC(x3, x2, x1) iraqi:JJ(x1) forces:NN(x1)


178<br />

Reglas de derivación de predicados <strong>del</strong> tipo nominal<br />

compuesto<br />

Este tipo de reglas de derivación, cuyo propósito es inferir en la forma<br />

lógica el predicado asociado al nominal compuesto a partir de los predicados<br />

asociados a los nominales simples, siempre van a tener que realizar<br />

comprobaciones entre el predicado proveniente <strong>del</strong> nodo modificador y<br />

el predicado generado en el nodo núcleo, reflejando de este modo esta<br />

relación entre ambos predicados de la forma lógica. A continuación, el<br />

ejemplo 71 detalla la aplicación de una de estas reglas.<br />

(71) Expresión: Peter Douglas had filled the tank up.<br />

Nodo modificador: Peter<br />

Categoría léxica nodo modificador: N<br />

Posición nodo modificador: anterior<br />

Predicados <strong>del</strong> nodo modificador: Peter:NN(x1)<br />

Nodo núcleo: Douglas<br />

Categoría léxica <strong>del</strong> nodo núcleo: N<br />

Relación de dependencia: nn<br />

Predicados <strong>del</strong> nodo núcleo: peter:NN(x1) peter douglas:NNC(x3,<br />

, x2) douglas:NN(x2)<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

peter:NN(x1) peter douglas:NNC(x3, , x2) douglas:NN(x2)<br />

A veces sucede que, en el árbol de dependencias, el nominal simple proveniente<br />

<strong>del</strong> nodo modificador de la relación de dependencia está etiquetado<br />

incorrectamente. En este caso, todos los predicados inferidos en la<br />

forma lógica a partir de los dos nodos implicados en la relación se infieren<br />

en el tratamiento de esta regla compleja, con lo que no es necesario<br />

ningún tipo de comprobación adicional, ya que desde nodos inferiores<br />

no viene ningún predicado. A continuación, el ejemplo 72 muestra la<br />

regla compleja que resuelve este tipo de casos.<br />

(72) Expresión: The position of pitcher on a baseball team.<br />

Nodo modificador: baseball<br />

Categoría léxica nodo modificador: U<br />

Posición nodo modificador: anterior<br />

Predicados <strong>del</strong> nodo modificador: ∅


Nodo núcleo: team<br />

Categoría léxica <strong>del</strong> nodo núcleo: N<br />

Relación de dependencia: lex-mod<br />

Predicados <strong>del</strong> nodo núcleo: baseball:NN(x1) baseball<br />

team:NNC(x3, x1, x2) team:NN(x2)<br />

Restricciones a tratar: No porque todos los predicados<br />

se infieren en el nodo núcleo.<br />

Reglas de derivación de predicados <strong>del</strong> tipo aposición<br />

Este tipo de reglas de derivación incorporan en la forma lógica el predicado<br />

asociado a la relación de aposición existente entre los predicados<br />

inferidos en los nodos inferiores al nodo cabeza de la dependencia. Para<br />

ello, siempre van a tener que realizar comprobaciones entre los predicados<br />

provenientes de los nodos modificadores y el predicado generado<br />

en el nodo núcleo, reflejando de este modo esta relación de aposición<br />

entre estos predicados de la forma lógica. A continuación, el ejemplo 73<br />

detalla la aplicación de una de estas reglas.<br />

(73) Expresión: Tony Blair, the British Prime Minister, will<br />

visit Iraq next week.<br />

Nodo modificador: Minister<br />

Categoría léxica nodo modificador: N<br />

Posición nodo modificador: posterior<br />

179<br />

Predicados <strong>del</strong> nodo modificador: tony:NN(x1) tony blair:NNC(x3,<br />

x1, x2) blair:NN(x2)<br />

Nodo núcleo: Blair<br />

Categoría léxica <strong>del</strong> nodo núcleo: N<br />

Relación de dependencia: appo<br />

Predicados <strong>del</strong> nodo núcleo: tony:NN(x1) tony blair:NNC(x3,<br />

x1, x2) blair:NN(x2) tony blair british prime minister:APPO(x7,<br />

x3, ) british:JJ(x4) prime:NN(x5) prime minister:NNC(x4,<br />

x5, x6) minister:NN(x6)<br />

Restricciones a tratar: Sí.<br />

Predicados <strong>del</strong> nodo núcleo tras tratamiento de restricciones:<br />

tony:NN(x1) tony blair:NNC(x3, x1, x2) blair:NN(x2)<br />

tony blair british prime minister:APPO(x7, x3, x4)


180<br />

british:JJ(x4) prime:NN(x5) prime minister:NNC(x4,<br />

x5, x6) minister:NN(x6)


Anexo C. Preguntas desarrolladas para la<br />

evaluación de la tarea de clasificación<br />

Este anexo muestra las 300 preguntas de entrenamiento y las 300 de evaluación<br />

(100 en cada una de las tres versiones) que se han utilizado en<br />

el marco de la tarea de evaluación <strong>del</strong> recurso <strong>lógico</strong>-conceptual referida<br />

a la clasificación de preguntas médicas según la taxonomía planteada<br />

en el estudio de Ely et al. (Ely et al. , 2000).


182<br />

Preguntas de entrenamiento<br />

Primer tipo genérico<br />

La tabla 6.1 muestra la colección de preguntas de entrenamiento asociadas<br />

al primer tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

1 What is the drug of choice for condition high blood pressure?<br />

2 Is drug flunitrazepam indicated in situation anxiety?<br />

3 Is drug galantamine indicated for condition pink eye?<br />

4 What are the indications for drug liothyronine?<br />

5 Is any drug indicated for situation scabies?<br />

6 Does drug dosulepin work for condition slapped cheek syndrome?<br />

7 How effective is drug edronax for condition stress?<br />

8 Should this kind of patient get prophylactic drug efexor to prevent condition threadworms?<br />

9 Is prophylactic drug elavil indicated to prevent condition tuberculosis?<br />

10 What prophylactic drug should I give to prevent condition ulcerative colitis?<br />

11 How effective is prophylactic drug epanutin in preventing condition urinary tract infection?<br />

12 For how long is drug epilim effective in preventing condition varicose veins?<br />

13 Name the drugs that treat cerebral palsy.<br />

14 List the drugs that manage catarrh.<br />

15 Tell me the drugs that prevent cellulitis.<br />

16 What is the drug of choice for condition chlamydia?<br />

17 Is drug abacavir indicated in situation coccydinia?<br />

18 Is drug abafungin indicated indicated for condition cold sores?<br />

19 What are the indications for drug abamectin?<br />

20 Is any drug indicated for situation constipation?<br />

21 Does drug abciximab work for condition crohn’s disease?<br />

22 How effective is drug abecarnil for condition cystic fibrosis?<br />

23 Should this kind of patient get prophylactic drug abiraterone to prevent condition cystitis?<br />

24 Is prophylactic drug abitesartan indicated to prevent condition deafblindness?<br />

25 What prophylactic drug should I give to prevent condition diphtheria?<br />

26 How effective is prophylactic drug ablukast in preventing condition dry eye syndrome?<br />

27 For how long is drug abunidazole effective in preventing condition duodenal ulcer?<br />

28 Name the drugs that treat dyspepsia.<br />

29 List the drugs that manage dysphagia.<br />

30 Tell me the drugs that prevent dystonia.<br />

Tabla 6.1. Preguntas de entrenamiento <strong>del</strong> tipo genérico 1


Segundo tipo genérico<br />

La tabla 6.2 muestra la colección de preguntas de entrenamiento asociadas<br />

al segundo tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

31 What is the cause of symptom abdominal pain?<br />

32 What is the differential diagnosis of symptom missed menstrual period?<br />

33 Could symptom dermatitis be a result of condition dementia?<br />

34 What is the likelihood that symptom dysmenorrhea is coming from condition eczema?<br />

35 Name the possible causes of symptom vaginal discharge.<br />

36 List the possible causes of symptom nail discoloration.<br />

37 Tell me the possible causes of symptom swollen dlands.<br />

38 What is the cause of symptom hair loss?<br />

39 What is the differential diagnosis of symptom hematemesis?<br />

40 Could symptom impotence be a result of condition congenital cataracts?<br />

41 What is the likelihood that symptom hyperventilation is coming from condition ectropion?<br />

42 Name the possible causes of symptom infertility.<br />

43 List the possible causes of symptom insomnia.<br />

44 Tell me the possible causes of symptom itch.<br />

45 What is the cause of symptom knee pain?<br />

46 What is the differential diagnosis of symptom watery eye?<br />

47 Could symptom muscle cramps be a result of condition embolism?<br />

48 What is the likelihood that symptom lethargy is coming from condition encephalitis?<br />

49 Name the possible causes of symptom Diarrhea.<br />

50 List the possible causes of symptom Dizziness.<br />

51 Tell me the possible causes of symptom confusion.<br />

52 What is the cause of symptom Anemia?<br />

53 What is the differential diagnosis of symptom breast lumps?<br />

54 Could symptom lymphadenopathy be a result of condition epidermolysis bullosa?<br />

55 What is the likelihood that symptom mastodynia is coming from condition epiglottitis?<br />

56 Name the possible causes of symptom mennorrhagia.<br />

57 List the possible causes of symptom pleurisy.<br />

58 Tell me the possible causes of symptom pyrosis.<br />

59 What is the cause of symptom red eye?<br />

60 What is the differential diagnosis of symptom rubor?<br />

Tabla 6.2. Preguntas de entrenamiento <strong>del</strong> tipo genérico 2<br />

183


184<br />

Tercer tipo genérico<br />

La tabla 6.3 muestra la colección de preguntas de entrenamiento asociadas<br />

al tercer tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

61 What test is indicated in situation swollen glands?<br />

62 Is test HIDA scan indicated in situation yeast infection?<br />

63 What test is appropriate with clinical finding autosplenectomy?<br />

64 What is the best test in situation toe tingling?<br />

65 What test is indicated in situation profound bronchospasm?<br />

66 Is test magnetic resonance imaging indicated in situation hypertension?<br />

67 What test is appropriate with clinical finding rheumatic fever?<br />

68 What is the best test in situation atrial fibrillation?<br />

69 What test is indicated in situation hypoxia?<br />

70 Is test myocardial biopsy indicated in situation laryngospasm?<br />

71 What test is appropriate with clinical finding hyperparathyroidism?<br />

72 What is the best test in situation anticipated apnoea?<br />

73 What test is indicated in situation multifocal ventricular ectopics?<br />

74 Is test CT scan indicated in situation cardiac arrest?<br />

75 What test is appropriate with clinical finding bronchial asthma?<br />

76 What is the best test in situation bradycardia?<br />

77 What test is indicated in situation osteoarthritis?<br />

78 Is occult fecal blood test indicated in situation anaphylaxis?<br />

79 What test is appropriate with clinical finding super ventricular tachycardia?<br />

80 What is the best test in situation breathing system failure?<br />

81 Name the tests for patients in situation myocardial infartion.<br />

82 List the possible tests indicated in situation total spinal anaesthesia.<br />

83 Tell me the best test in situation oxygen supply failure.<br />

84 Name the tests for patients in situation unanticipated apnoea.<br />

85 List the possible tests indicated in situation malignant hyperpyrexia.<br />

86 Tell me the best test in situation gastric aspiration.<br />

87 Name the tests for patients in situation bradycardia.<br />

88 List the possible tests indicated in situation cardiac ischemia.<br />

89 Tell me the best test in situation hypercarbia.<br />

90 Name the tests for patients in situation ventricular ectopics.<br />

Tabla 6.3. Preguntas de entrenamiento <strong>del</strong> tipo genérico 3


Cuarto tipo genérico<br />

La tabla 6.4 muestra la colección de preguntas de entrenamiento asociadas<br />

al cuarto tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

91 What is the dose of drug prinivil?<br />

92 Should I change the dose of drug aspirin?<br />

93 What is the maximum dose of drug accupril?<br />

94 What are equivalent doses among members of drug class benzodiazepine?<br />

95 How do you prescribe drug viagra?<br />

96 How do you administer drug clomipramine?<br />

97 When I start drug acyclovir?<br />

98 How should I stop drug Concordin?<br />

99 How long should I give drug dalmane?<br />

100 When should I give drug donopezil?<br />

101 List the possible dosages of drug fadrozole.<br />

102 Tell me the dosage of drug famotidine.<br />

103 What is the dose of drug fananserin?<br />

104 Should I change the dose of drug faralimomab?<br />

105 What is the maximum dose of drug toremifene?<br />

106 What are equivalent doses among members of drug class 4-aminopyridine?<br />

107 How do you prescribe drug faropenem?<br />

108 How do you administer drug fulvestrant?<br />

109 When I start drug fasoracetam?<br />

110 How should I stop drug flosequinan?<br />

111 How long should I give drug fluticasone?<br />

112 When should I give drug floxuridine?<br />

113 List the possible dosages of drug flucloxacillin.<br />

114 Tell me the dosage of drug fluconazole.<br />

115 What is the dose of drug flucytosine?<br />

116 Should I change the dose of drug fludarabine?<br />

117 What is the maximum dose of drug fludiazepam?<br />

118 What are equivalent doses among members of drug class fludorex?<br />

119 How do you prescribe drug fludrocortisone?<br />

120 How do you administer drug fludroxycortide?<br />

Tabla 6.4. Preguntas de entrenamiento <strong>del</strong> tipo genérico 4<br />

185


186<br />

Quinto tipo genérico<br />

La tabla 6.5 muestra la colección de preguntas de entrenamiento asociadas<br />

al quinto tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

121 How should I manage condition fibromyalgia?<br />

122 How do you manage condition depression?<br />

123 How well do you manage condition constipation?<br />

124 How should I manage condition acne?<br />

125 How do you manage condition allergies?<br />

126 How well do you manage condition asthma?<br />

127 How should I manage condition autism?<br />

128 How do you manage condition back pain?<br />

129 How well do you manage condition bulimia?<br />

130 How should I manage condition cataracts?<br />

131 How do you manage condition chlamydia?<br />

132 How well do you manage condition cirrhosis?<br />

133 How should I manage condition cystitis?<br />

134 How do you manage condition deafness?<br />

135 How well do you manage condition dementia?<br />

136 How should I manage condition dysphasia?<br />

137 How do you manage condition eczema?<br />

138 How well do you manage condition epilepsy?<br />

139 How should I manage condition gallstones?<br />

140 How do you manage condition glaucoma?<br />

141 How well do you manage condition gonorrhea?<br />

142 How should I manage condition hemophilia?<br />

143 How do you manage condition heartburn?<br />

144 How well do you manage condition hepatitis?<br />

145 How should I manage condition impotence?<br />

146 How do you manage condition indigestion?<br />

147 How well do you manage condition infertility?<br />

148 How should I manage condition insomnia?<br />

149 How do you manage condition leukemia?<br />

150 How well do you manage condition meningitis?<br />

Tabla 6.5. Preguntas de entrenamiento <strong>del</strong> tipo genérico 5


Sexto tipo genérico<br />

La tabla 6.6 muestra la colección de preguntas de entrenamiento asociadas<br />

al sexto tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

151 What is the cause of physical finding angiokeratomas?<br />

152 What is the differential diagnosis of physical finding pulsus alterans?<br />

153 At what level does physical finding ulnar deviation become clinically important?<br />

154 What is considered normal for physical finding succussion splash?<br />

155 Could physical finding argyll robertson pupils be a result of condition anaemia?<br />

156 What is the likehood that sign deafness is coming from condition arthritis?<br />

157 Name the possible causes of physical finding alert mentation.<br />

158 List the causes of physical finding cool skin capillary refill.<br />

159 Tell me the causes of physical finding normal mucous membranes.<br />

160 What is the cause of physical finding increased heart rate?<br />

161 What is the differential diagnosis of physical finding thready pulse?<br />

162 At what level does physical respiratory rate deviation become clinically important?<br />

163 What is considered normal for physical finding blood pressure?<br />

164 Could physical finding slow skin turgor be a result of condition narcolepsy?<br />

165 What is the likehood that sign earache is coming from condition psoriasis?<br />

166 Name the possible causes of physical decreased urine output.<br />

167 List the causes of physical finding xanthelasma.<br />

168 Tell me the causes of physical finding ulnar deviation.<br />

169 What is the cause of physical finding titubation?<br />

170 What is the differential diagnosis of physical finding tophi?<br />

171 At what level does physical finding suck reflex become clinically important?<br />

172 What is considered normal for physical finding subcutaneous nodules?<br />

173 Could physical finding striae be a result of condition meningitis?<br />

174 What is the likehood that sign erythema is coming from condition menopause?<br />

175 Name the possible causes of physical finding strawberry tongue.<br />

176 List the causes of physical finding simian crease.<br />

177 Tell me the causes of physical finding pulsus alterans.<br />

178 What is the cause of physical finding petechiae?<br />

179 What is the differential diagnosis of physical finding pingueculae?<br />

180 At what level does physical finding ptosis become clinically important?<br />

Tabla 6.6. Preguntas de entrenamiento <strong>del</strong> tipo genérico 6<br />

187


188<br />

Séptimo tipo genérico<br />

La tabla 6.7 muestra la colección de preguntas de entrenamiento asociadas<br />

al séptimo tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

181 How should I treat condition fibromyalgia?<br />

182 How do you treat condition depression?<br />

183 How well do you treat condition constipation?<br />

184 How should I treat condition allergies?<br />

185 How do you treat condition asthma?<br />

186 How well do you treat condition autism?<br />

187 How should I treat condition bedwetting?<br />

188 How do you treat condition blepharospasm?<br />

189 How well do you treat condition blindness?<br />

190 How should I treat condition bulimia?<br />

191 How do you treat condition cataracts?<br />

192 How well do you treat condition chlamydia?<br />

193 How should I treat condition cirrhosis?<br />

194 How do you treat condition cleft lip?<br />

195 How well do you treat condition cold sores?<br />

196 How should I treat condition cot death?<br />

197 How do you treat condition cystic fibrosis?<br />

198 How well do you treat condition deafness?<br />

199 How should I treat condition downs syndrome?<br />

200 How do you treat condition gauchers disease?<br />

201 How well do you treat condition huntington disease?<br />

202 How should I treat condition legionnaire disease?<br />

203 How do you treat condition meniere disease?<br />

204 How well do you treat condition muscular dystrophy?<br />

205 How should I treat condition polycystic ovary syndrome?<br />

206 How do you treat condition polymyalgia rheumatica?<br />

207 How well do you treat condition repetitive strain injury?<br />

208 How should I treat condition restless legs?<br />

209 How do you treat condition systemic lupus erythematosus?<br />

210 How well do you treat condition ulcerative colitis?<br />

Tabla 6.7. Preguntas de entrenamiento <strong>del</strong> tipo genérico 7


Octavo tipo genérico<br />

La tabla 6.8 muestra la colección de preguntas de entrenamiento asociadas<br />

al octavo tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

211 What is the cause of test finding bronchoscopy?<br />

212 What is the differential diagnosis of test finding hemoglobin electrophoresis?<br />

213 Could test finding home blood glucose test be condition diabetes?<br />

214 Could test finding pericardial drainage be a result of condition endometriosis?<br />

215 What is the likehood that test finding ECG is coming from condition endometriosis?<br />

216 How should I interpret test finding treadmill test?<br />

217 How should I use test finding acoustic reflex test in my decision?<br />

218 At what level does the value of ACTH test clinically important?<br />

219 What are the normal values of AFP test?<br />

220 How good is allergy test in situation mammalgia?<br />

221 What are the performance characteristics of DST test in situation menstrual cramps?<br />

222 What is the efficacy of screening with dobutamine stress test?<br />

223 What is the efficacy of screening for condition febrile convulsions?<br />

224 When should I do drug screening test?<br />

225 When should I do DST test to monitor condition food intolerance?<br />

226 How often should screening dipyridamole stress test be done?<br />

227 How often should you screen for condition gallstones?<br />

228 Name the cause of test finding FOBT.<br />

229 Tell me the cause of test finding FSH.<br />

230 What is the cause of test finding funduscopy?<br />

231 What is the differential diagnosis of test finding fetoscopy?<br />

232 Could test finding free cortisol test be condition endocarditis?<br />

233 Could test finding fasting blood sugar test be a result of condition encephalitis?<br />

234 What is the likehood that test finding GHb test is coming from condition epiglottitis?<br />

235 How should I interpret test finding globulin test?<br />

236 How should I use test finding glaucoma test in my decision?<br />

237 At what level does the value of GHb test clinically important?<br />

238 What are the normal values of gastric ulcer test?<br />

239 How good is galactosemia test in situation dyspepsia?<br />

240 What are the performance characteristics of HFE test in situation vertigo?<br />

Tabla 6.8. Preguntas de entrenamiento <strong>del</strong> tipo genérico 8<br />

189


190<br />

Noveno tipo genérico<br />

La tabla 6.9 muestra la colección de preguntas de entrenamiento asociadas<br />

al noveno tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

241 Could this patient have condition gauchers disease?<br />

242 What is the likelihood that this patient has condition parkinson disease?<br />

243 What does this patient have whooping cough?<br />

244 Could this patient have condition chest infection?<br />

245 What is the likelihood that this patient has condition chronic fatigue syndrome?<br />

246 What does this patient have coeliac disease?<br />

247 Could this patient have condition conjunctivitis?<br />

248 What is the likelihood that this patient has condition cradle cap?<br />

249 What does this patient have diverticulitis?<br />

250 Could this patient have condition erectile dysfunction?<br />

251 What is the likelihood that this patient has condition food intolerance?<br />

252 What does this patient have glandular fever?<br />

253 Could this patient have condition hay fever?<br />

254 What is the likelihood that this patient has condition irritable bowel syndrome?<br />

255 What does this patient have kidney failure?<br />

256 Could this patient have condition jet lag?<br />

257 What is the likelihood that this patient has condition kidney stones?<br />

258 What does this patient have labyrinthitis?<br />

259 Could this patient have condition laryngitis?<br />

260 What is the likelihood that this patient has condition migraine?<br />

261 What does this patient have MRSA?<br />

262 Could this patient have condition multiple sclerosis?<br />

263 What is the likelihood that this patient has condition nappy rash?<br />

264 What does this patient have nosebleed?<br />

265 Could this patient have condition obesity?<br />

266 What is the likelihood that this patient has condition phobias?<br />

267 What does this patient have renal colic?<br />

268 Could this patient have condition shingles?<br />

269 What is the likelihood that this patient has condition tennis elbow?<br />

270 What does this patient have threadworms?<br />

Tabla 6.9. Preguntas de entrenamiento <strong>del</strong> tipo genérico 9


Décimo tipo genérico<br />

La tabla 6.10 muestra la colección de preguntas de entrenamiento asociadas<br />

al décimo tipo genérico de las preguntas de la taxonomía.<br />

N o<br />

Pregunta<br />

271 Could drug accupril cause adverse finding muscle pain?<br />

272 Could finding angioid streaks be cause by drug nitrazepam?<br />

273 Does drug reboxetine cause finding arcus senilis?<br />

274 What are the adverse effects of drug temazepam?<br />

275 What is the likehood of adverse effect uterine hemorrhage resulting from drug cytotec?<br />

276 How long do the adverse effects from drug escitalopram last after stopping it?<br />

277 Which drug has the fewest adverse effects?<br />

278 How can drug exelon be administered without causing adverse effect deafness?<br />

279 What dose of drug fluvoxamine cause adverse effect fever?<br />

280 What dose of drug perphenazine cause any adverse effect?<br />

281 Is drug flupenthixol save to use in situation vertigo?<br />

282 Is drug fluoxetine contraindicated in situation warts?<br />

283 Could drug phentermine cause adverse finding angiokeratomas?<br />

284 Could finding pulsus alterans be cause by drug tacalcitol?<br />

285 Does drug tacrine cause finding ulnar deviation?<br />

286 What are the adverse effects of drug talaporfin?<br />

287 What is the likehood of adverse effect abdominal pain resulting from drug talipexole?<br />

288 How long do the adverse effects from drug taltirelin last after stopping it?<br />

289 How can drug tandospirone be administered without causing adverse effect asthenia?<br />

290 What dose of drug taranabant cause adverse effect diarrhea?<br />

291 What dose of drug tazarotene cause any adverse effect?<br />

292 Is drug flupenthixol save to use in situation dyspepsia?<br />

293 Is drug fluoxetine contraindicated in situation mammalgia?<br />

294 Could drug tazobactam cause adverse finding bronchial asthma?<br />

295 Could finding hyperparathyroidism be cause by drug tazobactam?<br />

296 Does drug paclitaxel cause finding rheumatic fever?<br />

297 What are the adverse effects of drug pagoclone?<br />

298 What is the likehood of adverse effect autosplenectomy resulting from drug palonosetron?<br />

299 How long do the adverse effects from drug pamaquine last after stopping it?<br />

300 How can drug panadiplon be administered without causing adverse effect rhabdomyolysis?<br />

Tabla 6.10. Preguntas de entrenamiento <strong>del</strong> tipo genérico 10<br />

191


192<br />

Preguntas de evaluación<br />

Primer tipo genérico<br />

La tabla 6.11 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al primer tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 What are the indications for drug reboxetine?<br />

7 2 What are the indications for drug reboxetine?<br />

3 What are the indications of reboxetine?<br />

1 Is any drug indicated for situation total spinal anaesthesia?<br />

16 2 Is any drug prescribed for situation total spinal anaesthesia?<br />

3 Is any drug prescribed for total spinal anaesthesia?<br />

1 Is drug nitrazepam indicated for condition dementia?<br />

29 2 Could drug nitrazepam be prescribed for condition dementia?<br />

3 Could nitrazepam be prescribed for dementia?<br />

1 Is drug accupril indicated in situation myocardial infartion?<br />

33 2 Is drug accupril prescribed in situation myocardial infartion?<br />

3 Is accupril prescribed in myocardial infartion?<br />

1 Does drug temazepam work for condition congenital cataracts?<br />

42 2 Could drug temazepam be prescribed for condition congenital cataracts?<br />

3 Could temazepam be prescribed for congenital cataracts?<br />

1 What is the drug of choice for condition eczema?<br />

57 2 What is the drug of selection for condition eczema?<br />

3 What is the drug of selection for eczema?<br />

1 How effective is drug cytotec for condition parkinson disease?<br />

64 2 How good is drug cytotec for condition parkinson disease?<br />

3 How good is cytotec for parkinson disease?<br />

1 Name the drugs that treat ectropion.<br />

72 2 Name the drugs that control ectropion.<br />

3 Name the drugs that control ectropion.<br />

1 List the drugs that manage fibromyalgia.<br />

87 2 List the drugs that control fibromyalgia.<br />

3 List the drugs that control fibromyalgia.<br />

1 Tell me the drugs that prevent depression.<br />

100 2 Tell me the drugs that control depression.<br />

3 Tell me the drugs that control depression.<br />

Tabla 6.11. Preguntas de evaluación <strong>del</strong> tipo genérico 1


Segundo tipo genérico<br />

La tabla 6.12 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al segundo tipo genérico de las<br />

preguntas de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 Could symptom abdominal pain be a result of condition fibromyalgia?<br />

10 2 Does symptom abdominal pain induced by condition fibromyalgia?<br />

3 Does abdominal pain induced by fibromyalgia?<br />

1 What is the likelihood that symptom headache is coming from condition depression?<br />

13 2 What is the likeliness that symptom headache is induced from condition depression?<br />

3 What is the likeliness that headache is induced from depression?<br />

1 Name the possible causes of symptom fever.<br />

21 2 Name the potential reasons of symptom fever.<br />

3 Name the potential reasons of fever.<br />

1 List the possible causes of symptom body ache.<br />

37 2 List the potential reasons of symptom body ache.<br />

3 List the potential reasons of body ache.<br />

1 Tell me the possible causes of symptom moist skin.<br />

41 2 Tell me the potential reasons of symptom moist skin.<br />

3 Tell me the potential reasons of moist skin.<br />

1 What is the cause of symptom nausea?<br />

59 2 Which one is the reason of symptom nausea?<br />

3 Which one is the reason of nausea?<br />

1 What is the differential diagnosis of symptom depression?<br />

70 2 What is the differential diagnosis of symptom depression?<br />

3 What is the differential diagnosis of depression?<br />

1 Could symptom irritability be a result of condition acne?<br />

77 2 Is symptom irritability induced by condition acne?<br />

3 Is irritability induced by acne?<br />

1 What is the likelihood that symptom bedwetting is coming from condition asthma?<br />

90 2 What is the likeliness that symptom bedwetting is induced by condition asthma?<br />

3 What is the likeliness that bedwetting is induced by asthma?<br />

1 Name the possible causes of symptom vomiting.<br />

96 2 Name the potential reasons of symptom vomiting.<br />

3 Name the potential reasons of vomiting.<br />

Tabla 6.12. Preguntas de evaluación <strong>del</strong> tipo genérico 2<br />

193


194<br />

Tercer tipo genérico<br />

La tabla 6.13 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al tercer tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 Name the tests for patients in situation cardiac emergency.<br />

1 2 Name the tests for patients in situation cardiac emergency.<br />

3 Name the tests for patients in cardiac emergency.<br />

1 List the possible tests indicated in situation respiratory emergency.<br />

17 2 List the potential tests suggested in situation respiratory emergency.<br />

3 List the potential tests suggested in respiratory emergency.<br />

1 Tell me the best test in situation oxygen medical emergency.<br />

30 2 Tell me the best test in situation oxygen medical emergency.<br />

3 Tell me the best test in oxygen medical emergency.<br />

1 What test is indicated in situation yeast vaginitis?<br />

32 2 Which test is suggested in situation yeast vaginitis?<br />

3 Which test is suggested in yeast vaginitis?<br />

1 Is test bronchoscopy indicated in situation oral thrush?<br />

50 2 Could test bronchoscopy be suggested in situation oral thrush?<br />

3 Could bronchoscopy be suggested in oral thrush?<br />

1 What test is appropriate with physical finding angiokeratomas?<br />

51 2 Which test is appropriate with physical finding angiokeratomas?<br />

3 Which test is appropriate with angiokeratomas?<br />

1 What is the best test in situation candida infection?<br />

67 2 Which test is the best one in situation candida infection?<br />

3 Which test is the best one in candida infection?<br />

1 What test is indicated in situation systemic infection?<br />

79 2 Which test is prescribed in situation systemic infection?<br />

3 Which test is prescribed in systemic infection?<br />

1 Is ACTH test indicated in situation opportunistic infection?<br />

82 2 Could ACTH test be suggested in situation opportunistic infection?<br />

3 Could ACTH test be suggested in opportunistic infection?<br />

1 What test is appropriate with physical finding pulsus alterans?<br />

94 2 Which test is appropriate with physical finding pulsus alterans?<br />

3 Which test is appropriate with pulsus alterans?<br />

Tabla 6.13. Preguntas de evaluación <strong>del</strong> tipo genérico 3


Cuarto tipo genérico<br />

La tabla 6.14 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al cuarto tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 List the possible dosages of drug abacavir.<br />

9 2 List the potential dosages of drug abacavir.<br />

3 List the potential dosages of abacavir.<br />

1 Tell me the dosage of drug abafungin.<br />

20 2 Tell me the dosage of drug abafungin.<br />

3 Tell me the dosage of abafungin.<br />

1 What is the dose of drug abamectin?<br />

27 2 Which one is the dose of drug abamectin?<br />

3 Which one is the dose of abamectin?<br />

1 Should I change the dose of drug abciximab?<br />

31 2 Should I change the dose of drug abciximab?<br />

3 Should I change the dose of abciximab?<br />

1 What is the maximum dose of drug abecarnil?<br />

43 2 Which one is the upper dose of drug abecarnil?<br />

3 Which one is the upper dose of abecarnil?<br />

1 What are equivalent doses among members of drug class bisphosphonate?<br />

52 2 Whose are tantamount doses among members of drug class bisphosphonate?<br />

3 Whose are tantamount doses among members of bisphosphonate?<br />

1 How do you prescribe drug perphenazine?<br />

61 2 How can drug perphenazine be dispensed?<br />

3 How can perphenazine be dispensed?<br />

1 How do you administer drug fluvoxamine?<br />

73 2 How can drug fluvoxamine be dispensed?<br />

3 How can fluvoxamine be dispensed?<br />

1 When I start drug exelon?<br />

81 2 When do I begin to take drug exelon?<br />

3 When do I begin to take exelon?<br />

1 How should I stop drug escitalopram?<br />

91 2 How should I end drug escitalopram?<br />

3 How should I end escitalopram?<br />

Tabla 6.14. Preguntas de evaluación <strong>del</strong> tipo genérico 4<br />

195


196<br />

Quinto tipo genérico<br />

La tabla 6.15 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al quinto tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 How should I manage condition gauchers disease?<br />

8 2 How should be handled condition gauchers disease?<br />

3 How should be handled gauchers disease?<br />

1 How do you manage condition parkinson disease?<br />

19 2 How does condition parkinson disease be handled?<br />

3 How does parkinson disease be handled?<br />

1 How well do you manage condition chest infection?<br />

28 2 How good should condition chest infection be handled?<br />

3 How good should chest infection be handled?<br />

1 How should I manage condition chronic fatigue syndrome?<br />

39 2 How should condition chronic fatigue syndrome be handled?<br />

3 How should chronic fatigue syndrome be handled?<br />

1 How do you manage condition conjunctivitis?<br />

49 2 How could condition conjunctivitis be handled?<br />

3 How could conjunctivitis be handled?<br />

1 How well do you manage condition cradle cap?<br />

60 2 How good could condition cradle cap be handled?<br />

3 How good could cradle cap be handled?<br />

1 How should I manage condition erectile dysfunction?<br />

69 2 How should condition erectile dysfunction be handled?<br />

3 How should erectile dysfunction be handled?<br />

1 How do you manage condition back chlamydia?<br />

80 2 How should be handled condition back chlamydia?<br />

3 How should be handled back chlamydia?<br />

1 How well do you manage condition cold sores?<br />

89 2 How good should be handled condition cold sores?<br />

3 How good should be handled cold sores?<br />

1 How should I manage condition cystic fibrosis?<br />

99 2 How should condition cystic fibrosis be handled?<br />

3 How should cystic fibrosis be handled?<br />

Tabla 6.15. Preguntas de evaluación <strong>del</strong> tipo genérico 5


Sexto tipo genérico<br />

La tabla 6.16 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al sexto tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 What is the cause of clinical finding rheumatic fever?<br />

3 2 Which one is the reason of clinical finding rheumatic fever?<br />

3 Which one is the reason of rheumatic fever?<br />

1 What is the differential diagnosis of clinical finding autosplenectomy?<br />

11 2 What is the differential diagnosis of clinical finding autosplenectomy?<br />

3 What is the differential diagnosis of autosplenectomy?<br />

1 At what level does physical finding muscle pain become clinically important?<br />

22 2 At what degree does physical finding muscle pain become clinically important?<br />

3 At what degree does muscle pain become clinically important?<br />

1 What is considered normal for physical finding angioid streaks?<br />

34 2 What is considered normal for physical finding angioid streaks?<br />

3 What is considered normal for angioid streaks?<br />

1 Could physical finding arcus senilis be a result of condition anaemia?<br />

48 2 Should physical finding arcus senilis produced by condition anaemia?<br />

3 Should arcus senilis produced by anaemia?<br />

1 What is the likehood that sign deafness is coming from condition arthritis?<br />

55 2 Which one is the likeliness that sign deafness is induced by condition arthritis?<br />

3 Which one is the likeliness that deafness is induced by arthritis?<br />

1 Name the possible causes of physical finding angiokeratomas.<br />

62 2 Name the possible reasons of physical finding angiokeratomas.<br />

3 Name the possible reasons of angiokeratomas.<br />

1 List the causes of physical finding bronchial asthma.<br />

71 2 List the reasons of physical finding bronchial asthma.<br />

3 List the reasons of bronchial asthma.<br />

1 Tell me the causes of clinical finding hyperparathyroidism.<br />

83 2 Tell me the reasons of clinical finding hyperparathyroidism.<br />

3 Tell me the reasons of hyperparathyroidism.<br />

1 What is the cause of clinical finding super ventricular tachycardia?<br />

92 2 Which one is the reason of clinical finding super ventricular tachycardia?<br />

3 Which one is the reason of super ventricular tachycardia?<br />

Tabla 6.16. Preguntas de evaluación <strong>del</strong> tipo genérico 6<br />

197


198<br />

Séptimo tipo genérico<br />

La tabla 6.17 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al séptimo tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 How should I treat condition gauchers disease?<br />

2 2 How good should condition gauchers disease be cared for?<br />

3 How good should gauchers disease be cared for?<br />

1 How do you treat condition parkinson disease?<br />

14 2 How should be cared for condition parkinson disease?<br />

3 How should be cared for parkinson disease?<br />

1 How well do you treat condition chest infection?<br />

23 2 How does condition chest infection be cared for?<br />

3 How does chest infection be cared for?<br />

1 How should I treat condition chronic fatigue syndrome?<br />

40 2 How should condition chronic fatigue syndrome be cared for?<br />

3 How should chronic fatigue syndrome be cared for?<br />

1 How do you treat condition conjunctivitis?<br />

44 2 How could condition conjunctivitis be cared for?<br />

3 How could conjunctivitis be cared for?<br />

1 How well do you treat condition cradle cap?<br />

53 2 How good could condition cradle cap be cared for?<br />

3 How good could cradle cap be cared for?<br />

1 How should I treat condition erectile dysfunction?<br />

63 2 How should condition erectile dysfunction be cared for?<br />

3 How should erectile dysfunction be cared for?<br />

1 How do you treat condition back chlamydia?<br />

78 2 How should be cared for condition back chlamydia?<br />

3 How should be cared for back chlamydia?<br />

1 How well do you treat condition cold sores?<br />

84 2 How good should be cared for condition cold sores?<br />

3 How good should be cared for cold sores?<br />

1 How should I treat condition cystic fibrosis?<br />

93 2 How should condition cystic fibrosis be cared for?<br />

3 How should cystic fibrosis be cared for?<br />

Tabla 6.17. Preguntas de evaluación <strong>del</strong> tipo genérico 7


Octavo tipo genérico<br />

La tabla 6.18 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al octavo tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 What is the cause of test finding HIDA scan?<br />

6 2 Which one is the reason of test finding HIDA scan?<br />

3 Which one is the reason of HIDA scan?<br />

1 What is the differential diagnosis of test finding magnetic resonance imaging?<br />

12 2 Which one is the differential diagnosis of test finding magnetic resonance imaging?<br />

3 Which one is the differential diagnosis of magnetic resonance imaging?<br />

1 Could test finding myocardial biopsy be condition conjunctivitis?<br />

24 2 Could test finding myocardial biopsy be stimulate condition conjunctivitis?<br />

3 Could myocardial biopsy be stimulate conjunctivitis?<br />

1 Could test finding CT scan be a result of condition cradle cap?<br />

36 2 Could test finding CT scan be stimulated by condition cradle cap?<br />

3 Could CT scan be stimulated by cradle cap?<br />

1 What is the likehood that test finding occult fecal blood test is coming from condition dysfunction?<br />

45 2 Which one is the likeliness that test finding occult fecal blood test is induced by condition dysfunction?<br />

3 Which one is the likeliness that occult fecal blood test is induced by dysfunction?<br />

1 How should I interpret test finding endoscopy?<br />

54 2 How can test finding endoscopy be construed?<br />

3 How can endoscopy be construed?<br />

1 How should I use test finding biopsy in my decision?<br />

65 2 How can I utilise test finding biopsy in my conclusion?<br />

3 How can I utilise biopsy in my conclusion?<br />

1 At what level does the value of EEG clinically important?<br />

76 2 At what degree does the value of EEG clinically important?<br />

3 At what degree does the value of EEG clinically important?<br />

1 What are the normal values of PET scan?<br />

85 2 What are the normal values of PET scan?<br />

3 What are the normal values of PET scan?<br />

1 Tell me the cause of test nuclear scan.<br />

97 2 Tell me the reason of test nuclear scan.<br />

3 Tell me the reason of nuclear scan.<br />

Tabla 6.18. Preguntas de evaluación <strong>del</strong> tipo genérico 8<br />

199


200<br />

Noveno tipo genérico<br />

La tabla 6.19 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al noveno tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 Could this patient have condition chlamydia?<br />

4 2 Does the patient suffer condition chlamydia?<br />

3 Does the patient suffer chlamydia?<br />

1 What is the likelihood that this patient has condition cold sores?<br />

18 2 Which one is the likeliness that the patient suffers condition cold sores?<br />

3 Which one is the likeliness that the patient suffers cold sores?<br />

1 What does this patient have cystic fibrosis?<br />

26 2 What does the patient suffer condition cystic fibrosis?<br />

3 What does the patient suffer cystic fibrosis?<br />

1 Could this patient have condition dyspepsia?<br />

38 2 Can the patient suffer condition dyspepsia?<br />

3 Can the patient suffer dyspepsia?<br />

1 What is the likelihood that this patient has condition dysphagia?<br />

47 2 Which one is the likeliness that the patient suffer condition dysphagia?<br />

3 Which one is the likeliness that the patient suffer dysphagia?<br />

1 What does this patient have dystonia?<br />

58 2 What does this patient suffer condition dystonia?<br />

3 What does this patient suffer dystonia?<br />

1 Could this patient have condition dementia?<br />

66 2 Can the patient suffer condition dementia?<br />

3 Can the patient suffer dementia?<br />

1 What is the likelihood that this patient has condition eczema?<br />

75 2 Which one is the likeliness that the patient suffers condition eczema?<br />

3 Which one is the likeliness that the patient suffers eczema?<br />

1 What does this patient have congenital cataracts?<br />

86 2 What does the patient suffer condition congenital cataracts?<br />

3 What does the patient suffer congenital cataracts?<br />

1 Could this patient have condition ectropion?<br />

98 2 Can the patient suffer condition ectropion?<br />

3 Can the patient suffer ectropion?<br />

Tabla 6.19. Preguntas de evaluación <strong>del</strong> tipo genérico 9


Décimo tipo genérico<br />

La tabla 6.20 muestra la colección de preguntas de evaluación, en cada<br />

una de sus tres versiones, asociadas al décimo tipo genérico de las preguntas<br />

de la taxonomía.<br />

N o<br />

V Pregunta<br />

1 Could drug abacavir cause adverse finding abdominal pain?<br />

5 2 Can drug abacavir origin adverse finding abdominal pain?<br />

3 Can abacavir origin adverse finding abdominal pain?<br />

1 Could finding autosplenectomy be cause by drug abafungin?<br />

15 2 Can adverse finding autosplenectomy be origined by drug abafungin?<br />

3 Can adverse finding autosplenectomy be origined by abafungin?<br />

1 Does drug abamectin cause finding rheumatic fever?<br />

25 2 Does drug abamectin induce finding rheumatic fever?<br />

3 Does abamectin induce rheumatic fever?<br />

1 What are the adverse effects of drug abciximab?<br />

35 2 Whose are the adverse effects of drug abciximab?<br />

3 Whose are the adverse effects of abciximab?<br />

1 What is the likehood of adverse effect bloody stool resulting from drug abecarnil?<br />

46 2 Which is the likeliness of adverse effect bloody stool resulting from drug abecarnil?<br />

3 Which is the likeliness of adverse effect bloody stool resulting from abecarnil?<br />

1 How long do the adverse effects from drug fadrozole last after stopping it?<br />

56 2 How long do the adverse effects from drug fadrozole last after ending it?<br />

3 How long do the adverse effects from fadrozole last after ending it?<br />

1 Which drug has the fewest adverse effects?<br />

68 2 Which drug has the fewest adverse effects?<br />

3 Which drug has the fewest adverse effects?<br />

1 How can drug famotidine be administered without causing adverse effect gastroenteritis?<br />

74 2 How can drug famotidine be prescribed without causing adverse effect gastroenteritis?<br />

3 How can famotidine be prescribed without causing adverse effect gastroenteritis?<br />

1 What dose of drug prinivil cause adverse effect colitis?<br />

88 2 Which dose of drug prinivil cause adverse effect colitis?<br />

3 Which dose of prinivil cause adverse effect colitis?<br />

1 What dose of drug aspirin cause any adverse effect?<br />

95 2 Which dose of drug aspirin cause any adverse effect?<br />

3 Which dose of aspirin cause any adverse effect?<br />

Tabla 6.20. Preguntas de evaluación <strong>del</strong> tipo genérico 10<br />

201


Referencias<br />

Amini, M.-R., Zaragoza, H., & Gallinari, P. 1999. Stochastic Mo<strong>del</strong>s<br />

for Surface Information Extraction in Texts. In: Proceedings of the<br />

International Conference of Artificial Neural Networks (ICANN).<br />

Aone, C., Okurowski, M.E., Gorlinsky, J., & Larsen, B. 1997. A Scalable<br />

Summarization System using Robust NLP. Pages 66–73 of: Proceedings<br />

of the Workshop on Intelligent Scalable Text Summarization<br />

at the ACL/EACL Conference.<br />

Baeza-Yates, R., Gionis, A., Junqueira, F., Murdock, V., Plachouras,<br />

V., & Silvestri, F. 2007. The Impact of Caching on Search Engines.<br />

In: Proceedings of The 30th Annual International ACM SIGIR<br />

Conference.<br />

Balkanski, C.T. 1991. Logical Form of Complex Sentences in Task-<br />

Oriented Dialogues. In: Proceedings of the 29th Annual Meeting of<br />

the Association for Computational Linguistics.<br />

Balog, K., Hofmann, K., Weerkamp, W., & de Rijke, M. 2007. Query<br />

and Document Mo<strong>del</strong>s for Enterprise Search. In: Proceedings of<br />

the Sixteenth Text REtrieval Conference (TREC).<br />

Bar-Haim, R., Dagan, I., Dolan, B., Ferro, L., Giampiccolo, D., Magnini,<br />

B., & Szpektor, I. 2006. The Second PASCAL Recognising<br />

Textual Entailment Challenge. In: Proceedings of the Second PAS-<br />

CAL Recognising Textual Entailment Challenge.<br />

Barwise, J., & Perry, J. 1983. Situations and Attitudes. Cambridge,<br />

MA: MIT Press.<br />

Barzilay, R., & Elhadad, M. 1997. Using Lexical Chains for Text Summarization.<br />

Pages 10–17 of: Proceedings of the Workshop on Intelligent<br />

Scalable Text Summarization at the ACL/EACL Conference.<br />

Baziz, M., Boughanem, M., & Aussenac-Gilles, N. 2005. A Conceptual<br />

Indexing Approach for the TREC Robust Task. In: Proceedings of<br />

the Fourteenth Text REtrieval Conference (TREC 2005).<br />

Ben-Ari, M. 2001. Mathematical Logic for Computer Science. Springer-<br />

Verlag.<br />

Bessé, B. De. 1997. Terminological Definitions. Handbook of Terminology<br />

Management. John Benjamins: 63-74.<br />

Bi, Y., Bell, D., & Guan, J. 2004. Combining Evidence from Classifiers<br />

in Text Categorization. Pages 521–528 of: 8th International


204 Referencias<br />

Conference on Knowledge-Based Intelligent Information and Engineering<br />

Systems.<br />

Bisbal, E., Tomás, D., Moreno, L., Vicedo, J.L., & Suárez, A. 2005.<br />

A Multilingual SVM-Based Question Classification System. Pages<br />

806–815 of: MICAI 2005: Advances in Artificial Intelligence.<br />

Bixler, D., Moldovan, D., & Fowler, A. 2005. Using knowledge extraction<br />

and maintenance techniques to enhance analytical performance.<br />

In: Proceedings of the 2005 International Conference on<br />

Intelligence Analysis.<br />

Cabré, M. T. 1999. La Terminología. <strong>Representación</strong> y Comunicación.<br />

Barcelona: Institut Universitari de Lingüística Aplicada. Universitat<br />

Pompeu Fabra.<br />

Caropreso, M. F., Matwin, S., & Sebastiani, F. 2001. A learnerindependent<br />

evaluation of the usefulness of statistical phrases for<br />

automated text categorization. Pages 78–102 of: Text Databases<br />

and Document Management: Theory and Practice.<br />

Castro, M.J., Vilar, D., Aibar, P., & Sanchis, E. 2003. Dialogue Act<br />

Classification in a Spoken Dialogue System. Pages 260–270 of:<br />

Proceedings of the 10th Conference of the Spanish Association for<br />

Artificial Intelligence (CAEPIA´03).<br />

Chung, H., Song, Y.-I., Han, K.-S., Yoon, D.-S., Lee, J.-Y., Rim, H.-<br />

C., & Kim, S.-H. 2004. A practical QA system in restricted domains.<br />

In: Proceedings of 42nd Annual Meeting of the Association<br />

for Computational Linguistics.<br />

Cámara de la Fuente, L. 2004. La representación lingüística <strong>del</strong> <strong>conocimiento</strong><br />

y su relevancia en la ingeniería lingüística. Hipertext.net,<br />

2.<br />

Codina, L., Domènech, M., Martí, J., & Rojo, A. 2001. Elementos a<br />

considerar en la representación <strong>del</strong> <strong>conocimiento</strong> de cara a la recuperación<br />

de información (el punto de vista cognitivo). In: La<br />

terminología científico-técnica: re<strong>conocimiento</strong>, análisis y extracción<br />

de información formal y semántica (DGES PB96-0293).<br />

Colmerauer, A., & Roussel, P. 1996. The birth of Prolog. History of<br />

programming languages, 331–367.<br />

Contreras, H.Y. 2001. Procesamiento <strong>del</strong> Lenguaje Natural basado en<br />

una “gramática de estilos´´ para el idioma español. Ph.D. thesis,<br />

Universidad de los Andes.<br />

Corcho, O., & Gómez-Pérez, A. 2001. Evaluating Knowledge Representation<br />

and Reasoning Capabilities of Ontology Specification Languages.<br />

In: Proceedings of the EON2002 Workshop on Evaluation<br />

of Ontology-based Tools.<br />

Courtin, J., & Genthial, D. 1998. Parsing with dependency relations and<br />

robust parsing. Pages 88–94 of: Proceedings of COLING-ACL’98<br />

Workshop on Processing of Dependency-based Grammars.


Referencias 205<br />

Croft, W.B., Turtle, H.R., & Lewis, D.D. 1991. The use of phrases<br />

and sructured queries in information retrieval. Pages 32–43 of:<br />

Proceedings of ACM SIGIR.<br />

Daelemans, W., & van den Bosch, A. 2007. Special Section on<br />

Restricted-Domain Question Answering. Computational Linguistics,<br />

33(1).<br />

Dale, R., Somers, H. L., & Moisl, H. 2000. Semantic Analysis. Handbook<br />

of Natural Language Processing. Marcel Dekker, Inc. New York,<br />

NY, USA.<br />

Darriba, V.M. 2007. Universidad de Vigo: Asignatura Lenguajes Naturales.<br />

Campus de Orense. Chap. Tema 1 y 2.<br />

Davidson, D. 1967. The Logical Form of Action Sentences. Pages 81–95<br />

of: Rescher, N. (ed), The Logic of Decision and Action.<br />

Deerwester, S., Dumais, S.T., Furnas, G.W., K, T.K. Landauer T., &<br />

Harshman, R. 1990. Indexing by Latent Semantic Analysis. Journal<br />

of the American Society for Information Science.<br />

Delisle, S., Barker, K., Delannoy, J.-F., Matwin, S., & Szpakowicz, S.<br />

1994. From Text to Horn Clauses: Combining Linguistic Analysis<br />

and Machine Learning. In: Proceedings of Canadian AI-94.<br />

Demner-Fushman, D., Humphrey, S. M., Ide, N. C., Loane, R. F., Mork,<br />

J. G., Ruch, P., Ruiz, M. E., Smith, L. H., Wilbur, W. J., & Aronsona,<br />

A. R. 2007. Combining resources to find answers to biomedical<br />

questions. In: Proceedings of the Sixteenth Text REtrieval Conference<br />

(TREC).<br />

Díez, P. L. 1999. La relación de meronimia en los sustantivos <strong>del</strong> léxico<br />

español: contribución a la semántica computacional. Vol. 2. Estudios<br />

de Lingüística Española.<br />

Dick, J. P. 1991. A conceptual, case-relation representation of text for<br />

intelligent retrieval. Ph.D. thesis, University of Toronto.<br />

Dillon, M., & Gray, A.S. 1983. FASIT: A fully automatic syntactically<br />

based indexing system. Journal of the American Society for<br />

Information Science, 34(2), 99–108.<br />

Doi, T., & Sumita, E. 2005. Splitting Input for Machine Translation<br />

Using N-gram Language Mo<strong>del</strong> Together with Utterance Similarity.<br />

IEICE Transactions, 88-D(6), 1256–1264.<br />

Dubuc, R., & Lauriston, A. 1997. Terms and Contexts. Handbook of<br />

Terminology Management. John Benjamins: 80-88.<br />

Eichmann, D., Ruiz, M., & Srinivasan, P. 1998. Cross-Language Information<br />

Retrieval with the UMLS Metathesaurus. Pages 72–80 of:<br />

Proc. of the 21st Annual International ACM SIGIR Conference on<br />

Research and Development in Information Retrieval.<br />

Ely, J.W., Osheroff, J.A., Gorman, P.N., Ebell, M.H., Chambliss, M.L.,<br />

Pifer, E.A., & Stavri, P.Z. 2000. A taxonomy of generic clinical<br />

questions: classification study. Pages 429–432 of: British Medical<br />

Journal (BMJ), vol. 321.


206 Referencias<br />

Engel, R., & Sonntag, D. 2007. Text Generation in the SmartWeb<br />

Multimodal Dialogue System. In: KI 2007: Proceedings of the 30th<br />

Annual German Conference on Artificial Intelligence.<br />

Fagan, J.L. 1987. Automatic phrase indexing for document retrieval:<br />

An examination of syntactic and non-syntactic methods. Pages<br />

91–101 of: Proceedings of ACM SIGIR.<br />

Fernández, F., & Montero-Fleta, B. 2003. La premodificación nominal<br />

en el ámbito de la informática. Estudio contrastivo inglés-español.<br />

Universidad de Valencia.<br />

Ferrández, O., Terol, R.M., Martínez-Barco, P., & Palomar, M. 2006a.<br />

A Knowledge Based Strategy for Recognising Textual Entailment.<br />

Pages 53–60 of: Text, Speech and Dialogue.<br />

Ferrández, O., Terol, R.M., Muñoz, R., Martínez-Barco, P., & Palomar,<br />

M. 2007. A Knowledge-Based Textual Entailment Approach<br />

Applied to the AVE Task. Pages 490–493 of: Evaluation of Multilingual<br />

and Multi-modal Information Retrieval, 7th Workshop of<br />

the Cross-Language Evaluation Forum.<br />

Ferrández, S., & Ferrández, A. 2007. The Negative Effect of Machine<br />

Translation on Cross-Lingual Question Answering. Pages 494–505<br />

of: CICLing 2007.<br />

Ferrández, S., Ferrández, A., Roger, S., López-Moreno, P., & Peral, J.<br />

2006b. BRILI, an English-Spanish Question Answering System.<br />

Pages 23–29 of: Proceedings of the International Multiconference<br />

on Computer Science and Information Technology.<br />

Fitting, M. 1990. First-Order logic and automated theorem proving.<br />

Springer-Verlag.<br />

Forner, P., Peñas, A., Alegria, I., Forascu, C., Moreau, N., Osenova,<br />

P., Prokopidis, P., Rocha, P., Sacaleanu, B., Sutcliffe, R., & Sang,<br />

E.T.K. 2008. Overview of the CLEF 2008 Multilingual Question<br />

Answering Track. In: Working Notes for the CLEF 2008 Workshop.<br />

Galinsky, C. 2000. Terminology and Knowledge Representation. In:<br />

KnowTech 2000 Conference and Exhibition.<br />

Galvez, C., de Moya-Anegón, F., & Solana, V.H. 2005. Term conflation<br />

methods in information retrieval. Journal of Documentation, 61(4),<br />

520–547.<br />

Gamut, L. T. F. 1991. Logic, Language and Meaning. Chicago: Univ.<br />

chicago Press.<br />

García-Marco, F. J. 1998. El concepto de información: una aproximación<br />

transdisciplinar. Revista general de información y documentación,<br />

8(1), 303–326.<br />

García de Quesada, M. 2001. Estructura definicional terminográfica en<br />

el subdominio de la oncología clínica. Ph.D. thesis, University of<br />

Granada.<br />

Garret, A. V. 2003. Meaning in Spinoza’s Method. Cambridge University<br />

Press.


Referencias 207<br />

Garrido, M. 2003. Lógica simbólica. Ed. Tecnos.<br />

Gómez, J.M. 2008. InTiMe: plataforma de integración de recursos de<br />

PLN. In: Procesamiento <strong>del</strong> lenguaje natural. N. 40.<br />

Gomez-Hidalgo, J.M., Cortijo, J.C., Puertas, E., & Ruiz, M. 2004. Concept<br />

Indexing for Automated Text Categorization. Pages 195–206<br />

of: Proceedings of the 9th International Conference on Applications<br />

of Natural Language to Information Systems, NLDB 2004.<br />

Gonzalo, J., Verdejo, F., & Cigarran, J. 1998. Indexing with Word-<br />

Net synsets can improve text retrieval. In: Proceeding of the CO-<br />

LING/ACL Workshop on Usage of WordNet in Natural Language<br />

Processing.<br />

Hasan, M., & Matsumoto, Y. 1999. Document Clustering: Before and<br />

After the Singular Value Decomposition. Information Processing<br />

Society of Japan (IPSJ-TR:99-NL-134.), 47–55.<br />

Hassan, S., Mihalcea, R., & Banea, C. 2007. Random-Walk Term<br />

Weighting for Improved Text Classification. In: Proceedings of<br />

the IEEE International Conference on Semantic Computing (ICSC<br />

2007).<br />

Hayashi, M., Yamada, S., Kataoka, A., & Yokoo, A. 2001. ALT-J/C A<br />

Prototype Japanese-to-Chinese Automatic Language Translation<br />

System. Pages 157–161 of: In proceedings of the MT Summit VIII.<br />

Hobbs, J. 1985. Ontological promiscuity. In: Proceedings of the 23rd<br />

Annual Meeting of the Association for Computational Linguistics.<br />

Hodges, W. 1993. Logical features of Horn Clauses. In: Handbook of<br />

logic in artificial intelligence and logic programming (vol. 1).<br />

Humphreys, B.L., & Lindberg, D.A.D. 1993. The UMLS proyect: making<br />

the conceptual connection between users and the information<br />

they need. Pages 170–177 of: Bulletin of the Medical Library Association,<br />

vol. 81.<br />

Hurtado, L. F., Blat, F., García, F., Grau, S., Griol, D., Sanchís, E.,<br />

Segarra, E., & Torres, E. 2005. Sistema de diálogo para el Proyecto<br />

DIHANA. Procesamiento <strong>del</strong> Lenguaje Natural, 35.<br />

Hutchins, J. W., & Somers, H. L. 1992. An introduction to machine<br />

translation. Academic Press.<br />

Jacquemin, C., & Tzoukeman, E. 1999. NLP for term variant extraction:<br />

A synergy of morphology, lexicon and syntax. Pages 25–74 of:<br />

Natural Language Information Retrieval.<br />

Jung, H., & Lee, G.G. 2002. Multilingual question answering with high<br />

portability on relational databases. International Conference On<br />

Computational Linguistics. Proceeding of the 2002 conference on<br />

multilingual summarization and question answering, 19.<br />

Junker, M., & Abecker, A. 1997. Exploiting thesaurus knowledge in rule<br />

induction for text classification. Pages 202–207 of: Proceedings of<br />

RANLP-97, 2nd International Conference on Recent Advances in<br />

Natural Language Processing.


208 Referencias<br />

Jurafsky, D., & Martin, J. H. 2000. Speech and Language Processing.<br />

An Introduction to Natural Language Processing, Computational<br />

Linguistics and Speech Recognition. London: Prentice Hall.<br />

Justeson, J.S., & Katz, S.M. 1995. NLP for term variant extraction:<br />

A synergy of morphology, lexicon and syntax. Natural Language<br />

Engineering, 1, 9–27.<br />

Kamp, H. 1981. A theory of truth and semantic representation. Pages<br />

277–322 of: Formal Methods in the Study of Language.<br />

Kamp, H., & Reyle, U. 1993. From Discourse to Logic: Introduction<br />

to Mo<strong>del</strong>theoretic Semantics of Natural Language, Formal Logic<br />

and Discourse Representation Theory. Institute for Computational<br />

Linguistics, University of Stuttgart.<br />

Kan<strong>del</strong>, E. R., Schwartz, I. H., & Jessel, T. M. 1996. Essentials of<br />

Neural Science and Behavior. McGraw-Hill/Appleton & Lange.<br />

Kang, S.-S. 2004. Term-Specific Language Mo<strong>del</strong>ing Approach to Text<br />

Categorization. Pages 735–742 of: International Conference on<br />

Computational Science and Its Applications - ICCSA 2004.<br />

Keselj, V., Peng, F., Cercone, N., & Thomas, C. 2003. N-gram-based<br />

Author Profiles for Authorship Attribution. In: Proceedings of the<br />

Conference Pacific Association for Computational Linguistics.<br />

Kirakowski, J. 1988. Human/Computer Interaction: From Voltage to<br />

Knowledge. Chartwell-Bratt.<br />

Kjell, B., Addison-Woods, W., & Frieder, O. 1994. Discrimination of<br />

authorship using visualization. Information Processing and Management,<br />

30(1).<br />

Kowalski, R. 1980. Logic for Problem Solving. North Holland, New<br />

York.<br />

Kuper, J., Saggion, H., Cunningham, H., Declerck, T., de Jong, F.,<br />

Reidsma, D., Wilks, Y., & Wittenburg, P. 2003. Intelligent Multimedia<br />

Indexing and Retrieval through Multi-source Information<br />

Extraction and Merging. In: International Joint Conferences on<br />

Artificial Intelligence (IJCAI).<br />

Lascarides, A., & Asher, N. 1993. Temporal Interpretation, Discourse<br />

Relations, and Commonsense Entailment. Linguistics and Philosophy,<br />

16, 437–493.<br />

Lear, J. 1980. Aristotle and Logical Theory. Cambridge University<br />

Press.<br />

Lewis, D. D. 1992. Representation and learning in information retrieval.<br />

Ph.D. thesis, University of Massachusetts.<br />

Lin, C.-Y., & Hovy, E. 2002. From Single to Multi-document Summarization:<br />

A Prototype System and its Evaluation. Pages 457–464<br />

of: Proceedings of the 40th Annual Meeting of the Association for<br />

Computational Linguistics (ACL).<br />

Lin, C.-Y., & Och, F. J. 2004. Automatic evaluation of machine translation<br />

quality using longest common subsequence and skip-bigram


Referencias 209<br />

statistics. In: Proceedings of the 42nd Annual Meeting on Association<br />

for Computational Linguistics.<br />

Lin, D. 1998a. An Information-Theoretic Definition of Similarity. Pages<br />

296–304 of: Proceedings of the International Conference on Machine<br />

Learning.<br />

Lin, D. 1998b. Dependency-based Evaluation of MINIPAR. In: Workshop<br />

on the Evaluation of Parsing Systems.<br />

Lin, J. 2006. The role of information retrieval in answering complex<br />

questions. Pages 523–530 of: Proceedings of the COLING/ACL<br />

2006.<br />

Lindberg, D.A.D., & Humphreys, B.L. 1993. The Unified Medical Language<br />

System. Pages 281–291 of: Methods of Information in Medicine,<br />

vol. 32.<br />

Llopis, F. 2003. IR-n: Un Sistema de Recuperación de Información<br />

basado en pasajes. Ph.D. thesis, Universidad de Alicante.<br />

Llopis, F., Muñoz, R., Terol, R.M., & Noguera, E. 2005. IR-n r2: Using<br />

Normalized Passages. Multilingual Information Access for Text,<br />

Speech and Images, 90–99.<br />

Magnini, B., Negri, M., Prevete, R., & Tanev, H. 2002. Mining Knowledge<br />

from Repeated Co-occurrences: DIOGENE at TREC-2002.<br />

In: Proceedings of The Eleventh Text Retrieval Conference (TREC<br />

2002).<br />

Manjula, D., Aghila, G, & Geetha, T. V. 2003. Document Knowledge<br />

Representation using Description Logics for Information Extraction<br />

and Querying. In: Proceedings of the International Conference<br />

on Information Technology: Computers and Communications.<br />

Manning, C. D., & Schütze, H. 1999. Foundations of Statistical Natural<br />

Language Processing. Cambridge: The MIT Press.<br />

Manzano, M. 1996. Extensions of first order logic. Cambridge University<br />

Press.<br />

Marchetti, A., Tesconi, M., Ronzano, F., Rosella, M., Bertagna, F.,<br />

Monachini, M., Soria, C., Calzolari, N., Huang, C.-R., & Hsieh, S.-<br />

K. 2006. Toward an Architecture for the Global Wordnet Initiative.<br />

In: Proceedings of the 3rd Italian Semantic Web Workshop.<br />

Marcus, M.P., Santorini, B., & Marcinkiewicz, M.A. 1994. Building a<br />

Large Annotated Corpus of English: The Penn Treebank. Computational<br />

Linguistics, 19, 313–330.<br />

Marquez, L. 2001. Tratamiento <strong>del</strong> lenguaje natural. Edicions Universitat<br />

Barcelona. Chap. Aprendizaje automático y procesamiento <strong>del</strong><br />

lenguaje natural, pages 133–188.<br />

Martínez-Vázquez, M. 1996. Gramática contrastiva inglés-español. Servicio<br />

de publicaciones de la Universidad de Huelva.<br />

Matsumura, A., Takasu, A., & Adachi, J. 2006. Effect of relationships<br />

between words on Japanese information retrieval. ACM Transac-


210 Referencias<br />

tions on Asian Language Information Processing (TALIP), 5(3),<br />

264–289.<br />

Mauldin, M.L. 1991. Performance in ferret: a conceptual information<br />

retrieval system. Pages 347–355 of: Proceedings of ACM SIGIR.<br />

McRoy, S., Haller, S., & Ali, S. 1998. Mixed Depth Representations for<br />

Dialog Processing. In: Proceedings of Cognitive Science ’98.<br />

Mihalcea, R., & Tarau, P. 2005. An Algorithm for Language Independent<br />

Single and Multiple Document Summarization. In: Proceedings<br />

of the International Joint Conference on Natural Language<br />

Processing (IJCNLP).<br />

Miller, G. A. 1995. WordNet: A Lexical Database for English. Communications<br />

of the ACM, 38(11), 39 – 41.<br />

Minsky, M. 1975. A Framework for Representing Knowledge. The Psychology<br />

of Computer Vision, McGraw-Hill.<br />

Mladenic, D., & Grobelnik, M. 1998. Word sequences as features in textlearning.<br />

Pages 145–148 of: Proceedings of ERK-98, the Seventh<br />

Electrotechnical and Computer Science Conference.<br />

Moens, M., & Steedman, M.J. 1988. Temporal ontology and temporal<br />

reference. Computational Linguistics, 14, 15–28.<br />

Moldovan, D., & Novischi, A. 2002. Lexical Chains for Question Answering.<br />

Pages 1–7 of: Proceedings of the 19th International Conference<br />

on Computational Linguistics, vol. 1.<br />

Moldovan, D., Clark, C., Harabagiu, S., & Maiorano, S. 2003. COGEX:<br />

a logic prover for question answering. Pages 87–93 of: Proceedings<br />

of HTL-NAACL 2003, Human Language Technology Conference.<br />

Moldovan, D., Clark, C., Harabagiu, S., & Maiorano, S. 2007. COGEX:<br />

A semantically and con<strong>textual</strong>ly logic prover for question answering.<br />

Journal of Applied Logic, 5(1), 49–69.<br />

Mollá, D., & Vicedo, J.L. 2004. Question Answering in Restricted Domains.<br />

Association for Computational Linguistics.<br />

Mollá, D., Schwitter, R., Hess, M., & Fournier, R. 2002. ExtrAns,<br />

an answer extraction system. TAL Special Issue on Information<br />

Retrieval Oriented Natural Language Processing, 495–522.<br />

Moore, R. 1981. Problems in logical form. In: Proceedings of the 19th<br />

Annual Meeting of the Association for Computational Linguistics.<br />

Moore, R. C. 1995. Logic and Representation. CSLI Lecture Notes.<br />

Moreda, P., Llorens, H., Saquete, E., & Palomar, M. 2008. The influence<br />

of Semantic Roles in QA: A comparative analysis. In: Actas <strong>del</strong><br />

XXIV Congreso de la SEPLN.<br />

Moreno, L., Palomar, M., Molina, A., & Ferrández, A. 1999. Introducción<br />

al Procesamiento <strong>del</strong> Lenguaje Natural. Alicante: Universidad<br />

de Alicante.<br />

Newell, A. 1980. The Knowledge Level. Presidential Address, American<br />

Association for Artificial Intelligence, 2(2), 1–20.<br />

Parry, W. T., & Hacker, E. A. 1991. Aristotelian Logic. SUNY Press.


Referencias 211<br />

Partee, B. H., ter Meulen, A. G., & Wall, R. 2004. Mathematical Methods<br />

in Linguistics. Springer.<br />

Peñas, A., Rodrigo, A., Sama, V., & Verdejo, F. 2007. Overview of the<br />

Answer Validation Exercise 2006. Pages 257–264 of: Evaluation of<br />

Multilingual and Multi-modal Information Retrieval, 7th Workshop<br />

of the Cross-Language Evaluation Forum.<br />

Pedersen, T., Patwardhan, S., & Michelizzi, J. 2004. Word-<br />

Net::Similarity - Measuring the Relatedness of Concepts. In: Proceedings<br />

of the 19th National Conference on Artificial Intelligence.<br />

Pereira, F. C. N., & Warren, D. H. D. 1983. Parsing as Deduction. In:<br />

Proceedings of 21st Annual Meeting of the Association for Computational<br />

Linguistics.<br />

Petridis, V., Kaburlaos, V. G., Fragkou, P., & Kehagias, A. 2001. Text<br />

classification using the σ-FLNMAP neural network. In: Proceedings<br />

of the 2001 International Joint Conference on Neural Networks.<br />

Poesio, M., Ferguson, G., Heeman, P., Hwang, C. H., Traum, D. R.,<br />

Allen, J. F., Martin, N., & Schubert, L. K. 1994. Knowledge Representation<br />

in the TRAINS System. In: In Working Notes of the<br />

AAAI 1994 Fall Symposium on 156 Knowledge Representation for<br />

Natural Language Processing in Implemented Systems.<br />

Porter, M.F. 1980. An algorithm for suffix stripping. Program, 14(3),<br />

130–137.<br />

Pérez, M., Solorio, T., Montes, M., López, A., & Villaseñor, L. 2004.<br />

Question answering for Spanish based on lexical and context annotation.<br />

Pages 325–333 of: Advances in Artificial Intelligence -<br />

IBERAMIA 2004.<br />

Quirk, C., Menezes, A., & C.Cherry. 2005. Dependency Treelet Translation:<br />

Syntactically Informed Phrasal SMT. In: Proceedings of 43rd<br />

Annual Meeting of the Association for Computational Linguistics.<br />

Ramakrishnanan, G., & Bhattacharyya, P. 2003. Text Representation<br />

with WordNet Synsets Using Soft Sense Disambiguation. Ingenierie<br />

des Systems d Information, 8(3), 55–70.<br />

Rich, E., & Knight, K. 1994. Inteligencia Artificial. McGraw Hill.<br />

Riloff, E, & Jones, R. 1999. Learning Dictionaries for Information Extraction<br />

by Multilevel Bootstrapping. In: Proceedings of the 13th<br />

National Conference on Artificial Intelligence (AAAI).<br />

Roger, S., Ferrández, S., Ferrández, A., Peral, J., Llopis, F., Aguilar, A.,<br />

& Tomás, D. 2005. AliQAn, Spanish QA System at CLEF-2005.<br />

Pages 457–466 of: Accessing Multilingual Information Repositories,<br />

6th Workshop of the Cross-Language Evalution Forum.<br />

Roth Jr., C.H. 2006. Fundamentos de diseño <strong>lógico</strong>. Ed. Thomson.<br />

Rumelhart, D.E., Widrow, B., & Lehr, M.A. 1994. The Basic Ideas in<br />

Neural Networks. Communications of the ACM (CACM), 37(3).<br />

Rus, V. 2002. Logic Form for WordNet Glosses. Ph.D. thesis, Southern<br />

Methodist University.


212 Referencias<br />

Rus, V., & Moldovan, D.I. 2002. High performance logic form transformation.<br />

International Journal for Tools with Artificial Intelligence,<br />

3, 437–454.<br />

Russell, S., & Norving, P. 1996. Inteligencia Artificial: un enfoque moderno.<br />

Prentice Hall.<br />

Sager, J. C. 1990. A Practical Course in Terminology Processing. John<br />

Benjamins Publishing Company.<br />

Sakay, H., & Masuyama, S. 2004. A multiple-document summarization<br />

system with user interaction. Proceedings of the 20th International<br />

Conference on Computational Linguistics.<br />

Salton, G. 1989. Automatic text processing: the transformation, analysis,<br />

and retrieval of information by computer. Addison Wesley.<br />

Sanderson, M. 2000. Retrieving with Good Sense. Information Retrieval<br />

Journal, 2(1), 49–61.<br />

Sasaki, Y., & Matsuo, Y. 2000. Learning Semantic-Level Information<br />

Extraction Rules by Type-Oriented ILP. In: Proceedings of the 18th<br />

International Conference on Computational Linguistics, COLING-<br />

2000.<br />

Schneider, K. 2004. A new feature selection score for multinomial naive<br />

Bayes text classification based on KL-divergence. In: Proceedings<br />

of 42st Annual Meeting of the Association for Computational Linguistics.<br />

Scott, S., & Matwin, S. 1999. Feature engineering for text classification.<br />

Pages 379–388 of: Proceedings of ICML-99, 16th International<br />

Conference on Machine Learning.<br />

Shaban, K. 2006. A Semantiic Graph Mo<strong>del</strong>l for Text Representatiion<br />

and Matchiing iin Document Miiniing. Ph.D. thesis, University of<br />

Waterloo.<br />

Shimohata, S., Kitamura, M., Sukehiro, T., & Murata, T. 2001. Collaborative<br />

Translation Environment on the Web. Pages 331–334 of:<br />

In proceedings of the MT Summit VIII.<br />

Sikorski, T., & Allen, J. F. 1996. A Task-Based Evaluation of the<br />

TRAINS-95 Dialogue System. Pages 207–220 of: Workshop on<br />

Dialogue Processing in Spoken Language Systems.<br />

Silva, J., & Lopes, G. 1999. A local Maxima Method and a Fair Dispersion<br />

Normalization for Extracting Multiword Units. In: Proceedings<br />

of the 6th Meeting on the Mathematics of Language.<br />

Sleator, D., & Temperley, D. 1993. Parsing English with a link grammar.<br />

In: Porceedings of Third International Workshop on Parsing<br />

Technologies.<br />

Soria, C., Tesconi, M., Marchetti, A., Bertagna, F., Monachini, M.,<br />

Huang, C.-H., & Calzolari, N. 2006. Towards Agent-based Crosslingual<br />

Interoperability of Distributed Lexical Resources. Pages<br />

17–24 of: Proceedings of the Workshop on Multilingual Langua-


Referencias 213<br />

ge Resources and Interoperability. Association for Computational<br />

Linguistics.<br />

Sosa, E. 1997. Procesamiento <strong>del</strong> lenguaje natural: revisión <strong>del</strong> estado<br />

actual, bases teóricas y aplicaciones (Parte I). El profesional de la<br />

información.<br />

Sperschneider, V., & Antoniou, G. 1991. Logic: A foundation for Computer<br />

Science. Addison-Wesley.<br />

Stallard, D. 1987. The logical analysis of lexical ambiguity. In: Proceedings<br />

of the 25th annual meeting on Association for Computational<br />

Linguistics.<br />

Steels, L. 1997. Synthesising the Origins of Language and Meaning<br />

Using Co-evolution, Self-organisation and Level formation. In: Approaches<br />

to the Evolution of Language: Social and Cognitive bases.<br />

Steels, L. 2000. The puzzle of language evolution. Kognitionswissenschaft,<br />

8(4), 143–150.<br />

Strzalkowski, T., Wang, J., & Wise, B. 1998. Summarization-based<br />

Query Expansion in Information Retrieval. In: Proceedings of the<br />

17th International Conference on Computational Linguistics (CO-<br />

LING´98) and 36th Annual Meeting of the Association for Computational<br />

Linguistics (ACL´98).<br />

Terol, R.M., Martinez-Barco, P., & Palomar, M. 2007. A knowledge<br />

based method for the medical question answering problem. Pages<br />

1511 – 1521 of: Computers in Biology and Medicine, vol. 37.<br />

Tran, T.D., Garcelon, N., Burgun, A., & Beux, P. Le. 2004. Experiments<br />

in cross-language medical information retrieval using a mixing<br />

translation module. Medinfo, 11(2), 946–949.<br />

Ullman, J. D., & Widom, J. 1999. Introducción a los Sistemas de Bases<br />

de Datos. Prentice Hall.<br />

van Emden, M. H., & Kowalski, R. 1976. The Semantics of Predicate<br />

Logic as a Programming Language. Journal of the ACM, 24(4),<br />

733–742.<br />

Veronis, J. 1988. Morphosyntactic correction in natural language interfaces.<br />

Pages 708–713 of: Proceedings of the 13th International<br />

Conference on Computational Linguistics (COLING´88).<br />

Vicedo, J.L. 2002. SEMQA: un mo<strong>del</strong>o semántico aplicado a los sistemas<br />

de búsqueda de respuestas. Ph.D. thesis, University of Alicante.<br />

Vilares, J., Barcala, F. M., & Alonso, A. 2002. Using Syntactic<br />

Dependency-Pairs Conflation to Improve Retrieval Performance in<br />

Spanish. Pages 381–390 of: CICLing.<br />

Vosse, T. 1992. Detecting and correcting morpho-syntactic errors in<br />

real texts. Pages 111–118 of: Proceedings of the Third Conference<br />

on Applied Natural Language Processing.<br />

Vossen, P. 1998. A Multilingual Database with Lexical Semantic Networks.<br />

Dordrecht: Kluwer Academic Publisher.


214 Referencias<br />

Vossen, P. 2002. EuroWordNet General Document. Part A. Final Document.<br />

EuroWordNet (LE2-4003, LE4-8328).<br />

White, R.W., Oard, D.W., Jones, G.J.F., Soergel, D., & Huang, X.<br />

2006. Overview of the CLEF-2005 Cross-Language Speech Retrieval<br />

Track. Pages 744 – 759 of: Accessing Multilingual Information<br />

Repositories.<br />

Yangarber, R. 2003. Counter-Training in Discovery of Semantic Patterns.<br />

In: Proceedings of the 41th Annual Meeting of the Association<br />

for Computational Linguistics (ACL).<br />

Yangarber, R., Grishman, R., Tapanainen, P., & Huttunen, S. 2000.<br />

Unsupervised Discovery of Scenario-Level Patterns for Information<br />

Extraction. In: Proceedings of the 18th International Conference<br />

on Computational Linguistics, COLING-2000.<br />

Zelikovitz, S., Cohen, W. W., & Hirsh, H. 2007. Extending WHIRL<br />

with background knowledge for improved text classification. Information<br />

Retrieval, 10(1), 35–67.<br />

Zhang, D., & Lee, W.S. 2003. Question classification using support vector<br />

machines. Annual ACM Conference on Research and Development<br />

in Information Retrieval. Proceedings of the 26th annual international<br />

ACM SIGIR conference on Research and development<br />

in informaion retrieval, 26–32.<br />

Zhang, J, & Li, C. 2005. A Comparative Study for WordNet Guided<br />

Text Representation. Pages 883–887 of: Proceedings of AI 2005:<br />

Advances in Artificial Intelligence.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!