Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
2.3. La <strong>clasificación</strong> automática <strong>de</strong> <strong>preguntas</strong><br />
Todas estas herramientas y procesos sirven para afrontar el <strong>de</strong>sarrollo<br />
<strong>de</strong> sistemas <strong>de</strong> PLN motivados por la lingüística, don<strong>de</strong> el enfoque se<br />
centra en aprovechar estas herramientas para facilitar la comprensión<br />
<strong>de</strong>l texto y la realización <strong>de</strong> las tareas <strong>de</strong> procesamiento. Retomando<br />
el ejemplo anterior <strong>de</strong>l sistema <strong>de</strong> RI, un sistema <strong>de</strong> este tipo que<br />
estuviera basado en un enfoque lingüístico podría localizar textos que<br />
contuvieran <strong>de</strong>terminadas estructuras gramaticales coinci<strong>de</strong>ntes con la<br />
petición realizada por el usuario, y no sólo palabras sueltas tratadas<br />
<strong>de</strong> forma individual en cualquier or<strong>de</strong>n (Woods et al., 2000).<br />
2.3. La <strong>clasificación</strong> automática <strong>de</strong> <strong>preguntas</strong><br />
La <strong>clasificación</strong> <strong>de</strong> <strong>preguntas</strong> 11 (CP) es una tarea <strong>de</strong> PLN que trata <strong>de</strong><br />
asignar <strong>de</strong> forma automática una clase, perteneciente a una taxonomía o<br />
conjunto cerrado, a una pregunta formulada en lenguaje natural.<br />
De una manera más formal, <strong>de</strong>finimos la CP como una tarea <strong>de</strong><br />
<strong>clasificación</strong> multiclase que busca la asignación g : X → c1, . . . , cn <strong>de</strong> una<br />
instancia x ∈ X (en nuestro caso una pregunta) a una <strong>de</strong> las n clases posibles<br />
c1, . . . , cn (Li y Roth, 2005).<br />
Un ejemplo <strong>de</strong> funcionamiento <strong>de</strong> estos sistemas sería, dada una pregunta<br />
como “¿Quién fue el primer presi<strong>de</strong>nte <strong>de</strong> Taiwan?”, i<strong>de</strong>ntificar que se<br />
nos está preguntando por una persona. Otro ejemplo sería asociar a la<br />
pregunta “¿Dón<strong>de</strong> nació Ulises S. Grant?” la clase semántica lugar, o dada<br />
la pregunta “¿Cuántos planetas hay en el sistema solar?”, i<strong>de</strong>ntificar que<br />
la respuesta esperada es un número. En estos ejemplos, persona, lugar o<br />
número serían las clases ci en las que nuestro sistema automático <strong>de</strong>be<br />
clasificar estas <strong>preguntas</strong>. Como se pue<strong>de</strong> <strong>de</strong>ducir, antes <strong>de</strong> clasificar una<br />
pregunta es necesario saber cuál es el conjunto <strong>de</strong> clases o taxonomía que<br />
se pue<strong>de</strong>n asignar a dicha pregunta. Estas clases o categorías son simples<br />
etiquetas simbólicas. No se proporciona ninguna información adicional sobre<br />
su significado a la hora <strong>de</strong> construir el clasificador. Esto implica que el<br />
texto que constituye la etiqueta (persona, lugar o número en los ejemplos<br />
anteriores) no pue<strong>de</strong> ser utilizado como información a la hora <strong>de</strong> clasificar.<br />
Como en la mayoría <strong>de</strong> tareas <strong>de</strong> PLN, las formas <strong>de</strong> afrontar la<br />
resolución automática <strong>de</strong>l problema <strong>de</strong> la CP son dos: aproximaciones basadas<br />
en conocimiento o reglas (knowledge-based methods) y aproximaciones<br />
basadas en corpus o aprendizaje automático (corpus-based methods). En<br />
la primera aproximación, se utiliza conocimiento lingüístico preexistente,<br />
codificado por un experto (por ejemplo, en forma <strong>de</strong> reglas, diccionarios,<br />
tesauros, lexicones, ontologías, etc.), normalmente adquiridos <strong>de</strong> forma<br />
manual. Por contra, en la segunda aproximación el conocimiento se extrae<br />
11 Algunos <strong>de</strong> los nombres que recibe esta tarea en la literatura anglosajona son question<br />
classification, question categorization y answer type recognition.<br />
21