16.08.2013 Views

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

2.3. La <strong>clasificación</strong> automática <strong>de</strong> <strong>preguntas</strong><br />

Todas estas herramientas y procesos sirven para afrontar el <strong>de</strong>sarrollo<br />

<strong>de</strong> sistemas <strong>de</strong> PLN motivados por la lingüística, don<strong>de</strong> el enfoque se<br />

centra en aprovechar estas herramientas para facilitar la comprensión<br />

<strong>de</strong>l texto y la realización <strong>de</strong> las tareas <strong>de</strong> procesamiento. Retomando<br />

el ejemplo anterior <strong>de</strong>l sistema <strong>de</strong> RI, un sistema <strong>de</strong> este tipo que<br />

estuviera basado en un enfoque lingüístico podría localizar textos que<br />

contuvieran <strong>de</strong>terminadas estructuras gramaticales coinci<strong>de</strong>ntes con la<br />

petición realizada por el usuario, y no sólo palabras sueltas tratadas<br />

<strong>de</strong> forma individual en cualquier or<strong>de</strong>n (Woods et al., 2000).<br />

2.3. La <strong>clasificación</strong> automática <strong>de</strong> <strong>preguntas</strong><br />

La <strong>clasificación</strong> <strong>de</strong> <strong>preguntas</strong> 11 (CP) es una tarea <strong>de</strong> PLN que trata <strong>de</strong><br />

asignar <strong>de</strong> forma automática una clase, perteneciente a una taxonomía o<br />

conjunto cerrado, a una pregunta formulada en lenguaje natural.<br />

De una manera más formal, <strong>de</strong>finimos la CP como una tarea <strong>de</strong><br />

<strong>clasificación</strong> multiclase que busca la asignación g : X → c1, . . . , cn <strong>de</strong> una<br />

instancia x ∈ X (en nuestro caso una pregunta) a una <strong>de</strong> las n clases posibles<br />

c1, . . . , cn (Li y Roth, 2005).<br />

Un ejemplo <strong>de</strong> funcionamiento <strong>de</strong> estos sistemas sería, dada una pregunta<br />

como “¿Quién fue el primer presi<strong>de</strong>nte <strong>de</strong> Taiwan?”, i<strong>de</strong>ntificar que se<br />

nos está preguntando por una persona. Otro ejemplo sería asociar a la<br />

pregunta “¿Dón<strong>de</strong> nació Ulises S. Grant?” la clase semántica lugar, o dada<br />

la pregunta “¿Cuántos planetas hay en el sistema solar?”, i<strong>de</strong>ntificar que<br />

la respuesta esperada es un número. En estos ejemplos, persona, lugar o<br />

número serían las clases ci en las que nuestro sistema automático <strong>de</strong>be<br />

clasificar estas <strong>preguntas</strong>. Como se pue<strong>de</strong> <strong>de</strong>ducir, antes <strong>de</strong> clasificar una<br />

pregunta es necesario saber cuál es el conjunto <strong>de</strong> clases o taxonomía que<br />

se pue<strong>de</strong>n asignar a dicha pregunta. Estas clases o categorías son simples<br />

etiquetas simbólicas. No se proporciona ninguna información adicional sobre<br />

su significado a la hora <strong>de</strong> construir el clasificador. Esto implica que el<br />

texto que constituye la etiqueta (persona, lugar o número en los ejemplos<br />

anteriores) no pue<strong>de</strong> ser utilizado como información a la hora <strong>de</strong> clasificar.<br />

Como en la mayoría <strong>de</strong> tareas <strong>de</strong> PLN, las formas <strong>de</strong> afrontar la<br />

resolución automática <strong>de</strong>l problema <strong>de</strong> la CP son dos: aproximaciones basadas<br />

en conocimiento o reglas (knowledge-based methods) y aproximaciones<br />

basadas en corpus o aprendizaje automático (corpus-based methods). En<br />

la primera aproximación, se utiliza conocimiento lingüístico preexistente,<br />

codificado por un experto (por ejemplo, en forma <strong>de</strong> reglas, diccionarios,<br />

tesauros, lexicones, ontologías, etc.), normalmente adquiridos <strong>de</strong> forma<br />

manual. Por contra, en la segunda aproximación el conocimiento se extrae<br />

11 Algunos <strong>de</strong> los nombres que recibe esta tarea en la literatura anglosajona son question<br />

classification, question categorization y answer type recognition.<br />

21

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!