Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2.3. La <strong>clasificación</strong> automática <strong>de</strong> <strong>preguntas</strong><br />
What {is|are} ?<br />
What is the <strong>de</strong>finition of ?<br />
Who {is|was|are|were} ?<br />
Figura 2.1: Conjunto <strong>de</strong> patrones para la <strong>de</strong>tección <strong>de</strong> <strong>preguntas</strong> <strong>de</strong> tipo <strong>de</strong>finición.<br />
nos pue<strong>de</strong>n hacer, siendo el conjunto <strong>de</strong> clases posibles normalmente más<br />
limitado que en sistemas <strong>de</strong> dominio abierto. 13 Algunos tipos <strong>de</strong> pregunta<br />
son especialmente propicios para esta aproximación. Por ejemplo, <strong>preguntas</strong><br />
que requieren por respuesta una fecha <strong>de</strong> nacimiento pue<strong>de</strong>n ser reconocidas<br />
<strong>de</strong> forma rápida usando apenas seis reglas bien construidas (Greenwood,<br />
2005).<br />
En general, las expresiones regulares funcionan bien para <strong>preguntas</strong><br />
estándar (“¿Cuánto cuesta un litro <strong>de</strong> gasolina?”) pero funcionan peor<br />
cuando nos <strong>de</strong>sviamos <strong>de</strong> este estándar (“Me gustaría sabe cuánto me pue<strong>de</strong><br />
costar un litro <strong>de</strong> gasolina”). La figura 2.1 muestra un ejemplo <strong>de</strong> reglas<br />
manuales empleadas en un sistema <strong>de</strong> CP para el inglés (Pa¸sca y Harabagiu,<br />
2001) que permite la <strong>de</strong>tección <strong>de</strong> <strong>preguntas</strong> <strong>de</strong> tipo <strong>de</strong>finición. Algunas<br />
<strong>preguntas</strong> capturadas por estos patrones serían “What is platinum?”o “Who<br />
is Barbara Jordan?”.<br />
Existen dos limitaciones principales en los sistemas <strong>basados</strong> en reglas<br />
manuales. El primer problema es la cantidad <strong>de</strong> trabajo necesario para<br />
formular patrones eficientes que capturen todos los posibles tipos <strong>de</strong><br />
pregunta. Tal y como indicábamos en la sección 2.2, el lenguaje humano<br />
permite utilizar numerosas variantes lingüísticas para expresar una misma<br />
i<strong>de</strong>a. La figura 2.2 presenta diferentes reformulaciones <strong>de</strong> una misma<br />
pregunta. A todas estas reformulaciones se les <strong>de</strong>bería asignar la misma<br />
clase semántica ya que todas ellas hacen referencia al mismo concepto (un<br />
lugar). El empleo <strong>de</strong> diferentes términos y estructuras sintácticas dificultan<br />
a un clasificador basado en un conjunto pequeño <strong>de</strong> reglas la tarea <strong>de</strong><br />
generalizar <strong>de</strong> forma a<strong>de</strong>cuada. Esto resulta cierto incluso si se emplean bases<br />
<strong>de</strong> conocimiento externo para crear patrones más generales (Harabagiu et<br />
al., 2000; Hermjakob, 2001). Más aún, las reglas manuales ofrecen una baja<br />
cobertura <strong>de</strong>bido a la amplia variedad <strong>de</strong> formas posibles en las que pue<strong>de</strong><br />
manifestarse una misma pregunta, resultando difícil su mantenimiento a<br />
medida que el número <strong>de</strong> estas crece.<br />
La segunda limitación es la falta <strong>de</strong> flexibilidad <strong>de</strong>bido a la <strong>de</strong>pen<strong>de</strong>ncia<br />
<strong>de</strong>l idioma y el dominio. El cambio <strong>de</strong> idioma <strong>de</strong> trabajo, un cambio en el<br />
campo <strong>de</strong> aplicación o la inclusión <strong>de</strong> nuevos tipos <strong>de</strong> pregunta, conlleva<br />
generalmente la revisión y posible re<strong>de</strong>finición <strong>de</strong> las reglas y heurísticas<br />
planteadas inicialmente en el sistema. Las reglas manuales que funcionan<br />
13 En dominio abierto u open domain las <strong>preguntas</strong> pue<strong>de</strong>n versar sobre cualquier tema.<br />
23