Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
2.3. La <strong>clasificación</strong> automática <strong>de</strong> <strong>preguntas</strong><br />
Aprendizaje supervisado. Los ejemplos <strong>de</strong>l corpus están etiquetados,<br />
siendo el problema fundamental el <strong>de</strong> encontrar una función que<br />
relacione un conjunto <strong>de</strong> entradas con un conjunto <strong>de</strong> salidas. Los<br />
problemas <strong>de</strong> <strong>clasificación</strong> y regresión entran <strong>de</strong>ntro <strong>de</strong> este grupo.<br />
Aprendizaje no supervisado. Los ejemplos no están etiquetados,<br />
siendo el problema fundamental el <strong>de</strong> encontrar la estructura subyacente<br />
<strong>de</strong>l conjunto <strong>de</strong> datos. Los problemas <strong>de</strong> agrupamiento (clustering)<br />
y compresión <strong>de</strong> datos entran <strong>de</strong>ntro <strong>de</strong> este grupo.<br />
Aprendizaje semisupervisado. Se sitúa a medio camino entre el<br />
aprendizaje supervisado y el no supervisado. Tiene lugar cuando<br />
se emplean tanto datos etiquetados como no etiquetados para la<br />
construcción <strong>de</strong>l mo<strong>de</strong>lo (típicamente un pequeño conjunto <strong>de</strong> datos<br />
etiquetados y un conjunto gran<strong>de</strong> <strong>de</strong> datos sin etiquetar). Técnicas<br />
como co-training o expectation-maximization entran <strong>de</strong>ntro <strong>de</strong> este<br />
grupo (Chapelle et al., 2006).<br />
La tarea <strong>de</strong> CP entra <strong>de</strong>ntro <strong>de</strong>l campo <strong>de</strong>l aprendizaje supervisado<br />
(aunque existen algunas aproximaciones semisupervisadas, como veremos<br />
en el capítulo 5). En las aproximaciones basadas en aprendizaje automático<br />
a la tarea <strong>de</strong> CP, el conocimiento <strong>de</strong>l experto que se empleaba en<br />
los sistemas manuales es reemplazado por un conjunto suficientemente<br />
gran<strong>de</strong> <strong>de</strong> <strong>preguntas</strong> etiquetadas con sus correspondientes clases semánticas<br />
correctas. A partir <strong>de</strong> este conjunto <strong>de</strong> entrenamiento se induce un mo<strong>de</strong>lo<br />
que permite al clasificador, dada una nueva instancia, pre<strong>de</strong>cir la clase a la<br />
que pertenece.<br />
Existen numerosos algoritmos <strong>de</strong> aprendizaje que han <strong>de</strong>mostrado su<br />
utilidad en diferentes tareas <strong>de</strong> PLN. La figura 2.3 muestra algunos <strong>de</strong> estos<br />
algoritmos agrupados en función <strong>de</strong> la familia a la que pertenecen (Alpaydin,<br />
2004).<br />
Resulta difícil imaginar un clasificador construido manualmente mediante<br />
reglas que <strong>de</strong>penda <strong>de</strong> miles <strong>de</strong> características. Sin embargo, los<br />
métodos <strong>de</strong> aprendizaje pue<strong>de</strong>n utilizar un número potencialmente gran<strong>de</strong><br />
<strong>de</strong> características para generalizar y clasificar <strong>de</strong> forma automática. La<br />
gran promesa <strong>de</strong> esta aproximación es la <strong>de</strong> ofrecer al responsable <strong>de</strong><br />
<strong>de</strong>sarrollar el sistema la posibilidad <strong>de</strong> centrarse en el diseño <strong>de</strong> las<br />
características y en el <strong>de</strong>sarrollo <strong>de</strong> datos etiquetados, en lugar <strong>de</strong> codificar<br />
y manetener heurísticas complejas basadas en reglas. De esta forma, los<br />
sistemas <strong>basados</strong> en aprendizaje automático permiten crear aplicaciones más<br />
flexibles, que se adapten a cambios en el entorno y aprendan a partir <strong>de</strong><br />
corpus <strong>de</strong> entrenamiento. Esto permite superar muchas <strong>de</strong> las limitaciones<br />
<strong>de</strong> los sistemas <strong>basados</strong> en reglas manuales. Algunas <strong>de</strong> las ventajas que<br />
proporcionan con respecto a estos últimos son:<br />
25