16.08.2013 Views

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2.3. La <strong>clasificación</strong> automática <strong>de</strong> <strong>preguntas</strong><br />

Aprendizaje supervisado. Los ejemplos <strong>de</strong>l corpus están etiquetados,<br />

siendo el problema fundamental el <strong>de</strong> encontrar una función que<br />

relacione un conjunto <strong>de</strong> entradas con un conjunto <strong>de</strong> salidas. Los<br />

problemas <strong>de</strong> <strong>clasificación</strong> y regresión entran <strong>de</strong>ntro <strong>de</strong> este grupo.<br />

Aprendizaje no supervisado. Los ejemplos no están etiquetados,<br />

siendo el problema fundamental el <strong>de</strong> encontrar la estructura subyacente<br />

<strong>de</strong>l conjunto <strong>de</strong> datos. Los problemas <strong>de</strong> agrupamiento (clustering)<br />

y compresión <strong>de</strong> datos entran <strong>de</strong>ntro <strong>de</strong> este grupo.<br />

Aprendizaje semisupervisado. Se sitúa a medio camino entre el<br />

aprendizaje supervisado y el no supervisado. Tiene lugar cuando<br />

se emplean tanto datos etiquetados como no etiquetados para la<br />

construcción <strong>de</strong>l mo<strong>de</strong>lo (típicamente un pequeño conjunto <strong>de</strong> datos<br />

etiquetados y un conjunto gran<strong>de</strong> <strong>de</strong> datos sin etiquetar). Técnicas<br />

como co-training o expectation-maximization entran <strong>de</strong>ntro <strong>de</strong> este<br />

grupo (Chapelle et al., 2006).<br />

La tarea <strong>de</strong> CP entra <strong>de</strong>ntro <strong>de</strong>l campo <strong>de</strong>l aprendizaje supervisado<br />

(aunque existen algunas aproximaciones semisupervisadas, como veremos<br />

en el capítulo 5). En las aproximaciones basadas en aprendizaje automático<br />

a la tarea <strong>de</strong> CP, el conocimiento <strong>de</strong>l experto que se empleaba en<br />

los sistemas manuales es reemplazado por un conjunto suficientemente<br />

gran<strong>de</strong> <strong>de</strong> <strong>preguntas</strong> etiquetadas con sus correspondientes clases semánticas<br />

correctas. A partir <strong>de</strong> este conjunto <strong>de</strong> entrenamiento se induce un mo<strong>de</strong>lo<br />

que permite al clasificador, dada una nueva instancia, pre<strong>de</strong>cir la clase a la<br />

que pertenece.<br />

Existen numerosos algoritmos <strong>de</strong> aprendizaje que han <strong>de</strong>mostrado su<br />

utilidad en diferentes tareas <strong>de</strong> PLN. La figura 2.3 muestra algunos <strong>de</strong> estos<br />

algoritmos agrupados en función <strong>de</strong> la familia a la que pertenecen (Alpaydin,<br />

2004).<br />

Resulta difícil imaginar un clasificador construido manualmente mediante<br />

reglas que <strong>de</strong>penda <strong>de</strong> miles <strong>de</strong> características. Sin embargo, los<br />

métodos <strong>de</strong> aprendizaje pue<strong>de</strong>n utilizar un número potencialmente gran<strong>de</strong><br />

<strong>de</strong> características para generalizar y clasificar <strong>de</strong> forma automática. La<br />

gran promesa <strong>de</strong> esta aproximación es la <strong>de</strong> ofrecer al responsable <strong>de</strong><br />

<strong>de</strong>sarrollar el sistema la posibilidad <strong>de</strong> centrarse en el diseño <strong>de</strong> las<br />

características y en el <strong>de</strong>sarrollo <strong>de</strong> datos etiquetados, en lugar <strong>de</strong> codificar<br />

y manetener heurísticas complejas basadas en reglas. De esta forma, los<br />

sistemas <strong>basados</strong> en aprendizaje automático permiten crear aplicaciones más<br />

flexibles, que se adapten a cambios en el entorno y aprendan a partir <strong>de</strong><br />

corpus <strong>de</strong> entrenamiento. Esto permite superar muchas <strong>de</strong> las limitaciones<br />

<strong>de</strong> los sistemas <strong>basados</strong> en reglas manuales. Algunas <strong>de</strong> las ventajas que<br />

proporcionan con respecto a estos últimos son:<br />

25

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!