16.08.2013 Views

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

1.3. Metodología<br />

Definir claramente la tarea <strong>de</strong> CP como una tarea en sí misma,<br />

evaluable con in<strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> los sistemas <strong>de</strong> BR.<br />

Establecer el estado <strong>de</strong> la cuestión <strong>de</strong> una disciplina que ha evolucionado<br />

notablemente en los últimos años.<br />

Enumerar otras aplicaciones, más allá <strong>de</strong> la BR, don<strong>de</strong> los sistemas <strong>de</strong><br />

CP resultan <strong>de</strong> utilidad.<br />

Desarrollar corpus <strong>de</strong> <strong>preguntas</strong> para el entrenamiento y evaluación <strong>de</strong><br />

sistemas <strong>basados</strong> en aprendizaje automático. Estos corpus abarcaran<br />

diferentes idiomas y dominios para po<strong>de</strong>r evaluar la capacidad <strong>de</strong><br />

adaptación <strong>de</strong> los sistemas aquí planteados.<br />

Que este trabajo sirva como iniciación y acercamiento a la tarea general<br />

<strong>de</strong> <strong>clasificación</strong> mediante aprendizaje automático, exponiendo los problemas,<br />

algoritmos, metodologías y evaluaciones usadas habitualmente<br />

en este campo.<br />

1.3. Metodología<br />

Vamos a <strong>de</strong>scribir a continuación la metodología seguida para la consecución<br />

<strong>de</strong> los objetivos marcados en el punto anterior. Hemos estructurado<br />

nuestro trabajo en tres aproximaciones diferentes, <strong>de</strong> forma que nos permita<br />

abarcar la totalidad <strong>de</strong> los objetivos planteados en el punto anterior.<br />

Primera aproximación: CP supervisada basada en n-gramas. En<br />

este primera aproximación <strong>de</strong>sarrollamos un sistema <strong>de</strong> CP que apren<strong>de</strong><br />

<strong>de</strong> forma automática a partir <strong>de</strong> información obtenida estrictamente <strong>de</strong><br />

un corpus <strong>de</strong> entrenamiento. Ningún otro tipo <strong>de</strong> herramienta o recurso<br />

lingüístico es requerido, dando como resultado un sistema flexible. Este<br />

estudio nos va a permitir establecer un sistema <strong>de</strong> referencia para aquellas<br />

situaciones en que únicamente se dispone <strong>de</strong> un corpus para el aprendizaje.<br />

Llevar a cabo esta aproximación implica la realización <strong>de</strong> diversas tareas:<br />

Determinar cuál es el algoritmo más apropiado para la tarea <strong>de</strong> CP.<br />

Analizar diferentes características <strong>de</strong> aprendizaje a nivel <strong>de</strong> palabra<br />

obtenidas exclusivamente <strong>de</strong> los datos <strong>de</strong> entrenamiento.<br />

Desarrollar corpus <strong>de</strong> entrenamiento y evaluación en diferentes idiomas<br />

para la tarea <strong>de</strong> <strong>clasificación</strong> multilingüe.<br />

Desarrollar corpus <strong>de</strong> entrenamiento y evaluación en diferentes dominios<br />

para la tarea <strong>de</strong> <strong>clasificación</strong> en dominios abiertos y restringidos.<br />

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!