Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
1.3. Metodología<br />
Definir claramente la tarea <strong>de</strong> CP como una tarea en sí misma,<br />
evaluable con in<strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> los sistemas <strong>de</strong> BR.<br />
Establecer el estado <strong>de</strong> la cuestión <strong>de</strong> una disciplina que ha evolucionado<br />
notablemente en los últimos años.<br />
Enumerar otras aplicaciones, más allá <strong>de</strong> la BR, don<strong>de</strong> los sistemas <strong>de</strong><br />
CP resultan <strong>de</strong> utilidad.<br />
Desarrollar corpus <strong>de</strong> <strong>preguntas</strong> para el entrenamiento y evaluación <strong>de</strong><br />
sistemas <strong>basados</strong> en aprendizaje automático. Estos corpus abarcaran<br />
diferentes idiomas y dominios para po<strong>de</strong>r evaluar la capacidad <strong>de</strong><br />
adaptación <strong>de</strong> los sistemas aquí planteados.<br />
Que este trabajo sirva como iniciación y acercamiento a la tarea general<br />
<strong>de</strong> <strong>clasificación</strong> mediante aprendizaje automático, exponiendo los problemas,<br />
algoritmos, metodologías y evaluaciones usadas habitualmente<br />
en este campo.<br />
1.3. Metodología<br />
Vamos a <strong>de</strong>scribir a continuación la metodología seguida para la consecución<br />
<strong>de</strong> los objetivos marcados en el punto anterior. Hemos estructurado<br />
nuestro trabajo en tres aproximaciones diferentes, <strong>de</strong> forma que nos permita<br />
abarcar la totalidad <strong>de</strong> los objetivos planteados en el punto anterior.<br />
Primera aproximación: CP supervisada basada en n-gramas. En<br />
este primera aproximación <strong>de</strong>sarrollamos un sistema <strong>de</strong> CP que apren<strong>de</strong><br />
<strong>de</strong> forma automática a partir <strong>de</strong> información obtenida estrictamente <strong>de</strong><br />
un corpus <strong>de</strong> entrenamiento. Ningún otro tipo <strong>de</strong> herramienta o recurso<br />
lingüístico es requerido, dando como resultado un sistema flexible. Este<br />
estudio nos va a permitir establecer un sistema <strong>de</strong> referencia para aquellas<br />
situaciones en que únicamente se dispone <strong>de</strong> un corpus para el aprendizaje.<br />
Llevar a cabo esta aproximación implica la realización <strong>de</strong> diversas tareas:<br />
Determinar cuál es el algoritmo más apropiado para la tarea <strong>de</strong> CP.<br />
Analizar diferentes características <strong>de</strong> aprendizaje a nivel <strong>de</strong> palabra<br />
obtenidas exclusivamente <strong>de</strong> los datos <strong>de</strong> entrenamiento.<br />
Desarrollar corpus <strong>de</strong> entrenamiento y evaluación en diferentes idiomas<br />
para la tarea <strong>de</strong> <strong>clasificación</strong> multilingüe.<br />
Desarrollar corpus <strong>de</strong> entrenamiento y evaluación en diferentes dominios<br />
para la tarea <strong>de</strong> <strong>clasificación</strong> en dominios abiertos y restringidos.<br />
9