Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

More documents

Recommendations

Info

Capítulo 2. La clasificación de preguntas What tourist attractions are there in Reims? What are the names of the tourist attractions in Reims? What do most tourists visit in Reims? What attracts tourists to Reims? What are tourist attractions in Reims? What could I see in Reims? What is worth seeing in Reims? What can one see in Reims? Figura 2.2: Distintas reformulaciones de una misma pregunta pertenecientes al conjunto de evaluación de la tarea de BR de la conferencia TREC-9. bien en un conjunto específico de preguntas pueden dar resultados pobres cuando se aplican a otro conjunto. Por esta razón, las reglas construidas para una taxonomía de clases específica deben ser revisadas antes de ser aplicadas a otra taxonomía diferente. Teniendo en cuenta estas dificultades, la mayoría de sistemas que usan reglas manuales están forzados a trabajar sobre taxonomías con un número limitado de clases de preguntas. Sin embargo, hay ocasiones en las que son necesarios sistemas más robustos que puedan ser fácilmente adaptados a nuevos idiomas y al manejo de nuevos conjuntos de datos y taxonomías de preguntas. Es en este punto donde entran en juego los sistemas basados en aprendizaje automático. 2.3.2. Sistemas basados en aprendizaje automático El aprendizaje automático o machine learning es un campo de la IA relacionado con el diseño y desarrollo de algoritmos y técnicas que permiten a los ordenadores “aprender”. Este aprendizaje se lleva a cabo a partir de grandes cantidades de ejemplos (corpus) de los que se extrae el conocimiento. Por esta razón, a esta aproximación se la conoce habitualmente como basada en corpus. Cada instancia del corpus (una pregunta en nuestro caso) es representada mediante un conjunto de características de aprendizaje o features.Es habitual referirse a estas características como atributos o attributes. Estas características simbolizan la información relevante para el aprendizaje. Por ejemplo, en el caso de los sistemas de CP, una característica de aprendizaje interesante que se puede extraer de las preguntas a la hora de clasificarlas es el pronombre interrogativo. Dependiendo de si las instancias del corpus están etiquetadas o no, es decir, de si conocemos o no la clase correcta a la que pertenecen, tenemos tres tipos fundamentales de aprendizaje (Mitchell, 1997): 24
2.3. La clasificación automática de preguntas Aprendizaje supervisado. Los ejemplos del corpus están etiquetados, siendo el problema fundamental el de encontrar una función que relacione un conjunto de entradas con un conjunto de salidas. Los problemas de clasificación y regresión entran dentro de este grupo. Aprendizaje no supervisado. Los ejemplos no están etiquetados, siendo el problema fundamental el de encontrar la estructura subyacente del conjunto de datos. Los problemas de agrupamiento (clustering) y compresión de datos entran dentro de este grupo. Aprendizaje semisupervisado. Se sitúa a medio camino entre el aprendizaje supervisado y el no supervisado. Tiene lugar cuando se emplean tanto datos etiquetados como no etiquetados para la construcción del modelo (típicamente un pequeño conjunto de datos etiquetados y un conjunto grande de datos sin etiquetar). Técnicas como co-training o expectation-maximization entran dentro de este grupo (Chapelle et al., 2006). La tarea de CP entra dentro del campo del aprendizaje supervisado (aunque existen algunas aproximaciones semisupervisadas, como veremos en el capítulo 5). En las aproximaciones basadas en aprendizaje automático a la tarea de CP, el conocimiento del experto que se empleaba en los sistemas manuales es reemplazado por un conjunto suficientemente grande de preguntas etiquetadas con sus correspondientes clases semánticas correctas. A partir de este conjunto de entrenamiento se induce un modelo que permite al clasificador, dada una nueva instancia, predecir la clase a la que pertenece. Existen numerosos algoritmos de aprendizaje que han demostrado su utilidad en diferentes tareas de PLN. La figura 2.3 muestra algunos de estos algoritmos agrupados en función de la familia a la que pertenecen (Alpaydin, 2004). Resulta difícil imaginar un clasificador construido manualmente mediante reglas que dependa de miles de características. Sin embargo, los métodos de aprendizaje pueden utilizar un número potencialmente grande de características para generalizar y clasificar de forma automática. La gran promesa de esta aproximación es la de ofrecer al responsable de desarrollar el sistema la posibilidad de centrarse en el diseño de las características y en el desarrollo de datos etiquetados, en lugar de codificar y manetener heurísticas complejas basadas en reglas. De esta forma, los sistemas basados en aprendizaje automático permiten crear aplicaciones más flexibles, que se adapten a cambios en el entorno y aprendan a partir de corpus de entrenamiento. Esto permite superar muchas de las limitaciones de los sistemas basados en reglas manuales. Algunas de las ventajas que proporcionan con respecto a estos últimos son: 25
Page 1: Tesis Doctoral Sistemas de clasific
Page 5 and 6: Índice general 1. Introducción 1
Page 7: Índice general 6.3.2. Resultados e
Page 10 and 11: Índice de figuras VIII 4.8. Precis
Page 12 and 13: Índice de tablas X 6.5. Resultados
Page 14 and 15: Capítulo 1. Introducción ¿Cómo
Page 16 and 17: Capítulo 1. Introducción lenguaje
Page 18 and 19: Capítulo 1. Introducción ejemplo
Page 20 and 21: Capítulo 1. Introducción Para cum
Page 22 and 23: Capítulo 1. Introducción Evaluar
Page 24 and 25: Capítulo 1. Introducción 12 En el
Page 26 and 27: Capítulo 2. La clasificación de p
Page 53 and 54: 3 Los sistemas de clasificación de
Page 55 and 56: Según las características de apre
Page 57 and 58: 3.1. Taxonomías Animal Game Person
Page 59 and 60: 3.1. Taxonomías algunas clases muy
Page 61 and 62: 3.1. Taxonomías Causal Antecedent
Page 63 and 64: 3.2. Corpus Pese a que se han defin
Page 65 and 66: 3.2. Corpus de responder. Las pregu
Page 67 and 68: zip. 3.2. Corpus Multieight-04. Est
Page 69 and 70: 3.3. Características de aprendizaj
Page 71 and 72: 3.3.2. Características léxicas 3.
Page 73 and 74: 3.3.4. Características semánticas
Page 75 and 76: 3.3. Características de aprendizaj
Page 77 and 78: 3.4. Algoritmos de aprendizaje de d
Page 79 and 80: 3.4. Algoritmos de aprendizaje que
Page 81 and 82: 3.4. Algoritmos de aprendizaje mode
Page 83 and 84: 3.4. Algoritmos de aprendizaje de c
Page 85 and 86: 3.4.6. k-nearest neighbors 3.4. Alg
Page 87 and 88:
3.4. Algoritmos de aprendizaje a ot
Page 89 and 90:
3.6. Conclusiones componente de ext
Page 91:
3.6. Conclusiones encontrar en todo
Page 94 and 95:
Capítulo 4. CP supervisada basada
Page 96 and 97:
Page 98 and 99:
Page 100 and 101:
Page 102 and 103:
Page 104 and 105:
Page 106 and 107:
Page 108 and 109:
Page 110 and 111:
Page 112 and 113:
Page 114 and 115:
Page 116 and 117:
Page 118 and 119:
Page 120 and 121:
Page 122 and 123:
Page 124 and 125:
Page 126 and 127:
Page 128 and 129:
Capítulo 5. CP semisupervisada exp
Page 130 and 131:
Page 132 and 133:
Page 134 and 135:
Page 136 and 137:
Page 138 and 139:
Page 140 and 141:
Page 142 and 143:
Page 144 and 145:
Page 146 and 147:
Page 149 and 150:
6 Clasificación de preguntas míni
Page 151 and 152:
6.1.2. Divergencia de Jensen-Shanno
Page 153 and 154:
6.2. Descripción del sistema wiki
Page 155 and 156:
X1movie,actor = X1martin,actor = 6.
Page 157 and 158:
Paso 2 6.2. Descripción del sistem
Page 159 and 160:
6.2. Descripción del sistema asesi
Page 161 and 162:
Clase what actress starred in the l
Page 163 and 164:
6.3. Experimentos y evaluación cue
Page 165 and 166:
Experimento Inglés Español DC2 1-
Page 167 and 168:
Precisión Precisión 95 90 85 80 7
Page 169:
6.5. Conclusiones 6.5. Conclusiones
Page 172 and 173:
Capítulo 7. Conclusiones y trabajo
Page 174 and 175:
Page 176 and 177:
Page 178 and 179:
Page 180 and 181:
Page 183:
Glosario de acrónimos BOW Bolsa de
Page 186 and 187:
Apéndice A. Corpus de preguntas DC
Page 188 and 189:
Apéndice A. Corpus de preguntas DC
Page 191:
B Conjunto de semillas DC2 actor To
Page 194 and 195:
Bibliografía Beitzel, S. M., Jense
Page 196 and 197:
Bibliografía Church, K. W. y Gale,
Page 198 and 199:
Bibliografía Dietterich, T. G. (19
Page 200 and 201:
Bibliografía Association for Compu
Page 202 and 203:
Bibliografía the Association for C
Page 204 and 205:
Bibliografía Li, X. y Roth, D. (20
Page 206 and 207:
Bibliografía Moschitti, A. y Harab
Page 208 and 209:
Bibliografía Pinchak, C. y Lin, D.
Page 210 and 211:
Bibliografía Roget, P. (1987). Rog
Page 212 and 213:
Bibliografía Suzuki, J., Taira, H.
Page 214 and 215:
Bibliografía Repositories, volume
Page 216:
Bibliografía Zhang, D. y Lee, W. S
show all

Tesis Doctoral Sistemas de clasificación de preguntas basados - gplsi

Create successful ePaper yourself

Delete template?

Save as template?