Cap´ıtulo 8 Aprendizaje Basado en Instancias
Cap´ıtulo 8 Aprendizaje Basado en Instancias
Cap´ıtulo 8 Aprendizaje Basado en Instancias
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
8.5 Pocos datos y otras consideraciones<br />
Un posible problema que puede surgir es cuando se ti<strong>en</strong><strong>en</strong> pocos datos. Algunas<br />
de las posibles soluciones es o tratar de introducir nuevos datos artificialm<strong>en</strong>te<br />
y/o reducir la dim<strong>en</strong>sionalidad usando un proceso de selección de<br />
variables.<br />
La efici<strong>en</strong>cia de LWR dep<strong>en</strong>de de cuantos datos se t<strong>en</strong>gan. Se puede usar<br />
una repres<strong>en</strong>tación de kd-trees para accesar datos cercanos más rápidam<strong>en</strong>te.<br />
En g<strong>en</strong>eral, LWR es más caro que vecinos más cercanos y promedios<br />
pesados.<br />
Por otro lado, cualquier repres<strong>en</strong>tación se puede usar para construir el<br />
modelo local (e.g., árboles de decisión, reglas, redes neuronales, etc.).<br />
Una forma s<strong>en</strong>cilla de hacerlo, es tomar los vecinos más cercanos y <strong>en</strong>tr<strong>en</strong>ar<br />
un modelo/clasificador con ellos.<br />
Lo que se requiere para implantar un LWR es:<br />
• Una función de distancia. Aquí la suposición más grande de LWR es<br />
que datos más cercanos son los más relevantes. La función de distancia<br />
no ti<strong>en</strong>e que cumplir con los requerimi<strong>en</strong>tos de una métrica de distancia.<br />
• Criterio de separabilidad. Se calcula un peso para cada punto dado por<br />
el kernel aplicado a la función de distancia. Este criterio es aparte de<br />
la función de predicción (C = <br />
i[L(ˆyi, yi)K(d(xi,q))]<br />
• Sufici<strong>en</strong>tes datos para construir los modelos<br />
• Datos con salida yi.<br />
• Repres<strong>en</strong>tación adecuada.<br />
Algunas posibles direcciones futuras de investigación incluy<strong>en</strong>:<br />
• Combinar datos continuos y discretos<br />
• Mejores formas de sintonización de parámetros<br />
185