Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Tesis Doctoral<br />
pue<strong>de</strong>n agrupar en: técnicas <strong>de</strong> aprendizaje no supervisado, técnicas <strong>de</strong> aprendizaje<br />
supervisado y técnicas <strong>de</strong> aprendizaje semi-‐supervisado.<br />
2.1.1. Análisis <strong>de</strong> datos genómicos por técnicas <strong>de</strong> aprendizaje no<br />
supervisado<br />
El aprendizaje no supervisado trata <strong>de</strong> proporcionar información basándose en los datos <strong>de</strong><br />
múltiples muestras sin haber sido previamente categorizadas o etiquetadas por algún tipo <strong>de</strong><br />
característica o tipología. Este aprendizaje se basa en encontrar similitu<strong>de</strong>s y diferencias entre<br />
las distintas muestras, para lo cual el cálculo <strong>de</strong> las distancias o medida <strong>de</strong> disimilitud entre<br />
ellas es una tarea crítica. Este tipo <strong>de</strong> aprendizaje tiene distintas utilida<strong>de</strong>s en el ámbito <strong>de</strong> la<br />
biomedicina como en la categorización automática <strong>de</strong> enfermeda<strong>de</strong>s agrupando pacientes con<br />
perfiles similares partiendo <strong>de</strong> una población supuestamente homogénea. También se ha<br />
utilizado con éxito para encontrar relaciones entre genes partiendo <strong>de</strong> sus perfiles <strong>de</strong><br />
expresión genómica, revelando la existencia <strong>de</strong> grupos que se asocian con funciones biológicas<br />
diferentes. Entre las técnicas no supervisadas figuran los métodos <strong>de</strong> agrupamiento jerárquico<br />
que representan las distintas muestras en función <strong>de</strong> su cercanía conformando una estructura<br />
<strong>de</strong> árbol llamada <strong>de</strong>ndrograma. Estos métodos son muy utilizados para representar las<br />
similitu<strong>de</strong>s y diferencias existentes entre las distintas muestras <strong>de</strong> un estudio. También es<br />
común combinar dos <strong>de</strong>ndrogramas formando un mapa bidimensional (llamado mapa <strong>de</strong> calor<br />
o heatmap) que, ayudado <strong>de</strong> un código <strong>de</strong> colores, permite una mejor i<strong>de</strong>ntificación visual <strong>de</strong><br />
los distintos grupos <strong>de</strong> muestras encontrados. Existen otros muchos métodos <strong>de</strong><br />
particionamiento que divi<strong>de</strong>n las muestras en distintos grupos, como el algoritmo k-‐medias<br />
(MacQueen, 1967) y otro tipo <strong>de</strong> métodos <strong>de</strong> agrupamiento difuso, en don<strong>de</strong> la clasificación<br />
<strong>de</strong> las distintas muestras no es excluyente entre los distintos grupos i<strong>de</strong>ntificados (Gath and<br />
Geva, 1989; Xie and Beni, 1991).<br />
Debido a la alta dimensionalidad <strong>de</strong> muchos <strong>de</strong> los conjuntos <strong>de</strong> datos genómicos, existen<br />
métodos que tratan <strong>de</strong> reducir el número <strong>de</strong> variables con la menor pérdida <strong>de</strong> información<br />
posible. Entre estas técnicas se encuentra el llamado análisis <strong>de</strong> componentes principales<br />
(PCA), que transforma los datos creando unas nuevas variables llamadas componentes<br />
principales, calculada cada una a partir una aplicación lineal <strong>de</strong> las variables originales (Jolliffe,<br />
1986). Estas componentes principales están or<strong>de</strong>nadas en base a la importancia <strong>de</strong> la<br />
información que contienen y tienen el po<strong>de</strong>r <strong>de</strong> representarla en una dimensionalidad muy<br />
inferior a la original. Esto supone una ventaja al plantear una estrategia <strong>de</strong> clasificación en<br />
don<strong>de</strong> muchos métodos tienen problemas al manejar los datos genómicos <strong>de</strong> alta<br />
dimensionalidad <strong>de</strong> los microarrays (Pochet et al., 2004). Esta reducción <strong>de</strong> dimensionalidad<br />
también es muy utilizada para representar datos <strong>de</strong> forma gráfica (Geng et al., 2005).<br />
2.1.2. Análisis <strong>de</strong> datos genómicos por técnicas <strong>de</strong> aprendizaje<br />
supervisado y semi-‐supervisado.<br />
Las técnicas <strong>de</strong> aprendizaje supervisado son aquellas en las que se utilizan etiquetas para<br />
marcar las distintas clases que componen los datos. En este tipo <strong>de</strong> aprendizaje, se trata <strong>de</strong><br />
entrenar un sistema para obtener información que permita clasificar a posteriori las muestras<br />
<strong>de</strong> acuerdo a sus categorías. Distintas técnicas <strong>de</strong> este tipo <strong>de</strong> aprendizaje son las máquinas <strong>de</strong><br />
vector soporte (SVM), mo<strong>de</strong>los <strong>de</strong> mixtura, re<strong>de</strong>s neuronales o el algoritmo <strong>de</strong> k-‐vecinos más<br />
cercanos (Coomans and Massart, 1982; Cover and Hart, 1967). Todas estas técnicas se han<br />
46