08.08.2013 Views

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Tesis Doctoral<br />

pue<strong>de</strong>n agrupar en: técnicas <strong>de</strong> aprendizaje no supervisado, técnicas <strong>de</strong> aprendizaje<br />

supervisado y técnicas <strong>de</strong> aprendizaje semi-­‐supervisado.<br />

2.1.1. Análisis <strong>de</strong> datos genómicos por técnicas <strong>de</strong> aprendizaje no<br />

supervisado<br />

El aprendizaje no supervisado trata <strong>de</strong> proporcionar información basándose en los datos <strong>de</strong><br />

múltiples muestras sin haber sido previamente categorizadas o etiquetadas por algún tipo <strong>de</strong><br />

característica o tipología. Este aprendizaje se basa en encontrar similitu<strong>de</strong>s y diferencias entre<br />

las distintas muestras, para lo cual el cálculo <strong>de</strong> las distancias o medida <strong>de</strong> disimilitud entre<br />

ellas es una tarea crítica. Este tipo <strong>de</strong> aprendizaje tiene distintas utilida<strong>de</strong>s en el ámbito <strong>de</strong> la<br />

biomedicina como en la categorización automática <strong>de</strong> enfermeda<strong>de</strong>s agrupando pacientes con<br />

perfiles similares partiendo <strong>de</strong> una población supuestamente homogénea. También se ha<br />

utilizado con éxito para encontrar relaciones entre genes partiendo <strong>de</strong> sus perfiles <strong>de</strong><br />

expresión genómica, revelando la existencia <strong>de</strong> grupos que se asocian con funciones biológicas<br />

diferentes. Entre las técnicas no supervisadas figuran los métodos <strong>de</strong> agrupamiento jerárquico<br />

que representan las distintas muestras en función <strong>de</strong> su cercanía conformando una estructura<br />

<strong>de</strong> árbol llamada <strong>de</strong>ndrograma. Estos métodos son muy utilizados para representar las<br />

similitu<strong>de</strong>s y diferencias existentes entre las distintas muestras <strong>de</strong> un estudio. También es<br />

común combinar dos <strong>de</strong>ndrogramas formando un mapa bidimensional (llamado mapa <strong>de</strong> calor<br />

o heatmap) que, ayudado <strong>de</strong> un código <strong>de</strong> colores, permite una mejor i<strong>de</strong>ntificación visual <strong>de</strong><br />

los distintos grupos <strong>de</strong> muestras encontrados. Existen otros muchos métodos <strong>de</strong><br />

particionamiento que divi<strong>de</strong>n las muestras en distintos grupos, como el algoritmo k-­‐medias<br />

(MacQueen, 1967) y otro tipo <strong>de</strong> métodos <strong>de</strong> agrupamiento difuso, en don<strong>de</strong> la clasificación<br />

<strong>de</strong> las distintas muestras no es excluyente entre los distintos grupos i<strong>de</strong>ntificados (Gath and<br />

Geva, 1989; Xie and Beni, 1991).<br />

Debido a la alta dimensionalidad <strong>de</strong> muchos <strong>de</strong> los conjuntos <strong>de</strong> datos genómicos, existen<br />

métodos que tratan <strong>de</strong> reducir el número <strong>de</strong> variables con la menor pérdida <strong>de</strong> información<br />

posible. Entre estas técnicas se encuentra el llamado análisis <strong>de</strong> componentes principales<br />

(PCA), que transforma los datos creando unas nuevas variables llamadas componentes<br />

principales, calculada cada una a partir una aplicación lineal <strong>de</strong> las variables originales (Jolliffe,<br />

1986). Estas componentes principales están or<strong>de</strong>nadas en base a la importancia <strong>de</strong> la<br />

información que contienen y tienen el po<strong>de</strong>r <strong>de</strong> representarla en una dimensionalidad muy<br />

inferior a la original. Esto supone una ventaja al plantear una estrategia <strong>de</strong> clasificación en<br />

don<strong>de</strong> muchos métodos tienen problemas al manejar los datos genómicos <strong>de</strong> alta<br />

dimensionalidad <strong>de</strong> los microarrays (Pochet et al., 2004). Esta reducción <strong>de</strong> dimensionalidad<br />

también es muy utilizada para representar datos <strong>de</strong> forma gráfica (Geng et al., 2005).<br />

2.1.2. Análisis <strong>de</strong> datos genómicos por técnicas <strong>de</strong> aprendizaje<br />

supervisado y semi-­‐supervisado.<br />

Las técnicas <strong>de</strong> aprendizaje supervisado son aquellas en las que se utilizan etiquetas para<br />

marcar las distintas clases que componen los datos. En este tipo <strong>de</strong> aprendizaje, se trata <strong>de</strong><br />

entrenar un sistema para obtener información que permita clasificar a posteriori las muestras<br />

<strong>de</strong> acuerdo a sus categorías. Distintas técnicas <strong>de</strong> este tipo <strong>de</strong> aprendizaje son las máquinas <strong>de</strong><br />

vector soporte (SVM), mo<strong>de</strong>los <strong>de</strong> mixtura, re<strong>de</strong>s neuronales o el algoritmo <strong>de</strong> k-­‐vecinos más<br />

cercanos (Coomans and Massart, 1982; Cover and Hart, 1967). Todas estas técnicas se han<br />

46

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!