Alberto Risueño Pérez - Gredos - Universidad de Salamanca

More documents

Recommendations

Info

Tesis Doctoral pueden agrupar en: técnicas de aprendizaje no supervisado, técnicas de aprendizaje supervisado y técnicas de aprendizaje semi-‐supervisado. 2.1.1. Análisis de datos genómicos por técnicas de aprendizaje no supervisado El aprendizaje no supervisado trata de proporcionar información basándose en los datos de múltiples muestras sin haber sido previamente categorizadas o etiquetadas por algún tipo de característica o tipología. Este aprendizaje se basa en encontrar similitudes y diferencias entre las distintas muestras, para lo cual el cálculo de las distancias o medida de disimilitud entre ellas es una tarea crítica. Este tipo de aprendizaje tiene distintas utilidades en el ámbito de la biomedicina como en la categorización automática de enfermedades agrupando pacientes con perfiles similares partiendo de una población supuestamente homogénea. También se ha utilizado con éxito para encontrar relaciones entre genes partiendo de sus perfiles de expresión genómica, revelando la existencia de grupos que se asocian con funciones biológicas diferentes. Entre las técnicas no supervisadas figuran los métodos de agrupamiento jerárquico que representan las distintas muestras en función de su cercanía conformando una estructura de árbol llamada dendrograma. Estos métodos son muy utilizados para representar las similitudes y diferencias existentes entre las distintas muestras de un estudio. También es común combinar dos dendrogramas formando un mapa bidimensional (llamado mapa de calor o heatmap) que, ayudado de un código de colores, permite una mejor identificación visual de los distintos grupos de muestras encontrados. Existen otros muchos métodos de particionamiento que dividen las muestras en distintos grupos, como el algoritmo k-‐medias (MacQueen, 1967) y otro tipo de métodos de agrupamiento difuso, en donde la clasificación de las distintas muestras no es excluyente entre los distintos grupos identificados (Gath and Geva, 1989; Xie and Beni, 1991). Debido a la alta dimensionalidad de muchos de los conjuntos de datos genómicos, existen métodos que tratan de reducir el número de variables con la menor pérdida de información posible. Entre estas técnicas se encuentra el llamado análisis de componentes principales (PCA), que transforma los datos creando unas nuevas variables llamadas componentes principales, calculada cada una a partir una aplicación lineal de las variables originales (Jolliffe, 1986). Estas componentes principales están ordenadas en base a la importancia de la información que contienen y tienen el poder de representarla en una dimensionalidad muy inferior a la original. Esto supone una ventaja al plantear una estrategia de clasificación en donde muchos métodos tienen problemas al manejar los datos genómicos de alta dimensionalidad de los microarrays (Pochet et al., 2004). Esta reducción de dimensionalidad también es muy utilizada para representar datos de forma gráfica (Geng et al., 2005). 2.1.2. Análisis de datos genómicos por técnicas de aprendizaje supervisado y semi-‐supervisado. Las técnicas de aprendizaje supervisado son aquellas en las que se utilizan etiquetas para marcar las distintas clases que componen los datos. En este tipo de aprendizaje, se trata de entrenar un sistema para obtener información que permita clasificar a posteriori las muestras de acuerdo a sus categorías. Distintas técnicas de este tipo de aprendizaje son las máquinas de vector soporte (SVM), modelos de mixtura, redes neuronales o el algoritmo de k-‐vecinos más cercanos (Coomans and Massart, 1982; Cover and Hart, 1967). Todas estas técnicas se han 46
Capítulo 2 aplicado con éxito en el reconocimiento de patrones sobre datos de microarrays de expresión, pero probablemente el análisis más común es el llamado "expresión diferencial". Este tipo de test consiste en seleccionar los genes que presentan una expresión significativamente diferente, mayor o menor, entre dos categorías distintas previamente definidas. Existen distintas distintos algoritmos de expresión diferencial, uno de los más utilizados se basa en modelos lineales (Smyth, 2005) y está implementado en el paquete limma de R (Smyth et al., 2012). Otro de los más citados en la literatura es SAM (Significance Analysis of Microarrays) (Tusher et al., 2001) implementado en el paquete siggenes (Schwender, 2012) también de R. Estos algoritmos realizan un test por cada gen de la matriz de expresión asignando un valor de R-‐fold y un valor de probabilidad p-‐valor, con una posterior corrección para test múltiples. Probablemente el método más popular en el ámbito de la bioinformática para la corrección del p-‐valor sea el método llamado False Discovery Rate (FDR) (Benjamini et al., 2001). También son utilizados otros métodos como el de Bonferroni, el de Holm (Holm, 1979) o el de Hochberg (Hochberg, 1988). Una vez elegido un punto de corte sobre el p-‐valor corregido (que normalmente se sitúa entre 0.01 y 0.05) se obtiene un grupo de genes que están cambiados de modo estadísticamente significativo y que por ello se supone tiene una regulación distinta entre las categorías comparadas. El aprendizaje semi-‐supervisado consiste en una mezcla de métodos supervisados y no supervisados. Un ejemplo típico es la aplicación de un método de agrupamiento de variables no supervisado –por ejemplo, un agrupamiento o clustering jerárquico– a partir de una matriz de datos que incluye únicamente variables significativas que han sido previamente seleccionadas por un método de aprendizaje supervisado. Este tipo de aproximación permite reducir el tipo de variables a las únicamente significativas, basándose en los tipos o categorías de muestras que se conocen a priori, y consigue que el método de agrupamiento o clusterización no supervisado clasifique bien las muestras –es decir, los pacientes o individuos estudiados– y permita explorar con mayor precisión el agrupamiento de las variables –es decir, de los genes en el caso de datos de expresión–. 2.1.3. Análisis genómicos de dos tipos de hemopatías malignas: CLL, MM. El siguiente trabajo aquí descrito se centra en el descubrimiento de biomarcadores en datos de expresión para diferentes subtipos de dos enfermedades hematológicas: leucemia linfocítica crónica (CLL) y mieloma múltiple (MM). Estas enfermedades serán categorizadas en función a sus diferentes alteraciones cromosómicas, cada una de las cuales tiene asociada un pronóstico distinto. La CLL es el tipo más frecuente de leucemia en los países occidentales y se caracteriza por una expansión clonal de linfocitos B en la sangre, médula ósea, nódulos linfáticos y bazo (Rozman and Montserrat, 1995). La deleción de brazo largo del cromosoma 13 (13q-‐) es una de las alteraciones más frecuentes en esta enfermedad y, en general, está considerada como una aberración de buen pronóstico (Mehes, 2005). Estudios recientes, sin embargo, sugieren que el pronóstico puede variar en los pacientes con 13q-‐ dependiendo del número de células que muestran esta anormalidad como única aberración (Dal Bo et al., 2011; Hernandez et al., 2009). Los casos que presentan un alto porcentaje de células 13q-‐ (13q-‐H) tienen una esperanza de vida media inferior que los casos con bajo porcentaje de 13q-‐ (13q-‐L), que es muy similar a los casos que presentan un cariotipo normal. Por otro lado, pérdidas en otros cromosomas como 17p y 11q –i.e., del(17p) y/o del(11q)– que afectan a genes como TP53 y ATM también están relacionadas con mal pronóstico (Catovsky et al., 2007; Krober et al., 2002). Uno de los propósitos de este trabajo es caracterizar los distintos subtipos de 47
Page 1: Bioinformática aplicada a estudios
Page 5 and 6: Índice INTRODUCCIÓN GENERAL .....
Page 7 and 8: Introducción general Bioinformáti
Page 9 and 10: Figura 2. Proceso de transcripción
Page 11 and 12: Introducción general caciones, las
Page 13 and 14: Objetivos Introducción general La
Page 15 and 16: Capítulo 1 1.1.1. Bases de datos d
Page 17 and 18: Capítulo 1 sondas core y su inform
Page 19 and 20: caaatgacttgctattattgatggc 225 694 c
Page 21 and 22: presentes en el fichero. Capítulo
Page 23 and 24: Capítulo 1 Mus musculus MG_U74Av2
Page 25 and 26: Capítulo 1 Figura 1.5. Representac
Page 27 and 28: Capítulo 1 Paso 2 Descripción: As
Page 29 and 30: Capítulo 1 A la hora de escribir e
Page 31 and 32: Capítulo 1 en regiones no codifica
Page 33 and 34: Capítulo 1 Para optimizar la preci
Page 35 and 36: Figura 1.9a. Distribución del núm
Page 37 and 38: Capítulo 1 por contraste el númer
Page 39 and 40: Capítulo 1 (cromosoma, locus, exon
Page 41 and 42: Capítulo 1 figura 1.16). Además d
Page 43 and 44: Capítulo 1 exhaustivo en este ámb
Page 45 and 46: Capítulo 1 su presentación y deta
Page 47: Capítulo 1 adaptación para los mi
Page 52 and 53: Tesis Doctoral enfermedad a través
Page 54 and 55: Tesis Doctoral los genes encontrado
Page 56 and 57: Tesis Doctoral real (RT-‐PCR).
Page 58 and 59: Tesis Doctoral muestras (ver figura
Page 60 and 61: Tesis Doctoral subtipo fueron: 0.97
Page 62 and 63: Tesis Doctoral En este trabajo se h
Page 64 and 65: Tesis Doctoral permitiría, sin dud
Page 66 and 67: Tesis Doctoral inclusión entre 0 y
Page 68 and 69: Tesis Doctoral exacto del número d
Page 70 and 71: Tesis Doctoral Los valores extremos
Page 72 and 73: Tesis Doctoral dicho, la comparaci
Page 74 and 75: Tesis Doctoral 70 Figura 3.6. Los d
Page 76 and 77: Tesis Doctoral 3.8.b). Sin embargo
Page 78 and 79: Tesis Doctoral Human Exon 1.0. La l
Page 80 and 81: Tesis Doctoral 76 Figura 3.10. Curv
Page 82 and 83: Tesis Doctoral 78 Figura 3.10 (cont
Page 84 and 85: Tesis Doctoral del inicio del ranki
Page 87 and 88: Capítulo 4 Análisis de coexpresi
Page 89 and 90: Capítulo 4 los genes y la perspect
Page 91 and 92: Capítulo 4 Utilizando el set de da
Page 93 and 94: ENSG00000142541 RPL13A small nucleo
Page 95 and 96: Capítulo 4 Para encontrar los gene
Page 97 and 98: Capítulo 4 ENSG00000134287 ARF3 AD
Page 99 and 100: Capítulo 4 Figura 4.3. Red de coex
Page 101 and 102:
Capítulo 4 Si analizamos los genes
Page 103 and 104:
Capítulo 4 se hizo comparando cont
Page 105:
4.4. Discusión y posible trabajo f
Page 108 and 109:
Tesis Doctoral exones, y diseñando
Page 110 and 111:
Tesis Doctoral expression and isofo
Page 112 and 113:
Tesis Doctoral 37, e107. Gardina, P
Page 114 and 115:
Tesis Doctoral and survival in chro
Page 116 and 117:
Tesis Doctoral Roth, R.B., Hevezi,
Page 118 and 119:
Tesis Doctoral Xi, L., Feber, A., G
Page 121 and 122:
Risueño et al. BMC Bioinformatics
Page 123 and 124:
Page 125 and 126:
Page 127 and 128:
Page 129 and 130:
Page 131 and 132:
Page 133 and 134:
ORIGINAL ARTICLE Deregulation of mi
Page 135 and 136:
Targets component of miRecords inte
Page 137 and 138:
log 10 2-ΔCt -2.00 -4.00 -6.00 -8.
Page 139 and 140:
Table 4 Potential microRNA (miRNA)-
Page 141 and 142:
myeloma pathogenesis. Proc Natl Aca
Page 143 and 144:
genetic subtypes of CLL show differ
Page 145 and 146:
Table 2. Cont. Up-regulated Down-re
Page 147 and 148:
206 underexpressed in the 13q-H gro
Page 149 and 150:
Table 3. Most significant target ge
Page 151 and 152:
Discussion 13q deletion (13q-) is t
Page 153 and 154:
patients with 17p and 11q deletions
Page 155 and 156:
Human Gene Coexpression Landscape:
Page 157 and 158:
The similarity and proximity of the
Page 159 and 160:
As described in Methods we use a co
Page 161 and 162:
all data points of coexpression pai
Page 163 and 164:
Table 1. This work (2008) Pathway N
Page 165 and 166:
In conclusion, the functional consi
Page 167 and 168:
a total set of 48 microarrays. The
Page 169 and 170:
original article Annals of Oncology
Page 171 and 172:
Annals of Oncology original article
Page 173 and 174:
Page 175 and 176:
show all

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?