Alberto Risueño Pérez - Gredos - Universidad de Salamanca

More documents

Recommendations

Info

Tesis Doctoral Human Exon 1.0. La lógica del algoritmo se implementó en un paquete llamado ESLiM que incluye las siguientes funciones: 74 • doLinearModel: Realiza el cálculo de residuales a partir de las matrices de expresión a nivel de genes (medidos con la estrategia "total" de ESLiMt o por la estrategia "core" de ESLiMc ya explicadas) y a nivel de exones. Para este cálculo también se necesita el fichero de anotación de exones presente en GATExplorer donde se relaciona cada identificador de exón (ENSE) con el identificador del gen (ENSG). • removeRedundantExons: Elimina los exones de Ensembl que son redundantes, ya que –pese a ser casi solapantes y estar localizados en la misma región cromosómica y locus génico– tienen identificadores (ENSE ids) diferentes por variar su longitud en una pocas bases (bp) o tener distintos puntos de inicio o final UTR. Para eliminar esta redundancia, todos los identificadores de exones mapeados por el mismo conjunto de sondas de un microarray son agrupados en uno solo, tomándose como identificador único el primero (siguiendo el orden alfabético). Esta función elimina así muchos resultados que son totalmente redundantes (debido al problema de los ids descrito) que analizan exactamente la misma región exónica codificante. Esta función toma como entrada el listado generado por la función anterior: doLinearModel. • geneOriented: Agrupa los distintos exones significativos colapsándolos en genes. Estos exones significativos han sido identificados previamente a partir de los residuales obtenidos por la función doLinearModel y tras el paso de eliminación de redundancias. La función toma como entrada los identificadores de exones, sus p-‐valores y el fichero de anotación de exones de GATExplorer. Como salida esta función proporciona el porcentaje de exones alterados para cada gen respecto del total de exones detectables por el microarray, haciendo distinción entre exones codificantes y exones no codificantes de proteína. Además proporciona 2 valores de probabilidad: el p-‐valor más bajo de todos sus exones y la mediana de todos ellos. Las listas procedentes de análisis de expresión diferencial a nivel de genes suelen proporcionar varios cientos o miles de entradas. A pesar de existir herramientas para realizar interpretaciones automáticas de estos listados, a menudo puede ser demasiada información para el investigador. Este problema se agrava con el manejo de listas de exones, que multiplica en más de 10 el tamaño de las listas de genes (ver introducción, tabla 1). La orientación a genes que proporciona el paquete ESLiM en su salida final, permite una reducción del número de resultados significativos ya que apunta directamente a genes específicos como los mejores candidatos a sufrir splicing. Los resultados amplios –muchas veces masivos– obtenidos exón a exón también son proporcionados por el algoritmo, pero son puestos en un segundo plano. En todo caso la salida puede ser reordenada por el usuario por significación acorde a los distintos parámetros proporcionados por el algoritmo. 3.3.2 Comparativa de ESLiMt y ESLiMc con otros algoritmos para la búsqueda de splicing previamente publicados La eficiencia de cada algoritmo fue medida utilizando como set de datos de comparación el set de Affymetrix de microarrays de exones de 11 tejidos humanos –con tres réplicas cada uno– combinado con los datos de splicing validados respecto a una serie de genes humanos en distintos tejidos (Wang et al., 2008). Esta combinación suministró un conjunto final de 6 tejidos (ver apartado 3.2.1). Estos 6 tejidos fueron comparados 2 a 2 por cada uno de los 5
Capítulo 3 métodos analizados produciendo un total de 15 contrastes. Los algoritmos ESLiMc, ESLiMt, FIRMA y COSIE devuelven un valor por muestra y exón, por lo que solamente hizo falta ejecutar una vez cada uno de ellos utilizando posteriormente el paquete limma (Smyth et al., 2012) para realizar el ranking de exones por cada par de tejidos. ARH devuelve directamente un valor de significación por gen (ARH values), por lo que debió ejecutarse 15 veces, uno por cada contraste. La cobertura sobre los genes con splicing conocido validado experimentalmente (Wang et al., 2008) por cada par de tejidos es muy similar en todos los algoritmos, exceptuando ESLiMt que, debido a lo restrictivo del método de selección de sondas, solamente tiene la capacidad de medir aproximadamente la mitad de los genes (ver tabla 3.3). La comparación entre hígado y músculo (LIV-‐MUS) no pudo medirse con ESLiMt ya que ninguno de los 2 genes validados en este contraste pudo mapearse según en el criterio de esta versión del algoritmo. ESLiMc ESLiMt FIRMA ARH COSIE Nº total de genes con splicing validado BRE-‐CER 71 32 75 75 73 75 BRE-‐HEA 10 5 11 11 9 11 BRE-‐LIV 4 2 5 5 5 5 BRE-‐MUS 8 4 8 8 8 8 BRE-‐TES 16 9 16 16 15 16 CER-‐HEA 21 15 22 22 21 22 CER-‐LIV 12 5 12 12 12 12 CER-‐MUS 37 19 38 38 38 38 CER-‐TES 48 22 52 52 51 52 HEA-‐LIV 2 2 2 2 2 2 HEA-‐MUS 12 5 13 13 13 13 HEA-‐TES 7 5 7 7 7 7 LIV-‐MUS 2 0 2 2 2 2 LIV-‐TES 5 4 5 4 4 5 MUS-‐TES 14 4 14 14 14 14 Nº de genes validados detectados 269 133 282 281 274 282 Nº total de genes 37388 32039 37567 39316 21504 Nº de genes codificantes de proteína 19346 14351 20812 19871 17926 Tabla 3.3. Número de genes validados por cada algoritmo y par de tejidos. Los números de los nuevos métodos presentados en este trabajo (ESLiMc y ESLiMt) figuran en negrita. ESLiMt es el método que menor cobertura presenta debido a una selección muy restrictiva de sondas para calcular la expresión del gen. Para comparar la precisión de cada uno de los métodos se utilizaron curvas ROC (Receiver Operating Characteristic) para cada uno de los pares de tejido comparados. Las curvas ROC miden y comparan de modo gráfico la "tasa de verdaderos positivos" (TPR) o "sensibilidad" (VP/(VP+FN)) frente a la "tasa de falsos positivos" (TFP) o "1-‐especificidad" (FP/(FP+VN)) sobre un clasificador binario (Draghici, 2003). La comparación entre dos curvas se mide mediante el área bajo la curva (AUC), que varía entre 0.5 en caso de total aleatoriedad y 1.0 en caso de clasificación perfecta. Este análisis se realizó mediante el uso del paquete de R llamado ROCR (Sing et al., 2005). La figura 3.10 presenta en 15 paneles consecutivos las curvas ROC correspondientes a los contrastes de los 15 pares de tejidos comparados, incluyendo cada panel la curva correspondiente a los 5 métodos: ESLiMc, ESLiMt, FIRMA, ARH y COSIE. 75
Page 1:
Bioinformática aplicada a estudios
Page 5 and 6:
Índice INTRODUCCIÓN GENERAL .....
Page 7 and 8:
Introducción general Bioinformáti
Page 9 and 10:
Figura 2. Proceso de transcripción
Page 11 and 12:
Introducción general caciones, las
Page 13 and 14:
Objetivos Introducción general La
Page 15 and 16:
Capítulo 1 1.1.1. Bases de datos d
Page 17 and 18:
Capítulo 1 sondas core y su inform
Page 19 and 20:
caaatgacttgctattattgatggc 225 694 c
Page 21 and 22:
presentes en el fichero. Capítulo
Page 23 and 24:
Capítulo 1 Mus musculus MG_U74Av2
Page 25 and 26:
Capítulo 1 Figura 1.5. Representac
Page 27 and 28: Capítulo 1 Paso 2 Descripción: As
Page 29 and 30: Capítulo 1 A la hora de escribir e
Page 31 and 32: Capítulo 1 en regiones no codifica
Page 33 and 34: Capítulo 1 Para optimizar la preci
Page 35 and 36: Figura 1.9a. Distribución del núm
Page 37 and 38: Capítulo 1 por contraste el númer
Page 39 and 40: Capítulo 1 (cromosoma, locus, exon
Page 41 and 42: Capítulo 1 figura 1.16). Además d
Page 43 and 44: Capítulo 1 exhaustivo en este ámb
Page 45 and 46: Capítulo 1 su presentación y deta
Page 47: Capítulo 1 adaptación para los mi
Page 50 and 51: Tesis Doctoral pueden agrupar en: t
Page 52 and 53: Tesis Doctoral enfermedad a través
Page 54 and 55: Tesis Doctoral los genes encontrado
Page 56 and 57: Tesis Doctoral real (RT-‐PCR).
Page 58 and 59: Tesis Doctoral muestras (ver figura
Page 60 and 61: Tesis Doctoral subtipo fueron: 0.97
Page 62 and 63: Tesis Doctoral En este trabajo se h
Page 64 and 65: Tesis Doctoral permitiría, sin dud
Page 66 and 67: Tesis Doctoral inclusión entre 0 y
Page 68 and 69: Tesis Doctoral exacto del número d
Page 70 and 71: Tesis Doctoral Los valores extremos
Page 72 and 73: Tesis Doctoral dicho, la comparaci
Page 74 and 75: Tesis Doctoral 70 Figura 3.6. Los d
Page 76 and 77: Tesis Doctoral 3.8.b). Sin embargo
Page 80 and 81: Tesis Doctoral 76 Figura 3.10. Curv
Page 82 and 83: Tesis Doctoral 78 Figura 3.10 (cont
Page 84 and 85: Tesis Doctoral del inicio del ranki
Page 87 and 88: Capítulo 4 Análisis de coexpresi
Page 89 and 90: Capítulo 4 los genes y la perspect
Page 91 and 92: Capítulo 4 Utilizando el set de da
Page 93 and 94: ENSG00000142541 RPL13A small nucleo
Page 95 and 96: Capítulo 4 Para encontrar los gene
Page 97 and 98: Capítulo 4 ENSG00000134287 ARF3 AD
Page 99 and 100: Capítulo 4 Figura 4.3. Red de coex
Page 101 and 102: Capítulo 4 Si analizamos los genes
Page 103 and 104: Capítulo 4 se hizo comparando cont
Page 105: 4.4. Discusión y posible trabajo f
Page 108 and 109: Tesis Doctoral exones, y diseñando
Page 110 and 111: Tesis Doctoral expression and isofo
Page 112 and 113: Tesis Doctoral 37, e107. Gardina, P
Page 114 and 115: Tesis Doctoral and survival in chro
Page 116 and 117: Tesis Doctoral Roth, R.B., Hevezi,
Page 118 and 119: Tesis Doctoral Xi, L., Feber, A., G
Page 121 and 122: Risueño et al. BMC Bioinformatics
Page 129 and 130:
Risueño et al. BMC Bioinformatics
Page 131 and 132:
Risueño et al. BMC Bioinformatics
Page 133 and 134:
ORIGINAL ARTICLE Deregulation of mi
Page 135 and 136:
Targets component of miRecords inte
Page 137 and 138:
log 10 2-ΔCt -2.00 -4.00 -6.00 -8.
Page 139 and 140:
Table 4 Potential microRNA (miRNA)-
Page 141 and 142:
myeloma pathogenesis. Proc Natl Aca
Page 143 and 144:
genetic subtypes of CLL show differ
Page 145 and 146:
Table 2. Cont. Up-regulated Down-re
Page 147 and 148:
206 underexpressed in the 13q-H gro
Page 149 and 150:
Table 3. Most significant target ge
Page 151 and 152:
Discussion 13q deletion (13q-) is t
Page 153 and 154:
patients with 17p and 11q deletions
Page 155 and 156:
Human Gene Coexpression Landscape:
Page 157 and 158:
The similarity and proximity of the
Page 159 and 160:
As described in Methods we use a co
Page 161 and 162:
all data points of coexpression pai
Page 163 and 164:
Table 1. This work (2008) Pathway N
Page 165 and 166:
In conclusion, the functional consi
Page 167 and 168:
a total set of 48 microarrays. The
Page 169 and 170:
original article Annals of Oncology
Page 171 and 172:
Annals of Oncology original article
Page 173 and 174:
Page 175 and 176:
show all

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?