Alberto Risueño Pérez - Gredos - Universidad de Salamanca

More documents

Recommendations

Info

Tesis Doctoral 1.2. Materiales y métodos 1.2.1. Bases de datos utilizadas como fuente para los remapeos de sondas de microarrays Para realizar el re-‐mapeo de las sondas de los microarrays de expresión de Affymetrix se utiliza como fuente de datos principal la información disponible en la base de datos de Ensembl. Esta base de datos biológica pública ofrece mediante su servidor ftp (ftp://ftp.ensembl.org), ficheros que contienen todas las secuencias de cDNA conocidas para el transcriptoma de varias especies. Estos ficheros representan la información en formato FASTA, que asocia cada secuencia con su identificador en texto plano (ver figura 1.3) y cuyo fácil manejo lo ha convertido en un estándar a la hora de analizar y comparar secuencias de DNA. Los ficheros descargados proceden del directorio "cdna" correspondiente con la versión y el organismo seleccionados siguiendo la nomenclatura: ftp://ftp.ensembl.org/pub/release-‐/fasta//cdna. 16 >ENST00000397806 cdna:known chromosome:GRCh37:16:222889:223709:1 gene:ENSG00000188536 CACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGG CCGCCTGGGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCT GAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAA CGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGC GCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGAC CCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTT CCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTAGC CGTTCCTCCTGCCCGCTGGGCCTCCCAACGGGCCCTCCTCCCCTCCTTGCACCGGCCCTT CCTGGTCTTTGAATAAAGTCTGAGTGGGCAGCA >ENST00000251595 cdna:known chromosome:GRCh37:16:222846:223709:1 gene:ENSG00000188536 CATAAACCCTGGCGCGCTCGCGGGCCGGCACTCTTCTGGTCCCCACAGACTCAGAGAGAA CCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTC GGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCC ACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGC CACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCC AACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAAC TTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTC ACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACC TCCAAATACCGTTAAGCTGGAGCCTCGGTAGCCGTTCCTCCTGCCCGCTGGGCCTCCCAA CGGGCCCTCCTCCCCTCCTTGCACCGGCCCTTCCTGGTCTTTGAATAAAGTCTGAGTGGG CAGCA Figura 1.3. Formato FASTA de secuencias cDNA procedentes de la base de datos Ensembl. Se muestra una pequeña parte del fichero en donde figura la secuencia de dos transcritos: ENST00000397806 y ENST00000251595. Durante el desarrollo de la presente Tesis Doctoral se han utilizado las versiones 50 (julio de 2008), 53 (Marzo de 2009) y 57 (Marzo de 2010) de los organismos Homo sapiens, Mus musculus y Rattus norvegicus (ver tabla 1.4). Cada entrada de estos ficheros contiene un identificador de transcrito como el de la figura 1.3 (ENST0000…) . La letra "T" indica que se trata de un transcrito. En Ensembl cada tipo de entidad concreta biomolecular concreta tiene su propia letra, de esta manera "G" indica gen, "T" transcrito, "E" exón y "P" proteína. Esta forma de codificar los distintos identificadores que tiene Ensembl es informativa para el investigador. Junto a la base de datos de Ensembl para ubicar sobre los transcritos de las sondas de los microarrays de Affymetrix también es necesario contar con la secuencia de cada uno de los oligos de 25 nucleótidos que conforman dichos arrays. Esta información fue descargada de la página web corporativa de la empresa (www.affymetrix.com). Existe un fichero por cada modelo de microarray detallando su constitución completa y asociando una secuencia genómica de 25 nucleótidos a cada posición X e Y, que sirve como coordenada para ubicar cada sonda dentro de la topología del microarray (ver tabla 1.4). En el caso de los microarrays del modelo IVT 3’, sólo las secuencias etiquetadas catalogadas como "perfect match" están
presentes en el fichero. Capítulo 1 Organismo Ensamblaje del Versión de Versión de Fecha de Versión de genoma Ensembl RNAdb GATExplorer GATExplorer Human GRCh37 (Sep.2009) v 57 (Mar.2010) 2009 1.Sep.2010 v 3.0 Mouse NCBIM37 (Apr.2007) v 57 (Mar.2010) 2009 1.Sep.2010 v 3.0 Rat RGSC3.4 (Dec.2006) v 57 (Mar.2010) -‐ 1.Sep.2010 v 3.0 Human NCBI36 (Oct.2005) v 53 (Mar.2009) 2009 25.Jul.2009 v 2.0 Mouse NCBIM37 (Apr.2007) v 53 (Mar.2009) 2009 25.Jul.2009 v 2.0 Rat RGSC3.4 (Dec.2006) v 53 (Mar.2009) -‐ 25.Jul.2009 v 2.0 Human NCBI36 (Oct.2005) v 50 (Jul.2008) -‐ Oct.2008 v 1.0 Mouse NCBIM37 (Apr.2007) v 50 (Jul.2008) -‐ Oct.2008 v 1.0 Rat RGSC3.4 (Dec.2006) v 50 (Jul.2008) -‐ Oct.2008 v 1.0 Tabla 1.4. Histórico de versiones de ensamblaje, Ensembl y RNAdb de GATExplorer. Para el mapeo sobre ncRNA son necesarios los archivos con las secuencias que se obtuvieron de otra base de datos específica para RNAs no codificantes: RNAdb (A database of mammalian noncoding RNAs); construida por el grupo australiano dirigido por el Profesor John Mattick (Pang et al., 2007). Toda la información detallada y secuencias de ncRNAs fueron descargada de la web del grupo indicado (http://research.imb.uq.edu.au) en formato FASTA. Cada entrada de estos ficheros se corresponde con un identificador del transcrito. Al no disponer de datos para la especie Rattus Norvegicus solamente se descargaron los ficheros para humano y ratón. Por último, GATExplorer también incorpora e integra datos de expresión obtenidos a partir de ciertos conjuntos de datos de microarrays de las tres especies que se incluyen en la web. Para el caso de humano que se utilizó el set de microarrays GeneAtlas (GEO ID GSE1133) (Su et al., 2004). Estos microarrays fueron normalizados a nivel de sonda y almacenados en base de datos. La aplicación web recupera las sondas ubicadas en cada gen buscado por el usuario en tiempo real y presenta un perfil de expresión a lo largo de varios tejidos. 1.2.2. Utilización de la arquitectura LAMP (Linux-‐Apache-‐MySQL-‐PHP) para la construcción de una plataforma bioinformática Durante todo el desarrollo de GATExplorer, tanto en el entorno de desarrollo de los diferentes programas creados y utilizados, como en el entorno de pruebas y en el servidor de producción que aloja la versión final de la aplicación web, se ha utilizado la arquitectura LAMP. LAMP corresponde a la siglas de Linux, Apache, MySQL y PHP: herramientas informáticas de código abierto que por ser gratuitas, por su extendido uso y por permitir un alto nivel de programación son muy adecuadas para un proyecto de estas características. Linux es el sistema operativo que controla las máquinas, Apache es el servidor de aplicaciones que proporcionará acceso remoto a la aplicación web (http://httpd.apache.org/), MySQL es el sistema gestor de base de datos (http://www.mysql.com/) y PHP es el lenguaje de programación en el que está implementada la aplicación web y que ejecuta las distintas instrucciones que la componen (http://www.php.net/). Además de las herramientas indicadas, GATExplorer incluye un módulo llamado Ming que permite crear, mediante código ActionScript, herramientas Flash integradas en la aplicación web, suministrándole un considerable aumento de dinamismo e interactividad en su relación con el usuario final. 17
Page 1: Bioinformática aplicada a estudios
Page 5 and 6: Índice INTRODUCCIÓN GENERAL .....
Page 7 and 8: Introducción general Bioinformáti
Page 9 and 10: Figura 2. Proceso de transcripción
Page 11 and 12: Introducción general caciones, las
Page 13 and 14: Objetivos Introducción general La
Page 15 and 16: Capítulo 1 1.1.1. Bases de datos d
Page 17 and 18: Capítulo 1 sondas core y su inform
Page 19: caaatgacttgctattattgatggc 225 694 c
Page 23 and 24: Capítulo 1 Mus musculus MG_U74Av2
Page 25 and 26: Capítulo 1 Figura 1.5. Representac
Page 27 and 28: Capítulo 1 Paso 2 Descripción: As
Page 29 and 30: Capítulo 1 A la hora de escribir e
Page 31 and 32: Capítulo 1 en regiones no codifica
Page 33 and 34: Capítulo 1 Para optimizar la preci
Page 35 and 36: Figura 1.9a. Distribución del núm
Page 37 and 38: Capítulo 1 por contraste el númer
Page 39 and 40: Capítulo 1 (cromosoma, locus, exon
Page 41 and 42: Capítulo 1 figura 1.16). Además d
Page 43 and 44: Capítulo 1 exhaustivo en este ámb
Page 45 and 46: Capítulo 1 su presentación y deta
Page 47: Capítulo 1 adaptación para los mi
Page 50 and 51: Tesis Doctoral pueden agrupar en: t
Page 52 and 53: Tesis Doctoral enfermedad a través
Page 54 and 55: Tesis Doctoral los genes encontrado
Page 56 and 57: Tesis Doctoral real (RT-‐PCR).
Page 58 and 59: Tesis Doctoral muestras (ver figura
Page 60 and 61: Tesis Doctoral subtipo fueron: 0.97
Page 62 and 63: Tesis Doctoral En este trabajo se h
Page 64 and 65: Tesis Doctoral permitiría, sin dud
Page 66 and 67: Tesis Doctoral inclusión entre 0 y
Page 68 and 69: Tesis Doctoral exacto del número d
Page 70 and 71:
Tesis Doctoral Los valores extremos
Page 72 and 73:
Tesis Doctoral dicho, la comparaci
Page 74 and 75:
Tesis Doctoral 70 Figura 3.6. Los d
Page 76 and 77:
Tesis Doctoral 3.8.b). Sin embargo
Page 78 and 79:
Tesis Doctoral Human Exon 1.0. La l
Page 80 and 81:
Tesis Doctoral 76 Figura 3.10. Curv
Page 82 and 83:
Tesis Doctoral 78 Figura 3.10 (cont
Page 84 and 85:
Tesis Doctoral del inicio del ranki
Page 87 and 88:
Capítulo 4 Análisis de coexpresi
Page 89 and 90:
Capítulo 4 los genes y la perspect
Page 91 and 92:
Capítulo 4 Utilizando el set de da
Page 93 and 94:
ENSG00000142541 RPL13A small nucleo
Page 95 and 96:
Capítulo 4 Para encontrar los gene
Page 97 and 98:
Capítulo 4 ENSG00000134287 ARF3 AD
Page 99 and 100:
Capítulo 4 Figura 4.3. Red de coex
Page 101 and 102:
Capítulo 4 Si analizamos los genes
Page 103 and 104:
Capítulo 4 se hizo comparando cont
Page 105:
4.4. Discusión y posible trabajo f
Page 108 and 109:
Tesis Doctoral exones, y diseñando
Page 110 and 111:
Tesis Doctoral expression and isofo
Page 112 and 113:
Tesis Doctoral 37, e107. Gardina, P
Page 114 and 115:
Tesis Doctoral and survival in chro
Page 116 and 117:
Tesis Doctoral Roth, R.B., Hevezi,
Page 118 and 119:
Tesis Doctoral Xi, L., Feber, A., G
Page 121 and 122:
Risueño et al. BMC Bioinformatics
Page 123 and 124:
Page 125 and 126:
Page 127 and 128:
Page 129 and 130:
Page 131 and 132:
Page 133 and 134:
ORIGINAL ARTICLE Deregulation of mi
Page 135 and 136:
Targets component of miRecords inte
Page 137 and 138:
log 10 2-ΔCt -2.00 -4.00 -6.00 -8.
Page 139 and 140:
Table 4 Potential microRNA (miRNA)-
Page 141 and 142:
myeloma pathogenesis. Proc Natl Aca
Page 143 and 144:
genetic subtypes of CLL show differ
Page 145 and 146:
Table 2. Cont. Up-regulated Down-re
Page 147 and 148:
206 underexpressed in the 13q-H gro
Page 149 and 150:
Table 3. Most significant target ge
Page 151 and 152:
Discussion 13q deletion (13q-) is t
Page 153 and 154:
patients with 17p and 11q deletions
Page 155 and 156:
Human Gene Coexpression Landscape:
Page 157 and 158:
The similarity and proximity of the
Page 159 and 160:
As described in Methods we use a co
Page 161 and 162:
all data points of coexpression pai
Page 163 and 164:
Table 1. This work (2008) Pathway N
Page 165 and 166:
In conclusion, the functional consi
Page 167 and 168:
a total set of 48 microarrays. The
Page 169 and 170:
original article Annals of Oncology
Page 171 and 172:
Annals of Oncology original article
Page 173 and 174:
Page 175 and 176:
show all

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?