Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
Alberto Risueño Pérez - Gredos - Universidad de Salamanca
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Tesis Doctoral<br />
1.2. Materiales y métodos<br />
1.2.1. Bases <strong>de</strong> datos utilizadas como fuente para los remapeos <strong>de</strong><br />
sondas <strong>de</strong> microarrays<br />
Para realizar el re-‐mapeo <strong>de</strong> las sondas <strong>de</strong> los microarrays <strong>de</strong> expresión <strong>de</strong> Affymetrix se utiliza<br />
como fuente <strong>de</strong> datos principal la información disponible en la base <strong>de</strong> datos <strong>de</strong> Ensembl. Esta<br />
base <strong>de</strong> datos biológica pública ofrece mediante su servidor ftp (ftp://ftp.ensembl.org),<br />
ficheros que contienen todas las secuencias <strong>de</strong> cDNA conocidas para el transcriptoma <strong>de</strong> varias<br />
especies. Estos ficheros representan la información en formato FASTA, que asocia cada<br />
secuencia con su i<strong>de</strong>ntificador en texto plano (ver figura 1.3) y cuyo fácil manejo lo ha<br />
convertido en un estándar a la hora <strong>de</strong> analizar y comparar secuencias <strong>de</strong> DNA. Los ficheros<br />
<strong>de</strong>scargados proce<strong>de</strong>n <strong>de</strong>l directorio "cdna" correspondiente con la versión y el organismo<br />
seleccionados siguiendo la nomenclatura:<br />
ftp://ftp.ensembl.org/pub/release-‐/fasta//cdna.<br />
16<br />
>ENST00000397806 cdna:known chromosome:GRCh37:16:222889:223709:1 gene:ENSG00000188536<br />
CACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGG<br />
CCGCCTGGGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCT<br />
GAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAA<br />
CGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGC<br />
GCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGAC<br />
CCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTT<br />
CCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTAGC<br />
CGTTCCTCCTGCCCGCTGGGCCTCCCAACGGGCCCTCCTCCCCTCCTTGCACCGGCCCTT<br />
CCTGGTCTTTGAATAAAGTCTGAGTGGGCAGCA<br />
>ENST00000251595 cdna:known chromosome:GRCh37:16:222846:223709:1 gene:ENSG00000188536<br />
CATAAACCCTGGCGCGCTCGCGGGCCGGCACTCTTCTGGTCCCCACAGACTCAGAGAGAA<br />
CCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTC<br />
GGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCC<br />
ACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGC<br />
CACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCC<br />
AACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAAC<br />
TTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTC<br />
ACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACC<br />
TCCAAATACCGTTAAGCTGGAGCCTCGGTAGCCGTTCCTCCTGCCCGCTGGGCCTCCCAA<br />
CGGGCCCTCCTCCCCTCCTTGCACCGGCCCTTCCTGGTCTTTGAATAAAGTCTGAGTGGG<br />
CAGCA<br />
Figura 1.3. Formato FASTA <strong>de</strong> secuencias cDNA proce<strong>de</strong>ntes <strong>de</strong> la base <strong>de</strong> datos Ensembl. Se muestra una<br />
pequeña parte <strong>de</strong>l fichero en don<strong>de</strong> figura la secuencia <strong>de</strong> dos transcritos: ENST00000397806 y<br />
ENST00000251595.<br />
Durante el <strong>de</strong>sarrollo <strong>de</strong> la presente Tesis Doctoral se han utilizado las versiones 50 (julio <strong>de</strong><br />
2008), 53 (Marzo <strong>de</strong> 2009) y 57 (Marzo <strong>de</strong> 2010) <strong>de</strong> los organismos Homo sapiens, Mus<br />
musculus y Rattus norvegicus (ver tabla 1.4). Cada entrada <strong>de</strong> estos ficheros contiene un<br />
i<strong>de</strong>ntificador <strong>de</strong> transcrito como el <strong>de</strong> la figura 1.3 (ENST0000…) . La letra "T" indica que se<br />
trata <strong>de</strong> un transcrito. En Ensembl cada tipo <strong>de</strong> entidad concreta biomolecular concreta tiene<br />
su propia letra, <strong>de</strong> esta manera "G" indica gen, "T" transcrito, "E" exón y "P" proteína. Esta<br />
forma <strong>de</strong> codificar los distintos i<strong>de</strong>ntificadores que tiene Ensembl es informativa para el<br />
investigador.<br />
Junto a la base <strong>de</strong> datos <strong>de</strong> Ensembl para ubicar sobre los transcritos <strong>de</strong> las sondas <strong>de</strong> los<br />
microarrays <strong>de</strong> Affymetrix también es necesario contar con la secuencia <strong>de</strong> cada uno <strong>de</strong> los<br />
oligos <strong>de</strong> 25 nucleótidos que conforman dichos arrays. Esta información fue <strong>de</strong>scargada <strong>de</strong> la<br />
página web corporativa <strong>de</strong> la empresa (www.affymetrix.com). Existe un fichero por cada<br />
mo<strong>de</strong>lo <strong>de</strong> microarray <strong>de</strong>tallando su constitución completa y asociando una secuencia<br />
genómica <strong>de</strong> 25 nucleótidos a cada posición X e Y, que sirve como coor<strong>de</strong>nada para ubicar<br />
cada sonda <strong>de</strong>ntro <strong>de</strong> la topología <strong>de</strong>l microarray (ver tabla 1.4). En el caso <strong>de</strong> los microarrays<br />
<strong>de</strong>l mo<strong>de</strong>lo IVT 3’, sólo las secuencias etiquetadas catalogadas como "perfect match" están