08.08.2013 Views

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

Alberto Risueño Pérez - Gredos - Universidad de Salamanca

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Tesis Doctoral<br />

1.2. Materiales y métodos<br />

1.2.1. Bases <strong>de</strong> datos utilizadas como fuente para los remapeos <strong>de</strong><br />

sondas <strong>de</strong> microarrays<br />

Para realizar el re-­‐mapeo <strong>de</strong> las sondas <strong>de</strong> los microarrays <strong>de</strong> expresión <strong>de</strong> Affymetrix se utiliza<br />

como fuente <strong>de</strong> datos principal la información disponible en la base <strong>de</strong> datos <strong>de</strong> Ensembl. Esta<br />

base <strong>de</strong> datos biológica pública ofrece mediante su servidor ftp (ftp://ftp.ensembl.org),<br />

ficheros que contienen todas las secuencias <strong>de</strong> cDNA conocidas para el transcriptoma <strong>de</strong> varias<br />

especies. Estos ficheros representan la información en formato FASTA, que asocia cada<br />

secuencia con su i<strong>de</strong>ntificador en texto plano (ver figura 1.3) y cuyo fácil manejo lo ha<br />

convertido en un estándar a la hora <strong>de</strong> analizar y comparar secuencias <strong>de</strong> DNA. Los ficheros<br />

<strong>de</strong>scargados proce<strong>de</strong>n <strong>de</strong>l directorio "cdna" correspondiente con la versión y el organismo<br />

seleccionados siguiendo la nomenclatura:<br />

ftp://ftp.ensembl.org/pub/release-­‐/fasta//cdna.<br />

16<br />

>ENST00000397806 cdna:known chromosome:GRCh37:16:222889:223709:1 gene:ENSG00000188536<br />

CACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGG<br />

CCGCCTGGGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCT<br />

GAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAA<br />

CGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGC<br />

GCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGAC<br />

CCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTT<br />

CCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTAGC<br />

CGTTCCTCCTGCCCGCTGGGCCTCCCAACGGGCCCTCCTCCCCTCCTTGCACCGGCCCTT<br />

CCTGGTCTTTGAATAAAGTCTGAGTGGGCAGCA<br />

>ENST00000251595 cdna:known chromosome:GRCh37:16:222846:223709:1 gene:ENSG00000188536<br />

CATAAACCCTGGCGCGCTCGCGGGCCGGCACTCTTCTGGTCCCCACAGACTCAGAGAGAA<br />

CCCACCATGGTGCTGTCTCCTGCCGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTC<br />

GGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCC<br />

ACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGC<br />

CACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCC<br />

AACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAAC<br />

TTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTC<br />

ACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACC<br />

TCCAAATACCGTTAAGCTGGAGCCTCGGTAGCCGTTCCTCCTGCCCGCTGGGCCTCCCAA<br />

CGGGCCCTCCTCCCCTCCTTGCACCGGCCCTTCCTGGTCTTTGAATAAAGTCTGAGTGGG<br />

CAGCA<br />

Figura 1.3. Formato FASTA <strong>de</strong> secuencias cDNA proce<strong>de</strong>ntes <strong>de</strong> la base <strong>de</strong> datos Ensembl. Se muestra una<br />

pequeña parte <strong>de</strong>l fichero en don<strong>de</strong> figura la secuencia <strong>de</strong> dos transcritos: ENST00000397806 y<br />

ENST00000251595.<br />

Durante el <strong>de</strong>sarrollo <strong>de</strong> la presente Tesis Doctoral se han utilizado las versiones 50 (julio <strong>de</strong><br />

2008), 53 (Marzo <strong>de</strong> 2009) y 57 (Marzo <strong>de</strong> 2010) <strong>de</strong> los organismos Homo sapiens, Mus<br />

musculus y Rattus norvegicus (ver tabla 1.4). Cada entrada <strong>de</strong> estos ficheros contiene un<br />

i<strong>de</strong>ntificador <strong>de</strong> transcrito como el <strong>de</strong> la figura 1.3 (ENST0000…) . La letra "T" indica que se<br />

trata <strong>de</strong> un transcrito. En Ensembl cada tipo <strong>de</strong> entidad concreta biomolecular concreta tiene<br />

su propia letra, <strong>de</strong> esta manera "G" indica gen, "T" transcrito, "E" exón y "P" proteína. Esta<br />

forma <strong>de</strong> codificar los distintos i<strong>de</strong>ntificadores que tiene Ensembl es informativa para el<br />

investigador.<br />

Junto a la base <strong>de</strong> datos <strong>de</strong> Ensembl para ubicar sobre los transcritos <strong>de</strong> las sondas <strong>de</strong> los<br />

microarrays <strong>de</strong> Affymetrix también es necesario contar con la secuencia <strong>de</strong> cada uno <strong>de</strong> los<br />

oligos <strong>de</strong> 25 nucleótidos que conforman dichos arrays. Esta información fue <strong>de</strong>scargada <strong>de</strong> la<br />

página web corporativa <strong>de</strong> la empresa (www.affymetrix.com). Existe un fichero por cada<br />

mo<strong>de</strong>lo <strong>de</strong> microarray <strong>de</strong>tallando su constitución completa y asociando una secuencia<br />

genómica <strong>de</strong> 25 nucleótidos a cada posición X e Y, que sirve como coor<strong>de</strong>nada para ubicar<br />

cada sonda <strong>de</strong>ntro <strong>de</strong> la topología <strong>de</strong>l microarray (ver tabla 1.4). En el caso <strong>de</strong> los microarrays<br />

<strong>de</strong>l mo<strong>de</strong>lo IVT 3’, sólo las secuencias etiquetadas catalogadas como "perfect match" están

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!