Capítulo 5: Introducción a los alineamientos de secuencias
Capítulo 5: Introducción a los alineamientos de secuencias
Capítulo 5: Introducción a los alineamientos de secuencias
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Lope Andrés Flórez Weidinger<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/cap5.htm<br />
<strong>Capítulo</strong> 5: <strong>Introducción</strong> a <strong>los</strong> <strong>alineamientos</strong> <strong>de</strong><br />
<strong>secuencias</strong><br />
Vistazo ................................................................................................................................... 2<br />
<strong>Introducción</strong> .......................................................................................................................... 2<br />
Conceptos importantes: ....................................................................................................... 3<br />
Alineamientos ...................................................................................................................... 3<br />
Homología vs. Similitud ....................................................................................................... 4<br />
I<strong>de</strong>ntidad.............................................................................................................................. 4<br />
Cuestionario:......................................................................................................................... 5<br />
Primera pregunta:................................................................................................................ 5<br />
Segunda pregunta: .............................................................................................................. 5<br />
Tercera pregunta: ................................................................................................................ 5<br />
Practiejemp<strong>los</strong>: ..................................................................................................................... 6<br />
1. Visualizando similitud entre <strong>secuencias</strong>........................................................................... 6<br />
Practiejemplo A - El Dotplot ............................................................................................. 6<br />
Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad ................... 7<br />
2. Tipos <strong>de</strong> <strong>alineamientos</strong>.................................................................................................. 10<br />
Practiejemplo A – Alineamientos globales ..................................................................... 10<br />
Practiejemplo B – Alineamientos locales........................................................................ 11<br />
Practiejemplo C – ¿Cómo encontrar <strong>secuencias</strong> en bases <strong>de</strong> datos mediante<br />
<strong>alineamientos</strong>?............................................................................................................... 13<br />
Practiejemplo D – Alineamientos múltiples .................................................................... 15<br />
3. Aplicaciones basadas en <strong>alineamientos</strong> ........................................................................ 17<br />
Practiejemplo A – Encontrar exones e intrones a partir <strong>de</strong> la proteína y su ADN<br />
correspondiente ............................................................................................................. 17<br />
Practiejemplo B – HomoloGene: una base <strong>de</strong> datos <strong>de</strong> genes homólogos .................... 19<br />
Ejercicios ............................................................................................................................. 21<br />
<strong>Introducción</strong>....................................................................................................................... 21<br />
Primer ejercicio.................................................................................................................. 21<br />
Segundo ejercicio .............................................................................................................. 21<br />
Tercer ejercicio .................................................................................................................. 22<br />
Cuarto ejercicio.................................................................................................................. 22<br />
Quinto ejercicio.................................................................................................................. 22<br />
Sexto ejercicio ................................................................................................................... 23<br />
Profundización .................................................................................................................... 23<br />
MUMmer............................................................................................................................ 23<br />
NCBI PopSet .....................................................................................................................24<br />
Base <strong>de</strong> datos <strong>de</strong> COGs.................................................................................................... 24<br />
1
Vistazo<br />
“Los <strong>alineamientos</strong> <strong>de</strong> <strong>secuencias</strong> <strong>de</strong> nucleótidos y proteínas serán tratados en este capítulo.<br />
Para empezar, apren<strong>de</strong>remos a encontrar patrones repetidos en una secuencia o entre un par<br />
<strong>de</strong> <strong>secuencias</strong> mediante una herramienta gráfica llamada Dotplot.<br />
Posteriormente conoceremos <strong>los</strong> diferentes tipos <strong>de</strong> <strong>alineamientos</strong> que existen (locales y<br />
globales) y veremos dos medidas <strong>de</strong> similitud entre <strong>secuencias</strong> (el “e-value” y el Score).<br />
También haremos una breve introducción a las dos herramientas <strong>de</strong> alineamiento más usadas<br />
en bioinformática: BLAST y ClustalW. La primera nos permite encontrar <strong>secuencias</strong> similares a<br />
un ‘query’ en una base <strong>de</strong> datos y la segunda nos permite realizar <strong>alineamientos</strong> múltiples y, en<br />
algunos casos, hacer inferencias evolutivas.<br />
Conoceremos un programa que hace uso <strong>de</strong> <strong>alineamientos</strong> para reconocer intrones <strong>de</strong> un gen<br />
partiendo <strong>de</strong> la secuencia <strong>de</strong> ADN y la proteína que codifica. Finalizaremos aprendiendo a usar<br />
una base <strong>de</strong> datos <strong>de</strong> <strong>secuencias</strong> homólogas en el NCBI, llamada HomoloGene.”<br />
<strong>Introducción</strong><br />
“La mera formulación <strong>de</strong> un problema es la mayoría <strong>de</strong> las veces más importante que su<br />
solución, que pue<strong>de</strong> ser simplemente una cuestión <strong>de</strong> habilidad matemática o experimental.<br />
Formular nuevas preguntas, nuevas posibilida<strong>de</strong>s, mirar problemas antiguos <strong>de</strong>s<strong>de</strong> un nuevo<br />
ángulo, requiere una imaginación creativa y marca verda<strong>de</strong>ros avances en la ciencia.”<br />
Albert Einstein<br />
La ciencia se fundamenta en la experimentación: si no hay evi<strong>de</strong>ncia empírica, no hay verdad.<br />
Se pue<strong>de</strong>n formular hipótesis, incluso con un altísimo grado <strong>de</strong> <strong>de</strong>talle, pero hasta no ser<br />
probados en el mundo real siguen siendo poco más que artificios <strong>de</strong> nuestra imaginación.<br />
La forma usual <strong>de</strong> ejecutar un experimento es cambiar o controlar <strong>los</strong> parámetros y ver qué<br />
ocurre <strong>de</strong>spués <strong>de</strong> ese control. Aquí la bioinformática juega un papel importante, proponiendo<br />
qué cambios <strong>de</strong>ben hacerse y qué variables controlar. Si bien no será tratado en este capítulo,<br />
la bioinformática está <strong>de</strong>scifrando patrones <strong>de</strong> expresión relacionados con ciertos tipos <strong>de</strong><br />
cáncer (con la ayuda <strong>de</strong> una tecnología conocida con el nombre <strong>de</strong> microarreg<strong>los</strong>). De esta<br />
forma, permite focalizar las investigaciones en estos tipos específicos <strong>de</strong> cáncer.<br />
Sin embargo, este método directo <strong>de</strong> investigación no pue<strong>de</strong> usarse en todos <strong>los</strong> casos.<br />
Darwin, autor <strong>de</strong> <strong>los</strong> fundamentos <strong>de</strong> la teoría <strong>de</strong> la evolución actual, nos sugiere una forma <strong>de</strong><br />
aproximarse a ciertos problemas, que Douglas Futuyma la resume así:<br />
“Darwin propuso una hipótesis (p.ej. selección natural), <strong>de</strong>dujo predicciones <strong>de</strong> qué<br />
<strong>de</strong>beríamos ver si fuera verda<strong>de</strong>ra o falsa, y juzgó su vali<strong>de</strong>z comparando observaciones con<br />
las predicciones. Este método hipotético-<strong>de</strong>ductivo ahora es usado ampliamente en ciencia.” [1]<br />
Es en este método hipotético-<strong>de</strong>ductivo don<strong>de</strong> el análisis bioinformático se vuelve fundamental:<br />
El es un lente a través <strong>de</strong>l cuál po<strong>de</strong>mos observar la información presente en gran<strong>de</strong>s<br />
volúmenes <strong>de</strong> datos.<br />
Tomemos un ejemplo frecuente: establecer las relaciones filogenéticas (esto es, el parentesco<br />
evolutivo) <strong>de</strong> un conjunto <strong>de</strong> especies biológicas. Partimos <strong>de</strong> la hipótesis (fundamentada por<br />
autores anteriores), que si dos especies son cercanas filogenéticamente, entonces <strong>de</strong>ben tener<br />
una secuencia <strong>de</strong> ADN similar.<br />
A partir <strong>de</strong> esta hipótesis nos preguntamos: ¿qué <strong>de</strong>beríamos observar si las especies <strong>de</strong><br />
verdad están relacionadas? Concluimos que, si seleccionamos segmentos a<strong>de</strong>cuados <strong>de</strong> ADN<br />
2
<strong>de</strong> las dos especies y <strong>los</strong> secuenciamos (o extraemos esta información <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong><br />
<strong>secuencias</strong> biológicas como GenBank), <strong>de</strong>bemos observar similitud entre las <strong>secuencias</strong>.<br />
Surge entonces la pregunta: ¿Cómo observamos que dos <strong>secuencias</strong> son similares?<br />
Los <strong>alineamientos</strong>, que son el tema <strong>de</strong> este capítulo, nos proporcionan una primera respuesta.<br />
Un alineamiento es “[...] la i<strong>de</strong>ntificación <strong>de</strong> correspon<strong>de</strong>ncias residuo-residuo. Cualquier<br />
asignación <strong>de</strong> correspon<strong>de</strong>ncias que preserve el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos <strong>de</strong>ntro <strong>de</strong> las<br />
<strong>secuencias</strong> es un alineamiento.” [2]<br />
Si <strong>los</strong> residuos <strong>de</strong> una secuencia tienen un alto grado <strong>de</strong> correspon<strong>de</strong>ncia con residuos <strong>de</strong> la<br />
otra secuencia, son similares y por tanto su cercanía evolutiva es probable.<br />
Hacer estas comparaciones a mano es dispendioso y poco práctico. Afortunadamente, el<br />
<strong>de</strong>sarrollo <strong>de</strong> <strong>los</strong> computadores – <strong>de</strong> manera indirecta – ha traído consigo la solución a este<br />
problema: La búsqueda en Internet, por ejemplo usando Google, requiere encontrar ca<strong>de</strong>nas<br />
<strong>de</strong> texto similares al término <strong>de</strong> interés y ya se han <strong>de</strong>sarrollado métodos <strong>de</strong> computador que<br />
permiten visualizar (gráficamente o por medio <strong>de</strong> la estadística) la similitud entre dos ca<strong>de</strong>nas<br />
<strong>de</strong> texto. Dado que el ADN se pue<strong>de</strong> escribir como una ca<strong>de</strong>na <strong>de</strong> texto en un alfabeto <strong>de</strong><br />
cuatro letras y las proteínas se pue<strong>de</strong>n codificar usando un alfabeto <strong>de</strong> 20 letras, es posible<br />
usar las mismas herramientas que han <strong>de</strong>sarrollado <strong>los</strong> ingenieros <strong>de</strong> sistemas y <strong>los</strong><br />
matemáticos, para fines biológicos.<br />
Este capítulo muestra varios métodos <strong>de</strong> alineamiento disponibles en línea y algunas<br />
aplicaciones comunes <strong>de</strong> éstos en la bioinformática. Saber escoger el método se vuelve <strong>de</strong><br />
suma importancia, pues cada uno parte <strong>de</strong> supuestos diferentes. Esto será <strong>de</strong>scrito con más<br />
<strong>de</strong>talle en la introducción <strong>de</strong>l siguiente capítulo. Por ahora basta recordar que si nuestros<br />
métodos son erróneos, nuestras conclusiones también lo son.<br />
[1] Futuyma, D., “Evolutionary Biology”, Tercera edición, Sinnauer Associates Inc., 1998, pág.<br />
30<br />
[2] Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161<br />
Conceptos importantes:<br />
Alineamientos<br />
“[...] la i<strong>de</strong>ntificación <strong>de</strong> correspon<strong>de</strong>ncias residuo-residuo. Cualquier asignación <strong>de</strong><br />
correspon<strong>de</strong>ncias que preserve el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos <strong>de</strong>ntro <strong>de</strong> las <strong>secuencias</strong> es un<br />
alineamiento.”<br />
Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161<br />
En términos coloquiales, alinear dos <strong>secuencias</strong> es poner una junto a la otra <strong>de</strong> forma que se<br />
resalten las diferencias y similitu<strong>de</strong>s, pero sin cambiar el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos.<br />
Hay varias maneras <strong>de</strong> hacer esto, aunque unas se prestan más a análisis que otras. Si<br />
queremos saber cuál <strong>de</strong> las dos <strong>secuencias</strong> es más larga, po<strong>de</strong>mos simplemente alinear el<br />
primer residuo <strong>de</strong> la primera ca<strong>de</strong>na con el primer residuo <strong>de</strong> la segunda y así sucesivamente<br />
para todos <strong>los</strong> residuos. El resultado es algo más o menos así:<br />
ESTOESUN<br />
ALINEAMIENTO<br />
De aquí se concluye rápidamente que la primera secuencia es más corta que la segunda.<br />
Sin embargo, usualmente nos interesa más saber si dos <strong>secuencias</strong> tienen sub<strong>secuencias</strong><br />
iguales en el mismo or<strong>de</strong>n. Por ejemplo, las palabras incrementado y cemento son muy<br />
similares en este sentido:<br />
3
I N C R E M E N T A D O<br />
- - C – E M E N T - - O<br />
De aquí concluímos que ambas comparten la subsecuencia “EMENT” y que las otras letras <strong>de</strong><br />
la palabra “cemento” (específicamente la “c” y la “o”) aparecen en el mismo or<strong>de</strong>n en<br />
“incrementado”.<br />
Otra forma <strong>de</strong> alinear estas dos <strong>secuencias</strong> sería:<br />
I N C R E M E N T A D O -<br />
- C – E - - - - M E N T O<br />
Sin embargo, este alineamiento no me permitiría ver la similitud que tienen las dos <strong>secuencias</strong>.<br />
Por tanto, nuestros análisis <strong>de</strong>pen<strong>de</strong>rán <strong>de</strong> la calidad <strong>de</strong>l alineamiento.<br />
Homología vs. Similitud<br />
“Similitud es la observación o medición <strong>de</strong> parecido y diferencia, in<strong>de</strong>pendiente <strong>de</strong>l<br />
origen <strong>de</strong> ese parecido. Homología significa, específicamente, que las <strong>secuencias</strong> y <strong>los</strong><br />
organismos en <strong>los</strong> que están presentes, <strong>de</strong>scien<strong>de</strong>n <strong>de</strong> un ancestro común [...]”<br />
Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 27<br />
En sentido estricto, la homología se refiere únicamente a un origen común entre dos<br />
caracteres. Por tanto, dos <strong>secuencias</strong> son homólogas o no homólogas y no hay ninguna<br />
gradación intermedia. Una situación similar <strong>de</strong>l mundo real es el embarazo: una mujer no<br />
pue<strong>de</strong> estar 50% embarazada: o está o no está, o no se sabe.<br />
Similitud, en cambio, es una medida <strong>de</strong>l parecido entre dos <strong>secuencias</strong> que pue<strong>de</strong> cuantificarse<br />
(por ejemplo, mediante el porcentaje <strong>de</strong> i<strong>de</strong>ntidad).<br />
Si bien no se ha adoptado consistentemente esta diferencia <strong>de</strong> términos en la literatura<br />
científica (algunos autores siguen usando la palabra homología cuando se refieren a similitud),<br />
es conveniente hacerla. Dos <strong>secuencias</strong> pue<strong>de</strong>n ser muy similares y sin embargo no ser<br />
homólogas (así como las alas <strong>de</strong> un murciélago y <strong>de</strong> una mariposa parecen iguales, pero no<br />
hay un ancestro común entre las mariposas y <strong>los</strong> murciélagos que tenga alas). De la misma<br />
manera, dos <strong>secuencias</strong> homólogas pue<strong>de</strong>n haber divergido mucho en la historia evolutiva,<br />
haciéndolas poco similares.<br />
Debido a que se ha usado la palabra homología en el contexto <strong>de</strong> similitud en muchas<br />
publicaciones, algunos autores han optado por usar <strong>los</strong> términos “ortólogas” y “parálogas” al<br />
referirse a <strong>secuencias</strong> con origen evolutivo común, que son más específicos. Dos <strong>secuencias</strong><br />
son ortólogas si fueron adquiridas por <strong>de</strong>scen<strong>de</strong>ncia vertical (por ejemplo, <strong>de</strong> madre a hijo) y<br />
son parálogas si están presentes en más <strong>de</strong> una copia en el mismo organismo y tuvieron el<br />
mismo origen (por ejemplo <strong>los</strong> genes y sus respectivos pseudogenes).<br />
I<strong>de</strong>ntidad<br />
“I<strong>de</strong>ntidad: [...] Cualidad <strong>de</strong> idéntico.”<br />
Diccionario <strong>de</strong> la Real Aca<strong>de</strong>mia <strong>de</strong> la Lengua Española<br />
Dos <strong>secuencias</strong> son idénticas si son iguales residuo a residuo. Sin embargo, para <strong>secuencias</strong><br />
que no son idénticas es útil tener una medida <strong>de</strong> qué tanto se alejan <strong>de</strong> serlo.<br />
Para esto se hace un alineamiento entre las dos <strong>secuencias</strong>, se cuenta el número <strong>de</strong> residuos<br />
que son idénticos y se divi<strong>de</strong> por la longitud <strong>de</strong>l alineamiento. Esto da el porcentaje <strong>de</strong><br />
i<strong>de</strong>ntidad.<br />
4
Por ejemplo, un alineamiento don<strong>de</strong> dos <strong>secuencias</strong> tienen la mitad <strong>de</strong> <strong>los</strong> residuos idénticos<br />
alineados uno con el otro (como el siguiente):<br />
HOLA<br />
BOTA<br />
Tiene un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 50%.<br />
Cuestionario:<br />
Primera pregunta:<br />
¿Cuál <strong>de</strong> <strong>los</strong> siguientes necesariamente es un par <strong>de</strong> características homólogas?<br />
a) Dos <strong>secuencias</strong> que alineadas tienen una i<strong>de</strong>ntidad <strong>de</strong>l 100%<br />
b) El cromosoma Y <strong>de</strong> dos hermanos (varones) <strong>de</strong>l mismo padre<br />
c) Dos proteínas que cumplen exactamente la misma función celular en dos organismos<br />
diferentes<br />
Respuesta:<br />
La respuesta correcta es la b), ya que un padre sólo tiene una copia <strong>de</strong> su cromosoma Y en<br />
cada célula y hereda este cromosoma a todos sus hijos varones. Los dos cromosomas Y, por<br />
tanto tienen un inmediato ancestro común.<br />
El hecho que dos <strong>secuencias</strong> sean idénticas no las hace automáticamente homólogas (aunque<br />
lo hace muy probable). Los telómeros son extremos <strong>de</strong> <strong>los</strong> cromosomas que se van acortando<br />
en cada replicación celular. Existe una enzima llamada telomerasa que <strong>los</strong> alarga, con una<br />
secuencia específica. Esta secuencia <strong>de</strong> ADN es idéntica en todos <strong>los</strong> humanos, sin embargo<br />
no es homóloga entre dos personas, pues es una repetición no presente en el ancestro común<br />
entre el<strong>los</strong>.<br />
De la misma forma se pue<strong>de</strong>n nombrar proteínas que cumplen la misma función en organismos<br />
distintos, y no son homólogas.<br />
Segunda pregunta:<br />
¿Cuál <strong>de</strong> <strong>los</strong> siguientes pares <strong>de</strong> palabras presenta mayor i<strong>de</strong>ntidad al alinearse?<br />
a) CALIBRE – COLIBRI<br />
b) MATERIA – LIBERIA<br />
c) COLEGIO – CARTERA<br />
d) GUANTES – DIENTES<br />
Respuesta:<br />
La respuesta correcta es la a), pues tienen un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 71% (=5 residuos<br />
compartidos dividido por 7 residuos en total).<br />
Tercera pregunta:<br />
Verda<strong>de</strong>ro o Falso:<br />
¿Or<strong>de</strong>nar alfabéticamente <strong>los</strong> residuos <strong>de</strong> cada secuencia y juntar <strong>los</strong> residuos iguales en cada<br />
una es un alineamiento?<br />
5
Ejemplo: ALFABETO y FABRICA<br />
A A B - E F - L O T - (ALFABETO)<br />
A A B C – F I - - - R (FABRICA)<br />
Respuesta:<br />
Falso. El or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos en cada secuencia <strong>de</strong>be preservarse y en este caso, al or<strong>de</strong>nar<br />
alfabéticamente, esto no ocurre.<br />
La primera B <strong>de</strong> fábrica, por ejemplo, está antes <strong>de</strong> la F y <strong>de</strong>spués <strong>de</strong> la segunda A en el<br />
alineamiento, cuando el or<strong>de</strong>n correcto es FaBricA.<br />
Practiejemp<strong>los</strong>:<br />
1. Visualizando similitud entre <strong>secuencias</strong><br />
Practiejemplo A - El Dotplot<br />
El alineamiento <strong>de</strong> <strong>secuencias</strong> es la herramienta más importante <strong>de</strong> la bioinformática<br />
actualmente. Para empezar a enten<strong>de</strong>r porqué conviene realizar <strong>alineamientos</strong>, empecemos<br />
explorando una herramienta para visualizar el parecido entre dos <strong>secuencias</strong>: el Dotplot.<br />
1. Ingrese a la siguiente página Web, que contiene un pequeño tutorial acerca <strong>de</strong>l Dotplot:<br />
http://imagebeat.com/dotplot/<br />
Si bien no está pensada para explicar las aplicaciones biológicas <strong>de</strong> un Dotplot, sirve<br />
para ilustrar el concepto.<br />
2. Haga clic en el vínculo “Overview” que se encuentra en la parte inferior <strong>de</strong> la página.<br />
Esto lo lleva a la <strong>de</strong>scripción <strong>de</strong> qué es un Dotplot.<br />
3. Como notará, es una forma <strong>de</strong> representar la similitud entre dos <strong>secuencias</strong> <strong>de</strong> texto<br />
mediante tablas. En el ejemplo con el texto “to be or not to be” la tabla tiene un punto<br />
en todas las celdas (esto es, cruces entre fila y columna) en don<strong>de</strong> la palabra en la fila<br />
y la columna es la misma.<br />
Naturalmente, todas las celdas en la diagonal principal <strong>de</strong> la tabla tendrán un punto.<br />
Pero lo interesante es ver lo que ocurre por fuera <strong>de</strong> la diagonal o cuando tenemos una<br />
secuencia en or<strong>de</strong>n vertical y otra diferente en or<strong>de</strong>n horizontal.<br />
4. Haga clic en el vínculo “interpretation” <strong>de</strong> la parte inferior. Esta página resume algunos<br />
patrones comunes que se pue<strong>de</strong>n visualizar.<br />
5. Note, por ejemplo, cómo i<strong>de</strong>ntificar si una sub-secuencia está repetida <strong>de</strong>ntro <strong>de</strong> la<br />
secuencia completa (el ejemplo <strong>de</strong> abc<strong>de</strong>fghiabc<strong>de</strong>fghi). La sub-secuencia que se<br />
repite aparece como un par <strong>de</strong> líneas paralelas a la diagonal principal.<br />
6. También existe la posibilidad <strong>de</strong> encontrar inserciones en una <strong>de</strong> las sub-<strong>secuencias</strong><br />
que se repiten. En lugar <strong>de</strong> tener una línea continua (paralela a la diagonal principal),<br />
se tiene una línea fragmentada – como si hubieran cortado y movido un pedazo <strong>de</strong> la<br />
línea original.<br />
7. Estudie también la forma <strong>de</strong> visualizar reor<strong>de</strong>namientos. ¿Cómo <strong>de</strong>scribiría este<br />
patrón?<br />
6
8. Otro aspecto a resaltar son <strong>los</strong> cuadrados. No se necesita tener una secuencia con<br />
repetición consecutiva <strong>de</strong> una sola letra (por ejemplo aaaaaaaaaa) para obtener un<br />
patrón en forma <strong>de</strong> cuadrado. Mire el dibujo <strong>de</strong> la izquierda que está junto al título<br />
“Shuffling”. Como notará, <strong>los</strong> cuadrados permiten reconocer letras que están sobrerepresentadas<br />
en una muestra, sin importar si son consecutivas o no.<br />
9. Ahora vuelva a la página principal haciendo clic en “dotplot”. Des<strong>de</strong> ahí haga clic en el<br />
vínculo “try a simplified perl version of dotplot”.<br />
10. Ingrese la frase “LAS CATARATAS DEL NIAGARA” en la casilla <strong>de</strong> texto, y haga clic<br />
en el botón “build dotplot!”. Notará que hay zonas con más <strong>de</strong>nsidad <strong>de</strong> puntos y zonas<br />
con menos <strong>de</strong>nsidad. Esto se <strong>de</strong>be a que en las zonas <strong>de</strong> más intensidad está más<br />
representada la letra “A” que en las otras.<br />
Ejercicio:<br />
Ahora imagine que en lugar <strong>de</strong>l texto “LAS CATARATAS DEL NIAGARA” tenemos la<br />
secuencia “corriente arriba” <strong>de</strong> un gen. Si hay una región en don<strong>de</strong> las letras A y T<br />
están sobre-representadas, podríamos empezar a sospechar <strong>de</strong> la existencia <strong>de</strong> cajas<br />
TATA: una primera aplicación biológica <strong>de</strong>l dotplot.<br />
¿Qué es la secuencia corriente arriba <strong>de</strong> un gen y la caja TATA?<br />
Los genes tienen un inicio <strong>de</strong> transcripción que es el lugar en el ADN don<strong>de</strong><br />
empieza a sintetizarse el primer nucleótido <strong>de</strong>l mRNA. Todo el ADN que está<br />
antes <strong>de</strong>l inicio <strong>de</strong> transcripción se conoce como la región corriente arriba <strong>de</strong>l<br />
gen.<br />
En <strong>los</strong> eucariontes (organismos con sistema <strong>de</strong> membranas internos, es <strong>de</strong>cir,<br />
no bacterias ni arqueobacterias) hay un región conocida como la caja TATA<br />
(llamada así por la sobre-representación <strong>de</strong> <strong>los</strong> nucleótidos A<strong>de</strong>nina y Timina),<br />
que facilita la transcripción <strong>de</strong>l gen. Si en lugar <strong>de</strong> Timina y A<strong>de</strong>nina tenemos<br />
otros nucleótidos en esta parte especial <strong>de</strong> la secuencia, la cantidad <strong>de</strong> mRNA<br />
que se sintetizará será menor.<br />
Ingrese la palabra “RECONOCER” <strong>de</strong>ntro <strong>de</strong> la casilla <strong>de</strong> texto y presione “build dotplot!”. ¿Qué<br />
logra reconocer acerca <strong>de</strong> esta palabra mirando el patrón? ¿Qué relación guarda con las<br />
<strong>secuencias</strong> <strong>de</strong> reconocimiento <strong>de</strong> una enzima <strong>de</strong> restricción?<br />
Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad<br />
Uno <strong>de</strong> <strong>los</strong> inconvenientes <strong>de</strong>l Dotplot a la hora <strong>de</strong> analizar dos <strong>secuencias</strong> <strong>de</strong> ADN es que<br />
éste se compone únicamente <strong>de</strong> cuatro letras: A, T, G, C. Esto hace que el número <strong>de</strong><br />
coinci<strong>de</strong>ncias sea muy alto. Para arreglar este problema se ha creado Dotlet. En esencia es un<br />
Dotplot, pero permite graduar la selectividad/sensibilidad <strong>de</strong> nuestra vista para mostrar u<br />
ocultar patrones específicos.<br />
En este ejemplo apren<strong>de</strong>remos a cargar y visualizar una secuencia en Dotlet.<br />
1. Haga clic en el siguiente vínculo para ir a la página <strong>de</strong> Dotlet.<br />
http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html<br />
Necesita tener instalada en su computador la máquina virtual <strong>de</strong> Java para po<strong>de</strong>r usar<br />
Dotlet. Si no tiene Java instalado, pue<strong>de</strong> <strong>de</strong>scargarlo aquí:<br />
http://www.java.com/es/<br />
7
2. Vamos a dar <strong>los</strong> primeros pasos en la visualización. Para enten<strong>de</strong>r<strong>los</strong> mejor pue<strong>de</strong><br />
visitar la página <strong>de</strong> ayuda (haciendo clic en el vínculo “need help?”).<br />
3. Todo inicia con la barra <strong>de</strong> menú <strong>de</strong> Dotlet. Si no ha introducido ninguna secuencia<br />
aún, el único botón activo es “input”. Presione este botón.<br />
4. Aparece una ventana don<strong>de</strong> <strong>de</strong>be pegar su secuencia. Haga clic en el siguiente vínculo<br />
para abrir la ventana que contiene la secuencia que va a pegar ahí:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Dotlet01.txt<br />
Póngale el nombre Dotlet01. Cuando haya pegado la secuencia e ingresado el nombre<br />
haga clic en OK.<br />
Esta secuencia correspon<strong>de</strong> a una proteína <strong>de</strong> Drosophila melanogaster que tiene<br />
repetición <strong>de</strong> dominios.<br />
5. Note que <strong>los</strong> menús <strong>de</strong>splegables ahora están habilitados. En nuestro caso, <strong>los</strong><br />
primeros dos no son <strong>de</strong> mucha utilidad, pues sólo hemos ingresado una secuencia. Si<br />
requiere alinear dos <strong>secuencias</strong> diferentes una contra la otra (por ejemplo, un mRNA<br />
con su ADN respectivo), <strong>de</strong>be ingresarlas una tras otra presionando el botón input y<br />
luego seleccionar <strong>de</strong> estos menús las <strong>secuencias</strong> a comparar.<br />
El menú <strong>de</strong>splegable tres presenta diferentes opciones: I<strong>de</strong>ntity, B<strong>los</strong>um, PAM, Gonnet.<br />
Por ahora nos quedaremos con la opción “I<strong>de</strong>ntity” que, como el nombre lo indica, pone<br />
un punto en la tabla sólo si <strong>los</strong> residuos <strong>de</strong> la fila y la columna son idénticos. Las<br />
matrices B<strong>los</strong>um y PAM serán estudiadas en el capítulo 6 y no entraremos en <strong>de</strong>talles<br />
<strong>de</strong> ellas aquí.<br />
El siguiente menú <strong>de</strong>splegable es el primer nivel <strong>de</strong> filtrado <strong>de</strong>l que disponemos y se<br />
llama tamaño <strong>de</strong> ventana.<br />
¿Qué es el tamaño <strong>de</strong> ventana?<br />
La ventana es una <strong>de</strong> las características que diferencia al Dotlet <strong>de</strong>l Dotplot,<br />
que aumenta la astringencia (selectividad).<br />
Recor<strong>de</strong>mos que en el Dotplot se dibuja un punto don<strong>de</strong> coinci<strong>de</strong>n <strong>los</strong> residuos<br />
<strong>de</strong> ambas ca<strong>de</strong>nas. Esto genera un patrón muy difícil <strong>de</strong> leer si las<br />
coinci<strong>de</strong>ncias son frecuentes.<br />
El Dotlet en cambio, no compara residuo a residuo sino en grupos <strong>de</strong> n<br />
residuos contra n residuos, don<strong>de</strong> n es el tamaño <strong>de</strong> ventana.<br />
Si <strong>los</strong> n residuos son iguales, dibuja un punto negro. Si ningún residuo está<br />
compartido, dibuja un punto blanco. Si la cantidad <strong>de</strong> residuos está entre 0 y n-<br />
1, dibuja un punto gris, cuya intensidad <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s.<br />
Si, por ejemplo, tenemos una ventana <strong>de</strong> 3 residuos y tenemos como palabras:<br />
ABCDEFGH<br />
JKCDEFGM<br />
Se dibujará un punto negro en el cruce entre las dos “D”, las dos “E” y las dos<br />
“F”, ya que sus dos residuos vecinos también coinci<strong>de</strong>n. A<strong>de</strong>más, se dibujarán<br />
puntos grises en la intersección <strong>de</strong> las letras “C” y “G”, pues si bien coinci<strong>de</strong>n,<br />
no están en un grupo <strong>de</strong> 3 residuos consecutivos.<br />
Por el momento <strong>de</strong>jemos ese parámetro en 15.<br />
8
El último menú <strong>de</strong>splegable permite graduar el Zoom. Para este ejemplo particular,<br />
escojamos un Zoom <strong>de</strong> 1:5.<br />
6. Al hacer clic en “compute” se genera nuestra representación gráfica. Es evi<strong>de</strong>nte la<br />
línea blanca en la diagonal principal, que es la misma que vimos en todos <strong>los</strong> Dotplot<br />
<strong>de</strong>l ejemplo pasado. Sin embargo, las otras líneas se ven difusas.<br />
Para mejorar esto usemos <strong>los</strong> controles que están a la <strong>de</strong>recha <strong>de</strong>l gráfico. En ella, se<br />
ve un histograma en la parte central, y dos barras <strong>de</strong> <strong>de</strong>slizamiento: una arriba y otra<br />
abajo. Ajuste la barra <strong>de</strong> <strong>de</strong>slizamiento superior moviéndola totalmente a la izquierda y<br />
la barra <strong>de</strong> <strong>de</strong>splazamiento inferior completamente a la <strong>de</strong>recha. Hasta ahora sólo<br />
cambió el color, <strong>de</strong> forma que lo que era blanco ahora es negro y viceversa.<br />
Luego, mueva poco a poco las barras <strong>de</strong> <strong>de</strong>splazamiento hacia el centro, y note que<br />
mientras lo hace van <strong>de</strong>sapareciendo las líneas más claras y resaltándose las más<br />
oscuras.<br />
Con algo <strong>de</strong> práctica, la imagen se parecerá a la que se encuentra en la siguiente<br />
página Web:<br />
http://www.isrec.isb-sib.ch/java/dotlet/repeats.html<br />
Lea el texto que aparece en esta página. ¿Nota como se pue<strong>de</strong>n distinguir dominios<br />
repetidos en una proteína mediante Dotlet?<br />
7. En la parte inferior <strong>de</strong> la página <strong>de</strong>l Dotlet está el alineamiento entre <strong>los</strong> residuos. Si<br />
hace clic (con suficiente precisión) sobre una <strong>de</strong> las líneas oscuras, verá en la parte<br />
inferior cuáles residuos son idénticos alre<strong>de</strong>dor <strong>de</strong> esa fila-columa particular.<br />
Pruebe lo siguiente: haga clic cerca <strong>de</strong> la diagonal principal y presione las flechas en el<br />
teclado hasta estar seguro que el cursor se encuentra sobre ésta. ¿Ve como todos <strong>los</strong><br />
residuos se alinean unos con otros, resaltados en azul? Ahora presione alguna <strong>de</strong> las<br />
flechas <strong>de</strong>l teclado, para tener como referencia un alineamiento corrido en un residuo.<br />
¿Nota la diferencia en la cantidad <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s?<br />
En este ejemplo logró i<strong>de</strong>ntificar dominios repetidos en una proteína usando únicamente la<br />
secuencia. Note la diferencia que supone esto con analizar la estructura tridimensional <strong>de</strong> la<br />
molécula mediante cristalografía <strong>de</strong> rayos X, que es un procedimiento largo y complicado.<br />
Sin embargo, no sobra recalcar que mediante Dotlet sólo po<strong>de</strong>mos plantear la hipótesis <strong>de</strong> que<br />
hay dominios repetidos. Para comprobarlo es necesario un experimento, como <strong>de</strong>terminar la<br />
estructura tridimensional.<br />
Dos conceptos que vimos en el capítulo 1 adquieren aquí especial importancia: selectividad y<br />
sensibilidad. Para po<strong>de</strong>r resaltar las características <strong>de</strong> la molécula <strong>de</strong>bemos ocultar<br />
selectivamente el ruido, pero ser suficientemente sensibles para ver más que sólo la i<strong>de</strong>ntidad<br />
<strong>de</strong> la diagonal principal.<br />
Ejercicio:<br />
Repita el ejercicio, esta vez con las <strong>secuencias</strong> que se encuentran en la página:<br />
http://www.isrec.isb-sib.ch/java/dotlet/exonintron.html<br />
Requiere presionar el botón “input” dos veces, para po<strong>de</strong>r ingresar las dos <strong>secuencias</strong>. Debe<br />
po<strong>de</strong>r ver la imagen <strong>de</strong> forma casi idéntica a la <strong>de</strong>l ejemplo.<br />
9
2. Tipos <strong>de</strong> <strong>alineamientos</strong><br />
Practiejemplo A – Alineamientos globales<br />
El Dotplot es una herramienta sumamente útil para visualizar patrones generales entre dos<br />
<strong>secuencias</strong> o una secuencia consigo misma. Sin embargo, es poco práctico si lo que se quiere<br />
es <strong>de</strong>terminar qué aminoácidos específicos están compartidos en las dos <strong>secuencias</strong>.<br />
En este caso, lo más conveniente es alinear las dos <strong>secuencias</strong> y comparar <strong>los</strong> cambios<br />
residuo a residuo. En este capítulo veremos la primera <strong>de</strong> estas herramientas: LAlign. Veremos<br />
que hay varias formas <strong>de</strong> “poner una secuencia junto a la otra”, cada una más o menos útil<br />
<strong>de</strong>pendiendo <strong>de</strong>l problema que estudiemos.<br />
Vamos a empezar con el siguiente ejemplo:<br />
Suponga que se tienen dos <strong>secuencias</strong> que usted sabe que son homólogas, pero que han<br />
cambiado mucho entre sí <strong>de</strong>bido a mutaciones. ¿Cómo i<strong>de</strong>ntifica las mutaciones que<br />
ocurrieron?<br />
Para simular esto, tenemos la secuencia <strong>de</strong> la ca<strong>de</strong>na beta <strong>de</strong> la hemoglobina original y una<br />
ca<strong>de</strong>na a la que he añadido algunas mutaciones:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign01.txt<br />
Vamos a explorar la forma <strong>de</strong> encontrar las mutaciones.<br />
1. Empiece en la página <strong>de</strong> LAlign haciendo clic en:<br />
http://www.ch.embnet.org/software/LALIGN_form.html<br />
2. Des<strong>de</strong> ahí seleccione la opción “global” que nos permite alinear la totalidad <strong>de</strong> las dos<br />
<strong>secuencias</strong>.<br />
3. Por el momento no cambie más parámetros. Sólo ingrese las <strong>secuencias</strong> en <strong>los</strong><br />
recuadros correspondientes (ingréselas sin la línea inicial <strong>de</strong> <strong>de</strong>scripción) y póngales<br />
nombre, como por ejemplo “Silvestre” y “Mutante”.<br />
Luego haga clic en “Run LAlign” para realizar el alineamiento.<br />
Resaltando conceptos: Alineamiento<br />
El resultado que aparece tras hacer clic en “Run LAlign” es un alineamiento<br />
entre las <strong>secuencias</strong>.<br />
En este caso contamos con el mejor alineamiento que se pue<strong>de</strong> realizar entre<br />
las dos <strong>secuencias</strong> <strong>de</strong> forma que estén representados todos <strong>los</strong> residuos <strong>de</strong><br />
cada una (<strong>de</strong> ahí el término “global”).<br />
4. La página que aparece empieza con un resumen <strong>de</strong>l alineamiento, mostrando el<br />
número <strong>de</strong> aminoácidos <strong>de</strong> cada secuencia junto con el porcentaje <strong>de</strong> i<strong>de</strong>ntidad en el<br />
alineamiento. En este caso es <strong>de</strong>l 85%.<br />
Debajo aparece el alineamiento. Si dos residuos son idénticos, hay dos puntos que las<br />
unen. A<strong>de</strong>más, si hay un aminoácido que no tiene contraparte en la otra ca<strong>de</strong>na (que<br />
es el caso cuando hay inserciones o <strong>de</strong>leciones) aparece un guión llamado gap.<br />
¿Cuantas mutaciones puntuales hay? ¿Cuántas inserciones y <strong>de</strong>leciones? ¿De qué<br />
tamaño son estas inserciones?<br />
10
Resaltando conceptos: I<strong>de</strong>ntidad<br />
Si cuenta <strong>los</strong> aminoácidos que están alineados idénticamente, notará que son<br />
130. Dividiendo este valor por la longitud <strong>de</strong>l alineamiento, que es 153 (147<br />
aminoácidos + 6 gaps) obtiene 0,8497 ó 85%. Es exactamente el valor <strong>de</strong><br />
i<strong>de</strong>ntidad que aparece en el resumen.<br />
5. A<strong>de</strong>más <strong>de</strong> <strong>los</strong> aminoácidos alineados idénticamente, algunos aminoácidos están<br />
conectados con un punto, por ejemplo el aminoácido 11 <strong>de</strong> la ca<strong>de</strong>na silvestre (A –<br />
Alanina) y el aminoácido 10 <strong>de</strong> la ca<strong>de</strong>na mutante (V – Valina). Esto ocurre, porque la<br />
Alanina y la Valina tienen propieda<strong>de</strong>s fisicoquímicas similares. Ambos son<br />
aminoácidos alifáticos pequeños. Un cambio <strong>de</strong> este estilo en una proteína<br />
probablemente no afectará mucho la función, a no ser que ocurra en el sitio activo.<br />
En cambio, el aminoácido 135 <strong>de</strong> la ca<strong>de</strong>na silvestre (V - Valina) y el aminoácido 134<br />
<strong>de</strong> la ca<strong>de</strong>na mutante (K – Lisina) tienen propieda<strong>de</strong>s muy diferentes. El primero es<br />
pequeño y alifático y el segundo es relativamente gran<strong>de</strong> y cargado positivamente.<br />
Debido a esta diferencia no hay ningún símbolo entre estos aminoácidos.<br />
El punto es mostrar que la representación gráfica <strong>de</strong>l alineamiento (con dos puntos<br />
entre i<strong>de</strong>ntida<strong>de</strong>s y un punto entre aminoácidos con propieda<strong>de</strong>s similares) es una<br />
fuente <strong>de</strong> información adicional.<br />
En este ejercicio se aprendió a hacer <strong>alineamientos</strong> globales y a conocer <strong>los</strong> gaps. Los<br />
<strong>alineamientos</strong> globales son especialmente útiles a la hora <strong>de</strong> comparar dos genes en toda su<br />
longitud o al momento <strong>de</strong> establecer sobrelapamientos (ver el ejercicio para un caso <strong>de</strong> este<br />
estilo). Sin embargo, cuando <strong>de</strong>bemos suponer que sólo algunas regiones están conservadas<br />
es mejor usar otro método <strong>de</strong> alineamiento, que es el tema <strong>de</strong>l siguiente practiejemplo.<br />
Ejercicio:<br />
En el siguiente vínculo encontrará dos <strong>secuencias</strong>: Una <strong>de</strong> un mRNA y la otra <strong>de</strong> la región <strong>de</strong><br />
DNA correspondiente:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign02.txt<br />
¿Cuántos intrones (<strong>secuencias</strong> presentes en el ADN pero no en el mRNA) hay? ¿Cuál es la<br />
longitud en pares <strong>de</strong> bases <strong>de</strong>l primer intrón?<br />
Practiejemplo B – Alineamientos locales<br />
En el ejemplo se introdujeron mutaciones en la proteína <strong>de</strong> manera indiscriminada. Sin<br />
embargo, en la naturaleza esto no suele ser así. Las mutaciones tien<strong>de</strong>n a acumularse más<br />
difícilmente en zonas cercanas al sitio activo <strong>de</strong> la proteína, pues las mutaciones en este sitio<br />
suelen afectar su función y por tanto a ser excluidas <strong>de</strong> la población por selección natural.<br />
Alinear globalmente nos permitiría <strong>de</strong>tectar que hay cambios en las dos <strong>secuencias</strong>, pero no<br />
nos permitiría resaltar aquellas regiones que tienen alta conservación, in<strong>de</strong>pendientemente <strong>de</strong><br />
la secuencia que las ro<strong>de</strong>a. Es posible que al alinear globalmente nuestras dos <strong>secuencias</strong><br />
hallemos regiones conservadas, pero al alinear globalmente <strong>de</strong>bemos preservar el or<strong>de</strong>n <strong>de</strong><br />
nuestras <strong>secuencias</strong> y esto pue<strong>de</strong> ocultarnos información.<br />
Alinear localmente en cambio, nos permite encontrar sub-<strong>secuencias</strong> que tienen alta<br />
similitud. Veamos un ejemplo don<strong>de</strong> es más conveniente hacer <strong>alineamientos</strong> locales.<br />
1. Inicie en el formulario principal <strong>de</strong> LAlign:<br />
http://www.ch.embnet.org/software/LALIGN_form.html<br />
11
2. Des<strong>de</strong> ahí, seleccione inicialmente la opción “global” e inserte las siguientes<br />
<strong>secuencias</strong> en las casillas <strong>de</strong> texto respectivas:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign03.txt<br />
Luego haga clic en “Run lalign”<br />
3. Notará que las <strong>secuencias</strong> (alineadas globalmente) son mo<strong>de</strong>radamente similares.<br />
Tienen un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 33.3% y son especialmente conservadas en <strong>los</strong><br />
extremos. Parecería que la región <strong>de</strong>l medio no contiene i<strong>de</strong>ntida<strong>de</strong>s interesantes.<br />
4. Ahora vuelva al formulario haciendo clic en el botón “atrás” <strong>de</strong> su navegador y<br />
seleccione la opción “local (<strong>de</strong>fault)”. Vuelva a hacer clic sobre el botón “Run lalign”.<br />
5. Contrario a lo que concluimos en el alineamiento global, hay zonas con alto grado <strong>de</strong><br />
i<strong>de</strong>ntidad. Hay una sub-secuencia con un 95% <strong>de</strong> i<strong>de</strong>ntidad extendida por 40<br />
aminoácidos, así como hay una sub-secuencia con un 100% <strong>de</strong> i<strong>de</strong>ntidad con 37<br />
aminoácidos <strong>de</strong> longitud.<br />
Tómese su tiempo<br />
Pue<strong>de</strong> verificar esta afirmación en Dotlet. Hágalo (usando un tamaño <strong>de</strong><br />
ventana gran<strong>de</strong> y seleccionando la matriz “i<strong>de</strong>ntity”) y note que lo que ha<br />
ocurrido es un rearreglo <strong>de</strong> la secuencia:<br />
En el Dotlet hay dos líneas paralelas. Una está en la parte inferior izquierda y la<br />
otra está en la parte superior <strong>de</strong>recha. Si usted posiciona el cursor sobre<br />
cualquiera <strong>de</strong> estas líneas notará en la parte inferior <strong>de</strong> la página (don<strong>de</strong> están<br />
las <strong>secuencias</strong>) las regiones <strong>de</strong> las <strong>secuencias</strong> que son idénticas.<br />
¿Es el alineamiento global en general más malo que el local? No. Lo que sí se pue<strong>de</strong><br />
<strong>de</strong>cir es que para este ejemplo específico, don<strong>de</strong> queremos buscar regiones<br />
conservadas, es más conveniente un alineamiento local que uno global.<br />
6. Observe algo que al principio parece contradictorio. Como es lógico, <strong>los</strong> <strong>alineamientos</strong><br />
en la página <strong>de</strong> resultados se or<strong>de</strong>nan <strong>de</strong> mejor a peor. Esto es: el <strong>de</strong> arriba nos da el<br />
mayor grado <strong>de</strong> certeza <strong>de</strong> que hay sub-<strong>secuencias</strong> en común (en el caso que<br />
sospechemos que las dos <strong>secuencias</strong> son homólogas, el primer alineamiento nos<br />
proporciona más evi<strong>de</strong>ncia que <strong>los</strong> otros).<br />
Sin embargo, el primer alineamiento tiene un porcentaje <strong>de</strong> i<strong>de</strong>ntidad menor que el<br />
segundo. ¿Por qué es mejor entonces?<br />
Podría argumentarse que el primer alineamiento es más largo que el segundo, y por<br />
eso está <strong>de</strong> primero. Sin embargo, esta es sólo una respuesta parcial. El alineamiento<br />
global (por <strong>de</strong>finición) es más largo que <strong>los</strong> dos, y no es mejor.<br />
Lo i<strong>de</strong>al es una mezcla entre <strong>los</strong> dos valores: i<strong>de</strong>ntidad y longitud. Dos estadísticos que<br />
tienen en cuenta ambos valores a la vez son el “Score” y el “e-value” (es el valor que<br />
está a la <strong>de</strong>recha <strong>de</strong> “E(10,000)”, en la misma fila <strong>de</strong>l porcentaje <strong>de</strong> i<strong>de</strong>ntidad).<br />
El primer alineamiento tiene un Score <strong>de</strong> 251, el segundo <strong>de</strong> 232 y el tercero <strong>de</strong> 155.<br />
Entre mayor sea el Score, mejor es el alineamiento.<br />
De manera similar, para el primer alineamiento el “e-value” es 6e-17 (esto es, un cero,<br />
una coma, 16 ceros y un “6” al final; un número muy pequeño), para el segundo es<br />
2.9e-15 y para el tercero es 0.0046 (verifique estos números). Entre menor sea el “evalue”,<br />
mejor es el alineamiento.<br />
12
En el siguiente capítulo apren<strong>de</strong>remos qué se tiene en cuenta al calcular un Score y un<br />
“e-value”, y cómo éste último se relaciona con la probabilidad <strong>de</strong> que el alineamiento<br />
conseguido se <strong>de</strong>ba únicamente al azar.<br />
Recuer<strong>de</strong>: cuando usted hace un alineamiento global está suponiendo que tiene en frente<br />
<strong>secuencias</strong> homólogas y va a comparar su historia evolutiva al analizar <strong>los</strong> cambios que se han<br />
presentado.<br />
Cuando usted hace <strong>alineamientos</strong> locales usted estudia la conservación local <strong>de</strong> sus residuos.<br />
Esto le permite inferir (en caso que la similitud no sea explicable razonablemente por azar) que<br />
las dos proteínas son homólogas.<br />
Note el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> supuestos. En el primer caso está suponiendo homología y en el segundo<br />
la está verificando.<br />
¿Cómo se relacionan <strong>los</strong> conceptos selectividad y sensibilidad con este ejemplo?<br />
Ejercicio:<br />
En la siguiente página hay una proteína humana y una proteína que se aisló <strong>de</strong>l gallo:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign04.txt<br />
¿Hay razón para creer que estas proteínas son homólogas? Argumente su respuesta. También<br />
explique qué método <strong>de</strong> alineamiento escogió y por qué.<br />
Practiejemplo C – ¿Cómo encontrar <strong>secuencias</strong> en bases <strong>de</strong> datos mediante<br />
<strong>alineamientos</strong>?<br />
En este ejemplo vamos a utilizar por primera vez el programa BLAST (Basic Local Alignment<br />
Search Tool). Este programa es para la bioinformática como el martillo es para el carpintero.<br />
Sin él, la caja <strong>de</strong> herramientas no pue<strong>de</strong> estar completa. Tan importante es, que <strong>de</strong>dicaremos<br />
toda una sección <strong>de</strong>l próximo capítulo para estudiarlo mejor.<br />
Sin embargo, no sobra dar un llamado <strong>de</strong> alerta. Es fácil caer en la tentación <strong>de</strong> usar BLAST<br />
para todos <strong>los</strong> problemas bioinformáticos. Al hacerlo, nos olvidamos que BLAST sigue siendo<br />
como un martillo: una herramienta más. Todo resultado que obtengamos con BLAST <strong>de</strong>bemos<br />
justificarlo rigurosamente. Esto se consigue conociendo BLAST más a fondo. Pero por ahora<br />
basta con una corta introducción.<br />
1. Ingrese a la página principal <strong>de</strong>l NCBI:<br />
http://www.ncbi.nlm.nih.gov/<br />
2. Des<strong>de</strong> ahí, haga clic en el vínculo “BLAST” que está encima <strong>de</strong> la casilla <strong>de</strong> búsqueda.<br />
Esto lo lleva a la página principal <strong>de</strong> BLAST.<br />
3. El párrafo <strong>de</strong> introducción resume la funcionalidad <strong>de</strong>l programa.<br />
Lo primero que hay que notar es que BLAST (como su nombre lo indica) hace<br />
<strong>alineamientos</strong> locales, para buscar <strong>secuencias</strong> similares a un ‘query’ en una base <strong>de</strong><br />
datos. En esta <strong>de</strong>scripción también sugieren tres usos: inferir relaciones funcionales y<br />
relaciones evolutivas e i<strong>de</strong>ntificar miembros <strong>de</strong> una familia <strong>de</strong> genes.<br />
4. Lo siguiente es darse cuenta que hay muchas formas diferentes <strong>de</strong> hacer BLAST. Las<br />
gran<strong>de</strong>s divisiones son: Nucleótidos, proteínas, traducciones, BLAST genómico y<br />
“BLASTs” especiales.<br />
13
El tipo <strong>de</strong> BLAST a seleccionar <strong>de</strong>pen<strong>de</strong> <strong>de</strong> varios factores, entre el<strong>los</strong>:<br />
a) la naturaleza <strong>de</strong> nuestra secuencia (¿es ADN o proteína?)<br />
b) la base <strong>de</strong> datos que queremos son<strong>de</strong>ar (¿queremos buscar en toda la base<br />
<strong>de</strong> datos, o restringirnos a un tipo <strong>de</strong> molécula especial u organismo<br />
particular?)<br />
c) la hipótesis que queremos comprobar (¿estamos buscando <strong>secuencias</strong><br />
potencialmente homólogas a la nuestra o más bien la posición <strong>de</strong> nuestra<br />
secuencia en un genoma particular?)<br />
d) <strong>los</strong> supuestos acerca <strong>de</strong> nuestros resultados (si buscamos <strong>secuencias</strong><br />
homólogas, ¿esperamos encontrar alta o baja conservación?)<br />
En este ejemplo vamos a usar sólo un tipo: El BLAST a un genoma particular.<br />
5. Como ejemplo, vamos a suponer que hemos aislado y secuenciado un pedazo <strong>de</strong> ADN<br />
humano al que se une un factor <strong>de</strong> transcripción que estamos estudiando (en el<br />
Practiejemplo 2C <strong>de</strong>l capítulo 3 se habló brevemente acerca <strong>de</strong> <strong>los</strong> factores <strong>de</strong><br />
transcripción).<br />
La secuencia es la siguiente:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Blast01.txt<br />
¿Cómo saber qué gen es regulado por este factor <strong>de</strong> transcripción? Lo más a<strong>de</strong>cuado<br />
es alinear esta secuencia con el genoma humano y ver en qué cromosoma<br />
encontramos la mayor i<strong>de</strong>ntidad. Posteriormente analizaremos qué genes se<br />
encuentran flanqueando esta secuencia. Esto nos dará una hipótesis <strong>de</strong> trabajo muy<br />
buena.<br />
6. En la página principal <strong>de</strong> BLAST, haga clic en “Human” bajo la categoría “Genomes”.<br />
Luego ingrese la secuencia en la casilla <strong>de</strong> búsqueda y haga clic en “Begin Search”.<br />
7. Aparece una ventana en don<strong>de</strong> nos informan que nuestra solicitud ha sido puesta en<br />
una lista <strong>de</strong> espera. ¡A diferencia <strong>de</strong>l ejemplo anterior, don<strong>de</strong> comparábamos dos<br />
<strong>secuencias</strong> <strong>de</strong> no más <strong>de</strong> 300 aminoácidos una contra la otra, en este caso<br />
necesitamos comparar nuestra secuencia con <strong>los</strong> 3000 millones <strong>de</strong> bases <strong>de</strong>l genoma<br />
humano! Esto toma algún tiempo (en mi caso: “4 segundos, pero pue<strong>de</strong> ser menos”).<br />
8. Tras esperar un tiempo, haga clic sobre el botón “Format!”<br />
9. Si esperó lo suficiente verá la página <strong>de</strong> resultados. Con el uso se acostumbrará al<br />
formato <strong>de</strong> esta página.<br />
Éste se divi<strong>de</strong> en tres secciones. La primera tiene información general acerca <strong>de</strong> la<br />
búsqueda, con la fecha <strong>de</strong> realización, el RID que es un número único <strong>de</strong> i<strong>de</strong>ntificación<br />
<strong>de</strong> este resultado, la base <strong>de</strong> datos que se utilizó, etc.<br />
La segunda sección tiene <strong>los</strong> <strong>alineamientos</strong> – primero en forma gráfica y luego <strong>de</strong><br />
forma similar a como aparecen en LAlign.<br />
Al final aparece un resumen <strong>de</strong> <strong>los</strong> parámetros <strong>de</strong> BLAST al hacer esta búsqueda,<br />
a<strong>de</strong>más <strong>de</strong> unos estadísticos.<br />
En este momento nos vamos a centrar en la sección <strong>de</strong> la mitad.<br />
14
10. El 31 <strong>de</strong> julio <strong>de</strong> 2006 se obtuvieron 3 resultados. En la parte gráfica <strong>de</strong>l resultado <strong>de</strong><br />
BLAST aparecen tres líneas en color magenta. Cada una <strong>de</strong> ellas correspon<strong>de</strong> a un<br />
alineamiento.<br />
11. Dé clic sobre la primera línea magenta. Esto lo lleva al primer resultado. En mi caso, es<br />
una secuencia <strong>de</strong>l cromosoma 7 <strong>de</strong>l genoma humano. Después se menciona que en la<br />
dirección 5’ <strong>de</strong> mi secuencia en el genoma humano está la preproteína Sonic<br />
Hedgehog. Tenemos respuesta a nuestra inquietud: el factor <strong>de</strong> transcripción<br />
probablemente inducirá la expresión <strong>de</strong> este gen.<br />
12. Debajo aparecen unos datos estadísticos <strong>de</strong> este alineamiento en particular.<br />
Centrémonos en el e-value, que está <strong>de</strong>spués <strong>de</strong> “Expect”. ¿Nota que es un valor<br />
realmente bajo? Esto nos da un indicio <strong>de</strong> que el alineamiento es muy bueno.<br />
13. Observe otro resultado <strong>de</strong> esta página. En mi caso, el segundo resultado es también<br />
<strong>de</strong>l cromosoma 7, pero en este caso se tomó como referencia la secuencia obtenida<br />
por Celera Genomics (ver introducción al capítulo 2 para ver que significa esto).<br />
Lo importante <strong>de</strong> esto es notar que <strong>los</strong> tres <strong>alineamientos</strong> no son tres formas <strong>de</strong> alinear<br />
dos <strong>secuencias</strong> (como sí ocurre en LAlign), sino la mejor forma <strong>de</strong> alinear una<br />
secuencia con varias <strong>secuencias</strong> presentes en diferentes bases <strong>de</strong> datos. De esto se<br />
trata BLAST: hacer <strong>alineamientos</strong> locales con muchas <strong>secuencias</strong> en bases <strong>de</strong> datos<br />
diferentes para llegar a conclusiones basadas en similitud.<br />
En este ejemplo únicamente vimos uno <strong>de</strong> <strong>los</strong> usos que tiene BLAST. Si bien hay muchos usos<br />
diferentes (como por ejemplo, formular hipótesis <strong>de</strong> homología o <strong>de</strong> conservación <strong>de</strong><br />
estructura), todos se basan en el mismo principio.<br />
Ejercicio:<br />
En unas células cancerosas se aisló un mRNA que estaba expresado en cantida<strong>de</strong>s anormales<br />
y se secuenció. La secuencia obtenida está en:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Blast02.txt<br />
¿Hay alguna razón para creer que el mRNA aislado esté vinculado con el hecho <strong>de</strong> que la<br />
célula sea cancerosa?<br />
Practiejemplo D – Alineamientos múltiples<br />
Hasta aquí nos hemos concentrado únicamente en la similitud entre pares <strong>de</strong> <strong>secuencias</strong>. Sin<br />
embargo, estudiar la similitud entre varias <strong>secuencias</strong> simultáneamente nos pue<strong>de</strong> dar mucha<br />
información, que no se encuentra con facilidad en <strong>alineamientos</strong> pareados.<br />
Una analogía que pue<strong>de</strong> servir para enten<strong>de</strong>r esto es comparar el clima en varios años<br />
consecutivos. Si compara un par <strong>de</strong> años entre sí podrá <strong>de</strong>cir que un año fue más caluroso que<br />
el otro en un mes particular, pero poco más que esto. En cambio, si analiza la ten<strong>de</strong>ncia año<br />
tras año (esto es, compara el mismo periodo <strong>de</strong> tiempo <strong>de</strong> todos <strong>los</strong> años simultáneamente),<br />
podrá percatarse que hay un calentamiento progresivo.<br />
En este ejemplo realizaremos un alineamiento múltiple para inferir relaciones evolutivas. La<br />
teoría subyacente es en esencia lo mismo que <strong>de</strong>l párrafo anterior, sólo que al revés:<br />
suponemos que con el paso <strong>de</strong>l tiempo las <strong>secuencias</strong> homólogas <strong>de</strong> <strong>los</strong> organismos<br />
adquieren diferencias o mutaciones (en el caso <strong>de</strong>l clima concluimos que la temperatura<br />
aumentaba) y a partir <strong>de</strong> ahí inferimos cuáles especies están relacionadas y cuáles son lejanas<br />
evolutivamente, a partir <strong>de</strong>l número <strong>de</strong> diferencias entre las <strong>secuencias</strong>.<br />
El programa que vamos a usar es ClustalW. Junto con BLAST, es una <strong>de</strong> las herramientas más<br />
usadas en bioinformática. En este ejemplo, apren<strong>de</strong>remos a ingresar <strong>secuencias</strong> y a reconocer<br />
<strong>los</strong> principales resultados.<br />
15
1. Empiece en la página <strong>de</strong> ClustalW, dando clic en el siguiente vínculo:<br />
http://www.ebi.ac.uk/clustalw/<br />
Tómese su tiempo<br />
Lea el párrafo <strong>de</strong> introducción que está en esta página.que resume <strong>los</strong><br />
principios <strong>de</strong> ClustalW: alineamiento múltiple, <strong>de</strong> <strong>secuencias</strong> biológicas, para<br />
ver i<strong>de</strong>ntida<strong>de</strong>s y diferencias, con posibilidad <strong>de</strong> ver relaciones evolutivas.<br />
Cada uno <strong>de</strong> estos pasos está diseñado para ajustarse a evi<strong>de</strong>ncia biológica<br />
existente. No es sólo un alineamiento múltiple: es un alineamiento diseñado<br />
para investigar <strong>secuencias</strong> biológicas <strong>de</strong>s<strong>de</strong> una perspectiva evolutiva.<br />
En el siguiente capítulo, cuando veamos cómo se generan <strong>los</strong> <strong>alineamientos</strong>,<br />
retomaremos la importancia <strong>de</strong> este diseño.<br />
2. El formulario presente en esta página permite ajustar finamente varios parámetros <strong>de</strong>l<br />
algoritmo, a<strong>de</strong>más <strong>de</strong> dar la opción <strong>de</strong> enviar <strong>los</strong> resultados al correo electrónico. Esto<br />
último es especialmente útil cuando se tienen <strong>alineamientos</strong> <strong>de</strong> muchas <strong>secuencias</strong><br />
largas, ya que el resultado suele tardarse bastante en salir.<br />
Por el momento no vamos a cambiar ninguno <strong>de</strong> <strong>los</strong> parámetros.<br />
3. En el espacio que dice “Enter or Paste a set of Sequences in any supported format:”<br />
ingrese las <strong>secuencias</strong> que se encuentran en el siguiente vínculo:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Clustal01.txt<br />
Es importante incluir junto con ellas la línea <strong>de</strong> <strong>de</strong>scripción (que empieza con “>”) y no<br />
<strong>de</strong>jar una línea en blanco antes <strong>de</strong> las <strong>secuencias</strong>.<br />
Las <strong>secuencias</strong> pertenecen a la proteína ribosomal L18a, que es un gen conservado en<br />
todos <strong>los</strong> eucariontes (seres vivos con sistema <strong>de</strong> membranas intracelular, entre <strong>los</strong><br />
que nos incluimos nosotros).<br />
4. Tras ingresar las <strong>secuencias</strong> dé clic en “Run” y espere <strong>los</strong> resultados.<br />
5. La página <strong>de</strong> resultados tiene una tabla con fondo gris llamada “Results of search”. En<br />
esta tabla hay estadísticas generales <strong>de</strong>l alineamiento, a<strong>de</strong>más <strong>de</strong> unos archivos <strong>de</strong><br />
texto que sirven para procesar <strong>los</strong> datos con otro software.<br />
El botón JalView carga una ventana que permite visualizar el alineamiento con colores<br />
(<strong>de</strong>be tener instalada la máquina virtual <strong>de</strong> Java, ver practiejemplo 1B). A<strong>de</strong>más <strong>de</strong><br />
mostrar <strong>los</strong> residuos más conservados y generar una secuencia consenso, tiene varias<br />
funciones avanzadas accesibles a través <strong>de</strong>l menú superior. Por el momento no<br />
profundizaremos en su uso.<br />
6. En la página <strong>de</strong> resultados sigue una sección titulada “Scores Table”. Es un resumen<br />
<strong>de</strong>l resultado <strong>de</strong> alinear cada par <strong>de</strong> <strong>secuencias</strong>. Fíjese, por ejemplo, que el mayor<br />
Score (ver practiejemplo 2B para recordar que es el Score) se encuentra entre la rata y<br />
el ratón. Esto tiene sentido, si se piensa que son especies muy cercanas.<br />
También se pue<strong>de</strong> ver que <strong>los</strong> menores Score en general surgen en <strong>alineamientos</strong> con<br />
la secuencia <strong>de</strong> la planta (Arabidopsis thaliana) y con la secuencia <strong>de</strong> la levadura<br />
(Saccharomyces cerevisiae). Esto también tiene sentido evolutivo, pues estos<br />
organismos pertenecen a reinos diferentes al animal.<br />
16
7. Con base en estos Scores, ClustalW genera un cladograma y un filograma. El que se<br />
carga primero es el cladograma, pero a nosotros nos interesa más en este momento el<br />
filograma. Para visualizarlo, haga clic en el botón “Show as Phylogram Tree”.<br />
En la parte inferior <strong>de</strong> la página aparece entonces el árbol filogenético, don<strong>de</strong> la<br />
longitud <strong>de</strong> las ramas se relaciona con la distancia evolutiva entre las especies. Note<br />
como todos <strong>los</strong> vertebrados se encuentran relativamente cerca entre sí, seguidos<br />
<strong>de</strong>spués por el gusano (Caenorhabditis elegans), y finalmente por la levadura (un<br />
hongo) y la planta.<br />
Hemos visto como la comparación <strong>de</strong> varias <strong>secuencias</strong> mediante <strong>alineamientos</strong> múltiples nos<br />
pue<strong>de</strong> dar una i<strong>de</strong>a <strong>de</strong> la filogenia (parentesco evolutivo). Sin embargo, hay <strong>de</strong>talles que no<br />
cuadran. Por ejemplo, el humano parece ser más cercano a la rata, el ratón y el perro que al<br />
chimpancé (algunos argumentarán en broma que esto tiene sentido). Esto se <strong>de</strong>be a que el<br />
Score <strong>de</strong>l alineamiento entre humano y rata es 99 mientras que el Score entre el humano y el<br />
chimpancé es 95. Pero surge la pregunta, ¿es suficiente una diferencia <strong>de</strong> tres puntos en el<br />
Score para <strong>de</strong>finir relaciones filogenéticas?<br />
En el siguiente capítulo, cuando hablemos acerca <strong>de</strong> puntajes en <strong>los</strong> <strong>alineamientos</strong>, trataremos<br />
<strong>de</strong> dar una respuesta parcial a esta pregunta.<br />
Ejercicio:<br />
En el siguiente vínculo hay cinco <strong>secuencias</strong>:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Clustal02.txt<br />
Las primeras dos pertenecen a humanos. Las siguientes dos fueron extraídas <strong>de</strong> un<br />
chimpancé.<br />
La quinta secuencia tiene origen <strong>de</strong>sconocido, pero se sabe que pertenece a alguna <strong>de</strong> las dos<br />
especies y que está en el mismo locus.<br />
¿Cuál es el origen más probable <strong>de</strong> la última secuencia?<br />
3. Aplicaciones basadas en <strong>alineamientos</strong><br />
Practiejemplo A – Encontrar exones e intrones a partir <strong>de</strong> la proteína y su ADN<br />
correspondiente<br />
En la sección anterior el énfasis estuvo en la parte conceptual. Conocimos <strong>los</strong> <strong>alineamientos</strong><br />
locales y globales, a<strong>de</strong>más <strong>de</strong> conocer un programa para cada uno <strong>de</strong> estos tipos <strong>de</strong><br />
alineamiento: BLAST hace <strong>alineamientos</strong> locales contra una base <strong>de</strong> datos, mientras que<br />
ClustalW hace <strong>alineamientos</strong> globales múltiples.<br />
Haciendo uso <strong>de</strong> <strong>los</strong> conceptos <strong>de</strong> la sección anterior pue<strong>de</strong> usted resolver muchos problemas<br />
concretos. En el ejercicio que acompaña al Practiejemplo 2A, por ejemplo, se pi<strong>de</strong> encontrar<br />
<strong>los</strong> intrones y exones <strong>de</strong> un gen, si se tiene una secuencia <strong>de</strong> ADN y su mRNA respectivo.<br />
Un ligero cambio en el problema se preten<strong>de</strong> resolver en este ejemplo: en lugar <strong>de</strong> tener la<br />
secuencia <strong>de</strong> mRNA tenemos la secuencia <strong>de</strong> la proteína que codifica. ¿Cómo resolver este<br />
problema?<br />
Es posible hacerlo en tres pasos: el primero sería elaborar una lista <strong>de</strong> todos <strong>los</strong> mRNAs que<br />
pue<strong>de</strong>n codificar la proteína. Esto se pue<strong>de</strong> hacer a mano o mediante un pequeño programa <strong>de</strong><br />
computador que genere la lista.<br />
El segundo paso sería ver cuál <strong>de</strong> todos <strong>los</strong> mRNAs <strong>de</strong> la lista es el mejor candidato a ser<br />
codificado por la secuencia <strong>de</strong> ADN que tenemos. Esto se pue<strong>de</strong> hacer mediante <strong>alineamientos</strong><br />
17
globales entre cada uno <strong>de</strong> <strong>los</strong> mRNAs <strong>de</strong> la lista y el ADN. El mRNA correcto estará en<br />
alineamiento que tenga el mayor Score o menor e-value.<br />
El tercer paso es repetir el ejercicio <strong>de</strong>l Practiejemplo 2A.<br />
Hay una mejor solución a este problema: aprovechar el hecho que un grupo <strong>de</strong> investigación ya<br />
<strong>de</strong>sarrolló una aplicación que está optimizada para esta tarea específica, y que la ha puesto a<br />
disposición <strong>de</strong> cualquier usuario con acceso a Internet. Esta aplicación, <strong>de</strong>sarrollada por Ewan<br />
Birney, Richard Copley y otros colaboradores, se conoce como Wise2 (GeneWise).<br />
1. Ingrese al formulario inicial <strong>de</strong> Wise2 haciendo clic en el siguiente vínculo:<br />
http://www.ebi.ac.uk/Wise2/<br />
2. En el siguiente vínculo encontrará una secuencia <strong>de</strong> proteína y una secuencia <strong>de</strong> ADN.<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/GeneWise01.txt<br />
Ingrese cada secuencia en el espacio correspondiente <strong>de</strong>l formulario y haga clic en<br />
“Run”.<br />
3. Tras un tiempo <strong>de</strong> espera aparece la página <strong>de</strong> resultados. La tabla gris permite bajar<br />
archivos para ser procesados por otros programas. Después viene un resumen <strong>de</strong> <strong>los</strong><br />
parámetros que se usaron en el programa. Seguido a esto se encuentra el<br />
alineamiento entre la proteína y el ADN, y al final un resumen <strong>de</strong> <strong>los</strong> intrones<br />
encontrados.<br />
4. El alineamiento se compone <strong>de</strong> tres líneas idénticas, que correspon<strong>de</strong>n a la proteína.<br />
Debajo <strong>de</strong> estas tres líneas hay otras tres, que correspon<strong>de</strong>n a la secuencia <strong>de</strong><br />
nucleótidos.<br />
Cada columna correspon<strong>de</strong> a una tripleta <strong>de</strong> nucleótidos con el aminoácido particular<br />
que codifican.<br />
Los intrones se encuentran marcados, junto con su longitud. En total hay 5 <strong>de</strong> el<strong>los</strong>.<br />
5. Este ejemplo se basa en un registro <strong>de</strong> NCBI Gene <strong>de</strong> la proteína white <strong>de</strong> Drosophila<br />
melanogaster. Dar clic en el siguiente vínculo lo llevará al registro:<br />
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=full_report<br />
&list_uids=31271#tranprod<br />
El programa logró encontrar correctamente <strong>los</strong> cinco intrones presentes.<br />
El mensaje importante que nos transmite este ejemplo es “no reinventar la rueda”. Con una<br />
búsqueda buena en Google es posible encontrar programas que ejecutan muchas tareas<br />
comunes <strong>de</strong> manera efectiva.<br />
Como ejemplo adicional está Sim4, diseñado para alinear un mRNA o cDNA con la secuencia<br />
<strong>de</strong> ADN respectiva. El artículo científico don<strong>de</strong> <strong>de</strong>scriben Sim4 se encuentra en:<br />
http://www.genome.org/cgi/content/full/8/9/967<br />
Ejercicio:<br />
En la página <strong>de</strong> Wise2, a la izquierda, hay enlaces a otras herramientas – cada una tiene su<br />
especialidad. ¿Cuál programa usaría para <strong>de</strong>tectar inversiones en una secuencia <strong>de</strong><br />
nucleótidos?<br />
Use este programa para <strong>de</strong>tectar la inversión presente entre estas dos <strong>secuencias</strong>:<br />
18
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/GeneWise02.txt<br />
Practiejemplo B – HomoloGene: una base <strong>de</strong> datos <strong>de</strong> genes homólogos<br />
En la sección anterior aprendimos, que uno <strong>de</strong> <strong>los</strong> usos <strong>de</strong> <strong>los</strong> <strong>alineamientos</strong> es la inferencia <strong>de</strong><br />
relaciones evolutivas. Si dos <strong>secuencias</strong> son muy similares en especies lejanas, es probable<br />
que esto se <strong>de</strong>ba a que el ancestro común <strong>de</strong> estas dos especies ya tenía presente la<br />
secuencia.<br />
Basándose en esta hipótesis, el NCBI está generando una base <strong>de</strong> datos <strong>de</strong> <strong>secuencias</strong> que<br />
por su similitud son candidatas a ser homólogas. El nombre <strong>de</strong> esta base <strong>de</strong> datos es<br />
HomoloGene.<br />
1. Ingrese a la página principal <strong>de</strong> HomoloGene haciendo clic en el siguiente vínculo:<br />
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene<br />
2. El primer párrafo <strong>de</strong> la página nos indica que éste es un sistema automatizado <strong>de</strong><br />
<strong>de</strong>tección <strong>de</strong> genes homólogos en <strong>los</strong> organismos cuya secuencia genómica completa<br />
ya se conoce.<br />
Para evaluar <strong>los</strong> resultados, ingrese el término “APP” y haga clic en “Go”. APP es el<br />
símbolo <strong>de</strong> un gen asociado con la enfermedad <strong>de</strong> Alzheimer.<br />
3. El 3 <strong>de</strong> agosto <strong>de</strong> 2006 se produjeron 78 resultados. Entre el<strong>los</strong> hay uno con número<br />
<strong>de</strong> i<strong>de</strong>ntificación 56379. El número <strong>de</strong> i<strong>de</strong>ntificación se encuentra justo al lado <strong>de</strong> la<br />
palabra “HomoloGene:” en cada resultado. Ingrese a este registro.<br />
Tómese su tiempo<br />
Cada registro <strong>de</strong> HomoloGene contiene información en varios contextos:<br />
Genes, proteínas, fenotipos, dominios conservados, referencias bibliográficas...<br />
Esta información pue<strong>de</strong> ser especialmente útil para encontrar mo<strong>de</strong><strong>los</strong><br />
biológicos para enfermeda<strong>de</strong>s comunes. Mire, por ejemplo, que algunos<br />
fenotipos en el ratón muestran su equivalente al <strong>de</strong>l humano.<br />
4. Nos vamos a centrar en la sección llamada “Alignment Scores”. Haga clic en el enlace<br />
“Show Table of Pairwise Scores”. Para cada una <strong>de</strong> las especies tenemos una lista <strong>de</strong><br />
estadísticos <strong>de</strong> similitud entre las <strong>secuencias</strong>.<br />
Dese cuenta que el porcentaje <strong>de</strong> i<strong>de</strong>ntidad en aminoácidos y nucleótidos es bastante<br />
alto entre <strong>los</strong> vertebrados (superior al 80%): H. sapiens (humano), M. musculus (ratón),<br />
R. norvegicus (rata) y G. gallus (gallo).<br />
En cambio, comparándolo con <strong>los</strong> organismos invertebrados, el porcentaje <strong>de</strong> i<strong>de</strong>ntidad<br />
es menor al 50%.<br />
5. Vuelva al registro completo <strong>de</strong> HomoloGene. Hay dos menús <strong>de</strong>splegables bajo el<br />
título “Regenerate Alignments”. Escoja en el primero al humano (H. sapiens) y en el<br />
segundo al ratón (M. musculus). Luego dé clic sobre el botón “BLAST”.<br />
6. Se <strong>de</strong>spliega el alineamiento que dio lugar a la hipótesis <strong>de</strong> homología entre <strong>los</strong> genes.<br />
Note el alto grado <strong>de</strong> i<strong>de</strong>ntidad que hay entre las <strong>secuencias</strong>. Tenemos buenos indicios<br />
para creer, que esta secuencia realmente es homóloga.<br />
19
7. Vuelva nuevamente al registro <strong>de</strong> HomoloGene y en el menú <strong>de</strong>splegable “Display”<br />
seleccione la opción “Multiple Alignment”. Pue<strong>de</strong> <strong>de</strong>tectar las regiones que más<br />
diferencian a <strong>los</strong> vertebrados <strong>de</strong> <strong>los</strong> otros organismos.<br />
8. Ahora ingrese en la casilla <strong>de</strong> búsqueda superior el número 8634, asegúrese que<br />
todavía tiene seleccionado “HomoloGene” en el menú <strong>de</strong>splegable y haga clic en “Go”.<br />
Aparece como resultado el gen HEBP2: “Heme binding protein 2”. Ingrese a este<br />
registro.<br />
Entre las especies aparecen el humano, el ratón, la rata, el perro y el gallo y... ¡una<br />
planta (A. thaliana)!<br />
Recor<strong>de</strong>mos que el grupo heme está presente en la hemoglobina (y otros compuestos),<br />
don<strong>de</strong> cumple un papel en el transporte <strong>de</strong> oxígeno en la sangre. En la planta, este<br />
grupo <strong>de</strong>be tener un papel diferente.<br />
¿Po<strong>de</strong>mos confiar que <strong>los</strong> genes <strong>de</strong> la planta y <strong>de</strong>l humano son homólogos? ¿Es<br />
posible que la similitud en la secuencia se <strong>de</strong>ba a evolución paralela? ¿Está presente el<br />
grupo heme en todos <strong>los</strong> eucariontes? La única evi<strong>de</strong>ncia <strong>de</strong> la que disponemos para<br />
respon<strong>de</strong>rnos estas preguntas es la similitud entre dos <strong>secuencias</strong>. Por tanto <strong>de</strong>bemos<br />
tomar con precaución este resultado.<br />
Resaltando conceptos: Homología vs. Similitud<br />
HomoloGene se basa en la similitud <strong>de</strong> las <strong>secuencias</strong> para inferir posibles<br />
genes homólogos. Sin embargo, similitud no es sinónimo <strong>de</strong> homología. Es por<br />
eso que la homología <strong>de</strong> estos genes <strong>de</strong>be consi<strong>de</strong>rarse siempre como<br />
hipótesis.<br />
Recor<strong>de</strong>mos: dos genes son homólogos si tienen el mismo origen evolutivo.<br />
Esto es probable si estudiamos proteínas como la actina, que hace parte <strong>de</strong>l<br />
citoesqueleto en todos <strong>los</strong> eucariontes (organismos con sistema <strong>de</strong> membranas<br />
intracelular).<br />
Otros genes, por ejemplo <strong>los</strong> <strong>de</strong>l sistema inmunológico humano, no presentan<br />
homólogos en las plantas. Pue<strong>de</strong> ocurrir, sin embargo, que la secuencia <strong>de</strong><br />
aminoácidos <strong>de</strong> uno <strong>de</strong> éstos sea similar a una proteína vegetal.<br />
Toda hipótesis en bioinformática <strong>de</strong>be estudiarse en un contexto biológico para<br />
po<strong>de</strong>r hacer inferencias confiables. Siguiendo con el ejemplo, es necesario<br />
saber algo más <strong>de</strong> la actina y <strong>de</strong>l sistema inmunológico es un complemento<br />
necesario para evaluar <strong>los</strong> resultados estadísticos <strong>de</strong> un alineamiento.<br />
¿Qué ocurre si dos <strong>secuencias</strong> homólogas han acumulado tantas mutaciones entre sí, que un<br />
primer examen <strong>de</strong> similitud no logra <strong>de</strong>tectar su origen común? En ese caso, HomoloGene<br />
probablemente no consi<strong>de</strong>re este par <strong>de</strong> <strong>secuencias</strong> como homólogas.<br />
Existen métodos más sensibles para evaluar la similitud entre <strong>secuencias</strong> (por ejemplo PSI-<br />
BLAST). En <strong>los</strong> siguientes capítu<strong>los</strong> exploraremos algunos <strong>de</strong> estos métodos.<br />
Ejercicio:<br />
Se ha encontrado un gen en ratones (llamado Mc3r) que está relacionado con el aumento <strong>de</strong><br />
peso. Ratones que tienen mutado este gen engordan más a pesar <strong>de</strong> comer menos (en el<br />
siguiente tutorial se profundiza más en el tema:<br />
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=coffeebrk.chapter.26).<br />
Use HomoloGene para encontrar el gen homólogo en humanos. ¿Cuál es el porcentaje <strong>de</strong><br />
i<strong>de</strong>ntidad en la secuencia <strong>de</strong> aminoácidos entre el humano y el ratón?<br />
20
Ejercicios<br />
<strong>Introducción</strong><br />
Los ejercicios <strong>de</strong> este capítulo son una simulación <strong>de</strong> una rutina común en bioinformática: se<br />
aísla un pedazo <strong>de</strong> ADN, se obtiene la secuencia, y mediante ésta se preten<strong>de</strong> inferir la mayor<br />
cantidad <strong>de</strong> información posible usando <strong>de</strong> bases <strong>de</strong> datos.<br />
El ejemplo dista <strong>de</strong> representar una situación real en algunos casos (las <strong>secuencias</strong> <strong>de</strong>l primer<br />
ejercicio, por ejemplo, no presentan errores <strong>de</strong> secuenciación y no tienen repeticiones que<br />
generen ambigüedad). Aún así, <strong>los</strong> conceptos que subyacen son <strong>los</strong> mismos.<br />
Primer ejercicio<br />
El resultado <strong>de</strong> un experimento <strong>de</strong> secuenciación es un electroferograma, en don<strong>de</strong> cada pico<br />
correspon<strong>de</strong> a un nucleótido específico en el ADN (ver un ejemplo en el siguiente vínculo:<br />
http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=retrieve&size=479999&s=search&m=obtain<br />
&retrieve=Submit&val=1386897769&x_join=and&x_field=CENTER_NAME&x_cond=%3D&file=t<br />
race&gz=on&fasta=on&dopt=trace&dispmax=5&page=1) . La secuencia <strong>de</strong> ADN obtenida <strong>de</strong><br />
un diagrama <strong>de</strong> este estilo tiene un tamaño <strong>de</strong> aproximadamente 700 nucleótidos, por lo que se<br />
requieren varias pasadas para secuenciar un gen completo. Estas <strong>secuencias</strong> <strong>de</strong>ben<br />
ensamblarse, esto es, compararse entre sí para <strong>de</strong>terminar una secuencia consenso <strong>de</strong> todo el<br />
gen.<br />
A<strong>de</strong>más <strong>de</strong> que sólo es posible secuenciar pedazos cortos <strong>de</strong> ADN, muchos picos <strong>de</strong> <strong>los</strong><br />
electroferogramas son ambiguos. Esto lleva a que dos <strong>secuencias</strong> – así pertenezcan a la<br />
misma región cromosómica – parezcan tener un or<strong>de</strong>n diferente <strong>de</strong> nucleótidos.<br />
Si bien existen programas especializados en secuenciación (que van <strong>de</strong>s<strong>de</strong> el análisis <strong>de</strong>l<br />
electroferograma, pasando por la optimización <strong>de</strong> las <strong>secuencias</strong> para el alineamiento, hasta el<br />
análisis conjunto <strong>de</strong> varios experimentos <strong>de</strong> secuenciación para obtener una secuencia<br />
consenso), vamos a usar las herramientas <strong>de</strong> este capítulo para obtener un resultado<br />
aproximado.<br />
En la siguiente página Web hay tres <strong>secuencias</strong> que <strong>de</strong>ben ensamblarse en un or<strong>de</strong>n<br />
específico (esto significa, que una secuencia representa el inicio, otra el segmento medio y la<br />
tercera el extremo final):<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_01_01.txt<br />
Sin embargo, no se sabe en qué or<strong>de</strong>n <strong>de</strong>ben ir. Usando Dotlet <strong>de</strong>termine: ¿cuál es la<br />
secuencia inicial, cuál es la intermedia y cuál es la final?<br />
Pista: Las siguientes <strong>secuencias</strong>, pertenecientes a otro gen, están en or<strong>de</strong>n (“Secuencia_1” es<br />
el segmento corriente arriba y “Secuencia_2” el segmento corriente abajo):<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_01_02.txt<br />
Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />
1A, 1B<br />
Segundo ejercicio<br />
(Depen<strong>de</strong> <strong>de</strong>l ejercicio anterior)<br />
21
Tras haber <strong>de</strong>terminado el or<strong>de</strong>n en que <strong>de</strong>ben ensamblarse las <strong>secuencias</strong>, use LAlign y un<br />
editor <strong>de</strong> texto (como el bloc <strong>de</strong> notas <strong>de</strong> Windows) para generar una secuencia conjunta a<br />
partir <strong>de</strong> <strong>los</strong> tres fragmentos.<br />
Justifique la elección <strong>de</strong>l tipo <strong>de</strong> alineamiento que va a hacer (¿local? ¿global? ¿global sin<br />
penalidad en <strong>los</strong> extremos?).<br />
Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />
2A, 2B<br />
Tercer ejercicio<br />
Un ensamblaje como el que realizó en <strong>los</strong> dos ejercicios anteriores (sólo que con otra región<br />
<strong>de</strong>l gen) está en el siguiente vínculo:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_03_01.txt<br />
Basándose en este ensamblaje, <strong>de</strong>termine el cromosoma y el gen que están representados por<br />
esta secuencia.<br />
Opcional (requiere haber leído el capítulo 4): A partir <strong>de</strong> la ontología <strong>de</strong>l gen, ¿pue<strong>de</strong><br />
<strong>de</strong>terminar si es un factor <strong>de</strong> transcripción o un gen estructural?<br />
Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />
2C, <strong>Capítulo</strong> 4 practiejemp<strong>los</strong> 1A y 1B<br />
Cuarto ejercicio<br />
(Depen<strong>de</strong> <strong>de</strong>l ejercicio anterior)<br />
Encuentre posibles genes homólogos al <strong>de</strong>terminado en el punto anterior. ¿Es éste un gen<br />
conservado entre <strong>los</strong> mamíferos?<br />
Descargue la secuencia <strong>de</strong> proteínas <strong>de</strong>l grupo <strong>de</strong> genes homólogos que encontró. Haga un<br />
alineamiento múltiple con estas <strong>secuencias</strong>. ¿Se pue<strong>de</strong> inferir la filogenia (or<strong>de</strong>n <strong>de</strong><br />
especiación) <strong>de</strong> las especies a partir <strong>de</strong> estas <strong>secuencias</strong>?<br />
Opcional (requiere haber leído el capítulo 1): Busque un libro que tenga un tutorial acerca <strong>de</strong><br />
este gen. ¿Cumple la misma función en todos <strong>los</strong> mamíferos o tiene un efecto particular en<br />
humanos únicamente?<br />
Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />
2D, 3B, <strong>Capítulo</strong> 1 practiejemplo 3B<br />
Quinto ejercicio<br />
En el siguiente enlace están las <strong>secuencias</strong> proteicas <strong>de</strong>l humano y <strong>de</strong>l chimpancé <strong>de</strong>l gen que<br />
estamos estudiando:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer_05_05_01.txt<br />
Tras alinear las <strong>secuencias</strong> (¿global o localmente?) <strong>de</strong>termine:<br />
A) el porcentaje <strong>de</strong> i<strong>de</strong>ntidad entre las <strong>secuencias</strong><br />
B) <strong>los</strong> aminoácidos específicos diferentes (¿cambiaron las propieda<strong>de</strong>s fisicoquímicas <strong>de</strong><br />
estos aminoácidos?)<br />
22
Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />
2A, 2B<br />
Sexto ejercicio<br />
Algunas <strong>secuencias</strong> <strong>de</strong> ARN forman una estructura llamada stem-loop, don<strong>de</strong> el extremo 5’ y el<br />
extremo 3’ se complementan y forman asociaciones Watson-Crick entre sí (ver una imagen en<br />
el siguiente vínculo:<br />
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Search&db=books&doptcmdl=GenBookHL&<br />
term=RNA+secondary+and+tertiary+structures+AND+mcb%5Bbook%5D+AND+105263%5Buid<br />
%5D&rid=mcb.figgrp.821).<br />
En este ejercicio vamos a usar Dotlet para hacer esta inferencia. En la siguiente página hay<br />
cuatro <strong>secuencias</strong>:<br />
http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer_05_06_01.txt<br />
La primera secuencia es el ARN que vamos a analizar. La segunda es la secuencia invertida<br />
(esto significa, que se escribió la secuencia al revés). La tercera secuencia es el complemento<br />
<strong>de</strong> la primera (en don<strong>de</strong> teníamos A<strong>de</strong>nina se escribió Timina, etc.). La cuarta es el reverso<br />
complemento (el resultado <strong>de</strong> invertir y complementar).<br />
A) ¿Cuál par <strong>de</strong> <strong>secuencias</strong> analizaría usted para <strong>de</strong>terminar la presencia <strong>de</strong> un stem-loop?<br />
B) Cargue las dos <strong>secuencias</strong> que escogió en el punto A en Dotlet, varíe <strong>los</strong> parámetros hasta<br />
obtener una imágen completa (variando el Zoom) y con poco ruido (variando el tamaño <strong>de</strong><br />
ventana y el histograma a la <strong>de</strong>recha). ¿Cómo se evi<strong>de</strong>ncia el stem-loop en la gráfica<br />
obtenida?<br />
Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />
1A, 1B<br />
Profundización<br />
MUMmer<br />
Versión en línea <strong>de</strong> MUMmer:<br />
http://cmr.tigr.org/tigr-scripts/CMR/shared/MakeFrontPages.cgi?page=genome_alignment<br />
MUMmer es una herramienta similar al Dotplot, que permite visualizar similitud entre genomas<br />
completos. Tiene la ventaja <strong>de</strong> ser especialmente rápido, a pesar <strong>de</strong>l volumen <strong>de</strong> datos <strong>de</strong><br />
entrada.<br />
A la fecha, MUMmer va en la versión 3.0. En el artículo científico publicado sobre la primera<br />
versión <strong>de</strong>scriben la herramienta <strong>de</strong> esta manera:<br />
“Se <strong>de</strong>scribe un nuevo sistema para alinear <strong>secuencias</strong> genómicas completas. Usando una<br />
estructura <strong>de</strong> datos eficiente conocida como árbol <strong>de</strong> sufijos, el sistema es capaz <strong>de</strong> alinear<br />
<strong>secuencias</strong> que contienen millones <strong>de</strong> nucleótidos rápidamente. [...] El uso <strong>de</strong> este algoritmo<br />
<strong>de</strong>bería facilitar el análisis <strong>de</strong> regiones cromosomales sinténicas, comparaciones cepa-cepa,<br />
comparaciones evolutivas y duplicaciones genómicas.”<br />
(Delcher et al., “Alignment of whole genomes”, Nucleic Acids Res. 1999 Jun 1;27(11):2369-76.<br />
PMID: 10325427).<br />
23
MUMmer fue <strong>de</strong>sarrollado en TIGR (The Institute of Genomic Research) y en la página web <strong>de</strong><br />
este instituto (http://www.tigr.org/) es posible encontrar otras herramientas adicionales <strong>de</strong><br />
comparación entre genomas.<br />
NCBI PopSet<br />
Página <strong>de</strong> inicio <strong>de</strong> PopSet:<br />
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PopSet<br />
Cuando un investigador está interesado en publicar un alineamiento <strong>de</strong> <strong>secuencias</strong> pue<strong>de</strong><br />
hacer un envío a GenBank <strong>de</strong> éste mediante la herramienta Sequin (ver capítulo 2,<br />
Practiejemplo 1C). De esta forma sólo tiene que referenciar el registro específico en el NCBI,<br />
<strong>de</strong> manera similar a citar una secuencia <strong>de</strong> ADN mediante el número <strong>de</strong> acceso o el GI.<br />
Algunos <strong>de</strong> estos <strong>alineamientos</strong> están pensados para proporcionar hipótesis evolutivas <strong>de</strong><br />
poblaciones. NCBI ha creado una base <strong>de</strong> datos especializada en este tipo <strong>de</strong> estudios y se<br />
conoce como PopSet. Esta es la <strong>de</strong>scripción <strong>de</strong> un PopSet en la página Web <strong>de</strong>l NCBI:<br />
“¿Qué es un PopSet?<br />
Un PopSet es un conjunto <strong>de</strong> <strong>secuencias</strong> <strong>de</strong> ADN que han sido recolectadas para analizar las<br />
relaciones evolutivas <strong>de</strong> una población. La población pudo originarse a partir <strong>de</strong> diferentes<br />
miembros <strong>de</strong> la misma especie, o por organismos <strong>de</strong> especies diferentes. Son enviados a<br />
GenBank mediante Sequin, usualmente en forma <strong>de</strong> alineamiento <strong>de</strong> <strong>secuencias</strong>.”<br />
Base <strong>de</strong> datos <strong>de</strong> COGs<br />
Pagina inicial <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> COGs:<br />
http://www.ncbi.nlm.nih.gov/COG/<br />
Cuando empezaron a surgir las <strong>secuencias</strong> completas <strong>de</strong> algunos organismos, varios grupos<br />
iniciaron la tarea <strong>de</strong> encontrar todos <strong>los</strong> genes potencialmente homólogos. Una iniciativa <strong>de</strong>l<br />
NCBI, conocida como base <strong>de</strong> datos <strong>de</strong> COGs, se ha aproximado a esta tarea:<br />
“La base <strong>de</strong> datos <strong>de</strong> clusters <strong>de</strong> grupos ortólogos <strong>de</strong> proteínas (COGs [Cluster of Orthologous<br />
Groups]) ha sido pensada como una clasificación filogenética <strong>de</strong> proteínas <strong>de</strong> genomas<br />
completos. Cada COG incluye proteínas que se cree son ortólogas, esto es, conectadas por<br />
<strong>de</strong>scen<strong>de</strong>ncia evolutiva vertical. [...] El propósito <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> COGs es servir como<br />
plataforma para la anotación funcional <strong>de</strong> genomas recientemente secuenciados y realizar<br />
estudios en evolución genómica.”<br />
(Roman L. et al., “The COG database: new <strong>de</strong>velopments in phylogenetic classification of<br />
proteins from complete genomes”, Nucleic Acids Res. 2001 Jan 1;29(1):22-8. PMID: 11125040)<br />
Varios <strong>de</strong> <strong>los</strong> genes presentes en HomoloGene surgen <strong>de</strong> esta base <strong>de</strong> datos. Se pue<strong>de</strong> <strong>de</strong>cir<br />
que la base <strong>de</strong> datos COG es a HomoloGene como GenBank es a NCBI Gene.<br />
This work is licensed un<strong>de</strong>r a Creative Commons Attribution-NonCommercial-ShareAlike 2.5<br />
License.<br />
24