07.05.2013 Views

Capítulo 5: Introducción a los alineamientos de secuencias

Capítulo 5: Introducción a los alineamientos de secuencias

Capítulo 5: Introducción a los alineamientos de secuencias

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Lope Andrés Flórez Weidinger<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/cap5.htm<br />

<strong>Capítulo</strong> 5: <strong>Introducción</strong> a <strong>los</strong> <strong>alineamientos</strong> <strong>de</strong><br />

<strong>secuencias</strong><br />

Vistazo ................................................................................................................................... 2<br />

<strong>Introducción</strong> .......................................................................................................................... 2<br />

Conceptos importantes: ....................................................................................................... 3<br />

Alineamientos ...................................................................................................................... 3<br />

Homología vs. Similitud ....................................................................................................... 4<br />

I<strong>de</strong>ntidad.............................................................................................................................. 4<br />

Cuestionario:......................................................................................................................... 5<br />

Primera pregunta:................................................................................................................ 5<br />

Segunda pregunta: .............................................................................................................. 5<br />

Tercera pregunta: ................................................................................................................ 5<br />

Practiejemp<strong>los</strong>: ..................................................................................................................... 6<br />

1. Visualizando similitud entre <strong>secuencias</strong>........................................................................... 6<br />

Practiejemplo A - El Dotplot ............................................................................................. 6<br />

Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad ................... 7<br />

2. Tipos <strong>de</strong> <strong>alineamientos</strong>.................................................................................................. 10<br />

Practiejemplo A – Alineamientos globales ..................................................................... 10<br />

Practiejemplo B – Alineamientos locales........................................................................ 11<br />

Practiejemplo C – ¿Cómo encontrar <strong>secuencias</strong> en bases <strong>de</strong> datos mediante<br />

<strong>alineamientos</strong>?............................................................................................................... 13<br />

Practiejemplo D – Alineamientos múltiples .................................................................... 15<br />

3. Aplicaciones basadas en <strong>alineamientos</strong> ........................................................................ 17<br />

Practiejemplo A – Encontrar exones e intrones a partir <strong>de</strong> la proteína y su ADN<br />

correspondiente ............................................................................................................. 17<br />

Practiejemplo B – HomoloGene: una base <strong>de</strong> datos <strong>de</strong> genes homólogos .................... 19<br />

Ejercicios ............................................................................................................................. 21<br />

<strong>Introducción</strong>....................................................................................................................... 21<br />

Primer ejercicio.................................................................................................................. 21<br />

Segundo ejercicio .............................................................................................................. 21<br />

Tercer ejercicio .................................................................................................................. 22<br />

Cuarto ejercicio.................................................................................................................. 22<br />

Quinto ejercicio.................................................................................................................. 22<br />

Sexto ejercicio ................................................................................................................... 23<br />

Profundización .................................................................................................................... 23<br />

MUMmer............................................................................................................................ 23<br />

NCBI PopSet .....................................................................................................................24<br />

Base <strong>de</strong> datos <strong>de</strong> COGs.................................................................................................... 24<br />

1


Vistazo<br />

“Los <strong>alineamientos</strong> <strong>de</strong> <strong>secuencias</strong> <strong>de</strong> nucleótidos y proteínas serán tratados en este capítulo.<br />

Para empezar, apren<strong>de</strong>remos a encontrar patrones repetidos en una secuencia o entre un par<br />

<strong>de</strong> <strong>secuencias</strong> mediante una herramienta gráfica llamada Dotplot.<br />

Posteriormente conoceremos <strong>los</strong> diferentes tipos <strong>de</strong> <strong>alineamientos</strong> que existen (locales y<br />

globales) y veremos dos medidas <strong>de</strong> similitud entre <strong>secuencias</strong> (el “e-value” y el Score).<br />

También haremos una breve introducción a las dos herramientas <strong>de</strong> alineamiento más usadas<br />

en bioinformática: BLAST y ClustalW. La primera nos permite encontrar <strong>secuencias</strong> similares a<br />

un ‘query’ en una base <strong>de</strong> datos y la segunda nos permite realizar <strong>alineamientos</strong> múltiples y, en<br />

algunos casos, hacer inferencias evolutivas.<br />

Conoceremos un programa que hace uso <strong>de</strong> <strong>alineamientos</strong> para reconocer intrones <strong>de</strong> un gen<br />

partiendo <strong>de</strong> la secuencia <strong>de</strong> ADN y la proteína que codifica. Finalizaremos aprendiendo a usar<br />

una base <strong>de</strong> datos <strong>de</strong> <strong>secuencias</strong> homólogas en el NCBI, llamada HomoloGene.”<br />

<strong>Introducción</strong><br />

“La mera formulación <strong>de</strong> un problema es la mayoría <strong>de</strong> las veces más importante que su<br />

solución, que pue<strong>de</strong> ser simplemente una cuestión <strong>de</strong> habilidad matemática o experimental.<br />

Formular nuevas preguntas, nuevas posibilida<strong>de</strong>s, mirar problemas antiguos <strong>de</strong>s<strong>de</strong> un nuevo<br />

ángulo, requiere una imaginación creativa y marca verda<strong>de</strong>ros avances en la ciencia.”<br />

Albert Einstein<br />

La ciencia se fundamenta en la experimentación: si no hay evi<strong>de</strong>ncia empírica, no hay verdad.<br />

Se pue<strong>de</strong>n formular hipótesis, incluso con un altísimo grado <strong>de</strong> <strong>de</strong>talle, pero hasta no ser<br />

probados en el mundo real siguen siendo poco más que artificios <strong>de</strong> nuestra imaginación.<br />

La forma usual <strong>de</strong> ejecutar un experimento es cambiar o controlar <strong>los</strong> parámetros y ver qué<br />

ocurre <strong>de</strong>spués <strong>de</strong> ese control. Aquí la bioinformática juega un papel importante, proponiendo<br />

qué cambios <strong>de</strong>ben hacerse y qué variables controlar. Si bien no será tratado en este capítulo,<br />

la bioinformática está <strong>de</strong>scifrando patrones <strong>de</strong> expresión relacionados con ciertos tipos <strong>de</strong><br />

cáncer (con la ayuda <strong>de</strong> una tecnología conocida con el nombre <strong>de</strong> microarreg<strong>los</strong>). De esta<br />

forma, permite focalizar las investigaciones en estos tipos específicos <strong>de</strong> cáncer.<br />

Sin embargo, este método directo <strong>de</strong> investigación no pue<strong>de</strong> usarse en todos <strong>los</strong> casos.<br />

Darwin, autor <strong>de</strong> <strong>los</strong> fundamentos <strong>de</strong> la teoría <strong>de</strong> la evolución actual, nos sugiere una forma <strong>de</strong><br />

aproximarse a ciertos problemas, que Douglas Futuyma la resume así:<br />

“Darwin propuso una hipótesis (p.ej. selección natural), <strong>de</strong>dujo predicciones <strong>de</strong> qué<br />

<strong>de</strong>beríamos ver si fuera verda<strong>de</strong>ra o falsa, y juzgó su vali<strong>de</strong>z comparando observaciones con<br />

las predicciones. Este método hipotético-<strong>de</strong>ductivo ahora es usado ampliamente en ciencia.” [1]<br />

Es en este método hipotético-<strong>de</strong>ductivo don<strong>de</strong> el análisis bioinformático se vuelve fundamental:<br />

El es un lente a través <strong>de</strong>l cuál po<strong>de</strong>mos observar la información presente en gran<strong>de</strong>s<br />

volúmenes <strong>de</strong> datos.<br />

Tomemos un ejemplo frecuente: establecer las relaciones filogenéticas (esto es, el parentesco<br />

evolutivo) <strong>de</strong> un conjunto <strong>de</strong> especies biológicas. Partimos <strong>de</strong> la hipótesis (fundamentada por<br />

autores anteriores), que si dos especies son cercanas filogenéticamente, entonces <strong>de</strong>ben tener<br />

una secuencia <strong>de</strong> ADN similar.<br />

A partir <strong>de</strong> esta hipótesis nos preguntamos: ¿qué <strong>de</strong>beríamos observar si las especies <strong>de</strong><br />

verdad están relacionadas? Concluimos que, si seleccionamos segmentos a<strong>de</strong>cuados <strong>de</strong> ADN<br />

2


<strong>de</strong> las dos especies y <strong>los</strong> secuenciamos (o extraemos esta información <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong><br />

<strong>secuencias</strong> biológicas como GenBank), <strong>de</strong>bemos observar similitud entre las <strong>secuencias</strong>.<br />

Surge entonces la pregunta: ¿Cómo observamos que dos <strong>secuencias</strong> son similares?<br />

Los <strong>alineamientos</strong>, que son el tema <strong>de</strong> este capítulo, nos proporcionan una primera respuesta.<br />

Un alineamiento es “[...] la i<strong>de</strong>ntificación <strong>de</strong> correspon<strong>de</strong>ncias residuo-residuo. Cualquier<br />

asignación <strong>de</strong> correspon<strong>de</strong>ncias que preserve el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos <strong>de</strong>ntro <strong>de</strong> las<br />

<strong>secuencias</strong> es un alineamiento.” [2]<br />

Si <strong>los</strong> residuos <strong>de</strong> una secuencia tienen un alto grado <strong>de</strong> correspon<strong>de</strong>ncia con residuos <strong>de</strong> la<br />

otra secuencia, son similares y por tanto su cercanía evolutiva es probable.<br />

Hacer estas comparaciones a mano es dispendioso y poco práctico. Afortunadamente, el<br />

<strong>de</strong>sarrollo <strong>de</strong> <strong>los</strong> computadores – <strong>de</strong> manera indirecta – ha traído consigo la solución a este<br />

problema: La búsqueda en Internet, por ejemplo usando Google, requiere encontrar ca<strong>de</strong>nas<br />

<strong>de</strong> texto similares al término <strong>de</strong> interés y ya se han <strong>de</strong>sarrollado métodos <strong>de</strong> computador que<br />

permiten visualizar (gráficamente o por medio <strong>de</strong> la estadística) la similitud entre dos ca<strong>de</strong>nas<br />

<strong>de</strong> texto. Dado que el ADN se pue<strong>de</strong> escribir como una ca<strong>de</strong>na <strong>de</strong> texto en un alfabeto <strong>de</strong><br />

cuatro letras y las proteínas se pue<strong>de</strong>n codificar usando un alfabeto <strong>de</strong> 20 letras, es posible<br />

usar las mismas herramientas que han <strong>de</strong>sarrollado <strong>los</strong> ingenieros <strong>de</strong> sistemas y <strong>los</strong><br />

matemáticos, para fines biológicos.<br />

Este capítulo muestra varios métodos <strong>de</strong> alineamiento disponibles en línea y algunas<br />

aplicaciones comunes <strong>de</strong> éstos en la bioinformática. Saber escoger el método se vuelve <strong>de</strong><br />

suma importancia, pues cada uno parte <strong>de</strong> supuestos diferentes. Esto será <strong>de</strong>scrito con más<br />

<strong>de</strong>talle en la introducción <strong>de</strong>l siguiente capítulo. Por ahora basta recordar que si nuestros<br />

métodos son erróneos, nuestras conclusiones también lo son.<br />

[1] Futuyma, D., “Evolutionary Biology”, Tercera edición, Sinnauer Associates Inc., 1998, pág.<br />

30<br />

[2] Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161<br />

Conceptos importantes:<br />

Alineamientos<br />

“[...] la i<strong>de</strong>ntificación <strong>de</strong> correspon<strong>de</strong>ncias residuo-residuo. Cualquier asignación <strong>de</strong><br />

correspon<strong>de</strong>ncias que preserve el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos <strong>de</strong>ntro <strong>de</strong> las <strong>secuencias</strong> es un<br />

alineamiento.”<br />

Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161<br />

En términos coloquiales, alinear dos <strong>secuencias</strong> es poner una junto a la otra <strong>de</strong> forma que se<br />

resalten las diferencias y similitu<strong>de</strong>s, pero sin cambiar el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos.<br />

Hay varias maneras <strong>de</strong> hacer esto, aunque unas se prestan más a análisis que otras. Si<br />

queremos saber cuál <strong>de</strong> las dos <strong>secuencias</strong> es más larga, po<strong>de</strong>mos simplemente alinear el<br />

primer residuo <strong>de</strong> la primera ca<strong>de</strong>na con el primer residuo <strong>de</strong> la segunda y así sucesivamente<br />

para todos <strong>los</strong> residuos. El resultado es algo más o menos así:<br />

ESTOESUN<br />

ALINEAMIENTO<br />

De aquí se concluye rápidamente que la primera secuencia es más corta que la segunda.<br />

Sin embargo, usualmente nos interesa más saber si dos <strong>secuencias</strong> tienen sub<strong>secuencias</strong><br />

iguales en el mismo or<strong>de</strong>n. Por ejemplo, las palabras incrementado y cemento son muy<br />

similares en este sentido:<br />

3


I N C R E M E N T A D O<br />

- - C – E M E N T - - O<br />

De aquí concluímos que ambas comparten la subsecuencia “EMENT” y que las otras letras <strong>de</strong><br />

la palabra “cemento” (específicamente la “c” y la “o”) aparecen en el mismo or<strong>de</strong>n en<br />

“incrementado”.<br />

Otra forma <strong>de</strong> alinear estas dos <strong>secuencias</strong> sería:<br />

I N C R E M E N T A D O -<br />

- C – E - - - - M E N T O<br />

Sin embargo, este alineamiento no me permitiría ver la similitud que tienen las dos <strong>secuencias</strong>.<br />

Por tanto, nuestros análisis <strong>de</strong>pen<strong>de</strong>rán <strong>de</strong> la calidad <strong>de</strong>l alineamiento.<br />

Homología vs. Similitud<br />

“Similitud es la observación o medición <strong>de</strong> parecido y diferencia, in<strong>de</strong>pendiente <strong>de</strong>l<br />

origen <strong>de</strong> ese parecido. Homología significa, específicamente, que las <strong>secuencias</strong> y <strong>los</strong><br />

organismos en <strong>los</strong> que están presentes, <strong>de</strong>scien<strong>de</strong>n <strong>de</strong> un ancestro común [...]”<br />

Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 27<br />

En sentido estricto, la homología se refiere únicamente a un origen común entre dos<br />

caracteres. Por tanto, dos <strong>secuencias</strong> son homólogas o no homólogas y no hay ninguna<br />

gradación intermedia. Una situación similar <strong>de</strong>l mundo real es el embarazo: una mujer no<br />

pue<strong>de</strong> estar 50% embarazada: o está o no está, o no se sabe.<br />

Similitud, en cambio, es una medida <strong>de</strong>l parecido entre dos <strong>secuencias</strong> que pue<strong>de</strong> cuantificarse<br />

(por ejemplo, mediante el porcentaje <strong>de</strong> i<strong>de</strong>ntidad).<br />

Si bien no se ha adoptado consistentemente esta diferencia <strong>de</strong> términos en la literatura<br />

científica (algunos autores siguen usando la palabra homología cuando se refieren a similitud),<br />

es conveniente hacerla. Dos <strong>secuencias</strong> pue<strong>de</strong>n ser muy similares y sin embargo no ser<br />

homólogas (así como las alas <strong>de</strong> un murciélago y <strong>de</strong> una mariposa parecen iguales, pero no<br />

hay un ancestro común entre las mariposas y <strong>los</strong> murciélagos que tenga alas). De la misma<br />

manera, dos <strong>secuencias</strong> homólogas pue<strong>de</strong>n haber divergido mucho en la historia evolutiva,<br />

haciéndolas poco similares.<br />

Debido a que se ha usado la palabra homología en el contexto <strong>de</strong> similitud en muchas<br />

publicaciones, algunos autores han optado por usar <strong>los</strong> términos “ortólogas” y “parálogas” al<br />

referirse a <strong>secuencias</strong> con origen evolutivo común, que son más específicos. Dos <strong>secuencias</strong><br />

son ortólogas si fueron adquiridas por <strong>de</strong>scen<strong>de</strong>ncia vertical (por ejemplo, <strong>de</strong> madre a hijo) y<br />

son parálogas si están presentes en más <strong>de</strong> una copia en el mismo organismo y tuvieron el<br />

mismo origen (por ejemplo <strong>los</strong> genes y sus respectivos pseudogenes).<br />

I<strong>de</strong>ntidad<br />

“I<strong>de</strong>ntidad: [...] Cualidad <strong>de</strong> idéntico.”<br />

Diccionario <strong>de</strong> la Real Aca<strong>de</strong>mia <strong>de</strong> la Lengua Española<br />

Dos <strong>secuencias</strong> son idénticas si son iguales residuo a residuo. Sin embargo, para <strong>secuencias</strong><br />

que no son idénticas es útil tener una medida <strong>de</strong> qué tanto se alejan <strong>de</strong> serlo.<br />

Para esto se hace un alineamiento entre las dos <strong>secuencias</strong>, se cuenta el número <strong>de</strong> residuos<br />

que son idénticos y se divi<strong>de</strong> por la longitud <strong>de</strong>l alineamiento. Esto da el porcentaje <strong>de</strong><br />

i<strong>de</strong>ntidad.<br />

4


Por ejemplo, un alineamiento don<strong>de</strong> dos <strong>secuencias</strong> tienen la mitad <strong>de</strong> <strong>los</strong> residuos idénticos<br />

alineados uno con el otro (como el siguiente):<br />

HOLA<br />

BOTA<br />

Tiene un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 50%.<br />

Cuestionario:<br />

Primera pregunta:<br />

¿Cuál <strong>de</strong> <strong>los</strong> siguientes necesariamente es un par <strong>de</strong> características homólogas?<br />

a) Dos <strong>secuencias</strong> que alineadas tienen una i<strong>de</strong>ntidad <strong>de</strong>l 100%<br />

b) El cromosoma Y <strong>de</strong> dos hermanos (varones) <strong>de</strong>l mismo padre<br />

c) Dos proteínas que cumplen exactamente la misma función celular en dos organismos<br />

diferentes<br />

Respuesta:<br />

La respuesta correcta es la b), ya que un padre sólo tiene una copia <strong>de</strong> su cromosoma Y en<br />

cada célula y hereda este cromosoma a todos sus hijos varones. Los dos cromosomas Y, por<br />

tanto tienen un inmediato ancestro común.<br />

El hecho que dos <strong>secuencias</strong> sean idénticas no las hace automáticamente homólogas (aunque<br />

lo hace muy probable). Los telómeros son extremos <strong>de</strong> <strong>los</strong> cromosomas que se van acortando<br />

en cada replicación celular. Existe una enzima llamada telomerasa que <strong>los</strong> alarga, con una<br />

secuencia específica. Esta secuencia <strong>de</strong> ADN es idéntica en todos <strong>los</strong> humanos, sin embargo<br />

no es homóloga entre dos personas, pues es una repetición no presente en el ancestro común<br />

entre el<strong>los</strong>.<br />

De la misma forma se pue<strong>de</strong>n nombrar proteínas que cumplen la misma función en organismos<br />

distintos, y no son homólogas.<br />

Segunda pregunta:<br />

¿Cuál <strong>de</strong> <strong>los</strong> siguientes pares <strong>de</strong> palabras presenta mayor i<strong>de</strong>ntidad al alinearse?<br />

a) CALIBRE – COLIBRI<br />

b) MATERIA – LIBERIA<br />

c) COLEGIO – CARTERA<br />

d) GUANTES – DIENTES<br />

Respuesta:<br />

La respuesta correcta es la a), pues tienen un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 71% (=5 residuos<br />

compartidos dividido por 7 residuos en total).<br />

Tercera pregunta:<br />

Verda<strong>de</strong>ro o Falso:<br />

¿Or<strong>de</strong>nar alfabéticamente <strong>los</strong> residuos <strong>de</strong> cada secuencia y juntar <strong>los</strong> residuos iguales en cada<br />

una es un alineamiento?<br />

5


Ejemplo: ALFABETO y FABRICA<br />

A A B - E F - L O T - (ALFABETO)<br />

A A B C – F I - - - R (FABRICA)<br />

Respuesta:<br />

Falso. El or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos en cada secuencia <strong>de</strong>be preservarse y en este caso, al or<strong>de</strong>nar<br />

alfabéticamente, esto no ocurre.<br />

La primera B <strong>de</strong> fábrica, por ejemplo, está antes <strong>de</strong> la F y <strong>de</strong>spués <strong>de</strong> la segunda A en el<br />

alineamiento, cuando el or<strong>de</strong>n correcto es FaBricA.<br />

Practiejemp<strong>los</strong>:<br />

1. Visualizando similitud entre <strong>secuencias</strong><br />

Practiejemplo A - El Dotplot<br />

El alineamiento <strong>de</strong> <strong>secuencias</strong> es la herramienta más importante <strong>de</strong> la bioinformática<br />

actualmente. Para empezar a enten<strong>de</strong>r porqué conviene realizar <strong>alineamientos</strong>, empecemos<br />

explorando una herramienta para visualizar el parecido entre dos <strong>secuencias</strong>: el Dotplot.<br />

1. Ingrese a la siguiente página Web, que contiene un pequeño tutorial acerca <strong>de</strong>l Dotplot:<br />

http://imagebeat.com/dotplot/<br />

Si bien no está pensada para explicar las aplicaciones biológicas <strong>de</strong> un Dotplot, sirve<br />

para ilustrar el concepto.<br />

2. Haga clic en el vínculo “Overview” que se encuentra en la parte inferior <strong>de</strong> la página.<br />

Esto lo lleva a la <strong>de</strong>scripción <strong>de</strong> qué es un Dotplot.<br />

3. Como notará, es una forma <strong>de</strong> representar la similitud entre dos <strong>secuencias</strong> <strong>de</strong> texto<br />

mediante tablas. En el ejemplo con el texto “to be or not to be” la tabla tiene un punto<br />

en todas las celdas (esto es, cruces entre fila y columna) en don<strong>de</strong> la palabra en la fila<br />

y la columna es la misma.<br />

Naturalmente, todas las celdas en la diagonal principal <strong>de</strong> la tabla tendrán un punto.<br />

Pero lo interesante es ver lo que ocurre por fuera <strong>de</strong> la diagonal o cuando tenemos una<br />

secuencia en or<strong>de</strong>n vertical y otra diferente en or<strong>de</strong>n horizontal.<br />

4. Haga clic en el vínculo “interpretation” <strong>de</strong> la parte inferior. Esta página resume algunos<br />

patrones comunes que se pue<strong>de</strong>n visualizar.<br />

5. Note, por ejemplo, cómo i<strong>de</strong>ntificar si una sub-secuencia está repetida <strong>de</strong>ntro <strong>de</strong> la<br />

secuencia completa (el ejemplo <strong>de</strong> abc<strong>de</strong>fghiabc<strong>de</strong>fghi). La sub-secuencia que se<br />

repite aparece como un par <strong>de</strong> líneas paralelas a la diagonal principal.<br />

6. También existe la posibilidad <strong>de</strong> encontrar inserciones en una <strong>de</strong> las sub-<strong>secuencias</strong><br />

que se repiten. En lugar <strong>de</strong> tener una línea continua (paralela a la diagonal principal),<br />

se tiene una línea fragmentada – como si hubieran cortado y movido un pedazo <strong>de</strong> la<br />

línea original.<br />

7. Estudie también la forma <strong>de</strong> visualizar reor<strong>de</strong>namientos. ¿Cómo <strong>de</strong>scribiría este<br />

patrón?<br />

6


8. Otro aspecto a resaltar son <strong>los</strong> cuadrados. No se necesita tener una secuencia con<br />

repetición consecutiva <strong>de</strong> una sola letra (por ejemplo aaaaaaaaaa) para obtener un<br />

patrón en forma <strong>de</strong> cuadrado. Mire el dibujo <strong>de</strong> la izquierda que está junto al título<br />

“Shuffling”. Como notará, <strong>los</strong> cuadrados permiten reconocer letras que están sobrerepresentadas<br />

en una muestra, sin importar si son consecutivas o no.<br />

9. Ahora vuelva a la página principal haciendo clic en “dotplot”. Des<strong>de</strong> ahí haga clic en el<br />

vínculo “try a simplified perl version of dotplot”.<br />

10. Ingrese la frase “LAS CATARATAS DEL NIAGARA” en la casilla <strong>de</strong> texto, y haga clic<br />

en el botón “build dotplot!”. Notará que hay zonas con más <strong>de</strong>nsidad <strong>de</strong> puntos y zonas<br />

con menos <strong>de</strong>nsidad. Esto se <strong>de</strong>be a que en las zonas <strong>de</strong> más intensidad está más<br />

representada la letra “A” que en las otras.<br />

Ejercicio:<br />

Ahora imagine que en lugar <strong>de</strong>l texto “LAS CATARATAS DEL NIAGARA” tenemos la<br />

secuencia “corriente arriba” <strong>de</strong> un gen. Si hay una región en don<strong>de</strong> las letras A y T<br />

están sobre-representadas, podríamos empezar a sospechar <strong>de</strong> la existencia <strong>de</strong> cajas<br />

TATA: una primera aplicación biológica <strong>de</strong>l dotplot.<br />

¿Qué es la secuencia corriente arriba <strong>de</strong> un gen y la caja TATA?<br />

Los genes tienen un inicio <strong>de</strong> transcripción que es el lugar en el ADN don<strong>de</strong><br />

empieza a sintetizarse el primer nucleótido <strong>de</strong>l mRNA. Todo el ADN que está<br />

antes <strong>de</strong>l inicio <strong>de</strong> transcripción se conoce como la región corriente arriba <strong>de</strong>l<br />

gen.<br />

En <strong>los</strong> eucariontes (organismos con sistema <strong>de</strong> membranas internos, es <strong>de</strong>cir,<br />

no bacterias ni arqueobacterias) hay un región conocida como la caja TATA<br />

(llamada así por la sobre-representación <strong>de</strong> <strong>los</strong> nucleótidos A<strong>de</strong>nina y Timina),<br />

que facilita la transcripción <strong>de</strong>l gen. Si en lugar <strong>de</strong> Timina y A<strong>de</strong>nina tenemos<br />

otros nucleótidos en esta parte especial <strong>de</strong> la secuencia, la cantidad <strong>de</strong> mRNA<br />

que se sintetizará será menor.<br />

Ingrese la palabra “RECONOCER” <strong>de</strong>ntro <strong>de</strong> la casilla <strong>de</strong> texto y presione “build dotplot!”. ¿Qué<br />

logra reconocer acerca <strong>de</strong> esta palabra mirando el patrón? ¿Qué relación guarda con las<br />

<strong>secuencias</strong> <strong>de</strong> reconocimiento <strong>de</strong> una enzima <strong>de</strong> restricción?<br />

Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad<br />

Uno <strong>de</strong> <strong>los</strong> inconvenientes <strong>de</strong>l Dotplot a la hora <strong>de</strong> analizar dos <strong>secuencias</strong> <strong>de</strong> ADN es que<br />

éste se compone únicamente <strong>de</strong> cuatro letras: A, T, G, C. Esto hace que el número <strong>de</strong><br />

coinci<strong>de</strong>ncias sea muy alto. Para arreglar este problema se ha creado Dotlet. En esencia es un<br />

Dotplot, pero permite graduar la selectividad/sensibilidad <strong>de</strong> nuestra vista para mostrar u<br />

ocultar patrones específicos.<br />

En este ejemplo apren<strong>de</strong>remos a cargar y visualizar una secuencia en Dotlet.<br />

1. Haga clic en el siguiente vínculo para ir a la página <strong>de</strong> Dotlet.<br />

http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html<br />

Necesita tener instalada en su computador la máquina virtual <strong>de</strong> Java para po<strong>de</strong>r usar<br />

Dotlet. Si no tiene Java instalado, pue<strong>de</strong> <strong>de</strong>scargarlo aquí:<br />

http://www.java.com/es/<br />

7


2. Vamos a dar <strong>los</strong> primeros pasos en la visualización. Para enten<strong>de</strong>r<strong>los</strong> mejor pue<strong>de</strong><br />

visitar la página <strong>de</strong> ayuda (haciendo clic en el vínculo “need help?”).<br />

3. Todo inicia con la barra <strong>de</strong> menú <strong>de</strong> Dotlet. Si no ha introducido ninguna secuencia<br />

aún, el único botón activo es “input”. Presione este botón.<br />

4. Aparece una ventana don<strong>de</strong> <strong>de</strong>be pegar su secuencia. Haga clic en el siguiente vínculo<br />

para abrir la ventana que contiene la secuencia que va a pegar ahí:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Dotlet01.txt<br />

Póngale el nombre Dotlet01. Cuando haya pegado la secuencia e ingresado el nombre<br />

haga clic en OK.<br />

Esta secuencia correspon<strong>de</strong> a una proteína <strong>de</strong> Drosophila melanogaster que tiene<br />

repetición <strong>de</strong> dominios.<br />

5. Note que <strong>los</strong> menús <strong>de</strong>splegables ahora están habilitados. En nuestro caso, <strong>los</strong><br />

primeros dos no son <strong>de</strong> mucha utilidad, pues sólo hemos ingresado una secuencia. Si<br />

requiere alinear dos <strong>secuencias</strong> diferentes una contra la otra (por ejemplo, un mRNA<br />

con su ADN respectivo), <strong>de</strong>be ingresarlas una tras otra presionando el botón input y<br />

luego seleccionar <strong>de</strong> estos menús las <strong>secuencias</strong> a comparar.<br />

El menú <strong>de</strong>splegable tres presenta diferentes opciones: I<strong>de</strong>ntity, B<strong>los</strong>um, PAM, Gonnet.<br />

Por ahora nos quedaremos con la opción “I<strong>de</strong>ntity” que, como el nombre lo indica, pone<br />

un punto en la tabla sólo si <strong>los</strong> residuos <strong>de</strong> la fila y la columna son idénticos. Las<br />

matrices B<strong>los</strong>um y PAM serán estudiadas en el capítulo 6 y no entraremos en <strong>de</strong>talles<br />

<strong>de</strong> ellas aquí.<br />

El siguiente menú <strong>de</strong>splegable es el primer nivel <strong>de</strong> filtrado <strong>de</strong>l que disponemos y se<br />

llama tamaño <strong>de</strong> ventana.<br />

¿Qué es el tamaño <strong>de</strong> ventana?<br />

La ventana es una <strong>de</strong> las características que diferencia al Dotlet <strong>de</strong>l Dotplot,<br />

que aumenta la astringencia (selectividad).<br />

Recor<strong>de</strong>mos que en el Dotplot se dibuja un punto don<strong>de</strong> coinci<strong>de</strong>n <strong>los</strong> residuos<br />

<strong>de</strong> ambas ca<strong>de</strong>nas. Esto genera un patrón muy difícil <strong>de</strong> leer si las<br />

coinci<strong>de</strong>ncias son frecuentes.<br />

El Dotlet en cambio, no compara residuo a residuo sino en grupos <strong>de</strong> n<br />

residuos contra n residuos, don<strong>de</strong> n es el tamaño <strong>de</strong> ventana.<br />

Si <strong>los</strong> n residuos son iguales, dibuja un punto negro. Si ningún residuo está<br />

compartido, dibuja un punto blanco. Si la cantidad <strong>de</strong> residuos está entre 0 y n-<br />

1, dibuja un punto gris, cuya intensidad <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s.<br />

Si, por ejemplo, tenemos una ventana <strong>de</strong> 3 residuos y tenemos como palabras:<br />

ABCDEFGH<br />

JKCDEFGM<br />

Se dibujará un punto negro en el cruce entre las dos “D”, las dos “E” y las dos<br />

“F”, ya que sus dos residuos vecinos también coinci<strong>de</strong>n. A<strong>de</strong>más, se dibujarán<br />

puntos grises en la intersección <strong>de</strong> las letras “C” y “G”, pues si bien coinci<strong>de</strong>n,<br />

no están en un grupo <strong>de</strong> 3 residuos consecutivos.<br />

Por el momento <strong>de</strong>jemos ese parámetro en 15.<br />

8


El último menú <strong>de</strong>splegable permite graduar el Zoom. Para este ejemplo particular,<br />

escojamos un Zoom <strong>de</strong> 1:5.<br />

6. Al hacer clic en “compute” se genera nuestra representación gráfica. Es evi<strong>de</strong>nte la<br />

línea blanca en la diagonal principal, que es la misma que vimos en todos <strong>los</strong> Dotplot<br />

<strong>de</strong>l ejemplo pasado. Sin embargo, las otras líneas se ven difusas.<br />

Para mejorar esto usemos <strong>los</strong> controles que están a la <strong>de</strong>recha <strong>de</strong>l gráfico. En ella, se<br />

ve un histograma en la parte central, y dos barras <strong>de</strong> <strong>de</strong>slizamiento: una arriba y otra<br />

abajo. Ajuste la barra <strong>de</strong> <strong>de</strong>slizamiento superior moviéndola totalmente a la izquierda y<br />

la barra <strong>de</strong> <strong>de</strong>splazamiento inferior completamente a la <strong>de</strong>recha. Hasta ahora sólo<br />

cambió el color, <strong>de</strong> forma que lo que era blanco ahora es negro y viceversa.<br />

Luego, mueva poco a poco las barras <strong>de</strong> <strong>de</strong>splazamiento hacia el centro, y note que<br />

mientras lo hace van <strong>de</strong>sapareciendo las líneas más claras y resaltándose las más<br />

oscuras.<br />

Con algo <strong>de</strong> práctica, la imagen se parecerá a la que se encuentra en la siguiente<br />

página Web:<br />

http://www.isrec.isb-sib.ch/java/dotlet/repeats.html<br />

Lea el texto que aparece en esta página. ¿Nota como se pue<strong>de</strong>n distinguir dominios<br />

repetidos en una proteína mediante Dotlet?<br />

7. En la parte inferior <strong>de</strong> la página <strong>de</strong>l Dotlet está el alineamiento entre <strong>los</strong> residuos. Si<br />

hace clic (con suficiente precisión) sobre una <strong>de</strong> las líneas oscuras, verá en la parte<br />

inferior cuáles residuos son idénticos alre<strong>de</strong>dor <strong>de</strong> esa fila-columa particular.<br />

Pruebe lo siguiente: haga clic cerca <strong>de</strong> la diagonal principal y presione las flechas en el<br />

teclado hasta estar seguro que el cursor se encuentra sobre ésta. ¿Ve como todos <strong>los</strong><br />

residuos se alinean unos con otros, resaltados en azul? Ahora presione alguna <strong>de</strong> las<br />

flechas <strong>de</strong>l teclado, para tener como referencia un alineamiento corrido en un residuo.<br />

¿Nota la diferencia en la cantidad <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s?<br />

En este ejemplo logró i<strong>de</strong>ntificar dominios repetidos en una proteína usando únicamente la<br />

secuencia. Note la diferencia que supone esto con analizar la estructura tridimensional <strong>de</strong> la<br />

molécula mediante cristalografía <strong>de</strong> rayos X, que es un procedimiento largo y complicado.<br />

Sin embargo, no sobra recalcar que mediante Dotlet sólo po<strong>de</strong>mos plantear la hipótesis <strong>de</strong> que<br />

hay dominios repetidos. Para comprobarlo es necesario un experimento, como <strong>de</strong>terminar la<br />

estructura tridimensional.<br />

Dos conceptos que vimos en el capítulo 1 adquieren aquí especial importancia: selectividad y<br />

sensibilidad. Para po<strong>de</strong>r resaltar las características <strong>de</strong> la molécula <strong>de</strong>bemos ocultar<br />

selectivamente el ruido, pero ser suficientemente sensibles para ver más que sólo la i<strong>de</strong>ntidad<br />

<strong>de</strong> la diagonal principal.<br />

Ejercicio:<br />

Repita el ejercicio, esta vez con las <strong>secuencias</strong> que se encuentran en la página:<br />

http://www.isrec.isb-sib.ch/java/dotlet/exonintron.html<br />

Requiere presionar el botón “input” dos veces, para po<strong>de</strong>r ingresar las dos <strong>secuencias</strong>. Debe<br />

po<strong>de</strong>r ver la imagen <strong>de</strong> forma casi idéntica a la <strong>de</strong>l ejemplo.<br />

9


2. Tipos <strong>de</strong> <strong>alineamientos</strong><br />

Practiejemplo A – Alineamientos globales<br />

El Dotplot es una herramienta sumamente útil para visualizar patrones generales entre dos<br />

<strong>secuencias</strong> o una secuencia consigo misma. Sin embargo, es poco práctico si lo que se quiere<br />

es <strong>de</strong>terminar qué aminoácidos específicos están compartidos en las dos <strong>secuencias</strong>.<br />

En este caso, lo más conveniente es alinear las dos <strong>secuencias</strong> y comparar <strong>los</strong> cambios<br />

residuo a residuo. En este capítulo veremos la primera <strong>de</strong> estas herramientas: LAlign. Veremos<br />

que hay varias formas <strong>de</strong> “poner una secuencia junto a la otra”, cada una más o menos útil<br />

<strong>de</strong>pendiendo <strong>de</strong>l problema que estudiemos.<br />

Vamos a empezar con el siguiente ejemplo:<br />

Suponga que se tienen dos <strong>secuencias</strong> que usted sabe que son homólogas, pero que han<br />

cambiado mucho entre sí <strong>de</strong>bido a mutaciones. ¿Cómo i<strong>de</strong>ntifica las mutaciones que<br />

ocurrieron?<br />

Para simular esto, tenemos la secuencia <strong>de</strong> la ca<strong>de</strong>na beta <strong>de</strong> la hemoglobina original y una<br />

ca<strong>de</strong>na a la que he añadido algunas mutaciones:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign01.txt<br />

Vamos a explorar la forma <strong>de</strong> encontrar las mutaciones.<br />

1. Empiece en la página <strong>de</strong> LAlign haciendo clic en:<br />

http://www.ch.embnet.org/software/LALIGN_form.html<br />

2. Des<strong>de</strong> ahí seleccione la opción “global” que nos permite alinear la totalidad <strong>de</strong> las dos<br />

<strong>secuencias</strong>.<br />

3. Por el momento no cambie más parámetros. Sólo ingrese las <strong>secuencias</strong> en <strong>los</strong><br />

recuadros correspondientes (ingréselas sin la línea inicial <strong>de</strong> <strong>de</strong>scripción) y póngales<br />

nombre, como por ejemplo “Silvestre” y “Mutante”.<br />

Luego haga clic en “Run LAlign” para realizar el alineamiento.<br />

Resaltando conceptos: Alineamiento<br />

El resultado que aparece tras hacer clic en “Run LAlign” es un alineamiento<br />

entre las <strong>secuencias</strong>.<br />

En este caso contamos con el mejor alineamiento que se pue<strong>de</strong> realizar entre<br />

las dos <strong>secuencias</strong> <strong>de</strong> forma que estén representados todos <strong>los</strong> residuos <strong>de</strong><br />

cada una (<strong>de</strong> ahí el término “global”).<br />

4. La página que aparece empieza con un resumen <strong>de</strong>l alineamiento, mostrando el<br />

número <strong>de</strong> aminoácidos <strong>de</strong> cada secuencia junto con el porcentaje <strong>de</strong> i<strong>de</strong>ntidad en el<br />

alineamiento. En este caso es <strong>de</strong>l 85%.<br />

Debajo aparece el alineamiento. Si dos residuos son idénticos, hay dos puntos que las<br />

unen. A<strong>de</strong>más, si hay un aminoácido que no tiene contraparte en la otra ca<strong>de</strong>na (que<br />

es el caso cuando hay inserciones o <strong>de</strong>leciones) aparece un guión llamado gap.<br />

¿Cuantas mutaciones puntuales hay? ¿Cuántas inserciones y <strong>de</strong>leciones? ¿De qué<br />

tamaño son estas inserciones?<br />

10


Resaltando conceptos: I<strong>de</strong>ntidad<br />

Si cuenta <strong>los</strong> aminoácidos que están alineados idénticamente, notará que son<br />

130. Dividiendo este valor por la longitud <strong>de</strong>l alineamiento, que es 153 (147<br />

aminoácidos + 6 gaps) obtiene 0,8497 ó 85%. Es exactamente el valor <strong>de</strong><br />

i<strong>de</strong>ntidad que aparece en el resumen.<br />

5. A<strong>de</strong>más <strong>de</strong> <strong>los</strong> aminoácidos alineados idénticamente, algunos aminoácidos están<br />

conectados con un punto, por ejemplo el aminoácido 11 <strong>de</strong> la ca<strong>de</strong>na silvestre (A –<br />

Alanina) y el aminoácido 10 <strong>de</strong> la ca<strong>de</strong>na mutante (V – Valina). Esto ocurre, porque la<br />

Alanina y la Valina tienen propieda<strong>de</strong>s fisicoquímicas similares. Ambos son<br />

aminoácidos alifáticos pequeños. Un cambio <strong>de</strong> este estilo en una proteína<br />

probablemente no afectará mucho la función, a no ser que ocurra en el sitio activo.<br />

En cambio, el aminoácido 135 <strong>de</strong> la ca<strong>de</strong>na silvestre (V - Valina) y el aminoácido 134<br />

<strong>de</strong> la ca<strong>de</strong>na mutante (K – Lisina) tienen propieda<strong>de</strong>s muy diferentes. El primero es<br />

pequeño y alifático y el segundo es relativamente gran<strong>de</strong> y cargado positivamente.<br />

Debido a esta diferencia no hay ningún símbolo entre estos aminoácidos.<br />

El punto es mostrar que la representación gráfica <strong>de</strong>l alineamiento (con dos puntos<br />

entre i<strong>de</strong>ntida<strong>de</strong>s y un punto entre aminoácidos con propieda<strong>de</strong>s similares) es una<br />

fuente <strong>de</strong> información adicional.<br />

En este ejercicio se aprendió a hacer <strong>alineamientos</strong> globales y a conocer <strong>los</strong> gaps. Los<br />

<strong>alineamientos</strong> globales son especialmente útiles a la hora <strong>de</strong> comparar dos genes en toda su<br />

longitud o al momento <strong>de</strong> establecer sobrelapamientos (ver el ejercicio para un caso <strong>de</strong> este<br />

estilo). Sin embargo, cuando <strong>de</strong>bemos suponer que sólo algunas regiones están conservadas<br />

es mejor usar otro método <strong>de</strong> alineamiento, que es el tema <strong>de</strong>l siguiente practiejemplo.<br />

Ejercicio:<br />

En el siguiente vínculo encontrará dos <strong>secuencias</strong>: Una <strong>de</strong> un mRNA y la otra <strong>de</strong> la región <strong>de</strong><br />

DNA correspondiente:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign02.txt<br />

¿Cuántos intrones (<strong>secuencias</strong> presentes en el ADN pero no en el mRNA) hay? ¿Cuál es la<br />

longitud en pares <strong>de</strong> bases <strong>de</strong>l primer intrón?<br />

Practiejemplo B – Alineamientos locales<br />

En el ejemplo se introdujeron mutaciones en la proteína <strong>de</strong> manera indiscriminada. Sin<br />

embargo, en la naturaleza esto no suele ser así. Las mutaciones tien<strong>de</strong>n a acumularse más<br />

difícilmente en zonas cercanas al sitio activo <strong>de</strong> la proteína, pues las mutaciones en este sitio<br />

suelen afectar su función y por tanto a ser excluidas <strong>de</strong> la población por selección natural.<br />

Alinear globalmente nos permitiría <strong>de</strong>tectar que hay cambios en las dos <strong>secuencias</strong>, pero no<br />

nos permitiría resaltar aquellas regiones que tienen alta conservación, in<strong>de</strong>pendientemente <strong>de</strong><br />

la secuencia que las ro<strong>de</strong>a. Es posible que al alinear globalmente nuestras dos <strong>secuencias</strong><br />

hallemos regiones conservadas, pero al alinear globalmente <strong>de</strong>bemos preservar el or<strong>de</strong>n <strong>de</strong><br />

nuestras <strong>secuencias</strong> y esto pue<strong>de</strong> ocultarnos información.<br />

Alinear localmente en cambio, nos permite encontrar sub-<strong>secuencias</strong> que tienen alta<br />

similitud. Veamos un ejemplo don<strong>de</strong> es más conveniente hacer <strong>alineamientos</strong> locales.<br />

1. Inicie en el formulario principal <strong>de</strong> LAlign:<br />

http://www.ch.embnet.org/software/LALIGN_form.html<br />

11


2. Des<strong>de</strong> ahí, seleccione inicialmente la opción “global” e inserte las siguientes<br />

<strong>secuencias</strong> en las casillas <strong>de</strong> texto respectivas:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign03.txt<br />

Luego haga clic en “Run lalign”<br />

3. Notará que las <strong>secuencias</strong> (alineadas globalmente) son mo<strong>de</strong>radamente similares.<br />

Tienen un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 33.3% y son especialmente conservadas en <strong>los</strong><br />

extremos. Parecería que la región <strong>de</strong>l medio no contiene i<strong>de</strong>ntida<strong>de</strong>s interesantes.<br />

4. Ahora vuelva al formulario haciendo clic en el botón “atrás” <strong>de</strong> su navegador y<br />

seleccione la opción “local (<strong>de</strong>fault)”. Vuelva a hacer clic sobre el botón “Run lalign”.<br />

5. Contrario a lo que concluimos en el alineamiento global, hay zonas con alto grado <strong>de</strong><br />

i<strong>de</strong>ntidad. Hay una sub-secuencia con un 95% <strong>de</strong> i<strong>de</strong>ntidad extendida por 40<br />

aminoácidos, así como hay una sub-secuencia con un 100% <strong>de</strong> i<strong>de</strong>ntidad con 37<br />

aminoácidos <strong>de</strong> longitud.<br />

Tómese su tiempo<br />

Pue<strong>de</strong> verificar esta afirmación en Dotlet. Hágalo (usando un tamaño <strong>de</strong><br />

ventana gran<strong>de</strong> y seleccionando la matriz “i<strong>de</strong>ntity”) y note que lo que ha<br />

ocurrido es un rearreglo <strong>de</strong> la secuencia:<br />

En el Dotlet hay dos líneas paralelas. Una está en la parte inferior izquierda y la<br />

otra está en la parte superior <strong>de</strong>recha. Si usted posiciona el cursor sobre<br />

cualquiera <strong>de</strong> estas líneas notará en la parte inferior <strong>de</strong> la página (don<strong>de</strong> están<br />

las <strong>secuencias</strong>) las regiones <strong>de</strong> las <strong>secuencias</strong> que son idénticas.<br />

¿Es el alineamiento global en general más malo que el local? No. Lo que sí se pue<strong>de</strong><br />

<strong>de</strong>cir es que para este ejemplo específico, don<strong>de</strong> queremos buscar regiones<br />

conservadas, es más conveniente un alineamiento local que uno global.<br />

6. Observe algo que al principio parece contradictorio. Como es lógico, <strong>los</strong> <strong>alineamientos</strong><br />

en la página <strong>de</strong> resultados se or<strong>de</strong>nan <strong>de</strong> mejor a peor. Esto es: el <strong>de</strong> arriba nos da el<br />

mayor grado <strong>de</strong> certeza <strong>de</strong> que hay sub-<strong>secuencias</strong> en común (en el caso que<br />

sospechemos que las dos <strong>secuencias</strong> son homólogas, el primer alineamiento nos<br />

proporciona más evi<strong>de</strong>ncia que <strong>los</strong> otros).<br />

Sin embargo, el primer alineamiento tiene un porcentaje <strong>de</strong> i<strong>de</strong>ntidad menor que el<br />

segundo. ¿Por qué es mejor entonces?<br />

Podría argumentarse que el primer alineamiento es más largo que el segundo, y por<br />

eso está <strong>de</strong> primero. Sin embargo, esta es sólo una respuesta parcial. El alineamiento<br />

global (por <strong>de</strong>finición) es más largo que <strong>los</strong> dos, y no es mejor.<br />

Lo i<strong>de</strong>al es una mezcla entre <strong>los</strong> dos valores: i<strong>de</strong>ntidad y longitud. Dos estadísticos que<br />

tienen en cuenta ambos valores a la vez son el “Score” y el “e-value” (es el valor que<br />

está a la <strong>de</strong>recha <strong>de</strong> “E(10,000)”, en la misma fila <strong>de</strong>l porcentaje <strong>de</strong> i<strong>de</strong>ntidad).<br />

El primer alineamiento tiene un Score <strong>de</strong> 251, el segundo <strong>de</strong> 232 y el tercero <strong>de</strong> 155.<br />

Entre mayor sea el Score, mejor es el alineamiento.<br />

De manera similar, para el primer alineamiento el “e-value” es 6e-17 (esto es, un cero,<br />

una coma, 16 ceros y un “6” al final; un número muy pequeño), para el segundo es<br />

2.9e-15 y para el tercero es 0.0046 (verifique estos números). Entre menor sea el “evalue”,<br />

mejor es el alineamiento.<br />

12


En el siguiente capítulo apren<strong>de</strong>remos qué se tiene en cuenta al calcular un Score y un<br />

“e-value”, y cómo éste último se relaciona con la probabilidad <strong>de</strong> que el alineamiento<br />

conseguido se <strong>de</strong>ba únicamente al azar.<br />

Recuer<strong>de</strong>: cuando usted hace un alineamiento global está suponiendo que tiene en frente<br />

<strong>secuencias</strong> homólogas y va a comparar su historia evolutiva al analizar <strong>los</strong> cambios que se han<br />

presentado.<br />

Cuando usted hace <strong>alineamientos</strong> locales usted estudia la conservación local <strong>de</strong> sus residuos.<br />

Esto le permite inferir (en caso que la similitud no sea explicable razonablemente por azar) que<br />

las dos proteínas son homólogas.<br />

Note el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> supuestos. En el primer caso está suponiendo homología y en el segundo<br />

la está verificando.<br />

¿Cómo se relacionan <strong>los</strong> conceptos selectividad y sensibilidad con este ejemplo?<br />

Ejercicio:<br />

En la siguiente página hay una proteína humana y una proteína que se aisló <strong>de</strong>l gallo:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign04.txt<br />

¿Hay razón para creer que estas proteínas son homólogas? Argumente su respuesta. También<br />

explique qué método <strong>de</strong> alineamiento escogió y por qué.<br />

Practiejemplo C – ¿Cómo encontrar <strong>secuencias</strong> en bases <strong>de</strong> datos mediante<br />

<strong>alineamientos</strong>?<br />

En este ejemplo vamos a utilizar por primera vez el programa BLAST (Basic Local Alignment<br />

Search Tool). Este programa es para la bioinformática como el martillo es para el carpintero.<br />

Sin él, la caja <strong>de</strong> herramientas no pue<strong>de</strong> estar completa. Tan importante es, que <strong>de</strong>dicaremos<br />

toda una sección <strong>de</strong>l próximo capítulo para estudiarlo mejor.<br />

Sin embargo, no sobra dar un llamado <strong>de</strong> alerta. Es fácil caer en la tentación <strong>de</strong> usar BLAST<br />

para todos <strong>los</strong> problemas bioinformáticos. Al hacerlo, nos olvidamos que BLAST sigue siendo<br />

como un martillo: una herramienta más. Todo resultado que obtengamos con BLAST <strong>de</strong>bemos<br />

justificarlo rigurosamente. Esto se consigue conociendo BLAST más a fondo. Pero por ahora<br />

basta con una corta introducción.<br />

1. Ingrese a la página principal <strong>de</strong>l NCBI:<br />

http://www.ncbi.nlm.nih.gov/<br />

2. Des<strong>de</strong> ahí, haga clic en el vínculo “BLAST” que está encima <strong>de</strong> la casilla <strong>de</strong> búsqueda.<br />

Esto lo lleva a la página principal <strong>de</strong> BLAST.<br />

3. El párrafo <strong>de</strong> introducción resume la funcionalidad <strong>de</strong>l programa.<br />

Lo primero que hay que notar es que BLAST (como su nombre lo indica) hace<br />

<strong>alineamientos</strong> locales, para buscar <strong>secuencias</strong> similares a un ‘query’ en una base <strong>de</strong><br />

datos. En esta <strong>de</strong>scripción también sugieren tres usos: inferir relaciones funcionales y<br />

relaciones evolutivas e i<strong>de</strong>ntificar miembros <strong>de</strong> una familia <strong>de</strong> genes.<br />

4. Lo siguiente es darse cuenta que hay muchas formas diferentes <strong>de</strong> hacer BLAST. Las<br />

gran<strong>de</strong>s divisiones son: Nucleótidos, proteínas, traducciones, BLAST genómico y<br />

“BLASTs” especiales.<br />

13


El tipo <strong>de</strong> BLAST a seleccionar <strong>de</strong>pen<strong>de</strong> <strong>de</strong> varios factores, entre el<strong>los</strong>:<br />

a) la naturaleza <strong>de</strong> nuestra secuencia (¿es ADN o proteína?)<br />

b) la base <strong>de</strong> datos que queremos son<strong>de</strong>ar (¿queremos buscar en toda la base<br />

<strong>de</strong> datos, o restringirnos a un tipo <strong>de</strong> molécula especial u organismo<br />

particular?)<br />

c) la hipótesis que queremos comprobar (¿estamos buscando <strong>secuencias</strong><br />

potencialmente homólogas a la nuestra o más bien la posición <strong>de</strong> nuestra<br />

secuencia en un genoma particular?)<br />

d) <strong>los</strong> supuestos acerca <strong>de</strong> nuestros resultados (si buscamos <strong>secuencias</strong><br />

homólogas, ¿esperamos encontrar alta o baja conservación?)<br />

En este ejemplo vamos a usar sólo un tipo: El BLAST a un genoma particular.<br />

5. Como ejemplo, vamos a suponer que hemos aislado y secuenciado un pedazo <strong>de</strong> ADN<br />

humano al que se une un factor <strong>de</strong> transcripción que estamos estudiando (en el<br />

Practiejemplo 2C <strong>de</strong>l capítulo 3 se habló brevemente acerca <strong>de</strong> <strong>los</strong> factores <strong>de</strong><br />

transcripción).<br />

La secuencia es la siguiente:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Blast01.txt<br />

¿Cómo saber qué gen es regulado por este factor <strong>de</strong> transcripción? Lo más a<strong>de</strong>cuado<br />

es alinear esta secuencia con el genoma humano y ver en qué cromosoma<br />

encontramos la mayor i<strong>de</strong>ntidad. Posteriormente analizaremos qué genes se<br />

encuentran flanqueando esta secuencia. Esto nos dará una hipótesis <strong>de</strong> trabajo muy<br />

buena.<br />

6. En la página principal <strong>de</strong> BLAST, haga clic en “Human” bajo la categoría “Genomes”.<br />

Luego ingrese la secuencia en la casilla <strong>de</strong> búsqueda y haga clic en “Begin Search”.<br />

7. Aparece una ventana en don<strong>de</strong> nos informan que nuestra solicitud ha sido puesta en<br />

una lista <strong>de</strong> espera. ¡A diferencia <strong>de</strong>l ejemplo anterior, don<strong>de</strong> comparábamos dos<br />

<strong>secuencias</strong> <strong>de</strong> no más <strong>de</strong> 300 aminoácidos una contra la otra, en este caso<br />

necesitamos comparar nuestra secuencia con <strong>los</strong> 3000 millones <strong>de</strong> bases <strong>de</strong>l genoma<br />

humano! Esto toma algún tiempo (en mi caso: “4 segundos, pero pue<strong>de</strong> ser menos”).<br />

8. Tras esperar un tiempo, haga clic sobre el botón “Format!”<br />

9. Si esperó lo suficiente verá la página <strong>de</strong> resultados. Con el uso se acostumbrará al<br />

formato <strong>de</strong> esta página.<br />

Éste se divi<strong>de</strong> en tres secciones. La primera tiene información general acerca <strong>de</strong> la<br />

búsqueda, con la fecha <strong>de</strong> realización, el RID que es un número único <strong>de</strong> i<strong>de</strong>ntificación<br />

<strong>de</strong> este resultado, la base <strong>de</strong> datos que se utilizó, etc.<br />

La segunda sección tiene <strong>los</strong> <strong>alineamientos</strong> – primero en forma gráfica y luego <strong>de</strong><br />

forma similar a como aparecen en LAlign.<br />

Al final aparece un resumen <strong>de</strong> <strong>los</strong> parámetros <strong>de</strong> BLAST al hacer esta búsqueda,<br />

a<strong>de</strong>más <strong>de</strong> unos estadísticos.<br />

En este momento nos vamos a centrar en la sección <strong>de</strong> la mitad.<br />

14


10. El 31 <strong>de</strong> julio <strong>de</strong> 2006 se obtuvieron 3 resultados. En la parte gráfica <strong>de</strong>l resultado <strong>de</strong><br />

BLAST aparecen tres líneas en color magenta. Cada una <strong>de</strong> ellas correspon<strong>de</strong> a un<br />

alineamiento.<br />

11. Dé clic sobre la primera línea magenta. Esto lo lleva al primer resultado. En mi caso, es<br />

una secuencia <strong>de</strong>l cromosoma 7 <strong>de</strong>l genoma humano. Después se menciona que en la<br />

dirección 5’ <strong>de</strong> mi secuencia en el genoma humano está la preproteína Sonic<br />

Hedgehog. Tenemos respuesta a nuestra inquietud: el factor <strong>de</strong> transcripción<br />

probablemente inducirá la expresión <strong>de</strong> este gen.<br />

12. Debajo aparecen unos datos estadísticos <strong>de</strong> este alineamiento en particular.<br />

Centrémonos en el e-value, que está <strong>de</strong>spués <strong>de</strong> “Expect”. ¿Nota que es un valor<br />

realmente bajo? Esto nos da un indicio <strong>de</strong> que el alineamiento es muy bueno.<br />

13. Observe otro resultado <strong>de</strong> esta página. En mi caso, el segundo resultado es también<br />

<strong>de</strong>l cromosoma 7, pero en este caso se tomó como referencia la secuencia obtenida<br />

por Celera Genomics (ver introducción al capítulo 2 para ver que significa esto).<br />

Lo importante <strong>de</strong> esto es notar que <strong>los</strong> tres <strong>alineamientos</strong> no son tres formas <strong>de</strong> alinear<br />

dos <strong>secuencias</strong> (como sí ocurre en LAlign), sino la mejor forma <strong>de</strong> alinear una<br />

secuencia con varias <strong>secuencias</strong> presentes en diferentes bases <strong>de</strong> datos. De esto se<br />

trata BLAST: hacer <strong>alineamientos</strong> locales con muchas <strong>secuencias</strong> en bases <strong>de</strong> datos<br />

diferentes para llegar a conclusiones basadas en similitud.<br />

En este ejemplo únicamente vimos uno <strong>de</strong> <strong>los</strong> usos que tiene BLAST. Si bien hay muchos usos<br />

diferentes (como por ejemplo, formular hipótesis <strong>de</strong> homología o <strong>de</strong> conservación <strong>de</strong><br />

estructura), todos se basan en el mismo principio.<br />

Ejercicio:<br />

En unas células cancerosas se aisló un mRNA que estaba expresado en cantida<strong>de</strong>s anormales<br />

y se secuenció. La secuencia obtenida está en:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Blast02.txt<br />

¿Hay alguna razón para creer que el mRNA aislado esté vinculado con el hecho <strong>de</strong> que la<br />

célula sea cancerosa?<br />

Practiejemplo D – Alineamientos múltiples<br />

Hasta aquí nos hemos concentrado únicamente en la similitud entre pares <strong>de</strong> <strong>secuencias</strong>. Sin<br />

embargo, estudiar la similitud entre varias <strong>secuencias</strong> simultáneamente nos pue<strong>de</strong> dar mucha<br />

información, que no se encuentra con facilidad en <strong>alineamientos</strong> pareados.<br />

Una analogía que pue<strong>de</strong> servir para enten<strong>de</strong>r esto es comparar el clima en varios años<br />

consecutivos. Si compara un par <strong>de</strong> años entre sí podrá <strong>de</strong>cir que un año fue más caluroso que<br />

el otro en un mes particular, pero poco más que esto. En cambio, si analiza la ten<strong>de</strong>ncia año<br />

tras año (esto es, compara el mismo periodo <strong>de</strong> tiempo <strong>de</strong> todos <strong>los</strong> años simultáneamente),<br />

podrá percatarse que hay un calentamiento progresivo.<br />

En este ejemplo realizaremos un alineamiento múltiple para inferir relaciones evolutivas. La<br />

teoría subyacente es en esencia lo mismo que <strong>de</strong>l párrafo anterior, sólo que al revés:<br />

suponemos que con el paso <strong>de</strong>l tiempo las <strong>secuencias</strong> homólogas <strong>de</strong> <strong>los</strong> organismos<br />

adquieren diferencias o mutaciones (en el caso <strong>de</strong>l clima concluimos que la temperatura<br />

aumentaba) y a partir <strong>de</strong> ahí inferimos cuáles especies están relacionadas y cuáles son lejanas<br />

evolutivamente, a partir <strong>de</strong>l número <strong>de</strong> diferencias entre las <strong>secuencias</strong>.<br />

El programa que vamos a usar es ClustalW. Junto con BLAST, es una <strong>de</strong> las herramientas más<br />

usadas en bioinformática. En este ejemplo, apren<strong>de</strong>remos a ingresar <strong>secuencias</strong> y a reconocer<br />

<strong>los</strong> principales resultados.<br />

15


1. Empiece en la página <strong>de</strong> ClustalW, dando clic en el siguiente vínculo:<br />

http://www.ebi.ac.uk/clustalw/<br />

Tómese su tiempo<br />

Lea el párrafo <strong>de</strong> introducción que está en esta página.que resume <strong>los</strong><br />

principios <strong>de</strong> ClustalW: alineamiento múltiple, <strong>de</strong> <strong>secuencias</strong> biológicas, para<br />

ver i<strong>de</strong>ntida<strong>de</strong>s y diferencias, con posibilidad <strong>de</strong> ver relaciones evolutivas.<br />

Cada uno <strong>de</strong> estos pasos está diseñado para ajustarse a evi<strong>de</strong>ncia biológica<br />

existente. No es sólo un alineamiento múltiple: es un alineamiento diseñado<br />

para investigar <strong>secuencias</strong> biológicas <strong>de</strong>s<strong>de</strong> una perspectiva evolutiva.<br />

En el siguiente capítulo, cuando veamos cómo se generan <strong>los</strong> <strong>alineamientos</strong>,<br />

retomaremos la importancia <strong>de</strong> este diseño.<br />

2. El formulario presente en esta página permite ajustar finamente varios parámetros <strong>de</strong>l<br />

algoritmo, a<strong>de</strong>más <strong>de</strong> dar la opción <strong>de</strong> enviar <strong>los</strong> resultados al correo electrónico. Esto<br />

último es especialmente útil cuando se tienen <strong>alineamientos</strong> <strong>de</strong> muchas <strong>secuencias</strong><br />

largas, ya que el resultado suele tardarse bastante en salir.<br />

Por el momento no vamos a cambiar ninguno <strong>de</strong> <strong>los</strong> parámetros.<br />

3. En el espacio que dice “Enter or Paste a set of Sequences in any supported format:”<br />

ingrese las <strong>secuencias</strong> que se encuentran en el siguiente vínculo:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Clustal01.txt<br />

Es importante incluir junto con ellas la línea <strong>de</strong> <strong>de</strong>scripción (que empieza con “>”) y no<br />

<strong>de</strong>jar una línea en blanco antes <strong>de</strong> las <strong>secuencias</strong>.<br />

Las <strong>secuencias</strong> pertenecen a la proteína ribosomal L18a, que es un gen conservado en<br />

todos <strong>los</strong> eucariontes (seres vivos con sistema <strong>de</strong> membranas intracelular, entre <strong>los</strong><br />

que nos incluimos nosotros).<br />

4. Tras ingresar las <strong>secuencias</strong> dé clic en “Run” y espere <strong>los</strong> resultados.<br />

5. La página <strong>de</strong> resultados tiene una tabla con fondo gris llamada “Results of search”. En<br />

esta tabla hay estadísticas generales <strong>de</strong>l alineamiento, a<strong>de</strong>más <strong>de</strong> unos archivos <strong>de</strong><br />

texto que sirven para procesar <strong>los</strong> datos con otro software.<br />

El botón JalView carga una ventana que permite visualizar el alineamiento con colores<br />

(<strong>de</strong>be tener instalada la máquina virtual <strong>de</strong> Java, ver practiejemplo 1B). A<strong>de</strong>más <strong>de</strong><br />

mostrar <strong>los</strong> residuos más conservados y generar una secuencia consenso, tiene varias<br />

funciones avanzadas accesibles a través <strong>de</strong>l menú superior. Por el momento no<br />

profundizaremos en su uso.<br />

6. En la página <strong>de</strong> resultados sigue una sección titulada “Scores Table”. Es un resumen<br />

<strong>de</strong>l resultado <strong>de</strong> alinear cada par <strong>de</strong> <strong>secuencias</strong>. Fíjese, por ejemplo, que el mayor<br />

Score (ver practiejemplo 2B para recordar que es el Score) se encuentra entre la rata y<br />

el ratón. Esto tiene sentido, si se piensa que son especies muy cercanas.<br />

También se pue<strong>de</strong> ver que <strong>los</strong> menores Score en general surgen en <strong>alineamientos</strong> con<br />

la secuencia <strong>de</strong> la planta (Arabidopsis thaliana) y con la secuencia <strong>de</strong> la levadura<br />

(Saccharomyces cerevisiae). Esto también tiene sentido evolutivo, pues estos<br />

organismos pertenecen a reinos diferentes al animal.<br />

16


7. Con base en estos Scores, ClustalW genera un cladograma y un filograma. El que se<br />

carga primero es el cladograma, pero a nosotros nos interesa más en este momento el<br />

filograma. Para visualizarlo, haga clic en el botón “Show as Phylogram Tree”.<br />

En la parte inferior <strong>de</strong> la página aparece entonces el árbol filogenético, don<strong>de</strong> la<br />

longitud <strong>de</strong> las ramas se relaciona con la distancia evolutiva entre las especies. Note<br />

como todos <strong>los</strong> vertebrados se encuentran relativamente cerca entre sí, seguidos<br />

<strong>de</strong>spués por el gusano (Caenorhabditis elegans), y finalmente por la levadura (un<br />

hongo) y la planta.<br />

Hemos visto como la comparación <strong>de</strong> varias <strong>secuencias</strong> mediante <strong>alineamientos</strong> múltiples nos<br />

pue<strong>de</strong> dar una i<strong>de</strong>a <strong>de</strong> la filogenia (parentesco evolutivo). Sin embargo, hay <strong>de</strong>talles que no<br />

cuadran. Por ejemplo, el humano parece ser más cercano a la rata, el ratón y el perro que al<br />

chimpancé (algunos argumentarán en broma que esto tiene sentido). Esto se <strong>de</strong>be a que el<br />

Score <strong>de</strong>l alineamiento entre humano y rata es 99 mientras que el Score entre el humano y el<br />

chimpancé es 95. Pero surge la pregunta, ¿es suficiente una diferencia <strong>de</strong> tres puntos en el<br />

Score para <strong>de</strong>finir relaciones filogenéticas?<br />

En el siguiente capítulo, cuando hablemos acerca <strong>de</strong> puntajes en <strong>los</strong> <strong>alineamientos</strong>, trataremos<br />

<strong>de</strong> dar una respuesta parcial a esta pregunta.<br />

Ejercicio:<br />

En el siguiente vínculo hay cinco <strong>secuencias</strong>:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Clustal02.txt<br />

Las primeras dos pertenecen a humanos. Las siguientes dos fueron extraídas <strong>de</strong> un<br />

chimpancé.<br />

La quinta secuencia tiene origen <strong>de</strong>sconocido, pero se sabe que pertenece a alguna <strong>de</strong> las dos<br />

especies y que está en el mismo locus.<br />

¿Cuál es el origen más probable <strong>de</strong> la última secuencia?<br />

3. Aplicaciones basadas en <strong>alineamientos</strong><br />

Practiejemplo A – Encontrar exones e intrones a partir <strong>de</strong> la proteína y su ADN<br />

correspondiente<br />

En la sección anterior el énfasis estuvo en la parte conceptual. Conocimos <strong>los</strong> <strong>alineamientos</strong><br />

locales y globales, a<strong>de</strong>más <strong>de</strong> conocer un programa para cada uno <strong>de</strong> estos tipos <strong>de</strong><br />

alineamiento: BLAST hace <strong>alineamientos</strong> locales contra una base <strong>de</strong> datos, mientras que<br />

ClustalW hace <strong>alineamientos</strong> globales múltiples.<br />

Haciendo uso <strong>de</strong> <strong>los</strong> conceptos <strong>de</strong> la sección anterior pue<strong>de</strong> usted resolver muchos problemas<br />

concretos. En el ejercicio que acompaña al Practiejemplo 2A, por ejemplo, se pi<strong>de</strong> encontrar<br />

<strong>los</strong> intrones y exones <strong>de</strong> un gen, si se tiene una secuencia <strong>de</strong> ADN y su mRNA respectivo.<br />

Un ligero cambio en el problema se preten<strong>de</strong> resolver en este ejemplo: en lugar <strong>de</strong> tener la<br />

secuencia <strong>de</strong> mRNA tenemos la secuencia <strong>de</strong> la proteína que codifica. ¿Cómo resolver este<br />

problema?<br />

Es posible hacerlo en tres pasos: el primero sería elaborar una lista <strong>de</strong> todos <strong>los</strong> mRNAs que<br />

pue<strong>de</strong>n codificar la proteína. Esto se pue<strong>de</strong> hacer a mano o mediante un pequeño programa <strong>de</strong><br />

computador que genere la lista.<br />

El segundo paso sería ver cuál <strong>de</strong> todos <strong>los</strong> mRNAs <strong>de</strong> la lista es el mejor candidato a ser<br />

codificado por la secuencia <strong>de</strong> ADN que tenemos. Esto se pue<strong>de</strong> hacer mediante <strong>alineamientos</strong><br />

17


globales entre cada uno <strong>de</strong> <strong>los</strong> mRNAs <strong>de</strong> la lista y el ADN. El mRNA correcto estará en<br />

alineamiento que tenga el mayor Score o menor e-value.<br />

El tercer paso es repetir el ejercicio <strong>de</strong>l Practiejemplo 2A.<br />

Hay una mejor solución a este problema: aprovechar el hecho que un grupo <strong>de</strong> investigación ya<br />

<strong>de</strong>sarrolló una aplicación que está optimizada para esta tarea específica, y que la ha puesto a<br />

disposición <strong>de</strong> cualquier usuario con acceso a Internet. Esta aplicación, <strong>de</strong>sarrollada por Ewan<br />

Birney, Richard Copley y otros colaboradores, se conoce como Wise2 (GeneWise).<br />

1. Ingrese al formulario inicial <strong>de</strong> Wise2 haciendo clic en el siguiente vínculo:<br />

http://www.ebi.ac.uk/Wise2/<br />

2. En el siguiente vínculo encontrará una secuencia <strong>de</strong> proteína y una secuencia <strong>de</strong> ADN.<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/GeneWise01.txt<br />

Ingrese cada secuencia en el espacio correspondiente <strong>de</strong>l formulario y haga clic en<br />

“Run”.<br />

3. Tras un tiempo <strong>de</strong> espera aparece la página <strong>de</strong> resultados. La tabla gris permite bajar<br />

archivos para ser procesados por otros programas. Después viene un resumen <strong>de</strong> <strong>los</strong><br />

parámetros que se usaron en el programa. Seguido a esto se encuentra el<br />

alineamiento entre la proteína y el ADN, y al final un resumen <strong>de</strong> <strong>los</strong> intrones<br />

encontrados.<br />

4. El alineamiento se compone <strong>de</strong> tres líneas idénticas, que correspon<strong>de</strong>n a la proteína.<br />

Debajo <strong>de</strong> estas tres líneas hay otras tres, que correspon<strong>de</strong>n a la secuencia <strong>de</strong><br />

nucleótidos.<br />

Cada columna correspon<strong>de</strong> a una tripleta <strong>de</strong> nucleótidos con el aminoácido particular<br />

que codifican.<br />

Los intrones se encuentran marcados, junto con su longitud. En total hay 5 <strong>de</strong> el<strong>los</strong>.<br />

5. Este ejemplo se basa en un registro <strong>de</strong> NCBI Gene <strong>de</strong> la proteína white <strong>de</strong> Drosophila<br />

melanogaster. Dar clic en el siguiente vínculo lo llevará al registro:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=full_report<br />

&list_uids=31271#tranprod<br />

El programa logró encontrar correctamente <strong>los</strong> cinco intrones presentes.<br />

El mensaje importante que nos transmite este ejemplo es “no reinventar la rueda”. Con una<br />

búsqueda buena en Google es posible encontrar programas que ejecutan muchas tareas<br />

comunes <strong>de</strong> manera efectiva.<br />

Como ejemplo adicional está Sim4, diseñado para alinear un mRNA o cDNA con la secuencia<br />

<strong>de</strong> ADN respectiva. El artículo científico don<strong>de</strong> <strong>de</strong>scriben Sim4 se encuentra en:<br />

http://www.genome.org/cgi/content/full/8/9/967<br />

Ejercicio:<br />

En la página <strong>de</strong> Wise2, a la izquierda, hay enlaces a otras herramientas – cada una tiene su<br />

especialidad. ¿Cuál programa usaría para <strong>de</strong>tectar inversiones en una secuencia <strong>de</strong><br />

nucleótidos?<br />

Use este programa para <strong>de</strong>tectar la inversión presente entre estas dos <strong>secuencias</strong>:<br />

18


http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/GeneWise02.txt<br />

Practiejemplo B – HomoloGene: una base <strong>de</strong> datos <strong>de</strong> genes homólogos<br />

En la sección anterior aprendimos, que uno <strong>de</strong> <strong>los</strong> usos <strong>de</strong> <strong>los</strong> <strong>alineamientos</strong> es la inferencia <strong>de</strong><br />

relaciones evolutivas. Si dos <strong>secuencias</strong> son muy similares en especies lejanas, es probable<br />

que esto se <strong>de</strong>ba a que el ancestro común <strong>de</strong> estas dos especies ya tenía presente la<br />

secuencia.<br />

Basándose en esta hipótesis, el NCBI está generando una base <strong>de</strong> datos <strong>de</strong> <strong>secuencias</strong> que<br />

por su similitud son candidatas a ser homólogas. El nombre <strong>de</strong> esta base <strong>de</strong> datos es<br />

HomoloGene.<br />

1. Ingrese a la página principal <strong>de</strong> HomoloGene haciendo clic en el siguiente vínculo:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene<br />

2. El primer párrafo <strong>de</strong> la página nos indica que éste es un sistema automatizado <strong>de</strong><br />

<strong>de</strong>tección <strong>de</strong> genes homólogos en <strong>los</strong> organismos cuya secuencia genómica completa<br />

ya se conoce.<br />

Para evaluar <strong>los</strong> resultados, ingrese el término “APP” y haga clic en “Go”. APP es el<br />

símbolo <strong>de</strong> un gen asociado con la enfermedad <strong>de</strong> Alzheimer.<br />

3. El 3 <strong>de</strong> agosto <strong>de</strong> 2006 se produjeron 78 resultados. Entre el<strong>los</strong> hay uno con número<br />

<strong>de</strong> i<strong>de</strong>ntificación 56379. El número <strong>de</strong> i<strong>de</strong>ntificación se encuentra justo al lado <strong>de</strong> la<br />

palabra “HomoloGene:” en cada resultado. Ingrese a este registro.<br />

Tómese su tiempo<br />

Cada registro <strong>de</strong> HomoloGene contiene información en varios contextos:<br />

Genes, proteínas, fenotipos, dominios conservados, referencias bibliográficas...<br />

Esta información pue<strong>de</strong> ser especialmente útil para encontrar mo<strong>de</strong><strong>los</strong><br />

biológicos para enfermeda<strong>de</strong>s comunes. Mire, por ejemplo, que algunos<br />

fenotipos en el ratón muestran su equivalente al <strong>de</strong>l humano.<br />

4. Nos vamos a centrar en la sección llamada “Alignment Scores”. Haga clic en el enlace<br />

“Show Table of Pairwise Scores”. Para cada una <strong>de</strong> las especies tenemos una lista <strong>de</strong><br />

estadísticos <strong>de</strong> similitud entre las <strong>secuencias</strong>.<br />

Dese cuenta que el porcentaje <strong>de</strong> i<strong>de</strong>ntidad en aminoácidos y nucleótidos es bastante<br />

alto entre <strong>los</strong> vertebrados (superior al 80%): H. sapiens (humano), M. musculus (ratón),<br />

R. norvegicus (rata) y G. gallus (gallo).<br />

En cambio, comparándolo con <strong>los</strong> organismos invertebrados, el porcentaje <strong>de</strong> i<strong>de</strong>ntidad<br />

es menor al 50%.<br />

5. Vuelva al registro completo <strong>de</strong> HomoloGene. Hay dos menús <strong>de</strong>splegables bajo el<br />

título “Regenerate Alignments”. Escoja en el primero al humano (H. sapiens) y en el<br />

segundo al ratón (M. musculus). Luego dé clic sobre el botón “BLAST”.<br />

6. Se <strong>de</strong>spliega el alineamiento que dio lugar a la hipótesis <strong>de</strong> homología entre <strong>los</strong> genes.<br />

Note el alto grado <strong>de</strong> i<strong>de</strong>ntidad que hay entre las <strong>secuencias</strong>. Tenemos buenos indicios<br />

para creer, que esta secuencia realmente es homóloga.<br />

19


7. Vuelva nuevamente al registro <strong>de</strong> HomoloGene y en el menú <strong>de</strong>splegable “Display”<br />

seleccione la opción “Multiple Alignment”. Pue<strong>de</strong> <strong>de</strong>tectar las regiones que más<br />

diferencian a <strong>los</strong> vertebrados <strong>de</strong> <strong>los</strong> otros organismos.<br />

8. Ahora ingrese en la casilla <strong>de</strong> búsqueda superior el número 8634, asegúrese que<br />

todavía tiene seleccionado “HomoloGene” en el menú <strong>de</strong>splegable y haga clic en “Go”.<br />

Aparece como resultado el gen HEBP2: “Heme binding protein 2”. Ingrese a este<br />

registro.<br />

Entre las especies aparecen el humano, el ratón, la rata, el perro y el gallo y... ¡una<br />

planta (A. thaliana)!<br />

Recor<strong>de</strong>mos que el grupo heme está presente en la hemoglobina (y otros compuestos),<br />

don<strong>de</strong> cumple un papel en el transporte <strong>de</strong> oxígeno en la sangre. En la planta, este<br />

grupo <strong>de</strong>be tener un papel diferente.<br />

¿Po<strong>de</strong>mos confiar que <strong>los</strong> genes <strong>de</strong> la planta y <strong>de</strong>l humano son homólogos? ¿Es<br />

posible que la similitud en la secuencia se <strong>de</strong>ba a evolución paralela? ¿Está presente el<br />

grupo heme en todos <strong>los</strong> eucariontes? La única evi<strong>de</strong>ncia <strong>de</strong> la que disponemos para<br />

respon<strong>de</strong>rnos estas preguntas es la similitud entre dos <strong>secuencias</strong>. Por tanto <strong>de</strong>bemos<br />

tomar con precaución este resultado.<br />

Resaltando conceptos: Homología vs. Similitud<br />

HomoloGene se basa en la similitud <strong>de</strong> las <strong>secuencias</strong> para inferir posibles<br />

genes homólogos. Sin embargo, similitud no es sinónimo <strong>de</strong> homología. Es por<br />

eso que la homología <strong>de</strong> estos genes <strong>de</strong>be consi<strong>de</strong>rarse siempre como<br />

hipótesis.<br />

Recor<strong>de</strong>mos: dos genes son homólogos si tienen el mismo origen evolutivo.<br />

Esto es probable si estudiamos proteínas como la actina, que hace parte <strong>de</strong>l<br />

citoesqueleto en todos <strong>los</strong> eucariontes (organismos con sistema <strong>de</strong> membranas<br />

intracelular).<br />

Otros genes, por ejemplo <strong>los</strong> <strong>de</strong>l sistema inmunológico humano, no presentan<br />

homólogos en las plantas. Pue<strong>de</strong> ocurrir, sin embargo, que la secuencia <strong>de</strong><br />

aminoácidos <strong>de</strong> uno <strong>de</strong> éstos sea similar a una proteína vegetal.<br />

Toda hipótesis en bioinformática <strong>de</strong>be estudiarse en un contexto biológico para<br />

po<strong>de</strong>r hacer inferencias confiables. Siguiendo con el ejemplo, es necesario<br />

saber algo más <strong>de</strong> la actina y <strong>de</strong>l sistema inmunológico es un complemento<br />

necesario para evaluar <strong>los</strong> resultados estadísticos <strong>de</strong> un alineamiento.<br />

¿Qué ocurre si dos <strong>secuencias</strong> homólogas han acumulado tantas mutaciones entre sí, que un<br />

primer examen <strong>de</strong> similitud no logra <strong>de</strong>tectar su origen común? En ese caso, HomoloGene<br />

probablemente no consi<strong>de</strong>re este par <strong>de</strong> <strong>secuencias</strong> como homólogas.<br />

Existen métodos más sensibles para evaluar la similitud entre <strong>secuencias</strong> (por ejemplo PSI-<br />

BLAST). En <strong>los</strong> siguientes capítu<strong>los</strong> exploraremos algunos <strong>de</strong> estos métodos.<br />

Ejercicio:<br />

Se ha encontrado un gen en ratones (llamado Mc3r) que está relacionado con el aumento <strong>de</strong><br />

peso. Ratones que tienen mutado este gen engordan más a pesar <strong>de</strong> comer menos (en el<br />

siguiente tutorial se profundiza más en el tema:<br />

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=coffeebrk.chapter.26).<br />

Use HomoloGene para encontrar el gen homólogo en humanos. ¿Cuál es el porcentaje <strong>de</strong><br />

i<strong>de</strong>ntidad en la secuencia <strong>de</strong> aminoácidos entre el humano y el ratón?<br />

20


Ejercicios<br />

<strong>Introducción</strong><br />

Los ejercicios <strong>de</strong> este capítulo son una simulación <strong>de</strong> una rutina común en bioinformática: se<br />

aísla un pedazo <strong>de</strong> ADN, se obtiene la secuencia, y mediante ésta se preten<strong>de</strong> inferir la mayor<br />

cantidad <strong>de</strong> información posible usando <strong>de</strong> bases <strong>de</strong> datos.<br />

El ejemplo dista <strong>de</strong> representar una situación real en algunos casos (las <strong>secuencias</strong> <strong>de</strong>l primer<br />

ejercicio, por ejemplo, no presentan errores <strong>de</strong> secuenciación y no tienen repeticiones que<br />

generen ambigüedad). Aún así, <strong>los</strong> conceptos que subyacen son <strong>los</strong> mismos.<br />

Primer ejercicio<br />

El resultado <strong>de</strong> un experimento <strong>de</strong> secuenciación es un electroferograma, en don<strong>de</strong> cada pico<br />

correspon<strong>de</strong> a un nucleótido específico en el ADN (ver un ejemplo en el siguiente vínculo:<br />

http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=retrieve&size=479999&s=search&m=obtain<br />

&retrieve=Submit&val=1386897769&x_join=and&x_field=CENTER_NAME&x_cond=%3D&file=t<br />

race&gz=on&fasta=on&dopt=trace&dispmax=5&page=1) . La secuencia <strong>de</strong> ADN obtenida <strong>de</strong><br />

un diagrama <strong>de</strong> este estilo tiene un tamaño <strong>de</strong> aproximadamente 700 nucleótidos, por lo que se<br />

requieren varias pasadas para secuenciar un gen completo. Estas <strong>secuencias</strong> <strong>de</strong>ben<br />

ensamblarse, esto es, compararse entre sí para <strong>de</strong>terminar una secuencia consenso <strong>de</strong> todo el<br />

gen.<br />

A<strong>de</strong>más <strong>de</strong> que sólo es posible secuenciar pedazos cortos <strong>de</strong> ADN, muchos picos <strong>de</strong> <strong>los</strong><br />

electroferogramas son ambiguos. Esto lleva a que dos <strong>secuencias</strong> – así pertenezcan a la<br />

misma región cromosómica – parezcan tener un or<strong>de</strong>n diferente <strong>de</strong> nucleótidos.<br />

Si bien existen programas especializados en secuenciación (que van <strong>de</strong>s<strong>de</strong> el análisis <strong>de</strong>l<br />

electroferograma, pasando por la optimización <strong>de</strong> las <strong>secuencias</strong> para el alineamiento, hasta el<br />

análisis conjunto <strong>de</strong> varios experimentos <strong>de</strong> secuenciación para obtener una secuencia<br />

consenso), vamos a usar las herramientas <strong>de</strong> este capítulo para obtener un resultado<br />

aproximado.<br />

En la siguiente página Web hay tres <strong>secuencias</strong> que <strong>de</strong>ben ensamblarse en un or<strong>de</strong>n<br />

específico (esto significa, que una secuencia representa el inicio, otra el segmento medio y la<br />

tercera el extremo final):<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_01_01.txt<br />

Sin embargo, no se sabe en qué or<strong>de</strong>n <strong>de</strong>ben ir. Usando Dotlet <strong>de</strong>termine: ¿cuál es la<br />

secuencia inicial, cuál es la intermedia y cuál es la final?<br />

Pista: Las siguientes <strong>secuencias</strong>, pertenecientes a otro gen, están en or<strong>de</strong>n (“Secuencia_1” es<br />

el segmento corriente arriba y “Secuencia_2” el segmento corriente abajo):<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_01_02.txt<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

1A, 1B<br />

Segundo ejercicio<br />

(Depen<strong>de</strong> <strong>de</strong>l ejercicio anterior)<br />

21


Tras haber <strong>de</strong>terminado el or<strong>de</strong>n en que <strong>de</strong>ben ensamblarse las <strong>secuencias</strong>, use LAlign y un<br />

editor <strong>de</strong> texto (como el bloc <strong>de</strong> notas <strong>de</strong> Windows) para generar una secuencia conjunta a<br />

partir <strong>de</strong> <strong>los</strong> tres fragmentos.<br />

Justifique la elección <strong>de</strong>l tipo <strong>de</strong> alineamiento que va a hacer (¿local? ¿global? ¿global sin<br />

penalidad en <strong>los</strong> extremos?).<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2A, 2B<br />

Tercer ejercicio<br />

Un ensamblaje como el que realizó en <strong>los</strong> dos ejercicios anteriores (sólo que con otra región<br />

<strong>de</strong>l gen) está en el siguiente vínculo:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_03_01.txt<br />

Basándose en este ensamblaje, <strong>de</strong>termine el cromosoma y el gen que están representados por<br />

esta secuencia.<br />

Opcional (requiere haber leído el capítulo 4): A partir <strong>de</strong> la ontología <strong>de</strong>l gen, ¿pue<strong>de</strong><br />

<strong>de</strong>terminar si es un factor <strong>de</strong> transcripción o un gen estructural?<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2C, <strong>Capítulo</strong> 4 practiejemp<strong>los</strong> 1A y 1B<br />

Cuarto ejercicio<br />

(Depen<strong>de</strong> <strong>de</strong>l ejercicio anterior)<br />

Encuentre posibles genes homólogos al <strong>de</strong>terminado en el punto anterior. ¿Es éste un gen<br />

conservado entre <strong>los</strong> mamíferos?<br />

Descargue la secuencia <strong>de</strong> proteínas <strong>de</strong>l grupo <strong>de</strong> genes homólogos que encontró. Haga un<br />

alineamiento múltiple con estas <strong>secuencias</strong>. ¿Se pue<strong>de</strong> inferir la filogenia (or<strong>de</strong>n <strong>de</strong><br />

especiación) <strong>de</strong> las especies a partir <strong>de</strong> estas <strong>secuencias</strong>?<br />

Opcional (requiere haber leído el capítulo 1): Busque un libro que tenga un tutorial acerca <strong>de</strong><br />

este gen. ¿Cumple la misma función en todos <strong>los</strong> mamíferos o tiene un efecto particular en<br />

humanos únicamente?<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2D, 3B, <strong>Capítulo</strong> 1 practiejemplo 3B<br />

Quinto ejercicio<br />

En el siguiente enlace están las <strong>secuencias</strong> proteicas <strong>de</strong>l humano y <strong>de</strong>l chimpancé <strong>de</strong>l gen que<br />

estamos estudiando:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer_05_05_01.txt<br />

Tras alinear las <strong>secuencias</strong> (¿global o localmente?) <strong>de</strong>termine:<br />

A) el porcentaje <strong>de</strong> i<strong>de</strong>ntidad entre las <strong>secuencias</strong><br />

B) <strong>los</strong> aminoácidos específicos diferentes (¿cambiaron las propieda<strong>de</strong>s fisicoquímicas <strong>de</strong><br />

estos aminoácidos?)<br />

22


Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2A, 2B<br />

Sexto ejercicio<br />

Algunas <strong>secuencias</strong> <strong>de</strong> ARN forman una estructura llamada stem-loop, don<strong>de</strong> el extremo 5’ y el<br />

extremo 3’ se complementan y forman asociaciones Watson-Crick entre sí (ver una imagen en<br />

el siguiente vínculo:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Search&db=books&doptcmdl=GenBookHL&<br />

term=RNA+secondary+and+tertiary+structures+AND+mcb%5Bbook%5D+AND+105263%5Buid<br />

%5D&rid=mcb.figgrp.821).<br />

En este ejercicio vamos a usar Dotlet para hacer esta inferencia. En la siguiente página hay<br />

cuatro <strong>secuencias</strong>:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer_05_06_01.txt<br />

La primera secuencia es el ARN que vamos a analizar. La segunda es la secuencia invertida<br />

(esto significa, que se escribió la secuencia al revés). La tercera secuencia es el complemento<br />

<strong>de</strong> la primera (en don<strong>de</strong> teníamos A<strong>de</strong>nina se escribió Timina, etc.). La cuarta es el reverso<br />

complemento (el resultado <strong>de</strong> invertir y complementar).<br />

A) ¿Cuál par <strong>de</strong> <strong>secuencias</strong> analizaría usted para <strong>de</strong>terminar la presencia <strong>de</strong> un stem-loop?<br />

B) Cargue las dos <strong>secuencias</strong> que escogió en el punto A en Dotlet, varíe <strong>los</strong> parámetros hasta<br />

obtener una imágen completa (variando el Zoom) y con poco ruido (variando el tamaño <strong>de</strong><br />

ventana y el histograma a la <strong>de</strong>recha). ¿Cómo se evi<strong>de</strong>ncia el stem-loop en la gráfica<br />

obtenida?<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

1A, 1B<br />

Profundización<br />

MUMmer<br />

Versión en línea <strong>de</strong> MUMmer:<br />

http://cmr.tigr.org/tigr-scripts/CMR/shared/MakeFrontPages.cgi?page=genome_alignment<br />

MUMmer es una herramienta similar al Dotplot, que permite visualizar similitud entre genomas<br />

completos. Tiene la ventaja <strong>de</strong> ser especialmente rápido, a pesar <strong>de</strong>l volumen <strong>de</strong> datos <strong>de</strong><br />

entrada.<br />

A la fecha, MUMmer va en la versión 3.0. En el artículo científico publicado sobre la primera<br />

versión <strong>de</strong>scriben la herramienta <strong>de</strong> esta manera:<br />

“Se <strong>de</strong>scribe un nuevo sistema para alinear <strong>secuencias</strong> genómicas completas. Usando una<br />

estructura <strong>de</strong> datos eficiente conocida como árbol <strong>de</strong> sufijos, el sistema es capaz <strong>de</strong> alinear<br />

<strong>secuencias</strong> que contienen millones <strong>de</strong> nucleótidos rápidamente. [...] El uso <strong>de</strong> este algoritmo<br />

<strong>de</strong>bería facilitar el análisis <strong>de</strong> regiones cromosomales sinténicas, comparaciones cepa-cepa,<br />

comparaciones evolutivas y duplicaciones genómicas.”<br />

(Delcher et al., “Alignment of whole genomes”, Nucleic Acids Res. 1999 Jun 1;27(11):2369-76.<br />

PMID: 10325427).<br />

23


MUMmer fue <strong>de</strong>sarrollado en TIGR (The Institute of Genomic Research) y en la página web <strong>de</strong><br />

este instituto (http://www.tigr.org/) es posible encontrar otras herramientas adicionales <strong>de</strong><br />

comparación entre genomas.<br />

NCBI PopSet<br />

Página <strong>de</strong> inicio <strong>de</strong> PopSet:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PopSet<br />

Cuando un investigador está interesado en publicar un alineamiento <strong>de</strong> <strong>secuencias</strong> pue<strong>de</strong><br />

hacer un envío a GenBank <strong>de</strong> éste mediante la herramienta Sequin (ver capítulo 2,<br />

Practiejemplo 1C). De esta forma sólo tiene que referenciar el registro específico en el NCBI,<br />

<strong>de</strong> manera similar a citar una secuencia <strong>de</strong> ADN mediante el número <strong>de</strong> acceso o el GI.<br />

Algunos <strong>de</strong> estos <strong>alineamientos</strong> están pensados para proporcionar hipótesis evolutivas <strong>de</strong><br />

poblaciones. NCBI ha creado una base <strong>de</strong> datos especializada en este tipo <strong>de</strong> estudios y se<br />

conoce como PopSet. Esta es la <strong>de</strong>scripción <strong>de</strong> un PopSet en la página Web <strong>de</strong>l NCBI:<br />

“¿Qué es un PopSet?<br />

Un PopSet es un conjunto <strong>de</strong> <strong>secuencias</strong> <strong>de</strong> ADN que han sido recolectadas para analizar las<br />

relaciones evolutivas <strong>de</strong> una población. La población pudo originarse a partir <strong>de</strong> diferentes<br />

miembros <strong>de</strong> la misma especie, o por organismos <strong>de</strong> especies diferentes. Son enviados a<br />

GenBank mediante Sequin, usualmente en forma <strong>de</strong> alineamiento <strong>de</strong> <strong>secuencias</strong>.”<br />

Base <strong>de</strong> datos <strong>de</strong> COGs<br />

Pagina inicial <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> COGs:<br />

http://www.ncbi.nlm.nih.gov/COG/<br />

Cuando empezaron a surgir las <strong>secuencias</strong> completas <strong>de</strong> algunos organismos, varios grupos<br />

iniciaron la tarea <strong>de</strong> encontrar todos <strong>los</strong> genes potencialmente homólogos. Una iniciativa <strong>de</strong>l<br />

NCBI, conocida como base <strong>de</strong> datos <strong>de</strong> COGs, se ha aproximado a esta tarea:<br />

“La base <strong>de</strong> datos <strong>de</strong> clusters <strong>de</strong> grupos ortólogos <strong>de</strong> proteínas (COGs [Cluster of Orthologous<br />

Groups]) ha sido pensada como una clasificación filogenética <strong>de</strong> proteínas <strong>de</strong> genomas<br />

completos. Cada COG incluye proteínas que se cree son ortólogas, esto es, conectadas por<br />

<strong>de</strong>scen<strong>de</strong>ncia evolutiva vertical. [...] El propósito <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> COGs es servir como<br />

plataforma para la anotación funcional <strong>de</strong> genomas recientemente secuenciados y realizar<br />

estudios en evolución genómica.”<br />

(Roman L. et al., “The COG database: new <strong>de</strong>velopments in phylogenetic classification of<br />

proteins from complete genomes”, Nucleic Acids Res. 2001 Jan 1;29(1):22-8. PMID: 11125040)<br />

Varios <strong>de</strong> <strong>los</strong> genes presentes en HomoloGene surgen <strong>de</strong> esta base <strong>de</strong> datos. Se pue<strong>de</strong> <strong>de</strong>cir<br />

que la base <strong>de</strong> datos COG es a HomoloGene como GenBank es a NCBI Gene.<br />

This work is licensed un<strong>de</strong>r a Creative Commons Attribution-NonCommercial-ShareAlike 2.5<br />

License.<br />

24

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!