07.05.2013 Views

Capítulo 5: Introducción a los alineamientos de secuencias

Capítulo 5: Introducción a los alineamientos de secuencias

Capítulo 5: Introducción a los alineamientos de secuencias

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Lope Andrés Flórez Weidinger<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/cap5.htm<br />

<strong>Capítulo</strong> 5: <strong>Introducción</strong> a <strong>los</strong> <strong>alineamientos</strong> <strong>de</strong><br />

<strong>secuencias</strong><br />

Vistazo ................................................................................................................................... 2<br />

<strong>Introducción</strong> .......................................................................................................................... 2<br />

Conceptos importantes: ....................................................................................................... 3<br />

Alineamientos ...................................................................................................................... 3<br />

Homología vs. Similitud ....................................................................................................... 4<br />

I<strong>de</strong>ntidad.............................................................................................................................. 4<br />

Cuestionario:......................................................................................................................... 5<br />

Primera pregunta:................................................................................................................ 5<br />

Segunda pregunta: .............................................................................................................. 5<br />

Tercera pregunta: ................................................................................................................ 5<br />

Practiejemp<strong>los</strong>: ..................................................................................................................... 6<br />

1. Visualizando similitud entre <strong>secuencias</strong>........................................................................... 6<br />

Practiejemplo A - El Dotplot ............................................................................................. 6<br />

Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad ................... 7<br />

2. Tipos <strong>de</strong> <strong>alineamientos</strong>.................................................................................................. 10<br />

Practiejemplo A – Alineamientos globales ..................................................................... 10<br />

Practiejemplo B – Alineamientos locales........................................................................ 11<br />

Practiejemplo C – ¿Cómo encontrar <strong>secuencias</strong> en bases <strong>de</strong> datos mediante<br />

<strong>alineamientos</strong>?............................................................................................................... 13<br />

Practiejemplo D – Alineamientos múltiples .................................................................... 15<br />

3. Aplicaciones basadas en <strong>alineamientos</strong> ........................................................................ 17<br />

Practiejemplo A – Encontrar exones e intrones a partir <strong>de</strong> la proteína y su ADN<br />

correspondiente ............................................................................................................. 17<br />

Practiejemplo B – HomoloGene: una base <strong>de</strong> datos <strong>de</strong> genes homólogos .................... 19<br />

Ejercicios ............................................................................................................................. 21<br />

<strong>Introducción</strong>....................................................................................................................... 21<br />

Primer ejercicio.................................................................................................................. 21<br />

Segundo ejercicio .............................................................................................................. 21<br />

Tercer ejercicio .................................................................................................................. 22<br />

Cuarto ejercicio.................................................................................................................. 22<br />

Quinto ejercicio.................................................................................................................. 22<br />

Sexto ejercicio ................................................................................................................... 23<br />

Profundización .................................................................................................................... 23<br />

MUMmer............................................................................................................................ 23<br />

NCBI PopSet .....................................................................................................................24<br />

Base <strong>de</strong> datos <strong>de</strong> COGs.................................................................................................... 24<br />

1


Vistazo<br />

“Los <strong>alineamientos</strong> <strong>de</strong> <strong>secuencias</strong> <strong>de</strong> nucleótidos y proteínas serán tratados en este capítulo.<br />

Para empezar, apren<strong>de</strong>remos a encontrar patrones repetidos en una secuencia o entre un par<br />

<strong>de</strong> <strong>secuencias</strong> mediante una herramienta gráfica llamada Dotplot.<br />

Posteriormente conoceremos <strong>los</strong> diferentes tipos <strong>de</strong> <strong>alineamientos</strong> que existen (locales y<br />

globales) y veremos dos medidas <strong>de</strong> similitud entre <strong>secuencias</strong> (el “e-value” y el Score).<br />

También haremos una breve introducción a las dos herramientas <strong>de</strong> alineamiento más usadas<br />

en bioinformática: BLAST y ClustalW. La primera nos permite encontrar <strong>secuencias</strong> similares a<br />

un ‘query’ en una base <strong>de</strong> datos y la segunda nos permite realizar <strong>alineamientos</strong> múltiples y, en<br />

algunos casos, hacer inferencias evolutivas.<br />

Conoceremos un programa que hace uso <strong>de</strong> <strong>alineamientos</strong> para reconocer intrones <strong>de</strong> un gen<br />

partiendo <strong>de</strong> la secuencia <strong>de</strong> ADN y la proteína que codifica. Finalizaremos aprendiendo a usar<br />

una base <strong>de</strong> datos <strong>de</strong> <strong>secuencias</strong> homólogas en el NCBI, llamada HomoloGene.”<br />

<strong>Introducción</strong><br />

“La mera formulación <strong>de</strong> un problema es la mayoría <strong>de</strong> las veces más importante que su<br />

solución, que pue<strong>de</strong> ser simplemente una cuestión <strong>de</strong> habilidad matemática o experimental.<br />

Formular nuevas preguntas, nuevas posibilida<strong>de</strong>s, mirar problemas antiguos <strong>de</strong>s<strong>de</strong> un nuevo<br />

ángulo, requiere una imaginación creativa y marca verda<strong>de</strong>ros avances en la ciencia.”<br />

Albert Einstein<br />

La ciencia se fundamenta en la experimentación: si no hay evi<strong>de</strong>ncia empírica, no hay verdad.<br />

Se pue<strong>de</strong>n formular hipótesis, incluso con un altísimo grado <strong>de</strong> <strong>de</strong>talle, pero hasta no ser<br />

probados en el mundo real siguen siendo poco más que artificios <strong>de</strong> nuestra imaginación.<br />

La forma usual <strong>de</strong> ejecutar un experimento es cambiar o controlar <strong>los</strong> parámetros y ver qué<br />

ocurre <strong>de</strong>spués <strong>de</strong> ese control. Aquí la bioinformática juega un papel importante, proponiendo<br />

qué cambios <strong>de</strong>ben hacerse y qué variables controlar. Si bien no será tratado en este capítulo,<br />

la bioinformática está <strong>de</strong>scifrando patrones <strong>de</strong> expresión relacionados con ciertos tipos <strong>de</strong><br />

cáncer (con la ayuda <strong>de</strong> una tecnología conocida con el nombre <strong>de</strong> microarreg<strong>los</strong>). De esta<br />

forma, permite focalizar las investigaciones en estos tipos específicos <strong>de</strong> cáncer.<br />

Sin embargo, este método directo <strong>de</strong> investigación no pue<strong>de</strong> usarse en todos <strong>los</strong> casos.<br />

Darwin, autor <strong>de</strong> <strong>los</strong> fundamentos <strong>de</strong> la teoría <strong>de</strong> la evolución actual, nos sugiere una forma <strong>de</strong><br />

aproximarse a ciertos problemas, que Douglas Futuyma la resume así:<br />

“Darwin propuso una hipótesis (p.ej. selección natural), <strong>de</strong>dujo predicciones <strong>de</strong> qué<br />

<strong>de</strong>beríamos ver si fuera verda<strong>de</strong>ra o falsa, y juzgó su vali<strong>de</strong>z comparando observaciones con<br />

las predicciones. Este método hipotético-<strong>de</strong>ductivo ahora es usado ampliamente en ciencia.” [1]<br />

Es en este método hipotético-<strong>de</strong>ductivo don<strong>de</strong> el análisis bioinformático se vuelve fundamental:<br />

El es un lente a través <strong>de</strong>l cuál po<strong>de</strong>mos observar la información presente en gran<strong>de</strong>s<br />

volúmenes <strong>de</strong> datos.<br />

Tomemos un ejemplo frecuente: establecer las relaciones filogenéticas (esto es, el parentesco<br />

evolutivo) <strong>de</strong> un conjunto <strong>de</strong> especies biológicas. Partimos <strong>de</strong> la hipótesis (fundamentada por<br />

autores anteriores), que si dos especies son cercanas filogenéticamente, entonces <strong>de</strong>ben tener<br />

una secuencia <strong>de</strong> ADN similar.<br />

A partir <strong>de</strong> esta hipótesis nos preguntamos: ¿qué <strong>de</strong>beríamos observar si las especies <strong>de</strong><br />

verdad están relacionadas? Concluimos que, si seleccionamos segmentos a<strong>de</strong>cuados <strong>de</strong> ADN<br />

2


<strong>de</strong> las dos especies y <strong>los</strong> secuenciamos (o extraemos esta información <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong><br />

<strong>secuencias</strong> biológicas como GenBank), <strong>de</strong>bemos observar similitud entre las <strong>secuencias</strong>.<br />

Surge entonces la pregunta: ¿Cómo observamos que dos <strong>secuencias</strong> son similares?<br />

Los <strong>alineamientos</strong>, que son el tema <strong>de</strong> este capítulo, nos proporcionan una primera respuesta.<br />

Un alineamiento es “[...] la i<strong>de</strong>ntificación <strong>de</strong> correspon<strong>de</strong>ncias residuo-residuo. Cualquier<br />

asignación <strong>de</strong> correspon<strong>de</strong>ncias que preserve el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos <strong>de</strong>ntro <strong>de</strong> las<br />

<strong>secuencias</strong> es un alineamiento.” [2]<br />

Si <strong>los</strong> residuos <strong>de</strong> una secuencia tienen un alto grado <strong>de</strong> correspon<strong>de</strong>ncia con residuos <strong>de</strong> la<br />

otra secuencia, son similares y por tanto su cercanía evolutiva es probable.<br />

Hacer estas comparaciones a mano es dispendioso y poco práctico. Afortunadamente, el<br />

<strong>de</strong>sarrollo <strong>de</strong> <strong>los</strong> computadores – <strong>de</strong> manera indirecta – ha traído consigo la solución a este<br />

problema: La búsqueda en Internet, por ejemplo usando Google, requiere encontrar ca<strong>de</strong>nas<br />

<strong>de</strong> texto similares al término <strong>de</strong> interés y ya se han <strong>de</strong>sarrollado métodos <strong>de</strong> computador que<br />

permiten visualizar (gráficamente o por medio <strong>de</strong> la estadística) la similitud entre dos ca<strong>de</strong>nas<br />

<strong>de</strong> texto. Dado que el ADN se pue<strong>de</strong> escribir como una ca<strong>de</strong>na <strong>de</strong> texto en un alfabeto <strong>de</strong><br />

cuatro letras y las proteínas se pue<strong>de</strong>n codificar usando un alfabeto <strong>de</strong> 20 letras, es posible<br />

usar las mismas herramientas que han <strong>de</strong>sarrollado <strong>los</strong> ingenieros <strong>de</strong> sistemas y <strong>los</strong><br />

matemáticos, para fines biológicos.<br />

Este capítulo muestra varios métodos <strong>de</strong> alineamiento disponibles en línea y algunas<br />

aplicaciones comunes <strong>de</strong> éstos en la bioinformática. Saber escoger el método se vuelve <strong>de</strong><br />

suma importancia, pues cada uno parte <strong>de</strong> supuestos diferentes. Esto será <strong>de</strong>scrito con más<br />

<strong>de</strong>talle en la introducción <strong>de</strong>l siguiente capítulo. Por ahora basta recordar que si nuestros<br />

métodos son erróneos, nuestras conclusiones también lo son.<br />

[1] Futuyma, D., “Evolutionary Biology”, Tercera edición, Sinnauer Associates Inc., 1998, pág.<br />

30<br />

[2] Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161<br />

Conceptos importantes:<br />

Alineamientos<br />

“[...] la i<strong>de</strong>ntificación <strong>de</strong> correspon<strong>de</strong>ncias residuo-residuo. Cualquier asignación <strong>de</strong><br />

correspon<strong>de</strong>ncias que preserve el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos <strong>de</strong>ntro <strong>de</strong> las <strong>secuencias</strong> es un<br />

alineamiento.”<br />

Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161<br />

En términos coloquiales, alinear dos <strong>secuencias</strong> es poner una junto a la otra <strong>de</strong> forma que se<br />

resalten las diferencias y similitu<strong>de</strong>s, pero sin cambiar el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos.<br />

Hay varias maneras <strong>de</strong> hacer esto, aunque unas se prestan más a análisis que otras. Si<br />

queremos saber cuál <strong>de</strong> las dos <strong>secuencias</strong> es más larga, po<strong>de</strong>mos simplemente alinear el<br />

primer residuo <strong>de</strong> la primera ca<strong>de</strong>na con el primer residuo <strong>de</strong> la segunda y así sucesivamente<br />

para todos <strong>los</strong> residuos. El resultado es algo más o menos así:<br />

ESTOESUN<br />

ALINEAMIENTO<br />

De aquí se concluye rápidamente que la primera secuencia es más corta que la segunda.<br />

Sin embargo, usualmente nos interesa más saber si dos <strong>secuencias</strong> tienen sub<strong>secuencias</strong><br />

iguales en el mismo or<strong>de</strong>n. Por ejemplo, las palabras incrementado y cemento son muy<br />

similares en este sentido:<br />

3


I N C R E M E N T A D O<br />

- - C – E M E N T - - O<br />

De aquí concluímos que ambas comparten la subsecuencia “EMENT” y que las otras letras <strong>de</strong><br />

la palabra “cemento” (específicamente la “c” y la “o”) aparecen en el mismo or<strong>de</strong>n en<br />

“incrementado”.<br />

Otra forma <strong>de</strong> alinear estas dos <strong>secuencias</strong> sería:<br />

I N C R E M E N T A D O -<br />

- C – E - - - - M E N T O<br />

Sin embargo, este alineamiento no me permitiría ver la similitud que tienen las dos <strong>secuencias</strong>.<br />

Por tanto, nuestros análisis <strong>de</strong>pen<strong>de</strong>rán <strong>de</strong> la calidad <strong>de</strong>l alineamiento.<br />

Homología vs. Similitud<br />

“Similitud es la observación o medición <strong>de</strong> parecido y diferencia, in<strong>de</strong>pendiente <strong>de</strong>l<br />

origen <strong>de</strong> ese parecido. Homología significa, específicamente, que las <strong>secuencias</strong> y <strong>los</strong><br />

organismos en <strong>los</strong> que están presentes, <strong>de</strong>scien<strong>de</strong>n <strong>de</strong> un ancestro común [...]”<br />

Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 27<br />

En sentido estricto, la homología se refiere únicamente a un origen común entre dos<br />

caracteres. Por tanto, dos <strong>secuencias</strong> son homólogas o no homólogas y no hay ninguna<br />

gradación intermedia. Una situación similar <strong>de</strong>l mundo real es el embarazo: una mujer no<br />

pue<strong>de</strong> estar 50% embarazada: o está o no está, o no se sabe.<br />

Similitud, en cambio, es una medida <strong>de</strong>l parecido entre dos <strong>secuencias</strong> que pue<strong>de</strong> cuantificarse<br />

(por ejemplo, mediante el porcentaje <strong>de</strong> i<strong>de</strong>ntidad).<br />

Si bien no se ha adoptado consistentemente esta diferencia <strong>de</strong> términos en la literatura<br />

científica (algunos autores siguen usando la palabra homología cuando se refieren a similitud),<br />

es conveniente hacerla. Dos <strong>secuencias</strong> pue<strong>de</strong>n ser muy similares y sin embargo no ser<br />

homólogas (así como las alas <strong>de</strong> un murciélago y <strong>de</strong> una mariposa parecen iguales, pero no<br />

hay un ancestro común entre las mariposas y <strong>los</strong> murciélagos que tenga alas). De la misma<br />

manera, dos <strong>secuencias</strong> homólogas pue<strong>de</strong>n haber divergido mucho en la historia evolutiva,<br />

haciéndolas poco similares.<br />

Debido a que se ha usado la palabra homología en el contexto <strong>de</strong> similitud en muchas<br />

publicaciones, algunos autores han optado por usar <strong>los</strong> términos “ortólogas” y “parálogas” al<br />

referirse a <strong>secuencias</strong> con origen evolutivo común, que son más específicos. Dos <strong>secuencias</strong><br />

son ortólogas si fueron adquiridas por <strong>de</strong>scen<strong>de</strong>ncia vertical (por ejemplo, <strong>de</strong> madre a hijo) y<br />

son parálogas si están presentes en más <strong>de</strong> una copia en el mismo organismo y tuvieron el<br />

mismo origen (por ejemplo <strong>los</strong> genes y sus respectivos pseudogenes).<br />

I<strong>de</strong>ntidad<br />

“I<strong>de</strong>ntidad: [...] Cualidad <strong>de</strong> idéntico.”<br />

Diccionario <strong>de</strong> la Real Aca<strong>de</strong>mia <strong>de</strong> la Lengua Española<br />

Dos <strong>secuencias</strong> son idénticas si son iguales residuo a residuo. Sin embargo, para <strong>secuencias</strong><br />

que no son idénticas es útil tener una medida <strong>de</strong> qué tanto se alejan <strong>de</strong> serlo.<br />

Para esto se hace un alineamiento entre las dos <strong>secuencias</strong>, se cuenta el número <strong>de</strong> residuos<br />

que son idénticos y se divi<strong>de</strong> por la longitud <strong>de</strong>l alineamiento. Esto da el porcentaje <strong>de</strong><br />

i<strong>de</strong>ntidad.<br />

4


Por ejemplo, un alineamiento don<strong>de</strong> dos <strong>secuencias</strong> tienen la mitad <strong>de</strong> <strong>los</strong> residuos idénticos<br />

alineados uno con el otro (como el siguiente):<br />

HOLA<br />

BOTA<br />

Tiene un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 50%.<br />

Cuestionario:<br />

Primera pregunta:<br />

¿Cuál <strong>de</strong> <strong>los</strong> siguientes necesariamente es un par <strong>de</strong> características homólogas?<br />

a) Dos <strong>secuencias</strong> que alineadas tienen una i<strong>de</strong>ntidad <strong>de</strong>l 100%<br />

b) El cromosoma Y <strong>de</strong> dos hermanos (varones) <strong>de</strong>l mismo padre<br />

c) Dos proteínas que cumplen exactamente la misma función celular en dos organismos<br />

diferentes<br />

Respuesta:<br />

La respuesta correcta es la b), ya que un padre sólo tiene una copia <strong>de</strong> su cromosoma Y en<br />

cada célula y hereda este cromosoma a todos sus hijos varones. Los dos cromosomas Y, por<br />

tanto tienen un inmediato ancestro común.<br />

El hecho que dos <strong>secuencias</strong> sean idénticas no las hace automáticamente homólogas (aunque<br />

lo hace muy probable). Los telómeros son extremos <strong>de</strong> <strong>los</strong> cromosomas que se van acortando<br />

en cada replicación celular. Existe una enzima llamada telomerasa que <strong>los</strong> alarga, con una<br />

secuencia específica. Esta secuencia <strong>de</strong> ADN es idéntica en todos <strong>los</strong> humanos, sin embargo<br />

no es homóloga entre dos personas, pues es una repetición no presente en el ancestro común<br />

entre el<strong>los</strong>.<br />

De la misma forma se pue<strong>de</strong>n nombrar proteínas que cumplen la misma función en organismos<br />

distintos, y no son homólogas.<br />

Segunda pregunta:<br />

¿Cuál <strong>de</strong> <strong>los</strong> siguientes pares <strong>de</strong> palabras presenta mayor i<strong>de</strong>ntidad al alinearse?<br />

a) CALIBRE – COLIBRI<br />

b) MATERIA – LIBERIA<br />

c) COLEGIO – CARTERA<br />

d) GUANTES – DIENTES<br />

Respuesta:<br />

La respuesta correcta es la a), pues tienen un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 71% (=5 residuos<br />

compartidos dividido por 7 residuos en total).<br />

Tercera pregunta:<br />

Verda<strong>de</strong>ro o Falso:<br />

¿Or<strong>de</strong>nar alfabéticamente <strong>los</strong> residuos <strong>de</strong> cada secuencia y juntar <strong>los</strong> residuos iguales en cada<br />

una es un alineamiento?<br />

5


Ejemplo: ALFABETO y FABRICA<br />

A A B - E F - L O T - (ALFABETO)<br />

A A B C – F I - - - R (FABRICA)<br />

Respuesta:<br />

Falso. El or<strong>de</strong>n <strong>de</strong> <strong>los</strong> residuos en cada secuencia <strong>de</strong>be preservarse y en este caso, al or<strong>de</strong>nar<br />

alfabéticamente, esto no ocurre.<br />

La primera B <strong>de</strong> fábrica, por ejemplo, está antes <strong>de</strong> la F y <strong>de</strong>spués <strong>de</strong> la segunda A en el<br />

alineamiento, cuando el or<strong>de</strong>n correcto es FaBricA.<br />

Practiejemp<strong>los</strong>:<br />

1. Visualizando similitud entre <strong>secuencias</strong><br />

Practiejemplo A - El Dotplot<br />

El alineamiento <strong>de</strong> <strong>secuencias</strong> es la herramienta más importante <strong>de</strong> la bioinformática<br />

actualmente. Para empezar a enten<strong>de</strong>r porqué conviene realizar <strong>alineamientos</strong>, empecemos<br />

explorando una herramienta para visualizar el parecido entre dos <strong>secuencias</strong>: el Dotplot.<br />

1. Ingrese a la siguiente página Web, que contiene un pequeño tutorial acerca <strong>de</strong>l Dotplot:<br />

http://imagebeat.com/dotplot/<br />

Si bien no está pensada para explicar las aplicaciones biológicas <strong>de</strong> un Dotplot, sirve<br />

para ilustrar el concepto.<br />

2. Haga clic en el vínculo “Overview” que se encuentra en la parte inferior <strong>de</strong> la página.<br />

Esto lo lleva a la <strong>de</strong>scripción <strong>de</strong> qué es un Dotplot.<br />

3. Como notará, es una forma <strong>de</strong> representar la similitud entre dos <strong>secuencias</strong> <strong>de</strong> texto<br />

mediante tablas. En el ejemplo con el texto “to be or not to be” la tabla tiene un punto<br />

en todas las celdas (esto es, cruces entre fila y columna) en don<strong>de</strong> la palabra en la fila<br />

y la columna es la misma.<br />

Naturalmente, todas las celdas en la diagonal principal <strong>de</strong> la tabla tendrán un punto.<br />

Pero lo interesante es ver lo que ocurre por fuera <strong>de</strong> la diagonal o cuando tenemos una<br />

secuencia en or<strong>de</strong>n vertical y otra diferente en or<strong>de</strong>n horizontal.<br />

4. Haga clic en el vínculo “interpretation” <strong>de</strong> la parte inferior. Esta página resume algunos<br />

patrones comunes que se pue<strong>de</strong>n visualizar.<br />

5. Note, por ejemplo, cómo i<strong>de</strong>ntificar si una sub-secuencia está repetida <strong>de</strong>ntro <strong>de</strong> la<br />

secuencia completa (el ejemplo <strong>de</strong> abc<strong>de</strong>fghiabc<strong>de</strong>fghi). La sub-secuencia que se<br />

repite aparece como un par <strong>de</strong> líneas paralelas a la diagonal principal.<br />

6. También existe la posibilidad <strong>de</strong> encontrar inserciones en una <strong>de</strong> las sub-<strong>secuencias</strong><br />

que se repiten. En lugar <strong>de</strong> tener una línea continua (paralela a la diagonal principal),<br />

se tiene una línea fragmentada – como si hubieran cortado y movido un pedazo <strong>de</strong> la<br />

línea original.<br />

7. Estudie también la forma <strong>de</strong> visualizar reor<strong>de</strong>namientos. ¿Cómo <strong>de</strong>scribiría este<br />

patrón?<br />

6


8. Otro aspecto a resaltar son <strong>los</strong> cuadrados. No se necesita tener una secuencia con<br />

repetición consecutiva <strong>de</strong> una sola letra (por ejemplo aaaaaaaaaa) para obtener un<br />

patrón en forma <strong>de</strong> cuadrado. Mire el dibujo <strong>de</strong> la izquierda que está junto al título<br />

“Shuffling”. Como notará, <strong>los</strong> cuadrados permiten reconocer letras que están sobrerepresentadas<br />

en una muestra, sin importar si son consecutivas o no.<br />

9. Ahora vuelva a la página principal haciendo clic en “dotplot”. Des<strong>de</strong> ahí haga clic en el<br />

vínculo “try a simplified perl version of dotplot”.<br />

10. Ingrese la frase “LAS CATARATAS DEL NIAGARA” en la casilla <strong>de</strong> texto, y haga clic<br />

en el botón “build dotplot!”. Notará que hay zonas con más <strong>de</strong>nsidad <strong>de</strong> puntos y zonas<br />

con menos <strong>de</strong>nsidad. Esto se <strong>de</strong>be a que en las zonas <strong>de</strong> más intensidad está más<br />

representada la letra “A” que en las otras.<br />

Ejercicio:<br />

Ahora imagine que en lugar <strong>de</strong>l texto “LAS CATARATAS DEL NIAGARA” tenemos la<br />

secuencia “corriente arriba” <strong>de</strong> un gen. Si hay una región en don<strong>de</strong> las letras A y T<br />

están sobre-representadas, podríamos empezar a sospechar <strong>de</strong> la existencia <strong>de</strong> cajas<br />

TATA: una primera aplicación biológica <strong>de</strong>l dotplot.<br />

¿Qué es la secuencia corriente arriba <strong>de</strong> un gen y la caja TATA?<br />

Los genes tienen un inicio <strong>de</strong> transcripción que es el lugar en el ADN don<strong>de</strong><br />

empieza a sintetizarse el primer nucleótido <strong>de</strong>l mRNA. Todo el ADN que está<br />

antes <strong>de</strong>l inicio <strong>de</strong> transcripción se conoce como la región corriente arriba <strong>de</strong>l<br />

gen.<br />

En <strong>los</strong> eucariontes (organismos con sistema <strong>de</strong> membranas internos, es <strong>de</strong>cir,<br />

no bacterias ni arqueobacterias) hay un región conocida como la caja TATA<br />

(llamada así por la sobre-representación <strong>de</strong> <strong>los</strong> nucleótidos A<strong>de</strong>nina y Timina),<br />

que facilita la transcripción <strong>de</strong>l gen. Si en lugar <strong>de</strong> Timina y A<strong>de</strong>nina tenemos<br />

otros nucleótidos en esta parte especial <strong>de</strong> la secuencia, la cantidad <strong>de</strong> mRNA<br />

que se sintetizará será menor.<br />

Ingrese la palabra “RECONOCER” <strong>de</strong>ntro <strong>de</strong> la casilla <strong>de</strong> texto y presione “build dotplot!”. ¿Qué<br />

logra reconocer acerca <strong>de</strong> esta palabra mirando el patrón? ¿Qué relación guarda con las<br />

<strong>secuencias</strong> <strong>de</strong> reconocimiento <strong>de</strong> una enzima <strong>de</strong> restricción?<br />

Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad<br />

Uno <strong>de</strong> <strong>los</strong> inconvenientes <strong>de</strong>l Dotplot a la hora <strong>de</strong> analizar dos <strong>secuencias</strong> <strong>de</strong> ADN es que<br />

éste se compone únicamente <strong>de</strong> cuatro letras: A, T, G, C. Esto hace que el número <strong>de</strong><br />

coinci<strong>de</strong>ncias sea muy alto. Para arreglar este problema se ha creado Dotlet. En esencia es un<br />

Dotplot, pero permite graduar la selectividad/sensibilidad <strong>de</strong> nuestra vista para mostrar u<br />

ocultar patrones específicos.<br />

En este ejemplo apren<strong>de</strong>remos a cargar y visualizar una secuencia en Dotlet.<br />

1. Haga clic en el siguiente vínculo para ir a la página <strong>de</strong> Dotlet.<br />

http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html<br />

Necesita tener instalada en su computador la máquina virtual <strong>de</strong> Java para po<strong>de</strong>r usar<br />

Dotlet. Si no tiene Java instalado, pue<strong>de</strong> <strong>de</strong>scargarlo aquí:<br />

http://www.java.com/es/<br />

7


2. Vamos a dar <strong>los</strong> primeros pasos en la visualización. Para enten<strong>de</strong>r<strong>los</strong> mejor pue<strong>de</strong><br />

visitar la página <strong>de</strong> ayuda (haciendo clic en el vínculo “need help?”).<br />

3. Todo inicia con la barra <strong>de</strong> menú <strong>de</strong> Dotlet. Si no ha introducido ninguna secuencia<br />

aún, el único botón activo es “input”. Presione este botón.<br />

4. Aparece una ventana don<strong>de</strong> <strong>de</strong>be pegar su secuencia. Haga clic en el siguiente vínculo<br />

para abrir la ventana que contiene la secuencia que va a pegar ahí:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Dotlet01.txt<br />

Póngale el nombre Dotlet01. Cuando haya pegado la secuencia e ingresado el nombre<br />

haga clic en OK.<br />

Esta secuencia correspon<strong>de</strong> a una proteína <strong>de</strong> Drosophila melanogaster que tiene<br />

repetición <strong>de</strong> dominios.<br />

5. Note que <strong>los</strong> menús <strong>de</strong>splegables ahora están habilitados. En nuestro caso, <strong>los</strong><br />

primeros dos no son <strong>de</strong> mucha utilidad, pues sólo hemos ingresado una secuencia. Si<br />

requiere alinear dos <strong>secuencias</strong> diferentes una contra la otra (por ejemplo, un mRNA<br />

con su ADN respectivo), <strong>de</strong>be ingresarlas una tras otra presionando el botón input y<br />

luego seleccionar <strong>de</strong> estos menús las <strong>secuencias</strong> a comparar.<br />

El menú <strong>de</strong>splegable tres presenta diferentes opciones: I<strong>de</strong>ntity, B<strong>los</strong>um, PAM, Gonnet.<br />

Por ahora nos quedaremos con la opción “I<strong>de</strong>ntity” que, como el nombre lo indica, pone<br />

un punto en la tabla sólo si <strong>los</strong> residuos <strong>de</strong> la fila y la columna son idénticos. Las<br />

matrices B<strong>los</strong>um y PAM serán estudiadas en el capítulo 6 y no entraremos en <strong>de</strong>talles<br />

<strong>de</strong> ellas aquí.<br />

El siguiente menú <strong>de</strong>splegable es el primer nivel <strong>de</strong> filtrado <strong>de</strong>l que disponemos y se<br />

llama tamaño <strong>de</strong> ventana.<br />

¿Qué es el tamaño <strong>de</strong> ventana?<br />

La ventana es una <strong>de</strong> las características que diferencia al Dotlet <strong>de</strong>l Dotplot,<br />

que aumenta la astringencia (selectividad).<br />

Recor<strong>de</strong>mos que en el Dotplot se dibuja un punto don<strong>de</strong> coinci<strong>de</strong>n <strong>los</strong> residuos<br />

<strong>de</strong> ambas ca<strong>de</strong>nas. Esto genera un patrón muy difícil <strong>de</strong> leer si las<br />

coinci<strong>de</strong>ncias son frecuentes.<br />

El Dotlet en cambio, no compara residuo a residuo sino en grupos <strong>de</strong> n<br />

residuos contra n residuos, don<strong>de</strong> n es el tamaño <strong>de</strong> ventana.<br />

Si <strong>los</strong> n residuos son iguales, dibuja un punto negro. Si ningún residuo está<br />

compartido, dibuja un punto blanco. Si la cantidad <strong>de</strong> residuos está entre 0 y n-<br />

1, dibuja un punto gris, cuya intensidad <strong>de</strong>pen<strong>de</strong> <strong>de</strong> la cantidad <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s.<br />

Si, por ejemplo, tenemos una ventana <strong>de</strong> 3 residuos y tenemos como palabras:<br />

ABCDEFGH<br />

JKCDEFGM<br />

Se dibujará un punto negro en el cruce entre las dos “D”, las dos “E” y las dos<br />

“F”, ya que sus dos residuos vecinos también coinci<strong>de</strong>n. A<strong>de</strong>más, se dibujarán<br />

puntos grises en la intersección <strong>de</strong> las letras “C” y “G”, pues si bien coinci<strong>de</strong>n,<br />

no están en un grupo <strong>de</strong> 3 residuos consecutivos.<br />

Por el momento <strong>de</strong>jemos ese parámetro en 15.<br />

8


El último menú <strong>de</strong>splegable permite graduar el Zoom. Para este ejemplo particular,<br />

escojamos un Zoom <strong>de</strong> 1:5.<br />

6. Al hacer clic en “compute” se genera nuestra representación gráfica. Es evi<strong>de</strong>nte la<br />

línea blanca en la diagonal principal, que es la misma que vimos en todos <strong>los</strong> Dotplot<br />

<strong>de</strong>l ejemplo pasado. Sin embargo, las otras líneas se ven difusas.<br />

Para mejorar esto usemos <strong>los</strong> controles que están a la <strong>de</strong>recha <strong>de</strong>l gráfico. En ella, se<br />

ve un histograma en la parte central, y dos barras <strong>de</strong> <strong>de</strong>slizamiento: una arriba y otra<br />

abajo. Ajuste la barra <strong>de</strong> <strong>de</strong>slizamiento superior moviéndola totalmente a la izquierda y<br />

la barra <strong>de</strong> <strong>de</strong>splazamiento inferior completamente a la <strong>de</strong>recha. Hasta ahora sólo<br />

cambió el color, <strong>de</strong> forma que lo que era blanco ahora es negro y viceversa.<br />

Luego, mueva poco a poco las barras <strong>de</strong> <strong>de</strong>splazamiento hacia el centro, y note que<br />

mientras lo hace van <strong>de</strong>sapareciendo las líneas más claras y resaltándose las más<br />

oscuras.<br />

Con algo <strong>de</strong> práctica, la imagen se parecerá a la que se encuentra en la siguiente<br />

página Web:<br />

http://www.isrec.isb-sib.ch/java/dotlet/repeats.html<br />

Lea el texto que aparece en esta página. ¿Nota como se pue<strong>de</strong>n distinguir dominios<br />

repetidos en una proteína mediante Dotlet?<br />

7. En la parte inferior <strong>de</strong> la página <strong>de</strong>l Dotlet está el alineamiento entre <strong>los</strong> residuos. Si<br />

hace clic (con suficiente precisión) sobre una <strong>de</strong> las líneas oscuras, verá en la parte<br />

inferior cuáles residuos son idénticos alre<strong>de</strong>dor <strong>de</strong> esa fila-columa particular.<br />

Pruebe lo siguiente: haga clic cerca <strong>de</strong> la diagonal principal y presione las flechas en el<br />

teclado hasta estar seguro que el cursor se encuentra sobre ésta. ¿Ve como todos <strong>los</strong><br />

residuos se alinean unos con otros, resaltados en azul? Ahora presione alguna <strong>de</strong> las<br />

flechas <strong>de</strong>l teclado, para tener como referencia un alineamiento corrido en un residuo.<br />

¿Nota la diferencia en la cantidad <strong>de</strong> i<strong>de</strong>ntida<strong>de</strong>s?<br />

En este ejemplo logró i<strong>de</strong>ntificar dominios repetidos en una proteína usando únicamente la<br />

secuencia. Note la diferencia que supone esto con analizar la estructura tridimensional <strong>de</strong> la<br />

molécula mediante cristalografía <strong>de</strong> rayos X, que es un procedimiento largo y complicado.<br />

Sin embargo, no sobra recalcar que mediante Dotlet sólo po<strong>de</strong>mos plantear la hipótesis <strong>de</strong> que<br />

hay dominios repetidos. Para comprobarlo es necesario un experimento, como <strong>de</strong>terminar la<br />

estructura tridimensional.<br />

Dos conceptos que vimos en el capítulo 1 adquieren aquí especial importancia: selectividad y<br />

sensibilidad. Para po<strong>de</strong>r resaltar las características <strong>de</strong> la molécula <strong>de</strong>bemos ocultar<br />

selectivamente el ruido, pero ser suficientemente sensibles para ver más que sólo la i<strong>de</strong>ntidad<br />

<strong>de</strong> la diagonal principal.<br />

Ejercicio:<br />

Repita el ejercicio, esta vez con las <strong>secuencias</strong> que se encuentran en la página:<br />

http://www.isrec.isb-sib.ch/java/dotlet/exonintron.html<br />

Requiere presionar el botón “input” dos veces, para po<strong>de</strong>r ingresar las dos <strong>secuencias</strong>. Debe<br />

po<strong>de</strong>r ver la imagen <strong>de</strong> forma casi idéntica a la <strong>de</strong>l ejemplo.<br />

9


2. Tipos <strong>de</strong> <strong>alineamientos</strong><br />

Practiejemplo A – Alineamientos globales<br />

El Dotplot es una herramienta sumamente útil para visualizar patrones generales entre dos<br />

<strong>secuencias</strong> o una secuencia consigo misma. Sin embargo, es poco práctico si lo que se quiere<br />

es <strong>de</strong>terminar qué aminoácidos específicos están compartidos en las dos <strong>secuencias</strong>.<br />

En este caso, lo más conveniente es alinear las dos <strong>secuencias</strong> y comparar <strong>los</strong> cambios<br />

residuo a residuo. En este capítulo veremos la primera <strong>de</strong> estas herramientas: LAlign. Veremos<br />

que hay varias formas <strong>de</strong> “poner una secuencia junto a la otra”, cada una más o menos útil<br />

<strong>de</strong>pendiendo <strong>de</strong>l problema que estudiemos.<br />

Vamos a empezar con el siguiente ejemplo:<br />

Suponga que se tienen dos <strong>secuencias</strong> que usted sabe que son homólogas, pero que han<br />

cambiado mucho entre sí <strong>de</strong>bido a mutaciones. ¿Cómo i<strong>de</strong>ntifica las mutaciones que<br />

ocurrieron?<br />

Para simular esto, tenemos la secuencia <strong>de</strong> la ca<strong>de</strong>na beta <strong>de</strong> la hemoglobina original y una<br />

ca<strong>de</strong>na a la que he añadido algunas mutaciones:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign01.txt<br />

Vamos a explorar la forma <strong>de</strong> encontrar las mutaciones.<br />

1. Empiece en la página <strong>de</strong> LAlign haciendo clic en:<br />

http://www.ch.embnet.org/software/LALIGN_form.html<br />

2. Des<strong>de</strong> ahí seleccione la opción “global” que nos permite alinear la totalidad <strong>de</strong> las dos<br />

<strong>secuencias</strong>.<br />

3. Por el momento no cambie más parámetros. Sólo ingrese las <strong>secuencias</strong> en <strong>los</strong><br />

recuadros correspondientes (ingréselas sin la línea inicial <strong>de</strong> <strong>de</strong>scripción) y póngales<br />

nombre, como por ejemplo “Silvestre” y “Mutante”.<br />

Luego haga clic en “Run LAlign” para realizar el alineamiento.<br />

Resaltando conceptos: Alineamiento<br />

El resultado que aparece tras hacer clic en “Run LAlign” es un alineamiento<br />

entre las <strong>secuencias</strong>.<br />

En este caso contamos con el mejor alineamiento que se pue<strong>de</strong> realizar entre<br />

las dos <strong>secuencias</strong> <strong>de</strong> forma que estén representados todos <strong>los</strong> residuos <strong>de</strong><br />

cada una (<strong>de</strong> ahí el término “global”).<br />

4. La página que aparece empieza con un resumen <strong>de</strong>l alineamiento, mostrando el<br />

número <strong>de</strong> aminoácidos <strong>de</strong> cada secuencia junto con el porcentaje <strong>de</strong> i<strong>de</strong>ntidad en el<br />

alineamiento. En este caso es <strong>de</strong>l 85%.<br />

Debajo aparece el alineamiento. Si dos residuos son idénticos, hay dos puntos que las<br />

unen. A<strong>de</strong>más, si hay un aminoácido que no tiene contraparte en la otra ca<strong>de</strong>na (que<br />

es el caso cuando hay inserciones o <strong>de</strong>leciones) aparece un guión llamado gap.<br />

¿Cuantas mutaciones puntuales hay? ¿Cuántas inserciones y <strong>de</strong>leciones? ¿De qué<br />

tamaño son estas inserciones?<br />

10


Resaltando conceptos: I<strong>de</strong>ntidad<br />

Si cuenta <strong>los</strong> aminoácidos que están alineados idénticamente, notará que son<br />

130. Dividiendo este valor por la longitud <strong>de</strong>l alineamiento, que es 153 (147<br />

aminoácidos + 6 gaps) obtiene 0,8497 ó 85%. Es exactamente el valor <strong>de</strong><br />

i<strong>de</strong>ntidad que aparece en el resumen.<br />

5. A<strong>de</strong>más <strong>de</strong> <strong>los</strong> aminoácidos alineados idénticamente, algunos aminoácidos están<br />

conectados con un punto, por ejemplo el aminoácido 11 <strong>de</strong> la ca<strong>de</strong>na silvestre (A –<br />

Alanina) y el aminoácido 10 <strong>de</strong> la ca<strong>de</strong>na mutante (V – Valina). Esto ocurre, porque la<br />

Alanina y la Valina tienen propieda<strong>de</strong>s fisicoquímicas similares. Ambos son<br />

aminoácidos alifáticos pequeños. Un cambio <strong>de</strong> este estilo en una proteína<br />

probablemente no afectará mucho la función, a no ser que ocurra en el sitio activo.<br />

En cambio, el aminoácido 135 <strong>de</strong> la ca<strong>de</strong>na silvestre (V - Valina) y el aminoácido 134<br />

<strong>de</strong> la ca<strong>de</strong>na mutante (K – Lisina) tienen propieda<strong>de</strong>s muy diferentes. El primero es<br />

pequeño y alifático y el segundo es relativamente gran<strong>de</strong> y cargado positivamente.<br />

Debido a esta diferencia no hay ningún símbolo entre estos aminoácidos.<br />

El punto es mostrar que la representación gráfica <strong>de</strong>l alineamiento (con dos puntos<br />

entre i<strong>de</strong>ntida<strong>de</strong>s y un punto entre aminoácidos con propieda<strong>de</strong>s similares) es una<br />

fuente <strong>de</strong> información adicional.<br />

En este ejercicio se aprendió a hacer <strong>alineamientos</strong> globales y a conocer <strong>los</strong> gaps. Los<br />

<strong>alineamientos</strong> globales son especialmente útiles a la hora <strong>de</strong> comparar dos genes en toda su<br />

longitud o al momento <strong>de</strong> establecer sobrelapamientos (ver el ejercicio para un caso <strong>de</strong> este<br />

estilo). Sin embargo, cuando <strong>de</strong>bemos suponer que sólo algunas regiones están conservadas<br />

es mejor usar otro método <strong>de</strong> alineamiento, que es el tema <strong>de</strong>l siguiente practiejemplo.<br />

Ejercicio:<br />

En el siguiente vínculo encontrará dos <strong>secuencias</strong>: Una <strong>de</strong> un mRNA y la otra <strong>de</strong> la región <strong>de</strong><br />

DNA correspondiente:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign02.txt<br />

¿Cuántos intrones (<strong>secuencias</strong> presentes en el ADN pero no en el mRNA) hay? ¿Cuál es la<br />

longitud en pares <strong>de</strong> bases <strong>de</strong>l primer intrón?<br />

Practiejemplo B – Alineamientos locales<br />

En el ejemplo se introdujeron mutaciones en la proteína <strong>de</strong> manera indiscriminada. Sin<br />

embargo, en la naturaleza esto no suele ser así. Las mutaciones tien<strong>de</strong>n a acumularse más<br />

difícilmente en zonas cercanas al sitio activo <strong>de</strong> la proteína, pues las mutaciones en este sitio<br />

suelen afectar su función y por tanto a ser excluidas <strong>de</strong> la población por selección natural.<br />

Alinear globalmente nos permitiría <strong>de</strong>tectar que hay cambios en las dos <strong>secuencias</strong>, pero no<br />

nos permitiría resaltar aquellas regiones que tienen alta conservación, in<strong>de</strong>pendientemente <strong>de</strong><br />

la secuencia que las ro<strong>de</strong>a. Es posible que al alinear globalmente nuestras dos <strong>secuencias</strong><br />

hallemos regiones conservadas, pero al alinear globalmente <strong>de</strong>bemos preservar el or<strong>de</strong>n <strong>de</strong><br />

nuestras <strong>secuencias</strong> y esto pue<strong>de</strong> ocultarnos información.<br />

Alinear localmente en cambio, nos permite encontrar sub-<strong>secuencias</strong> que tienen alta<br />

similitud. Veamos un ejemplo don<strong>de</strong> es más conveniente hacer <strong>alineamientos</strong> locales.<br />

1. Inicie en el formulario principal <strong>de</strong> LAlign:<br />

http://www.ch.embnet.org/software/LALIGN_form.html<br />

11


2. Des<strong>de</strong> ahí, seleccione inicialmente la opción “global” e inserte las siguientes<br />

<strong>secuencias</strong> en las casillas <strong>de</strong> texto respectivas:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign03.txt<br />

Luego haga clic en “Run lalign”<br />

3. Notará que las <strong>secuencias</strong> (alineadas globalmente) son mo<strong>de</strong>radamente similares.<br />

Tienen un porcentaje <strong>de</strong> i<strong>de</strong>ntidad <strong>de</strong>l 33.3% y son especialmente conservadas en <strong>los</strong><br />

extremos. Parecería que la región <strong>de</strong>l medio no contiene i<strong>de</strong>ntida<strong>de</strong>s interesantes.<br />

4. Ahora vuelva al formulario haciendo clic en el botón “atrás” <strong>de</strong> su navegador y<br />

seleccione la opción “local (<strong>de</strong>fault)”. Vuelva a hacer clic sobre el botón “Run lalign”.<br />

5. Contrario a lo que concluimos en el alineamiento global, hay zonas con alto grado <strong>de</strong><br />

i<strong>de</strong>ntidad. Hay una sub-secuencia con un 95% <strong>de</strong> i<strong>de</strong>ntidad extendida por 40<br />

aminoácidos, así como hay una sub-secuencia con un 100% <strong>de</strong> i<strong>de</strong>ntidad con 37<br />

aminoácidos <strong>de</strong> longitud.<br />

Tómese su tiempo<br />

Pue<strong>de</strong> verificar esta afirmación en Dotlet. Hágalo (usando un tamaño <strong>de</strong><br />

ventana gran<strong>de</strong> y seleccionando la matriz “i<strong>de</strong>ntity”) y note que lo que ha<br />

ocurrido es un rearreglo <strong>de</strong> la secuencia:<br />

En el Dotlet hay dos líneas paralelas. Una está en la parte inferior izquierda y la<br />

otra está en la parte superior <strong>de</strong>recha. Si usted posiciona el cursor sobre<br />

cualquiera <strong>de</strong> estas líneas notará en la parte inferior <strong>de</strong> la página (don<strong>de</strong> están<br />

las <strong>secuencias</strong>) las regiones <strong>de</strong> las <strong>secuencias</strong> que son idénticas.<br />

¿Es el alineamiento global en general más malo que el local? No. Lo que sí se pue<strong>de</strong><br />

<strong>de</strong>cir es que para este ejemplo específico, don<strong>de</strong> queremos buscar regiones<br />

conservadas, es más conveniente un alineamiento local que uno global.<br />

6. Observe algo que al principio parece contradictorio. Como es lógico, <strong>los</strong> <strong>alineamientos</strong><br />

en la página <strong>de</strong> resultados se or<strong>de</strong>nan <strong>de</strong> mejor a peor. Esto es: el <strong>de</strong> arriba nos da el<br />

mayor grado <strong>de</strong> certeza <strong>de</strong> que hay sub-<strong>secuencias</strong> en común (en el caso que<br />

sospechemos que las dos <strong>secuencias</strong> son homólogas, el primer alineamiento nos<br />

proporciona más evi<strong>de</strong>ncia que <strong>los</strong> otros).<br />

Sin embargo, el primer alineamiento tiene un porcentaje <strong>de</strong> i<strong>de</strong>ntidad menor que el<br />

segundo. ¿Por qué es mejor entonces?<br />

Podría argumentarse que el primer alineamiento es más largo que el segundo, y por<br />

eso está <strong>de</strong> primero. Sin embargo, esta es sólo una respuesta parcial. El alineamiento<br />

global (por <strong>de</strong>finición) es más largo que <strong>los</strong> dos, y no es mejor.<br />

Lo i<strong>de</strong>al es una mezcla entre <strong>los</strong> dos valores: i<strong>de</strong>ntidad y longitud. Dos estadísticos que<br />

tienen en cuenta ambos valores a la vez son el “Score” y el “e-value” (es el valor que<br />

está a la <strong>de</strong>recha <strong>de</strong> “E(10,000)”, en la misma fila <strong>de</strong>l porcentaje <strong>de</strong> i<strong>de</strong>ntidad).<br />

El primer alineamiento tiene un Score <strong>de</strong> 251, el segundo <strong>de</strong> 232 y el tercero <strong>de</strong> 155.<br />

Entre mayor sea el Score, mejor es el alineamiento.<br />

De manera similar, para el primer alineamiento el “e-value” es 6e-17 (esto es, un cero,<br />

una coma, 16 ceros y un “6” al final; un número muy pequeño), para el segundo es<br />

2.9e-15 y para el tercero es 0.0046 (verifique estos números). Entre menor sea el “evalue”,<br />

mejor es el alineamiento.<br />

12


En el siguiente capítulo apren<strong>de</strong>remos qué se tiene en cuenta al calcular un Score y un<br />

“e-value”, y cómo éste último se relaciona con la probabilidad <strong>de</strong> que el alineamiento<br />

conseguido se <strong>de</strong>ba únicamente al azar.<br />

Recuer<strong>de</strong>: cuando usted hace un alineamiento global está suponiendo que tiene en frente<br />

<strong>secuencias</strong> homólogas y va a comparar su historia evolutiva al analizar <strong>los</strong> cambios que se han<br />

presentado.<br />

Cuando usted hace <strong>alineamientos</strong> locales usted estudia la conservación local <strong>de</strong> sus residuos.<br />

Esto le permite inferir (en caso que la similitud no sea explicable razonablemente por azar) que<br />

las dos proteínas son homólogas.<br />

Note el or<strong>de</strong>n <strong>de</strong> <strong>los</strong> supuestos. En el primer caso está suponiendo homología y en el segundo<br />

la está verificando.<br />

¿Cómo se relacionan <strong>los</strong> conceptos selectividad y sensibilidad con este ejemplo?<br />

Ejercicio:<br />

En la siguiente página hay una proteína humana y una proteína que se aisló <strong>de</strong>l gallo:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/LAlign04.txt<br />

¿Hay razón para creer que estas proteínas son homólogas? Argumente su respuesta. También<br />

explique qué método <strong>de</strong> alineamiento escogió y por qué.<br />

Practiejemplo C – ¿Cómo encontrar <strong>secuencias</strong> en bases <strong>de</strong> datos mediante<br />

<strong>alineamientos</strong>?<br />

En este ejemplo vamos a utilizar por primera vez el programa BLAST (Basic Local Alignment<br />

Search Tool). Este programa es para la bioinformática como el martillo es para el carpintero.<br />

Sin él, la caja <strong>de</strong> herramientas no pue<strong>de</strong> estar completa. Tan importante es, que <strong>de</strong>dicaremos<br />

toda una sección <strong>de</strong>l próximo capítulo para estudiarlo mejor.<br />

Sin embargo, no sobra dar un llamado <strong>de</strong> alerta. Es fácil caer en la tentación <strong>de</strong> usar BLAST<br />

para todos <strong>los</strong> problemas bioinformáticos. Al hacerlo, nos olvidamos que BLAST sigue siendo<br />

como un martillo: una herramienta más. Todo resultado que obtengamos con BLAST <strong>de</strong>bemos<br />

justificarlo rigurosamente. Esto se consigue conociendo BLAST más a fondo. Pero por ahora<br />

basta con una corta introducción.<br />

1. Ingrese a la página principal <strong>de</strong>l NCBI:<br />

http://www.ncbi.nlm.nih.gov/<br />

2. Des<strong>de</strong> ahí, haga clic en el vínculo “BLAST” que está encima <strong>de</strong> la casilla <strong>de</strong> búsqueda.<br />

Esto lo lleva a la página principal <strong>de</strong> BLAST.<br />

3. El párrafo <strong>de</strong> introducción resume la funcionalidad <strong>de</strong>l programa.<br />

Lo primero que hay que notar es que BLAST (como su nombre lo indica) hace<br />

<strong>alineamientos</strong> locales, para buscar <strong>secuencias</strong> similares a un ‘query’ en una base <strong>de</strong><br />

datos. En esta <strong>de</strong>scripción también sugieren tres usos: inferir relaciones funcionales y<br />

relaciones evolutivas e i<strong>de</strong>ntificar miembros <strong>de</strong> una familia <strong>de</strong> genes.<br />

4. Lo siguiente es darse cuenta que hay muchas formas diferentes <strong>de</strong> hacer BLAST. Las<br />

gran<strong>de</strong>s divisiones son: Nucleótidos, proteínas, traducciones, BLAST genómico y<br />

“BLASTs” especiales.<br />

13


El tipo <strong>de</strong> BLAST a seleccionar <strong>de</strong>pen<strong>de</strong> <strong>de</strong> varios factores, entre el<strong>los</strong>:<br />

a) la naturaleza <strong>de</strong> nuestra secuencia (¿es ADN o proteína?)<br />

b) la base <strong>de</strong> datos que queremos son<strong>de</strong>ar (¿queremos buscar en toda la base<br />

<strong>de</strong> datos, o restringirnos a un tipo <strong>de</strong> molécula especial u organismo<br />

particular?)<br />

c) la hipótesis que queremos comprobar (¿estamos buscando <strong>secuencias</strong><br />

potencialmente homólogas a la nuestra o más bien la posición <strong>de</strong> nuestra<br />

secuencia en un genoma particular?)<br />

d) <strong>los</strong> supuestos acerca <strong>de</strong> nuestros resultados (si buscamos <strong>secuencias</strong><br />

homólogas, ¿esperamos encontrar alta o baja conservación?)<br />

En este ejemplo vamos a usar sólo un tipo: El BLAST a un genoma particular.<br />

5. Como ejemplo, vamos a suponer que hemos aislado y secuenciado un pedazo <strong>de</strong> ADN<br />

humano al que se une un factor <strong>de</strong> transcripción que estamos estudiando (en el<br />

Practiejemplo 2C <strong>de</strong>l capítulo 3 se habló brevemente acerca <strong>de</strong> <strong>los</strong> factores <strong>de</strong><br />

transcripción).<br />

La secuencia es la siguiente:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Blast01.txt<br />

¿Cómo saber qué gen es regulado por este factor <strong>de</strong> transcripción? Lo más a<strong>de</strong>cuado<br />

es alinear esta secuencia con el genoma humano y ver en qué cromosoma<br />

encontramos la mayor i<strong>de</strong>ntidad. Posteriormente analizaremos qué genes se<br />

encuentran flanqueando esta secuencia. Esto nos dará una hipótesis <strong>de</strong> trabajo muy<br />

buena.<br />

6. En la página principal <strong>de</strong> BLAST, haga clic en “Human” bajo la categoría “Genomes”.<br />

Luego ingrese la secuencia en la casilla <strong>de</strong> búsqueda y haga clic en “Begin Search”.<br />

7. Aparece una ventana en don<strong>de</strong> nos informan que nuestra solicitud ha sido puesta en<br />

una lista <strong>de</strong> espera. ¡A diferencia <strong>de</strong>l ejemplo anterior, don<strong>de</strong> comparábamos dos<br />

<strong>secuencias</strong> <strong>de</strong> no más <strong>de</strong> 300 aminoácidos una contra la otra, en este caso<br />

necesitamos comparar nuestra secuencia con <strong>los</strong> 3000 millones <strong>de</strong> bases <strong>de</strong>l genoma<br />

humano! Esto toma algún tiempo (en mi caso: “4 segundos, pero pue<strong>de</strong> ser menos”).<br />

8. Tras esperar un tiempo, haga clic sobre el botón “Format!”<br />

9. Si esperó lo suficiente verá la página <strong>de</strong> resultados. Con el uso se acostumbrará al<br />

formato <strong>de</strong> esta página.<br />

Éste se divi<strong>de</strong> en tres secciones. La primera tiene información general acerca <strong>de</strong> la<br />

búsqueda, con la fecha <strong>de</strong> realización, el RID que es un número único <strong>de</strong> i<strong>de</strong>ntificación<br />

<strong>de</strong> este resultado, la base <strong>de</strong> datos que se utilizó, etc.<br />

La segunda sección tiene <strong>los</strong> <strong>alineamientos</strong> – primero en forma gráfica y luego <strong>de</strong><br />

forma similar a como aparecen en LAlign.<br />

Al final aparece un resumen <strong>de</strong> <strong>los</strong> parámetros <strong>de</strong> BLAST al hacer esta búsqueda,<br />

a<strong>de</strong>más <strong>de</strong> unos estadísticos.<br />

En este momento nos vamos a centrar en la sección <strong>de</strong> la mitad.<br />

14


10. El 31 <strong>de</strong> julio <strong>de</strong> 2006 se obtuvieron 3 resultados. En la parte gráfica <strong>de</strong>l resultado <strong>de</strong><br />

BLAST aparecen tres líneas en color magenta. Cada una <strong>de</strong> ellas correspon<strong>de</strong> a un<br />

alineamiento.<br />

11. Dé clic sobre la primera línea magenta. Esto lo lleva al primer resultado. En mi caso, es<br />

una secuencia <strong>de</strong>l cromosoma 7 <strong>de</strong>l genoma humano. Después se menciona que en la<br />

dirección 5’ <strong>de</strong> mi secuencia en el genoma humano está la preproteína Sonic<br />

Hedgehog. Tenemos respuesta a nuestra inquietud: el factor <strong>de</strong> transcripción<br />

probablemente inducirá la expresión <strong>de</strong> este gen.<br />

12. Debajo aparecen unos datos estadísticos <strong>de</strong> este alineamiento en particular.<br />

Centrémonos en el e-value, que está <strong>de</strong>spués <strong>de</strong> “Expect”. ¿Nota que es un valor<br />

realmente bajo? Esto nos da un indicio <strong>de</strong> que el alineamiento es muy bueno.<br />

13. Observe otro resultado <strong>de</strong> esta página. En mi caso, el segundo resultado es también<br />

<strong>de</strong>l cromosoma 7, pero en este caso se tomó como referencia la secuencia obtenida<br />

por Celera Genomics (ver introducción al capítulo 2 para ver que significa esto).<br />

Lo importante <strong>de</strong> esto es notar que <strong>los</strong> tres <strong>alineamientos</strong> no son tres formas <strong>de</strong> alinear<br />

dos <strong>secuencias</strong> (como sí ocurre en LAlign), sino la mejor forma <strong>de</strong> alinear una<br />

secuencia con varias <strong>secuencias</strong> presentes en diferentes bases <strong>de</strong> datos. De esto se<br />

trata BLAST: hacer <strong>alineamientos</strong> locales con muchas <strong>secuencias</strong> en bases <strong>de</strong> datos<br />

diferentes para llegar a conclusiones basadas en similitud.<br />

En este ejemplo únicamente vimos uno <strong>de</strong> <strong>los</strong> usos que tiene BLAST. Si bien hay muchos usos<br />

diferentes (como por ejemplo, formular hipótesis <strong>de</strong> homología o <strong>de</strong> conservación <strong>de</strong><br />

estructura), todos se basan en el mismo principio.<br />

Ejercicio:<br />

En unas células cancerosas se aisló un mRNA que estaba expresado en cantida<strong>de</strong>s anormales<br />

y se secuenció. La secuencia obtenida está en:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Blast02.txt<br />

¿Hay alguna razón para creer que el mRNA aislado esté vinculado con el hecho <strong>de</strong> que la<br />

célula sea cancerosa?<br />

Practiejemplo D – Alineamientos múltiples<br />

Hasta aquí nos hemos concentrado únicamente en la similitud entre pares <strong>de</strong> <strong>secuencias</strong>. Sin<br />

embargo, estudiar la similitud entre varias <strong>secuencias</strong> simultáneamente nos pue<strong>de</strong> dar mucha<br />

información, que no se encuentra con facilidad en <strong>alineamientos</strong> pareados.<br />

Una analogía que pue<strong>de</strong> servir para enten<strong>de</strong>r esto es comparar el clima en varios años<br />

consecutivos. Si compara un par <strong>de</strong> años entre sí podrá <strong>de</strong>cir que un año fue más caluroso que<br />

el otro en un mes particular, pero poco más que esto. En cambio, si analiza la ten<strong>de</strong>ncia año<br />

tras año (esto es, compara el mismo periodo <strong>de</strong> tiempo <strong>de</strong> todos <strong>los</strong> años simultáneamente),<br />

podrá percatarse que hay un calentamiento progresivo.<br />

En este ejemplo realizaremos un alineamiento múltiple para inferir relaciones evolutivas. La<br />

teoría subyacente es en esencia lo mismo que <strong>de</strong>l párrafo anterior, sólo que al revés:<br />

suponemos que con el paso <strong>de</strong>l tiempo las <strong>secuencias</strong> homólogas <strong>de</strong> <strong>los</strong> organismos<br />

adquieren diferencias o mutaciones (en el caso <strong>de</strong>l clima concluimos que la temperatura<br />

aumentaba) y a partir <strong>de</strong> ahí inferimos cuáles especies están relacionadas y cuáles son lejanas<br />

evolutivamente, a partir <strong>de</strong>l número <strong>de</strong> diferencias entre las <strong>secuencias</strong>.<br />

El programa que vamos a usar es ClustalW. Junto con BLAST, es una <strong>de</strong> las herramientas más<br />

usadas en bioinformática. En este ejemplo, apren<strong>de</strong>remos a ingresar <strong>secuencias</strong> y a reconocer<br />

<strong>los</strong> principales resultados.<br />

15


1. Empiece en la página <strong>de</strong> ClustalW, dando clic en el siguiente vínculo:<br />

http://www.ebi.ac.uk/clustalw/<br />

Tómese su tiempo<br />

Lea el párrafo <strong>de</strong> introducción que está en esta página.que resume <strong>los</strong><br />

principios <strong>de</strong> ClustalW: alineamiento múltiple, <strong>de</strong> <strong>secuencias</strong> biológicas, para<br />

ver i<strong>de</strong>ntida<strong>de</strong>s y diferencias, con posibilidad <strong>de</strong> ver relaciones evolutivas.<br />

Cada uno <strong>de</strong> estos pasos está diseñado para ajustarse a evi<strong>de</strong>ncia biológica<br />

existente. No es sólo un alineamiento múltiple: es un alineamiento diseñado<br />

para investigar <strong>secuencias</strong> biológicas <strong>de</strong>s<strong>de</strong> una perspectiva evolutiva.<br />

En el siguiente capítulo, cuando veamos cómo se generan <strong>los</strong> <strong>alineamientos</strong>,<br />

retomaremos la importancia <strong>de</strong> este diseño.<br />

2. El formulario presente en esta página permite ajustar finamente varios parámetros <strong>de</strong>l<br />

algoritmo, a<strong>de</strong>más <strong>de</strong> dar la opción <strong>de</strong> enviar <strong>los</strong> resultados al correo electrónico. Esto<br />

último es especialmente útil cuando se tienen <strong>alineamientos</strong> <strong>de</strong> muchas <strong>secuencias</strong><br />

largas, ya que el resultado suele tardarse bastante en salir.<br />

Por el momento no vamos a cambiar ninguno <strong>de</strong> <strong>los</strong> parámetros.<br />

3. En el espacio que dice “Enter or Paste a set of Sequences in any supported format:”<br />

ingrese las <strong>secuencias</strong> que se encuentran en el siguiente vínculo:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Clustal01.txt<br />

Es importante incluir junto con ellas la línea <strong>de</strong> <strong>de</strong>scripción (que empieza con “>”) y no<br />

<strong>de</strong>jar una línea en blanco antes <strong>de</strong> las <strong>secuencias</strong>.<br />

Las <strong>secuencias</strong> pertenecen a la proteína ribosomal L18a, que es un gen conservado en<br />

todos <strong>los</strong> eucariontes (seres vivos con sistema <strong>de</strong> membranas intracelular, entre <strong>los</strong><br />

que nos incluimos nosotros).<br />

4. Tras ingresar las <strong>secuencias</strong> dé clic en “Run” y espere <strong>los</strong> resultados.<br />

5. La página <strong>de</strong> resultados tiene una tabla con fondo gris llamada “Results of search”. En<br />

esta tabla hay estadísticas generales <strong>de</strong>l alineamiento, a<strong>de</strong>más <strong>de</strong> unos archivos <strong>de</strong><br />

texto que sirven para procesar <strong>los</strong> datos con otro software.<br />

El botón JalView carga una ventana que permite visualizar el alineamiento con colores<br />

(<strong>de</strong>be tener instalada la máquina virtual <strong>de</strong> Java, ver practiejemplo 1B). A<strong>de</strong>más <strong>de</strong><br />

mostrar <strong>los</strong> residuos más conservados y generar una secuencia consenso, tiene varias<br />

funciones avanzadas accesibles a través <strong>de</strong>l menú superior. Por el momento no<br />

profundizaremos en su uso.<br />

6. En la página <strong>de</strong> resultados sigue una sección titulada “Scores Table”. Es un resumen<br />

<strong>de</strong>l resultado <strong>de</strong> alinear cada par <strong>de</strong> <strong>secuencias</strong>. Fíjese, por ejemplo, que el mayor<br />

Score (ver practiejemplo 2B para recordar que es el Score) se encuentra entre la rata y<br />

el ratón. Esto tiene sentido, si se piensa que son especies muy cercanas.<br />

También se pue<strong>de</strong> ver que <strong>los</strong> menores Score en general surgen en <strong>alineamientos</strong> con<br />

la secuencia <strong>de</strong> la planta (Arabidopsis thaliana) y con la secuencia <strong>de</strong> la levadura<br />

(Saccharomyces cerevisiae). Esto también tiene sentido evolutivo, pues estos<br />

organismos pertenecen a reinos diferentes al animal.<br />

16


7. Con base en estos Scores, ClustalW genera un cladograma y un filograma. El que se<br />

carga primero es el cladograma, pero a nosotros nos interesa más en este momento el<br />

filograma. Para visualizarlo, haga clic en el botón “Show as Phylogram Tree”.<br />

En la parte inferior <strong>de</strong> la página aparece entonces el árbol filogenético, don<strong>de</strong> la<br />

longitud <strong>de</strong> las ramas se relaciona con la distancia evolutiva entre las especies. Note<br />

como todos <strong>los</strong> vertebrados se encuentran relativamente cerca entre sí, seguidos<br />

<strong>de</strong>spués por el gusano (Caenorhabditis elegans), y finalmente por la levadura (un<br />

hongo) y la planta.<br />

Hemos visto como la comparación <strong>de</strong> varias <strong>secuencias</strong> mediante <strong>alineamientos</strong> múltiples nos<br />

pue<strong>de</strong> dar una i<strong>de</strong>a <strong>de</strong> la filogenia (parentesco evolutivo). Sin embargo, hay <strong>de</strong>talles que no<br />

cuadran. Por ejemplo, el humano parece ser más cercano a la rata, el ratón y el perro que al<br />

chimpancé (algunos argumentarán en broma que esto tiene sentido). Esto se <strong>de</strong>be a que el<br />

Score <strong>de</strong>l alineamiento entre humano y rata es 99 mientras que el Score entre el humano y el<br />

chimpancé es 95. Pero surge la pregunta, ¿es suficiente una diferencia <strong>de</strong> tres puntos en el<br />

Score para <strong>de</strong>finir relaciones filogenéticas?<br />

En el siguiente capítulo, cuando hablemos acerca <strong>de</strong> puntajes en <strong>los</strong> <strong>alineamientos</strong>, trataremos<br />

<strong>de</strong> dar una respuesta parcial a esta pregunta.<br />

Ejercicio:<br />

En el siguiente vínculo hay cinco <strong>secuencias</strong>:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Clustal02.txt<br />

Las primeras dos pertenecen a humanos. Las siguientes dos fueron extraídas <strong>de</strong> un<br />

chimpancé.<br />

La quinta secuencia tiene origen <strong>de</strong>sconocido, pero se sabe que pertenece a alguna <strong>de</strong> las dos<br />

especies y que está en el mismo locus.<br />

¿Cuál es el origen más probable <strong>de</strong> la última secuencia?<br />

3. Aplicaciones basadas en <strong>alineamientos</strong><br />

Practiejemplo A – Encontrar exones e intrones a partir <strong>de</strong> la proteína y su ADN<br />

correspondiente<br />

En la sección anterior el énfasis estuvo en la parte conceptual. Conocimos <strong>los</strong> <strong>alineamientos</strong><br />

locales y globales, a<strong>de</strong>más <strong>de</strong> conocer un programa para cada uno <strong>de</strong> estos tipos <strong>de</strong><br />

alineamiento: BLAST hace <strong>alineamientos</strong> locales contra una base <strong>de</strong> datos, mientras que<br />

ClustalW hace <strong>alineamientos</strong> globales múltiples.<br />

Haciendo uso <strong>de</strong> <strong>los</strong> conceptos <strong>de</strong> la sección anterior pue<strong>de</strong> usted resolver muchos problemas<br />

concretos. En el ejercicio que acompaña al Practiejemplo 2A, por ejemplo, se pi<strong>de</strong> encontrar<br />

<strong>los</strong> intrones y exones <strong>de</strong> un gen, si se tiene una secuencia <strong>de</strong> ADN y su mRNA respectivo.<br />

Un ligero cambio en el problema se preten<strong>de</strong> resolver en este ejemplo: en lugar <strong>de</strong> tener la<br />

secuencia <strong>de</strong> mRNA tenemos la secuencia <strong>de</strong> la proteína que codifica. ¿Cómo resolver este<br />

problema?<br />

Es posible hacerlo en tres pasos: el primero sería elaborar una lista <strong>de</strong> todos <strong>los</strong> mRNAs que<br />

pue<strong>de</strong>n codificar la proteína. Esto se pue<strong>de</strong> hacer a mano o mediante un pequeño programa <strong>de</strong><br />

computador que genere la lista.<br />

El segundo paso sería ver cuál <strong>de</strong> todos <strong>los</strong> mRNAs <strong>de</strong> la lista es el mejor candidato a ser<br />

codificado por la secuencia <strong>de</strong> ADN que tenemos. Esto se pue<strong>de</strong> hacer mediante <strong>alineamientos</strong><br />

17


globales entre cada uno <strong>de</strong> <strong>los</strong> mRNAs <strong>de</strong> la lista y el ADN. El mRNA correcto estará en<br />

alineamiento que tenga el mayor Score o menor e-value.<br />

El tercer paso es repetir el ejercicio <strong>de</strong>l Practiejemplo 2A.<br />

Hay una mejor solución a este problema: aprovechar el hecho que un grupo <strong>de</strong> investigación ya<br />

<strong>de</strong>sarrolló una aplicación que está optimizada para esta tarea específica, y que la ha puesto a<br />

disposición <strong>de</strong> cualquier usuario con acceso a Internet. Esta aplicación, <strong>de</strong>sarrollada por Ewan<br />

Birney, Richard Copley y otros colaboradores, se conoce como Wise2 (GeneWise).<br />

1. Ingrese al formulario inicial <strong>de</strong> Wise2 haciendo clic en el siguiente vínculo:<br />

http://www.ebi.ac.uk/Wise2/<br />

2. En el siguiente vínculo encontrará una secuencia <strong>de</strong> proteína y una secuencia <strong>de</strong> ADN.<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/GeneWise01.txt<br />

Ingrese cada secuencia en el espacio correspondiente <strong>de</strong>l formulario y haga clic en<br />

“Run”.<br />

3. Tras un tiempo <strong>de</strong> espera aparece la página <strong>de</strong> resultados. La tabla gris permite bajar<br />

archivos para ser procesados por otros programas. Después viene un resumen <strong>de</strong> <strong>los</strong><br />

parámetros que se usaron en el programa. Seguido a esto se encuentra el<br />

alineamiento entre la proteína y el ADN, y al final un resumen <strong>de</strong> <strong>los</strong> intrones<br />

encontrados.<br />

4. El alineamiento se compone <strong>de</strong> tres líneas idénticas, que correspon<strong>de</strong>n a la proteína.<br />

Debajo <strong>de</strong> estas tres líneas hay otras tres, que correspon<strong>de</strong>n a la secuencia <strong>de</strong><br />

nucleótidos.<br />

Cada columna correspon<strong>de</strong> a una tripleta <strong>de</strong> nucleótidos con el aminoácido particular<br />

que codifican.<br />

Los intrones se encuentran marcados, junto con su longitud. En total hay 5 <strong>de</strong> el<strong>los</strong>.<br />

5. Este ejemplo se basa en un registro <strong>de</strong> NCBI Gene <strong>de</strong> la proteína white <strong>de</strong> Drosophila<br />

melanogaster. Dar clic en el siguiente vínculo lo llevará al registro:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=full_report<br />

&list_uids=31271#tranprod<br />

El programa logró encontrar correctamente <strong>los</strong> cinco intrones presentes.<br />

El mensaje importante que nos transmite este ejemplo es “no reinventar la rueda”. Con una<br />

búsqueda buena en Google es posible encontrar programas que ejecutan muchas tareas<br />

comunes <strong>de</strong> manera efectiva.<br />

Como ejemplo adicional está Sim4, diseñado para alinear un mRNA o cDNA con la secuencia<br />

<strong>de</strong> ADN respectiva. El artículo científico don<strong>de</strong> <strong>de</strong>scriben Sim4 se encuentra en:<br />

http://www.genome.org/cgi/content/full/8/9/967<br />

Ejercicio:<br />

En la página <strong>de</strong> Wise2, a la izquierda, hay enlaces a otras herramientas – cada una tiene su<br />

especialidad. ¿Cuál programa usaría para <strong>de</strong>tectar inversiones en una secuencia <strong>de</strong><br />

nucleótidos?<br />

Use este programa para <strong>de</strong>tectar la inversión presente entre estas dos <strong>secuencias</strong>:<br />

18


http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/GeneWise02.txt<br />

Practiejemplo B – HomoloGene: una base <strong>de</strong> datos <strong>de</strong> genes homólogos<br />

En la sección anterior aprendimos, que uno <strong>de</strong> <strong>los</strong> usos <strong>de</strong> <strong>los</strong> <strong>alineamientos</strong> es la inferencia <strong>de</strong><br />

relaciones evolutivas. Si dos <strong>secuencias</strong> son muy similares en especies lejanas, es probable<br />

que esto se <strong>de</strong>ba a que el ancestro común <strong>de</strong> estas dos especies ya tenía presente la<br />

secuencia.<br />

Basándose en esta hipótesis, el NCBI está generando una base <strong>de</strong> datos <strong>de</strong> <strong>secuencias</strong> que<br />

por su similitud son candidatas a ser homólogas. El nombre <strong>de</strong> esta base <strong>de</strong> datos es<br />

HomoloGene.<br />

1. Ingrese a la página principal <strong>de</strong> HomoloGene haciendo clic en el siguiente vínculo:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene<br />

2. El primer párrafo <strong>de</strong> la página nos indica que éste es un sistema automatizado <strong>de</strong><br />

<strong>de</strong>tección <strong>de</strong> genes homólogos en <strong>los</strong> organismos cuya secuencia genómica completa<br />

ya se conoce.<br />

Para evaluar <strong>los</strong> resultados, ingrese el término “APP” y haga clic en “Go”. APP es el<br />

símbolo <strong>de</strong> un gen asociado con la enfermedad <strong>de</strong> Alzheimer.<br />

3. El 3 <strong>de</strong> agosto <strong>de</strong> 2006 se produjeron 78 resultados. Entre el<strong>los</strong> hay uno con número<br />

<strong>de</strong> i<strong>de</strong>ntificación 56379. El número <strong>de</strong> i<strong>de</strong>ntificación se encuentra justo al lado <strong>de</strong> la<br />

palabra “HomoloGene:” en cada resultado. Ingrese a este registro.<br />

Tómese su tiempo<br />

Cada registro <strong>de</strong> HomoloGene contiene información en varios contextos:<br />

Genes, proteínas, fenotipos, dominios conservados, referencias bibliográficas...<br />

Esta información pue<strong>de</strong> ser especialmente útil para encontrar mo<strong>de</strong><strong>los</strong><br />

biológicos para enfermeda<strong>de</strong>s comunes. Mire, por ejemplo, que algunos<br />

fenotipos en el ratón muestran su equivalente al <strong>de</strong>l humano.<br />

4. Nos vamos a centrar en la sección llamada “Alignment Scores”. Haga clic en el enlace<br />

“Show Table of Pairwise Scores”. Para cada una <strong>de</strong> las especies tenemos una lista <strong>de</strong><br />

estadísticos <strong>de</strong> similitud entre las <strong>secuencias</strong>.<br />

Dese cuenta que el porcentaje <strong>de</strong> i<strong>de</strong>ntidad en aminoácidos y nucleótidos es bastante<br />

alto entre <strong>los</strong> vertebrados (superior al 80%): H. sapiens (humano), M. musculus (ratón),<br />

R. norvegicus (rata) y G. gallus (gallo).<br />

En cambio, comparándolo con <strong>los</strong> organismos invertebrados, el porcentaje <strong>de</strong> i<strong>de</strong>ntidad<br />

es menor al 50%.<br />

5. Vuelva al registro completo <strong>de</strong> HomoloGene. Hay dos menús <strong>de</strong>splegables bajo el<br />

título “Regenerate Alignments”. Escoja en el primero al humano (H. sapiens) y en el<br />

segundo al ratón (M. musculus). Luego dé clic sobre el botón “BLAST”.<br />

6. Se <strong>de</strong>spliega el alineamiento que dio lugar a la hipótesis <strong>de</strong> homología entre <strong>los</strong> genes.<br />

Note el alto grado <strong>de</strong> i<strong>de</strong>ntidad que hay entre las <strong>secuencias</strong>. Tenemos buenos indicios<br />

para creer, que esta secuencia realmente es homóloga.<br />

19


7. Vuelva nuevamente al registro <strong>de</strong> HomoloGene y en el menú <strong>de</strong>splegable “Display”<br />

seleccione la opción “Multiple Alignment”. Pue<strong>de</strong> <strong>de</strong>tectar las regiones que más<br />

diferencian a <strong>los</strong> vertebrados <strong>de</strong> <strong>los</strong> otros organismos.<br />

8. Ahora ingrese en la casilla <strong>de</strong> búsqueda superior el número 8634, asegúrese que<br />

todavía tiene seleccionado “HomoloGene” en el menú <strong>de</strong>splegable y haga clic en “Go”.<br />

Aparece como resultado el gen HEBP2: “Heme binding protein 2”. Ingrese a este<br />

registro.<br />

Entre las especies aparecen el humano, el ratón, la rata, el perro y el gallo y... ¡una<br />

planta (A. thaliana)!<br />

Recor<strong>de</strong>mos que el grupo heme está presente en la hemoglobina (y otros compuestos),<br />

don<strong>de</strong> cumple un papel en el transporte <strong>de</strong> oxígeno en la sangre. En la planta, este<br />

grupo <strong>de</strong>be tener un papel diferente.<br />

¿Po<strong>de</strong>mos confiar que <strong>los</strong> genes <strong>de</strong> la planta y <strong>de</strong>l humano son homólogos? ¿Es<br />

posible que la similitud en la secuencia se <strong>de</strong>ba a evolución paralela? ¿Está presente el<br />

grupo heme en todos <strong>los</strong> eucariontes? La única evi<strong>de</strong>ncia <strong>de</strong> la que disponemos para<br />

respon<strong>de</strong>rnos estas preguntas es la similitud entre dos <strong>secuencias</strong>. Por tanto <strong>de</strong>bemos<br />

tomar con precaución este resultado.<br />

Resaltando conceptos: Homología vs. Similitud<br />

HomoloGene se basa en la similitud <strong>de</strong> las <strong>secuencias</strong> para inferir posibles<br />

genes homólogos. Sin embargo, similitud no es sinónimo <strong>de</strong> homología. Es por<br />

eso que la homología <strong>de</strong> estos genes <strong>de</strong>be consi<strong>de</strong>rarse siempre como<br />

hipótesis.<br />

Recor<strong>de</strong>mos: dos genes son homólogos si tienen el mismo origen evolutivo.<br />

Esto es probable si estudiamos proteínas como la actina, que hace parte <strong>de</strong>l<br />

citoesqueleto en todos <strong>los</strong> eucariontes (organismos con sistema <strong>de</strong> membranas<br />

intracelular).<br />

Otros genes, por ejemplo <strong>los</strong> <strong>de</strong>l sistema inmunológico humano, no presentan<br />

homólogos en las plantas. Pue<strong>de</strong> ocurrir, sin embargo, que la secuencia <strong>de</strong><br />

aminoácidos <strong>de</strong> uno <strong>de</strong> éstos sea similar a una proteína vegetal.<br />

Toda hipótesis en bioinformática <strong>de</strong>be estudiarse en un contexto biológico para<br />

po<strong>de</strong>r hacer inferencias confiables. Siguiendo con el ejemplo, es necesario<br />

saber algo más <strong>de</strong> la actina y <strong>de</strong>l sistema inmunológico es un complemento<br />

necesario para evaluar <strong>los</strong> resultados estadísticos <strong>de</strong> un alineamiento.<br />

¿Qué ocurre si dos <strong>secuencias</strong> homólogas han acumulado tantas mutaciones entre sí, que un<br />

primer examen <strong>de</strong> similitud no logra <strong>de</strong>tectar su origen común? En ese caso, HomoloGene<br />

probablemente no consi<strong>de</strong>re este par <strong>de</strong> <strong>secuencias</strong> como homólogas.<br />

Existen métodos más sensibles para evaluar la similitud entre <strong>secuencias</strong> (por ejemplo PSI-<br />

BLAST). En <strong>los</strong> siguientes capítu<strong>los</strong> exploraremos algunos <strong>de</strong> estos métodos.<br />

Ejercicio:<br />

Se ha encontrado un gen en ratones (llamado Mc3r) que está relacionado con el aumento <strong>de</strong><br />

peso. Ratones que tienen mutado este gen engordan más a pesar <strong>de</strong> comer menos (en el<br />

siguiente tutorial se profundiza más en el tema:<br />

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=coffeebrk.chapter.26).<br />

Use HomoloGene para encontrar el gen homólogo en humanos. ¿Cuál es el porcentaje <strong>de</strong><br />

i<strong>de</strong>ntidad en la secuencia <strong>de</strong> aminoácidos entre el humano y el ratón?<br />

20


Ejercicios<br />

<strong>Introducción</strong><br />

Los ejercicios <strong>de</strong> este capítulo son una simulación <strong>de</strong> una rutina común en bioinformática: se<br />

aísla un pedazo <strong>de</strong> ADN, se obtiene la secuencia, y mediante ésta se preten<strong>de</strong> inferir la mayor<br />

cantidad <strong>de</strong> información posible usando <strong>de</strong> bases <strong>de</strong> datos.<br />

El ejemplo dista <strong>de</strong> representar una situación real en algunos casos (las <strong>secuencias</strong> <strong>de</strong>l primer<br />

ejercicio, por ejemplo, no presentan errores <strong>de</strong> secuenciación y no tienen repeticiones que<br />

generen ambigüedad). Aún así, <strong>los</strong> conceptos que subyacen son <strong>los</strong> mismos.<br />

Primer ejercicio<br />

El resultado <strong>de</strong> un experimento <strong>de</strong> secuenciación es un electroferograma, en don<strong>de</strong> cada pico<br />

correspon<strong>de</strong> a un nucleótido específico en el ADN (ver un ejemplo en el siguiente vínculo:<br />

http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=retrieve&size=479999&s=search&m=obtain<br />

&retrieve=Submit&val=1386897769&x_join=and&x_field=CENTER_NAME&x_cond=%3D&file=t<br />

race&gz=on&fasta=on&dopt=trace&dispmax=5&page=1) . La secuencia <strong>de</strong> ADN obtenida <strong>de</strong><br />

un diagrama <strong>de</strong> este estilo tiene un tamaño <strong>de</strong> aproximadamente 700 nucleótidos, por lo que se<br />

requieren varias pasadas para secuenciar un gen completo. Estas <strong>secuencias</strong> <strong>de</strong>ben<br />

ensamblarse, esto es, compararse entre sí para <strong>de</strong>terminar una secuencia consenso <strong>de</strong> todo el<br />

gen.<br />

A<strong>de</strong>más <strong>de</strong> que sólo es posible secuenciar pedazos cortos <strong>de</strong> ADN, muchos picos <strong>de</strong> <strong>los</strong><br />

electroferogramas son ambiguos. Esto lleva a que dos <strong>secuencias</strong> – así pertenezcan a la<br />

misma región cromosómica – parezcan tener un or<strong>de</strong>n diferente <strong>de</strong> nucleótidos.<br />

Si bien existen programas especializados en secuenciación (que van <strong>de</strong>s<strong>de</strong> el análisis <strong>de</strong>l<br />

electroferograma, pasando por la optimización <strong>de</strong> las <strong>secuencias</strong> para el alineamiento, hasta el<br />

análisis conjunto <strong>de</strong> varios experimentos <strong>de</strong> secuenciación para obtener una secuencia<br />

consenso), vamos a usar las herramientas <strong>de</strong> este capítulo para obtener un resultado<br />

aproximado.<br />

En la siguiente página Web hay tres <strong>secuencias</strong> que <strong>de</strong>ben ensamblarse en un or<strong>de</strong>n<br />

específico (esto significa, que una secuencia representa el inicio, otra el segmento medio y la<br />

tercera el extremo final):<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_01_01.txt<br />

Sin embargo, no se sabe en qué or<strong>de</strong>n <strong>de</strong>ben ir. Usando Dotlet <strong>de</strong>termine: ¿cuál es la<br />

secuencia inicial, cuál es la intermedia y cuál es la final?<br />

Pista: Las siguientes <strong>secuencias</strong>, pertenecientes a otro gen, están en or<strong>de</strong>n (“Secuencia_1” es<br />

el segmento corriente arriba y “Secuencia_2” el segmento corriente abajo):<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_01_02.txt<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

1A, 1B<br />

Segundo ejercicio<br />

(Depen<strong>de</strong> <strong>de</strong>l ejercicio anterior)<br />

21


Tras haber <strong>de</strong>terminado el or<strong>de</strong>n en que <strong>de</strong>ben ensamblarse las <strong>secuencias</strong>, use LAlign y un<br />

editor <strong>de</strong> texto (como el bloc <strong>de</strong> notas <strong>de</strong> Windows) para generar una secuencia conjunta a<br />

partir <strong>de</strong> <strong>los</strong> tres fragmentos.<br />

Justifique la elección <strong>de</strong>l tipo <strong>de</strong> alineamiento que va a hacer (¿local? ¿global? ¿global sin<br />

penalidad en <strong>los</strong> extremos?).<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2A, 2B<br />

Tercer ejercicio<br />

Un ensamblaje como el que realizó en <strong>los</strong> dos ejercicios anteriores (sólo que con otra región<br />

<strong>de</strong>l gen) está en el siguiente vínculo:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer05_03_01.txt<br />

Basándose en este ensamblaje, <strong>de</strong>termine el cromosoma y el gen que están representados por<br />

esta secuencia.<br />

Opcional (requiere haber leído el capítulo 4): A partir <strong>de</strong> la ontología <strong>de</strong>l gen, ¿pue<strong>de</strong><br />

<strong>de</strong>terminar si es un factor <strong>de</strong> transcripción o un gen estructural?<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2C, <strong>Capítulo</strong> 4 practiejemp<strong>los</strong> 1A y 1B<br />

Cuarto ejercicio<br />

(Depen<strong>de</strong> <strong>de</strong>l ejercicio anterior)<br />

Encuentre posibles genes homólogos al <strong>de</strong>terminado en el punto anterior. ¿Es éste un gen<br />

conservado entre <strong>los</strong> mamíferos?<br />

Descargue la secuencia <strong>de</strong> proteínas <strong>de</strong>l grupo <strong>de</strong> genes homólogos que encontró. Haga un<br />

alineamiento múltiple con estas <strong>secuencias</strong>. ¿Se pue<strong>de</strong> inferir la filogenia (or<strong>de</strong>n <strong>de</strong><br />

especiación) <strong>de</strong> las especies a partir <strong>de</strong> estas <strong>secuencias</strong>?<br />

Opcional (requiere haber leído el capítulo 1): Busque un libro que tenga un tutorial acerca <strong>de</strong><br />

este gen. ¿Cumple la misma función en todos <strong>los</strong> mamíferos o tiene un efecto particular en<br />

humanos únicamente?<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2D, 3B, <strong>Capítulo</strong> 1 practiejemplo 3B<br />

Quinto ejercicio<br />

En el siguiente enlace están las <strong>secuencias</strong> proteicas <strong>de</strong>l humano y <strong>de</strong>l chimpancé <strong>de</strong>l gen que<br />

estamos estudiando:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer_05_05_01.txt<br />

Tras alinear las <strong>secuencias</strong> (¿global o localmente?) <strong>de</strong>termine:<br />

A) el porcentaje <strong>de</strong> i<strong>de</strong>ntidad entre las <strong>secuencias</strong><br />

B) <strong>los</strong> aminoácidos específicos diferentes (¿cambiaron las propieda<strong>de</strong>s fisicoquímicas <strong>de</strong><br />

estos aminoácidos?)<br />

22


Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

2A, 2B<br />

Sexto ejercicio<br />

Algunas <strong>secuencias</strong> <strong>de</strong> ARN forman una estructura llamada stem-loop, don<strong>de</strong> el extremo 5’ y el<br />

extremo 3’ se complementan y forman asociaciones Watson-Crick entre sí (ver una imagen en<br />

el siguiente vínculo:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Search&db=books&doptcmdl=GenBookHL&<br />

term=RNA+secondary+and+tertiary+structures+AND+mcb%5Bbook%5D+AND+105263%5Buid<br />

%5D&rid=mcb.figgrp.821).<br />

En este ejercicio vamos a usar Dotlet para hacer esta inferencia. En la siguiente página hay<br />

cuatro <strong>secuencias</strong>:<br />

http://bioinformate.unian<strong>de</strong>s.edu.co/Secuencias/Ejer_05_06_01.txt<br />

La primera secuencia es el ARN que vamos a analizar. La segunda es la secuencia invertida<br />

(esto significa, que se escribió la secuencia al revés). La tercera secuencia es el complemento<br />

<strong>de</strong> la primera (en don<strong>de</strong> teníamos A<strong>de</strong>nina se escribió Timina, etc.). La cuarta es el reverso<br />

complemento (el resultado <strong>de</strong> invertir y complementar).<br />

A) ¿Cuál par <strong>de</strong> <strong>secuencias</strong> analizaría usted para <strong>de</strong>terminar la presencia <strong>de</strong> un stem-loop?<br />

B) Cargue las dos <strong>secuencias</strong> que escogió en el punto A en Dotlet, varíe <strong>los</strong> parámetros hasta<br />

obtener una imágen completa (variando el Zoom) y con poco ruido (variando el tamaño <strong>de</strong><br />

ventana y el histograma a la <strong>de</strong>recha). ¿Cómo se evi<strong>de</strong>ncia el stem-loop en la gráfica<br />

obtenida?<br />

Practiejemp<strong>los</strong> <strong>de</strong> repaso:<br />

1A, 1B<br />

Profundización<br />

MUMmer<br />

Versión en línea <strong>de</strong> MUMmer:<br />

http://cmr.tigr.org/tigr-scripts/CMR/shared/MakeFrontPages.cgi?page=genome_alignment<br />

MUMmer es una herramienta similar al Dotplot, que permite visualizar similitud entre genomas<br />

completos. Tiene la ventaja <strong>de</strong> ser especialmente rápido, a pesar <strong>de</strong>l volumen <strong>de</strong> datos <strong>de</strong><br />

entrada.<br />

A la fecha, MUMmer va en la versión 3.0. En el artículo científico publicado sobre la primera<br />

versión <strong>de</strong>scriben la herramienta <strong>de</strong> esta manera:<br />

“Se <strong>de</strong>scribe un nuevo sistema para alinear <strong>secuencias</strong> genómicas completas. Usando una<br />

estructura <strong>de</strong> datos eficiente conocida como árbol <strong>de</strong> sufijos, el sistema es capaz <strong>de</strong> alinear<br />

<strong>secuencias</strong> que contienen millones <strong>de</strong> nucleótidos rápidamente. [...] El uso <strong>de</strong> este algoritmo<br />

<strong>de</strong>bería facilitar el análisis <strong>de</strong> regiones cromosomales sinténicas, comparaciones cepa-cepa,<br />

comparaciones evolutivas y duplicaciones genómicas.”<br />

(Delcher et al., “Alignment of whole genomes”, Nucleic Acids Res. 1999 Jun 1;27(11):2369-76.<br />

PMID: 10325427).<br />

23


MUMmer fue <strong>de</strong>sarrollado en TIGR (The Institute of Genomic Research) y en la página web <strong>de</strong><br />

este instituto (http://www.tigr.org/) es posible encontrar otras herramientas adicionales <strong>de</strong><br />

comparación entre genomas.<br />

NCBI PopSet<br />

Página <strong>de</strong> inicio <strong>de</strong> PopSet:<br />

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PopSet<br />

Cuando un investigador está interesado en publicar un alineamiento <strong>de</strong> <strong>secuencias</strong> pue<strong>de</strong><br />

hacer un envío a GenBank <strong>de</strong> éste mediante la herramienta Sequin (ver capítulo 2,<br />

Practiejemplo 1C). De esta forma sólo tiene que referenciar el registro específico en el NCBI,<br />

<strong>de</strong> manera similar a citar una secuencia <strong>de</strong> ADN mediante el número <strong>de</strong> acceso o el GI.<br />

Algunos <strong>de</strong> estos <strong>alineamientos</strong> están pensados para proporcionar hipótesis evolutivas <strong>de</strong><br />

poblaciones. NCBI ha creado una base <strong>de</strong> datos especializada en este tipo <strong>de</strong> estudios y se<br />

conoce como PopSet. Esta es la <strong>de</strong>scripción <strong>de</strong> un PopSet en la página Web <strong>de</strong>l NCBI:<br />

“¿Qué es un PopSet?<br />

Un PopSet es un conjunto <strong>de</strong> <strong>secuencias</strong> <strong>de</strong> ADN que han sido recolectadas para analizar las<br />

relaciones evolutivas <strong>de</strong> una población. La población pudo originarse a partir <strong>de</strong> diferentes<br />

miembros <strong>de</strong> la misma especie, o por organismos <strong>de</strong> especies diferentes. Son enviados a<br />

GenBank mediante Sequin, usualmente en forma <strong>de</strong> alineamiento <strong>de</strong> <strong>secuencias</strong>.”<br />

Base <strong>de</strong> datos <strong>de</strong> COGs<br />

Pagina inicial <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> COGs:<br />

http://www.ncbi.nlm.nih.gov/COG/<br />

Cuando empezaron a surgir las <strong>secuencias</strong> completas <strong>de</strong> algunos organismos, varios grupos<br />

iniciaron la tarea <strong>de</strong> encontrar todos <strong>los</strong> genes potencialmente homólogos. Una iniciativa <strong>de</strong>l<br />

NCBI, conocida como base <strong>de</strong> datos <strong>de</strong> COGs, se ha aproximado a esta tarea:<br />

“La base <strong>de</strong> datos <strong>de</strong> clusters <strong>de</strong> grupos ortólogos <strong>de</strong> proteínas (COGs [Cluster of Orthologous<br />

Groups]) ha sido pensada como una clasificación filogenética <strong>de</strong> proteínas <strong>de</strong> genomas<br />

completos. Cada COG incluye proteínas que se cree son ortólogas, esto es, conectadas por<br />

<strong>de</strong>scen<strong>de</strong>ncia evolutiva vertical. [...] El propósito <strong>de</strong> la base <strong>de</strong> datos <strong>de</strong> COGs es servir como<br />

plataforma para la anotación funcional <strong>de</strong> genomas recientemente secuenciados y realizar<br />

estudios en evolución genómica.”<br />

(Roman L. et al., “The COG database: new <strong>de</strong>velopments in phylogenetic classification of<br />

proteins from complete genomes”, Nucleic Acids Res. 2001 Jan 1;29(1):22-8. PMID: 11125040)<br />

Varios <strong>de</strong> <strong>los</strong> genes presentes en HomoloGene surgen <strong>de</strong> esta base <strong>de</strong> datos. Se pue<strong>de</strong> <strong>de</strong>cir<br />

que la base <strong>de</strong> datos COG es a HomoloGene como GenBank es a NCBI Gene.<br />

This work is licensed un<strong>de</strong>r a Creative Commons Attribution-NonCommercial-ShareAlike 2.5<br />

License.<br />

24

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!