Capítulo 5: Introducción a los alineamientos de secuencias

Lope Andrés Flórez Weidinger 

http://bioinformate.uniandes.edu.co/cap5.htm 

Capítulo 5: Introducción a los alineamientos de 

secuencias 

Vistazo ................................................................................................................................... 2 

Introducción .......................................................................................................................... 2 

Conceptos importantes: ....................................................................................................... 3 

Alineamientos ...................................................................................................................... 3 

Homología vs. Similitud ....................................................................................................... 4 

Identidad.............................................................................................................................. 4 

Cuestionario:......................................................................................................................... 5 

Primera pregunta:................................................................................................................ 5 

Segunda pregunta: .............................................................................................................. 5 

Tercera pregunta: ................................................................................................................ 5 

Practiejemplos: ..................................................................................................................... 6 

1. Visualizando similitud entre secuencias........................................................................... 6 

Practiejemplo A - El Dotplot ............................................................................................. 6 

Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad ................... 7 

2. Tipos de alineamientos.................................................................................................. 10 

Practiejemplo A – Alineamientos globales ..................................................................... 10 

Practiejemplo B – Alineamientos locales........................................................................ 11 

Practiejemplo C – ¿Cómo encontrar secuencias en bases de datos mediante 

alineamientos?............................................................................................................... 13 

Practiejemplo D – Alineamientos múltiples .................................................................... 15 

3. Aplicaciones basadas en alineamientos ........................................................................ 17 

Practiejemplo A – Encontrar exones e intrones a partir de la proteína y su ADN 

correspondiente ............................................................................................................. 17 

Practiejemplo B – HomoloGene: una base de datos de genes homólogos .................... 19 

Ejercicios ............................................................................................................................. 21 

Introducción....................................................................................................................... 21 

Primer ejercicio.................................................................................................................. 21 

Segundo ejercicio .............................................................................................................. 21 

Tercer ejercicio .................................................................................................................. 22 

Cuarto ejercicio.................................................................................................................. 22 

Quinto ejercicio.................................................................................................................. 22 

Sexto ejercicio ................................................................................................................... 23 

Profundización .................................................................................................................... 23 

MUMmer............................................................................................................................ 23 

NCBI PopSet .....................................................................................................................24 

Base de datos de COGs.................................................................................................... 24 

1

Vistazo 

“Los alineamientos de secuencias de nucleótidos y proteínas serán tratados en este capítulo. 

Para empezar, aprenderemos a encontrar patrones repetidos en una secuencia o entre un par 

de secuencias mediante una herramienta gráfica llamada Dotplot. 

Posteriormente conoceremos los diferentes tipos de alineamientos que existen (locales y 

globales) y veremos dos medidas de similitud entre secuencias (el “e-value” y el Score). 

También haremos una breve introducción a las dos herramientas de alineamiento más usadas 

en bioinformática: BLAST y ClustalW. La primera nos permite encontrar secuencias similares a 

un ‘query’ en una base de datos y la segunda nos permite realizar alineamientos múltiples y, en 

algunos casos, hacer inferencias evolutivas. 

Conoceremos un programa que hace uso de alineamientos para reconocer intrones de un gen 

partiendo de la secuencia de ADN y la proteína que codifica. Finalizaremos aprendiendo a usar 

una base de datos de secuencias homólogas en el NCBI, llamada HomoloGene.” 

Introducción 

“La mera formulación de un problema es la mayoría de las veces más importante que su 

solución, que puede ser simplemente una cuestión de habilidad matemática o experimental. 

Formular nuevas preguntas, nuevas posibilidades, mirar problemas antiguos desde un nuevo 

ángulo, requiere una imaginación creativa y marca verdaderos avances en la ciencia.” 

Albert Einstein 

La ciencia se fundamenta en la experimentación: si no hay evidencia empírica, no hay verdad. 

Se pueden formular hipótesis, incluso con un altísimo grado de detalle, pero hasta no ser 

probados en el mundo real siguen siendo poco más que artificios de nuestra imaginación. 

La forma usual de ejecutar un experimento es cambiar o controlar los parámetros y ver qué 

ocurre después de ese control. Aquí la bioinformática juega un papel importante, proponiendo 

qué cambios deben hacerse y qué variables controlar. Si bien no será tratado en este capítulo, 

la bioinformática está descifrando patrones de expresión relacionados con ciertos tipos de 

cáncer (con la ayuda de una tecnología conocida con el nombre de microarreglos). De esta 

forma, permite focalizar las investigaciones en estos tipos específicos de cáncer. 

Sin embargo, este método directo de investigación no puede usarse en todos los casos. 

Darwin, autor de los fundamentos de la teoría de la evolución actual, nos sugiere una forma de 

aproximarse a ciertos problemas, que Douglas Futuyma la resume así: 

“Darwin propuso una hipótesis (p.ej. selección natural), dedujo predicciones de qué 

deberíamos ver si fuera verdadera o falsa, y juzgó su validez comparando observaciones con 

las predicciones. Este método hipotético-deductivo ahora es usado ampliamente en ciencia.” [1] 

Es en este método hipotético-deductivo donde el análisis bioinformático se vuelve fundamental: 

El es un lente a través del cuál podemos observar la información presente en grandes 

volúmenes de datos. 

Tomemos un ejemplo frecuente: establecer las relaciones filogenéticas (esto es, el parentesco 

evolutivo) de un conjunto de especies biológicas. Partimos de la hipótesis (fundamentada por 

autores anteriores), que si dos especies son cercanas filogenéticamente, entonces deben tener 

una secuencia de ADN similar. 

A partir de esta hipótesis nos preguntamos: ¿qué deberíamos observar si las especies de 

verdad están relacionadas? Concluimos que, si seleccionamos segmentos adecuados de ADN 

2

de las dos especies y los secuenciamos (o extraemos esta información de bases de datos de 

secuencias biológicas como GenBank), debemos observar similitud entre las secuencias. 

Surge entonces la pregunta: ¿Cómo observamos que dos secuencias son similares? 

Los alineamientos, que son el tema de este capítulo, nos proporcionan una primera respuesta. 

Un alineamiento es “[...] la identificación de correspondencias residuo-residuo. Cualquier 

asignación de correspondencias que preserve el orden de los residuos dentro de las 

secuencias es un alineamiento.” [2] 

Si los residuos de una secuencia tienen un alto grado de correspondencia con residuos de la 

otra secuencia, son similares y por tanto su cercanía evolutiva es probable. 

Hacer estas comparaciones a mano es dispendioso y poco práctico. Afortunadamente, el 

desarrollo de los computadores – de manera indirecta – ha traído consigo la solución a este 

problema: La búsqueda en Internet, por ejemplo usando Google, requiere encontrar cadenas 

de texto similares al término de interés y ya se han desarrollado métodos de computador que 

permiten visualizar (gráficamente o por medio de la estadística) la similitud entre dos cadenas 

de texto. Dado que el ADN se puede escribir como una cadena de texto en un alfabeto de 

cuatro letras y las proteínas se pueden codificar usando un alfabeto de 20 letras, es posible 

usar las mismas herramientas que han desarrollado los ingenieros de sistemas y los 

matemáticos, para fines biológicos. 

Este capítulo muestra varios métodos de alineamiento disponibles en línea y algunas 

aplicaciones comunes de éstos en la bioinformática. Saber escoger el método se vuelve de 

suma importancia, pues cada uno parte de supuestos diferentes. Esto será descrito con más 

detalle en la introducción del siguiente capítulo. Por ahora basta recordar que si nuestros 

métodos son erróneos, nuestras conclusiones también lo son. 

[1] Futuyma, D., “Evolutionary Biology”, Tercera edición, Sinnauer Associates Inc., 1998, pág. 

30 

[2] Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161 

Conceptos importantes: 

Alineamientos 

“[...] la identificación de correspondencias residuo-residuo. Cualquier asignación de 

correspondencias que preserve el orden de los residuos dentro de las secuencias es un 

alineamiento.” 

Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 161 

En términos coloquiales, alinear dos secuencias es poner una junto a la otra de forma que se 

resalten las diferencias y similitudes, pero sin cambiar el orden de los residuos. 

Hay varias maneras de hacer esto, aunque unas se prestan más a análisis que otras. Si 

queremos saber cuál de las dos secuencias es más larga, podemos simplemente alinear el 

primer residuo de la primera cadena con el primer residuo de la segunda y así sucesivamente 

para todos los residuos. El resultado es algo más o menos así: 

ESTOESUN 

ALINEAMIENTO 

De aquí se concluye rápidamente que la primera secuencia es más corta que la segunda. 

Sin embargo, usualmente nos interesa más saber si dos secuencias tienen subsecuencias 

iguales en el mismo orden. Por ejemplo, las palabras incrementado y cemento son muy 

similares en este sentido: 

3

I N C R E M E N T A D O 

- - C – E M E N T - - O 

De aquí concluímos que ambas comparten la subsecuencia “EMENT” y que las otras letras de 

la palabra “cemento” (específicamente la “c” y la “o”) aparecen en el mismo orden en 

“incrementado”. 

Otra forma de alinear estas dos secuencias sería: 

I N C R E M E N T A D O - 

- C – E - - - - M E N T O 

Sin embargo, este alineamiento no me permitiría ver la similitud que tienen las dos secuencias. 

Por tanto, nuestros análisis dependerán de la calidad del alineamiento. 

Homología vs. Similitud 

“Similitud es la observación o medición de parecido y diferencia, independiente del 

origen de ese parecido. Homología significa, específicamente, que las secuencias y los 

organismos en los que están presentes, descienden de un ancestro común [...]” 

Lesk, AM., “Bioinformatics”, Primera edición, Oxford University Press, 2002, pág. 27 

En sentido estricto, la homología se refiere únicamente a un origen común entre dos 

caracteres. Por tanto, dos secuencias son homólogas o no homólogas y no hay ninguna 

gradación intermedia. Una situación similar del mundo real es el embarazo: una mujer no 

puede estar 50% embarazada: o está o no está, o no se sabe. 

Similitud, en cambio, es una medida del parecido entre dos secuencias que puede cuantificarse 

(por ejemplo, mediante el porcentaje de identidad). 

Si bien no se ha adoptado consistentemente esta diferencia de términos en la literatura 

científica (algunos autores siguen usando la palabra homología cuando se refieren a similitud), 

es conveniente hacerla. Dos secuencias pueden ser muy similares y sin embargo no ser 

homólogas (así como las alas de un murciélago y de una mariposa parecen iguales, pero no 

hay un ancestro común entre las mariposas y los murciélagos que tenga alas). De la misma 

manera, dos secuencias homólogas pueden haber divergido mucho en la historia evolutiva, 

haciéndolas poco similares. 

Debido a que se ha usado la palabra homología en el contexto de similitud en muchas 

publicaciones, algunos autores han optado por usar los términos “ortólogas” y “parálogas” al 

referirse a secuencias con origen evolutivo común, que son más específicos. Dos secuencias 

son ortólogas si fueron adquiridas por descendencia vertical (por ejemplo, de madre a hijo) y 

son parálogas si están presentes en más de una copia en el mismo organismo y tuvieron el 

mismo origen (por ejemplo los genes y sus respectivos pseudogenes). 

Identidad 

“Identidad: [...] Cualidad de idéntico.” 

Diccionario de la Real Academia de la Lengua Española 

Dos secuencias son idénticas si son iguales residuo a residuo. Sin embargo, para secuencias 

que no son idénticas es útil tener una medida de qué tanto se alejan de serlo. 

Para esto se hace un alineamiento entre las dos secuencias, se cuenta el número de residuos 

que son idénticos y se divide por la longitud del alineamiento. Esto da el porcentaje de 

identidad. 

4

Por ejemplo, un alineamiento donde dos secuencias tienen la mitad de los residuos idénticos 

alineados uno con el otro (como el siguiente): 

HOLA 

BOTA 

Tiene un porcentaje de identidad del 50%. 

Cuestionario: 

Primera pregunta: 

¿Cuál de los siguientes necesariamente es un par de características homólogas? 

a) Dos secuencias que alineadas tienen una identidad del 100% 

b) El cromosoma Y de dos hermanos (varones) del mismo padre 

c) Dos proteínas que cumplen exactamente la misma función celular en dos organismos 

diferentes 

Respuesta: 

La respuesta correcta es la b), ya que un padre sólo tiene una copia de su cromosoma Y en 

cada célula y hereda este cromosoma a todos sus hijos varones. Los dos cromosomas Y, por 

tanto tienen un inmediato ancestro común. 

El hecho que dos secuencias sean idénticas no las hace automáticamente homólogas (aunque 

lo hace muy probable). Los telómeros son extremos de los cromosomas que se van acortando 

en cada replicación celular. Existe una enzima llamada telomerasa que los alarga, con una 

secuencia específica. Esta secuencia de ADN es idéntica en todos los humanos, sin embargo 

no es homóloga entre dos personas, pues es una repetición no presente en el ancestro común 

entre ellos. 

De la misma forma se pueden nombrar proteínas que cumplen la misma función en organismos 

distintos, y no son homólogas. 

Segunda pregunta: 

¿Cuál de los siguientes pares de palabras presenta mayor identidad al alinearse? 

a) CALIBRE – COLIBRI 

b) MATERIA – LIBERIA 

c) COLEGIO – CARTERA 

d) GUANTES – DIENTES 

Respuesta: 

La respuesta correcta es la a), pues tienen un porcentaje de identidad del 71% (=5 residuos 

compartidos dividido por 7 residuos en total). 

Tercera pregunta: 

Verdadero o Falso: 

¿Ordenar alfabéticamente los residuos de cada secuencia y juntar los residuos iguales en cada 

una es un alineamiento? 

5

Ejemplo: ALFABETO y FABRICA 

A A B - E F - L O T - (ALFABETO) 

A A B C – F I - - - R (FABRICA) 

Respuesta: 

Falso. El orden de los residuos en cada secuencia debe preservarse y en este caso, al ordenar 

alfabéticamente, esto no ocurre. 

La primera B de fábrica, por ejemplo, está antes de la F y después de la segunda A en el 

alineamiento, cuando el orden correcto es FaBricA. 

Practiejemplos: 

1. Visualizando similitud entre secuencias 

Practiejemplo A - El Dotplot 

El alineamiento de secuencias es la herramienta más importante de la bioinformática 

actualmente. Para empezar a entender porqué conviene realizar alineamientos, empecemos 

explorando una herramienta para visualizar el parecido entre dos secuencias: el Dotplot. 

1. Ingrese a la siguiente página Web, que contiene un pequeño tutorial acerca del Dotplot: 

http://imagebeat.com/dotplot/ 

Si bien no está pensada para explicar las aplicaciones biológicas de un Dotplot, sirve 

para ilustrar el concepto. 

2. Haga clic en el vínculo “Overview” que se encuentra en la parte inferior de la página. 

Esto lo lleva a la descripción de qué es un Dotplot. 

3. Como notará, es una forma de representar la similitud entre dos secuencias de texto 

mediante tablas. En el ejemplo con el texto “to be or not to be” la tabla tiene un punto 

en todas las celdas (esto es, cruces entre fila y columna) en donde la palabra en la fila 

y la columna es la misma. 

Naturalmente, todas las celdas en la diagonal principal de la tabla tendrán un punto. 

Pero lo interesante es ver lo que ocurre por fuera de la diagonal o cuando tenemos una 

secuencia en orden vertical y otra diferente en orden horizontal. 

4. Haga clic en el vínculo “interpretation” de la parte inferior. Esta página resume algunos 

patrones comunes que se pueden visualizar. 

5. Note, por ejemplo, cómo identificar si una sub-secuencia está repetida dentro de la 

secuencia completa (el ejemplo de abcdefghiabcdefghi). La sub-secuencia que se 

repite aparece como un par de líneas paralelas a la diagonal principal. 

6. También existe la posibilidad de encontrar inserciones en una de las sub-secuencias 

que se repiten. En lugar de tener una línea continua (paralela a la diagonal principal), 

se tiene una línea fragmentada – como si hubieran cortado y movido un pedazo de la 

línea original. 

7. Estudie también la forma de visualizar reordenamientos. ¿Cómo describiría este 

patrón? 

6

8. Otro aspecto a resaltar son los cuadrados. No se necesita tener una secuencia con 

repetición consecutiva de una sola letra (por ejemplo aaaaaaaaaa) para obtener un 

patrón en forma de cuadrado. Mire el dibujo de la izquierda que está junto al título 

“Shuffling”. Como notará, los cuadrados permiten reconocer letras que están sobrerepresentadas 

en una muestra, sin importar si son consecutivas o no. 

9. Ahora vuelva a la página principal haciendo clic en “dotplot”. Desde ahí haga clic en el 

vínculo “try a simplified perl version of dotplot”. 

10. Ingrese la frase “LAS CATARATAS DEL NIAGARA” en la casilla de texto, y haga clic 

en el botón “build dotplot!”. Notará que hay zonas con más densidad de puntos y zonas 

con menos densidad. Esto se debe a que en las zonas de más intensidad está más 

representada la letra “A” que en las otras. 

Ejercicio: 

Ahora imagine que en lugar del texto “LAS CATARATAS DEL NIAGARA” tenemos la 

secuencia “corriente arriba” de un gen. Si hay una región en donde las letras A y T 

están sobre-representadas, podríamos empezar a sospechar de la existencia de cajas 

TATA: una primera aplicación biológica del dotplot. 

¿Qué es la secuencia corriente arriba de un gen y la caja TATA? 

Los genes tienen un inicio de transcripción que es el lugar en el ADN donde 

empieza a sintetizarse el primer nucleótido del mRNA. Todo el ADN que está 

antes del inicio de transcripción se conoce como la región corriente arriba del 

gen. 

En los eucariontes (organismos con sistema de membranas internos, es decir, 

no bacterias ni arqueobacterias) hay un región conocida como la caja TATA 

(llamada así por la sobre-representación de los nucleótidos Adenina y Timina), 

que facilita la transcripción del gen. Si en lugar de Timina y Adenina tenemos 

otros nucleótidos en esta parte especial de la secuencia, la cantidad de mRNA 

que se sintetizará será menor. 

Ingrese la palabra “RECONOCER” dentro de la casilla de texto y presione “build dotplot!”. ¿Qué 

logra reconocer acerca de esta palabra mirando el patrón? ¿Qué relación guarda con las 

secuencias de reconocimiento de una enzima de restricción? 

Practiejemplo B – Dotlet: visualización que varía sensibilidad y selectividad 

Uno de los inconvenientes del Dotplot a la hora de analizar dos secuencias de ADN es que 

éste se compone únicamente de cuatro letras: A, T, G, C. Esto hace que el número de 

coincidencias sea muy alto. Para arreglar este problema se ha creado Dotlet. En esencia es un 

Dotplot, pero permite graduar la selectividad/sensibilidad de nuestra vista para mostrar u 

ocultar patrones específicos. 

En este ejemplo aprenderemos a cargar y visualizar una secuencia en Dotlet. 

1. Haga clic en el siguiente vínculo para ir a la página de Dotlet. 

http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html 

Necesita tener instalada en su computador la máquina virtual de Java para poder usar 

Dotlet. Si no tiene Java instalado, puede descargarlo aquí: 

http://www.java.com/es/ 

7

2. Vamos a dar los primeros pasos en la visualización. Para entenderlos mejor puede 

visitar la página de ayuda (haciendo clic en el vínculo “need help?”). 

3. Todo inicia con la barra de menú de Dotlet. Si no ha introducido ninguna secuencia 

aún, el único botón activo es “input”. Presione este botón. 

4. Aparece una ventana donde debe pegar su secuencia. Haga clic en el siguiente vínculo 

para abrir la ventana que contiene la secuencia que va a pegar ahí: 

http://bioinformate.uniandes.edu.co/Secuencias/Dotlet01.txt 

Póngale el nombre Dotlet01. Cuando haya pegado la secuencia e ingresado el nombre 

haga clic en OK. 

Esta secuencia corresponde a una proteína de Drosophila melanogaster que tiene 

repetición de dominios. 

5. Note que los menús desplegables ahora están habilitados. En nuestro caso, los 

primeros dos no son de mucha utilidad, pues sólo hemos ingresado una secuencia. Si 

requiere alinear dos secuencias diferentes una contra la otra (por ejemplo, un mRNA 

con su ADN respectivo), debe ingresarlas una tras otra presionando el botón input y 

luego seleccionar de estos menús las secuencias a comparar. 

El menú desplegable tres presenta diferentes opciones: Identity, Blosum, PAM, Gonnet. 

Por ahora nos quedaremos con la opción “Identity” que, como el nombre lo indica, pone 

un punto en la tabla sólo si los residuos de la fila y la columna son idénticos. Las 

matrices Blosum y PAM serán estudiadas en el capítulo 6 y no entraremos en detalles 

de ellas aquí. 

El siguiente menú desplegable es el primer nivel de filtrado del que disponemos y se 

llama tamaño de ventana. 

¿Qué es el tamaño de ventana? 

La ventana es una de las características que diferencia al Dotlet del Dotplot, 

que aumenta la astringencia (selectividad). 

Recordemos que en el Dotplot se dibuja un punto donde coinciden los residuos 

de ambas cadenas. Esto genera un patrón muy difícil de leer si las 

coincidencias son frecuentes. 

El Dotlet en cambio, no compara residuo a residuo sino en grupos de n 

residuos contra n residuos, donde n es el tamaño de ventana. 

Si los n residuos son iguales, dibuja un punto negro. Si ningún residuo está 

compartido, dibuja un punto blanco. Si la cantidad de residuos está entre 0 y n- 

1, dibuja un punto gris, cuya intensidad depende de la cantidad de identidades. 

Si, por ejemplo, tenemos una ventana de 3 residuos y tenemos como palabras: 

ABCDEFGH 

JKCDEFGM 

Se dibujará un punto negro en el cruce entre las dos “D”, las dos “E” y las dos 

“F”, ya que sus dos residuos vecinos también coinciden. Además, se dibujarán 

puntos grises en la intersección de las letras “C” y “G”, pues si bien coinciden, 

no están en un grupo de 3 residuos consecutivos. 

Por el momento dejemos ese parámetro en 15. 

8

El último menú desplegable permite graduar el Zoom. Para este ejemplo particular, 

escojamos un Zoom de 1:5. 

6. Al hacer clic en “compute” se genera nuestra representación gráfica. Es evidente la 

línea blanca en la diagonal principal, que es la misma que vimos en todos los Dotplot 

del ejemplo pasado. Sin embargo, las otras líneas se ven difusas. 

Para mejorar esto usemos los controles que están a la derecha del gráfico. En ella, se 

ve un histograma en la parte central, y dos barras de deslizamiento: una arriba y otra 

abajo. Ajuste la barra de deslizamiento superior moviéndola totalmente a la izquierda y 

la barra de desplazamiento inferior completamente a la derecha. Hasta ahora sólo 

cambió el color, de forma que lo que era blanco ahora es negro y viceversa. 

Luego, mueva poco a poco las barras de desplazamiento hacia el centro, y note que 

mientras lo hace van desapareciendo las líneas más claras y resaltándose las más 

oscuras. 

Con algo de práctica, la imagen se parecerá a la que se encuentra en la siguiente 

página Web: 

http://www.isrec.isb-sib.ch/java/dotlet/repeats.html 

Lea el texto que aparece en esta página. ¿Nota como se pueden distinguir dominios 

repetidos en una proteína mediante Dotlet? 

7. En la parte inferior de la página del Dotlet está el alineamiento entre los residuos. Si 

hace clic (con suficiente precisión) sobre una de las líneas oscuras, verá en la parte 

inferior cuáles residuos son idénticos alrededor de esa fila-columa particular. 

Pruebe lo siguiente: haga clic cerca de la diagonal principal y presione las flechas en el 

teclado hasta estar seguro que el cursor se encuentra sobre ésta. ¿Ve como todos los 

residuos se alinean unos con otros, resaltados en azul? Ahora presione alguna de las 

flechas del teclado, para tener como referencia un alineamiento corrido en un residuo. 

¿Nota la diferencia en la cantidad de identidades? 

En este ejemplo logró identificar dominios repetidos en una proteína usando únicamente la 

secuencia. Note la diferencia que supone esto con analizar la estructura tridimensional de la 

molécula mediante cristalografía de rayos X, que es un procedimiento largo y complicado. 

Sin embargo, no sobra recalcar que mediante Dotlet sólo podemos plantear la hipótesis de que 

hay dominios repetidos. Para comprobarlo es necesario un experimento, como determinar la 

estructura tridimensional. 

Dos conceptos que vimos en el capítulo 1 adquieren aquí especial importancia: selectividad y 

sensibilidad. Para poder resaltar las características de la molécula debemos ocultar 

selectivamente el ruido, pero ser suficientemente sensibles para ver más que sólo la identidad 

de la diagonal principal. 

Ejercicio: 

Repita el ejercicio, esta vez con las secuencias que se encuentran en la página: 

http://www.isrec.isb-sib.ch/java/dotlet/exonintron.html 

Requiere presionar el botón “input” dos veces, para poder ingresar las dos secuencias. Debe 

poder ver la imagen de forma casi idéntica a la del ejemplo. 

9

2. Tipos de alineamientos 

Practiejemplo A – Alineamientos globales 

El Dotplot es una herramienta sumamente útil para visualizar patrones generales entre dos 

secuencias o una secuencia consigo misma. Sin embargo, es poco práctico si lo que se quiere 

es determinar qué aminoácidos específicos están compartidos en las dos secuencias. 

En este caso, lo más conveniente es alinear las dos secuencias y comparar los cambios 

residuo a residuo. En este capítulo veremos la primera de estas herramientas: LAlign. Veremos 

que hay varias formas de “poner una secuencia junto a la otra”, cada una más o menos útil 

dependiendo del problema que estudiemos. 

Vamos a empezar con el siguiente ejemplo: 

Suponga que se tienen dos secuencias que usted sabe que son homólogas, pero que han 

cambiado mucho entre sí debido a mutaciones. ¿Cómo identifica las mutaciones que 

ocurrieron? 

Para simular esto, tenemos la secuencia de la cadena beta de la hemoglobina original y una 

cadena a la que he añadido algunas mutaciones: 

http://bioinformate.uniandes.edu.co/Secuencias/LAlign01.txt 

Vamos a explorar la forma de encontrar las mutaciones. 

1. Empiece en la página de LAlign haciendo clic en: 

http://www.ch.embnet.org/software/LALIGN_form.html 

2. Desde ahí seleccione la opción “global” que nos permite alinear la totalidad de las dos 

secuencias. 

3. Por el momento no cambie más parámetros. Sólo ingrese las secuencias en los 

recuadros correspondientes (ingréselas sin la línea inicial de descripción) y póngales 

nombre, como por ejemplo “Silvestre” y “Mutante”. 

Luego haga clic en “Run LAlign” para realizar el alineamiento. 

Resaltando conceptos: Alineamiento 

El resultado que aparece tras hacer clic en “Run LAlign” es un alineamiento 

entre las secuencias. 

En este caso contamos con el mejor alineamiento que se puede realizar entre 

las dos secuencias de forma que estén representados todos los residuos de 

cada una (de ahí el término “global”). 

4. La página que aparece empieza con un resumen del alineamiento, mostrando el 

número de aminoácidos de cada secuencia junto con el porcentaje de identidad en el 

alineamiento. En este caso es del 85%. 

Debajo aparece el alineamiento. Si dos residuos son idénticos, hay dos puntos que las 

unen. Además, si hay un aminoácido que no tiene contraparte en la otra cadena (que 

es el caso cuando hay inserciones o deleciones) aparece un guión llamado gap. 

¿Cuantas mutaciones puntuales hay? ¿Cuántas inserciones y deleciones? ¿De qué 

tamaño son estas inserciones? 

10

Resaltando conceptos: Identidad 

Si cuenta los aminoácidos que están alineados idénticamente, notará que son 

130. Dividiendo este valor por la longitud del alineamiento, que es 153 (147 

aminoácidos + 6 gaps) obtiene 0,8497 ó 85%. Es exactamente el valor de 

identidad que aparece en el resumen. 

5. Además de los aminoácidos alineados idénticamente, algunos aminoácidos están 

conectados con un punto, por ejemplo el aminoácido 11 de la cadena silvestre (A – 

Alanina) y el aminoácido 10 de la cadena mutante (V – Valina). Esto ocurre, porque la 

Alanina y la Valina tienen propiedades fisicoquímicas similares. Ambos son 

aminoácidos alifáticos pequeños. Un cambio de este estilo en una proteína 

probablemente no afectará mucho la función, a no ser que ocurra en el sitio activo. 

En cambio, el aminoácido 135 de la cadena silvestre (V - Valina) y el aminoácido 134 

de la cadena mutante (K – Lisina) tienen propiedades muy diferentes. El primero es 

pequeño y alifático y el segundo es relativamente grande y cargado positivamente. 

Debido a esta diferencia no hay ningún símbolo entre estos aminoácidos. 

El punto es mostrar que la representación gráfica del alineamiento (con dos puntos 

entre identidades y un punto entre aminoácidos con propiedades similares) es una 

fuente de información adicional. 

En este ejercicio se aprendió a hacer alineamientos globales y a conocer los gaps. Los 

alineamientos globales son especialmente útiles a la hora de comparar dos genes en toda su 

longitud o al momento de establecer sobrelapamientos (ver el ejercicio para un caso de este 

estilo). Sin embargo, cuando debemos suponer que sólo algunas regiones están conservadas 

es mejor usar otro método de alineamiento, que es el tema del siguiente practiejemplo. 

Ejercicio: 

En el siguiente vínculo encontrará dos secuencias: Una de un mRNA y la otra de la región de 

DNA correspondiente: 


¿Cuántos intrones (secuencias presentes en el ADN pero no en el mRNA) hay? ¿Cuál es la 

longitud en pares de bases del primer intrón? 

Practiejemplo B – Alineamientos locales 

En el ejemplo se introdujeron mutaciones en la proteína de manera indiscriminada. Sin 

embargo, en la naturaleza esto no suele ser así. Las mutaciones tienden a acumularse más 

difícilmente en zonas cercanas al sitio activo de la proteína, pues las mutaciones en este sitio 

suelen afectar su función y por tanto a ser excluidas de la población por selección natural. 

Alinear globalmente nos permitiría detectar que hay cambios en las dos secuencias, pero no 

nos permitiría resaltar aquellas regiones que tienen alta conservación, independientemente de 

la secuencia que las rodea. Es posible que al alinear globalmente nuestras dos secuencias 

hallemos regiones conservadas, pero al alinear globalmente debemos preservar el orden de 

nuestras secuencias y esto puede ocultarnos información. 

Alinear localmente en cambio, nos permite encontrar sub-secuencias que tienen alta 

similitud. Veamos un ejemplo donde es más conveniente hacer alineamientos locales. 

1. Inicie en el formulario principal de LAlign: 

http://www.ch.embnet.org/software/LALIGN_form.html 

11

2. Desde ahí, seleccione inicialmente la opción “global” e inserte las siguientes 

secuencias en las casillas de texto respectivas: 


Luego haga clic en “Run lalign” 

3. Notará que las secuencias (alineadas globalmente) son moderadamente similares. 

Tienen un porcentaje de identidad del 33.3% y son especialmente conservadas en los 

extremos. Parecería que la región del medio no contiene identidades interesantes. 

4. Ahora vuelva al formulario haciendo clic en el botón “atrás” de su navegador y 

seleccione la opción “local (default)”. Vuelva a hacer clic sobre el botón “Run lalign”. 

5. Contrario a lo que concluimos en el alineamiento global, hay zonas con alto grado de 

identidad. Hay una sub-secuencia con un 95% de identidad extendida por 40 

aminoácidos, así como hay una sub-secuencia con un 100% de identidad con 37 

aminoácidos de longitud. 

Tómese su tiempo 

Puede verificar esta afirmación en Dotlet. Hágalo (usando un tamaño de 

ventana grande y seleccionando la matriz “identity”) y note que lo que ha 

ocurrido es un rearreglo de la secuencia: 

En el Dotlet hay dos líneas paralelas. Una está en la parte inferior izquierda y la 

otra está en la parte superior derecha. Si usted posiciona el cursor sobre 

cualquiera de estas líneas notará en la parte inferior de la página (donde están 

las secuencias) las regiones de las secuencias que son idénticas. 

¿Es el alineamiento global en general más malo que el local? No. Lo que sí se puede 

decir es que para este ejemplo específico, donde queremos buscar regiones 

conservadas, es más conveniente un alineamiento local que uno global. 

6. Observe algo que al principio parece contradictorio. Como es lógico, los alineamientos 

en la página de resultados se ordenan de mejor a peor. Esto es: el de arriba nos da el 

mayor grado de certeza de que hay sub-secuencias en común (en el caso que 

sospechemos que las dos secuencias son homólogas, el primer alineamiento nos 

proporciona más evidencia que los otros). 

Sin embargo, el primer alineamiento tiene un porcentaje de identidad menor que el 

segundo. ¿Por qué es mejor entonces? 

Podría argumentarse que el primer alineamiento es más largo que el segundo, y por 

eso está de primero. Sin embargo, esta es sólo una respuesta parcial. El alineamiento 

global (por definición) es más largo que los dos, y no es mejor. 

Lo ideal es una mezcla entre los dos valores: identidad y longitud. Dos estadísticos que 

tienen en cuenta ambos valores a la vez son el “Score” y el “e-value” (es el valor que 

está a la derecha de “E(10,000)”, en la misma fila del porcentaje de identidad). 

El primer alineamiento tiene un Score de 251, el segundo de 232 y el tercero de 155. 

Entre mayor sea el Score, mejor es el alineamiento. 

De manera similar, para el primer alineamiento el “e-value” es 6e-17 (esto es, un cero, 

una coma, 16 ceros y un “6” al final; un número muy pequeño), para el segundo es 

2.9e-15 y para el tercero es 0.0046 (verifique estos números). Entre menor sea el “evalue”, 

mejor es el alineamiento. 

12

En el siguiente capítulo aprenderemos qué se tiene en cuenta al calcular un Score y un 

“e-value”, y cómo éste último se relaciona con la probabilidad de que el alineamiento 

conseguido se deba únicamente al azar. 

Recuerde: cuando usted hace un alineamiento global está suponiendo que tiene en frente 

secuencias homólogas y va a comparar su historia evolutiva al analizar los cambios que se han 

presentado. 

Cuando usted hace alineamientos locales usted estudia la conservación local de sus residuos. 

Esto le permite inferir (en caso que la similitud no sea explicable razonablemente por azar) que 

las dos proteínas son homólogas. 

Note el orden de los supuestos. En el primer caso está suponiendo homología y en el segundo 

la está verificando. 

¿Cómo se relacionan los conceptos selectividad y sensibilidad con este ejemplo? 

Ejercicio: 

En la siguiente página hay una proteína humana y una proteína que se aisló del gallo: 


¿Hay razón para creer que estas proteínas son homólogas? Argumente su respuesta. También 

explique qué método de alineamiento escogió y por qué. 

Practiejemplo C – ¿Cómo encontrar secuencias en bases de datos mediante 

alineamientos? 

En este ejemplo vamos a utilizar por primera vez el programa BLAST (Basic Local Alignment 

Search Tool). Este programa es para la bioinformática como el martillo es para el carpintero. 

Sin él, la caja de herramientas no puede estar completa. Tan importante es, que dedicaremos 

toda una sección del próximo capítulo para estudiarlo mejor. 

Sin embargo, no sobra dar un llamado de alerta. Es fácil caer en la tentación de usar BLAST 

para todos los problemas bioinformáticos. Al hacerlo, nos olvidamos que BLAST sigue siendo 

como un martillo: una herramienta más. Todo resultado que obtengamos con BLAST debemos 

justificarlo rigurosamente. Esto se consigue conociendo BLAST más a fondo. Pero por ahora 

basta con una corta introducción. 

1. Ingrese a la página principal del NCBI: 

http://www.ncbi.nlm.nih.gov/ 

2. Desde ahí, haga clic en el vínculo “BLAST” que está encima de la casilla de búsqueda. 

Esto lo lleva a la página principal de BLAST. 

3. El párrafo de introducción resume la funcionalidad del programa. 

Lo primero que hay que notar es que BLAST (como su nombre lo indica) hace 

alineamientos locales, para buscar secuencias similares a un ‘query’ en una base de 

datos. En esta descripción también sugieren tres usos: inferir relaciones funcionales y 

relaciones evolutivas e identificar miembros de una familia de genes. 

4. Lo siguiente es darse cuenta que hay muchas formas diferentes de hacer BLAST. Las 

grandes divisiones son: Nucleótidos, proteínas, traducciones, BLAST genómico y 

“BLASTs” especiales. 

13

El tipo de BLAST a seleccionar depende de varios factores, entre ellos: 

a) la naturaleza de nuestra secuencia (¿es ADN o proteína?) 

b) la base de datos que queremos sondear (¿queremos buscar en toda la base 

de datos, o restringirnos a un tipo de molécula especial u organismo 

particular?) 

c) la hipótesis que queremos comprobar (¿estamos buscando secuencias 

potencialmente homólogas a la nuestra o más bien la posición de nuestra 

secuencia en un genoma particular?) 

d) los supuestos acerca de nuestros resultados (si buscamos secuencias 

homólogas, ¿esperamos encontrar alta o baja conservación?) 

En este ejemplo vamos a usar sólo un tipo: El BLAST a un genoma particular. 

5. Como ejemplo, vamos a suponer que hemos aislado y secuenciado un pedazo de ADN 

humano al que se une un factor de transcripción que estamos estudiando (en el 

Practiejemplo 2C del capítulo 3 se habló brevemente acerca de los factores de 

transcripción). 

La secuencia es la siguiente: 

http://bioinformate.uniandes.edu.co/Secuencias/Blast01.txt 

¿Cómo saber qué gen es regulado por este factor de transcripción? Lo más adecuado 

es alinear esta secuencia con el genoma humano y ver en qué cromosoma 

encontramos la mayor identidad. Posteriormente analizaremos qué genes se 

encuentran flanqueando esta secuencia. Esto nos dará una hipótesis de trabajo muy 

buena. 

6. En la página principal de BLAST, haga clic en “Human” bajo la categoría “Genomes”. 

Luego ingrese la secuencia en la casilla de búsqueda y haga clic en “Begin Search”. 

7. Aparece una ventana en donde nos informan que nuestra solicitud ha sido puesta en 

una lista de espera. ¡A diferencia del ejemplo anterior, donde comparábamos dos 

secuencias de no más de 300 aminoácidos una contra la otra, en este caso 

necesitamos comparar nuestra secuencia con los 3000 millones de bases del genoma 

humano! Esto toma algún tiempo (en mi caso: “4 segundos, pero puede ser menos”). 

8. Tras esperar un tiempo, haga clic sobre el botón “Format!” 

9. Si esperó lo suficiente verá la página de resultados. Con el uso se acostumbrará al 

formato de esta página. 

Éste se divide en tres secciones. La primera tiene información general acerca de la 

búsqueda, con la fecha de realización, el RID que es un número único de identificación 

de este resultado, la base de datos que se utilizó, etc. 

La segunda sección tiene los alineamientos – primero en forma gráfica y luego de 

forma similar a como aparecen en LAlign. 

Al final aparece un resumen de los parámetros de BLAST al hacer esta búsqueda, 

además de unos estadísticos. 

En este momento nos vamos a centrar en la sección de la mitad. 

14

10. El 31 de julio de 2006 se obtuvieron 3 resultados. En la parte gráfica del resultado de 

BLAST aparecen tres líneas en color magenta. Cada una de ellas corresponde a un 

alineamiento. 

11. Dé clic sobre la primera línea magenta. Esto lo lleva al primer resultado. En mi caso, es 

una secuencia del cromosoma 7 del genoma humano. Después se menciona que en la 

dirección 5’ de mi secuencia en el genoma humano está la preproteína Sonic 

Hedgehog. Tenemos respuesta a nuestra inquietud: el factor de transcripción 

probablemente inducirá la expresión de este gen. 

12. Debajo aparecen unos datos estadísticos de este alineamiento en particular. 

Centrémonos en el e-value, que está después de “Expect”. ¿Nota que es un valor 

realmente bajo? Esto nos da un indicio de que el alineamiento es muy bueno. 

13. Observe otro resultado de esta página. En mi caso, el segundo resultado es también 

del cromosoma 7, pero en este caso se tomó como referencia la secuencia obtenida 

por Celera Genomics (ver introducción al capítulo 2 para ver que significa esto). 

Lo importante de esto es notar que los tres alineamientos no son tres formas de alinear 

dos secuencias (como sí ocurre en LAlign), sino la mejor forma de alinear una 

secuencia con varias secuencias presentes en diferentes bases de datos. De esto se 

trata BLAST: hacer alineamientos locales con muchas secuencias en bases de datos 

diferentes para llegar a conclusiones basadas en similitud. 

En este ejemplo únicamente vimos uno de los usos que tiene BLAST. Si bien hay muchos usos 

diferentes (como por ejemplo, formular hipótesis de homología o de conservación de 

estructura), todos se basan en el mismo principio. 

Ejercicio: 

En unas células cancerosas se aisló un mRNA que estaba expresado en cantidades anormales 

y se secuenció. La secuencia obtenida está en: 

http://bioinformate.uniandes.edu.co/Secuencias/Blast02.txt 

¿Hay alguna razón para creer que el mRNA aislado esté vinculado con el hecho de que la 

célula sea cancerosa? 

Practiejemplo D – Alineamientos múltiples 

Hasta aquí nos hemos concentrado únicamente en la similitud entre pares de secuencias. Sin 

embargo, estudiar la similitud entre varias secuencias simultáneamente nos puede dar mucha 

información, que no se encuentra con facilidad en alineamientos pareados. 

Una analogía que puede servir para entender esto es comparar el clima en varios años 

consecutivos. Si compara un par de años entre sí podrá decir que un año fue más caluroso que 

el otro en un mes particular, pero poco más que esto. En cambio, si analiza la tendencia año 

tras año (esto es, compara el mismo periodo de tiempo de todos los años simultáneamente), 

podrá percatarse que hay un calentamiento progresivo. 

En este ejemplo realizaremos un alineamiento múltiple para inferir relaciones evolutivas. La 

teoría subyacente es en esencia lo mismo que del párrafo anterior, sólo que al revés: 

suponemos que con el paso del tiempo las secuencias homólogas de los organismos 

adquieren diferencias o mutaciones (en el caso del clima concluimos que la temperatura 

aumentaba) y a partir de ahí inferimos cuáles especies están relacionadas y cuáles son lejanas 

evolutivamente, a partir del número de diferencias entre las secuencias. 

El programa que vamos a usar es ClustalW. Junto con BLAST, es una de las herramientas más 

usadas en bioinformática. En este ejemplo, aprenderemos a ingresar secuencias y a reconocer 

los principales resultados. 

15

1. Empiece en la página de ClustalW, dando clic en el siguiente vínculo: 

http://www.ebi.ac.uk/clustalw/ 


Lea el párrafo de introducción que está en esta página.que resume los 

principios de ClustalW: alineamiento múltiple, de secuencias biológicas, para 

ver identidades y diferencias, con posibilidad de ver relaciones evolutivas. 

Cada uno de estos pasos está diseñado para ajustarse a evidencia biológica 

existente. No es sólo un alineamiento múltiple: es un alineamiento diseñado 

para investigar secuencias biológicas desde una perspectiva evolutiva. 

En el siguiente capítulo, cuando veamos cómo se generan los alineamientos, 

retomaremos la importancia de este diseño. 

2. El formulario presente en esta página permite ajustar finamente varios parámetros del 

algoritmo, además de dar la opción de enviar los resultados al correo electrónico. Esto 

último es especialmente útil cuando se tienen alineamientos de muchas secuencias 

largas, ya que el resultado suele tardarse bastante en salir. 

Por el momento no vamos a cambiar ninguno de los parámetros. 

3. En el espacio que dice “Enter or Paste a set of Sequences in any supported format:” 

ingrese las secuencias que se encuentran en el siguiente vínculo: 

http://bioinformate.uniandes.edu.co/Secuencias/Clustal01.txt 

Es importante incluir junto con ellas la línea de descripción (que empieza con “>”) y no 

dejar una línea en blanco antes de las secuencias. 

Las secuencias pertenecen a la proteína ribosomal L18a, que es un gen conservado en 

todos los eucariontes (seres vivos con sistema de membranas intracelular, entre los 

que nos incluimos nosotros). 

4. Tras ingresar las secuencias dé clic en “Run” y espere los resultados. 

5. La página de resultados tiene una tabla con fondo gris llamada “Results of search”. En 

esta tabla hay estadísticas generales del alineamiento, además de unos archivos de 

texto que sirven para procesar los datos con otro software. 

El botón JalView carga una ventana que permite visualizar el alineamiento con colores 

(debe tener instalada la máquina virtual de Java, ver practiejemplo 1B). Además de 

mostrar los residuos más conservados y generar una secuencia consenso, tiene varias 

funciones avanzadas accesibles a través del menú superior. Por el momento no 

profundizaremos en su uso. 

6. En la página de resultados sigue una sección titulada “Scores Table”. Es un resumen 

del resultado de alinear cada par de secuencias. Fíjese, por ejemplo, que el mayor 

Score (ver practiejemplo 2B para recordar que es el Score) se encuentra entre la rata y 

el ratón. Esto tiene sentido, si se piensa que son especies muy cercanas. 

También se puede ver que los menores Score en general surgen en alineamientos con 

la secuencia de la planta (Arabidopsis thaliana) y con la secuencia de la levadura 

(Saccharomyces cerevisiae). Esto también tiene sentido evolutivo, pues estos 

organismos pertenecen a reinos diferentes al animal. 

16

7. Con base en estos Scores, ClustalW genera un cladograma y un filograma. El que se 

carga primero es el cladograma, pero a nosotros nos interesa más en este momento el 

filograma. Para visualizarlo, haga clic en el botón “Show as Phylogram Tree”. 

En la parte inferior de la página aparece entonces el árbol filogenético, donde la 

longitud de las ramas se relaciona con la distancia evolutiva entre las especies. Note 

como todos los vertebrados se encuentran relativamente cerca entre sí, seguidos 

después por el gusano (Caenorhabditis elegans), y finalmente por la levadura (un 

hongo) y la planta. 

Hemos visto como la comparación de varias secuencias mediante alineamientos múltiples nos 

puede dar una idea de la filogenia (parentesco evolutivo). Sin embargo, hay detalles que no 

cuadran. Por ejemplo, el humano parece ser más cercano a la rata, el ratón y el perro que al 

chimpancé (algunos argumentarán en broma que esto tiene sentido). Esto se debe a que el 

Score del alineamiento entre humano y rata es 99 mientras que el Score entre el humano y el 

chimpancé es 95. Pero surge la pregunta, ¿es suficiente una diferencia de tres puntos en el 

Score para definir relaciones filogenéticas? 

En el siguiente capítulo, cuando hablemos acerca de puntajes en los alineamientos, trataremos 

de dar una respuesta parcial a esta pregunta. 

Ejercicio: 

En el siguiente vínculo hay cinco secuencias: 

http://bioinformate.uniandes.edu.co/Secuencias/Clustal02.txt 

Las primeras dos pertenecen a humanos. Las siguientes dos fueron extraídas de un 

chimpancé. 

La quinta secuencia tiene origen desconocido, pero se sabe que pertenece a alguna de las dos 

especies y que está en el mismo locus. 

¿Cuál es el origen más probable de la última secuencia? 

3. Aplicaciones basadas en alineamientos 

Practiejemplo A – Encontrar exones e intrones a partir de la proteína y su ADN 

correspondiente 

En la sección anterior el énfasis estuvo en la parte conceptual. Conocimos los alineamientos 

locales y globales, además de conocer un programa para cada uno de estos tipos de 

alineamiento: BLAST hace alineamientos locales contra una base de datos, mientras que 

ClustalW hace alineamientos globales múltiples. 

Haciendo uso de los conceptos de la sección anterior puede usted resolver muchos problemas 

concretos. En el ejercicio que acompaña al Practiejemplo 2A, por ejemplo, se pide encontrar 

los intrones y exones de un gen, si se tiene una secuencia de ADN y su mRNA respectivo. 

Un ligero cambio en el problema se pretende resolver en este ejemplo: en lugar de tener la 

secuencia de mRNA tenemos la secuencia de la proteína que codifica. ¿Cómo resolver este 

problema? 

Es posible hacerlo en tres pasos: el primero sería elaborar una lista de todos los mRNAs que 

pueden codificar la proteína. Esto se puede hacer a mano o mediante un pequeño programa de 

computador que genere la lista. 

El segundo paso sería ver cuál de todos los mRNAs de la lista es el mejor candidato a ser 

codificado por la secuencia de ADN que tenemos. Esto se puede hacer mediante alineamientos 

17

globales entre cada uno de los mRNAs de la lista y el ADN. El mRNA correcto estará en 

alineamiento que tenga el mayor Score o menor e-value. 

El tercer paso es repetir el ejercicio del Practiejemplo 2A. 

Hay una mejor solución a este problema: aprovechar el hecho que un grupo de investigación ya 

desarrolló una aplicación que está optimizada para esta tarea específica, y que la ha puesto a 

disposición de cualquier usuario con acceso a Internet. Esta aplicación, desarrollada por Ewan 

Birney, Richard Copley y otros colaboradores, se conoce como Wise2 (GeneWise). 

1. Ingrese al formulario inicial de Wise2 haciendo clic en el siguiente vínculo: 

http://www.ebi.ac.uk/Wise2/ 

2. En el siguiente vínculo encontrará una secuencia de proteína y una secuencia de ADN. 

http://bioinformate.uniandes.edu.co/Secuencias/GeneWise01.txt 

Ingrese cada secuencia en el espacio correspondiente del formulario y haga clic en 

“Run”. 

3. Tras un tiempo de espera aparece la página de resultados. La tabla gris permite bajar 

archivos para ser procesados por otros programas. Después viene un resumen de los 

parámetros que se usaron en el programa. Seguido a esto se encuentra el 

alineamiento entre la proteína y el ADN, y al final un resumen de los intrones 

encontrados. 

4. El alineamiento se compone de tres líneas idénticas, que corresponden a la proteína. 

Debajo de estas tres líneas hay otras tres, que corresponden a la secuencia de 

nucleótidos. 

Cada columna corresponde a una tripleta de nucleótidos con el aminoácido particular 

que codifican. 

Los intrones se encuentran marcados, junto con su longitud. En total hay 5 de ellos. 

5. Este ejemplo se basa en un registro de NCBI Gene de la proteína white de Drosophila 

melanogaster. Dar clic en el siguiente vínculo lo llevará al registro: 

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=full_report 

&list_uids=31271#tranprod 

El programa logró encontrar correctamente los cinco intrones presentes. 

El mensaje importante que nos transmite este ejemplo es “no reinventar la rueda”. Con una 

búsqueda buena en Google es posible encontrar programas que ejecutan muchas tareas 

comunes de manera efectiva. 

Como ejemplo adicional está Sim4, diseñado para alinear un mRNA o cDNA con la secuencia 

de ADN respectiva. El artículo científico donde describen Sim4 se encuentra en: 

http://www.genome.org/cgi/content/full/8/9/967 

Ejercicio: 

En la página de Wise2, a la izquierda, hay enlaces a otras herramientas – cada una tiene su 

especialidad. ¿Cuál programa usaría para detectar inversiones en una secuencia de 

nucleótidos? 

Use este programa para detectar la inversión presente entre estas dos secuencias: 

18

http://bioinformate.uniandes.edu.co/Secuencias/GeneWise02.txt 

Practiejemplo B – HomoloGene: una base de datos de genes homólogos 

En la sección anterior aprendimos, que uno de los usos de los alineamientos es la inferencia de 

relaciones evolutivas. Si dos secuencias son muy similares en especies lejanas, es probable 

que esto se deba a que el ancestro común de estas dos especies ya tenía presente la 

secuencia. 

Basándose en esta hipótesis, el NCBI está generando una base de datos de secuencias que 

por su similitud son candidatas a ser homólogas. El nombre de esta base de datos es 

HomoloGene. 

1. Ingrese a la página principal de HomoloGene haciendo clic en el siguiente vínculo: 

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=homologene 

2. El primer párrafo de la página nos indica que éste es un sistema automatizado de 

detección de genes homólogos en los organismos cuya secuencia genómica completa 

ya se conoce. 

Para evaluar los resultados, ingrese el término “APP” y haga clic en “Go”. APP es el 

símbolo de un gen asociado con la enfermedad de Alzheimer. 

3. El 3 de agosto de 2006 se produjeron 78 resultados. Entre ellos hay uno con número 

de identificación 56379. El número de identificación se encuentra justo al lado de la 

palabra “HomoloGene:” en cada resultado. Ingrese a este registro. 


Cada registro de HomoloGene contiene información en varios contextos: 

Genes, proteínas, fenotipos, dominios conservados, referencias bibliográficas... 

Esta información puede ser especialmente útil para encontrar modelos 

biológicos para enfermedades comunes. Mire, por ejemplo, que algunos 

fenotipos en el ratón muestran su equivalente al del humano. 

4. Nos vamos a centrar en la sección llamada “Alignment Scores”. Haga clic en el enlace 

“Show Table of Pairwise Scores”. Para cada una de las especies tenemos una lista de 

estadísticos de similitud entre las secuencias. 

Dese cuenta que el porcentaje de identidad en aminoácidos y nucleótidos es bastante 

alto entre los vertebrados (superior al 80%): H. sapiens (humano), M. musculus (ratón), 

R. norvegicus (rata) y G. gallus (gallo). 

En cambio, comparándolo con los organismos invertebrados, el porcentaje de identidad 

es menor al 50%. 

5. Vuelva al registro completo de HomoloGene. Hay dos menús desplegables bajo el 

título “Regenerate Alignments”. Escoja en el primero al humano (H. sapiens) y en el 

segundo al ratón (M. musculus). Luego dé clic sobre el botón “BLAST”. 

6. Se despliega el alineamiento que dio lugar a la hipótesis de homología entre los genes. 

Note el alto grado de identidad que hay entre las secuencias. Tenemos buenos indicios 

para creer, que esta secuencia realmente es homóloga. 

19

7. Vuelva nuevamente al registro de HomoloGene y en el menú desplegable “Display” 

seleccione la opción “Multiple Alignment”. Puede detectar las regiones que más 

diferencian a los vertebrados de los otros organismos. 

8. Ahora ingrese en la casilla de búsqueda superior el número 8634, asegúrese que 

todavía tiene seleccionado “HomoloGene” en el menú desplegable y haga clic en “Go”. 

Aparece como resultado el gen HEBP2: “Heme binding protein 2”. Ingrese a este 

registro. 

Entre las especies aparecen el humano, el ratón, la rata, el perro y el gallo y... ¡una 

planta (A. thaliana)! 

Recordemos que el grupo heme está presente en la hemoglobina (y otros compuestos), 

donde cumple un papel en el transporte de oxígeno en la sangre. En la planta, este 

grupo debe tener un papel diferente. 

¿Podemos confiar que los genes de la planta y del humano son homólogos? ¿Es 

posible que la similitud en la secuencia se deba a evolución paralela? ¿Está presente el 

grupo heme en todos los eucariontes? La única evidencia de la que disponemos para 

respondernos estas preguntas es la similitud entre dos secuencias. Por tanto debemos 

tomar con precaución este resultado. 

Resaltando conceptos: Homología vs. Similitud 

HomoloGene se basa en la similitud de las secuencias para inferir posibles 

genes homólogos. Sin embargo, similitud no es sinónimo de homología. Es por 

eso que la homología de estos genes debe considerarse siempre como 

hipótesis. 

Recordemos: dos genes son homólogos si tienen el mismo origen evolutivo. 

Esto es probable si estudiamos proteínas como la actina, que hace parte del 

citoesqueleto en todos los eucariontes (organismos con sistema de membranas 

intracelular). 

Otros genes, por ejemplo los del sistema inmunológico humano, no presentan 

homólogos en las plantas. Puede ocurrir, sin embargo, que la secuencia de 

aminoácidos de uno de éstos sea similar a una proteína vegetal. 

Toda hipótesis en bioinformática debe estudiarse en un contexto biológico para 

poder hacer inferencias confiables. Siguiendo con el ejemplo, es necesario 

saber algo más de la actina y del sistema inmunológico es un complemento 

necesario para evaluar los resultados estadísticos de un alineamiento. 

¿Qué ocurre si dos secuencias homólogas han acumulado tantas mutaciones entre sí, que un 

primer examen de similitud no logra detectar su origen común? En ese caso, HomoloGene 

probablemente no considere este par de secuencias como homólogas. 

Existen métodos más sensibles para evaluar la similitud entre secuencias (por ejemplo PSI- 

BLAST). En los siguientes capítulos exploraremos algunos de estos métodos. 

Ejercicio: 

Se ha encontrado un gen en ratones (llamado Mc3r) que está relacionado con el aumento de 

peso. Ratones que tienen mutado este gen engordan más a pesar de comer menos (en el 

siguiente tutorial se profundiza más en el tema: 

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=coffeebrk.chapter.26). 

Use HomoloGene para encontrar el gen homólogo en humanos. ¿Cuál es el porcentaje de 

identidad en la secuencia de aminoácidos entre el humano y el ratón? 

20

Ejercicios 

Introducción 

Los ejercicios de este capítulo son una simulación de una rutina común en bioinformática: se 

aísla un pedazo de ADN, se obtiene la secuencia, y mediante ésta se pretende inferir la mayor 

cantidad de información posible usando de bases de datos. 

El ejemplo dista de representar una situación real en algunos casos (las secuencias del primer 

ejercicio, por ejemplo, no presentan errores de secuenciación y no tienen repeticiones que 

generen ambigüedad). Aún así, los conceptos que subyacen son los mismos. 

Primer ejercicio 

El resultado de un experimento de secuenciación es un electroferograma, en donde cada pico 

corresponde a un nucleótido específico en el ADN (ver un ejemplo en el siguiente vínculo: 

http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=retrieve&size=479999&s=search&m=obtain 

&retrieve=Submit&val=1386897769&x_join=and&x_field=CENTER_NAME&x_cond=%3D&file=t 

race&gz=on&fasta=on&dopt=trace&dispmax=5&page=1) . La secuencia de ADN obtenida de 

un diagrama de este estilo tiene un tamaño de aproximadamente 700 nucleótidos, por lo que se 

requieren varias pasadas para secuenciar un gen completo. Estas secuencias deben 

ensamblarse, esto es, compararse entre sí para determinar una secuencia consenso de todo el 

gen. 

Además de que sólo es posible secuenciar pedazos cortos de ADN, muchos picos de los 

electroferogramas son ambiguos. Esto lleva a que dos secuencias – así pertenezcan a la 

misma región cromosómica – parezcan tener un orden diferente de nucleótidos. 

Si bien existen programas especializados en secuenciación (que van desde el análisis del 

electroferograma, pasando por la optimización de las secuencias para el alineamiento, hasta el 

análisis conjunto de varios experimentos de secuenciación para obtener una secuencia 

consenso), vamos a usar las herramientas de este capítulo para obtener un resultado 

aproximado. 

En la siguiente página Web hay tres secuencias que deben ensamblarse en un orden 

específico (esto significa, que una secuencia representa el inicio, otra el segmento medio y la 

tercera el extremo final): 

http://bioinformate.uniandes.edu.co/Secuencias/Ejer05_01_01.txt 

Sin embargo, no se sabe en qué orden deben ir. Usando Dotlet determine: ¿cuál es la 

secuencia inicial, cuál es la intermedia y cuál es la final? 

Pista: Las siguientes secuencias, pertenecientes a otro gen, están en orden (“Secuencia_1” es 

el segmento corriente arriba y “Secuencia_2” el segmento corriente abajo): 


Practiejemplos de repaso: 

1A, 1B 

Segundo ejercicio 

(Depende del ejercicio anterior) 

21

Tras haber determinado el orden en que deben ensamblarse las secuencias, use LAlign y un 

editor de texto (como el bloc de notas de Windows) para generar una secuencia conjunta a 

partir de los tres fragmentos. 

Justifique la elección del tipo de alineamiento que va a hacer (¿local? ¿global? ¿global sin 

penalidad en los extremos?). 


2A, 2B 

Tercer ejercicio 

Un ensamblaje como el que realizó en los dos ejercicios anteriores (sólo que con otra región 

del gen) está en el siguiente vínculo: 


Basándose en este ensamblaje, determine el cromosoma y el gen que están representados por 

esta secuencia. 

Opcional (requiere haber leído el capítulo 4): A partir de la ontología del gen, ¿puede 

determinar si es un factor de transcripción o un gen estructural? 


2C, Capítulo 4 practiejemplos 1A y 1B 

Cuarto ejercicio 

(Depende del ejercicio anterior) 

Encuentre posibles genes homólogos al determinado en el punto anterior. ¿Es éste un gen 

conservado entre los mamíferos? 

Descargue la secuencia de proteínas del grupo de genes homólogos que encontró. Haga un 

alineamiento múltiple con estas secuencias. ¿Se puede inferir la filogenia (orden de 

especiación) de las especies a partir de estas secuencias? 

Opcional (requiere haber leído el capítulo 1): Busque un libro que tenga un tutorial acerca de 

este gen. ¿Cumple la misma función en todos los mamíferos o tiene un efecto particular en 

humanos únicamente? 


2D, 3B, Capítulo 1 practiejemplo 3B 

Quinto ejercicio 

En el siguiente enlace están las secuencias proteicas del humano y del chimpancé del gen que 

estamos estudiando: 

http://bioinformate.uniandes.edu.co/Secuencias/Ejer_05_05_01.txt 

Tras alinear las secuencias (¿global o localmente?) determine: 

A) el porcentaje de identidad entre las secuencias 

B) los aminoácidos específicos diferentes (¿cambiaron las propiedades fisicoquímicas de 

estos aminoácidos?) 

22


2A, 2B 

Sexto ejercicio 

Algunas secuencias de ARN forman una estructura llamada stem-loop, donde el extremo 5’ y el 

extremo 3’ se complementan y forman asociaciones Watson-Crick entre sí (ver una imagen en 

el siguiente vínculo: 

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Search&db=books&doptcmdl=GenBookHL& 

term=RNA+secondary+and+tertiary+structures+AND+mcb%5Bbook%5D+AND+105263%5Buid 

%5D&rid=mcb.figgrp.821). 

En este ejercicio vamos a usar Dotlet para hacer esta inferencia. En la siguiente página hay 

cuatro secuencias: 

http://bioinformate.uniandes.edu.co/Secuencias/Ejer_05_06_01.txt 

La primera secuencia es el ARN que vamos a analizar. La segunda es la secuencia invertida 

(esto significa, que se escribió la secuencia al revés). La tercera secuencia es el complemento 

de la primera (en donde teníamos Adenina se escribió Timina, etc.). La cuarta es el reverso 

complemento (el resultado de invertir y complementar). 

A) ¿Cuál par de secuencias analizaría usted para determinar la presencia de un stem-loop? 

B) Cargue las dos secuencias que escogió en el punto A en Dotlet, varíe los parámetros hasta 

obtener una imágen completa (variando el Zoom) y con poco ruido (variando el tamaño de 

ventana y el histograma a la derecha). ¿Cómo se evidencia el stem-loop en la gráfica 

obtenida? 


1A, 1B 

Profundización 

MUMmer 

Versión en línea de MUMmer: 

http://cmr.tigr.org/tigr-scripts/CMR/shared/MakeFrontPages.cgi?page=genome_alignment 

MUMmer es una herramienta similar al Dotplot, que permite visualizar similitud entre genomas 

completos. Tiene la ventaja de ser especialmente rápido, a pesar del volumen de datos de 

entrada. 

A la fecha, MUMmer va en la versión 3.0. En el artículo científico publicado sobre la primera 

versión describen la herramienta de esta manera: 

“Se describe un nuevo sistema para alinear secuencias genómicas completas. Usando una 

estructura de datos eficiente conocida como árbol de sufijos, el sistema es capaz de alinear 

secuencias que contienen millones de nucleótidos rápidamente. [...] El uso de este algoritmo 

debería facilitar el análisis de regiones cromosomales sinténicas, comparaciones cepa-cepa, 

comparaciones evolutivas y duplicaciones genómicas.” 

(Delcher et al., “Alignment of whole genomes”, Nucleic Acids Res. 1999 Jun 1;27(11):2369-76. 

PMID: 10325427). 

23

MUMmer fue desarrollado en TIGR (The Institute of Genomic Research) y en la página web de 

este instituto (http://www.tigr.org/) es posible encontrar otras herramientas adicionales de 

comparación entre genomas. 

NCBI PopSet 

Página de inicio de PopSet: 

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PopSet 

Cuando un investigador está interesado en publicar un alineamiento de secuencias puede 

hacer un envío a GenBank de éste mediante la herramienta Sequin (ver capítulo 2, 

Practiejemplo 1C). De esta forma sólo tiene que referenciar el registro específico en el NCBI, 

de manera similar a citar una secuencia de ADN mediante el número de acceso o el GI. 

Algunos de estos alineamientos están pensados para proporcionar hipótesis evolutivas de 

poblaciones. NCBI ha creado una base de datos especializada en este tipo de estudios y se 

conoce como PopSet. Esta es la descripción de un PopSet en la página Web del NCBI: 

“¿Qué es un PopSet? 

Un PopSet es un conjunto de secuencias de ADN que han sido recolectadas para analizar las 

relaciones evolutivas de una población. La población pudo originarse a partir de diferentes 

miembros de la misma especie, o por organismos de especies diferentes. Son enviados a 

GenBank mediante Sequin, usualmente en forma de alineamiento de secuencias.” 

Base de datos de COGs 

Pagina inicial de la base de datos de COGs: 

http://www.ncbi.nlm.nih.gov/COG/ 

Cuando empezaron a surgir las secuencias completas de algunos organismos, varios grupos 

iniciaron la tarea de encontrar todos los genes potencialmente homólogos. Una iniciativa del 

NCBI, conocida como base de datos de COGs, se ha aproximado a esta tarea: 

“La base de datos de clusters de grupos ortólogos de proteínas (COGs [Cluster of Orthologous 

Groups]) ha sido pensada como una clasificación filogenética de proteínas de genomas 

completos. Cada COG incluye proteínas que se cree son ortólogas, esto es, conectadas por 

descendencia evolutiva vertical. [...] El propósito de la base de datos de COGs es servir como 

plataforma para la anotación funcional de genomas recientemente secuenciados y realizar 

estudios en evolución genómica.” 

(Roman L. et al., “The COG database: new developments in phylogenetic classification of 

proteins from complete genomes”, Nucleic Acids Res. 2001 Jan 1;29(1):22-8. PMID: 11125040) 

Varios de los genes presentes en HomoloGene surgen de esta base de datos. Se puede decir 

que la base de datos COG es a HomoloGene como GenBank es a NCBI Gene. 

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 2.5 

License. 

24

Capítulo 5: Introducción a los alineamientos de secuencias

Create successful ePaper yourself

Delete template?

Save as template?