13.05.2013 Views

Tema 2: Alineamientos pareados y búsqueda de homólogos en ...

Tema 2: Alineamientos pareados y búsqueda de homólogos en ...

Tema 2: Alineamientos pareados y búsqueda de homólogos en ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

Introducción a la Filoinformática<br />

U. Sevilla, 13-17 <strong>de</strong> Junio <strong>de</strong>l 2011<br />

Pablo Vinuesa (vinuesa@ccg.unam.mx)<br />

C<strong>en</strong>tro <strong>de</strong> Ci<strong>en</strong>cias G<strong>en</strong>ómicas UNAM<br />

http://www.ccg.unam.mx/~vinuesa/<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/<br />

• <strong>Tema</strong> 2: alineami<strong>en</strong>tos <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong> <strong>homólogos</strong> <strong>en</strong><br />

bases <strong>de</strong> datos<br />

• evolución <strong>de</strong> secu<strong>en</strong>cias y clasificación <strong>de</strong> mutaciones<br />

• in<strong>de</strong>les d l y gaps<br />

• alineami<strong>en</strong>tos globales (Needleman-Wunsch) vs. locales (Smith-Waterman);<br />

• programación dinámica;<br />

• dot plots;<br />

• matrices <strong>de</strong> costo <strong>de</strong> sustitución, p<strong>en</strong>alización <strong>de</strong> gaps y cuantificación <strong>de</strong> la similitud;<br />

• evaluación estadística <strong>de</strong> la similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias;<br />

• escrutinio <strong>de</strong> bases <strong>de</strong> datos mediante BLAST; Búsquedas a nivel <strong>de</strong> DNA vs. AA;<br />

•la familia BLAST e interpretación <strong>de</strong> resultados <strong>de</strong> <strong>búsqueda</strong> <strong>de</strong> secu<strong>en</strong>cias homólogas<br />

•prácticas: uso<strong>de</strong> NCBI BLAST <strong>en</strong> línea<br />

<strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong> <strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos<br />

Los alineami<strong>en</strong>tos <strong>pareados</strong> locales son la base <strong>de</strong> los métodos <strong>de</strong> <strong>búsqueda</strong><br />

<strong>de</strong> secu<strong>en</strong>cias o dominos <strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos<br />

• Si dos proteínas o g<strong>en</strong>es se parec<strong>en</strong> mucho a lo largo <strong>de</strong> toda su longitud asumimos<br />

que se trata <strong>de</strong> proteínas o g<strong>en</strong>es <strong>homólogos</strong>, es <strong>de</strong>cir, <strong>de</strong>sc<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> un mismo<br />

ancestro común (c<strong>en</strong>ancestro)<br />

(c<strong>en</strong>ancestro).<br />

• Por ello una <strong>de</strong> las técnicas más utilizadas para <strong>de</strong>tectar pot<strong>en</strong>ciales <strong>homólogos</strong> <strong>en</strong><br />

bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias se basa <strong>en</strong> la cuantificación <strong>de</strong> la similitud <strong>en</strong>tre pares<br />

<strong>de</strong> secu<strong>en</strong>cias y la <strong>de</strong>terminación <strong>de</strong> la significancia estadística <strong>de</strong> dicho parecido.<br />

Estas magnitu<strong>de</strong>s son las que reportan los estadísticos <strong>de</strong> BLAST.<br />

(... truncado)<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

<strong>Tema</strong> 2:<br />

alineami<strong>en</strong>tos<br />

<strong>pareados</strong>, <strong>búsqueda</strong>s<br />

<strong>de</strong> <strong>homólogos</strong> <strong>en</strong><br />

bases <strong>de</strong> datos<br />

Protocolo básico para un análisis filog<strong>en</strong>ético <strong>de</strong><br />

secu<strong>en</strong>cias moleculares<br />

Colección <strong>de</strong> secu<strong>en</strong>cias homólogas<br />

• BLAST y FASTA<br />

Alineami<strong>en</strong>to múltiple <strong>de</strong> secu<strong>en</strong>cias<br />

Estima filog<strong>en</strong>ética<br />

• Clustal, T-Coffee, muscle...<br />

Análisis evolutivo <strong>de</strong>l alineami<strong>en</strong>to y selección <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> sustitución más ajustado<br />

• tests <strong>de</strong> saturación, mo<strong>de</strong>ltest, ...<br />

• NJ, ME, MP, M , ML, Bayes ...<br />

Pruebas <strong>de</strong> confiabilidad <strong>de</strong> la topología inferida<br />

• proporciones <strong>de</strong> bootstrap<br />

probabilidad posterior ...<br />

Interpretación evolutiva y aplicación <strong>de</strong> las filog<strong>en</strong>ias<br />

Alineami<strong>en</strong>to <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> DNA y proteína -<br />

introducción<br />

• Dadas 2 o más secu<strong>en</strong>cias, lo que g<strong>en</strong>eralm<strong>en</strong>te <strong>de</strong>seamos es:<br />

1. cuantificar su grado <strong>de</strong> similitud<br />

2. <strong>de</strong>terminar las correspon<strong>de</strong>ncias p evolutivas (homología) g residuo – residuo<br />

3. <strong>de</strong>scribir e interpretar patrones <strong>de</strong> conservación y variación<br />

4. inferir las relaciones evolutivas <strong>en</strong>tre las secu<strong>en</strong>cias<br />

• Para <strong>de</strong>finir índices cuantitativos <strong>de</strong> similitud <strong>en</strong>tre secu<strong>en</strong>cias necesitamos primero<br />

<strong>de</strong>finir las correspon<strong>de</strong>ncias evolutivas (homología) <strong>en</strong>tre los residuos <strong>de</strong> distintas secu<strong>en</strong>cias,<br />

<strong>en</strong> forma <strong>de</strong> un alineami<strong>en</strong>to. Este repres<strong>en</strong>ta una <strong>de</strong> las herrami<strong>en</strong>tas básicas<br />

<strong>de</strong> la bioinformática y biología evolutiva<br />

•Para optimizar un alineami<strong>en</strong>to necesitamos acomodar las correspon<strong>de</strong>ncias <strong>en</strong>tre resíduos<br />

idénticos, distintos, inserciones y <strong>de</strong>leciones. Esto se logra matemáticam<strong>en</strong>te usando<br />

factores <strong>de</strong> pon<strong>de</strong>ración (“weightings”) para cada caso. Así un match ti<strong>en</strong>e un peso, un<br />

mismatch otro y los in<strong>de</strong>les un tercer valor. Dos secu<strong>en</strong>cias se comparan resíduo a resíduo,<br />

g<strong>en</strong>erándose un valor <strong>de</strong> puntuación (score) acor<strong>de</strong> a estas pon<strong>de</strong>raciones, que refleja el<br />

nivel <strong>de</strong> similitud <strong>en</strong>tre ellas<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 1


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />

conceptos y terminología básica<br />

• A lo largo <strong>de</strong> la evolución las secu<strong>en</strong>cias <strong>de</strong>sc<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> otra ancestral van acumulando<br />

diversos tipos <strong>de</strong> mutaciones. Estas son mutaciones puntuales o reorganizaciones g<strong>en</strong>ómicas,<br />

que pue<strong>de</strong>n involucrar inserciones, <strong>de</strong>leciones, inversiones, translocaciones o duplicaciones,<br />

mediados por distintos mecanismos <strong>de</strong> recombinación (homóloga e ilegítima)<br />

• Cualquier análisis filog<strong>en</strong>ético y/o evolutivo <strong>de</strong> secu<strong>en</strong>cias moleculares require <strong>de</strong> un alineami<strong>en</strong>to<br />

para po<strong>de</strong>r comparar sitios <strong>homólogos</strong> <strong>en</strong>tre las secu<strong>en</strong>cias a estudiar. Para ello se<br />

escrib<strong>en</strong> las secu<strong>en</strong>cias <strong>en</strong> filas una sobre la otra, <strong>de</strong> modo que los sitios <strong>homólogos</strong> quedan<br />

alineados por columnas. Cada sitio o columna <strong>de</strong>l alineami<strong>en</strong>to correspon<strong>de</strong> a un caracter,<br />

y los nt o aa que ocupan dichas posiciones repres<strong>en</strong>tan los distintos estados <strong>de</strong>l caracter<br />

3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3<br />

Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />

tipos <strong>de</strong> mutaciones <strong>en</strong> secs. codificadoras <strong>de</strong> proteínas<br />

secu<strong>en</strong>cia<br />

ancestral<br />

secu<strong>en</strong>cias<br />

<strong>de</strong>rivadas<br />

(evolucionadas)<br />

pos. codón 123<br />

codones ATG TGT TTT GAT GCA<br />

AA M C F D A<br />

especie A<br />

especie B<br />

* *<br />

ATG TAT TTT CAT GCA<br />

* *<br />

ATG ---TTC GAC GCA<br />

M T F H A M F D A<br />

nosinónima<br />

sinónimas y <strong>de</strong>leción <strong>en</strong> marco<br />

especie C ATG TGT TT- G AT G CAX<br />

M C L M X<br />

<strong>de</strong>leción fuera <strong>de</strong> marco<br />

•Todaslasmutaciones <strong>en</strong> 2 as posiciones resultan <strong>en</strong> sustituciones no sinónimas<br />

• 96% <strong>de</strong> mutaciones <strong>en</strong> 1 as posiciones resultan <strong>en</strong> sustituciones no sinónimas<br />

• Casi todas las sustituciones sinónimas ocurr<strong>en</strong> <strong>en</strong> las 3 as posiciones<br />

• las <strong>de</strong>leciones o inserciones <strong>en</strong> secs. codificadoras <strong>de</strong> aa suce<strong>de</strong>n g<strong>en</strong>eralm<strong>en</strong>te<br />

<strong>en</strong> múltiplos <strong>de</strong> tres nt; <strong>de</strong> no ser así se g<strong>en</strong>eran cambios <strong>de</strong> marco <strong>de</strong> lectura<br />

corri<strong>en</strong>te abajo <strong>de</strong> la mutación, con frecu<strong>en</strong>cia g<strong>en</strong>erando un pseudog<strong>en</strong> no funcional<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />

conceptos y terminología básica<br />

•Cuando por ev<strong>en</strong>tos <strong>de</strong> inserción o <strong>de</strong>leción (in<strong>de</strong>les) las secu<strong>en</strong>cias homólogas pres<strong>en</strong>tan<br />

distintas longitu<strong>de</strong>s, es necesario introducir “gaps” <strong>en</strong> el alineami<strong>en</strong>to para mant<strong>en</strong>er la<br />

correspon<strong>de</strong>ncia <strong>en</strong>tre sitios <strong>homólogos</strong> situados antes y <strong>de</strong>spués <strong>de</strong> las regiones afectadas<br />

por in<strong>de</strong>les. Estas regiones se i<strong>de</strong>ntifican mediante guiones (-). Los in<strong>de</strong>les no se distribu-<br />

y<strong>en</strong> aleatoriam<strong>en</strong>te <strong>en</strong> las secu<strong>en</strong>cias codificadoras codificadoras. Casi siempre aparec<strong>en</strong> ubicados<br />

<strong>en</strong>tre dominios funcionales o estructurales, prefer<strong>en</strong>tem<strong>en</strong>te <strong>en</strong> bucles (loops) que conectan<br />

a dichos dominios. Esto vale tanto para RNAs estructurales (tRNAs y rRNAs) como<br />

para proteínas. No suel<strong>en</strong> interrumpir el marco <strong>de</strong> lectura.<br />

•A mayor distancia g<strong>en</strong>ética (evolutiva) <strong>en</strong>tre un par <strong>de</strong> secu<strong>en</strong>cias, mayor será el número <strong>de</strong><br />

mutaciones acumuladas. Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l tiempo <strong>de</strong> separación <strong>de</strong> los linajes y la tasa<br />

evolutiva <strong>de</strong>l locus, pue<strong>de</strong> llegar a ser imposible alinear ciertas regiones <strong>de</strong>bido a f<strong>en</strong>óm<strong>en</strong>os<br />

<strong>de</strong> saturación mutacional. Las regiones <strong>de</strong> homología dudosa <strong>de</strong>b<strong>en</strong> <strong>de</strong> ser excluídas <strong>de</strong> un<br />

análisis filog<strong>en</strong>ético<br />

Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />

alineami<strong>en</strong>to y tipos <strong>de</strong> mutaciones<br />

pos. codón 123<br />

codones ATG TGT TTT GAT GCA<br />

AA M C F D A<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 2<br />

secu<strong>en</strong>cia<br />

ancestral<br />

alineami<strong>en</strong>to <strong>de</strong><br />

sitios <strong>homólogos</strong><br />

para tres secs.<br />

Transiciones (ti) purina - purina<br />

A<br />

A-C G<br />

A-C<br />

C-G<br />

A-T<br />

especie A<br />

especie B<br />

especie C<br />

C T<br />

C-G<br />

Transiciones (ti) pirimidina - pirimidina<br />

Transversiones (tv)<br />

pur. pyr.<br />

G-T<br />

ATG TAT TTT CAT GCA<br />

ATG --- TTC GAC GCA<br />

ATG TGT TT- GAT GCA<br />

ti ti tv ti<br />

cambio <strong>de</strong> marco <strong>de</strong><br />

lectura !!! posible<br />

pseudog<strong>en</strong>.<br />

• exist<strong>en</strong> 4 tipos <strong>de</strong> ti y 8 <strong>de</strong> tv<br />

• las tasas <strong>de</strong> sustitución <strong>de</strong> ti () son<br />

g<strong>en</strong>eralm<strong>en</strong>te mucho más altas que las<br />

<strong>de</strong> tv ()


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />

alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales)<br />

• Estudiar el fundam<strong>en</strong>to <strong>de</strong> los algoritmos <strong>de</strong> PD es un bu<strong>en</strong> punto <strong>de</strong> arranque para <strong>en</strong>t<strong>en</strong><strong>de</strong>r<br />

lo que acontece <strong>de</strong>ntro <strong>de</strong> software usado ext<strong>en</strong>sam<strong>en</strong>te <strong>en</strong> biología computacional:<br />

Programas como BLAST, FASTA, CLUSTALW, HMMER, GENSCAN, MFOLD<br />

y los <strong>de</strong> infer<strong>en</strong>cia filog<strong>en</strong>ética (PHYLIP, PAUP, MrBayes ...) emplean alguna forma <strong>de</strong> pro-<br />

gramación dinámica, con frecu<strong>en</strong>cia variantes heurísticas<br />

• <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong>: el problema visto <strong>de</strong>s<strong>de</strong> la perspectiva biológica<br />

El supuesto básico es que si dos secu<strong>en</strong>cias se parec<strong>en</strong> mucho a lo largo <strong>de</strong> sus secu<strong>en</strong>cias<br />

es porque compart<strong>en</strong> un ancestro común : son homólogas.<br />

Es <strong>de</strong>cir, inferimos la homología a partir <strong>de</strong> la similitud.<br />

Para cuantificar objetivam<strong>en</strong>te el nivel <strong>de</strong> similitud necesitamos un sistema <strong>de</strong> puntuación<br />

(scoring scheme) que lo refleje a<strong>de</strong>cuadam<strong>en</strong>te, a<strong>de</strong>cuadam<strong>en</strong>te <strong>de</strong>s<strong>de</strong> una perspectiva evolutiva<br />

El objetivo es alinear las dos secu<strong>en</strong>cias <strong>de</strong> tal manera que se maximice su similitud<br />

Para ello necesitamos un algoritmo, ya que no es práctico evaluar todos los alineami<strong>en</strong>tos<br />

posibles <strong>en</strong>tre un par <strong>de</strong> secu<strong>en</strong>cias dado el elevadísimo número <strong>de</strong> combinaciones<br />

(22N /(2N ) 1/2 . Así para dos secs. <strong>de</strong> 300 resíduos exist<strong>en</strong> 10179 alns. posibles!!!<br />

Los algoritmos <strong>de</strong> programación dinámica son a<strong>de</strong>cuados para este trabajo ya que resuelv<strong>en</strong><br />

el problema sin necesidad <strong>de</strong> evaluar todo el espacio <strong>de</strong> <strong>búsqueda</strong><br />

Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />

alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales):<br />

dot plots y visualización <strong>de</strong> la similitud <strong>en</strong>tre secu<strong>en</strong>cias<br />

• las 2 secs. repres<strong>en</strong>tan los dos ejes<br />

<strong>de</strong> la gráfica<br />

•se pone un punto t don<strong>de</strong> d d ambas b coinci<strong>de</strong>n i id<br />

• la diagonal más larga repres<strong>en</strong>ta la región<br />

<strong>de</strong> mayor i<strong>de</strong>ntidad<br />

• el camino 1 es el preferido al ser el más<br />

parsimonioso (implica m<strong>en</strong>os cambios)<br />

• la diagonal cruzada revela un palíndrome<br />

alineami<strong>en</strong>to diagonal 1<br />

secu<strong>en</strong>cia 1: ATGCGTCGTT<br />

|||||||||<br />

secu<strong>en</strong>cia 2: ATGCGTCGT<br />

Sec.2<br />

gap<br />

Sec.1<br />

alineami<strong>en</strong>to diagonal 2<br />

gap<br />

secu<strong>en</strong>cia 1: ATG---CGTCGTT<br />

||| |||<br />

secu<strong>en</strong>cia 2: ATGCGTCGT<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />

alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales)<br />

• Pares <strong>de</strong> secu<strong>en</strong>cias pue<strong>de</strong>n ser comparadas usando alineami<strong>en</strong>tos globales y locales,<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l objetivo <strong>de</strong> la comparación.<br />

Un alineami<strong>en</strong>to global fuerza el alineami<strong>en</strong>to <strong>de</strong> ambas secu<strong>en</strong>cias a lo largo <strong>de</strong> toda<br />

su longitud. Usamos aln. globales cuando estamos seguros <strong>de</strong> que la homología se exti<strong>en</strong><strong>de</strong><br />

a lo largo <strong>de</strong> todas las secu<strong>en</strong>cias secu<strong>en</strong>c as a comparar. Este es el tipo t po <strong>de</strong> alineami<strong>en</strong>tos al neam <strong>en</strong>tos que g<strong>en</strong>eran<br />

programas <strong>de</strong> alineami<strong>en</strong>to múltiple tales como clustal, T-Coffee o muscle.<br />

Alineami<strong>en</strong>to global óptimo <strong>de</strong>l citocromo C humano (105 resíduos, SWISS-PROT acc. P00001)<br />

y citocromo C2 <strong>de</strong> Rhodopseudomonas palustris (114 resíduos, SWISS-PROT acc. P00090).<br />

La matriz <strong>de</strong> puntuación o pon<strong>de</strong>ración (“scoring matrix) empleada fue BLOSUM62,<br />

con costo <strong>de</strong> gaps afines <strong>de</strong> –(11 + k). La puntuación <strong>de</strong>l alineami<strong>en</strong>to global es <strong>de</strong> 131,<br />

usando el algoritmo <strong>de</strong> Needleman-Wunsch.<br />

Puntuación “cruda” (raw scores) <strong>de</strong> similitud (S values) <strong>de</strong> un<br />

alineami<strong>en</strong>to pareado con in<strong>de</strong>les (“gaps”)<br />

S = (M ij) – cO – dG,<br />

don<strong>de</strong>:<br />

M = valor <strong>de</strong> pon<strong>de</strong>ración <strong>en</strong> una matriz <strong>de</strong><br />

sustitución<br />

(p.ej. BLOSUM62) <strong>en</strong>tre una pareja particular <strong>de</strong><br />

AAs (ij)<br />

ú d (i d l )<br />

c = número <strong>de</strong> gaps (in<strong>de</strong>les)<br />

O = factor <strong>de</strong> p<strong>en</strong>alización <strong>de</strong> apertura <strong>de</strong> gap<br />

d = longitud total <strong>de</strong>l in<strong>de</strong>l (no. <strong>de</strong> gaps contíguos)<br />

G = factor <strong>de</strong> p<strong>en</strong>alización para la ext<strong>en</strong>sión <strong>de</strong>l gap<br />

por resíduo<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 3


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

alineami<strong>en</strong>tos <strong>pareados</strong> y factores <strong>de</strong> p<strong>en</strong>alización afines para gaps<br />

• Dado que un sólo ev<strong>en</strong>to mutacional pue<strong>de</strong> insertar o eliminar varios nucleótidos <strong>de</strong> una<br />

secu<strong>en</strong>cia, un in<strong>de</strong>l largo no <strong>de</strong>be <strong>de</strong> ser p<strong>en</strong>alizado mucho más que otro más corto ubicado<br />

<strong>en</strong> la misma región <strong>de</strong> un g<strong>en</strong>. De ahí el uso <strong>de</strong> factores <strong>de</strong> p<strong>en</strong>alización afines para gaps<br />

(affine gap p<strong>en</strong>alties or costs), que cobran una p<strong>en</strong>alidad relativam<strong>en</strong>te alta por abrir un<br />

gap y una p<strong>en</strong>alidad l más á bajapor cada posición ó sobrela l que se exti<strong>en</strong><strong>de</strong> el l in<strong>de</strong>l. l<br />

• La calidad <strong>de</strong> un alineami<strong>en</strong>to <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>en</strong> gran medida <strong>de</strong> los valores <strong>de</strong> apertura y<br />

ext<strong>en</strong>sión <strong>de</strong> gap elegidos.<br />

S = (M ij) – cO – dG<br />

• Una limitación <strong>de</strong> los “raw raw scores” scores <strong>de</strong> los alineami<strong>en</strong>tos resi<strong>de</strong> <strong>en</strong> que no se pue<strong>de</strong>n<br />

comparar los resultados obt<strong>en</strong>idos con distintas matrices <strong>de</strong> pon<strong>de</strong>ración y/o apertura<br />

apertura <strong>de</strong> gaps.<br />

Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />

• El alineami<strong>en</strong>to <strong>de</strong> aa difiere <strong>de</strong>l <strong>de</strong> nt <strong>en</strong> dos aspectos fundam<strong>en</strong>tales:<br />

1.- Exist<strong>en</strong> más “símbolos” <strong>en</strong> el alineami<strong>en</strong>to <strong>de</strong> aa (20) que <strong>de</strong> nt (4)<br />

2.- El alineami<strong>en</strong>to no consiste simplem<strong>en</strong>te p <strong>en</strong> alinear resíduos <strong>de</strong> tal manera que q la mayor y<br />

cantidad coincida, ya que hay que consi<strong>de</strong>rar los posibles caminos mutacionales mediante<br />

los cuales un aa es sutituído por otro<br />

Cys (UGU) Tyr (UAU) 1 subst. <strong>en</strong> la 2a. pos <strong>de</strong>l codón<br />

Cys (UGU) Met (AUG) 3 subst. Una <strong>en</strong> cada posición <strong>de</strong>l codón<br />

Por lo tanto alinear Cys con Tyr es 3 veces m<strong>en</strong>os costoso que alinearla con Met<br />

•En el alineami<strong>en</strong>to <strong>de</strong> nt g<strong>en</strong>eralm<strong>en</strong>te se valora un “match” como +1 y un<br />

“mismatch” como -3 (<strong>en</strong> NCBI BLAST), o como +5/-4 <strong>en</strong> WU-BLAST, es <strong>de</strong>cir, los nt se<br />

consi<strong>de</strong>ran idénticos o distintos). Esto, unido a las p<strong>en</strong>alizaciones <strong>de</strong> gap, <strong>de</strong>fine el costo<br />

<strong>de</strong> un alineami<strong>en</strong>to <strong>de</strong> nt.<br />

•Los alineami<strong>en</strong>tos <strong>de</strong> proteínas se basan g<strong>en</strong>eralm<strong>en</strong>te <strong>en</strong> una matriz empírica <strong>de</strong> costo<br />

<strong>de</strong> sustitución, <strong>de</strong>rivada <strong>de</strong> la comparación <strong>de</strong> secu<strong>en</strong>cias alineadas. Estas matrices<br />

empíricas reflejan someram<strong>en</strong>te los caminos mutacionales.<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

Un ejemplo <strong>de</strong> cómputo <strong>de</strong>l valor <strong>de</strong> similitud cruda <strong>de</strong> un<br />

alineami<strong>en</strong>to pareado global<br />

Un valor <strong>de</strong> puntuación es escogido para cada tipo <strong>de</strong> sustitución (par <strong>de</strong> resíduos o<br />

aln. <strong>de</strong> resíduo contra un gap). El set completo <strong>de</strong> estas puntuaciones conforman una<br />

matriz <strong>de</strong> pon<strong>de</strong>raciones o puntuaciones (scoring matrix), <strong>de</strong> dim<strong>en</strong>siones S (i,j)<br />

Exist<strong>en</strong> muchas <strong>de</strong>finiciones <strong>de</strong>l score <strong>de</strong> un alineami<strong>en</strong>to, pero la más común es simplem<strong>en</strong>te<br />

la suma <strong>de</strong> scores o puntuaciones para cada par <strong>de</strong> letras alineadas y pares letra-gap, que<br />

conforman el alineami<strong>en</strong>to.<br />

Así, para la matriz <strong>de</strong> sustitución sigui<strong>en</strong>te y un w lineal <strong>de</strong> 5, calcula la puntuación <strong>de</strong>l<br />

sigui<strong>en</strong>te alineami<strong>en</strong>to<br />

Matriz BLOSUM62<br />

- A G C T<br />

A 10 -1 -3 -4<br />

G -1 7 -5 -3<br />

C -3 -5 9 0<br />

T -4 -3 0 8<br />

AGACTAGTTAC<br />

CGA---GACGT<br />

Score = -3+7+10-3x5 +7-4+0-1+0 = 1<br />

Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />

• Las matrices empíricas <strong>de</strong> sustitución<br />

<strong>en</strong>tre AAs no reflejan necesariam<strong>en</strong>te las<br />

relaciones químicas <strong>en</strong>tre ellos. Se<br />

trata <strong>de</strong> una <strong>de</strong>finición púram<strong>en</strong>te<br />

estadística basada <strong>en</strong> el análisis <strong>de</strong><br />

frecu<strong>en</strong>cias empíricas <strong>de</strong> sustituciones<br />

observadas <strong>en</strong> alineami<strong>en</strong>tos <strong>de</strong> secs.<br />

con un grado <strong>de</strong> diverg<strong>en</strong>cia <strong>de</strong>finido<br />

• Cada score <strong>de</strong> la matriz repres<strong>en</strong>ta la<br />

tasa <strong>de</strong> sustitución esperada <strong>en</strong>tre un<br />

par <strong>de</strong> AAs AAs. Por tanto tanto, los scores <strong>de</strong> los<br />

alineami<strong>en</strong>tos <strong>pareados</strong> evaluados con<br />

estas matrices reflejan la distancia<br />

evolutiva exist<strong>en</strong>te <strong>en</strong>tre las secu<strong>en</strong>cias.<br />

Es importante notar que los scores son<br />

evolutivam<strong>en</strong>te simétricos al no conocerse<br />

la dirección <strong>de</strong>l cambio evolutivo.<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 4


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />

• Matrices <strong>de</strong> sustitución <strong>de</strong> AAs<br />

log-odds scores<br />

p ab<br />

s (a,b) = (c) log<br />

fa fb s (a,b) = score <strong>de</strong>l par a, b<br />

Matriz BLOSUM62<br />

pab = verosimilitud <strong>de</strong> la hipótesis a testar; frecu<strong>en</strong>cia esperada o<br />

diana, probabilidad con la que esperamos <strong>en</strong>contrar<br />

aa y bb a<strong>pareados</strong> <strong>en</strong> un alineami<strong>en</strong>to múltiple<br />

fa fb = verosimilitud <strong>de</strong> la hipótesis nula; frecu<strong>en</strong>cia<br />

<strong>de</strong> fondo, probabilidad con la que esperamos<br />

<strong>en</strong>contrar a y b <strong>en</strong> cualquier proteína. Refleja<br />

su abundancia o frecu<strong>en</strong>cia<br />

c = Factor <strong>de</strong> escalami<strong>en</strong>to usado para multiplicar los lod scores (números reales)<br />

antes <strong>de</strong> ser redon<strong>de</strong>ados a números <strong>en</strong>teros, tal y como se observa <strong>en</strong> la matriz.<br />

Los valores <strong>en</strong>teros redon<strong>de</strong>ados resultantes se conoc<strong>en</strong> como “raw scores”.<br />

Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />

• Matrices <strong>de</strong> sustitución <strong>de</strong> AAs: ¿<strong>de</strong> dón<strong>de</strong> vi<strong>en</strong><strong>en</strong> los log-odds scores?<br />

-La frecu<strong>en</strong>cia diana p ab para un par <strong>de</strong> AAs correspon<strong>de</strong> a la probabilidad esperada <strong>de</strong><br />

<strong>en</strong>contrar a, b alineados <strong>en</strong> un alinemami<strong>en</strong>to <strong>de</strong> secu<strong>en</strong>cias homólogas<br />

- Para estimar con la mayor precisión posible la frecu<strong>en</strong>cia diana pab <strong>de</strong> cada par <strong>de</strong> AAs<br />

<strong>en</strong> una familia f ili d <strong>de</strong> secu<strong>en</strong>cias i hhomólogas ól h hay que analizar li su distribución di ib ió d <strong>de</strong> ffrecu<strong>en</strong>cia i<br />

<strong>en</strong> muchos alineami<strong>en</strong>tos confiables que difier<strong>en</strong> <strong>en</strong> el nivel <strong>de</strong> diverg<strong>en</strong>cia evolutiva<br />

o distancia g<strong>en</strong>ética <strong>en</strong>tre sus miembros.<br />

- Cuanto más sepamos sobre la biología <strong>de</strong> las secu<strong>en</strong>cias alineanadas, mejor podremos<br />

a<strong>de</strong>cuar la estima <strong>de</strong> las frecu<strong>en</strong>cias diana. Así p. ej. si alineamos prots. <strong>de</strong> membrana,<br />

sus dominios transmembranales t<strong>en</strong>drán un fuerte sesgo hacia AAs hidrofóbicos,<br />

mi<strong>en</strong>tras que sus dominios extramembranales t<strong>en</strong>drán una mayor frecu<strong>en</strong>cia relativa<br />

<strong>de</strong> AAs hidrofílicos. Se trata por tanto claram<strong>en</strong>te <strong>de</strong> estimas empíricas y óptimas<br />

sólo para p el caso analizado<br />

- La distancia evolutiva <strong>en</strong>tre las secu<strong>en</strong>cias a analizar es una <strong>de</strong> las fu<strong>en</strong>tes <strong>de</strong> información<br />

biológica más importantes para hacer una estima a<strong>de</strong>cauda <strong>de</strong> p ab . Las frecu<strong>en</strong>cias diana<br />

<strong>de</strong>p<strong>en</strong><strong>de</strong>n fuertem<strong>en</strong>te <strong>de</strong> la distancia evolutiva <strong>en</strong>tre los pares <strong>de</strong> secs. analizadas.<br />

Si divergieron reci<strong>en</strong>tem<strong>en</strong>te, las frecu<strong>en</strong>cias diana <strong>de</strong>b<strong>en</strong> <strong>de</strong> ser ajustadas principalm<strong>en</strong>te<br />

<strong>en</strong> base a resíduos idénticos. Cuanto más diverg<strong>en</strong>tes, la distribución <strong>de</strong> frecu<strong>en</strong>cias diana<br />

<strong>de</strong>be <strong>de</strong> ser más plana. Por lo tanto las frecu<strong>en</strong>cias diana se calculan <strong>en</strong> base a sets <strong>de</strong><br />

aln. <strong>pareados</strong> confiables con distinto grado <strong>de</strong> diverg<strong>en</strong>cia. Se obti<strong>en</strong><strong>en</strong> series <strong>de</strong> matrices<br />

correspondi<strong>en</strong>tes a estos distintos sets <strong>de</strong> alineami<strong>en</strong>tos<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />

Matriz BLOSUM62<br />

Cálculo <strong>de</strong> “scores crudos”<br />

s (a,b) = (c) log<br />

f fa f b<br />

• ¿Porqué difier<strong>en</strong> los valores <strong>en</strong>tre difer<strong>en</strong>tes sust. conservativas, por ej. L/L y W/W?<br />

p LL = 0.0371, p WW = 0.0065<br />

f L = 0.099, f W = 0.013<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 5<br />

p ab<br />

Las frecu<strong>en</strong>cias <strong>de</strong> fondo juegan un papel muy importante.<br />

Cuanto más raro es un AA, m<strong>en</strong>os frecu<strong>en</strong>te será que se<br />

<strong>en</strong>cu<strong>en</strong>tre apareado consigo mismo por azar<br />

• ¿Porqué se castiga más un apareami<strong>en</strong>to A/L (chico y alifático/alifático) con respecto a uno<br />

K/E (+/-)?<br />

pAL = 0.0044 fL = 0.099, fA = 0.074<br />

pWW = 0.0041 fK = 0.058, fE = 0.054<br />

Alineami<strong>en</strong>to pareado <strong>de</strong> proteínas: matrices <strong>de</strong> costo BLOSUM<br />

Matrices BLOSUM <strong>de</strong> sustitución <strong>de</strong> aa<br />

H<strong>en</strong>ikoff, S., H<strong>en</strong>ikoff, J. G., and Pietrokovski, S. 1999. Blocks+: a non-redundant database<br />

of protein alignm<strong>en</strong>t blocks <strong>de</strong>rived from multiple compilations. Bioinformatics 15: 471-479.<br />

• Desarrollada por S. H<strong>en</strong>ikoff y J. G. H<strong>en</strong>ikoff para obt<strong>en</strong>er una matriz más robusta<br />

que las PAM <strong>en</strong> la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> distantes, particularm<strong>en</strong>te cuando conti<strong>en</strong><strong>en</strong><br />

una proporción significativa <strong>de</strong> aas hidrofóbicos<br />

•Las matrices BLOSUM están basadas <strong>en</strong> la base <strong>de</strong> datos BLOCKS+ <strong>de</strong> proteínas alineadas;<br />

BLOcks SUbstitution Matrix (http://blocks.fhcrc.org). Son matrices empíricas.<br />

•Las series <strong>de</strong> matrices BLOSUM se <strong>de</strong>rivaron <strong>de</strong> alineami<strong>en</strong>tos sin in<strong>de</strong>les (BLOCKS)<br />

<strong>de</strong> proteínas consi<strong>de</strong>rando sólo pares <strong>de</strong> alineami<strong>en</strong>tos que no divergieran más <strong>de</strong> un<br />

umbral <strong>de</strong>terminado, por ej. un mínimo <strong>de</strong> 62 % <strong>de</strong> i<strong>de</strong>ntidad, para calcular las frecu<strong>en</strong>cias<br />

diana o esperadas <strong>de</strong> la matriz BLOSUM62. Para estos alns. se calcula la razón <strong>en</strong>tre el<br />

número <strong>de</strong> pares p <strong>de</strong> aa observados <strong>en</strong> cada posición p y el número <strong>de</strong> pares p esperados p <strong>de</strong> las<br />

frequ<strong>en</strong>cias globales <strong>de</strong> los aas, expresando los resultados como log10 X λ<br />

• Para evitar sesgos <strong>en</strong> las matrices por sobrerepres<strong>en</strong>tación <strong>de</strong> secu<strong>en</strong>cias muy similares, se<br />

reemplazaron aquellas con similitud > a un umbral dado por un solo repres<strong>en</strong>tante o por un<br />

promedio pon<strong>de</strong>rado (BLOCKS+).<br />

• La matriz BLOSUM62 es la actualm<strong>en</strong>te favorecida para la mayoría <strong>de</strong> las aplicaciones<br />

por su bu<strong>en</strong> r<strong>en</strong>dimi<strong>en</strong>to empírico y ha reemplazado a las matrices <strong>de</strong> Dayhoff (PAM)


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

Alineami<strong>en</strong>to <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -<br />

consejos prácticos para la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong><br />

zona <strong>de</strong><br />

“p<strong>en</strong>umbra”<br />

• A medida que el nivel <strong>de</strong> diverg<strong>en</strong>cia <strong>en</strong>tre pares<br />

<strong>de</strong> proteínas alcanza el valor <strong>de</strong> PAM250<br />

(~ 20% i<strong>de</strong>ntidad), comi<strong>en</strong>za a ser dudosa su<br />

relación l ió d <strong>de</strong> hhomología, l í pudi<strong>en</strong>do di d ttratarse t d <strong>de</strong><br />

secu<strong>en</strong>cias que pres<strong>en</strong>tan cierto grado <strong>de</strong> similitud<br />

por azar, <strong>en</strong> base a composiciones <strong>de</strong><br />

AAs similares <strong>en</strong> ambas secu<strong>en</strong>cias !!!<br />

• Al <strong>en</strong>trar <strong>en</strong> esta zona <strong>de</strong> p<strong>en</strong>umbra, es es<strong>en</strong>cial<br />

consi<strong>de</strong>rar información adicional, particularm<strong>en</strong>te<br />

motivos estructurales, para validar o <strong>de</strong>scartar<br />

una posible relación <strong>de</strong> homología<br />

Distancias observadas<br />

vs. evolutivas (PAM) <strong>en</strong>tre prots.<br />

Difer<strong>en</strong>cia % obs. Dist. evol. PAM<br />

1 1<br />

5 5<br />

10 11<br />

15 17<br />

20 23<br />

30 38<br />

40 56<br />

50 80<br />

60 112<br />

70 159<br />

80<br />

85<br />

246<br />

328 z. p<strong>en</strong>umbra<br />

• A medida que q el nivel <strong>de</strong> diverg<strong>en</strong>cia g<br />

evolutiva <strong>en</strong>tre pares <strong>de</strong> proteínas<br />

increm<strong>en</strong>ta (distancias PAM) disminuye<br />

el número <strong>de</strong> difer<strong>en</strong>cias observadas,<br />

<strong>de</strong>bido a f<strong>en</strong>óm<strong>en</strong>os <strong>de</strong> reversión<br />

(homoplasia). Por tanto, si no se cu<strong>en</strong>ta<br />

con evi<strong>de</strong>ncia estructural, el análisis<br />

filog<strong>en</strong>ético <strong>de</strong> proteínas <strong>de</strong>be restringirse<br />

a aquellas con ≥ 20% <strong>de</strong> i<strong>de</strong>ntidad.<br />

Los alns. tampoco son confiables<br />

Alineami<strong>en</strong>to <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -<br />

consejos prácticos para la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong><br />

1. Para i<strong>de</strong>ntificar <strong>homólogos</strong> lejanos <strong>de</strong> g<strong>en</strong>es codificadores <strong>de</strong> proteínas, comparar siempre<br />

las secu<strong>en</strong>cias <strong>de</strong> los productos p génicos. g Sólo <strong>en</strong> ellos quedan q reflejadas j las constricciones<br />

evolutivas que les permit<strong>en</strong> mant<strong>en</strong>er plegami<strong>en</strong>tos y funcionalida<strong>de</strong>s a lo largo <strong>de</strong> gran<strong>de</strong>s<br />

distancias evolutivas. De ahí la importancia <strong>de</strong> incorporar análisis estructurales para la<br />

<strong>de</strong>terminación <strong>de</strong> homología <strong>en</strong>tre secu<strong>en</strong>cias distantes<br />

2. Las secu<strong>en</strong>cias homólogas compart<strong>en</strong> un ancestro común y por tanto un plegado común.<br />

Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la distancia evolutiva y el camino <strong>de</strong> diverg<strong>en</strong>cia, dos o más <strong>homólogos</strong><br />

pue<strong>de</strong>n compartir muy pocos resíduos estrictam<strong>en</strong>te conservados a nivel <strong>de</strong> la secu<strong>en</strong>cia<br />

primaria. Pero, si se ha podido inferir homología significativa <strong>en</strong>tre A y B, <strong>en</strong>tre B y C<br />

y <strong>en</strong>tre C y D, <strong>en</strong>tonces A y D ti<strong>en</strong><strong>en</strong> que ser también <strong>homólogos</strong> <strong>en</strong>tre ellos, aún<br />

cuando pres<strong>en</strong>t<strong>en</strong> < 20% <strong>de</strong> i<strong>de</strong>ntidad<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />

alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales)<br />

Un alineami<strong>en</strong>to local sólo busca los segm<strong>en</strong>tos con la puntuación más alta.<br />

Se usa por ejemplo <strong>en</strong> el escrutinio <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong>bido a que la homología<br />

<strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias frecu<strong>en</strong>tem<strong>en</strong>te existe sólo a nivel <strong>de</strong> ciertos dominios, pero<br />

no a lo largo <strong>de</strong> toda la secu<strong>en</strong>cia (estructura modular <strong>de</strong> proteínas; g<strong>en</strong>es discontínuos<br />

intrones-exones; barajado <strong>de</strong> exones ...).<br />

BLAST y FASTA buscan alineami<strong>en</strong>tos locales con alta puntuacion (HSPs ó high-scoring pairs)<br />

Alineami<strong>en</strong>to local óptimo <strong>de</strong>l regulador <strong>de</strong> conductancia transmembranal <strong>de</strong> fibrosis cística<br />

<strong>de</strong> humano (1480 resíduos, SWISS-PROT acc. P13569) y la proteína transportadora <strong>de</strong> Ni<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> ATP <strong>de</strong> E. coli (253 resíduos, SWISS-PROT acc. P33593).<br />

La matriz <strong>de</strong> puntuación o pon<strong>de</strong>ración (“scoring matrix) empleada fue BLOSUM62,<br />

con costo <strong>de</strong> gaps afines <strong>de</strong> –(11 + k). La puntuación <strong>de</strong>l alineami<strong>en</strong>to local es <strong>de</strong> 89,<br />

usando el algoritmo <strong>de</strong> Smith-Waterman.<br />

Estadísticos <strong>de</strong> Karlin-Altschul <strong>de</strong> similitud <strong>en</strong>tre secu<strong>en</strong>cias:<br />

frecu<strong>en</strong>cias diana, lambda y <strong>en</strong>tropía relativa<br />

Los atributos más importantes <strong>de</strong> una matriz <strong>de</strong> sustitución son sus frecu<strong>en</strong>cias esperadas<br />

o diana implícitas para cada par <strong>de</strong> aa <strong>en</strong> sus respectivos scores crudos. Estas frecu<strong>en</strong>cias<br />

esperadas repres<strong>en</strong>tan el mo<strong>de</strong>lo evolutivo subyac<strong>en</strong>te.<br />

Los scores que han sido re-escalados y redon<strong>de</strong>ados (scores repres<strong>en</strong>tados <strong>en</strong> la matriz) son<br />

los scores crudos sa,b. Para convertirlos a un score normalizado (log-odd score original)<br />

t<strong>en</strong>emos que q mutiplicarlos p por p λ, , una constante específica p para p cada matriz.<br />

λ es aprox. igual al inverso <strong>de</strong>l factor <strong>de</strong> escalami<strong>en</strong>to (c ).<br />

por tanto, para <strong>de</strong>spejar λ necesitamos f af b y <strong>en</strong>contrar el valor <strong>de</strong> λ para que la suma <strong>de</strong><br />

las frecu<strong>en</strong>cias diana implícitas valga 1 (la suma <strong>de</strong> todas las frecu<strong>en</strong>cias ti<strong>en</strong>e que ser 1).<br />

n a<br />

n a<br />

∑∑<br />

pab = ∑∑<br />

a= 1 b=1<br />

a= 1 b=1<br />

pab = faf e<br />

b<br />

λ sab = score normalizado<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 6<br />

s (a,b) =<br />

1<br />

λ<br />

p ab<br />

log<br />

fa fb faf e<br />

b λ sab = 1<br />

Una vez calculada λ, se usa para calcular el valor <strong>de</strong> expectación (E) <strong>de</strong> cada HSP<br />

(High Scoring Pair) <strong>en</strong> el reporte <strong>de</strong> una <strong>búsqueda</strong> BLAST<br />

Dado que las f a f b <strong>de</strong> los resíduos <strong>de</strong> algunas proteínas difier<strong>en</strong> mucho <strong>de</strong> las frecu<strong>en</strong>cias <strong>de</strong><br />

resíduos empleadas para calcular las matrices PAM y BLOSUM, versiones reci<strong>en</strong>tes <strong>de</strong><br />

BLASTP y PSI-BLAST incorporan una “composition-based λ” que es “hit-específica”


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

BLAST y estadísticos <strong>de</strong> Karlin-Altschul para alineami<strong>en</strong>tos locales<br />

Karlin, S., and Altschul, S. F. 1990. Methods for assessing the statistical significance of molecular<br />

sequ<strong>en</strong>ce features by using g<strong>en</strong>eral scoring schemes. Proc Natl Acad Sci U S A 87: 2264-268.<br />

• La implem<strong>en</strong>tación <strong>en</strong> BLAST <strong>de</strong> los estadísticos <strong>de</strong> Karlin-Altschul permit<strong>en</strong> <strong>de</strong>tectar<br />

pot<strong>en</strong>ciales p <strong>homólogos</strong> g <strong>en</strong> bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias se basa <strong>en</strong> la cuantificación <strong>de</strong><br />

la similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias y la <strong>de</strong>terminación <strong>de</strong> la significancia<br />

estadística <strong>de</strong> dicho parecido.<br />

Variantes BLAST según la secu<strong>en</strong>cia problema y<br />

la base <strong>de</strong> datos a interrogar<br />

programa sec sec. problema base <strong>de</strong> datos<br />

• blastp proteína proteína<br />

• Blastn nucleótido nucleótido<br />

• blastx nucl. Trad x6 marcos proteína<br />

• tblastn proteína nucl. tradx6m<br />

• tblastx nucl. tradx6m nucl. Tradx6m<br />

• psi-blast proteína (perfil) proteína<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

BLAST y Estadísticos <strong>de</strong> Karlin-Altschul para alineami<strong>en</strong>tos locales<br />

Karlin, S., and Altschul, S. F. 1990. Methods for assessing the statistical significance of molecular<br />

sequ<strong>en</strong>ce features by using g<strong>en</strong>eral scoring schemes. Proc Natl Acad Sci U S A 87: 2264-268.<br />

• La implem<strong>en</strong>tación <strong>en</strong> BLAST <strong>de</strong> los estadísticos <strong>de</strong> Karlin-Altschul permit<strong>en</strong> <strong>de</strong>tectar<br />

pot<strong>en</strong>ciales <strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias se basa <strong>en</strong> la cuantificación <strong>de</strong><br />

l la similitud l d <strong>en</strong>tre pares <strong>de</strong> d secu<strong>en</strong>cias y l la d<strong>de</strong>terminación ó d <strong>de</strong> l la significancia f<br />

estadística <strong>de</strong> dicho parecido.<br />

Esta ecuación indica que el número <strong>de</strong> alineami<strong>en</strong>tos espera-<br />

- λS<br />

E = k m n e dos por azar (E ) durante una <strong>búsqueda</strong> <strong>de</strong> similitud <strong>en</strong> una<br />

base <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias está <strong>en</strong> función <strong>de</strong>:<br />

el tamaño <strong>de</strong>l espacio <strong>de</strong> <strong>búsqueda</strong> (m, (m n n ) ), el score normalizado<br />

(λS ) <strong>de</strong>l HSP y una constante <strong>de</strong> valor pequeño (k )<br />

E Describe el ruido <strong>de</strong> fondo por azar pres<strong>en</strong>te <strong>en</strong> matches <strong>de</strong> dos secs.<br />

m = número <strong>de</strong> símbolos <strong>en</strong> la secu<strong>en</strong>cia problema<br />

n = número <strong>de</strong> símbolos <strong>en</strong> la base <strong>de</strong> datos<br />

k ≈ 0.1 constante <strong>de</strong> ajuste para consi<strong>de</strong>rar HSPs altam<strong>en</strong>te correlacionados<br />

Aquí van una o múltiples secs.<br />

<strong>de</strong> prot. <strong>en</strong> formato FASTA*<br />

Interfaz web NCBI BLAST<br />

(blastp: Proteína)<br />

Elegir g la base <strong>de</strong> datos a interrogar g<br />

>mi proteína problema <strong>en</strong> formato FASTA*<br />

MAITKDDILEAVANMSVMEVVELVEAMEEKFGVSAAAVAVAGPAGDAGAA<br />

GEEQTEFDVVLTGAGDNKVAAIKAVRGATGLGLKEAKSAVESAPFTLKEG<br />

VSKEEAETLANELKEAGIEVEVK<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 7


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />

• El algoritmo BLAST<br />

El espacio <strong>de</strong> <strong>búsqueda</strong> <strong>en</strong>tre 2 secs. pue<strong>de</strong> ser visualizado como una gráfica con una sec.<br />

<strong>en</strong> cada eje. Sobre esta gráfica po<strong>de</strong>mos visualizar alineami<strong>en</strong>tos como una secu<strong>en</strong>cia<br />

<strong>de</strong> pares <strong>de</strong> letras con o sin gaps. [Score = sumatoria <strong>de</strong> scores individuales pab –costogaps].<br />

BLAST no explora p todo el espacio p <strong>de</strong> <strong>búsqueda</strong> q <strong>en</strong>tre dos secu<strong>en</strong>cias (es ( un heurístico). )<br />

sec. 2<br />

Espacio<br />

<strong>de</strong> <strong>búsqueda</strong><br />

alineami<strong>en</strong>tos<br />

sec. 1<br />

alineami<strong>en</strong>tos<br />

con gaps<br />

BLAST reporta todos los alns. <strong>pareados</strong><br />

(HSPs) estadísticam<strong>en</strong>te significativos<br />

<strong>en</strong>contrados <strong>en</strong> su <strong>búsqueda</strong> heurística <strong>de</strong>l<br />

espacio <strong>de</strong> homología. Hay que <strong>en</strong>t<strong>en</strong><strong>de</strong>r que <strong>en</strong><br />

las <strong>búsqueda</strong>s BLAST siempre se hace un<br />

compromiso <strong>en</strong>tre velocidad y s<strong>en</strong>sibilidad.<br />

L La velocidad l id d se gana al l no explorar l ttoda d l la<br />

matriz, perdiéndose s<strong>en</strong>sibilidad.<br />

El algoritmo heurístico <strong>de</strong> BLAST sigue tres niveles <strong>de</strong> reglas para refinar secu<strong>en</strong>cialm<strong>en</strong>te<br />

HSPs (High Scoring Pairs) pot<strong>en</strong>ciales: <strong>en</strong>semillado, ext<strong>en</strong>sión y evaluación. Estos pasos<br />

conforman una estrategia <strong>de</strong> refinami<strong>en</strong>to secu<strong>en</strong>cial que le permite a BLAST muestrear<br />

efici<strong>en</strong>tem<strong>en</strong>te el espacio <strong>de</strong> <strong>búsqueda</strong> sin per<strong>de</strong>r tiempo <strong>en</strong> regiones <strong>de</strong> escasa similitud<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />

• Ensemillado (W, T, A)<br />

El valor a<strong>de</strong>cuado <strong>de</strong> T <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> los valores <strong>en</strong> la tabla <strong>de</strong> sustitución empleada, como <strong>de</strong>l<br />

balance <strong>de</strong>seado <strong>en</strong>tre velocidad y s<strong>en</strong>sibilidad. A valores más altos <strong>de</strong> T, m<strong>en</strong>os palabras son<br />

<strong>en</strong>contradas, reduci<strong>en</strong>do el espacio <strong>de</strong> <strong>búsqueda</strong>. Ello hace las <strong>búsqueda</strong>s más rápidas, a costa<br />

<strong>de</strong> increm<strong>en</strong>tar el riesgo <strong>de</strong> per<strong>de</strong>r algún alineami<strong>en</strong>to significativo<br />

significativo.<br />

T = 12 T = 14<br />

El tamaño <strong>de</strong> palabra W es otro parámetro que controla el número <strong>de</strong> word hits. W =1 producirá<br />

más hits que W = 5. Cuanto más chico sea W más s<strong>en</strong>sible y l<strong>en</strong>ta la <strong>búsqueda</strong>.<br />

La interrelación <strong>en</strong>tre W, T y la matriz <strong>de</strong> sustitución empleada es crítica, y su selección juiciosa<br />

es la mejor manera <strong>de</strong> controlar el balance <strong>en</strong>tre velocidad y s<strong>en</strong>sibilidad <strong>de</strong> BLAST<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />

• Ensemillado (W, T, A)<br />

BLAST asume que los alineami<strong>en</strong>tos significativos conti<strong>en</strong><strong>en</strong> “palabras” <strong>en</strong> común (serie <strong>de</strong><br />

letras). BLAST primero <strong>de</strong>termina la localización <strong>de</strong> todas las palabras comunes (“word<br />

hits”). Sólo las regiones que conti<strong>en</strong><strong>en</strong> word hits serán usados como semillas <strong>de</strong><br />

alineami<strong>en</strong>tos. Así se reduce mucho el espacio a explorar.<br />

Palabras <strong>en</strong>contradas. Vecindario <strong>de</strong> RDG Para T=14<br />

sec. 1 Palabra Score (Blosum62)<br />

• Descomposición <strong>en</strong> palabras <strong>de</strong> la<br />

secu<strong>en</strong>cia problema y <strong>búsqueda</strong><br />

RDG<br />

KGD<br />

17<br />

14<br />

“Sinónimos“ aceptables<br />

<strong>de</strong> sinónimos<br />

QGD 13<br />

MPRDG<br />

MPR<br />

PRD<br />

RDG<br />

secu<strong>en</strong>cia y<br />

palabras <strong>de</strong><br />

3 letras<br />

RGE<br />

EGD<br />

...<br />

13<br />

12<br />

“Sinónimos“<br />

no aceptables<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 8<br />

sec. 2<br />

word hits<br />

BLAST usa el concepto <strong>de</strong> vecindad para <strong>de</strong>finir<br />

un word hit. Esta conti<strong>en</strong>e a la palabra misma<br />

y todas las <strong>de</strong>más cuyo score sea al m<strong>en</strong>os tan<br />

gran<strong>de</strong> como T cuando se compara con la matriz<br />

<strong>de</strong> pesado (sinónimos). T correspon<strong>de</strong> a un umbral<br />

mínimo <strong>de</strong> score (threshold) que han <strong>de</strong> t<strong>en</strong>er las<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />

• Ensemillado (W, T, A)<br />

Las palabras ti<strong>en</strong><strong>de</strong>n a agruparse <strong>en</strong> clusters <strong>en</strong> algunas regiones <strong>de</strong>l espacio. BLAST usa<br />

el two-hit algorithm para seleccionar regiones con al m<strong>en</strong>os dos palabras agrupadas <strong>de</strong>ntro<br />

<strong>de</strong> una distancia <strong>de</strong>finida sobre la diagonal. De esta manera se eliminan palabras sin significancia,<br />

que carec<strong>en</strong> <strong>de</strong> vecinos. Cuanto más gran<strong>de</strong> la distancia impuesta al algoritmo (A),<br />

más palabras aisladas serán ignoradas, ignoradas reduciéndose consecu<strong>en</strong>tem<strong>en</strong>te el espacio <strong>de</strong><br />

<strong>búsqueda</strong>, increm<strong>en</strong>tándose la velocidad a costa <strong>de</strong> per<strong>de</strong>r s<strong>en</strong>sibilidad.<br />

cluster <strong>de</strong><br />

palabras<br />

palabras<br />

aisladas<br />

• Detalles <strong>de</strong> implem<strong>en</strong>tación: BLASTN vs. BLASTP<br />

1. En NCBI-BLASTN las semillas son siempre palabras<br />

idénticas. T no es usado. Para hacer BLASTN<br />

más rápido se increm<strong>en</strong>ta W, par hacerlo más s<strong>en</strong>sible<br />

se disminuye W. El valor min. <strong>de</strong> W = 7. El<br />

algoritmo <strong>de</strong> two-hit two hit tampoco es usado por BLASTN<br />

ya que hits <strong>de</strong> palabras largas idénticas son raros.<br />

2. En BLASTP (y otros programas basados <strong>en</strong> aa) se usan valores <strong>de</strong> W <strong>de</strong> 2 ó 3. Para hacer<br />

las <strong>búsqueda</strong>s más rápidas W = 3 y T = 999, que elimina todas las palabras aisladas. La distancia<br />

(A ) <strong>en</strong>tre vecinos <strong>de</strong>l algoritmo two-hit es por <strong>de</strong>fecto = 40 aas.<br />

Las palabras que ocurr<strong>en</strong> con una frecu<strong>en</strong>cia significativam<strong>en</strong>te mayor que la esperada<br />

por azar (ej: FFF) correspon<strong>de</strong>n frecu<strong>en</strong>tem<strong>en</strong>te a regiones <strong>de</strong> baja complejidad (rbc)<br />

que g<strong>en</strong>eralm<strong>en</strong>te son <strong>en</strong>mascaradas. El uso <strong>de</strong> “soft masking” evita el <strong>en</strong>semillado <strong>en</strong> rbc


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />

• Ext<strong>en</strong>sión (X)<br />

Una vez que el espacio <strong>de</strong> <strong>búsqueda</strong> ha sido <strong>en</strong>semillado, pue<strong>de</strong>n g<strong>en</strong>erarse alineami<strong>en</strong>tos<br />

<strong>pareados</strong> a partir <strong>de</strong> semillas individuales. La ext<strong>en</strong>sión acontece <strong>en</strong> ambas direcciones.<br />

alineami<strong>en</strong>to<br />

6<br />

score<br />

Pepito<br />

ext<strong>en</strong>sión<br />

cortar hasta<br />

el valor máximo<br />

longitud <strong>de</strong> la ext<strong>en</strong>sión<br />

X = 4<br />

score <strong>de</strong><br />

la caída<br />

En el algoritmo <strong>de</strong> Smith-Waterman los puntos terminales<br />

<strong>de</strong> un aln. local son <strong>de</strong>terminados <strong>de</strong>spués <strong>de</strong><br />

haber evaluado todo el espacio <strong>de</strong> <strong>búsqueda</strong> <strong>búsqueda</strong>.<br />

BLAST, al ser un algoritmo heurístico, ti<strong>en</strong>e un mecanismo<br />

para no t<strong>en</strong>er que explorar todo el espacio <strong>de</strong><br />

<strong>búsqueda</strong> y sólo exti<strong>en</strong><strong>de</strong> una semilla hasta un<br />

<strong>de</strong>terminado punto. Para ello se requiere <strong>de</strong> una<br />

variable X, que repres<strong>en</strong>ta cuánto se permite caer<br />

al score <strong>de</strong>l alineami<strong>en</strong>to <strong>de</strong>spués <strong>de</strong> haber pasado<br />

por un máximo. El algoritmo lleva la cu<strong>en</strong>ta <strong>de</strong> los<br />

scores <strong>de</strong>l alineami<strong>en</strong>to y <strong>de</strong> caída <strong>en</strong> base a la matriz<br />

<strong>de</strong> sustitución y <strong>de</strong> p<strong>en</strong>alización p <strong>de</strong> gaps g p<br />

Ej. <strong>de</strong>l control <strong>de</strong> ext<strong>en</strong>sión usando +1/-1 para<br />

match y mismatch respect., X = 4, (no gaps)<br />

Pepito Pérez se fue a pescar al lago<br />

Pepito López no vio a Arturo <strong>en</strong> casa<br />

123456 54345 43 210 1 0 ...


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />

• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar<br />

3. Resúm<strong>en</strong>es <strong>de</strong> 1 linea. Indican el nombre <strong>de</strong> la sec. junto con el score más alto<br />

y E value más bajo <strong>en</strong>contrado para un HSP o grupo <strong>de</strong> HSPs<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />

G<strong>en</strong>e Info<br />

Structures<br />

• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar<br />

5. Pie <strong>de</strong> página. Reporta los parámetros <strong>de</strong> <strong>búsqueda</strong> y varios estadísticos. Los más<br />

importantes son: DB, T, E y la matriz <strong>de</strong> sustitución o esquema <strong>de</strong> puntuación (match/<br />

missmatch) y gap p<strong>en</strong>alties empleados<br />

matriz <strong>de</strong> sustitución<br />

gap p<strong>en</strong>alties<br />

neighborhood word threshold score<br />

two-hit distance<br />

ext<strong>en</strong>sion att<strong>en</strong>uation parameter<br />

aln. threshold (ungapped)<br />

aln. threshold (gapped)<br />

- λS<br />

E = k m n e<br />

E value umbral usado = 10; HSPs con gap<br />

E value umbral usado = 10; HSPs no gap<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />

• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar<br />

4. <strong>Alineami<strong>en</strong>tos</strong>. Repres<strong>en</strong>tan la parte más voluminosa <strong>de</strong>l reporte. A<strong>de</strong>más <strong>de</strong> la<br />

información estadística, indica las coor<strong>de</strong>nadas <strong>de</strong> inicio y fin <strong>de</strong> las secu<strong>en</strong>cias query<br />

y subject. Si la <strong>búsqueda</strong> involucra secu<strong>en</strong>cias <strong>de</strong> DNA, también se indica<br />

direccionalidad <strong>de</strong> las hebras Q/S (plus/plus; p p plus/minus).<br />

p<br />

normalized score<br />

raw score<br />

BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />

• RESUMEN <strong>de</strong> gapped-BLAST<br />

• BLAST es un progrma para <strong>búsqueda</strong> <strong>de</strong> secu<strong>en</strong>cias similares a una sec. problema <strong>en</strong> bases<br />

<strong>de</strong> datos. BLAST pue<strong>de</strong> ser usado <strong>en</strong> línea o localm<strong>en</strong>te.<br />

•Exist<strong>en</strong> diversos programas BLAST para comparar todas las combinaciones posibles <strong>de</strong><br />

secs. problema (aa y nt) con nt o aa DBs. (BLASTN, BLASTP, BLASTX, TBLASTN,<br />

TBLASTX) a<strong>de</strong>más d á d <strong>de</strong> variantes i t d <strong>de</strong> ééstos t que b buscan similitu<strong>de</strong>s i ilit d <strong>en</strong> di diversas DB DBs<br />

•BLAST es una versión heurística <strong>de</strong>l algoritmo <strong>de</strong> Smith-Waterman que <strong>en</strong>cu<strong>en</strong>tra<br />

matches locales cortos (palabras) que int<strong>en</strong>ta ext<strong>en</strong><strong>de</strong>r <strong>en</strong> forma <strong>de</strong> alineami<strong>en</strong>tos <strong>pareados</strong><br />

• El nuevo algoritmo gapped-BLASTP requiere al m<strong>en</strong>os <strong>de</strong> dos palabras o hits no solapados<br />

con un score <strong>de</strong> al m<strong>en</strong>os T, ubicados a una distancia máxima A el uno <strong>de</strong>l otro, para invocar<br />

una ext<strong>en</strong>sión <strong>de</strong>l segundo hit. Si el HSP g<strong>en</strong>erado ti<strong>en</strong>e un score normalizado con un valor<br />

<strong>de</strong> al m<strong>en</strong>os Su (normalized ungapped score) bits, se dispara una ext<strong>en</strong>sión con gap<br />

• BLAST reporta a<strong>de</strong>más información relativa a la significancia estadística <strong>de</strong> los HSPs<br />

<strong>en</strong>contrados. El estadístico fundam<strong>en</strong>tal es el valor <strong>de</strong> expectancia E (E-value), que indica<br />

el número <strong>de</strong> falsos positivos que cabe <strong>en</strong>contrar, dada la longitud <strong>de</strong> la secu<strong>en</strong>cia problema,<br />

el tamaño <strong>de</strong> la base <strong>de</strong> datos exprolada, y el score normalizado <strong>de</strong>l HSP, tal y como indica<br />

la ecuación <strong>de</strong> Karlin-Altschul<br />

- λS<br />

E = k m n e<br />

• Si bi<strong>en</strong> no existe una teoría estadística para evaluar explícitam<strong>en</strong>te la significancia <strong>de</strong> alns.<br />

con gaps (no se pue<strong>de</strong> estimar ) éstas pue<strong>de</strong>n obt<strong>en</strong>erse a partir <strong>de</strong> simulaciones in silico<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 10


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

PSI-BLAST<br />

• Material suplem<strong>en</strong>tario, optativo<br />

I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />

• matrices <strong>de</strong> pon<strong>de</strong>ración sitio específicas (Position Specific Scoring Matrices PSSMs)<br />

Se construy<strong>en</strong> usando algoritmos <strong>de</strong> ca<strong>de</strong>nas ocultas <strong>de</strong> Markov (HMMs). En es<strong>en</strong>cia, para un<br />

alineami<strong>en</strong>to múltiple se consi<strong>de</strong>ran tanto las posiciones como las frecu<strong>en</strong>cias <strong>de</strong> los estados<br />

<strong>de</strong> caracter observados para cada sitio. Residuos muy conservados <strong>en</strong> una <strong>de</strong>terminada po-<br />

sición recib<strong>en</strong> un score positivo muy alto, alto mi<strong>en</strong>tras que los raros <strong>en</strong> dicha posición recib<strong>en</strong> un<br />

score alto negativo. Resíduos que ocupan posiciones muy variables recib<strong>en</strong> scores próximos<br />

a cero.<br />

12345678910<br />

Ejemplo <strong>de</strong> una PSSM calculada para los 10 primeros resíduos <strong>de</strong> un<br />

alineami<strong>en</strong>to múltiple <strong>de</strong> proteínas HoxA <strong>de</strong> eucariontes. Sólo se<br />

muestra una pequeña parte <strong>de</strong> las secu<strong>en</strong>cias incluídas <strong>en</strong> el alineami<strong>en</strong>to<br />

múltiple usado para calcular la PSSM<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />

La <strong>búsqueda</strong>s <strong>de</strong> secu<strong>en</strong>cias distantes <strong>en</strong> bases <strong>de</strong> datos mediante matrices <strong>de</strong> pon<strong>de</strong>ración<br />

sitio específicas (también conocidas como perfiles o motivos) son g<strong>en</strong>eralm<strong>en</strong>te más a<strong>de</strong>cuadas<br />

para la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> con bajo nivel <strong>de</strong> i<strong>de</strong>ntidad que el BLASTP<br />

estándar<br />

PSI-BLAST (Position-Specific p Iterated BLAST) es una modificación <strong>de</strong> BLASTP que<br />

permite la <strong>búsqueda</strong> <strong>de</strong> <strong>homólogos</strong> mediante perfiles g<strong>en</strong>erados automáticam<strong>en</strong>te a partir<br />

<strong>de</strong> alineami<strong>en</strong>tos múltiples <strong>de</strong>rivados <strong>de</strong> los HSPs <strong>en</strong>contrados por BLASTP.<br />

• Pasos que sigue el algoritmo <strong>de</strong> PSI-BLAST<br />

1. Búsqueda <strong>de</strong> <strong>homólogos</strong> <strong>de</strong> una sec. problema mediante BLASTP<br />

2. . Construcción onstrucc ón <strong>de</strong> un aln. múltiple múlt ple a partir part r <strong>de</strong> los HSPs HS s y construcción construcc ón <strong>de</strong> un perfil perf l<br />

3. El programa compara el perfil construido con la base <strong>de</strong> datos<br />

4. PSI-BLAST <strong>de</strong>termina la significancia estadística <strong>de</strong> los alns. locales <strong>en</strong>contrados<br />

5. PSI-BLAST pue<strong>de</strong> repetir o iterar los pasos a partir <strong>de</strong>l 2. para construir perfiles<br />

cada vez más específicos con las secu<strong>en</strong>cias nuevas <strong>en</strong>contradas <strong>en</strong> cada iteración<br />

hasta llegar a la converg<strong>en</strong>cia<br />

I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 11


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />

. . .<br />

I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />

• Aspectos a cuidar al calcular PSSMs<br />

1.- Hay que evitar a toda costa incluir secu<strong>en</strong>cias no homólogas. Revisar alineami<strong>en</strong>tos<br />

<strong>pareados</strong>, estructura <strong>de</strong> dominios y no fiarse <strong>de</strong> las anotaciones. Muchas secu<strong>en</strong>cias<br />

están mal anotadas !!!<br />

Utilizar:<br />

http://www.ncbi.nlm.nih.gov/COG/<br />

http://psort.hgc.jp/<br />

http://www.predictprotein.org/newwebsite/<br />

http://www.ch.embnet.org/software/TMPRED_form.html<br />

http://www.expasy.org/<br />

...<br />

para caracterizar a las proteínas dudosas ...<br />

2.- Eliminar regiones <strong>de</strong> baja complejidad.<br />

Usar SEG y COILS<br />

http://www.ch.embnet.org/software/COILS_form.html<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />

PRÁCTICAS: apr<strong>en</strong>di<strong>en</strong>do a usar PSI-BLAST<br />

para i<strong>de</strong>ntificar <strong>homólogos</strong> lejanos<br />

1) Descarga la secu<strong>en</strong>cia Q57997 y haz un análisis <strong>de</strong> PSI-BLAST. Preguntas:<br />

- Qué tipo <strong>de</strong> función podría t<strong>en</strong>er esta proteína?<br />

- Cuantos <strong>homólogos</strong> <strong>en</strong>contraste <strong>en</strong> la primera <strong>búsqueda</strong> (BLASTP)<br />

- Cuantos ciclos o iteraciones tuviste que correr hasta la converg<strong>en</strong>cia?<br />

Cuantos <strong>homólogos</strong> pescaste?<br />

2) Compara estos resultados con el análisis <strong>de</strong>scrito <strong>en</strong> el tutorial <strong>de</strong> PSI-BLAST<br />

que <strong>en</strong>contrarás <strong>en</strong> la página <strong>de</strong>l NCBI bajo:<br />

http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/psi1.html<br />

3) Ve a la página <strong>de</strong> nuestro curso y haz los ejercicios propuestos que <strong>en</strong>contrarás <strong>en</strong><br />

el directorio Ejercicios/BLAST<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 12


<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />

<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />

Consejos finales para el uso efici<strong>en</strong>te <strong>de</strong> BLAST<br />

0. Antes <strong>de</strong> iniciar <strong>búsqueda</strong>s con BLAST, hay que escanear las secs. para <strong>de</strong>tectar la pres<strong>en</strong>cia<br />

<strong>de</strong> múltiples dominios, reg. repetitivas, motivos y péptidos señal usando las herrami<strong>en</strong>tas<br />

o servidores apropiados (SMART, PROSITE, PFAM, CDD, PSORT ...)<br />

1. Para <strong>búsqueda</strong>s <strong>de</strong> secu<strong>en</strong>cias homólogas distantes usa AAs y PSI-BLAST siempre que<br />

sea posible.<br />

2. PSSMs. Usa todos llos criterios adicionales l que consi<strong>de</strong>res relevantes l para inferir<br />

la homología <strong>de</strong> manera certera. No te fíes <strong>de</strong> las anotaciones, las hay erróneas. También<br />

convi<strong>en</strong>e ser crítico con las proteínas hipotéticas, puesto que su exist<strong>en</strong>cia no se<br />

ha <strong>de</strong>mostrado experim<strong>en</strong>talm<strong>en</strong>te y con frecu<strong>en</strong>cia pres<strong>en</strong>tan extremos N terminales<br />

más largos que los <strong>de</strong> las proteínas <strong>de</strong> verdad (problema <strong>de</strong> pre<strong>de</strong>cir a<strong>de</strong>cuadam<strong>en</strong>te<br />

el inicio <strong>de</strong> traducción).<br />

3. Ajusta el valor <strong>de</strong> los parámetros <strong>de</strong> <strong>búsqueda</strong> <strong>de</strong> manera a<strong>de</strong>cuada al problema a resolver.<br />

El valor <strong>de</strong> los parámetros <strong>de</strong>termina lo que pue<strong>de</strong>s <strong>en</strong>contrar. Así por ejemplo<br />

<strong>búsqueda</strong>s q con NCBI-BLASTN con valores por p <strong>de</strong>fecto <strong>de</strong> match (+1) y mismatch (-3)<br />

ti<strong>en</strong><strong>en</strong> una frecu<strong>en</strong>cia diana <strong>de</strong> 99% <strong>de</strong> i<strong>de</strong>ntidad. No busques g<strong>en</strong>es <strong>de</strong> humano y nemátodo<br />

con NCBI-BLASTN...<br />

4. Haz controles, especialm<strong>en</strong>te cuando se trate <strong>de</strong> similitu<strong>de</strong>s <strong>en</strong> la zona <strong>de</strong> p<strong>en</strong>umbra.<br />

Así por ejemplo pue<strong>de</strong>s hacer un “barajado” <strong>de</strong> la secu<strong>en</strong>cia problema a mano o<br />

mejor aún, usando un s<strong>en</strong>cillo script <strong>de</strong> Perl. Si <strong>de</strong>spués <strong>de</strong> barajar los caracteres <strong>de</strong> tu<br />

secu<strong>en</strong>cia sigues <strong>en</strong>contrando hits similares <strong>en</strong> la zona <strong>de</strong> p<strong>en</strong>umbra, el parecido se <strong>de</strong>be<br />

simplem<strong>en</strong>te a un sesgo composicional compartido <strong>en</strong>tre ambas secs. y no a homología<br />

Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />

13-17 Junio 2011<br />

URLs <strong>de</strong> algunas <strong>de</strong> las principales bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias<br />

(DNA, Prot.), familias/dominios/motivos <strong>de</strong> proteínas y estructuras<br />

Blocks and Blocks+ : http://blocks http://blocks.fhcrc.org/ fhcrc org/<br />

DBJ : http://www.ddbj.nig.ac.jp/<br />

EMBL : http://www.ebi.ac.uk/embl/<br />

Entrez : http://www.ncbi.nlm.nih.gov/Entrez/<br />

G<strong>en</strong>Bank : http://www.ncbi.nlm.nih.gov/G<strong>en</strong>bank/<br />

InterPro : http://www.ebi.ac.uk/interpro/<br />

MEDLINE : http://www.ncbi.nlm.nih.gov/<strong>en</strong>trez/query.fcgi?db=PubMed<br />

PDB : http://www.rcsb.org/pdb/<br />

PIR : http://www-nbrf.georgetown.edu/<br />

p g g<br />

Pfam : http://www.sanger.ac.uk/Pfam/<br />

PRINTS : http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/PRINTS.html<br />

ProDom : http://protein.toulouse.inra.fr/prodom.html<br />

PROSITE :http://www.expasy.ch/prosite/prosite.html<br />

SRS "mother" server :http://srs.ebi.ac.uk/<br />

SWISS-PROT and TrEMBL at EBI : http://www.ebi.ac.uk/swissprot/<br />

© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />

http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 13

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!