Tema 2: Alineamientos pareados y búsqueda de homólogos en ...
Tema 2: Alineamientos pareados y búsqueda de homólogos en ...
Tema 2: Alineamientos pareados y búsqueda de homólogos en ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
Introducción a la Filoinformática<br />
U. Sevilla, 13-17 <strong>de</strong> Junio <strong>de</strong>l 2011<br />
Pablo Vinuesa (vinuesa@ccg.unam.mx)<br />
C<strong>en</strong>tro <strong>de</strong> Ci<strong>en</strong>cias G<strong>en</strong>ómicas UNAM<br />
http://www.ccg.unam.mx/~vinuesa/<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/<br />
• <strong>Tema</strong> 2: alineami<strong>en</strong>tos <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong> <strong>homólogos</strong> <strong>en</strong><br />
bases <strong>de</strong> datos<br />
• evolución <strong>de</strong> secu<strong>en</strong>cias y clasificación <strong>de</strong> mutaciones<br />
• in<strong>de</strong>les d l y gaps<br />
• alineami<strong>en</strong>tos globales (Needleman-Wunsch) vs. locales (Smith-Waterman);<br />
• programación dinámica;<br />
• dot plots;<br />
• matrices <strong>de</strong> costo <strong>de</strong> sustitución, p<strong>en</strong>alización <strong>de</strong> gaps y cuantificación <strong>de</strong> la similitud;<br />
• evaluación estadística <strong>de</strong> la similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias;<br />
• escrutinio <strong>de</strong> bases <strong>de</strong> datos mediante BLAST; Búsquedas a nivel <strong>de</strong> DNA vs. AA;<br />
•la familia BLAST e interpretación <strong>de</strong> resultados <strong>de</strong> <strong>búsqueda</strong> <strong>de</strong> secu<strong>en</strong>cias homólogas<br />
•prácticas: uso<strong>de</strong> NCBI BLAST <strong>en</strong> línea<br />
<strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong> <strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos<br />
Los alineami<strong>en</strong>tos <strong>pareados</strong> locales son la base <strong>de</strong> los métodos <strong>de</strong> <strong>búsqueda</strong><br />
<strong>de</strong> secu<strong>en</strong>cias o dominos <strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos<br />
• Si dos proteínas o g<strong>en</strong>es se parec<strong>en</strong> mucho a lo largo <strong>de</strong> toda su longitud asumimos<br />
que se trata <strong>de</strong> proteínas o g<strong>en</strong>es <strong>homólogos</strong>, es <strong>de</strong>cir, <strong>de</strong>sc<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> un mismo<br />
ancestro común (c<strong>en</strong>ancestro)<br />
(c<strong>en</strong>ancestro).<br />
• Por ello una <strong>de</strong> las técnicas más utilizadas para <strong>de</strong>tectar pot<strong>en</strong>ciales <strong>homólogos</strong> <strong>en</strong><br />
bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias se basa <strong>en</strong> la cuantificación <strong>de</strong> la similitud <strong>en</strong>tre pares<br />
<strong>de</strong> secu<strong>en</strong>cias y la <strong>de</strong>terminación <strong>de</strong> la significancia estadística <strong>de</strong> dicho parecido.<br />
Estas magnitu<strong>de</strong>s son las que reportan los estadísticos <strong>de</strong> BLAST.<br />
(... truncado)<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
<strong>Tema</strong> 2:<br />
alineami<strong>en</strong>tos<br />
<strong>pareados</strong>, <strong>búsqueda</strong>s<br />
<strong>de</strong> <strong>homólogos</strong> <strong>en</strong><br />
bases <strong>de</strong> datos<br />
Protocolo básico para un análisis filog<strong>en</strong>ético <strong>de</strong><br />
secu<strong>en</strong>cias moleculares<br />
Colección <strong>de</strong> secu<strong>en</strong>cias homólogas<br />
• BLAST y FASTA<br />
Alineami<strong>en</strong>to múltiple <strong>de</strong> secu<strong>en</strong>cias<br />
Estima filog<strong>en</strong>ética<br />
• Clustal, T-Coffee, muscle...<br />
Análisis evolutivo <strong>de</strong>l alineami<strong>en</strong>to y selección <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> sustitución más ajustado<br />
• tests <strong>de</strong> saturación, mo<strong>de</strong>ltest, ...<br />
• NJ, ME, MP, M , ML, Bayes ...<br />
Pruebas <strong>de</strong> confiabilidad <strong>de</strong> la topología inferida<br />
• proporciones <strong>de</strong> bootstrap<br />
probabilidad posterior ...<br />
Interpretación evolutiva y aplicación <strong>de</strong> las filog<strong>en</strong>ias<br />
Alineami<strong>en</strong>to <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> DNA y proteína -<br />
introducción<br />
• Dadas 2 o más secu<strong>en</strong>cias, lo que g<strong>en</strong>eralm<strong>en</strong>te <strong>de</strong>seamos es:<br />
1. cuantificar su grado <strong>de</strong> similitud<br />
2. <strong>de</strong>terminar las correspon<strong>de</strong>ncias p evolutivas (homología) g residuo – residuo<br />
3. <strong>de</strong>scribir e interpretar patrones <strong>de</strong> conservación y variación<br />
4. inferir las relaciones evolutivas <strong>en</strong>tre las secu<strong>en</strong>cias<br />
• Para <strong>de</strong>finir índices cuantitativos <strong>de</strong> similitud <strong>en</strong>tre secu<strong>en</strong>cias necesitamos primero<br />
<strong>de</strong>finir las correspon<strong>de</strong>ncias evolutivas (homología) <strong>en</strong>tre los residuos <strong>de</strong> distintas secu<strong>en</strong>cias,<br />
<strong>en</strong> forma <strong>de</strong> un alineami<strong>en</strong>to. Este repres<strong>en</strong>ta una <strong>de</strong> las herrami<strong>en</strong>tas básicas<br />
<strong>de</strong> la bioinformática y biología evolutiva<br />
•Para optimizar un alineami<strong>en</strong>to necesitamos acomodar las correspon<strong>de</strong>ncias <strong>en</strong>tre resíduos<br />
idénticos, distintos, inserciones y <strong>de</strong>leciones. Esto se logra matemáticam<strong>en</strong>te usando<br />
factores <strong>de</strong> pon<strong>de</strong>ración (“weightings”) para cada caso. Así un match ti<strong>en</strong>e un peso, un<br />
mismatch otro y los in<strong>de</strong>les un tercer valor. Dos secu<strong>en</strong>cias se comparan resíduo a resíduo,<br />
g<strong>en</strong>erándose un valor <strong>de</strong> puntuación (score) acor<strong>de</strong> a estas pon<strong>de</strong>raciones, que refleja el<br />
nivel <strong>de</strong> similitud <strong>en</strong>tre ellas<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 1
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />
conceptos y terminología básica<br />
• A lo largo <strong>de</strong> la evolución las secu<strong>en</strong>cias <strong>de</strong>sc<strong>en</strong>di<strong>en</strong>tes <strong>de</strong> otra ancestral van acumulando<br />
diversos tipos <strong>de</strong> mutaciones. Estas son mutaciones puntuales o reorganizaciones g<strong>en</strong>ómicas,<br />
que pue<strong>de</strong>n involucrar inserciones, <strong>de</strong>leciones, inversiones, translocaciones o duplicaciones,<br />
mediados por distintos mecanismos <strong>de</strong> recombinación (homóloga e ilegítima)<br />
• Cualquier análisis filog<strong>en</strong>ético y/o evolutivo <strong>de</strong> secu<strong>en</strong>cias moleculares require <strong>de</strong> un alineami<strong>en</strong>to<br />
para po<strong>de</strong>r comparar sitios <strong>homólogos</strong> <strong>en</strong>tre las secu<strong>en</strong>cias a estudiar. Para ello se<br />
escrib<strong>en</strong> las secu<strong>en</strong>cias <strong>en</strong> filas una sobre la otra, <strong>de</strong> modo que los sitios <strong>homólogos</strong> quedan<br />
alineados por columnas. Cada sitio o columna <strong>de</strong>l alineami<strong>en</strong>to correspon<strong>de</strong> a un caracter,<br />
y los nt o aa que ocupan dichas posiciones repres<strong>en</strong>tan los distintos estados <strong>de</strong>l caracter<br />
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3<br />
Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />
tipos <strong>de</strong> mutaciones <strong>en</strong> secs. codificadoras <strong>de</strong> proteínas<br />
secu<strong>en</strong>cia<br />
ancestral<br />
secu<strong>en</strong>cias<br />
<strong>de</strong>rivadas<br />
(evolucionadas)<br />
pos. codón 123<br />
codones ATG TGT TTT GAT GCA<br />
AA M C F D A<br />
especie A<br />
especie B<br />
* *<br />
ATG TAT TTT CAT GCA<br />
* *<br />
ATG ---TTC GAC GCA<br />
M T F H A M F D A<br />
nosinónima<br />
sinónimas y <strong>de</strong>leción <strong>en</strong> marco<br />
especie C ATG TGT TT- G AT G CAX<br />
M C L M X<br />
<strong>de</strong>leción fuera <strong>de</strong> marco<br />
•Todaslasmutaciones <strong>en</strong> 2 as posiciones resultan <strong>en</strong> sustituciones no sinónimas<br />
• 96% <strong>de</strong> mutaciones <strong>en</strong> 1 as posiciones resultan <strong>en</strong> sustituciones no sinónimas<br />
• Casi todas las sustituciones sinónimas ocurr<strong>en</strong> <strong>en</strong> las 3 as posiciones<br />
• las <strong>de</strong>leciones o inserciones <strong>en</strong> secs. codificadoras <strong>de</strong> aa suce<strong>de</strong>n g<strong>en</strong>eralm<strong>en</strong>te<br />
<strong>en</strong> múltiplos <strong>de</strong> tres nt; <strong>de</strong> no ser así se g<strong>en</strong>eran cambios <strong>de</strong> marco <strong>de</strong> lectura<br />
corri<strong>en</strong>te abajo <strong>de</strong> la mutación, con frecu<strong>en</strong>cia g<strong>en</strong>erando un pseudog<strong>en</strong> no funcional<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />
conceptos y terminología básica<br />
•Cuando por ev<strong>en</strong>tos <strong>de</strong> inserción o <strong>de</strong>leción (in<strong>de</strong>les) las secu<strong>en</strong>cias homólogas pres<strong>en</strong>tan<br />
distintas longitu<strong>de</strong>s, es necesario introducir “gaps” <strong>en</strong> el alineami<strong>en</strong>to para mant<strong>en</strong>er la<br />
correspon<strong>de</strong>ncia <strong>en</strong>tre sitios <strong>homólogos</strong> situados antes y <strong>de</strong>spués <strong>de</strong> las regiones afectadas<br />
por in<strong>de</strong>les. Estas regiones se i<strong>de</strong>ntifican mediante guiones (-). Los in<strong>de</strong>les no se distribu-<br />
y<strong>en</strong> aleatoriam<strong>en</strong>te <strong>en</strong> las secu<strong>en</strong>cias codificadoras codificadoras. Casi siempre aparec<strong>en</strong> ubicados<br />
<strong>en</strong>tre dominios funcionales o estructurales, prefer<strong>en</strong>tem<strong>en</strong>te <strong>en</strong> bucles (loops) que conectan<br />
a dichos dominios. Esto vale tanto para RNAs estructurales (tRNAs y rRNAs) como<br />
para proteínas. No suel<strong>en</strong> interrumpir el marco <strong>de</strong> lectura.<br />
•A mayor distancia g<strong>en</strong>ética (evolutiva) <strong>en</strong>tre un par <strong>de</strong> secu<strong>en</strong>cias, mayor será el número <strong>de</strong><br />
mutaciones acumuladas. Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l tiempo <strong>de</strong> separación <strong>de</strong> los linajes y la tasa<br />
evolutiva <strong>de</strong>l locus, pue<strong>de</strong> llegar a ser imposible alinear ciertas regiones <strong>de</strong>bido a f<strong>en</strong>óm<strong>en</strong>os<br />
<strong>de</strong> saturación mutacional. Las regiones <strong>de</strong> homología dudosa <strong>de</strong>b<strong>en</strong> <strong>de</strong> ser excluídas <strong>de</strong> un<br />
análisis filog<strong>en</strong>ético<br />
Homología <strong>en</strong>tre secu<strong>en</strong>cias <strong>de</strong> DNA y proteína:<br />
alineami<strong>en</strong>to y tipos <strong>de</strong> mutaciones<br />
pos. codón 123<br />
codones ATG TGT TTT GAT GCA<br />
AA M C F D A<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 2<br />
secu<strong>en</strong>cia<br />
ancestral<br />
alineami<strong>en</strong>to <strong>de</strong><br />
sitios <strong>homólogos</strong><br />
para tres secs.<br />
Transiciones (ti) purina - purina<br />
A<br />
A-C G<br />
A-C<br />
C-G<br />
A-T<br />
especie A<br />
especie B<br />
especie C<br />
C T<br />
C-G<br />
Transiciones (ti) pirimidina - pirimidina<br />
Transversiones (tv)<br />
pur. pyr.<br />
G-T<br />
ATG TAT TTT CAT GCA<br />
ATG --- TTC GAC GCA<br />
ATG TGT TT- GAT GCA<br />
ti ti tv ti<br />
cambio <strong>de</strong> marco <strong>de</strong><br />
lectura !!! posible<br />
pseudog<strong>en</strong>.<br />
• exist<strong>en</strong> 4 tipos <strong>de</strong> ti y 8 <strong>de</strong> tv<br />
• las tasas <strong>de</strong> sustitución <strong>de</strong> ti () son<br />
g<strong>en</strong>eralm<strong>en</strong>te mucho más altas que las<br />
<strong>de</strong> tv ()
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />
alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales)<br />
• Estudiar el fundam<strong>en</strong>to <strong>de</strong> los algoritmos <strong>de</strong> PD es un bu<strong>en</strong> punto <strong>de</strong> arranque para <strong>en</strong>t<strong>en</strong><strong>de</strong>r<br />
lo que acontece <strong>de</strong>ntro <strong>de</strong> software usado ext<strong>en</strong>sam<strong>en</strong>te <strong>en</strong> biología computacional:<br />
Programas como BLAST, FASTA, CLUSTALW, HMMER, GENSCAN, MFOLD<br />
y los <strong>de</strong> infer<strong>en</strong>cia filog<strong>en</strong>ética (PHYLIP, PAUP, MrBayes ...) emplean alguna forma <strong>de</strong> pro-<br />
gramación dinámica, con frecu<strong>en</strong>cia variantes heurísticas<br />
• <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong>: el problema visto <strong>de</strong>s<strong>de</strong> la perspectiva biológica<br />
El supuesto básico es que si dos secu<strong>en</strong>cias se parec<strong>en</strong> mucho a lo largo <strong>de</strong> sus secu<strong>en</strong>cias<br />
es porque compart<strong>en</strong> un ancestro común : son homólogas.<br />
Es <strong>de</strong>cir, inferimos la homología a partir <strong>de</strong> la similitud.<br />
Para cuantificar objetivam<strong>en</strong>te el nivel <strong>de</strong> similitud necesitamos un sistema <strong>de</strong> puntuación<br />
(scoring scheme) que lo refleje a<strong>de</strong>cuadam<strong>en</strong>te, a<strong>de</strong>cuadam<strong>en</strong>te <strong>de</strong>s<strong>de</strong> una perspectiva evolutiva<br />
El objetivo es alinear las dos secu<strong>en</strong>cias <strong>de</strong> tal manera que se maximice su similitud<br />
Para ello necesitamos un algoritmo, ya que no es práctico evaluar todos los alineami<strong>en</strong>tos<br />
posibles <strong>en</strong>tre un par <strong>de</strong> secu<strong>en</strong>cias dado el elevadísimo número <strong>de</strong> combinaciones<br />
(22N /(2N ) 1/2 . Así para dos secs. <strong>de</strong> 300 resíduos exist<strong>en</strong> 10179 alns. posibles!!!<br />
Los algoritmos <strong>de</strong> programación dinámica son a<strong>de</strong>cuados para este trabajo ya que resuelv<strong>en</strong><br />
el problema sin necesidad <strong>de</strong> evaluar todo el espacio <strong>de</strong> <strong>búsqueda</strong><br />
Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />
alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales):<br />
dot plots y visualización <strong>de</strong> la similitud <strong>en</strong>tre secu<strong>en</strong>cias<br />
• las 2 secs. repres<strong>en</strong>tan los dos ejes<br />
<strong>de</strong> la gráfica<br />
•se pone un punto t don<strong>de</strong> d d ambas b coinci<strong>de</strong>n i id<br />
• la diagonal más larga repres<strong>en</strong>ta la región<br />
<strong>de</strong> mayor i<strong>de</strong>ntidad<br />
• el camino 1 es el preferido al ser el más<br />
parsimonioso (implica m<strong>en</strong>os cambios)<br />
• la diagonal cruzada revela un palíndrome<br />
alineami<strong>en</strong>to diagonal 1<br />
secu<strong>en</strong>cia 1: ATGCGTCGTT<br />
|||||||||<br />
secu<strong>en</strong>cia 2: ATGCGTCGT<br />
Sec.2<br />
gap<br />
Sec.1<br />
alineami<strong>en</strong>to diagonal 2<br />
gap<br />
secu<strong>en</strong>cia 1: ATG---CGTCGTT<br />
||| |||<br />
secu<strong>en</strong>cia 2: ATGCGTCGT<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />
alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales)<br />
• Pares <strong>de</strong> secu<strong>en</strong>cias pue<strong>de</strong>n ser comparadas usando alineami<strong>en</strong>tos globales y locales,<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l objetivo <strong>de</strong> la comparación.<br />
Un alineami<strong>en</strong>to global fuerza el alineami<strong>en</strong>to <strong>de</strong> ambas secu<strong>en</strong>cias a lo largo <strong>de</strong> toda<br />
su longitud. Usamos aln. globales cuando estamos seguros <strong>de</strong> que la homología se exti<strong>en</strong><strong>de</strong><br />
a lo largo <strong>de</strong> todas las secu<strong>en</strong>cias secu<strong>en</strong>c as a comparar. Este es el tipo t po <strong>de</strong> alineami<strong>en</strong>tos al neam <strong>en</strong>tos que g<strong>en</strong>eran<br />
programas <strong>de</strong> alineami<strong>en</strong>to múltiple tales como clustal, T-Coffee o muscle.<br />
Alineami<strong>en</strong>to global óptimo <strong>de</strong>l citocromo C humano (105 resíduos, SWISS-PROT acc. P00001)<br />
y citocromo C2 <strong>de</strong> Rhodopseudomonas palustris (114 resíduos, SWISS-PROT acc. P00090).<br />
La matriz <strong>de</strong> puntuación o pon<strong>de</strong>ración (“scoring matrix) empleada fue BLOSUM62,<br />
con costo <strong>de</strong> gaps afines <strong>de</strong> –(11 + k). La puntuación <strong>de</strong>l alineami<strong>en</strong>to global es <strong>de</strong> 131,<br />
usando el algoritmo <strong>de</strong> Needleman-Wunsch.<br />
Puntuación “cruda” (raw scores) <strong>de</strong> similitud (S values) <strong>de</strong> un<br />
alineami<strong>en</strong>to pareado con in<strong>de</strong>les (“gaps”)<br />
S = (M ij) – cO – dG,<br />
don<strong>de</strong>:<br />
M = valor <strong>de</strong> pon<strong>de</strong>ración <strong>en</strong> una matriz <strong>de</strong><br />
sustitución<br />
(p.ej. BLOSUM62) <strong>en</strong>tre una pareja particular <strong>de</strong><br />
AAs (ij)<br />
ú d (i d l )<br />
c = número <strong>de</strong> gaps (in<strong>de</strong>les)<br />
O = factor <strong>de</strong> p<strong>en</strong>alización <strong>de</strong> apertura <strong>de</strong> gap<br />
d = longitud total <strong>de</strong>l in<strong>de</strong>l (no. <strong>de</strong> gaps contíguos)<br />
G = factor <strong>de</strong> p<strong>en</strong>alización para la ext<strong>en</strong>sión <strong>de</strong>l gap<br />
por resíduo<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 3
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
alineami<strong>en</strong>tos <strong>pareados</strong> y factores <strong>de</strong> p<strong>en</strong>alización afines para gaps<br />
• Dado que un sólo ev<strong>en</strong>to mutacional pue<strong>de</strong> insertar o eliminar varios nucleótidos <strong>de</strong> una<br />
secu<strong>en</strong>cia, un in<strong>de</strong>l largo no <strong>de</strong>be <strong>de</strong> ser p<strong>en</strong>alizado mucho más que otro más corto ubicado<br />
<strong>en</strong> la misma región <strong>de</strong> un g<strong>en</strong>. De ahí el uso <strong>de</strong> factores <strong>de</strong> p<strong>en</strong>alización afines para gaps<br />
(affine gap p<strong>en</strong>alties or costs), que cobran una p<strong>en</strong>alidad relativam<strong>en</strong>te alta por abrir un<br />
gap y una p<strong>en</strong>alidad l más á bajapor cada posición ó sobrela l que se exti<strong>en</strong><strong>de</strong> el l in<strong>de</strong>l. l<br />
• La calidad <strong>de</strong> un alineami<strong>en</strong>to <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>en</strong> gran medida <strong>de</strong> los valores <strong>de</strong> apertura y<br />
ext<strong>en</strong>sión <strong>de</strong> gap elegidos.<br />
S = (M ij) – cO – dG<br />
• Una limitación <strong>de</strong> los “raw raw scores” scores <strong>de</strong> los alineami<strong>en</strong>tos resi<strong>de</strong> <strong>en</strong> que no se pue<strong>de</strong>n<br />
comparar los resultados obt<strong>en</strong>idos con distintas matrices <strong>de</strong> pon<strong>de</strong>ración y/o apertura<br />
apertura <strong>de</strong> gaps.<br />
Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />
• El alineami<strong>en</strong>to <strong>de</strong> aa difiere <strong>de</strong>l <strong>de</strong> nt <strong>en</strong> dos aspectos fundam<strong>en</strong>tales:<br />
1.- Exist<strong>en</strong> más “símbolos” <strong>en</strong> el alineami<strong>en</strong>to <strong>de</strong> aa (20) que <strong>de</strong> nt (4)<br />
2.- El alineami<strong>en</strong>to no consiste simplem<strong>en</strong>te p <strong>en</strong> alinear resíduos <strong>de</strong> tal manera que q la mayor y<br />
cantidad coincida, ya que hay que consi<strong>de</strong>rar los posibles caminos mutacionales mediante<br />
los cuales un aa es sutituído por otro<br />
Cys (UGU) Tyr (UAU) 1 subst. <strong>en</strong> la 2a. pos <strong>de</strong>l codón<br />
Cys (UGU) Met (AUG) 3 subst. Una <strong>en</strong> cada posición <strong>de</strong>l codón<br />
Por lo tanto alinear Cys con Tyr es 3 veces m<strong>en</strong>os costoso que alinearla con Met<br />
•En el alineami<strong>en</strong>to <strong>de</strong> nt g<strong>en</strong>eralm<strong>en</strong>te se valora un “match” como +1 y un<br />
“mismatch” como -3 (<strong>en</strong> NCBI BLAST), o como +5/-4 <strong>en</strong> WU-BLAST, es <strong>de</strong>cir, los nt se<br />
consi<strong>de</strong>ran idénticos o distintos). Esto, unido a las p<strong>en</strong>alizaciones <strong>de</strong> gap, <strong>de</strong>fine el costo<br />
<strong>de</strong> un alineami<strong>en</strong>to <strong>de</strong> nt.<br />
•Los alineami<strong>en</strong>tos <strong>de</strong> proteínas se basan g<strong>en</strong>eralm<strong>en</strong>te <strong>en</strong> una matriz empírica <strong>de</strong> costo<br />
<strong>de</strong> sustitución, <strong>de</strong>rivada <strong>de</strong> la comparación <strong>de</strong> secu<strong>en</strong>cias alineadas. Estas matrices<br />
empíricas reflejan someram<strong>en</strong>te los caminos mutacionales.<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
Un ejemplo <strong>de</strong> cómputo <strong>de</strong>l valor <strong>de</strong> similitud cruda <strong>de</strong> un<br />
alineami<strong>en</strong>to pareado global<br />
Un valor <strong>de</strong> puntuación es escogido para cada tipo <strong>de</strong> sustitución (par <strong>de</strong> resíduos o<br />
aln. <strong>de</strong> resíduo contra un gap). El set completo <strong>de</strong> estas puntuaciones conforman una<br />
matriz <strong>de</strong> pon<strong>de</strong>raciones o puntuaciones (scoring matrix), <strong>de</strong> dim<strong>en</strong>siones S (i,j)<br />
Exist<strong>en</strong> muchas <strong>de</strong>finiciones <strong>de</strong>l score <strong>de</strong> un alineami<strong>en</strong>to, pero la más común es simplem<strong>en</strong>te<br />
la suma <strong>de</strong> scores o puntuaciones para cada par <strong>de</strong> letras alineadas y pares letra-gap, que<br />
conforman el alineami<strong>en</strong>to.<br />
Así, para la matriz <strong>de</strong> sustitución sigui<strong>en</strong>te y un w lineal <strong>de</strong> 5, calcula la puntuación <strong>de</strong>l<br />
sigui<strong>en</strong>te alineami<strong>en</strong>to<br />
Matriz BLOSUM62<br />
- A G C T<br />
A 10 -1 -3 -4<br />
G -1 7 -5 -3<br />
C -3 -5 9 0<br />
T -4 -3 0 8<br />
AGACTAGTTAC<br />
CGA---GACGT<br />
Score = -3+7+10-3x5 +7-4+0-1+0 = 1<br />
Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />
• Las matrices empíricas <strong>de</strong> sustitución<br />
<strong>en</strong>tre AAs no reflejan necesariam<strong>en</strong>te las<br />
relaciones químicas <strong>en</strong>tre ellos. Se<br />
trata <strong>de</strong> una <strong>de</strong>finición púram<strong>en</strong>te<br />
estadística basada <strong>en</strong> el análisis <strong>de</strong><br />
frecu<strong>en</strong>cias empíricas <strong>de</strong> sustituciones<br />
observadas <strong>en</strong> alineami<strong>en</strong>tos <strong>de</strong> secs.<br />
con un grado <strong>de</strong> diverg<strong>en</strong>cia <strong>de</strong>finido<br />
• Cada score <strong>de</strong> la matriz repres<strong>en</strong>ta la<br />
tasa <strong>de</strong> sustitución esperada <strong>en</strong>tre un<br />
par <strong>de</strong> AAs AAs. Por tanto tanto, los scores <strong>de</strong> los<br />
alineami<strong>en</strong>tos <strong>pareados</strong> evaluados con<br />
estas matrices reflejan la distancia<br />
evolutiva exist<strong>en</strong>te <strong>en</strong>tre las secu<strong>en</strong>cias.<br />
Es importante notar que los scores son<br />
evolutivam<strong>en</strong>te simétricos al no conocerse<br />
la dirección <strong>de</strong>l cambio evolutivo.<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 4
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />
• Matrices <strong>de</strong> sustitución <strong>de</strong> AAs<br />
log-odds scores<br />
p ab<br />
s (a,b) = (c) log<br />
fa fb s (a,b) = score <strong>de</strong>l par a, b<br />
Matriz BLOSUM62<br />
pab = verosimilitud <strong>de</strong> la hipótesis a testar; frecu<strong>en</strong>cia esperada o<br />
diana, probabilidad con la que esperamos <strong>en</strong>contrar<br />
aa y bb a<strong>pareados</strong> <strong>en</strong> un alineami<strong>en</strong>to múltiple<br />
fa fb = verosimilitud <strong>de</strong> la hipótesis nula; frecu<strong>en</strong>cia<br />
<strong>de</strong> fondo, probabilidad con la que esperamos<br />
<strong>en</strong>contrar a y b <strong>en</strong> cualquier proteína. Refleja<br />
su abundancia o frecu<strong>en</strong>cia<br />
c = Factor <strong>de</strong> escalami<strong>en</strong>to usado para multiplicar los lod scores (números reales)<br />
antes <strong>de</strong> ser redon<strong>de</strong>ados a números <strong>en</strong>teros, tal y como se observa <strong>en</strong> la matriz.<br />
Los valores <strong>en</strong>teros redon<strong>de</strong>ados resultantes se conoc<strong>en</strong> como “raw scores”.<br />
Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />
• Matrices <strong>de</strong> sustitución <strong>de</strong> AAs: ¿<strong>de</strong> dón<strong>de</strong> vi<strong>en</strong><strong>en</strong> los log-odds scores?<br />
-La frecu<strong>en</strong>cia diana p ab para un par <strong>de</strong> AAs correspon<strong>de</strong> a la probabilidad esperada <strong>de</strong><br />
<strong>en</strong>contrar a, b alineados <strong>en</strong> un alinemami<strong>en</strong>to <strong>de</strong> secu<strong>en</strong>cias homólogas<br />
- Para estimar con la mayor precisión posible la frecu<strong>en</strong>cia diana pab <strong>de</strong> cada par <strong>de</strong> AAs<br />
<strong>en</strong> una familia f ili d <strong>de</strong> secu<strong>en</strong>cias i hhomólogas ól h hay que analizar li su distribución di ib ió d <strong>de</strong> ffrecu<strong>en</strong>cia i<br />
<strong>en</strong> muchos alineami<strong>en</strong>tos confiables que difier<strong>en</strong> <strong>en</strong> el nivel <strong>de</strong> diverg<strong>en</strong>cia evolutiva<br />
o distancia g<strong>en</strong>ética <strong>en</strong>tre sus miembros.<br />
- Cuanto más sepamos sobre la biología <strong>de</strong> las secu<strong>en</strong>cias alineanadas, mejor podremos<br />
a<strong>de</strong>cuar la estima <strong>de</strong> las frecu<strong>en</strong>cias diana. Así p. ej. si alineamos prots. <strong>de</strong> membrana,<br />
sus dominios transmembranales t<strong>en</strong>drán un fuerte sesgo hacia AAs hidrofóbicos,<br />
mi<strong>en</strong>tras que sus dominios extramembranales t<strong>en</strong>drán una mayor frecu<strong>en</strong>cia relativa<br />
<strong>de</strong> AAs hidrofílicos. Se trata por tanto claram<strong>en</strong>te <strong>de</strong> estimas empíricas y óptimas<br />
sólo para p el caso analizado<br />
- La distancia evolutiva <strong>en</strong>tre las secu<strong>en</strong>cias a analizar es una <strong>de</strong> las fu<strong>en</strong>tes <strong>de</strong> información<br />
biológica más importantes para hacer una estima a<strong>de</strong>cauda <strong>de</strong> p ab . Las frecu<strong>en</strong>cias diana<br />
<strong>de</strong>p<strong>en</strong><strong>de</strong>n fuertem<strong>en</strong>te <strong>de</strong> la distancia evolutiva <strong>en</strong>tre los pares <strong>de</strong> secs. analizadas.<br />
Si divergieron reci<strong>en</strong>tem<strong>en</strong>te, las frecu<strong>en</strong>cias diana <strong>de</strong>b<strong>en</strong> <strong>de</strong> ser ajustadas principalm<strong>en</strong>te<br />
<strong>en</strong> base a resíduos idénticos. Cuanto más diverg<strong>en</strong>tes, la distribución <strong>de</strong> frecu<strong>en</strong>cias diana<br />
<strong>de</strong>be <strong>de</strong> ser más plana. Por lo tanto las frecu<strong>en</strong>cias diana se calculan <strong>en</strong> base a sets <strong>de</strong><br />
aln. <strong>pareados</strong> confiables con distinto grado <strong>de</strong> diverg<strong>en</strong>cia. Se obti<strong>en</strong><strong>en</strong> series <strong>de</strong> matrices<br />
correspondi<strong>en</strong>tes a estos distintos sets <strong>de</strong> alineami<strong>en</strong>tos<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
Similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong> AA<br />
Matriz BLOSUM62<br />
Cálculo <strong>de</strong> “scores crudos”<br />
s (a,b) = (c) log<br />
f fa f b<br />
• ¿Porqué difier<strong>en</strong> los valores <strong>en</strong>tre difer<strong>en</strong>tes sust. conservativas, por ej. L/L y W/W?<br />
p LL = 0.0371, p WW = 0.0065<br />
f L = 0.099, f W = 0.013<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 5<br />
p ab<br />
Las frecu<strong>en</strong>cias <strong>de</strong> fondo juegan un papel muy importante.<br />
Cuanto más raro es un AA, m<strong>en</strong>os frecu<strong>en</strong>te será que se<br />
<strong>en</strong>cu<strong>en</strong>tre apareado consigo mismo por azar<br />
• ¿Porqué se castiga más un apareami<strong>en</strong>to A/L (chico y alifático/alifático) con respecto a uno<br />
K/E (+/-)?<br />
pAL = 0.0044 fL = 0.099, fA = 0.074<br />
pWW = 0.0041 fK = 0.058, fE = 0.054<br />
Alineami<strong>en</strong>to pareado <strong>de</strong> proteínas: matrices <strong>de</strong> costo BLOSUM<br />
Matrices BLOSUM <strong>de</strong> sustitución <strong>de</strong> aa<br />
H<strong>en</strong>ikoff, S., H<strong>en</strong>ikoff, J. G., and Pietrokovski, S. 1999. Blocks+: a non-redundant database<br />
of protein alignm<strong>en</strong>t blocks <strong>de</strong>rived from multiple compilations. Bioinformatics 15: 471-479.<br />
• Desarrollada por S. H<strong>en</strong>ikoff y J. G. H<strong>en</strong>ikoff para obt<strong>en</strong>er una matriz más robusta<br />
que las PAM <strong>en</strong> la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> distantes, particularm<strong>en</strong>te cuando conti<strong>en</strong><strong>en</strong><br />
una proporción significativa <strong>de</strong> aas hidrofóbicos<br />
•Las matrices BLOSUM están basadas <strong>en</strong> la base <strong>de</strong> datos BLOCKS+ <strong>de</strong> proteínas alineadas;<br />
BLOcks SUbstitution Matrix (http://blocks.fhcrc.org). Son matrices empíricas.<br />
•Las series <strong>de</strong> matrices BLOSUM se <strong>de</strong>rivaron <strong>de</strong> alineami<strong>en</strong>tos sin in<strong>de</strong>les (BLOCKS)<br />
<strong>de</strong> proteínas consi<strong>de</strong>rando sólo pares <strong>de</strong> alineami<strong>en</strong>tos que no divergieran más <strong>de</strong> un<br />
umbral <strong>de</strong>terminado, por ej. un mínimo <strong>de</strong> 62 % <strong>de</strong> i<strong>de</strong>ntidad, para calcular las frecu<strong>en</strong>cias<br />
diana o esperadas <strong>de</strong> la matriz BLOSUM62. Para estos alns. se calcula la razón <strong>en</strong>tre el<br />
número <strong>de</strong> pares p <strong>de</strong> aa observados <strong>en</strong> cada posición p y el número <strong>de</strong> pares p esperados p <strong>de</strong> las<br />
frequ<strong>en</strong>cias globales <strong>de</strong> los aas, expresando los resultados como log10 X λ<br />
• Para evitar sesgos <strong>en</strong> las matrices por sobrerepres<strong>en</strong>tación <strong>de</strong> secu<strong>en</strong>cias muy similares, se<br />
reemplazaron aquellas con similitud > a un umbral dado por un solo repres<strong>en</strong>tante o por un<br />
promedio pon<strong>de</strong>rado (BLOCKS+).<br />
• La matriz BLOSUM62 es la actualm<strong>en</strong>te favorecida para la mayoría <strong>de</strong> las aplicaciones<br />
por su bu<strong>en</strong> r<strong>en</strong>dimi<strong>en</strong>to empírico y ha reemplazado a las matrices <strong>de</strong> Dayhoff (PAM)
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
Alineami<strong>en</strong>to <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -<br />
consejos prácticos para la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong><br />
zona <strong>de</strong><br />
“p<strong>en</strong>umbra”<br />
• A medida que el nivel <strong>de</strong> diverg<strong>en</strong>cia <strong>en</strong>tre pares<br />
<strong>de</strong> proteínas alcanza el valor <strong>de</strong> PAM250<br />
(~ 20% i<strong>de</strong>ntidad), comi<strong>en</strong>za a ser dudosa su<br />
relación l ió d <strong>de</strong> hhomología, l í pudi<strong>en</strong>do di d ttratarse t d <strong>de</strong><br />
secu<strong>en</strong>cias que pres<strong>en</strong>tan cierto grado <strong>de</strong> similitud<br />
por azar, <strong>en</strong> base a composiciones <strong>de</strong><br />
AAs similares <strong>en</strong> ambas secu<strong>en</strong>cias !!!<br />
• Al <strong>en</strong>trar <strong>en</strong> esta zona <strong>de</strong> p<strong>en</strong>umbra, es es<strong>en</strong>cial<br />
consi<strong>de</strong>rar información adicional, particularm<strong>en</strong>te<br />
motivos estructurales, para validar o <strong>de</strong>scartar<br />
una posible relación <strong>de</strong> homología<br />
Distancias observadas<br />
vs. evolutivas (PAM) <strong>en</strong>tre prots.<br />
Difer<strong>en</strong>cia % obs. Dist. evol. PAM<br />
1 1<br />
5 5<br />
10 11<br />
15 17<br />
20 23<br />
30 38<br />
40 56<br />
50 80<br />
60 112<br />
70 159<br />
80<br />
85<br />
246<br />
328 z. p<strong>en</strong>umbra<br />
• A medida que q el nivel <strong>de</strong> diverg<strong>en</strong>cia g<br />
evolutiva <strong>en</strong>tre pares <strong>de</strong> proteínas<br />
increm<strong>en</strong>ta (distancias PAM) disminuye<br />
el número <strong>de</strong> difer<strong>en</strong>cias observadas,<br />
<strong>de</strong>bido a f<strong>en</strong>óm<strong>en</strong>os <strong>de</strong> reversión<br />
(homoplasia). Por tanto, si no se cu<strong>en</strong>ta<br />
con evi<strong>de</strong>ncia estructural, el análisis<br />
filog<strong>en</strong>ético <strong>de</strong> proteínas <strong>de</strong>be restringirse<br />
a aquellas con ≥ 20% <strong>de</strong> i<strong>de</strong>ntidad.<br />
Los alns. tampoco son confiables<br />
Alineami<strong>en</strong>to <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -<br />
consejos prácticos para la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong><br />
1. Para i<strong>de</strong>ntificar <strong>homólogos</strong> lejanos <strong>de</strong> g<strong>en</strong>es codificadores <strong>de</strong> proteínas, comparar siempre<br />
las secu<strong>en</strong>cias <strong>de</strong> los productos p génicos. g Sólo <strong>en</strong> ellos quedan q reflejadas j las constricciones<br />
evolutivas que les permit<strong>en</strong> mant<strong>en</strong>er plegami<strong>en</strong>tos y funcionalida<strong>de</strong>s a lo largo <strong>de</strong> gran<strong>de</strong>s<br />
distancias evolutivas. De ahí la importancia <strong>de</strong> incorporar análisis estructurales para la<br />
<strong>de</strong>terminación <strong>de</strong> homología <strong>en</strong>tre secu<strong>en</strong>cias distantes<br />
2. Las secu<strong>en</strong>cias homólogas compart<strong>en</strong> un ancestro común y por tanto un plegado común.<br />
Dep<strong>en</strong>di<strong>en</strong>do <strong>de</strong> la distancia evolutiva y el camino <strong>de</strong> diverg<strong>en</strong>cia, dos o más <strong>homólogos</strong><br />
pue<strong>de</strong>n compartir muy pocos resíduos estrictam<strong>en</strong>te conservados a nivel <strong>de</strong> la secu<strong>en</strong>cia<br />
primaria. Pero, si se ha podido inferir homología significativa <strong>en</strong>tre A y B, <strong>en</strong>tre B y C<br />
y <strong>en</strong>tre C y D, <strong>en</strong>tonces A y D ti<strong>en</strong><strong>en</strong> que ser también <strong>homólogos</strong> <strong>en</strong>tre ellos, aún<br />
cuando pres<strong>en</strong>t<strong>en</strong> < 20% <strong>de</strong> i<strong>de</strong>ntidad<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
Programación dinámica y la g<strong>en</strong>eración <strong>de</strong><br />
alineami<strong>en</strong>tos <strong>pareados</strong> (globales y locales)<br />
Un alineami<strong>en</strong>to local sólo busca los segm<strong>en</strong>tos con la puntuación más alta.<br />
Se usa por ejemplo <strong>en</strong> el escrutinio <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias <strong>de</strong>bido a que la homología<br />
<strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias frecu<strong>en</strong>tem<strong>en</strong>te existe sólo a nivel <strong>de</strong> ciertos dominios, pero<br />
no a lo largo <strong>de</strong> toda la secu<strong>en</strong>cia (estructura modular <strong>de</strong> proteínas; g<strong>en</strong>es discontínuos<br />
intrones-exones; barajado <strong>de</strong> exones ...).<br />
BLAST y FASTA buscan alineami<strong>en</strong>tos locales con alta puntuacion (HSPs ó high-scoring pairs)<br />
Alineami<strong>en</strong>to local óptimo <strong>de</strong>l regulador <strong>de</strong> conductancia transmembranal <strong>de</strong> fibrosis cística<br />
<strong>de</strong> humano (1480 resíduos, SWISS-PROT acc. P13569) y la proteína transportadora <strong>de</strong> Ni<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>te <strong>de</strong> ATP <strong>de</strong> E. coli (253 resíduos, SWISS-PROT acc. P33593).<br />
La matriz <strong>de</strong> puntuación o pon<strong>de</strong>ración (“scoring matrix) empleada fue BLOSUM62,<br />
con costo <strong>de</strong> gaps afines <strong>de</strong> –(11 + k). La puntuación <strong>de</strong>l alineami<strong>en</strong>to local es <strong>de</strong> 89,<br />
usando el algoritmo <strong>de</strong> Smith-Waterman.<br />
Estadísticos <strong>de</strong> Karlin-Altschul <strong>de</strong> similitud <strong>en</strong>tre secu<strong>en</strong>cias:<br />
frecu<strong>en</strong>cias diana, lambda y <strong>en</strong>tropía relativa<br />
Los atributos más importantes <strong>de</strong> una matriz <strong>de</strong> sustitución son sus frecu<strong>en</strong>cias esperadas<br />
o diana implícitas para cada par <strong>de</strong> aa <strong>en</strong> sus respectivos scores crudos. Estas frecu<strong>en</strong>cias<br />
esperadas repres<strong>en</strong>tan el mo<strong>de</strong>lo evolutivo subyac<strong>en</strong>te.<br />
Los scores que han sido re-escalados y redon<strong>de</strong>ados (scores repres<strong>en</strong>tados <strong>en</strong> la matriz) son<br />
los scores crudos sa,b. Para convertirlos a un score normalizado (log-odd score original)<br />
t<strong>en</strong>emos que q mutiplicarlos p por p λ, , una constante específica p para p cada matriz.<br />
λ es aprox. igual al inverso <strong>de</strong>l factor <strong>de</strong> escalami<strong>en</strong>to (c ).<br />
por tanto, para <strong>de</strong>spejar λ necesitamos f af b y <strong>en</strong>contrar el valor <strong>de</strong> λ para que la suma <strong>de</strong><br />
las frecu<strong>en</strong>cias diana implícitas valga 1 (la suma <strong>de</strong> todas las frecu<strong>en</strong>cias ti<strong>en</strong>e que ser 1).<br />
n a<br />
n a<br />
∑∑<br />
pab = ∑∑<br />
a= 1 b=1<br />
a= 1 b=1<br />
pab = faf e<br />
b<br />
λ sab = score normalizado<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 6<br />
s (a,b) =<br />
1<br />
λ<br />
p ab<br />
log<br />
fa fb faf e<br />
b λ sab = 1<br />
Una vez calculada λ, se usa para calcular el valor <strong>de</strong> expectación (E) <strong>de</strong> cada HSP<br />
(High Scoring Pair) <strong>en</strong> el reporte <strong>de</strong> una <strong>búsqueda</strong> BLAST<br />
Dado que las f a f b <strong>de</strong> los resíduos <strong>de</strong> algunas proteínas difier<strong>en</strong> mucho <strong>de</strong> las frecu<strong>en</strong>cias <strong>de</strong><br />
resíduos empleadas para calcular las matrices PAM y BLOSUM, versiones reci<strong>en</strong>tes <strong>de</strong><br />
BLASTP y PSI-BLAST incorporan una “composition-based λ” que es “hit-específica”
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
BLAST y estadísticos <strong>de</strong> Karlin-Altschul para alineami<strong>en</strong>tos locales<br />
Karlin, S., and Altschul, S. F. 1990. Methods for assessing the statistical significance of molecular<br />
sequ<strong>en</strong>ce features by using g<strong>en</strong>eral scoring schemes. Proc Natl Acad Sci U S A 87: 2264-268.<br />
• La implem<strong>en</strong>tación <strong>en</strong> BLAST <strong>de</strong> los estadísticos <strong>de</strong> Karlin-Altschul permit<strong>en</strong> <strong>de</strong>tectar<br />
pot<strong>en</strong>ciales p <strong>homólogos</strong> g <strong>en</strong> bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias se basa <strong>en</strong> la cuantificación <strong>de</strong><br />
la similitud <strong>en</strong>tre pares <strong>de</strong> secu<strong>en</strong>cias y la <strong>de</strong>terminación <strong>de</strong> la significancia<br />
estadística <strong>de</strong> dicho parecido.<br />
Variantes BLAST según la secu<strong>en</strong>cia problema y<br />
la base <strong>de</strong> datos a interrogar<br />
programa sec sec. problema base <strong>de</strong> datos<br />
• blastp proteína proteína<br />
• Blastn nucleótido nucleótido<br />
• blastx nucl. Trad x6 marcos proteína<br />
• tblastn proteína nucl. tradx6m<br />
• tblastx nucl. tradx6m nucl. Tradx6m<br />
• psi-blast proteína (perfil) proteína<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
BLAST y Estadísticos <strong>de</strong> Karlin-Altschul para alineami<strong>en</strong>tos locales<br />
Karlin, S., and Altschul, S. F. 1990. Methods for assessing the statistical significance of molecular<br />
sequ<strong>en</strong>ce features by using g<strong>en</strong>eral scoring schemes. Proc Natl Acad Sci U S A 87: 2264-268.<br />
• La implem<strong>en</strong>tación <strong>en</strong> BLAST <strong>de</strong> los estadísticos <strong>de</strong> Karlin-Altschul permit<strong>en</strong> <strong>de</strong>tectar<br />
pot<strong>en</strong>ciales <strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias se basa <strong>en</strong> la cuantificación <strong>de</strong><br />
l la similitud l d <strong>en</strong>tre pares <strong>de</strong> d secu<strong>en</strong>cias y l la d<strong>de</strong>terminación ó d <strong>de</strong> l la significancia f<br />
estadística <strong>de</strong> dicho parecido.<br />
Esta ecuación indica que el número <strong>de</strong> alineami<strong>en</strong>tos espera-<br />
- λS<br />
E = k m n e dos por azar (E ) durante una <strong>búsqueda</strong> <strong>de</strong> similitud <strong>en</strong> una<br />
base <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias está <strong>en</strong> función <strong>de</strong>:<br />
el tamaño <strong>de</strong>l espacio <strong>de</strong> <strong>búsqueda</strong> (m, (m n n ) ), el score normalizado<br />
(λS ) <strong>de</strong>l HSP y una constante <strong>de</strong> valor pequeño (k )<br />
E Describe el ruido <strong>de</strong> fondo por azar pres<strong>en</strong>te <strong>en</strong> matches <strong>de</strong> dos secs.<br />
m = número <strong>de</strong> símbolos <strong>en</strong> la secu<strong>en</strong>cia problema<br />
n = número <strong>de</strong> símbolos <strong>en</strong> la base <strong>de</strong> datos<br />
k ≈ 0.1 constante <strong>de</strong> ajuste para consi<strong>de</strong>rar HSPs altam<strong>en</strong>te correlacionados<br />
Aquí van una o múltiples secs.<br />
<strong>de</strong> prot. <strong>en</strong> formato FASTA*<br />
Interfaz web NCBI BLAST<br />
(blastp: Proteína)<br />
Elegir g la base <strong>de</strong> datos a interrogar g<br />
>mi proteína problema <strong>en</strong> formato FASTA*<br />
MAITKDDILEAVANMSVMEVVELVEAMEEKFGVSAAAVAVAGPAGDAGAA<br />
GEEQTEFDVVLTGAGDNKVAAIKAVRGATGLGLKEAKSAVESAPFTLKEG<br />
VSKEEAETLANELKEAGIEVEVK<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 7
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />
• El algoritmo BLAST<br />
El espacio <strong>de</strong> <strong>búsqueda</strong> <strong>en</strong>tre 2 secs. pue<strong>de</strong> ser visualizado como una gráfica con una sec.<br />
<strong>en</strong> cada eje. Sobre esta gráfica po<strong>de</strong>mos visualizar alineami<strong>en</strong>tos como una secu<strong>en</strong>cia<br />
<strong>de</strong> pares <strong>de</strong> letras con o sin gaps. [Score = sumatoria <strong>de</strong> scores individuales pab –costogaps].<br />
BLAST no explora p todo el espacio p <strong>de</strong> <strong>búsqueda</strong> q <strong>en</strong>tre dos secu<strong>en</strong>cias (es ( un heurístico). )<br />
sec. 2<br />
Espacio<br />
<strong>de</strong> <strong>búsqueda</strong><br />
alineami<strong>en</strong>tos<br />
sec. 1<br />
alineami<strong>en</strong>tos<br />
con gaps<br />
BLAST reporta todos los alns. <strong>pareados</strong><br />
(HSPs) estadísticam<strong>en</strong>te significativos<br />
<strong>en</strong>contrados <strong>en</strong> su <strong>búsqueda</strong> heurística <strong>de</strong>l<br />
espacio <strong>de</strong> homología. Hay que <strong>en</strong>t<strong>en</strong><strong>de</strong>r que <strong>en</strong><br />
las <strong>búsqueda</strong>s BLAST siempre se hace un<br />
compromiso <strong>en</strong>tre velocidad y s<strong>en</strong>sibilidad.<br />
L La velocidad l id d se gana al l no explorar l ttoda d l la<br />
matriz, perdiéndose s<strong>en</strong>sibilidad.<br />
El algoritmo heurístico <strong>de</strong> BLAST sigue tres niveles <strong>de</strong> reglas para refinar secu<strong>en</strong>cialm<strong>en</strong>te<br />
HSPs (High Scoring Pairs) pot<strong>en</strong>ciales: <strong>en</strong>semillado, ext<strong>en</strong>sión y evaluación. Estos pasos<br />
conforman una estrategia <strong>de</strong> refinami<strong>en</strong>to secu<strong>en</strong>cial que le permite a BLAST muestrear<br />
efici<strong>en</strong>tem<strong>en</strong>te el espacio <strong>de</strong> <strong>búsqueda</strong> sin per<strong>de</strong>r tiempo <strong>en</strong> regiones <strong>de</strong> escasa similitud<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />
• Ensemillado (W, T, A)<br />
El valor a<strong>de</strong>cuado <strong>de</strong> T <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> los valores <strong>en</strong> la tabla <strong>de</strong> sustitución empleada, como <strong>de</strong>l<br />
balance <strong>de</strong>seado <strong>en</strong>tre velocidad y s<strong>en</strong>sibilidad. A valores más altos <strong>de</strong> T, m<strong>en</strong>os palabras son<br />
<strong>en</strong>contradas, reduci<strong>en</strong>do el espacio <strong>de</strong> <strong>búsqueda</strong>. Ello hace las <strong>búsqueda</strong>s más rápidas, a costa<br />
<strong>de</strong> increm<strong>en</strong>tar el riesgo <strong>de</strong> per<strong>de</strong>r algún alineami<strong>en</strong>to significativo<br />
significativo.<br />
T = 12 T = 14<br />
El tamaño <strong>de</strong> palabra W es otro parámetro que controla el número <strong>de</strong> word hits. W =1 producirá<br />
más hits que W = 5. Cuanto más chico sea W más s<strong>en</strong>sible y l<strong>en</strong>ta la <strong>búsqueda</strong>.<br />
La interrelación <strong>en</strong>tre W, T y la matriz <strong>de</strong> sustitución empleada es crítica, y su selección juiciosa<br />
es la mejor manera <strong>de</strong> controlar el balance <strong>en</strong>tre velocidad y s<strong>en</strong>sibilidad <strong>de</strong> BLAST<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />
• Ensemillado (W, T, A)<br />
BLAST asume que los alineami<strong>en</strong>tos significativos conti<strong>en</strong><strong>en</strong> “palabras” <strong>en</strong> común (serie <strong>de</strong><br />
letras). BLAST primero <strong>de</strong>termina la localización <strong>de</strong> todas las palabras comunes (“word<br />
hits”). Sólo las regiones que conti<strong>en</strong><strong>en</strong> word hits serán usados como semillas <strong>de</strong><br />
alineami<strong>en</strong>tos. Así se reduce mucho el espacio a explorar.<br />
Palabras <strong>en</strong>contradas. Vecindario <strong>de</strong> RDG Para T=14<br />
sec. 1 Palabra Score (Blosum62)<br />
• Descomposición <strong>en</strong> palabras <strong>de</strong> la<br />
secu<strong>en</strong>cia problema y <strong>búsqueda</strong><br />
RDG<br />
KGD<br />
17<br />
14<br />
“Sinónimos“ aceptables<br />
<strong>de</strong> sinónimos<br />
QGD 13<br />
MPRDG<br />
MPR<br />
PRD<br />
RDG<br />
secu<strong>en</strong>cia y<br />
palabras <strong>de</strong><br />
3 letras<br />
RGE<br />
EGD<br />
...<br />
13<br />
12<br />
“Sinónimos“<br />
no aceptables<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 8<br />
sec. 2<br />
word hits<br />
BLAST usa el concepto <strong>de</strong> vecindad para <strong>de</strong>finir<br />
un word hit. Esta conti<strong>en</strong>e a la palabra misma<br />
y todas las <strong>de</strong>más cuyo score sea al m<strong>en</strong>os tan<br />
gran<strong>de</strong> como T cuando se compara con la matriz<br />
<strong>de</strong> pesado (sinónimos). T correspon<strong>de</strong> a un umbral<br />
mínimo <strong>de</strong> score (threshold) que han <strong>de</strong> t<strong>en</strong>er las<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />
• Ensemillado (W, T, A)<br />
Las palabras ti<strong>en</strong><strong>de</strong>n a agruparse <strong>en</strong> clusters <strong>en</strong> algunas regiones <strong>de</strong>l espacio. BLAST usa<br />
el two-hit algorithm para seleccionar regiones con al m<strong>en</strong>os dos palabras agrupadas <strong>de</strong>ntro<br />
<strong>de</strong> una distancia <strong>de</strong>finida sobre la diagonal. De esta manera se eliminan palabras sin significancia,<br />
que carec<strong>en</strong> <strong>de</strong> vecinos. Cuanto más gran<strong>de</strong> la distancia impuesta al algoritmo (A),<br />
más palabras aisladas serán ignoradas, ignoradas reduciéndose consecu<strong>en</strong>tem<strong>en</strong>te el espacio <strong>de</strong><br />
<strong>búsqueda</strong>, increm<strong>en</strong>tándose la velocidad a costa <strong>de</strong> per<strong>de</strong>r s<strong>en</strong>sibilidad.<br />
cluster <strong>de</strong><br />
palabras<br />
palabras<br />
aisladas<br />
• Detalles <strong>de</strong> implem<strong>en</strong>tación: BLASTN vs. BLASTP<br />
1. En NCBI-BLASTN las semillas son siempre palabras<br />
idénticas. T no es usado. Para hacer BLASTN<br />
más rápido se increm<strong>en</strong>ta W, par hacerlo más s<strong>en</strong>sible<br />
se disminuye W. El valor min. <strong>de</strong> W = 7. El<br />
algoritmo <strong>de</strong> two-hit two hit tampoco es usado por BLASTN<br />
ya que hits <strong>de</strong> palabras largas idénticas son raros.<br />
2. En BLASTP (y otros programas basados <strong>en</strong> aa) se usan valores <strong>de</strong> W <strong>de</strong> 2 ó 3. Para hacer<br />
las <strong>búsqueda</strong>s más rápidas W = 3 y T = 999, que elimina todas las palabras aisladas. La distancia<br />
(A ) <strong>en</strong>tre vecinos <strong>de</strong>l algoritmo two-hit es por <strong>de</strong>fecto = 40 aas.<br />
Las palabras que ocurr<strong>en</strong> con una frecu<strong>en</strong>cia significativam<strong>en</strong>te mayor que la esperada<br />
por azar (ej: FFF) correspon<strong>de</strong>n frecu<strong>en</strong>tem<strong>en</strong>te a regiones <strong>de</strong> baja complejidad (rbc)<br />
que g<strong>en</strong>eralm<strong>en</strong>te son <strong>en</strong>mascaradas. El uso <strong>de</strong> “soft masking” evita el <strong>en</strong>semillado <strong>en</strong> rbc
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool – ¿cómo funciona?<br />
• Ext<strong>en</strong>sión (X)<br />
Una vez que el espacio <strong>de</strong> <strong>búsqueda</strong> ha sido <strong>en</strong>semillado, pue<strong>de</strong>n g<strong>en</strong>erarse alineami<strong>en</strong>tos<br />
<strong>pareados</strong> a partir <strong>de</strong> semillas individuales. La ext<strong>en</strong>sión acontece <strong>en</strong> ambas direcciones.<br />
alineami<strong>en</strong>to<br />
6<br />
score<br />
Pepito<br />
ext<strong>en</strong>sión<br />
cortar hasta<br />
el valor máximo<br />
longitud <strong>de</strong> la ext<strong>en</strong>sión<br />
X = 4<br />
score <strong>de</strong><br />
la caída<br />
En el algoritmo <strong>de</strong> Smith-Waterman los puntos terminales<br />
<strong>de</strong> un aln. local son <strong>de</strong>terminados <strong>de</strong>spués <strong>de</strong><br />
haber evaluado todo el espacio <strong>de</strong> <strong>búsqueda</strong> <strong>búsqueda</strong>.<br />
BLAST, al ser un algoritmo heurístico, ti<strong>en</strong>e un mecanismo<br />
para no t<strong>en</strong>er que explorar todo el espacio <strong>de</strong><br />
<strong>búsqueda</strong> y sólo exti<strong>en</strong><strong>de</strong> una semilla hasta un<br />
<strong>de</strong>terminado punto. Para ello se requiere <strong>de</strong> una<br />
variable X, que repres<strong>en</strong>ta cuánto se permite caer<br />
al score <strong>de</strong>l alineami<strong>en</strong>to <strong>de</strong>spués <strong>de</strong> haber pasado<br />
por un máximo. El algoritmo lleva la cu<strong>en</strong>ta <strong>de</strong> los<br />
scores <strong>de</strong>l alineami<strong>en</strong>to y <strong>de</strong> caída <strong>en</strong> base a la matriz<br />
<strong>de</strong> sustitución y <strong>de</strong> p<strong>en</strong>alización p <strong>de</strong> gaps g p<br />
Ej. <strong>de</strong>l control <strong>de</strong> ext<strong>en</strong>sión usando +1/-1 para<br />
match y mismatch respect., X = 4, (no gaps)<br />
Pepito Pérez se fue a pescar al lago<br />
Pepito López no vio a Arturo <strong>en</strong> casa<br />
123456 54345 43 210 1 0 ...
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />
• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar<br />
3. Resúm<strong>en</strong>es <strong>de</strong> 1 linea. Indican el nombre <strong>de</strong> la sec. junto con el score más alto<br />
y E value más bajo <strong>en</strong>contrado para un HSP o grupo <strong>de</strong> HSPs<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />
G<strong>en</strong>e Info<br />
Structures<br />
• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar<br />
5. Pie <strong>de</strong> página. Reporta los parámetros <strong>de</strong> <strong>búsqueda</strong> y varios estadísticos. Los más<br />
importantes son: DB, T, E y la matriz <strong>de</strong> sustitución o esquema <strong>de</strong> puntuación (match/<br />
missmatch) y gap p<strong>en</strong>alties empleados<br />
matriz <strong>de</strong> sustitución<br />
gap p<strong>en</strong>alties<br />
neighborhood word threshold score<br />
two-hit distance<br />
ext<strong>en</strong>sion att<strong>en</strong>uation parameter<br />
aln. threshold (ungapped)<br />
aln. threshold (gapped)<br />
- λS<br />
E = k m n e<br />
E value umbral usado = 10; HSPs con gap<br />
E value umbral usado = 10; HSPs no gap<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />
• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar<br />
4. <strong>Alineami<strong>en</strong>tos</strong>. Repres<strong>en</strong>tan la parte más voluminosa <strong>de</strong>l reporte. A<strong>de</strong>más <strong>de</strong> la<br />
información estadística, indica las coor<strong>de</strong>nadas <strong>de</strong> inicio y fin <strong>de</strong> las secu<strong>en</strong>cias query<br />
y subject. Si la <strong>búsqueda</strong> involucra secu<strong>en</strong>cias <strong>de</strong> DNA, también se indica<br />
direccionalidad <strong>de</strong> las hebras Q/S (plus/plus; p p plus/minus).<br />
p<br />
normalized score<br />
raw score<br />
BLAST: Basic Local Alignm<strong>en</strong>t Search Tool<br />
• RESUMEN <strong>de</strong> gapped-BLAST<br />
• BLAST es un progrma para <strong>búsqueda</strong> <strong>de</strong> secu<strong>en</strong>cias similares a una sec. problema <strong>en</strong> bases<br />
<strong>de</strong> datos. BLAST pue<strong>de</strong> ser usado <strong>en</strong> línea o localm<strong>en</strong>te.<br />
•Exist<strong>en</strong> diversos programas BLAST para comparar todas las combinaciones posibles <strong>de</strong><br />
secs. problema (aa y nt) con nt o aa DBs. (BLASTN, BLASTP, BLASTX, TBLASTN,<br />
TBLASTX) a<strong>de</strong>más d á d <strong>de</strong> variantes i t d <strong>de</strong> ééstos t que b buscan similitu<strong>de</strong>s i ilit d <strong>en</strong> di diversas DB DBs<br />
•BLAST es una versión heurística <strong>de</strong>l algoritmo <strong>de</strong> Smith-Waterman que <strong>en</strong>cu<strong>en</strong>tra<br />
matches locales cortos (palabras) que int<strong>en</strong>ta ext<strong>en</strong><strong>de</strong>r <strong>en</strong> forma <strong>de</strong> alineami<strong>en</strong>tos <strong>pareados</strong><br />
• El nuevo algoritmo gapped-BLASTP requiere al m<strong>en</strong>os <strong>de</strong> dos palabras o hits no solapados<br />
con un score <strong>de</strong> al m<strong>en</strong>os T, ubicados a una distancia máxima A el uno <strong>de</strong>l otro, para invocar<br />
una ext<strong>en</strong>sión <strong>de</strong>l segundo hit. Si el HSP g<strong>en</strong>erado ti<strong>en</strong>e un score normalizado con un valor<br />
<strong>de</strong> al m<strong>en</strong>os Su (normalized ungapped score) bits, se dispara una ext<strong>en</strong>sión con gap<br />
• BLAST reporta a<strong>de</strong>más información relativa a la significancia estadística <strong>de</strong> los HSPs<br />
<strong>en</strong>contrados. El estadístico fundam<strong>en</strong>tal es el valor <strong>de</strong> expectancia E (E-value), que indica<br />
el número <strong>de</strong> falsos positivos que cabe <strong>en</strong>contrar, dada la longitud <strong>de</strong> la secu<strong>en</strong>cia problema,<br />
el tamaño <strong>de</strong> la base <strong>de</strong> datos exprolada, y el score normalizado <strong>de</strong>l HSP, tal y como indica<br />
la ecuación <strong>de</strong> Karlin-Altschul<br />
- λS<br />
E = k m n e<br />
• Si bi<strong>en</strong> no existe una teoría estadística para evaluar explícitam<strong>en</strong>te la significancia <strong>de</strong> alns.<br />
con gaps (no se pue<strong>de</strong> estimar ) éstas pue<strong>de</strong>n obt<strong>en</strong>erse a partir <strong>de</strong> simulaciones in silico<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 10
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
PSI-BLAST<br />
• Material suplem<strong>en</strong>tario, optativo<br />
I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />
• matrices <strong>de</strong> pon<strong>de</strong>ración sitio específicas (Position Specific Scoring Matrices PSSMs)<br />
Se construy<strong>en</strong> usando algoritmos <strong>de</strong> ca<strong>de</strong>nas ocultas <strong>de</strong> Markov (HMMs). En es<strong>en</strong>cia, para un<br />
alineami<strong>en</strong>to múltiple se consi<strong>de</strong>ran tanto las posiciones como las frecu<strong>en</strong>cias <strong>de</strong> los estados<br />
<strong>de</strong> caracter observados para cada sitio. Residuos muy conservados <strong>en</strong> una <strong>de</strong>terminada po-<br />
sición recib<strong>en</strong> un score positivo muy alto, alto mi<strong>en</strong>tras que los raros <strong>en</strong> dicha posición recib<strong>en</strong> un<br />
score alto negativo. Resíduos que ocupan posiciones muy variables recib<strong>en</strong> scores próximos<br />
a cero.<br />
12345678910<br />
Ejemplo <strong>de</strong> una PSSM calculada para los 10 primeros resíduos <strong>de</strong> un<br />
alineami<strong>en</strong>to múltiple <strong>de</strong> proteínas HoxA <strong>de</strong> eucariontes. Sólo se<br />
muestra una pequeña parte <strong>de</strong> las secu<strong>en</strong>cias incluídas <strong>en</strong> el alineami<strong>en</strong>to<br />
múltiple usado para calcular la PSSM<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />
La <strong>búsqueda</strong>s <strong>de</strong> secu<strong>en</strong>cias distantes <strong>en</strong> bases <strong>de</strong> datos mediante matrices <strong>de</strong> pon<strong>de</strong>ración<br />
sitio específicas (también conocidas como perfiles o motivos) son g<strong>en</strong>eralm<strong>en</strong>te más a<strong>de</strong>cuadas<br />
para la i<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> con bajo nivel <strong>de</strong> i<strong>de</strong>ntidad que el BLASTP<br />
estándar<br />
PSI-BLAST (Position-Specific p Iterated BLAST) es una modificación <strong>de</strong> BLASTP que<br />
permite la <strong>búsqueda</strong> <strong>de</strong> <strong>homólogos</strong> mediante perfiles g<strong>en</strong>erados automáticam<strong>en</strong>te a partir<br />
<strong>de</strong> alineami<strong>en</strong>tos múltiples <strong>de</strong>rivados <strong>de</strong> los HSPs <strong>en</strong>contrados por BLASTP.<br />
• Pasos que sigue el algoritmo <strong>de</strong> PSI-BLAST<br />
1. Búsqueda <strong>de</strong> <strong>homólogos</strong> <strong>de</strong> una sec. problema mediante BLASTP<br />
2. . Construcción onstrucc ón <strong>de</strong> un aln. múltiple múlt ple a partir part r <strong>de</strong> los HSPs HS s y construcción construcc ón <strong>de</strong> un perfil perf l<br />
3. El programa compara el perfil construido con la base <strong>de</strong> datos<br />
4. PSI-BLAST <strong>de</strong>termina la significancia estadística <strong>de</strong> los alns. locales <strong>en</strong>contrados<br />
5. PSI-BLAST pue<strong>de</strong> repetir o iterar los pasos a partir <strong>de</strong>l 2. para construir perfiles<br />
cada vez más específicos con las secu<strong>en</strong>cias nuevas <strong>en</strong>contradas <strong>en</strong> cada iteración<br />
hasta llegar a la converg<strong>en</strong>cia<br />
I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 11
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />
. . .<br />
I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />
• Aspectos a cuidar al calcular PSSMs<br />
1.- Hay que evitar a toda costa incluir secu<strong>en</strong>cias no homólogas. Revisar alineami<strong>en</strong>tos<br />
<strong>pareados</strong>, estructura <strong>de</strong> dominios y no fiarse <strong>de</strong> las anotaciones. Muchas secu<strong>en</strong>cias<br />
están mal anotadas !!!<br />
Utilizar:<br />
http://www.ncbi.nlm.nih.gov/COG/<br />
http://psort.hgc.jp/<br />
http://www.predictprotein.org/newwebsite/<br />
http://www.ch.embnet.org/software/TMPRED_form.html<br />
http://www.expasy.org/<br />
...<br />
para caracterizar a las proteínas dudosas ...<br />
2.- Eliminar regiones <strong>de</strong> baja complejidad.<br />
Usar SEG y COILS<br />
http://www.ch.embnet.org/software/COILS_form.html<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
I<strong>de</strong>ntificación <strong>de</strong> <strong>homólogos</strong> lejanos mediante PSI-BLAST<br />
PRÁCTICAS: apr<strong>en</strong>di<strong>en</strong>do a usar PSI-BLAST<br />
para i<strong>de</strong>ntificar <strong>homólogos</strong> lejanos<br />
1) Descarga la secu<strong>en</strong>cia Q57997 y haz un análisis <strong>de</strong> PSI-BLAST. Preguntas:<br />
- Qué tipo <strong>de</strong> función podría t<strong>en</strong>er esta proteína?<br />
- Cuantos <strong>homólogos</strong> <strong>en</strong>contraste <strong>en</strong> la primera <strong>búsqueda</strong> (BLASTP)<br />
- Cuantos ciclos o iteraciones tuviste que correr hasta la converg<strong>en</strong>cia?<br />
Cuantos <strong>homólogos</strong> pescaste?<br />
2) Compara estos resultados con el análisis <strong>de</strong>scrito <strong>en</strong> el tutorial <strong>de</strong> PSI-BLAST<br />
que <strong>en</strong>contrarás <strong>en</strong> la página <strong>de</strong>l NCBI bajo:<br />
http://www.ncbi.nlm.nih.gov/Education/BLASTinfo/psi1.html<br />
3) Ve a la página <strong>de</strong> nuestro curso y haz los ejercicios propuestos que <strong>en</strong>contrarás <strong>en</strong><br />
el directorio Ejercicios/BLAST<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 12
<strong>Tema</strong> 2: <strong>Alineami<strong>en</strong>tos</strong> <strong>pareados</strong> y <strong>búsqueda</strong> <strong>de</strong><br />
<strong>homólogos</strong> <strong>en</strong> bases <strong>de</strong> datos mediante BLAST<br />
Consejos finales para el uso efici<strong>en</strong>te <strong>de</strong> BLAST<br />
0. Antes <strong>de</strong> iniciar <strong>búsqueda</strong>s con BLAST, hay que escanear las secs. para <strong>de</strong>tectar la pres<strong>en</strong>cia<br />
<strong>de</strong> múltiples dominios, reg. repetitivas, motivos y péptidos señal usando las herrami<strong>en</strong>tas<br />
o servidores apropiados (SMART, PROSITE, PFAM, CDD, PSORT ...)<br />
1. Para <strong>búsqueda</strong>s <strong>de</strong> secu<strong>en</strong>cias homólogas distantes usa AAs y PSI-BLAST siempre que<br />
sea posible.<br />
2. PSSMs. Usa todos llos criterios adicionales l que consi<strong>de</strong>res relevantes l para inferir<br />
la homología <strong>de</strong> manera certera. No te fíes <strong>de</strong> las anotaciones, las hay erróneas. También<br />
convi<strong>en</strong>e ser crítico con las proteínas hipotéticas, puesto que su exist<strong>en</strong>cia no se<br />
ha <strong>de</strong>mostrado experim<strong>en</strong>talm<strong>en</strong>te y con frecu<strong>en</strong>cia pres<strong>en</strong>tan extremos N terminales<br />
más largos que los <strong>de</strong> las proteínas <strong>de</strong> verdad (problema <strong>de</strong> pre<strong>de</strong>cir a<strong>de</strong>cuadam<strong>en</strong>te<br />
el inicio <strong>de</strong> traducción).<br />
3. Ajusta el valor <strong>de</strong> los parámetros <strong>de</strong> <strong>búsqueda</strong> <strong>de</strong> manera a<strong>de</strong>cuada al problema a resolver.<br />
El valor <strong>de</strong> los parámetros <strong>de</strong>termina lo que pue<strong>de</strong>s <strong>en</strong>contrar. Así por ejemplo<br />
<strong>búsqueda</strong>s q con NCBI-BLASTN con valores por p <strong>de</strong>fecto <strong>de</strong> match (+1) y mismatch (-3)<br />
ti<strong>en</strong><strong>en</strong> una frecu<strong>en</strong>cia diana <strong>de</strong> 99% <strong>de</strong> i<strong>de</strong>ntidad. No busques g<strong>en</strong>es <strong>de</strong> humano y nemátodo<br />
con NCBI-BLASTN...<br />
4. Haz controles, especialm<strong>en</strong>te cuando se trate <strong>de</strong> similitu<strong>de</strong>s <strong>en</strong> la zona <strong>de</strong> p<strong>en</strong>umbra.<br />
Así por ejemplo pue<strong>de</strong>s hacer un “barajado” <strong>de</strong> la secu<strong>en</strong>cia problema a mano o<br />
mejor aún, usando un s<strong>en</strong>cillo script <strong>de</strong> Perl. Si <strong>de</strong>spués <strong>de</strong> barajar los caracteres <strong>de</strong> tu<br />
secu<strong>en</strong>cia sigues <strong>en</strong>contrando hits similares <strong>en</strong> la zona <strong>de</strong> p<strong>en</strong>umbra, el parecido se <strong>de</strong>be<br />
simplem<strong>en</strong>te a un sesgo composicional compartido <strong>en</strong>tre ambas secs. y no a homología<br />
Introducción a la Filoinformática, Universidad <strong>de</strong> Sevilla,<br />
13-17 Junio 2011<br />
URLs <strong>de</strong> algunas <strong>de</strong> las principales bases <strong>de</strong> datos <strong>de</strong> secu<strong>en</strong>cias<br />
(DNA, Prot.), familias/dominios/motivos <strong>de</strong> proteínas y estructuras<br />
Blocks and Blocks+ : http://blocks http://blocks.fhcrc.org/ fhcrc org/<br />
DBJ : http://www.ddbj.nig.ac.jp/<br />
EMBL : http://www.ebi.ac.uk/embl/<br />
Entrez : http://www.ncbi.nlm.nih.gov/Entrez/<br />
G<strong>en</strong>Bank : http://www.ncbi.nlm.nih.gov/G<strong>en</strong>bank/<br />
InterPro : http://www.ebi.ac.uk/interpro/<br />
MEDLINE : http://www.ncbi.nlm.nih.gov/<strong>en</strong>trez/query.fcgi?db=PubMed<br />
PDB : http://www.rcsb.org/pdb/<br />
PIR : http://www-nbrf.georgetown.edu/<br />
p g g<br />
Pfam : http://www.sanger.ac.uk/Pfam/<br />
PRINTS : http://www.bioinf.man.ac.uk/dbbrowser/PRINTS/PRINTS.html<br />
ProDom : http://protein.toulouse.inra.fr/prodom.html<br />
PROSITE :http://www.expasy.ch/prosite/prosite.html<br />
SRS "mother" server :http://srs.ebi.ac.uk/<br />
SWISS-PROT and TrEMBL at EBI : http://www.ebi.ac.uk/swissprot/<br />
© Pablo Vinuesa 2011, vinuesa@ccg.unam.mx;<br />
http://www.ccg.unam.mx/~vinuesa/filoinfo_us11/ 13