12.07.2015 Views

Alineamiento de secuencias biológicas (pdf).

Alineamiento de secuencias biológicas (pdf).

Alineamiento de secuencias biológicas (pdf).

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Alineamiento</strong> <strong>de</strong> SecuenciasINTRODUCCIÓN A LA BIOINFORMÁTICA2012Paulino Gomez-PuertasBioinformática.


¿ Por qué comparar <strong>secuencias</strong> ?¿ Cómo comparar <strong>secuencias</strong> ?Paulino Gomez-PuertasBioinformática.


¿ Por qué comparar <strong>secuencias</strong> ?Paulino Gomez-PuertasBioinformática.


¿ Por qué comparar <strong>secuencias</strong> ?ATPsubunitMolecular chaperoninGroELheptamer(Dr Jianpeng Ma, Harvard Univ.)Paulino Gomez-PuertasBioinformática.


¿ Por qué comparar <strong>secuencias</strong> ?Cambios en las<strong>secuencias</strong> :GAT GCATAGATG GAC CCA CGT TCG GAGMDPRSE…DA *• Reemplazo puntual– Sinónimos/No-Sinónimos• Inserción y Delección(InDels)– Afecta pautas <strong>de</strong>lectura• Traslocación• DuplicaciónThe Standard Co<strong>de</strong>AAA K ACA T AGA R ATA IAAC N ACC T AGC S ATC IAAG K ACG T AGG R ATG MAAT N ACT T AGT S ATT ICAA Q CCA P CGA R CTA LCAC H CCC P CGC R CTC LCAG Q CCG P CGG R CTG LCAT H CCT P CGT R CTT LGAA E GCA A GGA G GTA VGAC D GCC A GGC G GTG VGAG E GCG A GGG G GTG VGAT D GCT A GGT G GTT VTAA . TCA S TGA . TTA LTAC Y TCC S TGC C TTC FTAG . TCG S TGG W TTG LTAT Y TCT S TGT C TTT FPaulino Gomez-PuertasBioinformática.


¿ Por qué comparar <strong>secuencias</strong> ?Hace mucho tiempo…ACCGTACGGTTAAACGGTACGGTTAAACCGTCCGGTTAAACCGT-CGGTTAACCCGTACGGTTAAACCCGTACGGTTAAACCG-CCGGTTAAACCCTCCGGTTAAACCGTCCGGTTCCCAATCCGTCCGGTTAAACCGTCCGCTTAAEtc, etc…tiempoxn especiesACCGTCCGGTTGAACCGTCGTAAACCTCTAGTTAAGGAGTACGGTTAAACCGTTCCGAACCGTCCCGTTAAACCGTACGGTTATAAACCGTACGGTTAAACCTGCAATTAGCCGTACCGTGGTCCAACCGTACCCCGGTTAAMo<strong>de</strong>lo evolutivo: cambio al azar + selección natural(F. Abascal, 2008)Paulino Gomez-PuertasBioinformática.


¿ Por qué comparar <strong>secuencias</strong> ?Paulino Gomez-PuertasBioinformática.


Cambio al azar + selección natural + duplicaciones génicasSuperfamilia: grupo <strong>de</strong> proteínascon un origen común.Familia / Subfamilia: grupo <strong>de</strong>proteínas con una función común(jerarquía subjetiva).familia rasproteínas ATP/GTP binding(superfamilia)factores <strong>de</strong>elongaciónproteínas GTPbindingrasrab(F. Abascal, 2008)ras (H. sapiens)ras2 (H. sapiens)ras (M. musculus)ras (C. elegans)Subfamilia rasproteínas ATPbindingrab (H. sapiens)rab (M. musculus)rab (C. elegans)Subfamilia rabDos formas <strong>de</strong>representarloPaulino Gomez-PuertasBioinformática.


Homólogos: ortólogos y parálogos.Ortólogos: genes que comparten elúltimo ancestro común y cuyadivergencia se <strong>de</strong>be a laespeciación.Los mismos genes en distintasespecies.Parálogos: genes que <strong>de</strong>bido a unaduplicación, ya no comparten elúltimo ancestro. Frecuentementetienen funciones distintas.Paulino Gomez-Puertas(F. Abascal, 2008)Bioinformática.


Paulino Gomez-PuertasBioinformática.


DnaKActinHsc70FtsAHexokinaseMreBPaulino Gomez-PuertasBioinformática.


Structural alignmentPaulino Gomez-PuertasBioinformática.


Structural alignmentPaulino Gomez-PuertasBioinformática.


¿ Cómo comparar <strong>secuencias</strong> ?http://www.ebi.ac.uk/dali/FSSP DaliDD CATH SCOPStructure comparisonPaulino Gomez-PuertasBioinformática.


EMBLPDBPaulino Gomez-PuertasBioinformática.


Comparación <strong>de</strong> <strong>secuencias</strong>Paulino Gomez-PuertasBioinformática.


Conceptos GeneralesSecuencia. Ca<strong>de</strong>na lineal finita y or<strong>de</strong>nada <strong>de</strong> símbolospertenecientes a un alfabetoAlfabeto. Conjunto <strong>de</strong> símbolos básicos <strong>de</strong> las <strong>secuencias</strong>ADN: A= {a,c,g,t|u}Proteinas= A={a,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t,v,w,y}ADN y Proteinas son ca<strong>de</strong>nas co-linealesExisten otros diversos alfabetosComparación. Encontrar la posición relativa entre dos<strong>secuencias</strong> que maximice su parecidoPaulino Gomez-PuertasBioinformática.


Comparación por I<strong>de</strong>ntida<strong>de</strong>sSeq X = TCA GAC GAT TG (n=11)Seq Y = ATC GGA GCT G (m=10)Algoritmo: Desplazar una secuencia <strong>de</strong>bajo <strong>de</strong> la otra anotando elnúmero <strong>de</strong> coinci<strong>de</strong>ncias que ocurren, seleccionando como resultadola posición <strong>de</strong> mayor valorPaulino Gomez-PuertasBioinformática.


Comparación por I<strong>de</strong>ntida<strong>de</strong>sATCGGAGCTGTCAGACGATTG (r=0)TCAGACGATTG (r=2)ATCGGAGCTGTCAGACGATTG (r=1)ATCGGAGCTGTCAGACGATTG (r=0)ATCGGAGCTGTCAGACGATTG (r=0)ATCGGAGCTGTCAGACGATTG (r=4)ATCGGAGCTGTCAGACGATTG (r=0)ATCGGAGCTGResultado: Posición con mayor número <strong>de</strong> coinci<strong>de</strong>nciasPaulino Gomez-PuertasBioinformática.


Comparación por I<strong>de</strong>ntida<strong>de</strong>sTCAGACGATTG (r=4)|| ||ATCGGAGCTGh 12345sH ACCGTsV CAGTv 1234D= h – vSi x halínea con y vDiagonal = <strong>de</strong>splazamientorelativo entre <strong>secuencias</strong>0 1 2 3 4 5 6 7 8 9 10 11┌───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┬───┐0 │ │ T │ C │ A │ G │ A │ C │ G │ A │ T │ T │ G │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-1 │ A │ │ │ 1 │ │ 1 │ │ │ 1 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-2 │ T │ 1 │ │ │ │ │ │ │ │ 2 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-3 │ C │ │ 2 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-4 │ G │ │ │ │ 1 │ │ │ 2 │ │ │ │ 3 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-5 │ G │ │ │ │ 3 │ │ │ 1 │ │ │ │ 1 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-6 │ A │ │ │ 1 │ │ 4 │ │ │ 2 │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-7 │ G │ │ │ │ 2 │ │ │ 2 │ │ │ │ 2 │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-8 │ C │ │ 1 │ │ │ │ 1 │ │ │ │ │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-9 │ T │ 1 │ │ │ │ │ │ │ │ 3 │ 1 │ │├───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┼───┤-10│ G │ │ │ │ 2 │ │ │ 3 │ │ │ │ 2 │└───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┴───┘Paulino Gomez-PuertasBioinformática.


Comparación por I<strong>de</strong>ntida<strong>de</strong>sACCGTCAGTACCGTCAGTACCGTCAGTACCGTCAGTACCGTCAGTACCGTCAGTACCGTCAGTACCGTCAGTCAGTA C C G TDesplazar una secuencia bajo la otra equivale a recorrer unamatriz por sus diagonales.Complejidad algorítmica O(N * M) O(N ) 2Paulino Gomez-PuertasBioinformática.


Comparación por I<strong>de</strong>ntida<strong>de</strong>sLos fragmentosalineados aparecencomo diagonales en lamatrizPaulino Gomez-PuertasBioinformática.


Comparación por I<strong>de</strong>ntida<strong>de</strong>sPaulino Gomez-PuertasBioinformática.


Reducción <strong>de</strong> la Complejidad AlgorítmicaOptimización para reducir tiempos <strong>de</strong> cálculoTabla <strong>de</strong> Dispersión (Hash)Lista con las posiciones <strong>de</strong> lossímbolos <strong>de</strong> la secuenciapos : 1234 5678 901seqX : TCAG ACGA TTG n=11Tabla Hash (seqX)A 3, 5, 8C 2, 6G 4, 7, 11T 1, 9, 10Secuencia a compararpos : 1234567890seqY: ATCGGAGCTG m=10Acumular i<strong>de</strong>ntida<strong>de</strong>s en cada diagonal(d= h - v, si x halínea con y v)y 1(A) en d 2(3-1), d 4(5-1) y d 7(8-1)y 2(T) en d -1(1-2), d 7(9-2) y d 8(10-2)Complejidad : Cada elemento <strong>de</strong> sY vs el número <strong>de</strong> elementos hash para ese símboloO(N*media) media=M / LongTabla (N, M long <strong>de</strong> SeqX y SeqY)k-tuplas : [+] entradas (L=lAlf k ) -> [-] elementos por entradaProteinas : lAlf=20, Si k=2 => L= 20 2 = 400 entradas.Long. Proteina N=400 -> 1 valor por entrada => complejidad O(N+M)Paulino Gomez-PuertasBioinformática.


Comparación por SemejanzasMejoras en la SensibilidadLimitaciones <strong>de</strong> los Métodosbasados en I<strong>de</strong>ntidad•Código genético redundante•Sustituciones sin influencia sobre la función global•Inserción y pérdida <strong>de</strong> residuos.•Cantidad <strong>de</strong> información (frecuencia) <strong>de</strong> cada símbolo•Conocimiento biológico en la valoraciónDistancia: El coste <strong>de</strong> transformar una secuencia en otra por medio <strong>de</strong> laaplicación <strong>de</strong> una serie <strong>de</strong> operaciones (sustitución, inserción, borrado),cada una con un coste asociado.Para cada pareja <strong>de</strong> símbolos (a i ,a j ) A 2 un esquema <strong>de</strong> costes w(a i ,a j )establece la relación entre ellosAQUIPaulino Gomez-PuertasBioinformática.


Esquemas <strong>de</strong> PuntuaciónCapturar el significado biológico <strong>de</strong> las semejanzasMatrices PAM. Dayhoff (1972)Consi<strong>de</strong>rar los reemplazos conservativosy las diferencias en las frecuencias observadasEvolutivo, proporcional a log(f AB /f ' AB) para alinear el residuo A con el Bf AB frecuencia AB en alineamientos relacionadosf ' AB frecuencia en los alineamientos no relacionados (f ' AB=f A xf B )f ABDepen<strong>de</strong> <strong>de</strong> la semejanza entre las proteinas[Pequeña]para <strong>secuencias</strong> muy relacionadas[Crece]a mayores distancias evolutivas[Azar]a distancias evolutivas muy gran<strong>de</strong>sFuente:<strong>Alineamiento</strong>s múltiples con no más <strong>de</strong> un 15% <strong>de</strong> diferencias por i<strong>de</strong>ntidad.Tablas <strong>de</strong> las frecuencias <strong>de</strong> sustitución entre residuosNormalizar (en 100 residuos 1 mutación) => PAM, 1% Percent Accepted MutationExtrapolar a diferentes distancias (120, 250, 320, etc) PAMs.vPaulino Gomez-PuertasBioinformática.


Esquemas <strong>de</strong> PuntuaciónCapturar el significado biológico <strong>de</strong> las semejanzasMatrices BLOSUM. Altschul (1991) No se conoce a priori lo semejante que son las <strong>secuencias</strong> a buscar PAM extrapola las relaciones lejanas a partir <strong>de</strong> relaciones cercanas(Hipótesis que favorece las posiciones más mutables)Fuente: <strong>Alineamiento</strong>s <strong>de</strong> bloques <strong>de</strong> <strong>secuencias</strong>.Bloque Matriz cuyas filas representansegmentos <strong>de</strong> <strong>secuencias</strong>alineadas sin interrupcionesEKPRKVMLMVRAGDVVDQFIEALLPHLEEGEKPRKIFLMVTAGKPVDSVIQSLKPLLEEGETPRKILLMVKAGTATDATIQSLLPHLEKDETPRKILLMVKAGTATDATIQSLLPHLEKDETPRRILLMVKAGAGTDAAIDSLKPYLDKGETPRRILLMVKAGSGTDSAIDSLKPYLDKGBLOSUMnn (BLOcks SUbstitution Matrices)(nn : umbral <strong>de</strong> i<strong>de</strong>ntidad utilizado para la seleccionar bloques)Un blosum bajo (umbral bajo <strong>de</strong> i<strong>de</strong>ntidad) se correspon<strong>de</strong> conun número alto <strong>de</strong> PAM (distancia evolutiva gran<strong>de</strong>).Paulino Gomez-PuertasBioinformática.


AsxGlxPaulino Gomez-PuertasEsquemas <strong>de</strong> PuntuaciónCapturar el significado biológico <strong>de</strong> las semejanzaspam250 (inferior) y BLOSUM62 (superior)Asx GlxA R N D C Q E G H I L K M F P S T W Y V B Z X *--+-------------------------------------------------------------------------+---| 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 | A| 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 | RA | 2 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 | NR | -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 | DN | 0 0 2 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 | CD | 0 -1 2 4 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 | QC | -2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 | EQ | 0 1 1 2 -5 4 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 | GE | 0 -1 1 3 -5 2 4 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 | HG | 1 -3 0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 | IH | -1 2 2 1 -3 3 1 -2 6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 | LI | -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 | KL | -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 | MK | -1 3 1 0 -5 1 0 -2 0 -2 -3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 | FM | -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 | PF | -4 -4 -4 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0 0 -4 | SP | 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1 -2 -5 6 5 -2 -2 0 -1 -1 0 -4 | TS | 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11 2 -3 -4 -3 -2 -4 | WT | 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4 | YW | -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 4 -3 -2 -1 -4 | VY | -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 4 1 -1 -4 | BV | 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 | ZB | 0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0 -5 -3 -2 2 -1 -4 | XZ | 0 0 1 3 -5 3 3 -1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3 1 | *X | 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 |--+-------------------------------------------------------------------------+---A R N D C Q E G H I L K M F P S T W Y V B Z X *Bioinformática.


Esquemas <strong>de</strong> PuntuaciónCapturar el significado biológico <strong>de</strong> las semejanzasAsx GlxPaulino Gomez-PuertasBioinformática.


Comparación por Semejanzas (Global)Esquema <strong>de</strong> Pesos┌───┬───┬───┬───┬───┐│ │ A │ C │ G │ T │├───┼───┼───┼───┼───┤│ A │ 4 │-3 │ 1 │-3 │├───┼───┼───┼───┼───┤│ C │-3 │ 4 │-3 │ 1 │├───┼───┼───┼───┼───┤│ G │ 1 │-3 │ 4 │-3 │├───┼───┼───┼───┼───┤│ T │-3 │ 1 │-3 │ 4 │└───┴───┴───┴───┴───┘4: Residuos iguales1: Residuos <strong>de</strong>l mismo tipopurinas (AG), pirimidinas (CT)-3: Combinaciones restantes.Score 1 4 4-3 4 4-3 1-3 4SeqH G T C C G A C T A G T GSeqV C A T C G G A G C T GAcum 1 5 9 6 1 1 1 1 9 10 4 1 2 3G T C C G A C T A GC -3 1 4 4 -3 -3 4 1 -3 -3A 1 -3 -3 -3 1 4 -3 -3 4 1T -3 4 1 1 -3 -3 1 4 -3 -3C -3 1 4 4 -3 -3 4 1 -3 -3G 4 -3 -3 -3 4 1 -3 -3 1 4G 4 -3 -3 -3 4 1 -3 -3 1 4A 1 -3 -3 -3 1 4 -3 -3 4 1G 4 -3 -3 -3 4 1 -3 -3 1 4C -3 1 4 4 -3 -3 4 1 -3 -3T -3 4 1 1 -3 -3 1 4 -3 -3G 4 -3 -3 -3 4 1 -3 -3 1 44 -6 -2 3 7 0 -14 -13 13Needleman-WunschPaulino Gomez-PuertasBioinformática.


Comparación por Semejanzas(LOCAL)Fragmento con puntuación acumulada máximaNo se pue<strong>de</strong> incrementar estirando ni recortando por los extremosG T C C G A C T A G T GC -1 -4 (4 -4 (1 (1A (1 1 (4 4 (1 1)=2T 4 (1 -1 -3 1 (4 -3 4)=5C -1 4 4 4)=6 1 -3 1G -4 -3 4 -1 1 4)=5 4)=7G -4 4 1)=10 (1 4 -4A -1 (1 4)=14 (4 1)=2 -3 -1G (4 -4 1 -1 4 4­)=12C 1 (4 -4 4 -1 1)=9T -4 1)=6 1 -1 4 (4G -4 4)=9 -1 1)=11 -4 4)8Inicia en Celda positivaAvanza acumulando valores(mientras acum>0)Fin: Fin <strong>de</strong> diagonalAcumulado < 0-> regresar al máximoNo incorpora zonas no-conservadas┌───┬───┬───┬───┬───┐│ │ A │ C │ G │ T │├───┼───┼───┼───┼───┤│ A │ 4 │-3 │ 1 │-3 │├───┼───┼───┼───┼───┤│ C │-3 │ 4 │-3 │ 1 │├───┼───┼───┼───┼───┤│ G │ 1 │-3 │ 4 │-3 │├───┼───┼───┼───┼───┤│ T │-3 │ 1 │-3 │ 4 │└───┴───┴───┴───┴───┘Recorrido Exhaustivo <strong>de</strong> DiagonalesSmith-WatermanPaulino Gomez-PuertasBioinformática.


Global vs localNeedleman-Wunsch / Smith-WatermanPaulino Gomez-PuertasBioinformática.


Una Heurística para Comparar por SemejanzaVelocidad a cambio <strong>de</strong> PrecisiónNo asegura un resultado óptimo, pero en ocasiones es la única soluciónExhaustivo : Recorrer todas las diagonales O(NM)Heurístico : Limitar las diagonales a recorrer (aquellas con más i<strong>de</strong>ntida<strong>de</strong>s)Posic: 123456789012Seq.H: GTCCGACTAGTGTabla A : 6, 9Hash C : 3, 4, 7G : 1, 5,10,12T : 2, 8,11Secuencia a compararPosic: 12345678901Seq.V: CATCGGAGCTGDiag = (h - v)si x halínea con y vPaulino Gomez-PuertasLipman & PearsonDiag. 0: 2 [n+m-1 diags]D. -1: 5 D.1: 2-2: 2 D.2: 3-3: 1 D.3: 2-4: 1 D.4: 3Sensibilidadvs.recursos-5: 2 D.5: 2-6: 2 D.6: 2-7: 1 D.7: 2-8: 1 D.8: 1-9: 0 D.9: 0-10: 1 D10: 0D11: 0Bioinformática.


Las Interrupciones (Gaps)Aumentar el parecido <strong>de</strong>formando losobjetosX: TCAG-ACG-ATTG TCAGACGATTG|| | | | | | || || | | |Y: ATC-GGA-GC-T-G ATCGGA-GCT-GLa i<strong>de</strong>aFrg {TT, CC, AG, GG, AA} (Sc=18) pue<strong>de</strong>:(a) Exten<strong>de</strong>r en diagonal (C y G) sin gaps(pier<strong>de</strong> 3 puntos, hasta 15).(b) Emparejar C (sX) con alguno (CTG) sY(gaps en sY)(c) Emparejar G (sY) con alguno (GATTG) sX(gaps en la sec.X)Paulino Gomez-PuertasBioinformática.


Programación DinámicaEsquema <strong>de</strong> Pesos[ 4] residuos iguales[ 2] residuos <strong>de</strong>l mismo tipo[-3] Resto.iGap: -5eGap: -2Mejor alineamiento:TCAGACGATTG||.|| ..||ATCGGA--GCTGPaulino Gomez-PuertasBioinformática.


Clasificación <strong>de</strong> las aplicacionesN=1, M=1Pairwise comparison (lo visto hasta ahora).N=1, M>>1Búsquedas en bases <strong>de</strong> datos : FASTA, BLAST, PSI-BLASTN>1, M>1<strong>Alineamiento</strong> múltiple : PILEUP, CLUSTAL-W, T-COFFEE, HMMsPaulino Gomez-PuertasBioinformática.


Búsquedas Rápidas: FASTA(Lipman & Pearson, 1985, Pearson & Lipman 1988)Reducir el espacio <strong>de</strong> búsqueda¿ En qué diagonales es más probable que se encuentre el mejor alineamiento ?Etapa I : Búsqueda <strong>de</strong> Regiones (diagonales) porI<strong>de</strong>ntidad y sin GapsUso <strong>de</strong> k-tuplas para acelerarResultado : Las mejores diagonales (10)Complejidad O(N+M)Etapa II:Re-evaluación <strong>de</strong> las regiones por semejanzaUnión <strong>de</strong> regiones con GapsEtapa III:Evaluación exhaustiva <strong>de</strong> las mejores <strong>secuencias</strong>Reducciones <strong>de</strong> hasta 2 ór<strong>de</strong>nes <strong>de</strong> magnitud en los tiempos <strong>de</strong> búsqueda.Velocidad a cambio <strong>de</strong> sensibilidad y selectividad(pier<strong>de</strong> reemplazos conservativos y palabras más pequeñas que k)Paulino Gomez-PuertasBioinformática.


Basic Local Alignment Search Tool(BLAST)Altschul, S.F., Gish W., Miller W., Myers E.W., and Lipman D.J.J. Mol. Biol. (1990) 215:403-10.I<strong>de</strong>ntificación <strong>de</strong> las mejores diagonales utilizando criterios <strong>de</strong> semejanzaUso <strong>de</strong> k-tuplas por semejanza (amplía el espacio <strong>de</strong> búsqueda <strong>de</strong> FASTA)Corte estadístico (baja probabilidad <strong>de</strong> ocurrencia)(a)(b)- Artículo más citado en la década <strong>de</strong> los 90 -I<strong>de</strong>ntificación rápida <strong>de</strong> segmentos (MSP: maximal segment pair.Segmento: sub-secuencia continua <strong>de</strong> cualquier longitud.Puntaje: Suma <strong>de</strong> la semejanza <strong>de</strong> cada parAnálisis <strong>de</strong>tallado <strong>de</strong> MSPs con mas probabilidad <strong>de</strong> formar el alineamiento finalPaulino Gomez-PuertasBioinformática.


e-value (E)Basic Local Alignment Search Tool (BLAST)A partir <strong>de</strong> un mo<strong>de</strong>lo en el que estudiaron qué “scores” alcanzaban los alineamientos <strong>de</strong> <strong>secuencias</strong>generadas al azar (según las frecuencias observadas <strong>de</strong> aminoácidos), Karlin & Altschul <strong>de</strong>sarrollaron lasiguiente fórmula para el cálculo <strong>de</strong>l e-value:E = -KMn e -lSEl e-value (E) <strong>de</strong> un <strong>de</strong>terminado score indica cuántos alineamientos esperamos que por azar alcancenun score igual o mayor (no confundir con el p-value, que indica la probabilidad <strong>de</strong> que un score se hayaalcanzado por azar al menos en una ocasión). E-value y p-value se relacionan mediante la siguientefórmula:P = 1 – e -E(P y E tienen un valor prácticamenteidéntico en la escala <strong>de</strong> 0 a 0.01)En una búsqueda en bases <strong>de</strong> datos <strong>de</strong> secuencia, K y l son dos parámetros que se <strong>de</strong>terminanempíricamente a partir <strong>de</strong>l máximo y la anchura <strong>de</strong> la distribución <strong>de</strong> “scores” tras la comparación <strong>de</strong><strong>secuencias</strong> “random”, N es la longitud <strong>de</strong> la secuencia y S es el “score” <strong>de</strong>l alineamiento. M es el tamaño<strong>de</strong> la base <strong>de</strong> datos (número total <strong>de</strong> aminoácidos o nucleótidos; tras aplicar una cierta corrección).Más información:http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.htmlLesk, AM. Introduction to Bioinformatics. 2nd Ed. p183Paulino Gomez-PuertasBioinformática.


Basic Local Alignment Search Tool (BLAST)Paulino Gomez-PuertasBioinformática.


Basic Local Alignment Search Tool (BLAST)Probability valuesP-value0 < P = 1 – e -E < 10


Gapped BLAST and PSI-BLAST. A new Generation of Protein DB search Programs.Altschul, S.F., Mad<strong>de</strong>n T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller W., and LipmanD.J. Nucleid Acids Research (1997) 25: 3389-3402PSI-BLAST: Búsqueda iterativaConstrucción <strong>de</strong> una matriz <strong>de</strong> pesos específica por posición.Uso <strong>de</strong> la matriz para realizar una nueva búsqueda.Paulino Gomez-PuertasBioinformática.


Intermediate sequence searches:PROTOMAP databasePaulino Gomez-PuertasBioinformática.


<strong>Alineamiento</strong>s múltiplesSi alinear 2 <strong>secuencias</strong> <strong>de</strong> 300 residuos tardase 1 segundo:Entonces:alinear 3 <strong>secuencias</strong> tardaría 300 segundosalinear 10 <strong>secuencias</strong> aprox 300 8 segs (+ que la edad <strong>de</strong>l universo)Paulino Gomez-PuertasBioinformática.


CLUSTAL-W:Clustal-W: improving the sensitivity of progressive multiple sequence alignmentthrough sequence weighting position specific gap penalties and weight matrix choice.Thomson JD, Higgins DG, Gibson TJ (1994)Nucleid Acids Research 22, 4673-4680.T-COFFEE:T-Coffee: a novel method for fast and accurate multiple sequence alignment.Notredame C, Higgins DG & Heringa J. (2000)Journal of Molecular Biology. 302, 205-217.Formación <strong>de</strong> clusters <strong>de</strong> <strong>secuencias</strong> (Clustal-W):La pareja más parecida se alinea para formar un único cluster.Este cluster se toma ahora como una sola secuencia y el procesose repite hasta tener un solo cluster con todas las <strong>secuencias</strong>alineadas.Paulino Gomez-PuertasLos alineamientos múltiples permiten:Inferir filogenias.Construir perfiles.Bioinformática.


Motivos, perfiles y dominiosPaulino Gomez-PuertasBioinformática.


¿A qué llamamos motivos?Observación: En proteínas <strong>de</strong> la misma familia po<strong>de</strong>mos<strong>de</strong>tectar pequeñas regiones conservadas, a menudo asociadasa su función.Ej. Sitios <strong>de</strong> unión, centros activos <strong>de</strong> enzimas, etc.Características: La conservación no es perfecta. No son<strong>de</strong>tectables mediante técnicas <strong>de</strong> homología <strong>de</strong> secuencia(BLAST, FASTA, etc).Paulino Gomez-PuertasBioinformática.


Y… ¿para qué se usan?Los motivos se conservan incluso a gran<strong>de</strong>s distanciasevolutivas <strong>de</strong>bido a restricciones estructurales o funcionalesluego...Están relacionadoscon la funciónSe conservanPredicciónDetección <strong>de</strong>homólogosremotosPaulino Gomez-PuertasBioinformática.


Motivos: <strong>de</strong>scripción•Expresiones regulares•Perfiles•HMMsPaulino Gomez-PuertasBioinformática.


Expresiones regularesALRDFATHDDFSMTAEATHDSIECDQAATHEASA-T-H-[DE]Paulino Gomez-PuertasBioinformática.


Expresiones regulares•Cualquier aminoácido: x•Ambigüedad: [A,B…] A, o B... o {A,B..} cualquieramenos A, B…•Repetición: A(2,4) A-A o A-A-A o A-A-A-A•N terminal: [AC]-x-V-x(4)-{E,D}.[Ala or Cys]-any-Val-any-anyany-any-{anybut Glu or Asp}Paulino Gomez-PuertasBioinformática.


PerfilesF K L L S H C L L VF K A F G Q T M F QY P I V G Q E L L GF P V V K E A I L KF K V L A A V I A DL E F I S E C I I QF K L L G N V L V CA -18 -10 -1 -8 8 -3 3 -10 -2 -8C -22 -33 -18 -18 -22 -26 22 -24 -19 -7D -35 0 -32 -33 -7 6 -17 -34 -31 0E -27 15 -25 -26 -9 23 -9 -24 -23 -1F 60 -30 12 14 -26 -29 -15 4 12 -29G -30 -20 -28 -32 28 -14 -23 -33 -27 -5H -13 -12 -25 -25 -16 14 -22 -22 -23 -10I 3 -27 21 25 -29 -23 -8 33 19 -23K -26 25 -25 -27 -6 4 -15 -27 -26 0L 14 -28 19 27 -27 -20 -9 33 26 -21M 3 -15 10 14 -17 -10 -9 25 12 -11N -22 -6 -24 -27 1 8 -15 -24 -24 -4P -30 24 -26 -28 -14 -10 -22 -24 -26 -18Q -32 5 -25 -26 -9 24 -16 -17 -23 7R -18 9 -22 -22 -10 0 -18 -23 -22 -4S -22 -8 -16 -21 11 2 -1 -24 -19 -4T -10 -10 -6 -7 -5 -8 2 -10 -7 -11V 0 -25 22 25 -19 -26 6 19 16 -16W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28Usa pesos discriminatorios no solopara los AAs que aparecen. Para losque no aparecen se basan en lasfrecuencias observadas y en laprobabilidad <strong>de</strong> que el AA seasustituidoA tiene más baja probabilidad que Mque, aunque no aparece, sabemosque M es fisicoquímicamente mássimilar a L, I, V y F.Más sensibles que lasexpresiones regularesY 34 -18 -1 1 -23 -12 -19 0 0 -18Paulino Gomez-PuertasBioinformática.


HMMsHid<strong>de</strong>n Markov mo<strong>de</strong>ls (HMMs) son mo<strong>de</strong>los estadísticos<strong>de</strong> la estructura primaria <strong>de</strong> las <strong>secuencias</strong>.Se supone que lo que vemos es resultado <strong>de</strong> un procesooculto (hid<strong>de</strong>n) <strong>de</strong>l que tenemos un mo<strong>de</strong>lo.Paulino Gomez-PuertasBioinformática.


HMMs y motivosEste es el más usado. Correspon<strong>de</strong> a un alineamiento contres estados (m 1 , m 2 , m 3 ) con 20 probabilida<strong>de</strong>s <strong>de</strong> ser unresiduo (barras) cuatro estados <strong>de</strong> inserción (i 0 , i 1 , i 2 , i 3 ) ytres estados <strong>de</strong> <strong>de</strong>lección (d 1 , d 2 , d 3 ). Las flechas representanlas probabilida<strong>de</strong>s <strong>de</strong> transición entre estadosTodos o algunos<strong>de</strong> los parámetrospue<strong>de</strong>n serestimados <strong>de</strong> losdatosPaulino Gomez-PuertasBioinformática.


Bases <strong>de</strong> datosPROSITE:BLOCKS:PRINTS:Pfam:Expresiones regulares y perfiles.Basada en motivos conocidos (SwissProt)Perfiles. Basada en PROSITE.Perfiles. Basada en motivos conocidosPerfiles HMM.Generación automática <strong>de</strong> motivos.SwissProt + SP-TrEMBLPaulino Gomez-PuertasBioinformática.


ComparaciónInformaciónSP-TrEMBLPfamSwissProtPROSITE BLOCKSExpresionesregularesPRINTSPerfilessimples múltiplesHMMsPrecisiónPaulino Gomez-PuertasBioinformática.


PfamProtein families databaseof alignments and HMMshttp://www.sanger.ac.uk/Pfampfam-A & pfam-B(UniProt)Paulino Gomez-PuertasBioinformática.


PfamProtein families database of alignments and HMMsPKRPaulino Gomez-PuertasBioinformática.


ATPsubunitMolecular chaperonin GroELheptamer(Dr Jianpeng Ma, Harvard Univ.)Paulino Gomez-PuertasBioinformática.


Extracción <strong>de</strong> información evolutiva apartir <strong>de</strong> alineamientos múltiples <strong>de</strong>proteína.Paulino Gomez-PuertasBioinformática.


Integration of Evolutive Informationconservedtree-<strong>de</strong>terminantscorrelated mutationsInformation extracted from multiple sequence alignmentsPaulino Gomez-PuertasBioinformática.


Integration of Evolutive InformationconservedInformation extracted from multiple sequence alignmentsPaulino Gomez-PuertasBioinformática.


Hydroxymethylglutaryl-CoA lyase (HMGL)b1 a1b2 a2b3a3b4a4b5a5b6a6b7a7b8a8Paulino Gomez-PuertasF.G. HEGARDT. UBJ. PIE. Univ. Zar.N . CASALS. UIC.Bioinformática.


S75a3a2D42 R41a1Hydroxymethylglutaryl-CoA lyase (HMGL)L263D42S75L263E279a4CNa8S201a5a6a7D204H233D204H233V70CS201S75D42 R41L263E279H233D204FG. HegardtJ. PieN. CasalsPaulino Gomez-PuertasBioinformática.


Integration of Evolutive Informationcorrelated mutationsInformation extracted from multiple sequence alignmentsPaulino Gomez-PuertasBioinformática.


Correlated MutationsPazos et al.J. Mol. Biol., 1997SINGLEMUTATIONDECREASEDSTABILITY"RESTORED"STABILITYSECOND COMPENSATORYMUTATIONPaulino Gomez-PuertasBioinformática.


Correlated mutationsPhenylalanine hydroxylase (PAH)homotetramer.inter-protein contactsR297 (monomer B)D415 (monomer A)intra-protein contactsPaulino Gomez-PuertasBioinformática.


Integration of Evolutive Informationtree-<strong>de</strong>terminantsInformation extracted from multiple sequence alignmentsPaulino Gomez-PuertasBioinformática.


carnitine/choline acyl transferasesF.G. HegardtChATCrATcholinecarnitineCPT IImalonyl-CoA insensitivemalonyl-CoA regulatedCOTM-CPT IL-CPT IPaulino Gomez-PuertasBioinformática.


Carnitine-Choline: Thr/Glu/Thr vs. Val/Asp/AsnMalonyl-CoA regulation: Met vs. SerShort vs. Long substrate: Gly vs. MetPaulino Gomez-PuertasBioinformática.


carnitineH473E14G711G710V481G709Mo<strong>de</strong>l (Cor<strong>de</strong>nte et al, 2004; JBC)palmitoyl-CoAG482W485V706V488M489A490H12Crystal structure (Hsiao et al, 2004; JBC)Paulino Gomez-PuertasBioinformática.


Gracias a:Fe<strong>de</strong>rico AbascalOswaldo TrellesJoaquín DopazoMuseo Nacional <strong>de</strong> CienciasNaturales. MadridDto. Arquitectura <strong>de</strong> ComputadoresUniversidad <strong>de</strong> MálagaCSAT - Príncipe FelipeValenciaPaulino Gomez-PuertasBioinformática.


Cuestiones…Paulino Gomez-PuertasBioinformática.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!