Biologia Molecolare Computazionale

Biologia Molecolare Computazionale 

Paolo Provero - paolo.provero@unito.it 

2008-2009

Argomenti 

◮ Allineamento di sequenze 

◮ Ricostruzione di alberi filogenetici 

◮ Gene prediction

Allineamento 

Allineamento di sequenze 

1. Scoring 

2. Algoritmi esatti (programmazione dinamica) 

3. Algoritmi euristici (BLAST) 

4. Allineamento multiplo

Allineamento di sequenze 

Problema 

Date due sequenze (nucleotidiche, aminoacidiche o altro) 

determinare se sono sufficientemente simili da farci ritenere 

che siano derivate da un progenitore comune attraverso 

processi di mutazione.

Allineamento 

Un esempio di allineamento delle sequenze 

CGGGTATCCAA e CCCTAGGTCCCA è 

C G G G T A - - T C C A A 

C C C - T A G G T C C C A 

◮ Il simbolo “-” (indel) rappresenta un’inserzione o una 

delezione avvenuta durante la storia evolutiva che ha 

portato alle due sequenze 

◮ Una sequenza di L indel consecutivi si dice gap di 

lunghezza L: questo allineamento ha un gap di lunghezza 

1 e uno di lunghezza 2

Tipi di allineamento 

◮ Globale: si allineano le sequenze intere 

◮ Locale: si allineano sottosequenze delle sequenze di 

partenza 

◮ Gapped: sono permessi indels 

◮ Ungapped: non sono permessi indel 

◮ Pairwise: di due sequenze 

◮ Multiple: di più di 2 sequenze

Score di un allineamento 

◮ Due possibili allineamenti di CTGTA e CGTA 

C T G T A 

1. 

C - G T A 

2. 

C T G T A - 

- C - G T A 

◮ Il primo è migliore in quanto richiede un numero minore di 

cambiamenti (sostituzioni e inserzioni/delezioni) 

◮ E’ necessario definire uno score per confrontare 

quantitativamente gli allineamenti

Scoring per allineamenti di sequenze nucleotidiche 

◮ Per il momento adottiamo uno score semplice: 

◮ Ogni match conta +1 

◮ Ogni mismatch conta -1 

◮ Ogni indel conta -2 

◮ Esempio 1: 

C T G T A 

C - G T A 

+1 -2 +1 +1 +1 +2 

◮ Esempio 2: 

C T G T A - 

- C - G T A 

-2 -1 -2 -1 -1 -2 -9

Algoritmi di allineamento 

◮ Gli algoritmi di allineamento risolvono il seguente 

problema: dato un sistema di scoring e due sequenze, 

trovare l’allineamento (gli allineamenti) con lo score più 

alto tra tutti quelli possibili 

◮ Gli algoritmi esatti individuano certamente il migliore 

allineamento, ma richiedono molte risorse di calcolo 

1. Needleman-Wunsch: global gapped alignments 

2. Smith-Waterman: local gapped alignments 

◮ Gli algoritmi euristici non garantiscono che l’allineamento 

trovato sia il migliore possibile, ma sono molto più veloci 

1. BLAST (gapped or ungapped local alignments)

Perché abbiamo bisogno di algoritmi 

◮ In linea di principio sarebbe possibile trovare l’allineamento 

ottimale di due sequenze semplicemente: 

1. Scrivere tutti gli allineamenti possibili 

2. Calcolare il relativo score 

3. Scegliere il migliore 

◮ Tuttavia questo è possibile soltanto per sequenze molto 

corte, in quanto il numero di allineamenti possibili cresce 

molto rapidamente al crescere della lunghezza della 

sequenza

Perchè abbiamo bisogno di algoritmi 

◮ Supponiamo di avere due sequenze di n = 1000 residui 

◮ Il numero di allineamenti possibili è 

( 2n 

N = 

n 

) 

∼ 22n 

√ πn 

= 22000 

√ 

1000π 

∼ 2 · 10 600

Programmazione dinamica 

◮ Gli algoritmi di programmazione dinamica suddividono il 

problema iniziale (trovare l’allineamento ottimale di due 

sequenze) in sottoproblemi più semplici e costruiscono 

progressivamente la soluzione del problema globale 

usando le soluzioni dei sottoproblemi 

◮ L’algoritmo di Needleman-Wunsch calcola lo score 

dell’allineamento ottimale di due sequenze in base agli 

score degli allineamenti ottimali delle loro sottosequenze, 

progressivamente più lunghe

Algoritmo di Needleman-Wunsch 

◮ Sequenze: 

x = X 1 X 2 . . . X m 

y = Y 1 Y 2 . . . Y n 

◮ L’algoritmo costruisce la matrice B tale che B ij è lo score 

dell’allineamento ottimale tra le prime i lettere di x e le 

prime j lettere di y 

◮ I valori di B ij vengono calcolati progressivamente fino a 

ottenere B mn , che è lo score dell’allineamento ottimale tra 

x e y

Algoritmo di Needleman-Wunsch 

◮ L’algoritmo di Needleman-Wunsch si basa sul fatto 

seguente: 

se si conoscono B i−1,j , B i,j−1 e B i−1,j−1 è possibile 

calcolare B ij 

◮ Una volta ottenuto lo score dell’allineamento ottimale il 

traceback consente di ottenere l’allineamento o gli 

allineamenti corrispondenti

Esercizio 

Trovare un allineamento globale ottimale tra le sequenze 

CATT 

GAATCT 

Soluzione: score -2 

Allineamento (non l’unico): 

C - A T - T 

G A A T C T 

-1 -2 +1 +1 -2 +1 -2

Algoritmo di Smith-Waterman 

◮ L’algoritmo di Smith-Waterman trova l’allineamento locale 

ottimale tra due sequenze, ovvero l’allineamento di score 

più alto tra tutti quelli possibili tra una qualsiasi 

sottosequenza di x e una qualsiasi sottosequenza di y 

◮ L’algoritmo procede in modo simile a Needleman-Wunsch 

eccetto che: 

1. Ogni volta che B ij è negativo, si scrive 0 

2. Il traceback non parte da B mn ma dallo score più alto 

trovato sulla tabella

Esercizio 

Trovare un allineamento locale ottimale tra le sequenze 

CATT 

GAATCT 

Soluzione: score 2 

Allineamento: 

A T 

A T 

+1 +1 +2

Gap penalties 

◮ Il tipo di gap penalty che abbiamo usato si chiama lineare: 

la penalty (score negativo) associata a un gap è 

proporzionale alla lunghezza del gap: 

δ(L) = −d · L 

◮ Un altro tipo di gap penalty usato spesso si chiama affine: 

δ(L) = −d − (L − 1) · e 

con e < d. In questo modo aprire un nuovo gap è più 

penalizzato che allungarne uno esistente

Gap penalty affine: esempio 

◮ Esempio: d = 2, e = 1 

A C C C T 

A - - C T 

+1 -3 +1 +1 0 

A C C C T 

A - C - T 

+1 -2 +1 -2 +1 -1

Allineamento di sequenze aminoacidiche 

◮ Nel caso di allineamento di sequenze di aminoacidi, un 

sistema di scoring come quello usato per le sequenze 

nucleotidiche non è adeguato, in quanto alcune sostituzioni 

sono più probabili di altre 

◮ Quindi i mismatch avranno score diversi a seconda degli 

aminoacidi coinvolti (matrici di sostituzione) 

◮ Gli algoritmi di allineamento funzionano nello stesso modo, 

eccetto che lo score per un match/mismatch varia a 

seconda degli aminoacidi coinvolti 

◮ Le matrici di sostituzione più usate sono BLOSUM e PAM

Esercizio 

Usare le matrici di sostituzione BLOSUM62 e una linear gap 

penalty uguale a -5 per trovare un allineamento ottimale 

globale tra le sequenze 

HAG 

HEAE 

Soluzione: score 5 

Allineamento: 

H - A G 

H E A E 

8 -5 4 -2 5

BLAST 

Algoritmo euristico per allineare 

◮ Query sequence vs target sequence 

◮ Query sequence vs sequence database 

Versione originale: ungapped alignments. 

BLAST2: gapped alignments.

BLAST steps (simplified) 

1. Generare una lista di tutte le parole di k (p.es. k = 3 per 

proteine) lettere nella query 

PQGEFG → (PQG, QGE, GEF, EFG) 

2. Per ognuna di queste generare una lista di tutte le possibili 

parole di 3 lettere che allineate danno un punteggio 

maggiore di una soglia T (p.es. T = 13 con BLOSUM62) 

PQG → PQG (18) PEG (15) . . . 

3. Cercare nella sequenza target queste parole ed allinearle 

alla parola della query 

4. Estendere in modo massimale gli allineamenti nelle due 

direzioni (ottenendo gli High Scoring Pairs) 

5. Se possibile unire gli HSP per ottenere allineamenti più 

lunghi.

BLAST

Grafi 

◮ Un grafo è un insieme di nodi e di archi 

◮ Ogni arco unisce due nodi 

◮ Un cammino tra il nodo n e il nodo m è una successione di 

archi consecutivi che porta da n a m 

◮ Un circuito è un cammino tra un nodo e se stesso 

◮ Un grafo è connesso se per ogni coppia di nodi (n, m) 

esiste un cammino tra n e m

Alberi 

◮ Un grafo connesso e privo di circuiti si dice albero 

◮ Dati due nodi di un albero, esiste uno e un solo cammino 

che li unisce 

◮ Un albero si dice binario senza radice se ogni nodo è 

connesso a uno o tre archi 

◮ Un albero si dice binario con radice se ogni nodo è 

connesso a uno o tre archi, tranne un unico nodo, la 

radice, che è connesso a due archi 

◮ I nodi connessi a un solo arco si dicono foglie

Ricostruzione di alberi filogenetici 

◮ Problema: dato un insieme di specie attualmente esistenti 

ricostruire l’albero filogenetico che riproduce il percorso 

evolutivo attraverso il quale esse sono derivate da un 

antenato comune 

◮ L’albero filogenetico è rappresentato da un albero binario, 

con o senza radice 

◮ La lunghezza degli archi è proporzionale al tempo 

trascorso tra gli eventi di speciazione 

◮ Le specie esistenti sono rappresentate dalle foglie 

◮ La radice, se specificata, rappresenta l’antenato comune 

◮ Se l’albero filogenetico è senza radice, non è specificata la 

direzione del tempo evolutivo tra nodi interni

Ricostruzione di alberi filogenetici 

◮ Distance methods 

◮ Parsimony methods 

◮ Statistical methods

Distanze 

◮ Una distanza è una regola per associare a ogni coppia 

(x, y) di punti di un insieme S un numero d(x, y) ≥ 0 tale 

che 

1. d(x, y) = 0 se e solo se x = y 

2. d(x, y) = d(y, x) 

3. d(x, y) + d(y, z) ≥ d(x, z) 

◮ Per esempio la distanza geometrica tra punti di un piano 

soddisfa questi assiomi

Distanza evolutiva 

◮ La distanza evolutiva tra due specie esistenti si può 

definire come il doppio del tempo trascorso dal loro 

antenato comune più recente 

◮ E’ facile convincersi che questa definizione soddisfa gli 

assiomi che definiscono una distanza 

◮ Se si considera un albero filogenetico con radice, la 

distanza evolutiva tra le specie x e y è proporzionale alla 

lunghezza del cammino tra x e y

Distanza ultrametrica 

◮ La distanza evolutiva ha la seguente proprietà: 

dati tre punti x, y, z e le tre distanze tra di essi, due di 

queste sono uguali tra loro e maggiori della terza 

◮ Una distanza che soddisfi queste proprietà si dice 

ultrametrica

Metodi basati sulle distanze 

◮ Vedremo due metodi basati sulle distanze: 

1. UPGMA: ricostruisce alberi filogenetici con radice 

2. Neighbor joining: ricostruisce alberi filogenetici senza 

radice 

◮ L’algoritmo UPGMA (Unweighted Pair Group Method using 

Arithmetic averages) permette di risolvere il problema 

seguente: 

dato un insieme di specie esistenti e le loro distanze 

evolutive, ricostruire l’albero filogenetico con radice che ne 

rappresenta l’evoluzione da un antenato comune

UPGMA 

1. Individuare le due specie più vicine tra le N esistenti 

2. Definire un nuovo nodo come loro antenato comune, 

ponendolo all’altezza uguale a metà della distanza tra i 

due nodi 

3. Eliminare le due specie dalla lista e sostituirle con 

l’antenato comune 

4. Ripetere con la nuova lista di N − 1 specie 

5. Ripetere fino a che la lista contiene una sola specie (la 

radice = antenato comune) 

6. Si può dimostrare che il metodo riproduce l’unico albero 

filogenetico con radice che riproduce le distanze evolutive

Distanza tra gruppi 

◮ Per calcolare la distanza tra nodi interni si usa la formula 

d(A, B) = 1 

n A n B 

∑ 

x∈A;y∈B 

d(x, y)

Esempio 

◮ Le distanze evolutive tra 4 specie sono date nella tabella 

seguente (Mya) 

Human Chimp Bonobo Gorilla 

Human 0 12 12 14 

Chimp 12 0 4 14 

Bonobo 12 4 0 14 

Gorilla 14 14 14 0 

◮ Verificare la proprietà ultrametrica 

◮ Ricostruire l’albero filogenetico con radice usando UPGMA

UPGMA in pratica 

◮ In pratica le distanze evolutive in genere non sono note 

◮ Si usano allora distanze surrogate, chesi suppone siano 

approssimativamente proporzionali alle distanze evolutive 

◮ Le distanze surrogate in genere non sono ultrametriche 

◮ La conseguenza è che le distanze calcolate sull’albero 

così prodotto non sono uguali alle distanze in input

Esempio 

◮ Considerare la matrice di distanza tra 3 specie: 

A B C 

A 0 6 8 

B 6 0 4 

C 8 4 0 

◮ Mostrare che si tratta di una matrice di distanza 

◮ Mostrare che questa distanza non è ultrametrica 

◮ Costruire l’albero filogenetico con radice usando UPGMA e 

calcolare le distanze sull’albero 

◮ Mostrare che queste distanze sono ultrametriche e che 

non coincidono con quelle in input

Neighbors 

◮ Dato un albero filogenetico senza radice, due foglie si 

dicono neighbors se il cammino che le unisce passa per 

un solo nodo interno 

◮ Notare che non è necessariamente vero che il neighbor di 

una specie è la specie più vicina nel senso della distanza 

calcolata sull’albero

Tree-derived distances 

◮ Data una matrice di distanze il metodo del neighbor joining 

costruisce l’albero unrooted che riproduce le distanze date, 

se questo esiste 

◮ Una distanza per la quale esista tale albero si dice 

“tree-derived” o “additive” 

◮ Una distanza ultrametrica è tree-derived, ma l’opposto non 

è necessariamente vero

δ(x, y) 

◮ Supponiamo di avere una matrice di distanze d(x, y) tra 

specie 

◮ Definiamo la quantità 

δ(x, y) = (N − 4)d(x, y) − ∑ 

(d(x, n) + d(y, n)) 

n≠x,y 

◮ Se x e y sono tali che la δ(x, y) è minima, allora x e y 

sono neighbors

Neighbor joining 

◮ Calcolare la matrice delle δ 

◮ Unire la coppia di specie con il delta più piccolo attraverso 

un nodo interno r 1 con le distanze 

d(x, r 1 ) = 

d(x, n) − d(y, n) + d(x, y) 

2 

d(y, n) − d(x, n) + d(x, y) 

d(y, r 1 ) = 

2 

dove n è un’altra foglia qualsiasi 

◮ Sostituire x e y con r 1 . La distanza tra r 1 e le altre foglie è 

data da 

d(r 1 , n) = 

d(x, n) + d(y, n) − d(x, y) 

2 

◮ Ripetere fino a che non si ricostruisce l’intero albero

Esempio 

x 

y 

◮ Calcolare le distanze tra 

le foglie dell’albero 

rappresentato in figura 

1 

1 

1 

◮ Applicare l’algoritmo 

"neighbor joining" alle 

distanze calcolate e 

mostrare che l’albero 

ottenuto riproduce quello 

di partenza 

z 

5 

4 

w

Rooting 

◮ E’ possibile localizzare la radice di un albero ottenuto con 

neighbor-joining aggiungendo un outgroup (specie che si 

sa essere più distante dalle altre di quanto queste siano tra 

loro) 

◮ La radice dell’albero originario coincide con il punto da cui 

si diarma l’outgroup.

Esempio 

◮ Costruire l’albero unrooted di 3 specie dalle seguenti 

distanze: 

A B C 

A 0 3 4 

B 3 0 5 

C 4 5 0 

◮ Localizzare la radice usando l’outgroup D, con distanze 

d(D, A) = 12 d(D, B) = 11 d(D, C) = 14

Maximum Parsimony 

◮ Trovare l’albero che spiega la discendenza delle specie 

esistenti da un antenato comune con il minimo numero di 

mutazioni. 

◮ Per semplicità ci limiteremo a considerare sostituzioni 

◮ Esempio: le specie esistenti sono rappresentate dalle 

seguenti sequenze: 

AAG 

AAA 

GGA 

AGA

Costo di un albero 

1 

0 

AAA 

0 

AAA 

1 

1 

Cost = 3 

AGA 

0 

1 

0 

AAA 

1 

AAA 

0 

0 

Cost = 4 

AAA 

2 

AAG AAA GGA AGA 

AAG AGA AAA GGA 

◮ Elencare i possibili alberi 

◮ Calcolare il costo per ogni albero 

◮ Scegliere l’albero di costo minore

Alberi possibili 

Gli alberi si distinguono per 

◮ Topologia 

◮ Assegnazione delle specie esistenti alle foglie 

◮ Assegnazione di sequenze ai nodi intermedi

Topologie per 4 specie

Numero di alberi 

◮ Il numero di assegnazioni (sommato su tutte le topologie) è 

◮ Esempio: per N = 4 

(2N − 3)! 

2 N−2 (N − 2)! 

(2N − 3)! 

2 N−2 (N − 2)! = 5! 

4 · 2! = 15 

◮ Questo numero diventa rapidamente molto grande: per 

N = 10: 

17! 

2 8 8! = 34.459.425 

◮ Con metodi euristici si può usare parsimony anche per 

centinaia di specie

Allineamenti multipli: SP scores 

Il modo più comune di assegnare uno score a un allineamento 

multiplo è un Sum of Pairs (SP) score: 

◮ Lo score totale è la somma degli score delle singole 

colonne: 

S = ∑ S i 

i 

◮ Lo score di una colonna è la somma degli score di tutte le 

coppie di simboli (usando una matrice di sostituzione 

appropriata) 

S i = ∑ s(mi k , mi l ) 

k

Esempio 

match = 1, mismatch = -1, d = -2 

A A C G 

A A C T 

A - C T 

A G C T 

+6 -7 +6 0 =5

SP scores: problema 

A A C T G G 

A A C T G G 

A A C A G G 

A A C T G G 

A A C T G G 

+10 +10 +10 +2 +10 +10 =52 

◮ Per N sequenze una colonna di T vale N(N−1) 

2 

◮ Un singolo mismatch costa N − 1 

◮ Costo relativo di un singolo mismatch: 2/N: decresce 

all’aumentare di N 

Over-counting of evolutionary events

Algoritmi per l’allineamento multiplo 

◮ Esistono algoritmi di programmazione dinamica per 

l’allineamento multiplo, ma sono utilizzabili solo per N 

piccolo 

◮ Tra gli algoritmi euristici i più comuni sono gli algoritmi di 

allineamento progressivo: 

◮ Allineare due sequenze 

◮ Allineare una terza sequenza all’allineamento ottenuto 

◮ Continuare ad aggiungere una sequenza alla volta 

all’allineamento

Algoritmo di Feng-Doolitle 

1. Trovare tutti gli N(N − 1)/2 pairwise alignments delle N 

sequenze 

2. Costruire un albero “filogenetico” usando come distanza 

una funzione dello score dei pairwise alignments 

3. Allineare le due sequenze “evolutivamente” più vicine 

4. Allineare gli altri nodi dell’albero nell’ordine i cui sono stati 

aggiunti all’albero 

Per allineare due insiemi di sequenze, calcolare tutti i pairwise 

alignments e usare il migliore

Esempio 

Usando lo scoring: 

match = 1; mismatch = -1; gap=-2 

allineare AAG, ATG, AA : 

A A G 

A T G 

A A - 

+3 -1 -3 =-1

Applicazione: Positional Weight Matrices 

◮ Siti di legame di TF: 

◮ Brevi sequenze di DNA (∼ 6 − 15 bps) 

◮ Non completamente conservate 

◮ Una descrizione possibile è la sequenza consensus, 

ricavabile da un allineamento multiplo di siti di legame noti: 

IUPAC codes: 

◮ Y = pyrimidine (C or T) 

◮ W = T or A 

A C C G G T 

A C T G G T 

- C T G G A 

A C C G G T 

A C Y G G W

Positional Weight Matrices 

Una descrizione più accurata è data dalla PWM: 

A C C G G T 

A C T G G T 

- C T G G A 

A C C G G T 

A C Y G G W 

n A C G T 

1 3 0 0 0 

2 0 4 0 0 

3 0 2 0 2 

4 0 0 4 0 

5 0 0 4 0 

6 1 0 0 3

Ricerca di TFBS con PWM 

Le PWM possono essere usate per identificare potenziali 

binding sites di TFs: 

◮ Considerare le sequenze regolatrici dei geni di interesse 

(promotore, primi introni, ...) 

◮ Fare “scorrere” la PWM sulla sequenza calcolando uno 

score a ogni posizione 

◮ Lo score esprime la somiglianza tra la sequenza e la 

matrice

Log-likelihood ratio 

Un sistema di scoring usato in pratica è il seguente: data una 

PWM M e una sequnenza S: 

dove 

S = log 2 

P(S|M) 

P(S|B) 

◮ P(S|M) è la probabilità di generare S a partire da M 

◮ P(S|B) è la probabilità di generare S a partire dalle 

(appropriate) frequenze nucleotidiche di background

Esempio 

S = ACTGGA 

n A C G T 

1 3 0 0 0 

2 0 4 0 0 

3 0 2 0 2 

4 0 0 4 0 

5 0 0 4 0 

6 1 0 0 3 

P(S|M) = 1 · 1 · 1 

2 · 1 · 1 · 1 

4 = 1 8 

( ) 6 1 

P(S|B) = = 2 −12 = 4096 

4 

P(S|M) 

P(S|B) = 2−3 + 2 12 = 2 9 

score = 9 

(N.B. per evitare problemi con log(0) 

si aggiungono “pseudocounts” per le 

basi che non compaiono mai in 

ciascuna posizione)

Ricerca di TFBS 

◮ Ogni volta che la sequenza supera un certo score minimo 

deciso a priori, la si identifica come un candidato TFBS 

◮ Problema: in genere si trovano troppi candidati: 

◮ PWM di lunghezza 6 

◮ Accettiamo solo il massimo score possibile (1 sola 

sequenza) 

◮ Su sequenze casuali, otteniamo un candidato ogni 

4 6 = 4, 000 basi 

◮ Sul genoma umano, ci aspettiamo 

3 · 10 9 

∼ 7.5 · 105 

4 · 103 candidati semplicemente per caso

Soluzioni 

1. Spesso i TFBS funzionali sono ripetuti nella regione 

regolatrice ⇒ Selezionare soltanto le regioni regolatrici 

in cui il numero di candidati è significativamente più 

alto di quanto ci si aspetta per caso 

2. Spesso i TFBS funzionali sono evolutivamente conservati 

⇒ Selezionare soltanto i candidati TFBS che si 

ritrovano in altre specie

Biologia Molecolare Computazionale

Create successful ePaper yourself

Delete template?

Save as template?