Voorbeeld - caagt

Gerichte acyclische 

grafen 

toepassing: toerist in Manhattan 

topologisch sorteren van DAG 

toepassing: DNA sequence alignment 

Cursus Grafentheorie en Combinatorische Optimalisatie (2008–2009) – p.1/71

Manhattan tourist problem 


Toerist in Manhattan 

Gegeven 

stadsplan van Manhattan 

locaties van toeristische attracties 

toerist begint wandeling in NW hoek en gaat 

naar ZO hoek 

beweegt enkel op W→O en N→Z straten 


Toerist in Manhattan 

Gegeven 

stadsplan van Manhattan 

locaties van toeristische attracties 

toerist begint wandeling in NW hoek en gaat 

naar ZO hoek 

beweegt enkel op W→O en N→Z straten 

Probleem 

vind een route die het meeste toeristische 

attracties aandoet 


Voorstellen als graaf 

Gewogen gerichte acyclische graaf (DAG) 

toppen: kruispunten van straten 

bogen: straten tussen kruispunten 

kan getekend worden als n × m rooster 

booggewichten: aantal attracties op straat 

pijlen op bogen: enkel → en ↓ 

acyclisch: niet mogelijk om in cirkels te 

wandelen 


Voorbeeld 

3 2 4 0 

1 0 2 4 3 

3 2 4 2 

4 6 5 2 1 

0 7 3 4 

4 4 5 2 1 

3 3 0 2 

5 6 8 5 3 

1 3 2 2 


Wandeling in Manhattan 

correspondeert met pad in gewogen DAG 

lengte van pad is som van gewichten van 

bogen op pad 

Bron en bestemming 

gegeven starttop en eindtop 

hier: NW-hoek (0, 0) en ZO-hoek (n,m) 



3 2 4 0 

0 3 5 9 

1 0 2 4 3 

3 2 4 2 

13 

4 6 5 2 1 

0 7 3 4 

15 19 

4 4 5 2 1 

3 3 0 2 

5 6 8 5 3 

1 3 2 2 

20 

23 


Oplossen van probleem 

Probleem vertaalt naar 

bepalen van langste pad van bron (0, 0) naar 

bestemming (n,m) in gewogen DAG 


Oplossen van probleem 

Probleem vertaalt naar 

bepalen van langste pad van bron (0, 0) naar 

bestemming (n,m) in gewogen DAG 

Oplossen van probleem voor n × m rooster 

algemener probleem oplossen 

bepaal langste pad van (0, 0) naar alle (i,j) 

met 0 ≤ i ≤ n en 0 ≤ j ≤ m 

notatie: si,j is lengte van pad 

merk op: sn,m is gewenste resultaat 


Bepalen s0,j en sj,0 

3 2 4 0 

0 3 5 9 9 

1 

5 

9 

14 

1 0 2 4 3 

3 2 4 2 

4 6 5 2 1 

0 7 3 4 

4 4 5 2 1 

3 3 0 2 

5 6 8 5 3 

1 3 2 2 

geen keuze in pad 


Bepalen s1,1 

3 2 4 0 

0 3 5 9 9 

1 

5 

9 

14 

1 0 2 4 3 

3 2 4 2 

4 

4 6 5 2 1 

0 7 3 4 

4 4 5 2 1 

3 3 0 2 

5 6 8 5 3 

1 3 2 2 

s1,1 = max( s0,1 + w (0,1),(1,1) ; s1,0 + w (1,0),(1,1) ) 


Bepalen s1,j 

3 2 4 0 

0 3 5 9 9 

1 

5 

9 

14 

1 0 2 4 3 

3 2 4 2 

4 

4 6 5 2 1 

0 7 3 4 

10 

4 4 5 2 1 

3 3 0 2 

14 

5 6 8 5 3 

1 3 2 2 

20 

s1,j = max( s0,j + w (0,j),(1,j) ; s1,j−1 + w (1,j−1),(1,j)) 


Bepalen s2,j 

3 2 4 0 

0 3 5 9 9 

1 

5 

9 

14 

1 0 2 4 3 

3 2 4 2 

4 7 

4 6 5 2 1 

0 7 3 4 

10 17 

4 4 5 2 1 

3 3 0 2 

14 22 

5 6 8 5 3 

1 3 2 2 

20 30 

s2,j = max( s1,j + w (1,j),(2,j) ; s2,j−1 + w (2,j−1),(2,j) ) 


Bepalen si,j 

3 2 4 0 

0 3 5 9 9 

1 

5 

9 

14 

1 0 2 4 3 

3 2 4 2 

4 7 13 15 

4 6 5 2 1 

0 7 3 4 

10 17 20 

4 4 5 2 1 

3 3 0 2 

14 22 22 

5 6 8 5 3 

1 3 2 2 

20 30 32 

si,j = max( si−1,j +w (i−1,j),(i,j) ; si,j−1+w (i,j−1),(i,j) ) 

24 

25 

34 


Algoritme in pseudocode 

Input: gewogen n × m-rooster met → en ↓ pijlen 

Output: lengte van langste pad (0, 0) (n,m) 

1: s0,0 ← 0 

2: for i from 1 to n do 

3: si,0 ← si−1,0 + w(i−1,0),(i,0) 

4: for j from 1 to m do 

5: s0,j ← s0,j−1 + w (0,j−1),(0,j) 


7: for j from 1 

 

to m do 

8: si,j = max 

si−1,j + w (i−1,j),(i,j) 

si,j−1 + w (i,j−1),(i,j) 

9: return sn,m Cursus Grafentheorie en Combinatorische Optimalisatie (2008–2009) – p.14/71

Bepalen van langste pad 

3 2 4 0 

0 3 5 9 9 

1 

5 

9 

14 

1 2 4 

3 2 

4 7 13 15 

4 6 

10 

7 3 4 

17 20 

4 4 5 2 1 

14 

5 6 8 

20 

22 

30 

0 

22 

2 2 

32 

24 

25 

34 


Voor algemene DAGs 

Algemeen 

graaf is geen regelmatig rooster 

elke top heeft pijlen naar andere toppen 


Voor algemene DAGs 

Algemeen 

graaf is geen regelmatig rooster 

elke top heeft pijlen naar andere toppen 

Definities (onderstel u → v) 

v is opvolger van u 

S(u) is verzameling van opvolgers van u 

uitgraad van u = |S(u)| 

u is voorganger van v 

P(v) is verzameling van voorgangers van v 

ingraad van v = |P(v)| 



kunnen willekeurige toppen zijn 




Algemene formule 

sv = max 

u∈P(v) (su + wu,v) 





sv = max 

u∈P(v) (su + wu,v) 

Belangrijk aspect 

volgorde waarin toppen bezocht worden 

wanneer v bezocht wordt, moeten al zijn 

voorgangers reeds berekend zijn 


Topologische sortering van DAG 


lineaire ordening van toppen zo dat alle pijlen 

voorwaarts wijzen 






Mogelijkheden op rooster (evt. met 

diagonalen) 

rij per rij 

kolom per kolom 

diagonaal per diagonaal 






Mogelijkheden op rooster (evt. met 

diagonalen) 

rij per rij 

kolom per kolom 

diagonaal per diagonaal 

Voor een algemene DAG? 


Ordening van rooster 

1 6 11 16 21 

2 7 12 17 22 

3 8 13 18 23 

4 9 14 19 24 

5 10 15 20 25 

1 2 3 4 5 

6 7 8 9 10 

11 12 13 14 15 

16 17 18 19 20 

21 22 23 24 25 

1 2 4 7 11 

3 5 8 12 16 

6 9 13 17 20 

10 14 18 21 23 

15 19 22 24 25 


Ordening rooster met diagonalen 

1 6 11 16 21 

2 7 12 17 22 

3 8 13 18 23 

4 9 14 19 24 

5 10 15 20 25 

1 2 3 4 5 

6 7 8 9 10 

11 12 13 14 15 

16 17 18 19 20 

21 22 23 24 25 

1 2 4 7 11 

3 5 8 12 16 

6 9 13 17 20 

10 14 18 21 23 

15 19 22 24 25 


Ordening van algemene DAG 

Bv. Batman kleedt zich ’s ochtends aan 

leotard 

boots 

tights 

shorts 

cape 

belt 

gloves 

hood 


Ordening van algemene DAG 

Bv. Batman kleedt zich ’s ochtends aan 

leotard 

boots 

tights 

shorts 

cape 

belt 

gloves 

hood 

Topologisch sorteren: algemeen idee 

kies een top zonder voorgangers 

“verwijder” uit DAG 

herhaal tot alle toppen verwerkt 


Aligneren van 

DNA-sequenties en 

editeerafstand 


Aligneren van DNA-sequenties 

Bedoeling 

meten van “similariteit” tussen 

DNA-sequenties 

concept van “afstand” tussen DNA-seq. 


Aligneren van DNA-sequenties 

Bedoeling 

meten van “similariteit” tussen 

DNA-sequenties 

concept van “afstand” tussen DNA-seq. 

Afstand tussen 2 strings in CS 

Maar 

Hamming-afstand 

# posities waarin ze verschillen 

Hamming-afstand is geen goede maat voor 

similariteit van DNA-sequenties 


Similariteit van DNA-sequenties 

Voorbeeld: ATATAT en TATATA 

Hamming-afstand is 6 

maar zeer gelijkend wanneer gealigneerd als 

ATATAT- 

-TATATA 


Similariteit van DNA-sequenties 

Voorbeeld: ATATAT en TATATA 

Hamming-afstand is 6 

maar zeer gelijkend wanneer gealigneerd als 

ATATAT- 

-TATATA 

Voorbeeld: ATATATAT en TATAAT 

gelijkenis beter getoond door alignering 

ATATATAT 

-TATA-AT 


Editeerafstand 

Editeerafstand tussen 2 strings 

minimum # editeerbewerkingen die een string 

in de andere omzetten 

Editeerbewerkingen 

een symbool tussenvoegen (insertion) 

een symbool verwijderen (deletion) 

een symbool door een ander vervangen 

(substitution) 



TGCATAT en ATCCGAT 

kunnen gealigneerd worden als 

(editeerafstand ≤ 5) 

-TGC-ATAT 

ATCCGAT-- 

+.|.+..-- 






-TGC-ATAT 

ATCCGAT-- 

+.|.+..-- 

of beter gealigneerd als (editeerafstand ≤ 4) 

-TGCATAT 

ATCCG-AT 

+.|.|-.. 






-TGC-ATAT 

ATCCGAT-- 

+.|.+..-- 

of beter gealigneerd als (editeerafstand ≤ 4) 

-TGCATAT 

ATCCG-AT 

+.|.|-.. 

minimum? 


Voorstellen van aligneringen 

Alignering van twee strings 

string v (lengte n) en string w (lengte m) 

tabel van 2 rijen met karakters 

eerste rij bevat karakters van v in volgorde 

tweede rij bevat karakters van w in volgorde 

op verscheidende plaatsen zijn spaties 

tussengevoegd 

geen enkele kolom heeft spaties in beide rijen 

# kolommen ≤ n + m 


Voorbeeld: ATGTTAT en ATCGTAC 

A T - G T T A T - 

A T C G T - A - C 


Voorbeeld: ATGTTAT en ATCGTAC 

A T - G T T A T - 

A T C G T - A - C 

Definities 

match: kolom met = karakter in beide rijen 

mismatch: = karakter in beide rijen 

indel: kolom met spaties in een rij 

insertion: spatie in bovenste rij 

deletion: spatie in onderste rij 

e.g. 5 matches, 0 mismatches, Cursus Grafentheorie 4 indels 

en Combinatorische Optimalisatie (2008–2009) – p.28/71

Stringvoorstelling van rijen 

als string v aangevuld met spaties 

e.g. AT-GTTAT- en ATCGT-A-C 





Integervoorstelling van rijen 

lijst van ints die # karakters tot positie geven 

e.g. 122345677 en 123455667 





Integervoorstelling van rijen 

lijst van ints die # karakters tot positie geven 

e.g. 122345677 en 123455667 

Tabelvoorstelling van alignering 

combineer integervoorstelling van rijen 

e.g. 

1 2 2 3 4 5 6 7 7 

1 2 3 4 5 5 6 6 7 


Interpretatie van tabelvoorstelling 

elke kolom is coördinaat in n × m rooster 

alignering is pad van (0, 0) naar (n,m) 

e.g. (0, 0) → (1, 1) → (2, 2) → (2, 3) → (3, 4) 

→ (4, 5) → (5, 5) → (6, 7) → (7, 6) → (7, 7) 


Interpretatie van tabelvoorstelling 

elke kolom is coördinaat in n × m rooster 

alignering is pad van (0, 0) naar (n,m) 

e.g. (0, 0) → (1, 1) → (2, 2) → (2, 3) → (3, 4) 

→ (4, 5) → (5, 5) → (6, 7) → (7, 6) → (7, 7) 

Merk op 

rooster cfr. toerist in Manhattan 

maar kunnen ook langs diagonaal bewegen 


Voorbeeld van alignering 

0 

1 

2 

3 

4 

5 

6 

7 

0 1 2 3 4 5 6 7 

(0, 0) → (1, 1) → (2, 2) → (2, 3) → (3, 4) → 

(4, 5) → (5, 5) → (6, 7) → (7, 6) → (7, 7) 


Editeergraaf 

Editeergraaf 

n × m rooster met →, ↓, ց pijlen 

Pad in editeergraaf 

correspondeert met alignering 

boog kolom in tabelvoorstelling van 

alignering 

ց correspondeert met vi 

wj 

→ correspondeert met − 

wj 

↓ correspondeert met vi 

− 


Voorbeeld van alignering 

0 1 2 2 3 4 5 6 7 7 

v = A T - G T T A T - 

| | | | | 

w = A T C G T - A - C 

0 1 2 3 4 5 5 6 6 7 

ց ց → ց ց ↓ ց ↓ → 


Hoe de editeergraaf gebruiken 

Scorefunctie 

gebruikt voor inschatten waarde alignering 

gewenst: hoge waarden voor aligneringen 

met meer matchings 



Scorefunctie 





score voor kolom in alignering: 

positief getal voor = karakters 

negatief getal voor = karakters 



Scorefunctie 





score voor kolom in alignering: 

positief getal voor = karakters 

negatief getal voor = karakters 

score voor alignering: 

som van scores van kolommen 


Opstellen van scoreschema 

gewichten aan bogen in graaf geven 




Verschillende scorefuncties 

gebruikt voor verschillende 

aligneringsproblemen 




Verschillende scorefuncties 

gebruikt voor verschillende 



+1 voor match, 0 anders 

probleem is bepalen van langste 

gemeenschappelijk deelsequentie 


Langste 

gemeenschappelijke 

deelsequenties (LCS) 


Deelsequenties 

Deelsequentie van string v 

(geordende) sequentie van karakters (niet 

noodzakelijke opeenvolgend) uit v 

Voorbeeld: v = ATTGCTA 

AGCA en ATTA zijn deelsequenties van v 

TGTT en TCG zijn dat niet 


Deelsequenties 

Deelsequentie van string v 

(geordende) sequentie van karakters (niet 

noodzakelijke opeenvolgend) uit v 

Voorbeeld: v = ATTGCTA 

AGCA en ATTA zijn deelsequenties van v 

TGTT en TCG zijn dat niet 

Merk op 

deelsequenties = deelstring 


Gemeenschappelijke deelsequenties 

Gemeenschappelijke deelseq. van v en w 

deelsequentie van zowel v als w 

Voorbeeld: v = ATCTGAT en w = TGCATA 

TCTA is gemeenschappelijk aan v en w 


Gemeenschappelijke deelsequenties 

Gemeenschappelijke deelseq. van v en w 

deelsequentie van zowel v als w 

Voorbeeld: v = ATCTGAT en w = TGCATA 

TCTA is gemeenschappelijk aan v en w 

Formele definitie 

posities 1 ≤ i1 ≤ · · · ≤ ik ≤ n in v = v1 ...vn 

pos. 1 ≤ j1 ≤ · · · ≤ jk ≤ m in w = w1 ...wm 

zo dat vit 

= wjt voor alle 1 ≤ t ≤ k 

i.e. symbolen op corresponderende posities 

zijn gelijk Cursus Grafentheorie en Combinatorische Optimalisatie (2008–2009) – p.38/71

Langste gemeenschapp. deelseq. 

Probleem: gegeven twee strings v en w 

van alle gemeenschappelijke deelsequenties 

van v en w, bepaal langste 

gemeenschappelijke deelsequentie (LCS) 


Langste gemeenschapp. deelseq. 

Probleem: gegeven twee strings v en w 

van alle gemeenschappelijke deelsequenties 

van v en w, bepaal langste 

gemeenschappelijke deelsequentie (LCS) 

Eigenschap 

zij s(v,w) lengte van LCS 

zij d(v,w) editeerafstand tussen v en w 

ond. enkel insertions en deletions 

toegelaten 

i.e. # indels nodig om v in w om te zetten 

Cursus Grafentheorie en Combinatorische Optimalisatie (2008–2009) – p.39/71 

dan d(v,w) = n + m − 2s(v,w)


ATCTGAT en TGCATA 

kan gealigneerd worden als 

AT-C-TGAT 

-TGCAT-A- 

editeerafstand is (hoogstens) 5 

lenge van LCS is (7 + 6 − 5)/2 = 4 

LCS van lengte 4 is TCTA 


LCS als aligneringsprobleem 

Dus 

LCS is te beschouwen als 

aligneringsprobleem van sequenties 

enkel insertions en deletions toegelaten 

substitution is niet toegelaten 



Dus 

LCS is te beschouwen als 

aligneringsprobleem van sequenties 

enkel insertions en deletions toegelaten 

substitution is niet toegelaten 

Corresponderende editeergraaf 

heeft → en ↓ bogen 

heeft ց bogen voor symbolen die matchen 

i.e. ց bogen voor niet-matchende symbolen 

zijn verwijderd 



Bepaal LCS van TGCATA en ATCTGAT 

A 

T 

C 

T 

G 

A 

T 

T G C A T A 



Booggewichten in editeergraaf 

→ en ↓ bogen krijgen gewicht 0 

ց bogen krijgen gewicht +1 



Booggewichten in editeergraaf 

Dan 

→ en ↓ bogen krijgen gewicht 0 

ց bogen krijgen gewicht +1 

LCS-probleem is bepalen van langste pad in 

editeergraaf 

gebruiken techniek van dynamisch 

programmeren 


LCS als DP-probleem 

Notatie 

si,j = lengte van LCS tussen prefixen v1 · · ·vi 

en w1 · · · wj 



Notatie 

si,j = lengte van LCS tussen prefixen v1 · · ·vi 

en w1 · · · wj 

Eerste rij en kolom 

s0,j = 0 voor alle 1 ≤ j ≤ m 

si,0 = 0 voor alle 1 ≤ i ≤ n 



A 

T 

C 

T 

G 

A 

T 

0 0 0 0 0 0 

0 

0 

0 

0 

0 

0 

0 

T G C A T A 

0 



A 

T 

C 

T 

G 

A 

T 

0 0 0 0 0 0 

0 

0 

0 

0 

0 

0 

0 

T G C A T A 

0 0 0 1 1 

0 

1 



A 

T 

C 

T 

G 

A 

T 

0 0 0 0 0 0 

0 

0 

0 

0 

0 

0 

0 

T G C A T A 

0 0 0 1 1 

1 1 1 1 2 2 

0 

1 



A 

T 

C 

T 

G 

A 

T 

0 0 0 0 0 0 

0 

0 

0 

0 

0 

0 

0 

T G C A T A 

0 0 0 1 1 

1 1 1 1 2 2 

1 1 2 2 2 2 

0 

1 




als vi = wj dan 

si,j = max 

 

als vi = wj dan 

⎧ 

⎪⎨ 

si,j = max 

⎪⎩ 

si−1,j 

si,j−1 

si−1,j 

si,j−1 

si−1,j−1 + 1 



Merk op 

si−1,j 

deletion van vi 

vi komt niet voor in LCS van i-prefix van v 

si,j−1 

insertion van wj 

wj komt niet voor in LCS van j-prefix van w 

si−1,j−1 + 1 

match van vi en wj 


Algoritme in pseudocode 

Input: strings v en w van lengte n en m 

Output: s(v,w) 


2: si,0 ← 0 


4: s0,j ← 0 



7: if vi = wj then 

8: si,j ← max(si−1,j;si,j−1;si−1,j−1 + 1) 

9: else 

10: si,j ← max(si−1,j;si,j−1) 

11: return sn,m 



Volledige DP-tabel: s(v,w) = 4 

A 

T 

C 

T 

G 

A 

T 

0 0 0 0 0 0 

0 

0 

0 

0 

0 

0 

0 

T G C A T A 

0 0 0 1 1 

1 1 1 1 2 2 

1 1 2 2 2 2 

1 

1 

1 

1 

1 

2 

2 

2 

2 

2 

2 

2 

2 

2 

3 

3 

3 

3 

3 

4 

0 

1 

3 

3 

4 

4 


Bepalen van LCS 

Om LCS uit DP-tabel te reconstrueren 

opslaan van backtrack pointers bi,j 

houden bij welke van si−1,j;si,j−1;si−1,j−1 + 1 

tot si,j leidt 


Bepalen van LCS 

Om LCS uit DP-tabel te reconstrueren 

Dus 

opslaan van backtrack pointers bi,j 

houden bij welke van si−1,j;si,j−1;si−1,j−1 + 1 

tot si,j leidt 

als si,j = si−1,j dan bi,j =← 

als si,j = si,j−1 dan bi,j =↑ 

als si,j = si−1,j−1 + 1 dan bi,j =տ 



Een langste pad: LCS is TCTA 

A 

T 

C 

T 

G 

A 

T 

0 0 0 0 0 0 

0 

0 

0 

0 

0 

0 

0 

T G C A T A 

0 0 0 1 1 

1 1 1 1 2 2 

1 1 2 2 2 2 

1 

1 

1 

1 

1 

2 

2 

2 

2 

2 

2 

2 

2 

2 

3 

3 

3 

3 

3 

4 

0 

1 

3 

3 

4 

4 



Een ander langste pad: LCS is TGAT 

A 

T 

C 

T 

G 

A 

T 

0 0 0 0 0 0 

0 

0 

0 

0 

0 

0 

0 

T G C A T A 

0 0 0 1 1 

1 1 1 1 2 2 

1 1 2 2 2 2 

1 

1 

1 

1 

1 

2 

2 

2 

2 

2 

2 

2 

2 

2 

3 

3 

3 

3 

3 

4 

0 

1 

3 

3 

4 

4 


Complexiteit 

Tijdscomplexiteit 

berekenen van s(v,w) kost Θ(nm) tijd 

reconstrueren van LCS kost Θ(n + m) tijd 


Complexiteit 

Tijdscomplexiteit 

berekenen van s(v,w) kost Θ(nm) tijd 

reconstrueren van LCS kost Θ(n + m) tijd 

Geheugencomplexiteit 

DP-tabel kost Θ(nm) geheugen 

tabel met backtrack pointers kost Θ(nm) 

geheugen 


Globaal aligneren van 

sequenties 


Opmerking 

Merk op 

LCS is aligneringsprobleem met beperkte 

scorefunctie 

score 1 voor matches 

score 0 voor indels 

Proberen scorefunctie te veralgemenen 


Globaal aligneren van sequenties 

Scorematrix δ 

een (k + 1) × (k + 1) matrix 

met k grootte van alfabet (bv. 4 voor DNA) 

δ(x,y) = score van x 

y in alignering 




een (k + 1) × (k + 1) matrix 




Voorbeeld: meestal gebruikt 

−µ voor mismatch, −σ voor indel, +1 voor 

match 




een (k + 1) × (k + 1) matrix 




Voorbeeld: meestal gebruikt 


match 

Score van alignering 

som van scores van de kolommen 


Probleem van globale alignering 

Input 

twee strings v en w 

scorematrix δ 

Output 

een alignering van v en w zo dat score (zoals 

gedefinieerd door δ) maximum is van alle 

mogelijke aligneringen van v en w 


Recurrente betrekking 

Notatie si,j 

score van alignering van i-prefix van v met 

j-prefix van w 

Recurrente betrekking voor si,j 

si,j = max 

⎧ 

⎪⎨ 

⎪⎩ 

si−1,j + δ(vi, −) 

si,j−1 + δ(−,wj) 

si−1,j−1 + δ(vi,wj) 



Scores 


match 

Resulterende score 

= #matches−µ×# mismatches−σ ×# indels 



Scores 


match 

Resulterende score 

= #matches−µ×# mismatches−σ ×# indels 

Recurrente betrekking herschreven 

⎧ 

si−1,j − σ 

⎪⎨ 

si,j−1 − σ 

si,j = max 

si−1,j−1 − µ if vi = wi 

⎪⎩ 

si−1,j−1 + 1 if vi = wi 


Opmerkingen 

LCS als probleem van globaal aligneren 

µ = ∞,σ = 0 


Opmerkingen 

LCS als probleem van globaal aligneren 

µ = ∞,σ = 0 

Scorematrices 

voor DNA-sequenties dikwijls gebruikt 

µ als kost voor mismatch 

σ als kost voor indel 

ingewikkelder voor andere 



Lokaal aligneren van 

sequenties 


Opmerking 


zoekt gelijkenis tussen volledige strings 

nuttig wanneer gelijkenis betrekking heeft op 

volledige lengte van strings 


Opmerking 





Maar in vele toepassingen 

score van alignering tussen twee deelstrings 

van v en w zou kunnen groter zijn dan score 

van alignering tussen volledige v en w 


Opmerking 





Maar in vele toepassingen 

score van alignering tussen twee deelstrings 

van v en w zou kunnen groter zijn dan score 

van alignering tussen volledige v en w 

Probleem 

bepalen van dergelijke alignering van 

Cursus Grafentheorie en Combinatorische Optimalisatie (2008–2009) – p.65/71 

deelstrings


Strings zijn 

TCCCAGTTATGTCAGGGGACACGAGCATGCAGAGAC 

AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC 



Strings zijn 



Globale alignering 

--T--CC-C-AGT--TATGT-CAGGGGACACG--A-GCATGCAGA-GAC 

..|..||.|..||..|.|.|.|||....||.|..|.|..|.||||...| 

AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG--T-CAGAT--C 



Strings zijn 



Globale alignering 

--T--CC-C-AGT--TATGT-CAGGGGACACG--A-GCATGCAGA-GAC 

..|..||.|..||..|.|.|.|||....||.|..|.|..|.||||...| 

AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG--T-CAGAT--C 

Lokale alignering 

------------------tccCAGTTATGTCAGgggacacgagcatgcagagac 

.....................||||||||||||..................... 

aattgccgccgtcgttttcagCAGTTATGTCAGatc------------------ 


Probleem van lokaal aligneren 

Input 



Output 

deelstrings van v en w zo dat globale 

alignering, gedefinieerd door δ, maximum is 

van alle globale aligneringen van deelstrings 

van v en w 


Probleem van lokaal aligneren 

Input 



Output 

deelstrings van v en w zo dat globale 

alignering, gedefinieerd door δ, maximum is 

van alle globale aligneringen van deelstrings 

van v en w 

Opmerking 

schijnt veel gecompliceerder dan globale 

alignering te zijn 


Observatie 

Globale alignering correspondeert met 

bepalen van langste pad in editeergraaf 

tussen (0, 0) en (n,m) 


Observatie 




Lokale alignering correspondeert met 


tussen willekeurige toppen (i,j) en (i ′ ,j ′ ) 


Observatie 




Lokale alignering correspondeert met 

Maar 


tussen willekeurige toppen (i,j) en (i ′ ,j ′ ) 

DP-oplossing voor globale alignering bepaalt 

langste pad tussen (0, 0) en elke (i,j) in 

editeergraaf 


Oplossen van lokale alignering 

Eenvoudige, maar inefficiënte benadering 

voor alle paren toppen (i,j) en (i ′ ,j ′ ) 

bepalen langste pad tussen (i,j) en (i ′ ,j ′ ) 

bijhouden wat uiteindelijke langste pad is 


Oplossen van lokale alignering 

Eenvoudige, maar inefficiënte benadering 

voor alle paren toppen (i,j) en (i ′ ,j ′ ) 

bepalen langste pad tussen (i,j) en (i ′ ,j ′ ) 

bijhouden wat uiteindelijke langste pad is 

Efficiënter (Smith-Waterman, 1981) 

toevoegen boog met gewicht 0 van (0, 0) naar 

elke (i,j) 

voor alle toppen (i,j) 

bepalen langste pad van (0, 0) naar (i,j) 


Recurrentie voor lokale alignering 

Recurrente betrekking 

⎧ 

0 

⎪⎨ 

si−1,j + δ(vi, −) 

si,j = max 

si,j−1 + δ(−,wj) 

⎪⎩ 

si−1,j−1 + δ(vi,wj) 


Opmerking 

Algemenere aligneringsproblemen, e.g. 

alignering met gap penalties 

meervoudige alignering 


Opmerking 

Algemenere aligneringsproblemen, e.g. 

alignering met gap penalties 

meervoudige alignering 

Manier van oplossen 

opstellen van geschikte recurrente betrekking 

gebruiken dynamisch programmeren

Voorbeeld - caagt

Create successful ePaper yourself

Delete template?

Save as template?