Kapitel 3

26 3 ABSTAND UND ÄHNLICHKEIT 

Wenn wir also einfache Edit-Operationen zugrunde legen und die elementare Distanzfunktion 

w eine Metrik ist, können wir mit Hilfe des Wagner-Fischer-Algorithmus eine 

optimale Edit-Sequenz zur Transformation von x in y bestimmen. 

Mit einer relativ kleinen Modifikation am Verfahren kann man auch optimale Edit-Sequenzen 

für den Fall berechnen, dass zu den einfachen Edit-Operationen zusätzlich Transpositionen 

aufgenommen werden. 

3.3 Allgemeine Edit-Operationen und Lückenkosten 

Will man allgemeine Edit-Operationen (r, s) ∈ Σ ∗ × Σ ∗ zulassen, so kann man unter 

gewissen Voraussetzungen Rekursionsformeln zur Berechnung eines entsprechenden Distanzbegriffs 

herleiten. 

3.3.1 Allgemeine Edit-Operationen 

Definition 3.13 

Sei ω ⊆ Σ ∗ × Σ ∗ eine vorgegebene endliche Menge von Edit-Operationen. Für jedes 

(r, s) ∈ ω seien Kosten w(r, s) ∈ R mit w(r, s) ≥ 0 festgelegt. Weiterhin gelte 

w(r, s) = 0 genau dann, wenn r = s. 

Seien x, y ∈ Σ ∗ . Dann sei E ω (x, y) die Menge aller Edit-Sequenzen σ = (r 1 → 

s 1 , · · · ,r n → s n ) mit r i → s i aus ω, die x in y überführen. Die leere Edit-Sequenz 

σ 0 = () überführt x in x. 

Dann definiert man die allgemeine Edit-Distanz bezüglich ω zu 

wobei 

D S (x, y) = max{ϱ(x, y),ϱ(y, x)} 

ϱ(x, y) = ∞, falls E ω (x, y) =∅ und x ≠ y 

|σ| 

∑ 

ϱ(x, y) = min 

σ∈E ω(x,y) 

w(r i ,s i ) sonst. 

Durch x ∼ y genau dann wenn D S (x, y) < ∞ wird eine Äquivalenzrelation auf Σ ∗ definiert. 

i=1 

Satz 3.14 

Sei A Äquivalenzklasse bzgl. ∼. Dann ist D S Metrik auf A. 

Beweis: 

D S ist symmetrisch und D S (x, y) ≥ 0. 

Weiterhin gilt D S (x, x) = 0, da die leere Edit-Sequenz aus E ω (x, x) ist. 

Für x, y und z ∈ A gilt 

D S (x, z)+D S (z, y) ≥ ϱ(x, z)+ϱ(z, y) ≥ ϱ(x, y)

3.3 Allgemeine Edit-Operationen und Lückenkosten 27 

(man führe einfach beide Edit-Sequenzen nacheinander aus) und entsprechend 

D S (x, z)+D S (z, y) ≥ ϱ(y, x), 

also gilt 

D S (x, z)+D S (z, y) ≥ D S (x, y). 

Dieser Abstandsbegriff ist zu allgemein (Stichwort: Term-Ersetzungs-Systeme) und daher 

im allgemeinen Fall nicht berechenbar, also müssen Einschränkungen bei den Edit-Folgen 

gemacht werden. 

Idee: Es sollen nur solche Edit-Folgen betrachtet werden, die bei einer Überführung von 

x nach y jedes Zeichen in x höchstens einmal verändern. 

Wir definieren daher Edit-Sequenzen mit der Eigenschaft (∗): 


Sei σ =(r 1 → s 1 , · · · ,r k → s k ) ∈E ω (x, y) eine Folge von Edit-Operationen, die x nach 

y überführt. σ hat die Eigenschaft ∗, wenn es eine Zerlegung x = u 0 r 1 u 1 r 2 · · · r k u k und 

y = u 0 s 1 u 1 s 2 · · · s k u k gibt mit u i ∈ Σ ∗ , 0 ≤ i ≤ k. 

Jede Edit-Operation einer Edit-Sequenz mit Eigenschaft ∗ kann also unabhängig von jeder 

anderen angewendet werden (parallele Transformation). Die Menge aller (∗) erfüllenden 

Edit-Sequenzen, die x nach y überführen sei E ∗ ω(x, y). 

Also könnte man einen neuen Ansatz zur Definition der Distanzfunktion DS ∗ bei allgemeinen 

Edit-Operationen machen: 


Seien x, y ∈ Σ ∗ , E ∗ ω(x, y) die Menge der Edit-Sequenzen mit Eigenschaft ∗, die x nach 

y überführen. Für jedes (r, s) ∈ ω seien Kosten w(r, s) ∈ R mit w(r, s) ≥ 0 festgelegt. 

Weiterhin gelte w(r, s) = 0 genau dann, wenn r = s.. 

Dann sei 

D ∗ S(x, y) := 

|σ| 

∑ 

min 

σ∈Eω(x,y) 

∗ i=1 

w(r i ,s i ), wobei σ =(r 1 → s 1 , · · · ,r k → s k ) und k = |σ| 

der Abstand zwischen x und y bezüglich der Menge ω von Edit-Operationen. 

Eine 

∑ 

Edit-Sequenz σ = (r 1 → s 1 , . . . , r k → s k ) heißt optimal, falls DS ∗ (x, y) = 

k 

1 w(r i,s i ). 

Offensichtlich gilt 

D ∗ S(x, y) ≥ ϱ(x, y), da E ∗ ω(x, y) ⊆E ω (x, y) 

Bemerkung: 

Betrachtet man die einfachen Edit-Operationen und ist w eine Metrik, so folgt sofort 

DS ∗ = ϱ, da w(a, b) ≤ w(a, c)+w(c, b) und w(a, b) ≥ 0 ist.


Satz 3.17 

Seien x, y ∈ Σ ∗ mit |x| = n und |y| = m. Sei ω eine endliche Menge von Edit- 

Operationen und für jedes (r, s) ∈ ω seien Kosten w(r, s) ∈ R mit w(r, s) ≥ 0 festgelegt. 

Weiterhin gelte w(r, s) = 0 genau dann, wenn r = s. Dann gilt für alle 0 ≤ i ≤ n 

und 0 ≤ j ≤ m 

DS(x[1..i],y[1..j]) ∗ = min{p i,j ,q i,j } mit 

p i,j = 

{ 

DS ∗ (x[1..i − 1],y[1..j − 1]) falls x[i] =y[j], i, j > 0 

∞ 

sonst 

und 

q i,j = min 

(r, s) ∈ ω 

r Suffix von x[1..i] 

s Suffix von y[1..j] 

{D ∗ S(x[1..i −|r|],y[1..j −|s|]) + w(r, s)} , i, j ≥ 0 

Beweis: 

Es ist D ∗ S (ε, ε) = 0. Für i = 0 gilt D∗ S (ε, y[1..j]) = q 0,j, für j = 0 gilt entsprechend 

D ∗ S (x[1..i],ε) =q i,0 . 

Seien jetzt 1 ≤ i ≤ n und 1 ≤ j ≤ m beliebig aber fest gewählt. 

Es sei D ∗ S (x[1..i],y[1..j]) = 

k ∑ 

i=1 

w(r i ,s i )für eine Edit-Sequenz σ =(r 1 → s 1 ,r 2 → 

s k , · · · ,r k → s k ), die Bedingung (∗) erfüllt und x[1..i] in y[1..j] überführt. 

Also gilt wegen (∗) x[1..i] =u 0 r 1 u 1 . . . r k u k und y[1..j] =u 0 s 1 u 1 . . . s k u k mit u l ∈ Σ ∗ 

für 0 ≤ l ≤ k. 

Es sind drei Fälle zu unterscheiden: 

1) x[i] wird durch eine Edit-Operation transformiert. Es ist u k = ε und σ ′ =(r 1 → 

s 1 , · · · ,r k−1 → s k−1 ) ist eine optimale Edit-Sequenz, um x[1..i −|r k |] in y[1..j − 

|s k |] zu transformieren. Also gilt 

D ∗ S(x[1..i −|r k |],y[1..j −|s k |)+w(r k ,s k )=q i,j 

2) y[j] wird durch eine Edit-Operation eingesetzt. Dieser Fall wird wie Fall 1 behandelt. 

3) x[i] und y[j] werden nicht verändert. 

Dann ist x[i] =y[j] und D ∗ S (x[1..i − 1],y[1..j − 1]) = D∗ S (x[1..i],y[1..j]). 

Damit hat man eine rekursive Berechnungsvorschrift für das Abstandsmaß DS ∗ . Der Algorithmus 

benötigt O(n · m · l) Zeiteinheiten mit n = |x|, m = |y| und 

l = ∑ 

(r,s)∈ω 

|r| + |s|.


Bemerkung: 

Eine geschicktere Lösung erhält man, wenn man zwei Aho-Corasick-Automaten für 

die linken bzw. rechten Seiten der Edit-Operationen in ω konstruiert. Dann kann man 

für jedes Paar von Zeichenketten (z 1 ,z 2 ) die Menge der in dieser Situation anwendbaren 

Edit-Operationen vorher berechnen. Damit reduziert sich der Zeitbedarf (ohne 

die Vorverarbeitung zur Konstruktion der Automaten) auf O(n · m · c) wobei c die 

maximale Anzahl gleichzeitig anwendbarer Edit-Operationen ist. 

3.3.2 Lückenkosten 

Betrachtet man den Spezialfall von Edit-Operationen, bei denen nur einfache Substitutionen, 

aber beliebige Einsetz- und Löschoperationen erlaubt sind, so erhält man: 

ω l = {r → s | r, s ∈ Σ oder r = ε und s ≠ ε oder r ≠ ε und s = ε} 

Fordert man nun weiter, dass die Kosten der Einsetz- und Löschoperationen nur von 

der Länge der eingesetzten bzw. gelöschten Zeichenkette abhängen, erhält man folgende 

elementare Distanzfunktion w. 


Die elementare Distanzfunktion w : ˜Σ × ˜Σ → R sei festgelegt durch 

1. w(a, a) = 0 für a ∈ Σ, 

2. w(a, b) =w 0 > 0für a, b ∈ Σ,a≠ b, 

3. w(−,u)=w k und w(u, −) =w −k für u ∈ Σ + , |u| = k. 

Weiterhin gelte 0 h, k>0, so nennt man die w k affine Lückenkosten. 

Bemerkung: 

Lückenkosten der Form w k = w −k = k · w 0 nennt man lineare Lückenkosten. Sie 

entsprechen einer allg. Levenshtein-Metrik mit w(x, x) = 0 und w(x, y) = w 0 für 

x ≠ y als elementare Distanzfunktion. 

Bemerkung: 

Lückenkosten sind biologisch motiviert - viele kleinere Lücken sind biologisch gesehen 

teurer“ als eine große. 

”


Lemma 3.19 

Für eine optimale Edit-Sequenz, deren Edit-Operationen aus der oben definierten Menge 

ω l kommen, gilt die Bedingung (∗). Also ist hier D L (x, y) =D ∗ S (x, y) =ϱ(x 1,y 1 ). 

Beweis: 

Man überlegt sich leicht, daß wenn in einer Folge von Edit-Operationen minimalen 

Gewichts zwei Operationen ” 

nacheinander“ dieselben Zeichen verändern, diese Folge 

durch eine Folge mit kleinerem Gewicht ersetzt werden kann. 

Meist wählt man w k = w −k für k ∈ N, damit wird w Metrik auf Σ ∗ . 

Man kann die Werte von D L analog zum Satz 3.17 berechnen: 

Satz 3.20 

Sei ω l die Menge erlaubter Edit-Operationen und sei w eine elementare Distanzfunktion 

mit Lückenkosten, so gilt für alle x, y ∈ Σ ∗ mit |x| = n und |y| = m 

1. D L (ε, ε) = 0 

2. D L (x[1..i],ε) =D i,0 für 1 ≤ i ≤ n 

3. D L (ε, y[1..j]) = I 0,j für 1 ≤ j ≤ m 

4. D L (x[1..i],y[1..j]) = min{I i,j ,D i,j ,s} für i, j ≥ 1 

wobei 

und 

s = D L (x[1..i − 1],y[1..j − 1]) + w(x[i],y[j]) 

I i,0 = ∞ 

I i,j = min 

1≤k≤j {D L(x[1..i],y[1..j − k]) + w k } für 0 ≤ i ≤ n, 1 ≤ j ≤ m 

und 

Beweis: 

D 0,j = ∞ 

D i,j = min 

1≤k≤i {D L(x[1..i − k],y[1..j]) + w −k } für 1 ≤ i ≤ n, 0 ≤ j ≤ m 

(analog zum Satz 3.17) 

Die Zeitkomplexität des Verfahrens ist O(nm(n + m)). 

Beispiel 3.21 

Sei x = ywcqpgk und y = lawyqqkpgka. Es sei D L (x[1..i],y[1..j]) = d i,j . 

{ 

0 für a = b 

Weiterhin gelte w(a, b) = 

für a, b ∈ Σ 

3 sonst


Die Lückenkosten seien: 

k = 1 2 3 4 5 6 7 8 9 10 11 

w k = 2 3 4 5 6 7 8 9 10 11 12 

w −k = 4 6 8 10 12 14 16 18 20 22 24 

Die Werte I i,j und D i,j müssen eigentlich nicht tabelliert werden. Um das Verfahren 

an diesem Beispiel zu erläutern, werden die entsprechenden Werte in Form zweier 

Matrizen I und D dargestellt. 

Man erhält die Matrix I: 

0 1 2 3 4 5 6 7 8 9 10 11 

ε l a w y q q k p g k a 

0 ε ∞ 2 3 4 5 6 7 8 9 10 11 12 

1 y ∞ 6 5 6 7 6 7 8 9 10 11 12 

2 w ∞ 8 9 8 7 8 9 10 11 12 13 14 

3 c ∞ 10 11 12 11 10 11 12 13 14 15 16 

4 q ∞ 12 13 14 13 14 10 11 12 13 14 15 

5 p ∞ 14 15 16 15 16 14 13 13 14 14 15 

6 g ∞ 16 17 18 17 18 16 17 16 17 13 14 

7 k ∞ 18 19 20 19 20 18 19 17 18 17 13 

wobei sich zum Beispiel I 5,6 wie folgt ergibt: 

I 5,6 = min 

1≤k≤6 {d 5,6−k + w k } 

= min{12 + 2, 14 + 3, 13 + 4, 14 + 5, 13 + 6, 12 + 7} 

= 14 

Die Matrix D ergibt sich zu: 

0 1 2 3 4 5 6 7 8 9 10 11 


0 ε ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ 

1 y 4 6 7 8 9 10 11 12 13 14 15 16 

2 w 6 7 9 10 8 10 11 12 13 14 15 16 

3 c 8 9 10 9 10 11 13 14 15 16 17 18 

4 q 10 11 12 11 12 13 14 16 17 18 19 20 

5 p 12 13 14 13 14 12 14 15 16 17 18 19 

6 g 14 15 16 15 16 14 15 17 15 17 18 19 

7 k 16 17 18 17 18 16 17 18 17 15 17 18 

Dabei ist zum Beispiel.: 

D 5,6 = min 

1≤k≤5 {d 5−k,6 + w −k } 

= min{10 + 4, 10 + 6, 9+8, 7 + 10, 7 + 12} 

= 14


Mit d i,0 = min 

1≤k≤i {d i−k,0 + w −k } = D i,0 

d 0,j = min {d 0,j−k +w k } = I 0,j 

1≤k≤j 

Aussehen: 

(= 4 + 2(i − 1) im Beispiel), 

(= 2+(i−1) im Beispiel) hat die d-Matrix folgendes 

0 1 2 3 4 5 6 7 8 9 10 11 


0 ε 0 2 3 4 5 6 7 8 9 10 11 12 

1 y 4 3 5 6 4 6 7 8 9 10 11 12 

2 w 6 7 6 5 7 7 9 10 11 12 13 14 

3 c 8 9 10 9 8 10 10 12 13 14 15 16 

4 q 10 11 12 11 12 8 10 11 12 13 14 15 

5 p 12 13 14 13 14 12 11 13 11 13 14 15 

6 g 14 15 16 15 16 14 15 14 15 11 13 14 

7 k 16 17 18 17 18 16 17 15 17 15 11 13 

Dabei ist etwa 

d 5,6 = D L (ywcqp, lawyqq) = min{I 5,6 ,D 5,6 ,s} mit s = d 4,5 + w(p, q) = 11 

Der Abstand von x und y beträgt also unter dieser Distanzfunktion D L (x, y) = 13. 

Eine optimale Ausrichtung wäre: 

[ ] 

− y w c q − − p g k − 

l a w y q q k p g k a 

Will man das Problem für affine Lückenkosten lösen, so vereinfacht sich der Algorithmus 

und auch die Laufzeit wird verbessert. 

Satz 3.22 

Sei ω l die Menge erlaubter Edit-Operationen und sei w eine elementare Distanzfunktion 

mit affinen Lückenkosten, d.h. es ist w −k = w k = g + h · (k − 1) für g > h ≥ 0, so gilt 

für alle x, y ∈ Σ ∗ mit |x| = n und |y| = m: 

1) D L (ε, ε) = 0 

2) D L (x[1..i],ε) =D i,0 = w −i für 1 ≤ i ≤ n 

3) D L (ε, y[1..j]) = I 0,j = w j für 1 ≤ j ≤ m 

4) D L (x[1..i],y[1..j]) = min{I i,j ,D i,j ,s} 

wobei 

s = D L (x[1..i − 1],y[1..j − 1]) + w(x[i],y[j]) 

sowie 

und 

I i,0 = ∞, 

I i,j = min{D L (x[1..i],y[1..j − 1]) + g, I i,j−1 + h}, 0 ≤ i ≤ n, 1 ≤ j ≤ m 

D 0,j = ∞ 

D i,j = min{D L (x[1..i − 1],y[1..j]) + g, D i−1,j + h}, 1 ≤ i ≤ n, 0 ≤ j ≤ m.


Beweis: 

1. Zu zeigen: D L (ε, y[1..j]) = I 0,j = w j für j>0. 

Nach Satz 3.20 gilt: I 0,j = min 

1≤k≤j {D L(ε, y[1..j − k]) + w k }. 

Es ist I 0,1 = w 1 = g. Weiter folgt mit vollständiger Induktion über j: 

I 0,j = min{D L (ε, y[1..j − 1]) + w 1 }∪{ D L (ε, y[1..j − k]+w k | 2 ≤ k ≤ j} 

= min{I 0,j−1 + w 1 }∪{ D L (ε, y[1..j − 1 − k]+w k + h | 1 ≤ k ≤ j − 1} 

= min{I 0,j−1 + h, w j−1 + h} 

= min{w j−1 + g, w j−1 + h} = w j−1 + h = w j , da g ≥ h. 

2. Analog zeigt man D i,0 = w −i . 

3. Laut Satz 3.20 ist I i,j = min 

1≤k≤j {D L(x[1..i],y[1..j − k]) + w k }. 

Also folgt 

I i,j = min{D L (x[1..i],y[1..j − 1]) + w 1 }∪ 

{D L (x[1..i],y[1..j − k]) + w k | 2 ≤ k ≤ j} 

= min{D L (x[1..i],y[1..j − 1]) + g}∪ 

{D L (x[1..i],y[1..j − 1 − k]+g +(k − 1)h 

} {{ } 

w k 

} + h | 1 ≤ k ≤ j − 1} 

= min{D L (x[1..i],y[1..j − 1] + g, I i,j−1 + h} für j>0 

Entsprechend zeigt man die Aussage für D i,j . 

Der Algorithmus benötigt also O(nm) Zeiteinheiten und O(min{n, m}) Speicher. 

Beispiel 3.23 

Sei x = ywcqpgk und y = lawyqqkpgka. Es sei D L (x[1..i],y[1..j]) = d i,j . 

{ 

0 für a = b 

Die elementare Distanzfunktion sei wie vorher w(a, b) = 

für a, b ∈ Σ, 

3 sonst 

aber wir nehmen affine Lückenkosten mit w k = w −k = 3 + 1 · (|k|− 1) an. 

Auch hier werden die Werte I i,j und D i,j in Form zweier Matrizen I und D notiert. 

Dann erhält man für die Matrix I: 

0 1 2 3 4 5 6 7 8 9 10 11 


0 ε ∞ 3 4 5 6 7 8 9 10 11 12 13 

1 y ∞ 6 6 7 8 8 9 10 11 12 13 14 

2 w ∞ 7 8 9 9 10 11 12 13 14 15 16 

3 c ∞ 8 9 10 11 12 13 14 15 16 17 18 

4 q ∞ 9 10 11 12 13 12 13 14 15 16 17 

5 p ∞ 10 11 12 13 14 15 15 16 16 17 18 

6 g ∞ 11 12 13 14 15 16 17 18 19 16 17 

7 k ∞ 12 13 14 15 16 17 18 18 19 19 16


wobei sich z.B. I 4,6 wie folgt ergibt: 

I 4,6 = min{d 4,5 + g, I 4,5 + h} 

= min{9+3, 13 + 1} 

= 12 

Und für die Matrix D ergibt sich zu: 

0 1 2 3 4 5 6 7 8 9 10 11 


0 ε ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ ∞ 

1 y 3 6 7 8 9 10 11 12 13 14 15 16 

2 w 4 6 8 9 8 11 12 13 14 15 16 17 

3 c 5 7 9 9 9 11 13 14 15 16 17 18 

4 q 6 8 10 10 10 12 14 15 16 17 18 19 

5 p 7 9 11 11 11 12 14 16 17 18 19 20 

6 g 8 10 12 12 12 13 15 17 16 19 20 21 

7 k 9 11 13 13 13 14 16 18 17 16 19 20 

Dabei ist z.B.: 

D 4,6 = min{d 3,6 + g, D 3,6 + h} 

= min{11 + 3, 13 + 1} 

= 14 

Insgesamt hat die d-Matrix damit folgendes Aussehen, wobei 

d i,j = min{I i,j ,D i,j ,s} mit s = d i−1,j−1 + w(x[i],y[j]) 

0 1 2 3 4 5 6 7 8 9 10 11 


0 ε 0 3 4 5 6 7 8 9 10 11 12 13 

1 y 3 3 6 7 5 8 9 10 11 12 13 14 

2 w 4 6 6 6 8 8 11 12 13 14 15 16 

3 c 5 7 9 9 9 11 11 14 15 16 17 18 

4 q 6 8 10 10 10 9 11 13 14 15 16 17 

5 p 7 9 11 11 11 12 12 14 13 16 17 18 

6 g 8 10 12 12 12 13 15 15 16 13 16 17 

7 k 9 11 13 13 13 14 16 15 17 16 13 16 

Der Abstand von x und y beträgt also 16. Optimale Ausrichtungen wären etwa: 

[ − y w c q − − p g k − 


] 

oder [ y − w c q − − p g k − 


]

3.4 Ausrichtungsprobleme 35 

oder [ − − − y w c q − − p g k − 

l a w y − − q q k p g k a 

] 

Bemerkung: 

Bei diesen Lückenkosten reicht es nicht aus, ausschließlich in der d-Matrix die Minima 

zurück zu verfolgen, sondern man benötigt auch die Informationen in der I- und D- 

Matrix. 

3.4 Ausrichtungsprobleme 

In vielen Anwendungsgebieten ist man daran interessiert, statt der Distanz eine optimale 

Ausrichtung zu bestimmen. Das bisher betrachtete Problem wird unter diesem Gesichtspunkt 

als globales Ausrichtungsproblem (global alignment problem) bezeichnet. Es 

geht also darum, eine optimale Ausrichtung für x und y bezüglich einer vorgegebenen 

Distanzfunktion D zu finden. Im folgenden sollen zwei weitere bekannte Varianten des 

Ausrichtungsproblems betrachtet werden. 

3.4.1 Das semi-globale Ausrichtungsproblem 

Das semi-globale Ausrichtungsproblem für zwei Worte x, y ∈ Σ ∗ besteht darin, eine bezüglich 

einer Distanzfunktion D optimale Ausrichtung (oder Korrespondenz) zu finden, 

wobei bei der Berechnung der Distanz Präfixe bzw. Suffixe von x und y, die mit dem 

neutralen Zeichen ” 

-“ ausgerichtet sind, ignoriert werden. Sei D sg (x, y) dieser Wert. 

Es dürfte klar sein, dass in diesem Fall eine der üblichen Abstandsfunktionen nicht verwendbar 

ist, denn zum Beispiel die Ausrichtung, bei der jedem Zeichen von x und y das 

neutrale Zeichen gegenübersteht, hätte einen Abstand von 0. 

Man wählt also eine elementare abstrakte Abstandsfunktion, die die Ähnlichkeit zweier 

Zeichenketten positiv, Abweichungen dagegen negativ bewertet. Man erreicht dies zum 

Beispiel durch eine elementare Distanzfunktionen w mit w(a, a) ≥ 0 und w(a, b) ≤ 0für 

a ≠ b und man führt die Berechnung über dem Halbring H =(R, max, +, 0) aus. 


Seien x, y ∈ Σ ∗ . Dann sei 

D sg (x, y) = 

max 

(x ′ ,y ′ )∈A(x,y) 

r∑ 

w(x ′ [i],y ′ [i]) 

wobei x ′ [1..l] oder y ′ [1..l], und x ′ [r+1..|x ′ |] oder y ′ [r+1..|y ′ |] nur aus neutralen Zeichen 

bestehen und l maximal und r minimal ist. Eine bezüglich D sg optimale Ausrichtung 

ist eine Lösung des semi-globalen Ausrichtungsproblems. 

i=l 

Beispiel 3.25 

Sei x = pqraxabcstvq und y = deaxbacsll und die elementare Abstandsfunktion w sei 

definiert durch w(a, a) = 2, w(a, b) =−2 für a ≠ b und w(a, −) =w(−,a)=−1.


Dann ist [ p q r − − a x a b − c s − t v q 

− − − d e a x − b a c s l l − − 

eine Ausrichtung der beiden Zeichenketten bezüglich der gegebenen elementaren Distanzfunktion 

und des Halbrings H mit D(x, y) =−2. Werden die Enden der Zeichenketten, 

die mit dem neutralem Symbol ausgerichtet sind, nicht mitgezählt, so erhält 

man D sg (x, y) ≥ 3. Es gibt aber eine für das semi-globale Ausrichtungsproblem noch 

bessere Ausrichtung, denn es gilt D sg (x, y) = 4. 

Es stellt sich nun die Frage, wie man dieses Problem lösen kann. Es zeigt sich, dass auch 

in diesem Fall eine Variante des Wagner-Fischer Algorithmus die Antwort liefert. 

Satz 3.26 

Sei |x| = n und |y| = m und sei (d i,j ) die Distanzmatrix, die man ausgehend von der 

Initialisierung d i,0 = d 0,j = 0 für 0 ≤ i ≤ n und 0 ≤ j ≤ m mit Hilfe der üblichen 

Rekursion berechnet. Dann ist: 

D sg (x, y) = max{d i,m ,d n,j |i ∈ [0..n],j ∈ [0..m]}. 

Sei (r, s) eine Stelle in der Distanzmatrix, an der das Maximum auftritt, also d rs = 

D sg (x, y). Man erhält eine optimale Ausrichtung, wenn man zunächst von d n,m horizontal 

oder vertikal direkt zum Eintrag d r,s geht und dann von dieser Position aus 

durch ” 

Rückverfolgen“ der Maxima die gesuchte Ausrichtung bestimmt. 

Zunächst wird gezeigt: 

Lemma 3.27 

Sei |x| = n und |y| = m und (d i,j ) die mit der elementaren Distanzfunktion w bestimmte 

Distanzmatrix. Dann ist d i,j = D ′ sg(x[1..i],y[1..j]), wobei bei der Distanzfunktion 

D ′ sg nur die Präfixe von x oder y, die neutralen Zeichen gegenüber stehen, nicht mitgezählt 

werden. 

Beweis: 

Die Aussage gilt für i = j =0 

Sei nun i + j>0 

Dann sind die folgenden drei Fälle zu unterscheiden: 

1. i =0, j > 0: Dann gilt d 0,j = 0 = D ′ sg(ε, y[1..j]). 

2. i>0,j = 0: Dann gilt d i,0 = 0 = D ′ sg(x[1..i],ε). 

3. i>0, j > 0: Es ist 

D sg(x[1..i],y[1..j]) ′ = d i,j 

= max{D sg(x[1..i ′ − 1],y[1..j − 1]) + w(x[i],y[j]), 

D ′ sg(x[1..i − 1],y[1..j]) + w(x[i], −), 

D ′ sg(x[1..i],y[1..j − 1]) + w(−,y[j])} 

] 

Damit lässt sich nun der Beweis zum Satz 3.26 führen


Beweis: 

Nach Lemma 3.27 folgt 

D sg (x, y) = max{D ′ sg(x[1 . . . i],y),D ′ sg(x, y[1 . . . j]) | 0 ≤ i ≤ n, 0 ≤ j ≤ m}. 

Will man jetzt zusätzlich Suffixe von x nicht berücksichtigen, so findet man den entsprechenden 

Wert in der letzten Spalte der Distanzmatrix d. Will man dagegen Suffixe 

von y nicht berücksichtigen, findet man den Wert in der letzten Zeile von d. Da die 

elementare Distanzfunktion für das neutrale Zeichen einen Wert ≤ 0 hat, muss man 

den maximalen Wert in der letzten Zeile oder Spalte von d suchen. Also folgt die 

Behauptung. 

Beispiel 3.28 


definiert durch w(a, a) = 2, w(a, b) =−2 für a ≠ b und w(a, −) =w(−,a)=−1 

Die Initialisierung sei wie in Satz 3.26 Die d-Matrix hat damit folgendes Aussehen: 

0 1 2 3 4 5 6 7 8 9 10 

ε d e a x b a c s l l 

0 ε 0 0 0 0 0 0 0 0 0 0 0 

1 p 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 

2 q 0 -1 -2 -2 -2 -2 -2 -2 -2 -2 -2 

3 r 0 -1 -2 -3 -3 -3 -3 -3 -3 -3 -3 

4 a 0 -1 -2 0 -1 -2 -1 -2 -3 -4 -4 

5 x 0 -1 -2 -1 2 1 0 -1 -2 -3 -4 

6 a 0 -1 -2 0 1 0 3 2 1 0 -1 

7 b 0 -1 -2 -1 0 3 2 1 0 -1 -2 

8 c 0 -1 -2 -2 -1 2 1 4 3 2 1 

9 s 0 -1 -2 -3 -2 1 0 3 6 5 4 

10 t 0 -1 -2 -3 -3 0 -1 2 5 4 3 

11 v 0 -1 -2 -3 -4 -1 -2 1 4 3 2 

12 q 0 -1 -2 -3 -4 -2 -3 0 3 2 1 

Der Abstand von x und y bezüglich des Abstandsmaßes D sg beträgt also 4. Optimale 

Ausrichtungen wären etwa: 

oder 

[ p q r − − a x − a b c s − − t v q 

− − − d e a x b a − c s l l − − − 

[ p q r − − a x a b − c s − − t v q 

− − − d e a x − b a c s l l − − − 

] 

]


3.4.2 Das lokale Ausrichtungsproblem 

Das lokale Ausrichtungsproblem (lokal alignment problem) ist aus biologischer Sicht besonders 

wichtig. Die Aufgabe besteht darin, in den gegebenen zwei Zeichenketten x und 

y Teilzeichenketten ˜x und ỹ zu suchen, die bezüglich eines gegebenen Abstandsmaßes 

möglichst ähnlich sind. 

Mit den ansonsten üblichen Abstandsbegriffen wie etwa der Levenshtein-Metrik kann man 

in dieser Situation nicht arbeiten, denn wählt man etwa jeweils die leere Zeichenkette als 

Teilzeichenkette, so erhält man bereits den für die Levenstein-Metrik optimalen Abstand. 

Sinnvoller ist es, die elementare Gewichtsfunktion so zu wählen, daß w(a, a) ≥ 0 und 

w(a, b) ≤ 0für a ≠ b ist. Man arbeitet in diesem Fall mit einer Distanzfunktion D über 

dem Halbring ˜H =(R, ˜max, +, 0), wobei gilt: 

{ 

max(M) für max(M) ≥ 0 

˜max(M) = 

0 sonst 

Formal kann man dann das Problem wie folgt beschreiben: 


Es seien x, y ∈ Σ ∗ mit |x| = n und |y| = m. Ferner sei w : ˜Σ × ˜Σ → R eine elementare 

Gewichtsfunktion, die ein Abstandsmaß D festlegt, das über dem Halbring ˜H berechnet 

wird. Gesucht sind Teilwörter ˜x und ỹ, für die der Abstand D(˜x, ỹ) maximal ist. 

D la (x, y) sei dieser maximale Wert. 

Beispiel 3.30 

Sei x = pqraxabcstvq und y = deaxbacsll und sei w(a, a) = 2,w(a, b) =−2 für a ≠ b 

und w(a, −) =w(−,a)=−1. Dann ist 

[ ] 

a x − a b c s 

a x b a − c s 

eine Ausrichtung der Teilzeichenketten ˜x = axabcs von x und ỹ = axbacs von y mit 

D(˜x, ỹ) = 8. Also ist D la (x, y) ≥ 8. 

Auch hier zeigt sich, dass man dieses Problem mit Hilfe des Wagner-Fischer Algorithmus 

lösen kann. 

Satz 3.31 

Sei |x| = n und |y| = m und sei (d i,j ) die Distanzmatrix, die man ausgehend von der 

Initialisierung d i,0 = d 0,j = 0 für 0 ≤ i ≤ n und 0 ≤ j ≤ m mit Hilfe der üblichen 

Rekursion bezüglich des Halbrings ˜H berechnet. Dann ist: 

D la (x, y) = max{d i,j | 0 ≤ i ≤ n, 0 ≤ j ≤ m}. 

Sei (r, s) eine Stelle in der Distanzmatrix, an der das Maximum auftritt, also d rs = 

D la (x, y). Von dieser Position aus kann man dann durch das ” 

Rückverfolgen“ der 

Maxima bis zu einem Wert 0 die gesuchte Ausrichtung und die beiden Teilzeichenketten 

˜x und ỹ bestimmen.


Lemma 3.32 

Sei |x| = n und |y| = m, w eine elementare Distanzfunktion und ˜H der Halbring, über 

den die Berechnung der Distanzmatrix (d i,j )für die dadurch definierte Distanzfunktion 

D durchgeführt wird. Dann ist 

d i,j = max{D(α, β) | α Suffix von x[1..i], β Suffix von y[1..j]} 

Beweis: 

Es gilt offensichtlich d i,j ≥ 0, da α = β = ε möglich ist. 

Die Aussage gilt für i = j =0 

Sei nun i + j>0 

Dann sind die folgenden drei Fälle zu unterscheiden: 

1. i =0, j > 0: D(ε, y[1..j]) = 0 = d 0,j . 

2. i>0,j = 0: D(x[1..i],ε) = 0 = d i,0 . 

3. i>0, j > 0: Es ist 

D(x[1..i],y[1..j]) = max{0,D(x[1..i − 1],y[1..j − 1]) + w(x[i],y[j]), 

D(x[1..i − 1],y[1..j]) + w(x[i], −), 

D(x[1..i],y[1..j − 1]) + w(−,y[j])} 

= d i,j 

Beweis: 

(zum Satz 3.31) 

Offensichtlich gilt D la (x, y) ≥ max{d i,j , 0 ≤ i ≤ n, 0 ≤ j ≤ m}. 

Sei nun x = x 1˜xx 2 und y = y 1 ỹy 2 mit D(˜x, ỹ) =D la (x, y) und es gelte r = |x 1˜x|,s = 

|y 1 ỹ|. Es ist D(˜x, ỹ) =D la (x, y) ≤ d r,s ≤ max{d i,j , 0 ≤ i ≤ n, 0 ≤ j ≤ m} und es folgt 

die Aussage. 

Beispiel 3.33 


definiert durch w(a, a) = 2, w(a, b) =−2 für a ≠ b und w(a, −) =w(−,a)=−1 

Die Initialisierung sei wie in Satz 3.31. Die d-Matrix hat dann folgendes Aussehen:


0 1 2 3 4 5 6 7 8 9 10 

ε d e a x b a c s l l 

0 ε 0 0 0 0 0 0 0 0 0 0 0 

1 p 0 0 0 0 0 0 0 0 0 0 0 

2 q 0 0 0 0 0 0 0 0 0 0 0 

3 r 0 0 0 0 0 0 0 0 0 0 0 

4 a 0 0 0 2 1 0 2 1 0 0 0 

5 x 0 0 0 1 4 3 2 1 0 0 0 

6 a 0 0 0 2 3 2 5 4 3 2 1 

7 b 0 0 0 1 2 5 4 3 2 1 0 

8 c 0 0 0 0 1 4 3 6 5 4 3 

9 s 0 0 0 0 0 3 2 5 8 7 6 

10 t 0 0 0 0 0 2 1 4 7 6 5 

11 v 0 0 0 0 0 1 0 3 6 5 4 

12 q 0 0 0 0 0 0 0 2 5 4 3 

Die zwei Teilzeichenketten ˜x = axabcs und ỹ = axbacs maximaler Ähnlichkeit erhält 

man durch Rückverfolgung der Maxima ausgehend vom maximalen Wert 8 in der 

d-Matrix. 

Die zugehörigen Ausrichtungen sind 

oder 

[ a x − a b c s 

a x b a − c s 

[ a x a b − c s 

a x − b a c s 

] 

]

Kapitel 3

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?