Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 13<br />
Für n ɛ N def<strong>in</strong>iert man die Menge der <strong>Alignments</strong> als<br />
A n := { (i, j, l) ɛ (N 0 ) 3 | l ɛ {0, . . . , n}, i, j ɛ {0, . . . , n − l} } .<br />
Dann ist der Score des <strong>Alignments</strong> (i, j, l) ɛ A n gegeben durch S (i,j,l) : =<br />
∑ l<br />
k=1 s(X i+k, Y j+k ) <strong>und</strong> der maximale Score durch M n = max a ɛ An S a . Für<br />
i, j ɛ {0, . . . , n} sei<br />
T i,j :=<br />
{ 0, falls i = 0 oder j = 0,<br />
(<br />
Ti−1,j−1 + s(X i , Y j ) ) +<br />
, sonst.<br />
Für e<strong>in</strong>dimensionale Indexmengen {0, . . . , n} wird der analoge Prozess ˜T 0 : = 0,<br />
˜T i+1 := ( T i + ˜s(X i ) ) +<br />
anschaulich als Spiegelung an der 0 bezeichnet. Ebenso wie<br />
max 0≤i≤j≤n<br />
∑ j<br />
k=i+1 ˜s(X i) = max i ɛ {0,...,n} ˜Ti gilt, erhält man:<br />
M n = max S a = max T i,j .<br />
a ɛ A n i,j ɛ {0,...,n}<br />
Diese Darstellung bietet aus algorithmischer Sicht <strong>in</strong>sbesondere bei Sequence<br />
Match<strong>in</strong>g mit Gaps sehr große Vorteile, da die Rechenzeit durch Implementierung<br />
obiger Darstellung drastisch s<strong>in</strong>kt. Dies liegt dar<strong>in</strong> begründet, dass über<br />
weniger Variablen maximiert wird, vergleiche hierzu etwa Waterman [94, Kapitel<br />
9] oder Szpankowski [91, Abschnitt 1.5]. Darauf soll hier jedoch ebenso<br />
wenig e<strong>in</strong>gegangen werden, wie auf die Ableitung des <strong>in</strong> der Praxis verwendeten<br />
Smith–Waterman-Algorithmus aus dieser Darstellung.<br />
In Anlehnung an die Def<strong>in</strong>ition der Exkursionen <strong>in</strong> Karl<strong>in</strong> <strong>und</strong> Dembo [54, Gleichung<br />
(1.4)] oder Hansen [50, Def<strong>in</strong>ition 5.2.2] wird das Alignment (i, j, l) ɛ A n<br />
genau dann als relevantes Alignment“ bezeichnet, wenn es folgende Bed<strong>in</strong>gungen<br />
”<br />
erfüllt:<br />
• S (i,j,l) ≥ S (i,j,k) für alle k ɛ {0, . . . , max{l ′ | S (i,j,l ′ ) > 0}}<br />
• T i,j = 0 oder es existieren s ɛ {0, . . . , m<strong>in</strong>{i, j}}, l ′ ɛ {1, . . . , s}, so dass gilt:<br />
(i − s, j − s, l ′ ) ist relevantes Alignment <strong>und</strong><br />
T i,j ≤ T i−k,j−k für alle k ɛ {1, . . . , s − l ′ }<br />
• S (i,j,k) > 0 für alle k ɛ {1, . . . , l − 1}<br />
Anschaulich bedeutet die erste Bed<strong>in</strong>gung, dass der Score durch Verlängern oder<br />
Verkürzen des <strong>Alignments</strong> nicht vergrößert werden kann, die zweite, dass der<br />
Score durch Verschieben der Startposition (i, j) nicht vergrößert werden kann,<br />
<strong>und</strong> die letzte sichert, dass die relevanten <strong>Alignments</strong> möglichst kurz s<strong>in</strong>d.