Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
12 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Phasenübergang bezeichnet. Bei positivem erwartetem Score werden durch das<br />
lokale Sequence Match<strong>in</strong>g also nur vernachlässigbar viele Zeichen am Anfang <strong>und</strong><br />
am Ende weggelassen. Weil es <strong>in</strong> der biologischen Anwendung <strong>in</strong> der Regel um das<br />
Auff<strong>in</strong>den von Ähnlichkeiten durch die Identifikation von Segmenten mit großem<br />
Score geht, wird zumeist e<strong>in</strong>e Scor<strong>in</strong>g-Funktion mit negativer Erwartung gewählt.<br />
Daher wird <strong>in</strong> diesem Kapitel Sequence Match<strong>in</strong>g unter dieser Voraussetzung<br />
untersucht.<br />
E<strong>in</strong>e Zusammenstellung e<strong>in</strong>iger Ergebnisse, die den Phasenübergang zwischen<br />
logarithmischem <strong>und</strong> l<strong>in</strong>earem Wachstum zum Thema haben <strong>und</strong> die dieselbe<br />
Notation wie hier verwenden, f<strong>in</strong>det man beispielsweise <strong>in</strong> Lauer [57, Kapitel 5].<br />
Aus den Forderungen an s ergibt sich mit e<strong>in</strong>fachen analytischen Methoden, dass<br />
genau e<strong>in</strong> Θ ∗ > 0 existiert, so dass:<br />
E ( e Θ∗ s(X,Y ) ) = 1.<br />
Es sei α ∗ ɛ M(A 2 ) das Maß mit Zähldichte e Θ∗s bezüglich P (X,Y ) , das heißt für<br />
alle b, c ɛ A ist:<br />
α ∗ b,c := eΘ∗ s(b,c) P ( (X, Y ) = (b, c) ) .<br />
Es gelte weiterh<strong>in</strong><br />
H(α ∗ | P X × P Y ) > 2 max { H(α ∗ X|P X ), H(α ∗ Y |P Y ) } ,<br />
wobei αX ∗ := α∗ (·, A) die Randverteilung von α ∗ bezüglich der ersten Komponente<br />
<strong>und</strong> αY ∗ analog die Randverteilung bezüglich der zweiten Komponente bezeichne.<br />
Betrachtet man, wie <strong>in</strong> der Literatur üblich, den maximalen Score beim Vergleich<br />
von (X i ) 1≤i≤n mit (Y j ) 1≤j≤n :<br />
M (1)<br />
n = M n := max<br />
l ɛ {0,...,n}<br />
i,j ɛ {0,...,n−l}<br />
{ l∑<br />
k=1<br />
}<br />
s(X i+k , Y j+k ) ,<br />
so ergibt sich aus Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Theorem 3] e<strong>in</strong> starkes<br />
Gesetz großer Zahlen mit asymptotisch logarithmischem Wachstum, das heißt<br />
M n<br />
−→ 2<br />
.<br />
log n n→∞ Θ ∗<br />
Für die Def<strong>in</strong>ition des zweitgrößten Scores M n<br />
(2) sollen nun die Zeichenpaare<br />
(X i+k , Y j+k ) k=1,...,l , die im Alignment des größten Scores benutzt wurden, ausgeschlossen<br />
werden. Hierfür wird e<strong>in</strong>e Methode verwendet, die sich sowohl <strong>in</strong><br />
der wahrsche<strong>in</strong>lichkeitstheoretischen Analyse der Maxima als auch <strong>in</strong> der Implementierung<br />
von Algorithmen zur Bestimmung des maximalen Scores bei der<br />
sogenannten Dynamischen Programmierung“ bewährt hat. E<strong>in</strong>ige der folgenden<br />
Def<strong>in</strong>itionen sowie weitere <strong>in</strong>teressante Aussagen f<strong>in</strong>det man beispielsweise<br />
”<br />
<strong>in</strong> Waterman [94, Kapitel 9] oder Hansen [50, Kapitel 2 <strong>und</strong> Abschnitt 5.2].