Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Weitere Magazine

Empfehlungen

Info

12 Kapitel 2. Vergleich zweier Zeichenketten Phasenübergang bezeichnet. Bei positivem erwartetem Score werden durch das lokale Sequence Matching also nur vernachlässigbar viele Zeichen am Anfang und am Ende weggelassen. Weil es in der biologischen Anwendung in der Regel um das Auffinden von Ähnlichkeiten durch die Identifikation von Segmenten mit großem Score geht, wird zumeist eine Scoring-Funktion mit negativer Erwartung gewählt. Daher wird in diesem Kapitel Sequence Matching unter dieser Voraussetzung untersucht. Eine Zusammenstellung einiger Ergebnisse, die den Phasenübergang zwischen logarithmischem und linearem Wachstum zum Thema haben und die dieselbe Notation wie hier verwenden, findet man beispielsweise in Lauer [57, Kapitel 5]. Aus den Forderungen an s ergibt sich mit einfachen analytischen Methoden, dass genau ein Θ ∗ > 0 existiert, so dass: E ( e Θ∗ s(X,Y ) ) = 1. Es sei α ∗ ɛ M(A 2 ) das Maß mit Zähldichte e Θ∗s bezüglich P (X,Y ) , das heißt für alle b, c ɛ A ist: α ∗ b,c := eΘ∗ s(b,c) P ( (X, Y ) = (b, c) ) . Es gelte weiterhin H(α ∗ | P X × P Y ) > 2 max { H(α ∗ X|P X ), H(α ∗ Y |P Y ) } , wobei αX ∗ := α∗ (·, A) die Randverteilung von α ∗ bezüglich der ersten Komponente und αY ∗ analog die Randverteilung bezüglich der zweiten Komponente bezeichne. Betrachtet man, wie in der Literatur üblich, den maximalen Score beim Vergleich von (X i ) 1≤i≤n mit (Y j ) 1≤j≤n : M (1) n = M n := max l ɛ {0,...,n} i,j ɛ {0,...,n−l} { l∑ k=1 } s(X i+k , Y j+k ) , so ergibt sich aus Dembo, Karlin und Zeitouni [33, Theorem 3] ein starkes Gesetz großer Zahlen mit asymptotisch logarithmischem Wachstum, das heißt M n −→ 2 . log n n→∞ Θ ∗ Für die Definition des zweitgrößten Scores M n (2) sollen nun die Zeichenpaare (X i+k , Y j+k ) k=1,...,l , die im Alignment des größten Scores benutzt wurden, ausgeschlossen werden. Hierfür wird eine Methode verwendet, die sich sowohl in der wahrscheinlichkeitstheoretischen Analyse der Maxima als auch in der Implementierung von Algorithmen zur Bestimmung des maximalen Scores bei der sogenannten Dynamischen Programmierung“ bewährt hat. Einige der folgenden Definitionen sowie weitere interessante Aussagen findet man beispielsweise ” in Waterman [94, Kapitel 9] oder Hansen [50, Kapitel 2 und Abschnitt 5.2].
2.1. Voraussetzungen und Definitionen 13 Für n ɛ N definiert man die Menge der Alignments als A n := { (i, j, l) ɛ (N 0 ) 3 | l ɛ {0, . . . , n}, i, j ɛ {0, . . . , n − l} } . Dann ist der Score des Alignments (i, j, l) ɛ A n gegeben durch S (i,j,l) : = ∑ l k=1 s(X i+k, Y j+k ) und der maximale Score durch M n = max a ɛ An S a . Für i, j ɛ {0, . . . , n} sei T i,j := { 0, falls i = 0 oder j = 0, ( Ti−1,j−1 + s(X i , Y j ) ) + , sonst. Für eindimensionale Indexmengen {0, . . . , n} wird der analoge Prozess ˜T 0 : = 0, ˜T i+1 := ( T i + ˜s(X i ) ) + anschaulich als Spiegelung an der 0 bezeichnet. Ebenso wie max 0≤i≤j≤n ∑ j k=i+1 ˜s(X i) = max i ɛ {0,...,n} ˜Ti gilt, erhält man: M n = max S a = max T i,j . a ɛ A n i,j ɛ {0,...,n} Diese Darstellung bietet aus algorithmischer Sicht insbesondere bei Sequence Matching mit Gaps sehr große Vorteile, da die Rechenzeit durch Implementierung obiger Darstellung drastisch sinkt. Dies liegt darin begründet, dass über weniger Variablen maximiert wird, vergleiche hierzu etwa Waterman [94, Kapitel 9] oder Szpankowski [91, Abschnitt 1.5]. Darauf soll hier jedoch ebenso wenig eingegangen werden, wie auf die Ableitung des in der Praxis verwendeten Smith–Waterman-Algorithmus aus dieser Darstellung. In Anlehnung an die Definition der Exkursionen in Karlin und Dembo [54, Gleichung (1.4)] oder Hansen [50, Definition 5.2.2] wird das Alignment (i, j, l) ɛ A n genau dann als relevantes Alignment“ bezeichnet, wenn es folgende Bedingungen ” erfüllt: • S (i,j,l) ≥ S (i,j,k) für alle k ɛ {0, . . . , max{l ′ | S (i,j,l ′ ) > 0}} • T i,j = 0 oder es existieren s ɛ {0, . . . , min{i, j}}, l ′ ɛ {1, . . . , s}, so dass gilt: (i − s, j − s, l ′ ) ist relevantes Alignment und T i,j ≤ T i−k,j−k für alle k ɛ {1, . . . , s − l ′ } • S (i,j,k) > 0 für alle k ɛ {1, . . . , l − 1} Anschaulich bedeutet die erste Bedingung, dass der Score durch Verlängern oder Verkürzen des Alignments nicht vergrößert werden kann, die zweite, dass der Score durch Verschieben der Startposition (i, j) nicht vergrößert werden kann, und die letzte sichert, dass die relevanten Alignments möglichst kurz sind.
Seite 1 und 2: Muster und Alignments in zufällige
Seite 3 und 4: i Einleitung Die Fortschritte der M
Seite 5 und 6: iii Mithilfe der Stein-Chen-Methode
Seite 7: v in ein neues allgemeineres Modell
Seite 10 und 11: viii Inhaltsverzeichnis 5 Das Hidde
Seite 12 und 13: 2 Kapitel 1. Bezeichnungen und Grun
Seite 20 und 21: 10 Kapitel 2. Vergleich zweier Zeic
Seite 44 und 45: 34 Kapitel 3. Scan-Statistiken mit
Seite 62 und 63: 52 Kapitel 4. Der empirische Muster
Seite 72 und 73:
62 Kapitel 4. Der empirische Muster
Seite 74 und 75:
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
70 Kapitel 5. Das ” Hidden ϕ-/ψ
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
86 Literaturverzeichnis [10] Balakr
Seite 98 und 99:
88 Literaturverzeichnis [35] Dembo,
Seite 100 und 101:
90 Literaturverzeichnis [60] Maxwel
Seite 102:
92 Literaturverzeichnis [85] Siegmu
Alle anzeigen

Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?