Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Weitere Magazine

Empfehlungen

Info

14 Kapitel 2. Vergleich zweier Zeichenketten Bezeichnet E n = : E n (1) die zufällige Menge aller relevanten Alignments, so gilt analog zu obiger Argumentation: M n = M (1) n = max S a . a ɛ E (1) n Der zweitgrößte Score wird nun durch Herausnehmen“ des Alignments a (1) ” n , das den maximalen Score ergibt, ermittelt. Dieses Verfahren wird d-mal iteriert: Seien M n (1) , . . . , M n (k) , E n (1) , . . . , E (k) schon definiert. Dann wählt man: E (k+1) n n und a (1) n := E (k) n M (k+1) n := max a (k+1) n a ɛ E (k+1) n \ {a (k) n }, S a , := arg max S a . a ɛ E n (k+1) , . . . , a (k) n für k ɛ {1, . . . , d} Damit erhält man die d größten Scores M (1) n ≥ . . . ≥ M (d) n . Alternativ wäre auch eine Formulierung möglich, bei der nicht das Alignment mit maximalem Score, sondern die ” Exkursion“, die das Alignment enthält, ausgeschlossen wird. Für eine mathematische Definition des Exkursions-Begriffes sowie weitere Eigenschaften, siehe Karlin und Dembo [54] oder Hansen [50]. Anschaulich ist eine Exkursion ein Alignment maximaler Länge mit strikt positivem Score. Auch hier gilt, dass sich der maximale Score als Maximum über alle Exkursionen berechnen lässt. Auf eine Formulierung mithilfe von Exkursionen wurde jedoch verzichtet, da ansonsten mehrere große Scores in einer Exkursion nur einmal berücksichtigt würden. Weil damit Alignments unnötig ausgeschlossen würden und eventuell wichtige Informationen ungenutzt blieben, entspricht dies nicht der zuvor beschriebenen Anwendung in der Genetik. Aus der Definition der M (k) n mithilfe der zufälligen Mengen E (k) n , k ɛ {1, . . . , d} wird offensichtlich, dass eine Untersuchung des maximalen Scores lediglich anhand der Position der auftretenden Abhängigkeiten wegen wenig erfolgversprechend ist. Daher wird in der folgenden Definition ein Hilfsmittel für die sogenannte Musteranalyse“ bereitgestellt. In der Large-Deviation-Theorie wird diese Methode auch als Method of Types“ bezeichnet, vergleiche Dembo und Zeitouni [35, ” ” Abschnitt 2.1.1]. Hierbei wird in beiden Zeichenketten nach Sequenz-Abschnitten gesucht, deren empirische Verteilung derjenigen der Alignments mit großem Score nahekommen. Wie in [6, Abschnitt 4] beziehungsweise in den nächsten Abschnitten offensichtlich wird, sind das die empirischen Verteilungen in einer kleinen Umgebung von α ∗ .
2.2. Starkes Gesetz großer Zahlen 15 Definition 2.2 Für die Länge l ɛ N und das Wort w = w 1 · · · w l ɛ A l ist die empirische Verteilung L l (w) = ( L l (w) 1 , . . . , L l (w) ξ ) von w gegeben durch: L l (w) k := 1 l l∑ 1 {wi }(k) für alle k ∈ {1, . . . , ξ}. i=1 2.2 Starkes Gesetz großer Zahlen Gegenstand dieses Abschnitts ist ein starkes Gesetz großer Zahlen für die d größten Scores. Dies ist eine Verallgemeinerung von Dembo, Karlin und Zeitouni [33, Theorem 3 und 4]. Satz 2.3 Es gelten die Voraussetzungen aus Abschnitt 2.1. Dann verhalten sich die d größten Scores asymptotisch logarithmisch, das heißt für alle k ɛ {1, . . . , d} gilt: M n (k) log n −→ 2 n→∞ Θ . ∗ Insbesondere unterscheiden sich also die d größten Scores bei logarithmischer Normierung asymptotisch nicht. Beweis: Sei d ɛ N fest. Nach Definition der ( M n (k) )1≤k≤d gilt M n = M n (1) ≥ . . . ≥ M n (d) . In Dembo, Karlin und Zeitouni [33, Theorem 3 und 4] wurde für den maximalen M Score gezeigt, dass lim sup n ≤ 2 n→∞ ist. Somit reicht es zu zeigen, dass log n Θ ∗ lim inf n→∞ M (d) n log n ≥ 2 Θ ∗ gilt. Hierzu werden die Zeichenketten X und Y in Blöcke der Länge l ɛ N aufgeteilt und bewiesen, dass in den Diagonalen dieser Blöcke bereits ausreichend große Scores vorkommen. Seien also l, n ɛ N, l ≤ n, n ∗ := l⌊ n⌋ und γ ɛ M l l(A 2 ). Da M n (d) monoton wachsend in n ist, wird hier ohne Einschränkung von n = n ∗ ausgegangen. Zunächst wird die ( Wahrscheinlichkeit dafür abgeschätzt, dass weniger als d Blöcke der Form (Xil+1 , Y jl+1 ), . . . , (X (i+1)l , Y (j+1)l ) ) , i, j ɛ {0, . . . n −1} mit empirischer Verteilung l γ vorkommen.
Seite 1 und 2: Muster und Alignments in zufällige
Seite 3 und 4: i Einleitung Die Fortschritte der M
Seite 5 und 6: iii Mithilfe der Stein-Chen-Methode
Seite 7: v in ein neues allgemeineres Modell
Seite 10 und 11: viii Inhaltsverzeichnis 5 Das Hidde
Seite 12 und 13: 2 Kapitel 1. Bezeichnungen und Grun
Seite 20 und 21: 10 Kapitel 2. Vergleich zweier Zeic
Seite 44 und 45: 34 Kapitel 3. Scan-Statistiken mit
Seite 62 und 63: 52 Kapitel 4. Der empirische Muster
Seite 74 und 75:
64 Kapitel 4. Der empirische Muster
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
70 Kapitel 5. Das ” Hidden ϕ-/ψ
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
86 Literaturverzeichnis [10] Balakr
Seite 98 und 99:
88 Literaturverzeichnis [35] Dembo,
Seite 100 und 101:
90 Literaturverzeichnis [60] Maxwel
Seite 102:
92 Literaturverzeichnis [85] Siegmu
Alle anzeigen

Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?