Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Weitere Magazine

Empfehlungen

Info

26 Kapitel 2. Vergleich zweier Zeichenketten können. Um die Abhängigkeiten zu kontrollieren, gibt es im Wesentlichen zwei Ansätze: Den Kopplungsansatz, wie er beispielsweise in dem Standardwerk von Barbour, Holst und Janson [12] verfolgt wird, und den lokalen Ansatz, der hier verwendet werden soll. Für eine tiefer gehende Behandlung dieser beiden Ansätze siehe beispielsweise Barbour [11, Abschnitt 2]. Hier wird nun ein Spezialfall des lokalen Ansatzes, der im Weiteren verwendet wird, zitiert. Besondere Bedeutung kommt beim lokalen Ansatz den sogenannten Nachbarschaftsmengen zu, die die abhängigen Zufallsvariablen zusammenfassen: Satz 2.6 (Stein–Chen-Methode) Gegeben sei eine endliche Indexmenge I und eine Familie von Bernoulli-verteilten Zufallsvariablen (I α ) α ɛ I . Des Weiteren existiere für alle α ɛ I eine ” Nachbarschaftsmenge“ B α ⊂ I, so dass α ɛ B α ist und I α und I β für alle β ɛ I α c unabhängig sind. Ist (P α ) α ɛ I ein Poisson-Prozess auf I mit Intensitätsmaß ν ɛ M(I), ν(B) := ∑ α ɛ B E I α für alle B ⊂ I, so gilt: d TV ( (Iα ) α ɛ I , (P α ) α ɛ I ) ≤ 4(b1 + b 2 ) mit b 1 := ∑ α ɛ I b 2 := ∑ α ɛ I ∑ E I α E I β und β ɛ I α ∑ E I α I β . (2.3.2) β ɛ I α\{α} Beweis: Die Behauptung folgt unmittelbar aus Arratia, Goldstein und Gordon [3, Theorem 2] wegen der Unabhängigkeit von I α und I β , falls β ɛ I c α ist. ✷ Bemerkung: Die Bedeutung der Konstanten wird in dem vielzitierten Artikel von Arratia, Goldstein und Gordon [3, Abschnitt 2] wie folgt erklärt: 1) b 1 misst die Größe der Nachbarschaftsmengen B α . 2) b 2 misst die Korrelation der Bernoulli-Zufallsvariablen innerhalb einer Nachbarschaftsmenge. 3) In Arratia, Goldstein und Gordon [3] wird nicht gefordert, dass I α und I β für alle β ɛ I c α unabhängig sind. Statt dessen wird eine weitere Konstante b 3 eingeführt, die die schwache Abhängigkeit“ von I ” α und (I β ) β ɛ Iα c misst. Dies wird hier nicht weiter ausgeführt, da in der folgenden Anwendung B α so gewählt werden kann, dass die Unabhängigkeit gegeben ist.
2.3. Poisson Approximation 27 2.3.2 Beweis von Satz 2.5 Analog zu Dembo, Karlin und Zeitouni [34] und Hansen [50, Kapitel 5] wird die Stein–Chen-Methode zur Poisson Approximation angewandt. Um die Unabhängigkeit der verschiedenen Maxima zu erhalten, wird jedoch die Prozessversion, wie sie in Abschnitt 2.3.1 vorgestellt wurde, benutzt. Dafür wird zunächst der Punktprozess J ∗ definiert, der die Überschreitungen der Schwellen (t (k) n ) 1≤k≤d beschreibt. Für alle a ɛ E n , k ɛ {1, . . . , d} sei: J ∗ (a,k) := 1 . {t (k) n t (k) n = J ∗ (a,k) ≥ k , a ɛ E n i=1 a ɛ E n so dass im Folgenden (J ∗ (a,k) ) a ɛ E n,k ɛ {1,...,d} untersucht wird. Wie in Dembo, Karlin und Zeitouni [33, Lemma 1] gezeigt wird, leisten lange Segmente einen vernachlässigbaren Beitrag zu positiven Scores, das heißt, es existiert eine Konstante c 0 > 0, so dass für alle n ɛ N gilt: ( ) l∑ P sup s(X i+k , Y j+k ) ≥ 0 ≤ 1 n . 2 l≥c 0 log n i,j ɛ {0,...,n−l} k=1 Aufgrund dieser Eigenschaft genügt es, kurze Segmente zu betrachten. Diese Beschränkung der zu untersuchenden Alignments geht in die folgenden Definitionen ein und wird verwendet, um die Abhängigkeiten kontrollieren zu können. Wie bisher werden die Zeichenketten wieder in unabhängige Blöcke aufgeteilt. Die Länge der Blöcke ist hier l n : = (log n 2 ) 3 , die Anzahl der Blöcke m n : = n l n . Ohne Einschränkung sei n ɛ N hinreichend groß, so dass c 0 log n ≤ l n . Um lokales Sequence Matching zu untersuchen, müssen Verschiebungen der Zeichenketten gegeneinander betrachtet werden. Analog Dembo, Karlin und Zeitouni [34] werden hier die Zeichen in den Blöcken der Folge Y zyklisch verschoben, um eine gesonderte Untersuchung von sogenannten Randeffekten zu umgehen. Für ζ ɛ {0, . . . , l n −1} werden diese sogenannten ζ-zyklisch-verschobenen Blöcke“ ” X i := (Xh i ) h=1,...,m n und Y j,ζ := (Y j,ζ h ) h=1,...,m n definiert durch: Xh i := X il n+h, für alle i ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}, Y j,ζ h := Y jln+(ζ+h) mod l n , für alle j ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}. Hansen [50, Abschnitt 5.4] nimmt statt dessen eine Unterteilung in Streifen vor und betrachtet dann ” diagonals-within-a-strip“. Hier sollen jedoch die ζ-zyklischverschobenen Blöcke verwendet werden, um die Resultate aus Dembo, Karlin und Zeitouni [34] direkt anwenden zu können.
Seite 1 und 2: Muster und Alignments in zufällige
Seite 3 und 4: i Einleitung Die Fortschritte der M
Seite 5 und 6: iii Mithilfe der Stein-Chen-Methode
Seite 7: v in ein neues allgemeineres Modell
Seite 10 und 11: viii Inhaltsverzeichnis 5 Das Hidde
Seite 12 und 13: 2 Kapitel 1. Bezeichnungen und Grun
Seite 20 und 21: 10 Kapitel 2. Vergleich zweier Zeic
Seite 44 und 45: 34 Kapitel 3. Scan-Statistiken mit
Seite 62 und 63: 52 Kapitel 4. Der empirische Muster
Seite 80 und 81: 70 Kapitel 5. Das ” Hidden ϕ-/ψ
Seite 86 und 87:
76 Kapitel 5. Das ” Hidden ϕ-/ψ
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
86 Literaturverzeichnis [10] Balakr
Seite 98 und 99:
88 Literaturverzeichnis [35] Dembo,
Seite 100 und 101:
90 Literaturverzeichnis [60] Maxwel
Seite 102:
92 Literaturverzeichnis [85] Siegmu
Alle anzeigen

Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?