27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

22 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Für alle n ≥ N 0 := max{N 1 , N 2 , N 3 , N 4 , e K } existiert genau e<strong>in</strong> k ≥ K, so dass<br />

n k ≤ n < n k+1 = e k+1 . Somit folgt auf M:<br />

M (d)<br />

n<br />

≥ M (d)<br />

n k<br />

≥ (1 − 2ε) 2<br />

Θ ∗ k<br />

≥ (1 − 3ε) 2<br />

Θ ∗ (k + 1)<br />

= (1 − 3ε) 2<br />

Θ ∗ log n k+1<br />

≥ (1 − 3ε) 2<br />

Θ ∗ log n.<br />

Wegen P (M) = 1 ergibt sich die Behauptung mit ε −→ 0.<br />

✷<br />

Bemerkung:<br />

Die bewiesene Aussage lässt sich mit den <strong>in</strong> Arratia <strong>und</strong> Waterman [6] oder<br />

Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33] vorgestellten Methoden auch auf die d größten<br />

Scores mit empirischer Verteilung <strong>in</strong> e<strong>in</strong>er gegeben Teilmenge U ⊂ M 1 (A 2 ) verallgeme<strong>in</strong>ern.<br />

Dies br<strong>in</strong>gt ke<strong>in</strong>e neuen Erkenntnisse, erfordert aber stellenweise<br />

e<strong>in</strong>e wesentlich aufwendigere Notation. Daher wurde hier darauf verzichtet, um<br />

den Beweis übersichtlich <strong>und</strong> die Struktur erkennbar zu halten.<br />

2.3 Poisson Approximation<br />

In diesem Abschnitt wird die geme<strong>in</strong>same Verteilung der Maxima gegen unabhängige<br />

Gumbel-Verteilungen gezeigt. In der Anwendung dürfte die asymptotische<br />

Unabhängikeit von Bedeutung se<strong>in</strong>, da diese Eigenschaft e<strong>in</strong>e sehr e<strong>in</strong>fache<br />

Berechnung der approximativen Wahrsche<strong>in</strong>lichkeiten ermöglicht. Anschaulich<br />

lässt sich diese Eigenschaft damit erklären, dass es sich beim Überschreiten<br />

e<strong>in</strong>es großen Schwellenwerts um e<strong>in</strong> seltenes Ereignis handelt. Ist die Anzahl der<br />

betrachteten Zeichen h<strong>in</strong>reichend groß, so lässt sich die gegenseitige Bee<strong>in</strong>flussung<br />

dieser Ereignisse kontrollieren.<br />

Als geeignete Metrik hat sich für diese Fragestellung die sogenannte ”<br />

Totalvariation“<br />

herausgestellt. In der Literatur s<strong>in</strong>d zwei unterschiedliche Def<strong>in</strong>itionen<br />

üblich, die sich um den Faktor 2 unterscheiden. Hier wird die Variante verwendet,<br />

wie sie von Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon <strong>in</strong> [3] <strong>und</strong> [4] <strong>in</strong> Zusammenhang mit<br />

der Ste<strong>in</strong>–Chen-Methode def<strong>in</strong>iert wird.<br />

Def<strong>in</strong>ition 2.4 (Totalvariation)<br />

Seien (Ω, A) e<strong>in</strong> Messraum <strong>und</strong> µ, ν ɛ M 1 (Ω, A) Wahrsche<strong>in</strong>lichkeitsmaße auf

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!