27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

33<br />

Kapitel 3<br />

Scan-Statistiken mit variabler<br />

Fenstergröße<br />

In diesem Kapitel wird die Häufigkeit des Vorkommens e<strong>in</strong>es gegebenen <strong>Muster</strong>s<br />

<strong>in</strong> e<strong>in</strong>er zufälligen Zeichenfolge untersucht. Hierbei wird e<strong>in</strong> sogenanntes Scan-<br />

Fenster auf die zu durchsuchende Zeichenkette gelegt <strong>und</strong> verschoben <strong>und</strong> gezählt,<br />

wie oft das <strong>Muster</strong> <strong>in</strong>nerhalb des Scan-Fensters, auftritt. Daraus leitet sich der<br />

Name ”<br />

Scan-Statistik“ ab. Die Position des Fensters wird als Zeitparameter <strong>in</strong>terpretiert,<br />

so dass man e<strong>in</strong>en zeitabhängigen stochastischen Prozess erhält.<br />

Die Literatur ist sehr umfangreich <strong>und</strong> vielfältig, siehe etwa die Bücher von Balakrishnan<br />

<strong>und</strong> Koutras [10] oder Glaz <strong>und</strong> Balakrishnan [47], sowie die Artikel<br />

von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] oder Karl<strong>in</strong> <strong>und</strong> Chen [53], um<br />

nur e<strong>in</strong>ige Beispiele zu nennen. E<strong>in</strong>e <strong>in</strong>teressante Anwendung <strong>in</strong> der genetischen<br />

Sequenzanalyse ist zum Beispiel <strong>in</strong> Leung, Choi, Xia <strong>und</strong> Chen [58] gegeben,<br />

wo das Vorkommen von Clustern von Pal<strong>in</strong>dromen im Genom von Herpesviren<br />

untersucht wird.<br />

Hier wird die Abhängigkeit des Grenzprozesses vom asymptotischen Verhalten der<br />

Fenstergröße betrachtet. Konvergiert die Fenstergröße gegen e<strong>in</strong>en echt positiven<br />

Wert, so erhält man e<strong>in</strong>en stetigen Grenzprozess <strong>und</strong> die Scan-Statistik lässt sich<br />

durch e<strong>in</strong> e<strong>in</strong>faches Funktional e<strong>in</strong>er Brownschen Bewegung B approximieren.<br />

Konvergiert die Fenstergröße gegen 0, so ist die Stetigkeit des Grenzprozesses<br />

nicht mehr gegeben.<br />

3.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />

Betrachtet wird e<strong>in</strong>e Zeichenkette X : = (X i ) i ɛN über dem endlichen Alphabet<br />

A : = {1, . . . , ξ}. Im Folgenden sei die Folge X<br />

∑<br />

stationär <strong>und</strong> ϕ-mischend mit<br />

∞<br />

√<br />

n=1 ϕ(n) < ∞.<br />

Gegeben sei e<strong>in</strong> <strong>Muster</strong> w = w 1 · · · w l ɛ A l der Länge l ɛ N. Es bezeichne I w (i) :=

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!