Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
33<br />
Kapitel 3<br />
Scan-Statistiken mit variabler<br />
Fenstergröße<br />
In diesem Kapitel wird die Häufigkeit des Vorkommens e<strong>in</strong>es gegebenen <strong>Muster</strong>s<br />
<strong>in</strong> e<strong>in</strong>er zufälligen Zeichenfolge untersucht. Hierbei wird e<strong>in</strong> sogenanntes Scan-<br />
Fenster auf die zu durchsuchende Zeichenkette gelegt <strong>und</strong> verschoben <strong>und</strong> gezählt,<br />
wie oft das <strong>Muster</strong> <strong>in</strong>nerhalb des Scan-Fensters, auftritt. Daraus leitet sich der<br />
Name ”<br />
Scan-Statistik“ ab. Die Position des Fensters wird als Zeitparameter <strong>in</strong>terpretiert,<br />
so dass man e<strong>in</strong>en zeitabhängigen stochastischen Prozess erhält.<br />
Die Literatur ist sehr umfangreich <strong>und</strong> vielfältig, siehe etwa die Bücher von Balakrishnan<br />
<strong>und</strong> Koutras [10] oder Glaz <strong>und</strong> Balakrishnan [47], sowie die Artikel<br />
von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] oder Karl<strong>in</strong> <strong>und</strong> Chen [53], um<br />
nur e<strong>in</strong>ige Beispiele zu nennen. E<strong>in</strong>e <strong>in</strong>teressante Anwendung <strong>in</strong> der genetischen<br />
Sequenzanalyse ist zum Beispiel <strong>in</strong> Leung, Choi, Xia <strong>und</strong> Chen [58] gegeben,<br />
wo das Vorkommen von Clustern von Pal<strong>in</strong>dromen im Genom von Herpesviren<br />
untersucht wird.<br />
Hier wird die Abhängigkeit des Grenzprozesses vom asymptotischen Verhalten der<br />
Fenstergröße betrachtet. Konvergiert die Fenstergröße gegen e<strong>in</strong>en echt positiven<br />
Wert, so erhält man e<strong>in</strong>en stetigen Grenzprozess <strong>und</strong> die Scan-Statistik lässt sich<br />
durch e<strong>in</strong> e<strong>in</strong>faches Funktional e<strong>in</strong>er Brownschen Bewegung B approximieren.<br />
Konvergiert die Fenstergröße gegen 0, so ist die Stetigkeit des Grenzprozesses<br />
nicht mehr gegeben.<br />
3.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />
Betrachtet wird e<strong>in</strong>e Zeichenkette X : = (X i ) i ɛN über dem endlichen Alphabet<br />
A : = {1, . . . , ξ}. Im Folgenden sei die Folge X<br />
∑<br />
stationär <strong>und</strong> ϕ-mischend mit<br />
∞<br />
√<br />
n=1 ϕ(n) < ∞.<br />
Gegeben sei e<strong>in</strong> <strong>Muster</strong> w = w 1 · · · w l ɛ A l der Länge l ɛ N. Es bezeichne I w (i) :=