Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
iii<br />
Mithilfe der Ste<strong>in</strong>–Chen-Methode wird gezeigt, dass die d größten Scores im Limes<br />
unabhängigen Gumbel-Verteilungen folgen. Des Weiteren wird e<strong>in</strong>e Formel zur<br />
effektiven Berechnung der approximativen Wahrsche<strong>in</strong>lichkeit, dass die d größten<br />
Scores bestimmte Schwellenwerte überschreiten, angegeben. Dieses Ergebnis kann<br />
als Gr<strong>und</strong>lage für e<strong>in</strong> neues, selektiveres Verfahren zum Vergleichen zweier <strong>Zeichenketten</strong><br />
dienen.<br />
log n<br />
log log n<br />
Im Weiteren wird das Auftreten von <strong>Muster</strong>n <strong>in</strong> e<strong>in</strong>er Zeichenkette unter diversen<br />
mathematischen Fragestellungen untersucht.<br />
So steht im dritten Kapitel die Scan-Statistik im Mittelpunkt, bei der <strong>in</strong>nerhalb<br />
e<strong>in</strong>es sogenannten Scan-Fensters nach auffällig häufigem Auftreten e<strong>in</strong>es <strong>Muster</strong>s<br />
der Länge l <strong>in</strong> e<strong>in</strong>er ϕ-mischenden Folge gesucht wird. In der Biologie wird mit<br />
dieser Methode meist nach speziellen funktionellen Gruppen wie beispielsweise<br />
e<strong>in</strong>em Startpunkt der DNS-Replikation oder von Viren für die Infektion e<strong>in</strong>er<br />
Wirtszelle genutzten Angriffspunkten gesucht. So wird <strong>in</strong> Leung, Choi, Xia <strong>und</strong><br />
Chen [58] mittels der Scan-Statistik nach Regionen mit außergewöhnlich vielen<br />
Pal<strong>in</strong>dromen gesucht, weil diese mit der Replikation von Herpesviren <strong>in</strong> Verb<strong>in</strong>dung<br />
gebracht werden.<br />
Die Literatur zu diesem Thema, das eng mit der Wartezeit auf den ersten Erfolg<br />
<strong>und</strong> dem Auftreten von Runs“ zusammenhängt, ist sehr umfangreich <strong>und</strong><br />
”<br />
vielfältig, siehe etwa die Bücher von Glaz <strong>und</strong> Balakrishnan [47] <strong>und</strong> Balakrishnan<br />
<strong>und</strong> Koutras [10]. Des Weiteren wird die Scan-Statistik beispielsweise <strong>in</strong> Dembo<br />
<strong>und</strong> Karl<strong>in</strong> [32] untersucht, wo mittels der Ste<strong>in</strong>–Chen-Methode e<strong>in</strong>e Poisson-<br />
Approximation für das Über- beziehungsweise Unterschreiten von Schwellenwerten<br />
gezeigt <strong>und</strong> daraus e<strong>in</strong>e asymptotische Extremwertverteilung der Scan-<br />
Statistik abgleitet wird. Ebenfalls mit der Ste<strong>in</strong>–Chen-Methode wird <strong>in</strong> Chen <strong>und</strong><br />
Karl<strong>in</strong> [25] das asymptotische Verhalten des bed<strong>in</strong>gten Scan-Modells“, das die<br />
”<br />
parallele Suche nach mehreren Markern (vergleichbar mit den hier verwendeten<br />
<strong>Muster</strong>n) <strong>in</strong> e<strong>in</strong>er Zeichenkette beschreibt, untersucht. In der praxisorientierten<br />
Veröffentlichung von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] f<strong>in</strong>det sich zum<br />
e<strong>in</strong>en e<strong>in</strong>e Schätzung der Parameter der Extremwertverteilung mittels Erzeugenden<br />
Funktionen sowie der Verwendung von Ergebnissen aus der Theorie der<br />
Mart<strong>in</strong>gale <strong>und</strong> zum anderen e<strong>in</strong>e ausführliche Übersicht über weitere Literatur.<br />
In den genannten Artikeln ist die Anzahl der Zeichen im Scan-Fenster konstant,<br />
beziehungsweise <strong>in</strong> Dembo <strong>und</strong> Karl<strong>in</strong> [32] konstant oder höchstens von der Ordnung<br />
wachsend, wobei n die Länge der Zeichenkette bezeichnet. Es wird<br />
e<strong>in</strong>e asymptotische Extremwertverteilung des Supremums des Scan-Prozesses hergeleitet.<br />
In dieser Arbeit wird demgegenüber der Scan-Prozess mit größerem Scan-Fenster<br />
mit nr n Zeichen betrachtet. Falls r n monoton fallend <strong>und</strong> asymptotisch konstant<br />
ist, r n ↘ r > 0, ergibt sich für den Scan-Prozess e<strong>in</strong> Limesresultat <strong>in</strong> D[0, 1]<br />
mit Gaußschem Prozess als Grenzwert. Dieses erlaubt <strong>in</strong>sbesondere auch, die