27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

iii<br />

Mithilfe der Ste<strong>in</strong>–Chen-Methode wird gezeigt, dass die d größten Scores im Limes<br />

unabhängigen Gumbel-Verteilungen folgen. Des Weiteren wird e<strong>in</strong>e Formel zur<br />

effektiven Berechnung der approximativen Wahrsche<strong>in</strong>lichkeit, dass die d größten<br />

Scores bestimmte Schwellenwerte überschreiten, angegeben. Dieses Ergebnis kann<br />

als Gr<strong>und</strong>lage für e<strong>in</strong> neues, selektiveres Verfahren zum Vergleichen zweier <strong>Zeichenketten</strong><br />

dienen.<br />

log n<br />

log log n<br />

Im Weiteren wird das Auftreten von <strong>Muster</strong>n <strong>in</strong> e<strong>in</strong>er Zeichenkette unter diversen<br />

mathematischen Fragestellungen untersucht.<br />

So steht im dritten Kapitel die Scan-Statistik im Mittelpunkt, bei der <strong>in</strong>nerhalb<br />

e<strong>in</strong>es sogenannten Scan-Fensters nach auffällig häufigem Auftreten e<strong>in</strong>es <strong>Muster</strong>s<br />

der Länge l <strong>in</strong> e<strong>in</strong>er ϕ-mischenden Folge gesucht wird. In der Biologie wird mit<br />

dieser Methode meist nach speziellen funktionellen Gruppen wie beispielsweise<br />

e<strong>in</strong>em Startpunkt der DNS-Replikation oder von Viren für die Infektion e<strong>in</strong>er<br />

Wirtszelle genutzten Angriffspunkten gesucht. So wird <strong>in</strong> Leung, Choi, Xia <strong>und</strong><br />

Chen [58] mittels der Scan-Statistik nach Regionen mit außergewöhnlich vielen<br />

Pal<strong>in</strong>dromen gesucht, weil diese mit der Replikation von Herpesviren <strong>in</strong> Verb<strong>in</strong>dung<br />

gebracht werden.<br />

Die Literatur zu diesem Thema, das eng mit der Wartezeit auf den ersten Erfolg<br />

<strong>und</strong> dem Auftreten von Runs“ zusammenhängt, ist sehr umfangreich <strong>und</strong><br />

”<br />

vielfältig, siehe etwa die Bücher von Glaz <strong>und</strong> Balakrishnan [47] <strong>und</strong> Balakrishnan<br />

<strong>und</strong> Koutras [10]. Des Weiteren wird die Scan-Statistik beispielsweise <strong>in</strong> Dembo<br />

<strong>und</strong> Karl<strong>in</strong> [32] untersucht, wo mittels der Ste<strong>in</strong>–Chen-Methode e<strong>in</strong>e Poisson-<br />

Approximation für das Über- beziehungsweise Unterschreiten von Schwellenwerten<br />

gezeigt <strong>und</strong> daraus e<strong>in</strong>e asymptotische Extremwertverteilung der Scan-<br />

Statistik abgleitet wird. Ebenfalls mit der Ste<strong>in</strong>–Chen-Methode wird <strong>in</strong> Chen <strong>und</strong><br />

Karl<strong>in</strong> [25] das asymptotische Verhalten des bed<strong>in</strong>gten Scan-Modells“, das die<br />

”<br />

parallele Suche nach mehreren Markern (vergleichbar mit den hier verwendeten<br />

<strong>Muster</strong>n) <strong>in</strong> e<strong>in</strong>er Zeichenkette beschreibt, untersucht. In der praxisorientierten<br />

Veröffentlichung von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] f<strong>in</strong>det sich zum<br />

e<strong>in</strong>en e<strong>in</strong>e Schätzung der Parameter der Extremwertverteilung mittels Erzeugenden<br />

Funktionen sowie der Verwendung von Ergebnissen aus der Theorie der<br />

Mart<strong>in</strong>gale <strong>und</strong> zum anderen e<strong>in</strong>e ausführliche Übersicht über weitere Literatur.<br />

In den genannten Artikeln ist die Anzahl der Zeichen im Scan-Fenster konstant,<br />

beziehungsweise <strong>in</strong> Dembo <strong>und</strong> Karl<strong>in</strong> [32] konstant oder höchstens von der Ordnung<br />

wachsend, wobei n die Länge der Zeichenkette bezeichnet. Es wird<br />

e<strong>in</strong>e asymptotische Extremwertverteilung des Supremums des Scan-Prozesses hergeleitet.<br />

In dieser Arbeit wird demgegenüber der Scan-Prozess mit größerem Scan-Fenster<br />

mit nr n Zeichen betrachtet. Falls r n monoton fallend <strong>und</strong> asymptotisch konstant<br />

ist, r n ↘ r > 0, ergibt sich für den Scan-Prozess e<strong>in</strong> Limesresultat <strong>in</strong> D[0, 1]<br />

mit Gaußschem Prozess als Grenzwert. Dieses erlaubt <strong>in</strong>sbesondere auch, die

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!