Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
iv<br />
maximale Scan-Statistik zu approximieren. Im Fall r n ↘ 0 erhält man lediglich<br />
die Konvergenz der endlichdimensionalen Randverteilungen.<br />
Im vierten Kapitel soll e<strong>in</strong>e neue Sichtweise auf die <strong>Muster</strong>suche e<strong>in</strong>genommen<br />
werden: Wie verändert sich der Prozess, der die Anzahl des Vorkommens e<strong>in</strong>es<br />
<strong>Muster</strong>s beschreibt, mit der Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet?<br />
Diese Fragestellung wurde 2004 von Aki [1] für e<strong>in</strong>e Zeichenkette, die von e<strong>in</strong>er<br />
unabhängigen Zufallsfolge auf e<strong>in</strong>em b<strong>in</strong>ären Alphabet erzeugt wird, untersucht.<br />
Zum Beweis der Konvergenz des dort konstruierten <strong>Muster</strong>prozesses mit e<strong>in</strong>em<br />
Parameter gegen e<strong>in</strong>en Gauß-Prozess wurden analoge Methoden, wie für den<br />
Nachweis der Konvergenz der empirischen Verteilungsfunktion <strong>in</strong> Bill<strong>in</strong>gsley [17,<br />
Abschnitt 22] verwendet.<br />
Dieses Ergebnis wird <strong>in</strong> der vorliegenden Arbeit <strong>in</strong> mehrere Richtungen verallgeme<strong>in</strong>ert:<br />
So wird hier die zu durchsuchende Zeichenkette von e<strong>in</strong>er ϕ-mischenden<br />
Folge von Zufallsvariablen erzeugt. Des Weiteren wird e<strong>in</strong> beliebiges endliches<br />
Alphabet mit ξ Zeichen betrachtet, so dass der <strong>Muster</strong>prozess von ξ-1 Parametern,<br />
die die Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet angeben, abhängt.<br />
Außerdem wird e<strong>in</strong> zusätzlicher ”<br />
Zeitparameter“ e<strong>in</strong>geführt, der die Position <strong>in</strong>nerhalb<br />
der Zeichenkette X 1 , . . . , X n angibt.<br />
Mithilfe e<strong>in</strong>es Ergebnisses von Balacheff <strong>und</strong> Dupont [9] wird gezeigt, dass der<br />
empirische <strong>Muster</strong>prozess konvergiert <strong>und</strong> dass der Grenzprozess stetig von der<br />
Verteilung der Zeichen <strong>und</strong> dem Zeitparameter abhängt. Hierzu wird das Problem<br />
im Kontext der Theorie der empirischen Prozesse betrachtet. Da die Wahrsche<strong>in</strong>lichkeitsverteilung<br />
auf dem Alphabet <strong>in</strong> der Praxis zumeist aus den Beobachtungen<br />
geschätzt wird, rechtfertigt die bewiesene Stetigkeit die Annahme, dass e<strong>in</strong>e<br />
h<strong>in</strong>reichend gute Schätzung der Zeichenwahrsche<strong>in</strong>lichkeiten e<strong>in</strong>e gute Approximation<br />
des <strong>Muster</strong>prozesses ergibt. Konkrete Fehlerabschätzungen erhöhen den<br />
praktischen Nutzen der Ergebnisse.<br />
Um das Erzeugen der zufälligen Zeichenkette <strong>in</strong> e<strong>in</strong>em möglichst allgeme<strong>in</strong>en<br />
Modell geht es im fünften Kapitel. Das schon 1966 von Baum <strong>und</strong> Petrie <strong>in</strong> [14]<br />
untersuchte Hidden-Markov“-Modell wird <strong>in</strong> der Praxis auch heute noch verwendet,<br />
da es viele konkrete Anpassungen des Modells an praktische Fragestellungen<br />
”<br />
<strong>und</strong> effiziente Methoden zur Bestimmung oder Schätzung der Parameter gibt.<br />
Vallée [92] lieferte 2001 mit den Dynamischen Quellen“ e<strong>in</strong>en Ansatz, der durch<br />
”<br />
die Theorie der Dynamischen Systeme motiviert ist. Beiden Modellen ist geme<strong>in</strong>,<br />
dass die Zeichenkette durch e<strong>in</strong>en verborgenen“ Prozess erzeugt wird, dessen Zustand<br />
nicht direkt beobachtet werden kann. Dieser wird <strong>in</strong> Baum <strong>und</strong> Petrie [14]<br />
”<br />
durch e<strong>in</strong>e Markov-Kette <strong>und</strong> <strong>in</strong> Vallée [92] durch e<strong>in</strong>e determ<strong>in</strong>istische Iteration<br />
mit zufälligem Startwert gegeben. E<strong>in</strong>e nicht notwendigerweise determ<strong>in</strong>istische<br />
Abbildung vom Zustandsraum <strong>in</strong> den Raum der Beobachtungen bestimmt die<br />
emittierten“ Zeichen, das heißt den sichtbaren Prozess, der nach den <strong>Muster</strong>n<br />
”<br />
durchsucht wird. Hidden-Markov-Modelle <strong>und</strong> Dynamische Quellen werden hier