27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

iv<br />

maximale Scan-Statistik zu approximieren. Im Fall r n ↘ 0 erhält man lediglich<br />

die Konvergenz der endlichdimensionalen Randverteilungen.<br />

Im vierten Kapitel soll e<strong>in</strong>e neue Sichtweise auf die <strong>Muster</strong>suche e<strong>in</strong>genommen<br />

werden: Wie verändert sich der Prozess, der die Anzahl des Vorkommens e<strong>in</strong>es<br />

<strong>Muster</strong>s beschreibt, mit der Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet?<br />

Diese Fragestellung wurde 2004 von Aki [1] für e<strong>in</strong>e Zeichenkette, die von e<strong>in</strong>er<br />

unabhängigen Zufallsfolge auf e<strong>in</strong>em b<strong>in</strong>ären Alphabet erzeugt wird, untersucht.<br />

Zum Beweis der Konvergenz des dort konstruierten <strong>Muster</strong>prozesses mit e<strong>in</strong>em<br />

Parameter gegen e<strong>in</strong>en Gauß-Prozess wurden analoge Methoden, wie für den<br />

Nachweis der Konvergenz der empirischen Verteilungsfunktion <strong>in</strong> Bill<strong>in</strong>gsley [17,<br />

Abschnitt 22] verwendet.<br />

Dieses Ergebnis wird <strong>in</strong> der vorliegenden Arbeit <strong>in</strong> mehrere Richtungen verallgeme<strong>in</strong>ert:<br />

So wird hier die zu durchsuchende Zeichenkette von e<strong>in</strong>er ϕ-mischenden<br />

Folge von Zufallsvariablen erzeugt. Des Weiteren wird e<strong>in</strong> beliebiges endliches<br />

Alphabet mit ξ Zeichen betrachtet, so dass der <strong>Muster</strong>prozess von ξ-1 Parametern,<br />

die die Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet angeben, abhängt.<br />

Außerdem wird e<strong>in</strong> zusätzlicher ”<br />

Zeitparameter“ e<strong>in</strong>geführt, der die Position <strong>in</strong>nerhalb<br />

der Zeichenkette X 1 , . . . , X n angibt.<br />

Mithilfe e<strong>in</strong>es Ergebnisses von Balacheff <strong>und</strong> Dupont [9] wird gezeigt, dass der<br />

empirische <strong>Muster</strong>prozess konvergiert <strong>und</strong> dass der Grenzprozess stetig von der<br />

Verteilung der Zeichen <strong>und</strong> dem Zeitparameter abhängt. Hierzu wird das Problem<br />

im Kontext der Theorie der empirischen Prozesse betrachtet. Da die Wahrsche<strong>in</strong>lichkeitsverteilung<br />

auf dem Alphabet <strong>in</strong> der Praxis zumeist aus den Beobachtungen<br />

geschätzt wird, rechtfertigt die bewiesene Stetigkeit die Annahme, dass e<strong>in</strong>e<br />

h<strong>in</strong>reichend gute Schätzung der Zeichenwahrsche<strong>in</strong>lichkeiten e<strong>in</strong>e gute Approximation<br />

des <strong>Muster</strong>prozesses ergibt. Konkrete Fehlerabschätzungen erhöhen den<br />

praktischen Nutzen der Ergebnisse.<br />

Um das Erzeugen der zufälligen Zeichenkette <strong>in</strong> e<strong>in</strong>em möglichst allgeme<strong>in</strong>en<br />

Modell geht es im fünften Kapitel. Das schon 1966 von Baum <strong>und</strong> Petrie <strong>in</strong> [14]<br />

untersuchte Hidden-Markov“-Modell wird <strong>in</strong> der Praxis auch heute noch verwendet,<br />

da es viele konkrete Anpassungen des Modells an praktische Fragestellungen<br />

”<br />

<strong>und</strong> effiziente Methoden zur Bestimmung oder Schätzung der Parameter gibt.<br />

Vallée [92] lieferte 2001 mit den Dynamischen Quellen“ e<strong>in</strong>en Ansatz, der durch<br />

”<br />

die Theorie der Dynamischen Systeme motiviert ist. Beiden Modellen ist geme<strong>in</strong>,<br />

dass die Zeichenkette durch e<strong>in</strong>en verborgenen“ Prozess erzeugt wird, dessen Zustand<br />

nicht direkt beobachtet werden kann. Dieser wird <strong>in</strong> Baum <strong>und</strong> Petrie [14]<br />

”<br />

durch e<strong>in</strong>e Markov-Kette <strong>und</strong> <strong>in</strong> Vallée [92] durch e<strong>in</strong>e determ<strong>in</strong>istische Iteration<br />

mit zufälligem Startwert gegeben. E<strong>in</strong>e nicht notwendigerweise determ<strong>in</strong>istische<br />

Abbildung vom Zustandsraum <strong>in</strong> den Raum der Beobachtungen bestimmt die<br />

emittierten“ Zeichen, das heißt den sichtbaren Prozess, der nach den <strong>Muster</strong>n<br />

”<br />

durchsucht wird. Hidden-Markov-Modelle <strong>und</strong> Dynamische Quellen werden hier

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!