Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Muster</strong> <strong>und</strong> <strong>Alignments</strong><br />
<strong>in</strong> zufälligen <strong>Zeichenketten</strong><br />
Dissertation<br />
zur Erlangung des Doktorgrades<br />
der Fakultät für Mathematik <strong>und</strong> Physik<br />
der Albert-Ludwigs-Universität<br />
Freiburg im Breisgau<br />
vorgelegt von<br />
Christian Lauer<br />
Mai 2006
Dekan: Prof. Dr. J. Honerkamp<br />
1. Referent: Prof. Dr. L. Rüschendorf<br />
2. Referent: Prof. Dr. D. Pfeifer, Oldenburg<br />
Datum der Promotion: 26. Juli 2006
i<br />
E<strong>in</strong>leitung<br />
Die Fortschritte der Molekularbiologie seit der Entdeckung der Doppelhelixstruktur<br />
im Jahr 1953 durch Watson <strong>und</strong> Crick [95] eröffneten völlig neuartige Möglichkeiten<br />
zur Diagnostik <strong>und</strong> Therapie <strong>in</strong> der Mediz<strong>in</strong>, trugen zum vieldiskutierten<br />
E<strong>in</strong>satz der Gentechnik <strong>in</strong> der Agrarwirtschaft beziehungsweise Nahrungsmittel<strong>in</strong>dustrie<br />
bei, s<strong>in</strong>d fester Bestandteil <strong>in</strong> der Krim<strong>in</strong>altechnik sowie Gr<strong>und</strong>lage für<br />
viele historische <strong>und</strong> anthropologische Studien <strong>und</strong> haben viele andere Lebensbereiche<br />
bee<strong>in</strong>flusst. Der E<strong>in</strong>satz dieser neuen Erkenntnisse wäre zumeist nicht<br />
ohne die Methoden der Mathematik, <strong>in</strong>sbesondere der mathematischen Statistik,<br />
möglich gewesen. Viele Ergebnisse beruhen auf neuen Methoden Daten auszuwerten,<br />
zu verarbeiten, zu klassifizieren <strong>und</strong> zu <strong>in</strong>terpretieren. Insbesondere bei der<br />
Klassifikation <strong>und</strong> Interpretation g<strong>in</strong>g die Forschung im Labor mit gravierenden<br />
Fortschritten <strong>in</strong> der Mathematik e<strong>in</strong>her, die Relevanz der beobachteten Daten<br />
e<strong>in</strong>schätzen zu können.<br />
Um die Forschung auf diesem Gebiet voranzubr<strong>in</strong>gen war <strong>und</strong> ist e<strong>in</strong>e fächerübergreifende<br />
Zusammenarbeit verschiedener Diszipl<strong>in</strong>en notwendig:<br />
• Das Erfassen der Problemstellung erfordert e<strong>in</strong> gr<strong>und</strong>legendes Verständnis<br />
der biologischen <strong>und</strong> chemischen Zusammenhänge.<br />
• Ohne den E<strong>in</strong>satz immer effizienterer Algorithmen aus dem Gebiet der Informatik<br />
hätte wohl auch der rasante Fortschritt <strong>in</strong> der Computertechnik<br />
nicht ausgereicht, um die auftretenden Datenmengen zu verarbeiten.<br />
• Aus dem Bereich der mathematischen Statistik werden für die neuen<br />
Fragestellungen <strong>und</strong> den daraus entstehenden Verfahren präzise Formeln<br />
zur Berechnung beziehungsweise Approximation von Wahrsche<strong>in</strong>lichkeiten<br />
benötigt, um die Signifikanz der im Labor oder numerisch ermittelten Daten<br />
e<strong>in</strong>schätzen zu können.<br />
Historisch s<strong>in</strong>d die mathematischen Fragestellungen auf die Artikel von Erdös<br />
<strong>und</strong> Rényi [41], wo 1970 das Auftreten von außergewöhnlich vielen ”<br />
1“en <strong>in</strong> e<strong>in</strong>er<br />
Folge von Bernoulli-verteilten Zufallsvariablen betrachtet wurde <strong>und</strong> von Chvátal<br />
<strong>und</strong> Sankoff [27], wo 1975 die Länge der längsten geme<strong>in</strong>samen Teilfolge zweier<br />
zufälliger <strong>Zeichenketten</strong> untersucht wurde, zurückzuführen.
ii<br />
In der vorliegenden Arbeit werden Fragestellungen, wie sie hauptsächlich <strong>in</strong> der<br />
Molekularbiologie aber auch <strong>in</strong> vielen anderen Bereichen, wie etwa der Spracherkennung,<br />
der <strong>Muster</strong>suche oder der Fehlererkennung <strong>und</strong> -korrektur, auftreten,<br />
aus mathematischer Perspektive untersucht. Daher werden im ersten Kapitel<br />
nicht nur die verwendeten mathematischen Bezeichnungen e<strong>in</strong>geführt, sondern<br />
auch die biologischen Gr<strong>und</strong>lagen skizziert. Die <strong>in</strong> der Molekularbiologie<br />
behandelten DNS- beziehungsweise Prote<strong>in</strong>sequenzen werden mathematisch als<br />
zufällige <strong>Zeichenketten</strong> über e<strong>in</strong>em Alphabet mit vier beziehungsweise zwanzig<br />
Buchstaben aufgefasst. Daher stehen <strong>in</strong> dieser Arbeit Folgen von Zufallsvariablen<br />
über e<strong>in</strong>em endlichen Alphabet im Vordergr<strong>und</strong>. Genauer wird das Grenzwertverhalten<br />
ausgewählter Funktionale, wie sie <strong>in</strong> obigen Anwendungen auftreten,<br />
untersucht, wenn die Länge der zufälligen Folgen gegen unendlich konvergiert.<br />
Im Gegensatz zu vielen anderen Anwendungen besteht die Schwierigkeit der Aufgabe<br />
hier nicht dar<strong>in</strong>, aus wenigen Daten möglichst viele Informationen nutzbar<br />
zu machen oder e<strong>in</strong> robustes Verfahren zu entwickeln. Ziel der verwendeten mathematischen<br />
Methoden ist vielmehr, die relevante Information effizient aus der<br />
Fülle der Daten zu extrahieren. Mit der wachsenden Zahl <strong>und</strong> Größe der bekannten<br />
DNS- <strong>und</strong> Prote<strong>in</strong>sequenzen, werden immer ökonomischere Verfahren<br />
notwendig, um relevante Teile automatisch zu identifizieren oder Ähnlichkeiten<br />
festzustellen.<br />
Diese Verfahren müssen auf der e<strong>in</strong>en Seite so sensitiv se<strong>in</strong>, dass ke<strong>in</strong>e funktionellen<br />
Segmente oder Ähnlichkeiten mit anderen Organismen übersehen werden, auf<br />
der anderen Seite jedoch auch möglichst selektiv se<strong>in</strong>, da weitere Untersuchungen<br />
im Labor meist mit erheblichem zeitlichem oder f<strong>in</strong>anziellem Aufwand verb<strong>und</strong>en<br />
s<strong>in</strong>d.<br />
Das zweite Kapitel behandelt den Vergleich zweier <strong>Zeichenketten</strong> mittels lokalem<br />
”<br />
Sequence Match<strong>in</strong>g“. Mit dem Artikel von Siegm<strong>und</strong> <strong>und</strong> Yakir [84] kann<br />
die Frage nach dem maximalen Score beim lokalen Sequence Match<strong>in</strong>g mit Gaps<br />
<strong>in</strong>sofern als umfassend gelöst angesehen werden, als im Fall unabhängiger <strong>Zeichenketten</strong><br />
e<strong>in</strong>e Formel zur approximativen Berechnung von p-Werten angegeben<br />
wurde. Weitere Arbeiten von Hansen [50] <strong>und</strong> Liu [59] befassen sich mit Sequence<br />
Match<strong>in</strong>g ohne Gaps von Markov-Ketten <strong>und</strong> ϕ-mischenden Folgen.<br />
Von Spang <strong>und</strong> V<strong>in</strong>gron [86] wurde jedoch das zusätzliche Problem aufgezeigt,<br />
dass viele Ähnlichkeiten von entfernt verwandten Gen- beziehungsweise Prote<strong>in</strong>sequenzen<br />
im statistischen Rauschen, das von der enormen Anzahl der <strong>in</strong> Datenbanken<br />
gespeicherten Sequenzen herrührt, übersehen werden. Dieses wird <strong>in</strong> den<br />
oben genannten Veröffentlichungen nicht behandelt.<br />
Um dem Problem, das aus den exponentiell schnell wachsenden Datenbankgrößen<br />
resultiert, entgegenzuwirken werden <strong>in</strong> dieser Arbeit die d größten Scores betrachtet.<br />
Dies bietet die Möglichkeit, mehr Information aus den <strong>Zeichenketten</strong> zu<br />
nutzen <strong>und</strong> dadurch die Selektivität der e<strong>in</strong>gesetzten Algorithmen zu verbessern.
iii<br />
Mithilfe der Ste<strong>in</strong>–Chen-Methode wird gezeigt, dass die d größten Scores im Limes<br />
unabhängigen Gumbel-Verteilungen folgen. Des Weiteren wird e<strong>in</strong>e Formel zur<br />
effektiven Berechnung der approximativen Wahrsche<strong>in</strong>lichkeit, dass die d größten<br />
Scores bestimmte Schwellenwerte überschreiten, angegeben. Dieses Ergebnis kann<br />
als Gr<strong>und</strong>lage für e<strong>in</strong> neues, selektiveres Verfahren zum Vergleichen zweier <strong>Zeichenketten</strong><br />
dienen.<br />
log n<br />
log log n<br />
Im Weiteren wird das Auftreten von <strong>Muster</strong>n <strong>in</strong> e<strong>in</strong>er Zeichenkette unter diversen<br />
mathematischen Fragestellungen untersucht.<br />
So steht im dritten Kapitel die Scan-Statistik im Mittelpunkt, bei der <strong>in</strong>nerhalb<br />
e<strong>in</strong>es sogenannten Scan-Fensters nach auffällig häufigem Auftreten e<strong>in</strong>es <strong>Muster</strong>s<br />
der Länge l <strong>in</strong> e<strong>in</strong>er ϕ-mischenden Folge gesucht wird. In der Biologie wird mit<br />
dieser Methode meist nach speziellen funktionellen Gruppen wie beispielsweise<br />
e<strong>in</strong>em Startpunkt der DNS-Replikation oder von Viren für die Infektion e<strong>in</strong>er<br />
Wirtszelle genutzten Angriffspunkten gesucht. So wird <strong>in</strong> Leung, Choi, Xia <strong>und</strong><br />
Chen [58] mittels der Scan-Statistik nach Regionen mit außergewöhnlich vielen<br />
Pal<strong>in</strong>dromen gesucht, weil diese mit der Replikation von Herpesviren <strong>in</strong> Verb<strong>in</strong>dung<br />
gebracht werden.<br />
Die Literatur zu diesem Thema, das eng mit der Wartezeit auf den ersten Erfolg<br />
<strong>und</strong> dem Auftreten von Runs“ zusammenhängt, ist sehr umfangreich <strong>und</strong><br />
”<br />
vielfältig, siehe etwa die Bücher von Glaz <strong>und</strong> Balakrishnan [47] <strong>und</strong> Balakrishnan<br />
<strong>und</strong> Koutras [10]. Des Weiteren wird die Scan-Statistik beispielsweise <strong>in</strong> Dembo<br />
<strong>und</strong> Karl<strong>in</strong> [32] untersucht, wo mittels der Ste<strong>in</strong>–Chen-Methode e<strong>in</strong>e Poisson-<br />
Approximation für das Über- beziehungsweise Unterschreiten von Schwellenwerten<br />
gezeigt <strong>und</strong> daraus e<strong>in</strong>e asymptotische Extremwertverteilung der Scan-<br />
Statistik abgleitet wird. Ebenfalls mit der Ste<strong>in</strong>–Chen-Methode wird <strong>in</strong> Chen <strong>und</strong><br />
Karl<strong>in</strong> [25] das asymptotische Verhalten des bed<strong>in</strong>gten Scan-Modells“, das die<br />
”<br />
parallele Suche nach mehreren Markern (vergleichbar mit den hier verwendeten<br />
<strong>Muster</strong>n) <strong>in</strong> e<strong>in</strong>er Zeichenkette beschreibt, untersucht. In der praxisorientierten<br />
Veröffentlichung von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] f<strong>in</strong>det sich zum<br />
e<strong>in</strong>en e<strong>in</strong>e Schätzung der Parameter der Extremwertverteilung mittels Erzeugenden<br />
Funktionen sowie der Verwendung von Ergebnissen aus der Theorie der<br />
Mart<strong>in</strong>gale <strong>und</strong> zum anderen e<strong>in</strong>e ausführliche Übersicht über weitere Literatur.<br />
In den genannten Artikeln ist die Anzahl der Zeichen im Scan-Fenster konstant,<br />
beziehungsweise <strong>in</strong> Dembo <strong>und</strong> Karl<strong>in</strong> [32] konstant oder höchstens von der Ordnung<br />
wachsend, wobei n die Länge der Zeichenkette bezeichnet. Es wird<br />
e<strong>in</strong>e asymptotische Extremwertverteilung des Supremums des Scan-Prozesses hergeleitet.<br />
In dieser Arbeit wird demgegenüber der Scan-Prozess mit größerem Scan-Fenster<br />
mit nr n Zeichen betrachtet. Falls r n monoton fallend <strong>und</strong> asymptotisch konstant<br />
ist, r n ↘ r > 0, ergibt sich für den Scan-Prozess e<strong>in</strong> Limesresultat <strong>in</strong> D[0, 1]<br />
mit Gaußschem Prozess als Grenzwert. Dieses erlaubt <strong>in</strong>sbesondere auch, die
iv<br />
maximale Scan-Statistik zu approximieren. Im Fall r n ↘ 0 erhält man lediglich<br />
die Konvergenz der endlichdimensionalen Randverteilungen.<br />
Im vierten Kapitel soll e<strong>in</strong>e neue Sichtweise auf die <strong>Muster</strong>suche e<strong>in</strong>genommen<br />
werden: Wie verändert sich der Prozess, der die Anzahl des Vorkommens e<strong>in</strong>es<br />
<strong>Muster</strong>s beschreibt, mit der Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet?<br />
Diese Fragestellung wurde 2004 von Aki [1] für e<strong>in</strong>e Zeichenkette, die von e<strong>in</strong>er<br />
unabhängigen Zufallsfolge auf e<strong>in</strong>em b<strong>in</strong>ären Alphabet erzeugt wird, untersucht.<br />
Zum Beweis der Konvergenz des dort konstruierten <strong>Muster</strong>prozesses mit e<strong>in</strong>em<br />
Parameter gegen e<strong>in</strong>en Gauß-Prozess wurden analoge Methoden, wie für den<br />
Nachweis der Konvergenz der empirischen Verteilungsfunktion <strong>in</strong> Bill<strong>in</strong>gsley [17,<br />
Abschnitt 22] verwendet.<br />
Dieses Ergebnis wird <strong>in</strong> der vorliegenden Arbeit <strong>in</strong> mehrere Richtungen verallgeme<strong>in</strong>ert:<br />
So wird hier die zu durchsuchende Zeichenkette von e<strong>in</strong>er ϕ-mischenden<br />
Folge von Zufallsvariablen erzeugt. Des Weiteren wird e<strong>in</strong> beliebiges endliches<br />
Alphabet mit ξ Zeichen betrachtet, so dass der <strong>Muster</strong>prozess von ξ-1 Parametern,<br />
die die Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet angeben, abhängt.<br />
Außerdem wird e<strong>in</strong> zusätzlicher ”<br />
Zeitparameter“ e<strong>in</strong>geführt, der die Position <strong>in</strong>nerhalb<br />
der Zeichenkette X 1 , . . . , X n angibt.<br />
Mithilfe e<strong>in</strong>es Ergebnisses von Balacheff <strong>und</strong> Dupont [9] wird gezeigt, dass der<br />
empirische <strong>Muster</strong>prozess konvergiert <strong>und</strong> dass der Grenzprozess stetig von der<br />
Verteilung der Zeichen <strong>und</strong> dem Zeitparameter abhängt. Hierzu wird das Problem<br />
im Kontext der Theorie der empirischen Prozesse betrachtet. Da die Wahrsche<strong>in</strong>lichkeitsverteilung<br />
auf dem Alphabet <strong>in</strong> der Praxis zumeist aus den Beobachtungen<br />
geschätzt wird, rechtfertigt die bewiesene Stetigkeit die Annahme, dass e<strong>in</strong>e<br />
h<strong>in</strong>reichend gute Schätzung der Zeichenwahrsche<strong>in</strong>lichkeiten e<strong>in</strong>e gute Approximation<br />
des <strong>Muster</strong>prozesses ergibt. Konkrete Fehlerabschätzungen erhöhen den<br />
praktischen Nutzen der Ergebnisse.<br />
Um das Erzeugen der zufälligen Zeichenkette <strong>in</strong> e<strong>in</strong>em möglichst allgeme<strong>in</strong>en<br />
Modell geht es im fünften Kapitel. Das schon 1966 von Baum <strong>und</strong> Petrie <strong>in</strong> [14]<br />
untersuchte Hidden-Markov“-Modell wird <strong>in</strong> der Praxis auch heute noch verwendet,<br />
da es viele konkrete Anpassungen des Modells an praktische Fragestellungen<br />
”<br />
<strong>und</strong> effiziente Methoden zur Bestimmung oder Schätzung der Parameter gibt.<br />
Vallée [92] lieferte 2001 mit den Dynamischen Quellen“ e<strong>in</strong>en Ansatz, der durch<br />
”<br />
die Theorie der Dynamischen Systeme motiviert ist. Beiden Modellen ist geme<strong>in</strong>,<br />
dass die Zeichenkette durch e<strong>in</strong>en verborgenen“ Prozess erzeugt wird, dessen Zustand<br />
nicht direkt beobachtet werden kann. Dieser wird <strong>in</strong> Baum <strong>und</strong> Petrie [14]<br />
”<br />
durch e<strong>in</strong>e Markov-Kette <strong>und</strong> <strong>in</strong> Vallée [92] durch e<strong>in</strong>e determ<strong>in</strong>istische Iteration<br />
mit zufälligem Startwert gegeben. E<strong>in</strong>e nicht notwendigerweise determ<strong>in</strong>istische<br />
Abbildung vom Zustandsraum <strong>in</strong> den Raum der Beobachtungen bestimmt die<br />
emittierten“ Zeichen, das heißt den sichtbaren Prozess, der nach den <strong>Muster</strong>n<br />
”<br />
durchsucht wird. Hidden-Markov-Modelle <strong>und</strong> Dynamische Quellen werden hier
v<br />
<strong>in</strong> e<strong>in</strong> neues allgeme<strong>in</strong>eres Modell e<strong>in</strong>gebettet, <strong>in</strong> dem der nicht beobachtbare<br />
Prozess durch e<strong>in</strong>e ϕ- beziehungsweise ψ-mischende Zufallsfolge modelliert wird.<br />
Es wird gezeigt, dass der mehrdimensionale <strong>Muster</strong>prozess mehrerer fester <strong>Muster</strong><br />
gegen e<strong>in</strong>e mehrdimensionale Brownsche Bewegung konvergiert. Dies zeigt<br />
<strong>in</strong>sbesondere, dass sich das neu vorgestellte Modell <strong>in</strong> der Praxis anwenden lässt.<br />
Modelle, <strong>in</strong> denen e<strong>in</strong> verborgener Prozess, bezüglich dessen die Abhängigkeiten<br />
kontrolliert werden, <strong>und</strong> e<strong>in</strong> sichtbarer Prozess, dessen Zustand gemessen wird,<br />
unterschieden werden, spiegeln die Anschauung wider, dass <strong>in</strong> vielen Experimenten<br />
nur e<strong>in</strong> Bruchteil des Mechanismus beobachtet werden kann, der den zufälligen<br />
Prozess bestimmt. Liegt e<strong>in</strong>e solche Situation vor, so ist davon auszugehen,<br />
dass e<strong>in</strong> Modell, das nur den sichtbaren Prozess berücksichtigt, unzureichend ist,<br />
da sich dessen Parameter bei e<strong>in</strong>er nicht beobachtbaren Zustandsänderung des<br />
verborgenen Prozesses sprunghaft ändern können.<br />
Me<strong>in</strong> Dank gilt all denen, die mich auf me<strong>in</strong>em Weg zu dieser Arbeit unterstützt<br />
haben. Jede Liste, die ich hier anführen könnte, wäre sicherlich unvollständig.<br />
Daher möchte ich hier diejenigen nennen, die unmittelbar mit dieser Arbeit <strong>in</strong><br />
Verb<strong>in</strong>dung stehen:<br />
Herrn Prof. Dr. L. Rüschendorf danke ich für die Anregung zu dieser Arbeit <strong>und</strong><br />
die gute Betreuung; die hilfreichen Diskussionen <strong>und</strong> persönlichen Ermunterungen<br />
haben wesentlich zum Gel<strong>in</strong>gen beigetragen.<br />
Ebenso bedanke ich mich bei Sarah Weiß für das sorgfältige Korrekturlesen des<br />
Manuskripts <strong>und</strong> bei Monika Hattenbach für die geduldige Hilfe bei allerlei L A TEX-<br />
Fragen.<br />
Ich danke me<strong>in</strong>en Kolleg<strong>in</strong>nen <strong>und</strong> Kollegen <strong>und</strong> den Mitarbeitern der <strong>Abteilung</strong><br />
für Mathematische Stochastik für die gute Arbeitsatmosphäre <strong>und</strong> allen, die<br />
mit kritischen <strong>und</strong> konstruktiven Verbesserungsvorschlägen zum Gel<strong>in</strong>gen dieser<br />
Arbeit beigetragen haben.<br />
Besonders bedanken möchte ich mich bei me<strong>in</strong>en Fre<strong>und</strong>en <strong>und</strong> me<strong>in</strong>er Familie<br />
für ihre Unterstützung. Nicht zuletzt danke ich Angelika für ihre Geduld <strong>und</strong><br />
Hilfsbereitschaft.
Inhaltsverzeichnis<br />
vii<br />
Inhaltsverzeichnis<br />
1 Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen 1<br />
1.1 Biologische Gr<strong>und</strong>lagen . . . . . . . . . . . . . . . . . . . . . . . . 1<br />
1.2 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
2 Vergleich zweier <strong>Zeichenketten</strong> 9<br />
2.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 11<br />
2.2 Starkes Gesetz großer Zahlen . . . . . . . . . . . . . . . . . . . . . 15<br />
2.3 Poisson Approximation . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
2.3.1 Die Ste<strong>in</strong>–Chen-Methode . . . . . . . . . . . . . . . . . . . 25<br />
2.3.2 Beweis von Satz 2.5 . . . . . . . . . . . . . . . . . . . . . . 27<br />
3 Scan-Statistiken mit variabler Fenstergröße 33<br />
3.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 33<br />
3.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />
3.3 Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />
3.4 Endlichdimensionale Randverteilungen . . . . . . . . . . . . . . . 39<br />
3.4.1 Der Fall r n ↘ r, r > 0 . . . . . . . . . . . . . . . . . . . . 41<br />
3.4.2 Der Fall r n ↘ 0 . . . . . . . . . . . . . . . . . . . . . . . . 48<br />
4 Der empirische <strong>Muster</strong>prozess 51<br />
4.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 51<br />
4.2 Endlichdimensionale Randverteilungen . . . . . . . . . . . . . . . 54<br />
4.3 Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />
4.4 Fehlerabschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . 61
viii<br />
Inhaltsverzeichnis<br />
5 Das Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell ”<br />
69<br />
5.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 70<br />
5.2 Der allgeme<strong>in</strong>e Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
5.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />
5.3.1 Das Hidden Markov“ Modell . . . . . . . . . . . . . . . . 78<br />
”<br />
5.3.2 Dynamische Quellen . . . . . . . . . . . . . . . . . . . . . 83<br />
Literatur 85
1<br />
Kapitel 1<br />
Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />
1.1 Biologische Gr<strong>und</strong>lagen<br />
Da die vorliegende Arbeit wesentlich durch Fragestellungen aus der Molekularbiologie<br />
motiviert wurde, soll <strong>in</strong> diesem Abschnitt e<strong>in</strong>e kurze E<strong>in</strong>führung <strong>in</strong> die biologischen<br />
Gr<strong>und</strong>lagen gegeben werden. Diese umfasst den gr<strong>und</strong>sätzlichen Aufbau<br />
von DNS- <strong>und</strong> Prote<strong>in</strong>-Sequenzen <strong>und</strong> die Transkription beziehungsweise Translation.<br />
Die geläufige Abkürzung DNS beziehungsweise DNA steht für Desoxyribonukle<strong>in</strong>säure<br />
oder im Englischen Deoxyribonucleic acid. Die DNS besteht aus zwei<br />
langen Molekülketten, die schraubenförmig um e<strong>in</strong>e geme<strong>in</strong>same, gedachte Achse<br />
gew<strong>und</strong>en s<strong>in</strong>d.<br />
Für die Entdeckung dieser Struktur 1953 erhielten Watson <strong>und</strong> Crick [95] im Jahr<br />
1962 den Nobelpreis für Mediz<strong>in</strong>.<br />
Die beiden E<strong>in</strong>zelstränge bestehen aus abwechselnd angeordneten Phosphorsäureresten<br />
<strong>und</strong> Desoxyribosemolekülen, wegen der fünf Kohlenstoffatome auch<br />
Pentose genannt. Diese bilden das sogenannte ”<br />
Desoxyribose-Phosphat-Rückgrat“.<br />
Die genetische Information wird von stickstoffhaltigen organischen Basen<br />
codiert, die sich auf der Innenseite der Helix an der Desoxyribose bef<strong>in</strong>den. Die<br />
vier verschiedenen Nukleobasen, die <strong>in</strong> der DNS vorkommen, s<strong>in</strong>d Aden<strong>in</strong>, Guan<strong>in</strong>,<br />
Cytos<strong>in</strong> <strong>und</strong> Thym<strong>in</strong>. Aus diesem Gr<strong>und</strong> werden DNS In der Regel als ”<br />
Text“<br />
über dem 4-nären Alphabet A = {A,G,C,T} angegeben.<br />
Die Stränge können theoretisch beliebig fortgesetzt werden, es gibt ke<strong>in</strong>en Abschluss,<br />
der e<strong>in</strong>e Helix term<strong>in</strong>iert. Wegen der <strong>in</strong> der organischen Chemie üblichen<br />
Nummerierung der Kohlenstoffatome s<strong>in</strong>d die Enden durch die nicht abgeschlossenen<br />
Kohlenstoffe 3 ′ <strong>und</strong> 5 ′ e<strong>in</strong>deutig bezeichnet, so dass durch die Konvention<br />
5 ′ → 3 ′ e<strong>in</strong>e ”<br />
Laufrichtung“ vorgegeben ist, wie die DNS-Sequenz angegeben<br />
wird.<br />
Zwischen den Nukleobasen A <strong>und</strong> T beziehungsweise zwischen G <strong>und</strong> C bil-
2 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />
den sich Wasserstoffbrückenb<strong>in</strong>dungen aus. Diese halten die beiden antiparallelen<br />
Stränge zusammen <strong>und</strong> sorgen so für die die sogenannte Doppelhelix-Struktur der<br />
DNS. Da es somit zu jeder Base auf dem e<strong>in</strong>en Strang e<strong>in</strong>e komplementäre Base<br />
auf dem anderen Strang gibt, werden die Länge der Doppelhelix <strong>und</strong> Abstände<br />
darauf auch <strong>in</strong> der E<strong>in</strong>heit Basenpaare oder kurz bp angegeben.<br />
Die Replikation der DNS geschieht durch das Aufw<strong>in</strong>den der Doppelhelix <strong>und</strong><br />
Trennen der beiden Stränge. Hierfür <strong>in</strong>itiieren bestimmte Prote<strong>in</strong>e, sogenannte<br />
Helikasen, an e<strong>in</strong>em speziellen ”<br />
Replikations-Ursprung“ oder ”<br />
Startpunkt“ das<br />
Entw<strong>in</strong>den der beiden Stränge, so dass die Wasserstoffbrückenb<strong>in</strong>dungen gelöst<br />
werden können. Jeder E<strong>in</strong>zelstrang dient dann als Vorlage für den entsprechenden<br />
komplementären Strang, so dass dieser durch die Polymerase synthetisiert wird.<br />
Dieser hier stark vere<strong>in</strong>facht dargestellte Vorgang steht im Mittelpunkt vieler Forschungsarbeiten.<br />
So s<strong>in</strong>d sowohl Veränderungen bei der Replikation von großem<br />
Interesse, als auch beispielsweise das Lokalisieren e<strong>in</strong>es Replikations-Ursprungs.<br />
Die DNS fungiert daher als e<strong>in</strong>e Art ”<br />
genetische Datenbank“, <strong>in</strong> der auf diese<br />
Weise Unmengen an Information ”<br />
gespeichert“ wird. So besteht das Genom<br />
des Escherichia coli, e<strong>in</strong> Colibakterium, das gerne als Modellorganismus herangezogen<br />
wird, weil es sehr gut erforscht ist, aus etwa 5 · 10 6 Basenpaaren, das der<br />
Drosophila, der allseits bekannten Fliege, aus etwa 2·10 8 <strong>und</strong> das menschliche Genom<br />
aus etwa 3 · 10 9 Basenpaaren. Hieraus wird offensichtlich, dass automatische<br />
Verfahren gebraucht werden, um diese enormen Datenmengen zu untersuchen.<br />
So müssen beispielsweise DNS-Sequenzen verglichen <strong>und</strong> signifikante Ähnlichkeiten<br />
ermittelt werden, um von bekannten Organismen auf zu erforschende schließen<br />
zu können oder es müssen Regionen mit speziellen Funktionen gef<strong>und</strong>en werden,<br />
um die Infektion e<strong>in</strong>er Wirtszelle durch e<strong>in</strong>en Virus zu untersuchen. Diese<br />
Verfahren benötigen zum e<strong>in</strong>en immer ausgeklügeltere Algorithmen sowie mehr<br />
Rechenleistung <strong>und</strong> zum anderen immer bessere statistische Verfahren um die<br />
Signifikanz der ermittelten Ergebnisse e<strong>in</strong>zuschätzen.<br />
Die Informationen s<strong>in</strong>d <strong>in</strong> funktionellen Gruppen, den Genen, auf der DNS angeordnet.<br />
Diese machen nur e<strong>in</strong>en Bruchteil der DNS aus. Dazwischen liegen große<br />
Teile, die oft als ”<br />
DNS-Müll“ beziehungsweise englisch ”<br />
junk DNA“ bezeichnet<br />
wurden. Man geht jedoch mittlerweile davon aus, dass diese Intergensequenzen<br />
regulatorische Aufgaben erfüllen. Da die Intergensequenzen jedoch ke<strong>in</strong>e direkte<br />
Bedeutung für die Struktur der Translationsprodukte besitzen, tendieren sie <strong>in</strong><br />
höherem Maße zur Mutation, so dass sie sich bei verschiedenen Individuen <strong>in</strong> der<br />
Regel messbar unterscheiden. Sie werden daher für den sogenannten genetischen<br />
F<strong>in</strong>gerabdruck oder für Abstammungsgutachten, volkstümlich auch Vaterschaftstest<br />
genannt, benutzt.<br />
Zur Erforschung von Verwandschaften auf evolutionärer Ebene s<strong>in</strong>d dagegen die<br />
Gene geeignet. Anhand der Ähnlichkeit der Sequenz von Genen mit vergleichbarer<br />
Funktion werden mithilfe des sogenannten ”<br />
Sequence Match<strong>in</strong>g“ beispielsweise<br />
phylogenetische Bäume erstellt.
1.1. Biologische Gr<strong>und</strong>lagen 3<br />
Der erste Schritt bei der Prote<strong>in</strong>synthese ist das Auswerten von Informationen<br />
aus der ”<br />
Datenbank“ DNS. Hierzu wird e<strong>in</strong> Gen ”<br />
abgelesen“ <strong>und</strong> dient bei e<strong>in</strong>em<br />
ähnlichen Vorgang wie der oben beschriebenen Replikation als Vorlage für die<br />
Synthese e<strong>in</strong>es neuen Ribonukle<strong>in</strong>säure-Strangs. Dieser Vorgang heißt Transkription.<br />
Die Ribonukle<strong>in</strong>säure, im Folgenden als RNS abgekürzt, ähnelt im Aufbau dem<br />
der DNS. Die Struktur ist jedoch e<strong>in</strong>zelsträngig <strong>und</strong> wird von e<strong>in</strong>em Ribose-<br />
Phosphat-Rückgrat gegeben, bei dem an jede Pentose e<strong>in</strong>e der Basen Aden<strong>in</strong>,<br />
Guan<strong>in</strong>, Cytos<strong>in</strong> oder Uracil angekoppelt ist. Daher wird hier <strong>in</strong> der Regel das Alphabet<br />
A = {A,G,C,U} zur Beschreibung verwendet. Uracil ist wie bei der DNS<br />
Thym<strong>in</strong> die komplementäre Base zu Aden<strong>in</strong>. Während die DNS ihrer Funktion<br />
gemäß e<strong>in</strong>e sehr stabiles Molekül ist, ist die RNS reaktiv genug, um verschiedene<br />
Funktionen zu übernehmen.<br />
So dient beispielsweise die sogenannte messenger RNA, meist mRNA abgekürzt,<br />
als Vorlage für die Prote<strong>in</strong>synthese im Cytoplasma. Hier wird <strong>in</strong> e<strong>in</strong>em Zwischenschritt<br />
zunächst die prä-mRNA oder auch hnRNA aus der DNS transkribiert.<br />
Aus dieser werden dann die nicht codierenden Regionen, die sogenannten Introns,<br />
herausgespleißt. Die übrig bleibenden Exons bilden die mRNA.<br />
Bei der sogenannten Translation der mRNA werden jeweils drei Nukle<strong>in</strong>säuren,<br />
die auch als Codon bezeichnet werden, zu e<strong>in</strong>er Am<strong>in</strong>osäure übersetzt. Hier s<strong>in</strong>d<br />
drei verschieden ”<br />
Leserahmen“ möglich, die <strong>in</strong> der Regel zu völlig unterschiedlichen<br />
Translationen führen.<br />
Die Zuordnungsvorschrift der 4 3 = 64 möglichen Codons zu e<strong>in</strong>er der 20 direkt<br />
erzeugten Am<strong>in</strong>osäuren wird auch als ”<br />
genetischer Code“ bezeichnet, vergleiche<br />
Waterman [94, Tabelle 1.2]. E<strong>in</strong>e Sonderstellung nimmt die Am<strong>in</strong>osäure Selenocyste<strong>in</strong><br />
e<strong>in</strong>, da sie nicht direkt durch Translation entsteht, sondern durch sogenannte<br />
”<br />
Rekodierung“ e<strong>in</strong>gebaut wird. Des Weiteren gibt es e<strong>in</strong> sogenanntes<br />
Startcodon, das die Translation <strong>in</strong>itiiert <strong>und</strong> drei Stoppcodons, die die Translation<br />
term<strong>in</strong>ieren.<br />
Die Prote<strong>in</strong>e erfüllen vielfältige Aufgaben: So ermöglichen Enzyme viele chemische<br />
Reaktionen <strong>und</strong> steuern Abläufe <strong>in</strong> der Zelle, Strukturprote<strong>in</strong>e bestimmen<br />
den Aufbau der Zelle, das Transportprote<strong>in</strong> Hämoglob<strong>in</strong> versorgt das Gewebe mit<br />
Sauerstoff, um nur e<strong>in</strong>ige Beispiele zu nennen.<br />
Die räumliche Struktur der Prote<strong>in</strong>e ist wesentlich komplexer, als die der DNS:<br />
Die Primärstruktur ist durch die Abfolge der Am<strong>in</strong>osäuren gegeben <strong>und</strong> wird<br />
hier als Text über e<strong>in</strong>em Alphabet mit 20 beziehungsweise 21 Zeichen modelliert,<br />
so dass sie aus mathematischer Sicht ähnlich wie DNS behandelt werden kann.<br />
Die sogenannte Sek<strong>und</strong>ärstruktur beschreibt Sequenzabschnitte mit regelmäßiger<br />
lokaler Ordnung, wie etwa Helices, Bögen oder Faltungen, die durch Wasserstoffbrückenb<strong>in</strong>dungen<br />
entstehen. Die vollständige räumliche Gestalt wird als<br />
Tertiärstruktur bezeichnet, die Kooperation mehrerer Tertiärstrukturen zu e<strong>in</strong>em
4 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />
Prote<strong>in</strong>komplex als Quartärstruktur. Das Gebiet der Prote<strong>in</strong>faltung wird zur Zeit<br />
erforscht, <strong>in</strong> diesem Bereich bef<strong>in</strong>det sich die Molekularbiologie noch <strong>in</strong> ständiger<br />
Bewegung. E<strong>in</strong>e vollständige <strong>und</strong> zuverlässige Vorhersage der Sek<strong>und</strong>är- bis<br />
Quartärstruktur aus der Primärstruktur ist heute noch nicht möglich.<br />
Die E<strong>in</strong>führung der biologischen Gr<strong>und</strong>lagen <strong>in</strong> diesem Abschnitt ließe sich noch<br />
beliebig erweitern. Alle<strong>in</strong>e e<strong>in</strong>e Erläuterung der RNA-Typen <strong>und</strong> ihrer Funktion<br />
würde e<strong>in</strong> ganzes Kapitel füllen. Weitere <strong>in</strong>teressante Themen wie ”<br />
Alternatives<br />
Spleißen“, der Aufbau der Chromosomen oder e<strong>in</strong>e gr<strong>und</strong>legende Unterscheidung<br />
von Prote<strong>in</strong>en werden hier nicht ausgeführt, da dies weit über den Rahmen e<strong>in</strong>er<br />
mathematischen Arbeit h<strong>in</strong>ausgehen würde.<br />
E<strong>in</strong>e weitere Diszipl<strong>in</strong>, <strong>in</strong> der aktiv geforscht wird, ist die Genexpressionsanalyse.<br />
Hier wird mit sogenannten ”<br />
Micrarrays“ die Expression von Genen gemessen, das<br />
heißt es wird die Aktivität bestimmter Gene <strong>in</strong> speziellen Lebens-Zyklen beziehungsweise<br />
Stadien betrachtet. Die Methode wird hauptsächlich <strong>in</strong> der Krebsforschung<br />
angewendet. Da man hierbei <strong>in</strong> der Regel jedoch kle<strong>in</strong>e Datensätze<br />
von hochdimensionalen Daten auswertet, s<strong>in</strong>d die <strong>in</strong> dieser Arbeit beschriebenen<br />
Verfahren darauf nicht anwendbar.<br />
Weiterführende Literatur, die den Sachverhalt aus biologischer Perspektive beschreibt,<br />
s<strong>in</strong>d die Bücher von Jann<strong>in</strong>g <strong>und</strong> Knust [51] oder Czihak, Langer <strong>und</strong><br />
Ziegler [30]. In den Büchern von Durb<strong>in</strong>, Eddy, Krogh <strong>und</strong> Mitchison [40] sowie<br />
Bishop <strong>und</strong> Rawl<strong>in</strong>gs [18] wird die mathematische <strong>und</strong> algorithmische Seite<br />
beleuchtet. Empfehlenswert ist das fächerübergreifende Buch ”<br />
Introduction to<br />
Computational Biology“ von Waterman [94], der Professor für Biologie, Mathematik<br />
<strong>und</strong> Informatik an der University of Southern California ist.<br />
1.2 Notation<br />
In diesem Abschnitt werden e<strong>in</strong>ige Def<strong>in</strong>itionen <strong>und</strong> Konventionen zusammengefasst.<br />
Viele s<strong>in</strong>d <strong>in</strong> der Literatur allgeme<strong>in</strong> gebräuchlich <strong>und</strong> werden daher hier<br />
zumeist ohne Quellenverweise aufgeführt.<br />
Es bezeichnet N die natürlichen Zahlen, N 0 := N ∪ {0}, Z die Menge der ganzen<br />
Zahlen, R die reellen Zahlen <strong>und</strong> C die komplexe Zahlenebene. Des Weiteren sei<br />
B die Borelsche σ-Algebra auf R <strong>und</strong> λ \ das Lebesgue-Maß auf (R, B).<br />
Ist M e<strong>in</strong>e endliche Menge, so bezeichnet |M| die Mächtigkeit von M, P(M) :=<br />
{A | A ⊂ M} die Potenzmenge von M <strong>und</strong> M ∗ := {m ɛ M n | n ɛ N} die Menge<br />
aller endlichen ”<br />
Wörter“ über M.<br />
Ist M ⊂ R <strong>und</strong> c ɛ R, so sei M + c := {a + c | a ɛ M}.<br />
Für zwei Zahlen x, y ɛ R sei zur Abkürzung def<strong>in</strong>iert: x ∧ y : = m<strong>in</strong>{x, y} <strong>und</strong><br />
x ∨ y := max{x, y}, x + := max{x, 0} <strong>und</strong> x − := max{−x, 0}. ⌊x⌋ sei die größte<br />
ganze Zahl z ɛ Z mit z ≤ x. Analog sei ⌈x⌉ die kle<strong>in</strong>ste ganze Zahl z ɛ Z mit z ≥ x.
1.2. Notation 5<br />
Um unnötige Fallunterscheidung zu vermeiden, sei ∏ ∅<br />
:= 1, ∑ ∅<br />
:= 0 <strong>und</strong> 1 ∅ := 1.<br />
Ist v e<strong>in</strong> Vektor beziehungsweise A e<strong>in</strong>e Matrix, so bezeichnet v T den transponierten<br />
Vektor beziehungsweise A T die transponierte Matrix. Für e<strong>in</strong>en n-<br />
dimensionalen Vektor v = (v 1 , . . . , v n ) T <strong>und</strong> e<strong>in</strong>e Menge M ⊂ {1, . . . , n} bezeichne<br />
v M := (v i ) i ɛ M die Projektion von v auf die |M|-dimensionale Hyperebene. Für<br />
e<strong>in</strong>e reelle Zahl c ɛ R ist v + c := (v 1 + c, . . . , v n + c) T die Translation um c. Ist<br />
w ɛ R n e<strong>in</strong> weiterer Vektor, so ist v ≤ w genau dann, wenn für alle Komponenten<br />
gilt v i ≤ w i . In diesem Fall ist das abgeschlossene n-dimensionale Intervall<br />
gegeben durch [v, w] : = × n i=1[v i , w i ]. n-dimensionale Intervalle werden auch als<br />
(achsenparallele) Quader bezeichnet.<br />
Ist (Ω, A) e<strong>in</strong> Messraum, so wird mit M(Ω, A) die Menge der Maße auf (Ω, A) bezeichnet<br />
<strong>und</strong> mit M 1 (Ω, A) die Menge aller Wahrsche<strong>in</strong>lichkeitsmaße auf (Ω, A).<br />
Ist die Menge Ω endlich oder abzählbar, so wird abkürzend auch M 1 (Ω) : =<br />
M 1 (Ω, P(Ω)) verwendet <strong>und</strong> mit der Menge aller Wahrsche<strong>in</strong>lichkeitsvektoren<br />
identifiziert: M 1 (Ω) = { (p ω ) ω ɛ Ω ɛ [0, 1] |Ω| | ∑ ω ɛ Ω p ω = 1 } . Ebenso bezeichnet<br />
M l := { β ɛ M 1 (Ω) | l · β ɛ N |Ω| } für l ɛ N die Menge aller empirischen Verteilungen,<br />
die e<strong>in</strong> Wort der Länge l haben kann. Für endliche Mengen Ω bezeichne | · |<br />
die Euklidische Norm auf M(Ω).<br />
E<strong>in</strong>e Zufallsvariable ist e<strong>in</strong>e messbare Abbildung zwischen zwei Messräumen, das<br />
heißt X : (Ω 1 , A 1 ) → (Ω 2 , A 2 ). Ist (Ω 1 , A 1 , P ) e<strong>in</strong> Maßraum, so ist das Bildmaß<br />
von P unter X gegeben durch P X = P (X ɛ · ).<br />
Ist X e<strong>in</strong>e reellwertige Zufallsvariable, so bezeichnet die rechtsseitig stetige Abbildung<br />
F X : R → [0, 1], def<strong>in</strong>iert durch F X (x) := P (X ≤ x) die Verteilungsfunktion<br />
von X <strong>und</strong> E P X = ∫ XdP den Erwartungswert von X bezüglich P . Wenn ke<strong>in</strong>e<br />
Verwechslungsgefahr besteht, wird E X verwendet.<br />
Für Zufallsvariablen X, Y mit gleichem Wertebereich bedeutet X = d Y , dass die<br />
Zufallsvariablen identisch verteilt s<strong>in</strong>d, das heißt P X = P Y . Diese Abkürung<br />
wird ebenso für Verteilungen beziehungsweise Wahrsche<strong>in</strong>lichkeitsmaße Q auf<br />
dem selben Gr<strong>und</strong>raum verwendet, das heißt es gilt genau dann X = d Q, wenn<br />
P X = Q.<br />
Für e<strong>in</strong>en Gr<strong>und</strong>raum (Ω, A, P ) <strong>und</strong> p > 1 sei L p (P ) die Menge der<br />
p-<strong>in</strong>tegrierbaren Funktionen <strong>und</strong> L p +(P ) die Menge der nichtnegativen p-<br />
<strong>in</strong>tegrierbaren Funktionen. Für f ɛ L p (P ) ist die L p –Norm von f gegeben durch<br />
‖f‖ p := ( ∫ |f| p dP ) 1 p<br />
für p < ∞, beziehungsweise ‖f‖ ∞ := <strong>in</strong>f{sup x ɛ Ω\N |f(x)| :<br />
N ɛ A, P (N) = 0}.<br />
D[0, 1] sei der Raum der rechtsseitig stetigen, reellen Funktionen auf [0, 1] mit<br />
l<strong>in</strong>kseitigem Grenzwert. Allgeme<strong>in</strong>er sei D d für d ɛ N der Raum der càdlàg-<br />
Funktionen auf [0, 1] d , wie beispielsweise von Bickel <strong>und</strong> Wichura [16, Abschnitt 3]<br />
def<strong>in</strong>iert. Bezeichnen Q 1 (t), . . . , Q 2 d(t) für alle t ɛ [0, 1] d die achsenparallelen Quader,<br />
die t <strong>und</strong> e<strong>in</strong>en Eckpunkt des E<strong>in</strong>heitsquaders [0, 1] d als Eckpunkte ha-
6 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />
ben, so s<strong>in</strong>d dies gerade die reellen Funktionen f für die lim s→t, s ɛ Qi (t) für alle<br />
i ɛ {1, . . . , 2 d } existiert <strong>und</strong> für die f(t) = lim s→t, s≥t f(s) gilt.<br />
Gegeben seien Wahrsche<strong>in</strong>lichkeitsmaße P n , P ɛ M 1 (Ω, A), n ɛ N auf dem Borel-<br />
Raum (Ω, A). Dann konvergiert P n genau dann <strong>in</strong> Verteilung gegen P , abkürzend<br />
P D<br />
n −→ P , wenn ∫ ∫<br />
fdP n −→ n→∞ fdP für alle stetigen, beschränkten, reellwertigen<br />
Funktionen f auf Ω. S<strong>in</strong>d X n <strong>und</strong> X Zufallsvariablen, so konvergiert X D<br />
n −→ X<br />
genau dann, wenn P Xn −→ D<br />
P X . S<strong>in</strong>d X n , X ɛ D[0, 1], so wird die Konvergenz<br />
der endlichdimensionalen Randverteilungen, das heißt (X n,t1 , . . . , X n,tk )<br />
D<br />
−→<br />
D f<br />
(X t1 , . . . , X tk ) für alle k ɛ N, t 1 , . . . , t k ɛ [0, 1], mit X n −→ X abgekürzt.<br />
E<strong>in</strong>e Folge X : = (X i ) i ɛN von Zufallsvariablen mit Werten <strong>in</strong> e<strong>in</strong>em endlichen<br />
Zustandsraum I ist e<strong>in</strong>e Markov-Kette, wenn für alle n ɛ N, x 1 , . . . , x n ɛ I gilt:<br />
P (X n = x n | X 1 = x 1 , . . . , X n−1 = x n−1 ) = P (X n = x n | X n−1 = x n−1 ).<br />
X ist homogen, falls γ i,j = P (X n = j | X n−1 = i) für alle Zustände i, j ɛ I<br />
unabhängig von n ɛ N ist. Die Matrix Γ = (γ i,j ) i,j ɛ I heißt Übergangsmatrix. Die<br />
Markov-Kette X ist irreduzibel, wenn alle Zustände i, j ɛ I verb<strong>und</strong>en“ s<strong>in</strong>d, das<br />
”<br />
heißt, wenn m, n ɛ N existieren, so dass P (X m = i | X 1 = j) > 0 <strong>und</strong> P (X n =<br />
j | X 1 = i) > 0. X heißt aperiodisch, wenn alle Zustände i ɛ I aperiodisch s<strong>in</strong>d,<br />
das bedeutet, dass der größte geme<strong>in</strong>same Teiler der potentiellen Rückkehrzeiten<br />
ggT{n ɛ N | P (X n+1 = i | X 1 = i) > 0} = 1 ist.<br />
Für e<strong>in</strong>e Indexmenge M <strong>und</strong> Zufallsvariablen (X i ) i ɛ M auf e<strong>in</strong>em geme<strong>in</strong>samen<br />
Gr<strong>und</strong>raum (Ω, A, P ), sei σ(X i ; i ɛ M) ⊂ A die von (X i ) i ɛ M erzeugte σ-Algebra.<br />
S<strong>in</strong>d die Funktionen ϕ, ψ : N → [0, 1] mit ϕ(i) −→<br />
i→∞<br />
0 <strong>und</strong> ψ(i) −→<br />
i→∞<br />
0 gegeben <strong>und</strong><br />
X := (X i ) i ɛN e<strong>in</strong>e Folge von Zufallsvariablen auf dem geme<strong>in</strong>samen Gr<strong>und</strong>raum<br />
(Ω, A, P ), so heißt die Folge X ϕ-mischend, falls für alle i, j ɛ N, E 1 ɛ σ(X k ; k ≤ i),<br />
E 2 ɛ σ(X k ; k ≥ i + j) gilt:<br />
∣ P (E1 ∩ E 2 ) − P (E 1 )P (E 2 ) ∣ ≤ ϕ(j)P (E1 )<br />
<strong>und</strong> ψ-mischend, falls für alle i, j ɛ N, E 1 ɛ σ(X k ; k ≤ i), E 2 ɛ σ(X k ; k ≥ i + j) gilt:<br />
∣ P (E1 ∩ E 2 ) − P (E 1 )P (E 2 ) ∣ ∣ ≤ ψ(j)P (E1 )P (E 2 )<br />
Wie <strong>in</strong> Bill<strong>in</strong>gsley [17, Abschnitt 20] wird angenommen, dass die Folge ( ϕ(n) ) n ɛN<br />
monoton fallend ist <strong>und</strong> ϕ(n) ≤ 1, für alle n ɛ N. Dies ist ke<strong>in</strong>e E<strong>in</strong>schränkung,<br />
da die Mischungsbed<strong>in</strong>gung bezüglich der Folge ( ϕ ′ (n) ) n ɛN , ϕ′ (n) :=<br />
m<strong>in</strong>{1, ϕ(1), . . . , ϕ(n)} erhalten bleibt. Anschaulich unterscheidet sich e<strong>in</strong> mischender<br />
Prozess von e<strong>in</strong>em unabhängigen Prozess mit den selben Randverteilungen<br />
um ”<br />
höchstens ϕ“ beziehungsweise ψ. Die stärkere ψ-Mischungsbed<strong>in</strong>gung<br />
berücksichtigt dabei ”<br />
Vergangenheit“ <strong>und</strong> ”<br />
Zukunft“ symmetrisch, während bei<br />
der ϕ-Mischungseigenschaft nur bezüglich der ”<br />
Vergangenheit“ gewichtet wird.
1.2. Notation 7<br />
E<strong>in</strong>e übersichtliche Zusammenfassung über weitere Mischungsbegriffe sowie weitere<br />
Eigenschaften f<strong>in</strong>det man zum Beispiel <strong>in</strong> Doukhan [39].<br />
(B t ) t ɛ [0,1] bezeichne e<strong>in</strong>e Standard Brownsche Bewegung, das heißt B ist e<strong>in</strong> Wiener<br />
Prozess mit stetigen Pfaden. Standardwerke zu Stochastischen Prozessen s<strong>in</strong>d<br />
zum Beispiel Revuz <strong>und</strong> Yor [76] oder Karatzas <strong>und</strong> Shreve [52].<br />
Für e<strong>in</strong>e Funktion f : R → R s<strong>in</strong>d die Landauschen Symbole def<strong>in</strong>iert durch<br />
O(f) : = {g : R → R | ∃C 1 , C 2 ɛ R ∀x ≥ C 2 : g(x) ≤ C 1 f(x)} <strong>und</strong> O(f) : = {g :<br />
R → R | lim x−→∞<br />
g(x)<br />
f(x) = 0}. In der Literatur f<strong>in</strong>det man für die oft ” O-Notation“<br />
genannten Symbole auch e<strong>in</strong>e Def<strong>in</strong>ition <strong>in</strong> der Form g = O(f), siehe etwa Greene<br />
<strong>und</strong> Knuth [49].
8 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen
9<br />
Kapitel 2<br />
Vergleich zweier <strong>Zeichenketten</strong><br />
Gegenstand dieses Kapitels ist der Vergleich zweier <strong>Zeichenketten</strong>, im Folgenden<br />
Sequence Match<strong>in</strong>g“ genannt. Elementar für die Bewertung der Ähnlichkeit ist<br />
”<br />
der Algorithmus, der die Zeichen der beiden <strong>Zeichenketten</strong> e<strong>in</strong>ander zuordnet. Die<br />
Zuordnung wird geme<strong>in</strong>h<strong>in</strong> als Alignment“ bezeichnet. An dieser Stelle wird das<br />
”<br />
Sequence Match<strong>in</strong>g mit Scor<strong>in</strong>g-Funktion behandelt. Diese ist <strong>in</strong> der Regel durch<br />
die Anwendung gegeben <strong>und</strong> bewertet die Ähnlichkeit zweier Zeichen. Der Score<br />
e<strong>in</strong>es <strong>Alignments</strong> ist die Summe über den Score der Zeichenpaare, die e<strong>in</strong>ander<br />
durch das Alignment zugeordnet werden.<br />
Um die Ähnlichkeit zweier Zeichenfolgen zu messen, wird im hier betrachteten<br />
lokalen Sequence Match<strong>in</strong>g ohne Gaps das Maximum des Scores über alle lokalen<br />
<strong>Alignments</strong> ohne Gaps gebildet. Das heißt, dass aus jeder Zeichenkette e<strong>in</strong>e<br />
beliebige zusammenhängende Folge von Zeichen betrachtet wird. Hierfür müssen<br />
die beiden Segmente gleiche Länge haben. Das Alignment ergibt sich, <strong>in</strong>dem der<br />
Reihe nach aus jedem Segment zwei Zeichen e<strong>in</strong>ander zugeordnet werden.<br />
Alternativen s<strong>in</strong>d das globale Sequence Match<strong>in</strong>g, wo jeweils die gesamte Zeichenfolge<br />
betrachtet wird, <strong>und</strong> Sequence Match<strong>in</strong>g mit Gaps, wo die Segmente<br />
Lücken haben dürfen, sowie Komb<strong>in</strong>ationen aus den vorgestellten Verfahren.<br />
Der Ursprung des Sequence Match<strong>in</strong>g wird <strong>in</strong> der Literatur oft im 1970 erschienenen<br />
Artikel von Erdös <strong>und</strong> Rényi [41] gesehen, wo das Auftreten von außergewöhnlich<br />
vielen aufe<strong>in</strong>ander folgenden Erfolgen <strong>in</strong> e<strong>in</strong>er zufälligen Erfolgs-/<br />
Misserfolgs-Folge untersucht wurde, was e<strong>in</strong>en Spezialfall des globalen Sequence<br />
Match<strong>in</strong>g ohne Gaps darstellt. Daher werden Verallgeme<strong>in</strong>erungen <strong>in</strong> Arratia <strong>und</strong><br />
Waterman [7], Borovkov [19], Arratia, Gordon <strong>und</strong> Waterman [5], Sanchis [80]<br />
<strong>und</strong> vielen anderen Artikeln als Erdös–Rényi’s Law“ bezeichnet.<br />
”<br />
Dagegen werden <strong>in</strong> Steele [87], Arratia <strong>und</strong> Waterman [8, Gleichung (6)], Waterman<br />
[94, Abschnitt 11.6.1] <strong>und</strong> anderen Veröffentlichungen die sogenannten<br />
Chvátal–Sankoff-Konstanten“ e<strong>in</strong>geführt. Diese Bezeichnung liegt nahe, weil<br />
”<br />
Chvátal <strong>und</strong> Sankoff [27] im Jahr 1975 erstmals mit wahrsche<strong>in</strong>lichkeitstheoretischen<br />
Methoden die Länge der längsten geme<strong>in</strong>samen Teilfolge zweier zufälliger
10 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
<strong>Zeichenketten</strong> untersucht haben.<br />
Der Artikel von Siegm<strong>und</strong> <strong>und</strong> Yakir [84], sowie dessen Korrektur [85], dürfte<br />
zu den wichtigsten Verallgeme<strong>in</strong>erungen auf diesem Gebiet zählen. Dort wird die<br />
Verteilung des maximalen Scores bei lokalem Sequence Match<strong>in</strong>g mit Gaps approximiert.<br />
Weitere Veröffentlichungen s<strong>in</strong>d etwa Goldste<strong>in</strong> [48], Arratia, Gordon<br />
<strong>und</strong> Waterman [5], Neuhauser [61] <strong>und</strong> Novak [64] um nur e<strong>in</strong>ige zu nennen.<br />
Da sich die genannten Veröffentlichungen mit unabhängigen Zeichenfolgen<br />
beschäftigen, besteht e<strong>in</strong>e weitere Verallgeme<strong>in</strong>erung dar<strong>in</strong>, abhängige <strong>Zeichenketten</strong><br />
zu betrachten. So werden zum Beispiel <strong>in</strong> Hansen [50] Markov-Ketten <strong>und</strong><br />
<strong>in</strong> Liu [59] ϕ-mischende Folgen untersucht.<br />
Die wohl wichtigste Anwendung des Sequence Match<strong>in</strong>g liegt <strong>in</strong> der Genetik.<br />
Hier werden DNS- oder Prote<strong>in</strong>sequenzen verglichen, um entweder die Verwandschaft<br />
von verschiedenen Spezies auf evolutionärer Ebene zu untersuchen, oder<br />
funktionelle beziehungsweise strukturelle Ähnlichkeiten verschiedener Sequenzen<br />
feststellen zu können. Die Sequenzen werden für diesen Zweck <strong>in</strong> Datenbanken,<br />
wie beispielsweise Swiss-Prot, e<strong>in</strong>er Datenbank für Prote<strong>in</strong>sequenzen, gespeichert.<br />
Für Details zu diesem Projekt, dessen zwanzigjähriges Bestehen im August 2006<br />
gefeiert wird, siehe http://www.expasy.org/sprot/. Zu untersuchende Prote<strong>in</strong>sequenzen<br />
werden mit den bestehenden E<strong>in</strong>trägen verglichen, um Ähnlichkeiten<br />
anhand e<strong>in</strong>es außergewöhnlich großen Scores zu f<strong>in</strong>den.<br />
Spang <strong>und</strong> V<strong>in</strong>gron haben 2001 <strong>in</strong> [86] den E<strong>in</strong>fluss der ständig wachsenden<br />
Zahl von Datenbanke<strong>in</strong>trägen auf die Wahrsche<strong>in</strong>lichkeit, zufällig e<strong>in</strong>en<br />
großen Score zu erhalten, untersucht. Auf der Gr<strong>und</strong>lage der Zahl von E<strong>in</strong>trägen<br />
<strong>in</strong> Swiss-Prot wurde festgestellt, dass schon 2001 die Ähnlichkeit<br />
vieler entfernt verwandter Prote<strong>in</strong>e <strong>in</strong> diesem zufälligen Rauschen“ übersehen<br />
wird. In dieser Veröffentlichung wurde auch festgestellt, dass das<br />
”<br />
annähernd exponentielle Wachstum der Datenbankgröße im Verlauf der Zeit (siehe<br />
http://www.expasy.org/sprot/relnotes/relstat.html) e<strong>in</strong>e näherungsweise<br />
l<strong>in</strong>eare Zunahme des Rauschens bewirkt, vergleiche Spang <strong>und</strong> V<strong>in</strong>gron [86,<br />
Abbildung 1].<br />
Als Lösung für die dargestellte Problematik wird hier e<strong>in</strong> neuer Ansatz vorgestellt,<br />
der mehr Informationen über die <strong>Zeichenketten</strong> verwendet: Durch das Betrachten<br />
weiterer Maxima soll im Folgenden die Selektivität erhöht werden. Das bedeutet,<br />
dass nicht nur der maximale Score gesucht wird, sondern danach die <strong>in</strong> diesem<br />
Alignment verwendeten Zeichenpaare nicht mehr verwendet werden <strong>und</strong> das Alignment<br />
mit maximalem Score <strong>in</strong> den verbleibenden Zeichenpaaren gesucht wird.<br />
Mit dieser Methode erhält man e<strong>in</strong>e absteigende Folge von größten Scores“, wobei<br />
im nächsten Abschnitt mathematisch def<strong>in</strong>iert wird, welche Zeichenpaare für<br />
”<br />
das Alignment des k-größten Scores noch berücksicht werden.
2.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 11<br />
2.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />
Betrachtet werden unabhängig identisch verteilte <strong>Zeichenketten</strong> X = (X i ) i ɛN <strong>und</strong><br />
Y = (Y j ) j ɛN über dem endlichen Alphabet A = {1, . . . , ξ}. Zur Abkürzung sei<br />
X identisch X i <strong>und</strong> Y identisch Y i verteilt, i ɛ N.<br />
E<strong>in</strong>e der fruchtbarsten Methoden beim Sequence Match<strong>in</strong>g ist die Large-<br />
Deviation-Theorie, <strong>in</strong> der das Grenzwertverhalten von Wahrsche<strong>in</strong>lichkeiten<br />
seltener Ereignisse durch exponentielle Schranken abgeschätzt wird. Für e<strong>in</strong>e<br />
E<strong>in</strong>führung sowie e<strong>in</strong>e Def<strong>in</strong>ition des sogenannten ”<br />
Large-Deviation-Pr<strong>in</strong>zips“<br />
<strong>und</strong> weitere Resultate gibt es umfangreiche Literatur, wie etwa Dembo <strong>und</strong> Zeitouni<br />
[35], Deuschel <strong>und</strong> Stroock [36], Bucklew [22] oder Varadhan [93], so dass<br />
im Folgenden nur die benötigten Ergebnisse zitiert werden.<br />
E<strong>in</strong> <strong>in</strong> der Large-Deviation-Theorie wichtiger Begriff ist die Entropie, wie sie<br />
auch <strong>in</strong> der Informationstheorie verwendet wird. Weitere mathematische Gr<strong>und</strong>lagen<br />
sowie <strong>in</strong>formationstheoretische Anwendungen f<strong>in</strong>den sich zum Beispiel <strong>in</strong><br />
Roman [78], Shannon <strong>und</strong> Weaver [83], Csiszár <strong>und</strong> Körner [29] <strong>und</strong> Kullback [56].<br />
Da die Def<strong>in</strong>ition <strong>und</strong> Verwendung <strong>in</strong>sbesondere der relativen Entropie <strong>in</strong> der Literatur<br />
nicht konsistent ist, werden die verwendeten Begriffe hier folgendermaßen<br />
def<strong>in</strong>iert:<br />
Def<strong>in</strong>ition 2.1 (Entropie)<br />
Sei A = {1, . . . , a} e<strong>in</strong> beliebiges endliches Alphabet. Für die Wahrsche<strong>in</strong>lichkeitsmaße<br />
π = (π 1 , . . . , π a ) <strong>und</strong> β = (β 1 , . . . , β a ) auf A ist die Entropie von π<br />
durch<br />
a∑<br />
( ) 1<br />
H(π) := π k log<br />
π k<br />
k=1<br />
<strong>und</strong> die relative Entropie von π bezüglich β durch<br />
def<strong>in</strong>iert.<br />
H(π|β) :=<br />
a∑<br />
k=1<br />
( )<br />
πk<br />
π k log<br />
β k<br />
Die Scor<strong>in</strong>g Funktion s : A×A → R sei symmetrisch, nehme mit positiver Wahrsche<strong>in</strong>lichkeit<br />
positive Werte an <strong>und</strong> habe negativen Erwartungswert bezüglich<br />
P (X,Y ) , das heißt es gelte:<br />
s(b, c) = s(c, b), P ( s(X, Y ) > 0 ) > 0 <strong>und</strong> E ( s(X, Y ) ) < 0<br />
für alle b, c ɛ A. Dem Vorzeichen von E ( s(X, Y ) ) kommt besondere Bedeutung<br />
zu: Wie <strong>in</strong> Arratia <strong>und</strong> Waterman [8] gezeigt wird, verhält sich der maximale<br />
Score für E ( s(X, Y ) ) < 0 asymptotisch logarithmisch <strong>und</strong> für E ( s(X, Y ) ) > 0<br />
wächst der maximale Score l<strong>in</strong>ear. Dieses Verhalten wird <strong>in</strong> der Literatur als
12 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Phasenübergang bezeichnet. Bei positivem erwartetem Score werden durch das<br />
lokale Sequence Match<strong>in</strong>g also nur vernachlässigbar viele Zeichen am Anfang <strong>und</strong><br />
am Ende weggelassen. Weil es <strong>in</strong> der biologischen Anwendung <strong>in</strong> der Regel um das<br />
Auff<strong>in</strong>den von Ähnlichkeiten durch die Identifikation von Segmenten mit großem<br />
Score geht, wird zumeist e<strong>in</strong>e Scor<strong>in</strong>g-Funktion mit negativer Erwartung gewählt.<br />
Daher wird <strong>in</strong> diesem Kapitel Sequence Match<strong>in</strong>g unter dieser Voraussetzung<br />
untersucht.<br />
E<strong>in</strong>e Zusammenstellung e<strong>in</strong>iger Ergebnisse, die den Phasenübergang zwischen<br />
logarithmischem <strong>und</strong> l<strong>in</strong>earem Wachstum zum Thema haben <strong>und</strong> die dieselbe<br />
Notation wie hier verwenden, f<strong>in</strong>det man beispielsweise <strong>in</strong> Lauer [57, Kapitel 5].<br />
Aus den Forderungen an s ergibt sich mit e<strong>in</strong>fachen analytischen Methoden, dass<br />
genau e<strong>in</strong> Θ ∗ > 0 existiert, so dass:<br />
E ( e Θ∗ s(X,Y ) ) = 1.<br />
Es sei α ∗ ɛ M(A 2 ) das Maß mit Zähldichte e Θ∗s bezüglich P (X,Y ) , das heißt für<br />
alle b, c ɛ A ist:<br />
α ∗ b,c := eΘ∗ s(b,c) P ( (X, Y ) = (b, c) ) .<br />
Es gelte weiterh<strong>in</strong><br />
H(α ∗ | P X × P Y ) > 2 max { H(α ∗ X|P X ), H(α ∗ Y |P Y ) } ,<br />
wobei αX ∗ := α∗ (·, A) die Randverteilung von α ∗ bezüglich der ersten Komponente<br />
<strong>und</strong> αY ∗ analog die Randverteilung bezüglich der zweiten Komponente bezeichne.<br />
Betrachtet man, wie <strong>in</strong> der Literatur üblich, den maximalen Score beim Vergleich<br />
von (X i ) 1≤i≤n mit (Y j ) 1≤j≤n :<br />
M (1)<br />
n = M n := max<br />
l ɛ {0,...,n}<br />
i,j ɛ {0,...,n−l}<br />
{ l∑<br />
k=1<br />
}<br />
s(X i+k , Y j+k ) ,<br />
so ergibt sich aus Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Theorem 3] e<strong>in</strong> starkes<br />
Gesetz großer Zahlen mit asymptotisch logarithmischem Wachstum, das heißt<br />
M n<br />
−→ 2<br />
.<br />
log n n→∞ Θ ∗<br />
Für die Def<strong>in</strong>ition des zweitgrößten Scores M n<br />
(2) sollen nun die Zeichenpaare<br />
(X i+k , Y j+k ) k=1,...,l , die im Alignment des größten Scores benutzt wurden, ausgeschlossen<br />
werden. Hierfür wird e<strong>in</strong>e Methode verwendet, die sich sowohl <strong>in</strong><br />
der wahrsche<strong>in</strong>lichkeitstheoretischen Analyse der Maxima als auch <strong>in</strong> der Implementierung<br />
von Algorithmen zur Bestimmung des maximalen Scores bei der<br />
sogenannten Dynamischen Programmierung“ bewährt hat. E<strong>in</strong>ige der folgenden<br />
Def<strong>in</strong>itionen sowie weitere <strong>in</strong>teressante Aussagen f<strong>in</strong>det man beispielsweise<br />
”<br />
<strong>in</strong> Waterman [94, Kapitel 9] oder Hansen [50, Kapitel 2 <strong>und</strong> Abschnitt 5.2].
2.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 13<br />
Für n ɛ N def<strong>in</strong>iert man die Menge der <strong>Alignments</strong> als<br />
A n := { (i, j, l) ɛ (N 0 ) 3 | l ɛ {0, . . . , n}, i, j ɛ {0, . . . , n − l} } .<br />
Dann ist der Score des <strong>Alignments</strong> (i, j, l) ɛ A n gegeben durch S (i,j,l) : =<br />
∑ l<br />
k=1 s(X i+k, Y j+k ) <strong>und</strong> der maximale Score durch M n = max a ɛ An S a . Für<br />
i, j ɛ {0, . . . , n} sei<br />
T i,j :=<br />
{ 0, falls i = 0 oder j = 0,<br />
(<br />
Ti−1,j−1 + s(X i , Y j ) ) +<br />
, sonst.<br />
Für e<strong>in</strong>dimensionale Indexmengen {0, . . . , n} wird der analoge Prozess ˜T 0 : = 0,<br />
˜T i+1 := ( T i + ˜s(X i ) ) +<br />
anschaulich als Spiegelung an der 0 bezeichnet. Ebenso wie<br />
max 0≤i≤j≤n<br />
∑ j<br />
k=i+1 ˜s(X i) = max i ɛ {0,...,n} ˜Ti gilt, erhält man:<br />
M n = max S a = max T i,j .<br />
a ɛ A n i,j ɛ {0,...,n}<br />
Diese Darstellung bietet aus algorithmischer Sicht <strong>in</strong>sbesondere bei Sequence<br />
Match<strong>in</strong>g mit Gaps sehr große Vorteile, da die Rechenzeit durch Implementierung<br />
obiger Darstellung drastisch s<strong>in</strong>kt. Dies liegt dar<strong>in</strong> begründet, dass über<br />
weniger Variablen maximiert wird, vergleiche hierzu etwa Waterman [94, Kapitel<br />
9] oder Szpankowski [91, Abschnitt 1.5]. Darauf soll hier jedoch ebenso<br />
wenig e<strong>in</strong>gegangen werden, wie auf die Ableitung des <strong>in</strong> der Praxis verwendeten<br />
Smith–Waterman-Algorithmus aus dieser Darstellung.<br />
In Anlehnung an die Def<strong>in</strong>ition der Exkursionen <strong>in</strong> Karl<strong>in</strong> <strong>und</strong> Dembo [54, Gleichung<br />
(1.4)] oder Hansen [50, Def<strong>in</strong>ition 5.2.2] wird das Alignment (i, j, l) ɛ A n<br />
genau dann als relevantes Alignment“ bezeichnet, wenn es folgende Bed<strong>in</strong>gungen<br />
”<br />
erfüllt:<br />
• S (i,j,l) ≥ S (i,j,k) für alle k ɛ {0, . . . , max{l ′ | S (i,j,l ′ ) > 0}}<br />
• T i,j = 0 oder es existieren s ɛ {0, . . . , m<strong>in</strong>{i, j}}, l ′ ɛ {1, . . . , s}, so dass gilt:<br />
(i − s, j − s, l ′ ) ist relevantes Alignment <strong>und</strong><br />
T i,j ≤ T i−k,j−k für alle k ɛ {1, . . . , s − l ′ }<br />
• S (i,j,k) > 0 für alle k ɛ {1, . . . , l − 1}<br />
Anschaulich bedeutet die erste Bed<strong>in</strong>gung, dass der Score durch Verlängern oder<br />
Verkürzen des <strong>Alignments</strong> nicht vergrößert werden kann, die zweite, dass der<br />
Score durch Verschieben der Startposition (i, j) nicht vergrößert werden kann,<br />
<strong>und</strong> die letzte sichert, dass die relevanten <strong>Alignments</strong> möglichst kurz s<strong>in</strong>d.
14 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Bezeichnet E n = : E n<br />
(1) die zufällige Menge aller relevanten <strong>Alignments</strong>, so gilt<br />
analog zu obiger Argumentation:<br />
M n = M (1)<br />
n<br />
= max S a .<br />
a ɛ E (1)<br />
n<br />
Der zweitgrößte Score wird nun durch Herausnehmen“ des <strong>Alignments</strong> a (1)<br />
”<br />
n , das<br />
den maximalen Score ergibt, ermittelt. Dieses Verfahren wird d-mal iteriert:<br />
Seien M n<br />
(1) , . . . , M n (k) , E n<br />
(1) , . . . , E (k)<br />
schon def<strong>in</strong>iert. Dann wählt man:<br />
E (k+1)<br />
n<br />
n <strong>und</strong> a (1)<br />
n<br />
:= E (k)<br />
n<br />
M (k+1)<br />
n<br />
:= max<br />
a (k+1)<br />
n<br />
a ɛ E (k+1)<br />
n<br />
\ {a (k)<br />
n },<br />
S a ,<br />
:= arg max S a .<br />
a ɛ E n<br />
(k+1)<br />
, . . . , a (k)<br />
n für k ɛ {1, . . . , d}<br />
Damit erhält man die d größten Scores M (1)<br />
n<br />
≥ . . . ≥ M (d)<br />
n .<br />
Alternativ wäre auch e<strong>in</strong>e Formulierung möglich, bei der nicht das Alignment mit<br />
maximalem Score, sondern die ”<br />
Exkursion“, die das Alignment enthält, ausgeschlossen<br />
wird. Für e<strong>in</strong>e mathematische Def<strong>in</strong>ition des Exkursions-Begriffes sowie<br />
weitere Eigenschaften, siehe Karl<strong>in</strong> <strong>und</strong> Dembo [54] oder Hansen [50]. Anschaulich<br />
ist e<strong>in</strong>e Exkursion e<strong>in</strong> Alignment maximaler Länge mit strikt positivem Score.<br />
Auch hier gilt, dass sich der maximale Score als Maximum über alle Exkursionen<br />
berechnen lässt.<br />
Auf e<strong>in</strong>e Formulierung mithilfe von Exkursionen wurde jedoch verzichtet, da<br />
ansonsten mehrere große Scores <strong>in</strong> e<strong>in</strong>er Exkursion nur e<strong>in</strong>mal berücksichtigt<br />
würden. Weil damit <strong>Alignments</strong> unnötig ausgeschlossen würden <strong>und</strong> eventuell<br />
wichtige Informationen ungenutzt blieben, entspricht dies nicht der zuvor beschriebenen<br />
Anwendung <strong>in</strong> der Genetik.<br />
Aus der Def<strong>in</strong>ition der M (k)<br />
n<br />
mithilfe der zufälligen Mengen E (k)<br />
n , k ɛ {1, . . . , d}<br />
wird offensichtlich, dass e<strong>in</strong>e Untersuchung des maximalen Scores lediglich anhand<br />
der Position der auftretenden Abhängigkeiten wegen wenig erfolgversprechend<br />
ist. Daher wird <strong>in</strong> der folgenden Def<strong>in</strong>ition e<strong>in</strong> Hilfsmittel für die sogenannte<br />
<strong>Muster</strong>analyse“ bereitgestellt. In der Large-Deviation-Theorie wird diese Methode<br />
auch als Method of Types“ bezeichnet, vergleiche Dembo <strong>und</strong> Zeitouni [35,<br />
”<br />
”<br />
Abschnitt 2.1.1]. Hierbei wird <strong>in</strong> beiden <strong>Zeichenketten</strong> nach Sequenz-Abschnitten<br />
gesucht, deren empirische Verteilung derjenigen der <strong>Alignments</strong> mit großem Score<br />
nahekommen. Wie <strong>in</strong> [6, Abschnitt 4] beziehungsweise <strong>in</strong> den nächsten Abschnitten<br />
offensichtlich wird, s<strong>in</strong>d das die empirischen Verteilungen <strong>in</strong> e<strong>in</strong>er kle<strong>in</strong>en<br />
Umgebung von α ∗ .
2.2. Starkes Gesetz großer Zahlen 15<br />
Def<strong>in</strong>ition 2.2<br />
Für die Länge l ɛ N <strong>und</strong> das Wort w = w 1 · · · w l ɛ A l ist die empirische Verteilung<br />
L l (w) = ( L l (w) 1 , . . . , L l (w) ξ<br />
)<br />
von w gegeben durch:<br />
L l (w) k := 1 l<br />
l∑<br />
1 {wi }(k) für alle k ∈ {1, . . . , ξ}.<br />
i=1<br />
2.2 Starkes Gesetz großer Zahlen<br />
Gegenstand dieses Abschnitts ist e<strong>in</strong> starkes Gesetz großer Zahlen für die d<br />
größten Scores. Dies ist e<strong>in</strong>e Verallgeme<strong>in</strong>erung von Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />
[33, Theorem 3 <strong>und</strong> 4].<br />
Satz 2.3<br />
Es gelten die Voraussetzungen aus Abschnitt 2.1. Dann verhalten sich die d<br />
größten Scores asymptotisch logarithmisch, das heißt für alle k ɛ {1, . . . , d} gilt:<br />
M n<br />
(k)<br />
log n −→ 2<br />
n→∞<br />
Θ . ∗<br />
Insbesondere unterscheiden sich also die d größten Scores bei logarithmischer<br />
Normierung asymptotisch nicht.<br />
Beweis:<br />
Sei d ɛ N fest. Nach Def<strong>in</strong>ition der ( M n<br />
(k) )1≤k≤d gilt M n = M n<br />
(1) ≥ . . . ≥ M n (d) .<br />
In Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Theorem 3 <strong>und</strong> 4] wurde für den maximalen<br />
M<br />
Score gezeigt, dass lim sup n<br />
≤ 2<br />
n→∞ ist. Somit reicht es zu zeigen, dass<br />
log n Θ ∗<br />
lim <strong>in</strong>f<br />
n→∞<br />
M (d)<br />
n<br />
log n ≥ 2 Θ ∗<br />
gilt. Hierzu werden die <strong>Zeichenketten</strong> X <strong>und</strong> Y <strong>in</strong> Blöcke der Länge l ɛ N aufgeteilt<br />
<strong>und</strong> bewiesen, dass <strong>in</strong> den Diagonalen dieser Blöcke bereits ausreichend große<br />
Scores vorkommen.<br />
Seien also l, n ɛ N, l ≤ n, n ∗ := l⌊ n⌋ <strong>und</strong> γ ɛ M l l(A 2 ). Da M n<br />
(d) monoton wachsend<br />
<strong>in</strong> n ist, wird hier ohne E<strong>in</strong>schränkung von n = n ∗ ausgegangen. Zunächst wird<br />
die ( Wahrsche<strong>in</strong>lichkeit dafür abgeschätzt, dass weniger als d Blöcke der Form<br />
(Xil+1 , Y jl+1 ), . . . , (X (i+1)l , Y (j+1)l ) ) , i, j ɛ {0, . . . n −1} mit empirischer Verteilung<br />
l<br />
γ vorkommen.
16 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
<strong>in</strong> X bezie-<br />
Die Anzahl der Blöcke der Länge l mit empirischer Verteilung γ X<br />
hungsweise γ Y <strong>in</strong> Y ist gegeben durch:<br />
n<br />
l −1<br />
∑<br />
M := M(γ X ) := 1 {L l (X il+1···X (i+1)l )=γ X } beziehungsweise<br />
i=0<br />
n<br />
l −1<br />
∑<br />
N := M(γ Y ) := 1 {L l (Y jl+1···Y (j+1)l )=γ Y }.<br />
j=0<br />
Für den Fall M ≥ 1 <strong>und</strong> N ≥ 1 seien dies die Blöcke πX 1 , . . . , πM X<br />
πY 1 , . . . , πN Y , das heißt, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} ist:<br />
beziehungsweise<br />
L l( X π i<br />
X l+1 · · · X (π i<br />
X +1)l)<br />
= γX <strong>und</strong> L l( Y π<br />
j<br />
Y l+1 · · · Y (π j Y +1)l )<br />
= γY .<br />
Das Ereignis, dass der i-te Block <strong>in</strong> X <strong>und</strong> der j-te Block <strong>in</strong> Y geme<strong>in</strong>same empirische<br />
Verteilung γ aufweisen, bezeichnet man für i ɛ {1, . . . , M}, j ɛ {1, . . . , N}<br />
mit:<br />
B i,j := B i,j (γ) := { L l( (X π i<br />
X l+1, Y π<br />
j<br />
Y l+1), . . . , (X (π i X +1)l , Y (π<br />
j<br />
Y +1)l)) = γ } .<br />
Für jeden Block X π i<br />
X l+1 · · · X (π i<br />
X +1)l beziehungsweise Y π<br />
j<br />
Y l+1 · · · Y (π j Y +1)l<br />
stimmt die<br />
empirische Verteilung mit γ X beziehungsweise γ Y übere<strong>in</strong>. Somit hängt es nur von<br />
der Reihenfolge der e<strong>in</strong>zelnen Buchstaben <strong>in</strong>nerhalb e<strong>in</strong>es solchen Blockpaares ab,<br />
ob (X π i<br />
X l+1, Y π<br />
j<br />
l+1), . . . , (X (π i Y X +1)l , Y (π<br />
j<br />
Y +1)l)<br />
geme<strong>in</strong>same empirische Verteilung γ<br />
hat. Dies bedeutet, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} gilt:<br />
P (B i,j ) = P (B 1,1 ) =: p<br />
unabhängig von i, j. Def<strong>in</strong>iert man die Anzahl von Block-Paaren mit empirischer<br />
Verteilung γ als:<br />
M∑ N∑<br />
W := W (γ) := 1 Bi,j ,<br />
so erhält man für den bed<strong>in</strong>gten Erwartungswert von W bei gegebenem M <strong>und</strong><br />
N: E[W | M, N] = MNp <strong>und</strong> für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N}:<br />
E ( exp(p − 1 Bi,j ) ) = e p( 1 − p + p e<br />
i=1<br />
j=1<br />
)<br />
= e p (1 − cp), mit c = e − 1<br />
e<br />
ɛ (0, 1).<br />
Aufgr<strong>und</strong> der Unabhängigkeit der <strong>Zeichenketten</strong> s<strong>in</strong>d B i,j <strong>und</strong> B i ′ ,j ′ für alle<br />
i, i ′ ɛ {1, . . . , M}, j, j ′ ɛ {1, . . . , N} mit (i, j) ≠ (i ′ , j ′ ) unabhängig. Mit e<strong>in</strong>fachen<br />
analytischen Mitteln lässt sich zeigen, dass für alle a ɛ (0, 1), v > 0 gilt:
2.2. Starkes Gesetz großer Zahlen 17<br />
(1−a) v ≤ 1 . Somit folgt bei gegebenem M <strong>und</strong> N aus der Markov-Ungleichung:<br />
av<br />
P (W ≤ d − 1 | M, N) = P ( E[W |M, N] − W ≥ E[W |M, N] − d + 1 ∣ )<br />
M, N<br />
≤ E( exp(E[W |M, N] − W ) ∣ )<br />
M, N<br />
exp ( E[W |M, N] − d + 1 )<br />
∑ N<br />
j=1 (p − 1 B i,j<br />
) ) ∣ ∣ M, N<br />
)<br />
= E ( exp ( ∑ M<br />
i=1<br />
exp(MN p − d + 1)<br />
∏ M ∏ N<br />
i=1 j=1 E ( exp(p − 1 Bi,j ) )<br />
=<br />
(e p ) MN e −d+1<br />
( ) MN<br />
e p (1 − cp)<br />
=<br />
e d−1<br />
e p<br />
≤<br />
ed−1<br />
MN cp<br />
= ed<br />
e − 1 · 1<br />
MNp .<br />
Da M <strong>und</strong> N unabhängig s<strong>in</strong>d, folgt mit der Glättungsregel für die Wahrsche<strong>in</strong>lichkeit,<br />
dass höchstens d-1 Paare von Blöcken empirische Verteilung γ haben:<br />
P (W ≤ d − 1) ≤ E [ 1 {W ≤d−1} 1 {M≥1} 1 {N≥1}<br />
]<br />
+ P (M = 0) + P (N = 0)<br />
= E [ ]<br />
P (W ≤ d−1 | M, N)1 {M≥1} 1 {N≥1} + P (M =0) + P (N =0)<br />
e d [<br />
≤<br />
(e − 1)p E 1{M≥1}<br />
] [ 1{N≥1}<br />
]<br />
E + P (M = 0) + P (N = 0),<br />
M N<br />
mit der Konvention 0 := 0, um unnötige Fallunterscheidungen zu vermeiden. Für<br />
0<br />
alle n ≥ 0 gilt 1 {n≥1} (n + 1) ≤ 2n <strong>und</strong> somit 1 {n≥1}<br />
≤ 2 . M ist b<strong>in</strong>omialverteilt<br />
n n+1<br />
mit Parameter ñ := n ɛ l N <strong>und</strong> ˜p := P( )<br />
L l (X 1 · · · X l ) = γ X . Somit ergibt sich für<br />
den ersten Erwartungswert:<br />
[ 1{M≥1}<br />
] [<br />
2<br />
]<br />
E ≤ E<br />
M M + 1<br />
en∑<br />
(ñ )<br />
1<br />
= 2<br />
˜p k (1 − ˜p) en−k<br />
k + 1 k<br />
k=0<br />
2 [<br />
=<br />
]<br />
1 − (1 − ˜p)<br />
en+1<br />
(ñ + 1)˜p<br />
≤ 2<br />
˜p ñ<br />
=<br />
2l<br />
P ( L l (X 1 · · · X l ) = γ X<br />
)<br />
n<br />
.
18 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Analog gilt für den zweiten Erwartungswert:<br />
Aus (1 − a) v ≤ 1<br />
av<br />
E<br />
[ 1{N≥1}<br />
N<br />
erhält man:<br />
]<br />
≤<br />
2l<br />
P ( L l (Y 1 · · · Y l ) = γ Y<br />
)<br />
n<br />
.<br />
P (M = 0) =<br />
≤<br />
P (N = 0) ≤<br />
(<br />
1 − P ( L l (X 1 · · · X l ) = γ X<br />
) ) n l<br />
l<br />
n P ( )<br />
L l (X 1 · · · X l ) = γ X<br />
l<br />
n P ( ) .<br />
L l (Y 1 · · · Y l ) = γ Y<br />
Für die Wahrsche<strong>in</strong>lichkeit P (W ≤ d − 1) folgt daraus:<br />
Wegen<br />
P (W ≤ d − 1) ≤<br />
<strong>und</strong> ebenso<br />
4e d l 2<br />
(e−1) n 2 p P ( ) ( )<br />
L l (X 1 · · · X l ) = γ X P Ll (Y 1 · · · Y l ) = γ Y<br />
l<br />
+<br />
n P ( l<br />
) +<br />
L l (X 1 · · · X l ) = γ X n P ( ) .<br />
L l (Y 1 · · · Y l ) = γ Y<br />
p = P (B 1,1 )<br />
= P ( L l( (X 1 ,Y 1 ), . . . , (X l ,Y l ) ) =γ ∣ ∣ L<br />
l ( X 1 · · · X l<br />
)<br />
=γX , L l( Y 1 · · · Y l<br />
)<br />
=γY<br />
)<br />
ergibt sich mit Dembo <strong>und</strong> Zeitouni [35, Lemma 2.1.9] für die Wahrsche<strong>in</strong>lichkeiten<br />
im Nenner des ersten Summanden:<br />
Ebenso folgt:<br />
p P ( L l (X 1 · · · X l )=γ X<br />
)<br />
P<br />
(<br />
L l (Y 1 · · · Y l )=γ Y<br />
)<br />
= P ( L l( (X 1 , Y 1 ), . . . , (X l , Y l ) ) =γ )<br />
≥ ( l+1 ) −ξ 2 exp ( −lH(γ|P (X,Y ) ) ) .<br />
P ( L l (X 1 · · · X l ) = γ X<br />
)<br />
≥ (l + 1) −ξ exp ( − lH(γ X |P X ) ) <strong>und</strong><br />
P ( L l (Y 1 · · · Y l ) = γ Y<br />
)<br />
≥ (l + 1) −ξ exp ( − lH(γ Y |P Y ) ) .<br />
Wählt man abkürzend ξ ′ : = ξ 2 − ξ + 1 ɛ N, so läßt sich damit P (W ≤ d − 1)
2.2. Starkes Gesetz großer Zahlen 19<br />
abschätzen:<br />
P (W ≤ d−1) ≤ 4ed l 2<br />
(e−1) n 2 (l+1)ξ2 exp ( lH(γ|P (X,Y ) ) )<br />
+ l (<br />
n (l+1)ξ exp ( lH(γ X |P X ) ) + exp ( lH(γ Y |P Y ) ))<br />
(<br />
≤ (l+1)ξ+1 4e d (l + 1) ξ′<br />
exp ( lH(γ|P (X,Y ) ) )<br />
n (e−1) n<br />
(2.2.1)<br />
+ exp ( lH(γ X |P X ) ) + exp ( lH(γ Y |P Y ) )) .<br />
Mit t := (1 − 2ε) 2 soll als nächstes gezeigt werden, dass D ɛ<br />
Θ ∗<br />
R existiert, so dass<br />
für alle ε > 0 <strong>und</strong> h<strong>in</strong>reichend große n ɛ N gilt:<br />
P ( M (d)<br />
n ≤ t log n ) ≤ Dn − 1 2 ε2 .<br />
Entscheidend ist hierbei, dass Blöcke mit empirischer Verteilung α ∗ e<strong>in</strong>en h<strong>in</strong>reichend<br />
großen Score ergeben. So ist nach Def<strong>in</strong>ition 2.1:<br />
H(α ∗ | P (X,Y ) ) = ∑<br />
(<br />
)<br />
e Θ∗s(b,c) P (X,Y ) e Θ∗s(b,c) P (X,Y ) (b, c)<br />
(b, c) log<br />
P (X,Y ) (b, c)<br />
b,c ɛ A<br />
= Θ ∑<br />
∗ s(b, c) α ∗ (b, c)<br />
b,c ɛ A<br />
= Θ ∗ E α ∗s.<br />
Für alle n ɛ N betrachtet man nun die Blocklänge l : = l n : = ⌈ (1−ε) log n 2<br />
H(α ∗ |P (X,Y ) )⌉<br />
. Sei<br />
γ (n) ɛ M ln (A 2 ) gegeben durch:<br />
γ (n)<br />
b,c := 1 l n<br />
⌊l n α ∗ b,c⌋, für (b, c) ɛ A 2 \ {(ξ, ξ)} <strong>und</strong> γ (n)<br />
ξ,ξ := 1 −<br />
∑<br />
γ (n)<br />
b,c .<br />
(b,c) ɛ A 2 \{(ξ,ξ)}<br />
Dann folgt: ∑ ∣ (n)<br />
b,c ɛ A γ<br />
b,c<br />
− α∗ ∣<br />
b,c ≤ 2<br />
ξ 2 −1<br />
l n<br />
. Bezeichnet s M : = max b,c ɛ A s(b, c) das<br />
Maximum der Scor<strong>in</strong>g-Funktion, so gilt:<br />
∑<br />
l n E γ (n) s = l n s(b, c)γ (n)<br />
b,c<br />
b,c ɛ A<br />
= l n<br />
∑<br />
b,c ɛ A<br />
s(b, c)α ∗ b,c − l n<br />
∑<br />
b,c ɛ A<br />
s(b, c) ( αb,c ∗ − γ (n) )<br />
b,c<br />
≥ l n E α ∗ s − 2s M ξ 2<br />
(1 − ε)<br />
≥<br />
H(α ∗ | P (X,Y ) ) log n2 E α ∗ s − 2s M ξ 2<br />
= 2(1 − ε) log n<br />
Θ ∗ − 2s M ξ 2 .
20 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Ist n ≥ N 1 := exp ( s Mε<br />
ξ 2 Θ ∗) <strong>und</strong> somit 2ε log n<br />
Θ ∗<br />
≥ 2s M ξ 2 , so erhält man:<br />
l n E γ (n) s ≥ 2(1 − 2ε) log n<br />
Θ ∗ = t log n.<br />
Sei n ≥ N 1 <strong>und</strong> ω ɛ {W (γ (n) ) ≥ d}, das heißt für alle k ɛ {1, . . . , d} existieren<br />
paarweise verschiedene (π k X , πk Y ) ɛ {0, . . . , n l n<br />
} 2 mit<br />
L ln ( (Xπ<br />
k<br />
X l n+1(ω), Y π k<br />
Y l n+1(ω) ) , . . . , ( X (π k<br />
X +1)l n<br />
(ω), Y (π k<br />
Y +1)l n<br />
(ω) )) = γ (n) .<br />
Für M n<br />
(d) (ω) ergibt dies:<br />
{<br />
∑ ln<br />
M n<br />
(d) (ω) ≥ m<strong>in</strong> s ( X π k<br />
X l n+r(ω), Y ) ∣ }<br />
π k<br />
Y l n+r(ω) ∣ k ɛ {1, . . . , d}<br />
r=1<br />
= l n E γ (n) s<br />
≥ t log n.<br />
Daher ist {W (γ (n) ) ≥ d} ⊂ { M n<br />
(d)<br />
P ( M n (d) < t log n )<br />
≤ P ( W (γ (n) ) ≤ d − 1 )<br />
≤ (l n + 1) ξ+1<br />
n<br />
(<br />
4e d (l n + 1) ξ′<br />
(e − 1)n<br />
≥ t log n } . Aus Gleichung (2.2.1) folgt:<br />
exp ( l n H(γ (n) |P (X,Y ) ) )<br />
+ exp ( l n H(γ (n)<br />
X |P X ) ) + exp ( l n H(γ (n)<br />
Y |P Y ) )) .<br />
Wegen der Konvergenz γ (n) −→ n→∞<br />
α ∗ <strong>und</strong> der Stetigkeit der Entropie gibt es N 2 ɛ N,<br />
so dass H(γ(n) |P (X,Y ) )<br />
H(α ∗ |P (X,Y ) )<br />
n ≥ N 2 <strong>und</strong> somit:<br />
P ( M n (d) < t log n )<br />
≤ (l n + 1) ξ+1<br />
n<br />
≤ 1 + ε, H(γ(n) X |P X )<br />
H(α ∗ X |P X )<br />
(<br />
4e d (l n + 1) ξ′<br />
(e − 1)n<br />
≤ 1 + ε <strong>und</strong> H(γ(n) Y |P Y )<br />
H(α ∗ Y |P Y )<br />
exp ( (1 + ε)l n H(α ∗ |P (X,Y ) ) )<br />
≤ 1 + ε für alle<br />
+ exp ( (1 + ε)l n H(α ∗ X|P X ) ) + exp ( (1 + ε)l n H(α ∗ Y |P Y ) )) .<br />
Sei N 3 ɛ N so groß, dass für alle n ≥ N 3 gilt: 4ed (l n+1) ξ′<br />
≤ n ε2 <strong>und</strong> damit wegen<br />
e−1<br />
l n := ⌈ (1−ε) log n 2<br />
H(α ∗ |P )⌉<br />
auch:<br />
(X,Y )<br />
4e d (l n + 1) ξ′<br />
(e − 1)n<br />
exp ( (1 + ε)l n H(α ∗ |P (X,Y ) ) ) (<br />
)<br />
1<br />
≤ exp<br />
2 (1 + ε)l nH(α ∗ |P (X,Y ) ) .
2.2. Starkes Gesetz großer Zahlen 21<br />
Nach Voraussetzung ist H(α ∗ | P (X,Y ) ) > 2 max { H(α ∗ X |P X ), H(α ∗ Y |P Y ) } , daher<br />
lässt sich der d-größte Score weiter abschätzen:<br />
P ( M (d)<br />
n ≤ t log n )<br />
≤ (l n + 1) ξ+1<br />
n<br />
[<br />
exp<br />
(<br />
1<br />
(1 + ε)l 2 nH ( α ∗ |P<br />
(X,Y )))<br />
+ exp ( (1 + ε)l n H(αX|P ∗ X ) ) + exp ( (1 + ε)l n H(αY ∗ |P Y ) )]<br />
(<br />
≤ 3 (l n + 1) ξ+1 n −1 1<br />
exp (1 + ε)l 2 nH ( α ∗ (X,Y<br />
|P )))<br />
(<br />
)<br />
1−ε<br />
ξ+1n<br />
≤ 3<br />
log H(α ∗ |P (X,Y ) ) n2 −1<br />
+ 2<br />
( (<br />
1−ε<br />
· exp (1 + ε)<br />
log H(α ∗ |P (X,Y ) ) n2 + 1<br />
)H ( α ∗ (X,Y<br />
| P<br />
)))<br />
(<br />
) ξ+1<br />
1−ε<br />
≤ 3<br />
log n + 2 H(α ∗ |P (X,Y ) ) exp<br />
((1 + ε)H ( α ∗ | P (X,Y ))) n −ε2 .<br />
Sei D := 3 exp ( (1 + ε)H(α ∗ | P (X,Y ) ) ) <strong>und</strong> N 4 ɛ N h<strong>in</strong>reichend groß, so dass für<br />
alle n ≥ N 4 gilt:<br />
(<br />
) ξ+1<br />
1−ε<br />
log n + 2 1<br />
H(α ∗ |P (X,Y ) ) ≤ n 2 ε2 .<br />
Man erhält für alle n ≥ max{N 1 , N 2 , N 3 , N 4 }<br />
P ( M (d)<br />
n ≤ (1 − 2ε) 2<br />
Θ ∗ log n ) ≤ Dn − 1 2 ε2 .<br />
Die Behauptung wird nun mit dem Lemma von Borel–Cantelli zunächst für e<strong>in</strong>e<br />
Teilfolge, <strong>in</strong> der Literatur üblicherweise n k -Gerüst genannt, bewiesen. Unter<br />
Zuhilfenahme der Monotonie von M n<br />
(d) wird diese Aussage schließlich für die verbleibenden<br />
Lücken gezeigt, das heißt, es wird bewiesen, dass die Abschätzungen<br />
im Wesentlichen auch außerhalb des n k -Gerüsts gelten.<br />
Mit n k := e k folgt für alle h<strong>in</strong>reichend großen k ɛ N:<br />
P ( M (d)<br />
n k<br />
≤ (1 − 2ε) 2<br />
Θ ∗ k ) ≤ D ( exp(− 1 2 ε2 ) ) k<br />
,<br />
so dass die Reihe ∑ ∞<br />
k=1 P( M (d)<br />
n k<br />
≤ (1 − 2ε) 2<br />
Θ ∗ k ) konvergiert. Nach dem Lemma<br />
von Borel–Cantelli existiert e<strong>in</strong>e messbare Menge M mit P (M) = 1, so dass auf<br />
M für h<strong>in</strong>reichend große k gilt:<br />
M (d)<br />
n k<br />
≥ (1 − 2ε) 2<br />
Θ ∗ k.<br />
Sei K ɛ N so groß, dass für alle k ≥ K gilt:<br />
(1 − 2ε)k ≥ (1 − 3ε)(k + 1).
22 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Für alle n ≥ N 0 := max{N 1 , N 2 , N 3 , N 4 , e K } existiert genau e<strong>in</strong> k ≥ K, so dass<br />
n k ≤ n < n k+1 = e k+1 . Somit folgt auf M:<br />
M (d)<br />
n<br />
≥ M (d)<br />
n k<br />
≥ (1 − 2ε) 2<br />
Θ ∗ k<br />
≥ (1 − 3ε) 2<br />
Θ ∗ (k + 1)<br />
= (1 − 3ε) 2<br />
Θ ∗ log n k+1<br />
≥ (1 − 3ε) 2<br />
Θ ∗ log n.<br />
Wegen P (M) = 1 ergibt sich die Behauptung mit ε −→ 0.<br />
✷<br />
Bemerkung:<br />
Die bewiesene Aussage lässt sich mit den <strong>in</strong> Arratia <strong>und</strong> Waterman [6] oder<br />
Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33] vorgestellten Methoden auch auf die d größten<br />
Scores mit empirischer Verteilung <strong>in</strong> e<strong>in</strong>er gegeben Teilmenge U ⊂ M 1 (A 2 ) verallgeme<strong>in</strong>ern.<br />
Dies br<strong>in</strong>gt ke<strong>in</strong>e neuen Erkenntnisse, erfordert aber stellenweise<br />
e<strong>in</strong>e wesentlich aufwendigere Notation. Daher wurde hier darauf verzichtet, um<br />
den Beweis übersichtlich <strong>und</strong> die Struktur erkennbar zu halten.<br />
2.3 Poisson Approximation<br />
In diesem Abschnitt wird die geme<strong>in</strong>same Verteilung der Maxima gegen unabhängige<br />
Gumbel-Verteilungen gezeigt. In der Anwendung dürfte die asymptotische<br />
Unabhängikeit von Bedeutung se<strong>in</strong>, da diese Eigenschaft e<strong>in</strong>e sehr e<strong>in</strong>fache<br />
Berechnung der approximativen Wahrsche<strong>in</strong>lichkeiten ermöglicht. Anschaulich<br />
lässt sich diese Eigenschaft damit erklären, dass es sich beim Überschreiten<br />
e<strong>in</strong>es großen Schwellenwerts um e<strong>in</strong> seltenes Ereignis handelt. Ist die Anzahl der<br />
betrachteten Zeichen h<strong>in</strong>reichend groß, so lässt sich die gegenseitige Bee<strong>in</strong>flussung<br />
dieser Ereignisse kontrollieren.<br />
Als geeignete Metrik hat sich für diese Fragestellung die sogenannte ”<br />
Totalvariation“<br />
herausgestellt. In der Literatur s<strong>in</strong>d zwei unterschiedliche Def<strong>in</strong>itionen<br />
üblich, die sich um den Faktor 2 unterscheiden. Hier wird die Variante verwendet,<br />
wie sie von Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon <strong>in</strong> [3] <strong>und</strong> [4] <strong>in</strong> Zusammenhang mit<br />
der Ste<strong>in</strong>–Chen-Methode def<strong>in</strong>iert wird.<br />
Def<strong>in</strong>ition 2.4 (Totalvariation)<br />
Seien (Ω, A) e<strong>in</strong> Messraum <strong>und</strong> µ, ν ɛ M 1 (Ω, A) Wahrsche<strong>in</strong>lichkeitsmaße auf
2.3. Poisson Approximation 23<br />
(Ω, A). Dann ist die Totalvariation von µ <strong>und</strong> ν gegeben durch:<br />
∫ ∫<br />
d TV (µ, ν) := sup ∣ fdµ − fdν∣<br />
|f|≤1<br />
∣<br />
= 2 sup ∣ µ(A) − ν(A) ∣.<br />
A ɛ A<br />
Bemerkungen:<br />
1. Die Totalvariation ist e<strong>in</strong>e Metrik auf M 1 (Ω, A). Für Eigenschaften <strong>und</strong> Zusammenhänge<br />
zu anderen Metriken auf M 1 (Ω, A) siehe etwa Daley <strong>und</strong> Vere-<br />
Jones [31, Kapitel 9], Barbour, Holst <strong>und</strong> Janson [12, Appendix A.1] oder<br />
Reiss [74, Abschnitt 1.3 <strong>und</strong> 3.2].<br />
2. Die Totalvariation ist für die folgende Untersuchung geeignet, weil sie e<strong>in</strong>erseits<br />
stark genug ist, so dass zum Beispiel aus der Konvergenz d TV (µ n , µ) −→ n→∞<br />
0 für<br />
µ n , µ ɛ M 1 (Ω, A) auch die Konvergenz <strong>in</strong> Verteilung µ D<br />
n −→ µ folgt. Andererseits<br />
ist sie nicht zu stark, so dass sich <strong>in</strong> vielen Anwendungen Abschätzungen<br />
der Totalvariation f<strong>in</strong>den lassen.<br />
Ist I e<strong>in</strong>e Indexmenge <strong>und</strong> (I i ) i ɛ I e<strong>in</strong>e Familie von Bernoulli-verteilten Zufallsvariablen,<br />
so wird durch Ĩ(B) := ∑ i ɛ B I i, B ⊂ I <strong>in</strong> e<strong>in</strong>deutiger Weise e<strong>in</strong> Punktprozess<br />
mit Intensitätsmaß ν(B) = ∑ i ɛ B E I i, B ⊂ I def<strong>in</strong>iert, vergleiche beispielsweise<br />
Resnick [75, Abschnitt 3.1] oder Reiss [74, Abschnitt 1.1]. Der Punktprozess<br />
Ĩ wird im Folgenden mit (I i ) i ɛ I identifiziert <strong>und</strong> auch mit (I i ) i ɛ I bezeichnet, da<br />
auf e<strong>in</strong>e Unterscheidung hier verzichtet werden kann.<br />
Damit lässt sich nun das wichtigste Resultat dieses Kapitels formulieren. Im folgenden<br />
Satz wird die Wahrsche<strong>in</strong>lichkeit, dass die größten Scores große Schwellenwerte<br />
überschreiten, approximiert:<br />
Satz 2.5<br />
Seien d ɛ N <strong>und</strong> x (1) > · · · > x (d) > 0 gegeben. Def<strong>in</strong>iert man die Schwellen<br />
t (k)<br />
n<br />
:= log n2 + x (k)<br />
, für alle k ɛ {1, . . . , d},<br />
Θ ∗<br />
so konvergiert die Anzahl der Überschreitungen dieser Schwellen<br />
N (k)<br />
n<br />
:= ∑ 1 (k) {t n
24 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
mit λ (k) := K ∗( )<br />
e −x(k) −e −x(k−1) , wobei die Konstante K ∗ ɛ R nur von der Scor<strong>in</strong>g-<br />
Funktion s <strong>und</strong> der Verteilung P (X,Y ) abhängt <strong>und</strong> ohne E<strong>in</strong>schränkung t (0)<br />
n := ∞<br />
<strong>und</strong> e −x(0) := 0 zur Abkürzung verwendet wird. Insbesondere folgen die d größten<br />
Scores im Limes unabhängigen Gumbel-Verteilungen, so dass gilt:<br />
−→ n→∞<br />
)<br />
> t (d)<br />
n<br />
P ( M n (1) > t (1)<br />
n ≥ M n<br />
(2) > · · · > t (d−1)<br />
n ≥ M n<br />
(d)<br />
{ ∏d−1<br />
(<br />
(K ∗ ) d−1 exp(−x (k) ) − exp(−x )) }<br />
(k−1) exp(−K ∗ e −x(d−1) )<br />
k=1<br />
{ (<br />
· 1 − exp − K ∗[ exp(−x (d) ) − exp(−x (d−1) ) ])} .<br />
Beweis:<br />
Mit den Bezeichnungen aus Abschnitt 2.3.2 <strong>und</strong> κ (k)<br />
n<br />
k ɛ {1, . . . , d} gilt:<br />
d TV<br />
(<br />
(N<br />
(1)<br />
n<br />
)<br />
, . . . , N n<br />
(d) ), P λ (1) ⊗ . . . ⊗ P λ (d)<br />
n ) ≠ (Ñ n<br />
(1) , . . . , Ñ n (d) ) )<br />
≤ P ( (N n<br />
(1) , . . . , N (d)<br />
(<br />
+ d TV ( Ñ n<br />
(1) , . . . , Ñ (d)<br />
n ), (P κ<br />
(1)<br />
n<br />
, . . . , P κ (d)<br />
n ))<br />
: = ∑ q ɛ I E I∗U (q,k)<br />
(<br />
+ d TV (Pκ , . . . , P ), (P (1)<br />
n<br />
κ n (d) λ ⊗ . . . ⊗ P (1) λ (d))) .<br />
für alle<br />
Die Abschätzung dieser drei Summanden erfolgt nun mit den Ergebnissen aus<br />
Abschnitt 2.3.2:<br />
1. Nach Proposition 2.7 konvergiert P ( (N n<br />
(1) , . . . , N (d)<br />
n ) ≠ (Ñ n<br />
(1)<br />
, . . . , Ñ n<br />
(d) ) ) −→ n→∞<br />
0.<br />
(<br />
2. Aus Lemma 2.8 folgt die Konvergenz d TV (I<br />
∗U<br />
(q,k)<br />
) (q,k) ɛ I ∗, (˜P ∗ (q,k) ) )<br />
(q,k) ɛ I ∗ −→ n→∞<br />
0.<br />
Wegen Ñ n<br />
(k) = ∑ q ɛ I I∗U (q,k) <strong>und</strong> P d<br />
= ∑ ˜P κ (k)<br />
n q ɛ I ∗ (q,k)<br />
für alle k ɛ {1, . . . , d} folgt<br />
die Behauptung.<br />
3. In ( Proposition 2.9 wird die Konvergenz der Poisson-Prozesse<br />
d TV (˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗)<br />
−→<br />
n→∞<br />
0 gezeigt. Wie <strong>in</strong> 2. ergibt sich die Aussage<br />
d<br />
aus P (k) κ<br />
= ∑ ˜P<br />
n q ɛ I ∗ (q,k) <strong>und</strong> P λ = d ∑ (k) q ɛ I P∗ (q,k)<br />
für alle k ɛ {1, . . . , d}.<br />
Die Unabhängigkeit ergibt sich explizit aus der Def<strong>in</strong>ition des Poisson-Prozesses<br />
<strong>und</strong> der Disjunktkeit der Schnitte (I×{k}) für k ɛ {1, . . . , d}, vergleiche etwa Resnick<br />
[75, Abschnitt 3.3.1], Daley <strong>und</strong> Vere-Jones [31, Abschnitt 2.1] oder Reiss [74,<br />
Abschnitt 1.2].
2.3. Poisson Approximation 25<br />
Die Konvergenz der Verteilung der d größten Scores erhält man hieraus wie folgt:<br />
P ( )<br />
M n (1) > t (1)<br />
n ≥ M n<br />
(2) > · · · > t (d−1)<br />
n ≥ M n<br />
(d) > t (d)<br />
n<br />
= P ( N n<br />
(1) = 1, . . . , N n<br />
(d−1) = 1, N n (d) ≠ 0 )<br />
−→ n→∞<br />
P λ (1)({1}) · · · P λ (d−1)({1})P λ (d)({0} c )<br />
∏d−1<br />
( ∑d−1<br />
) (1<br />
= λ (k) exp − λ (k) − exp(−λ (d) ) ) .<br />
k=1<br />
k=1<br />
Durch E<strong>in</strong>setzen von λ (k) := K ∗( )<br />
e −x(k) − e −x(k−1) folgt auch die zweite Behauptung.<br />
✷<br />
Bemerkung:<br />
Die Berechnung der Doppel-Exponentialterme <strong>in</strong> obigen Formeln ist numerisch<br />
problemlos. Um die Approximation anwenden zu können, muss man jedoch auch<br />
die Konstante K ∗ bestimmen beziehungsweise numerisch approximieren. Für den<br />
hier untersuchten Fall wird die Konstante <strong>in</strong> Karl<strong>in</strong> <strong>und</strong> Dembo [54, Theorem A]<br />
angegeben mit:<br />
K ∗ =<br />
(<br />
exp − 2 ∑ ∞<br />
k=1<br />
{<br />
1<br />
k E[exp(Θ ∗ S k )1 {Sk
26 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
können. Um die Abhängigkeiten zu kontrollieren, gibt es im Wesentlichen zwei<br />
Ansätze: Den Kopplungsansatz, wie er beispielsweise <strong>in</strong> dem Standardwerk von<br />
Barbour, Holst <strong>und</strong> Janson [12] verfolgt wird, <strong>und</strong> den lokalen Ansatz, der hier<br />
verwendet werden soll. Für e<strong>in</strong>e tiefer gehende Behandlung dieser beiden Ansätze<br />
siehe beispielsweise Barbour [11, Abschnitt 2].<br />
Hier wird nun e<strong>in</strong> Spezialfall des lokalen Ansatzes, der im Weiteren verwendet<br />
wird, zitiert. Besondere Bedeutung kommt beim lokalen Ansatz den sogenannten<br />
Nachbarschaftsmengen zu, die die abhängigen Zufallsvariablen zusammenfassen:<br />
Satz 2.6 (Ste<strong>in</strong>–Chen-Methode)<br />
Gegeben sei e<strong>in</strong>e endliche Indexmenge I <strong>und</strong> e<strong>in</strong>e Familie von Bernoulli-verteilten<br />
Zufallsvariablen (I α ) α ɛ I . Des Weiteren existiere für alle α ɛ I e<strong>in</strong>e ”<br />
Nachbarschaftsmenge“<br />
B α ⊂ I, so dass α ɛ B α ist <strong>und</strong> I α <strong>und</strong> I β für alle β ɛ I α c unabhängig<br />
s<strong>in</strong>d. Ist (P α ) α ɛ I e<strong>in</strong> Poisson-Prozess auf I mit Intensitätsmaß ν ɛ M(I),<br />
ν(B) := ∑ α ɛ B E I α für alle B ⊂ I, so gilt:<br />
d TV<br />
(<br />
(Iα ) α ɛ I , (P α ) α ɛ I<br />
)<br />
≤ 4(b1 + b 2 )<br />
mit<br />
b 1 := ∑ α ɛ I<br />
b 2 := ∑ α ɛ I<br />
∑<br />
E I α E I β <strong>und</strong><br />
β ɛ I α<br />
∑<br />
E I α I β .<br />
(2.3.2)<br />
β ɛ I α\{α}<br />
Beweis:<br />
Die Behauptung folgt unmittelbar aus Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon [3, Theorem<br />
2] wegen der Unabhängigkeit von I α <strong>und</strong> I β , falls β ɛ I c α ist.<br />
✷<br />
Bemerkung:<br />
Die Bedeutung der Konstanten wird <strong>in</strong> dem vielzitierten Artikel von Arratia,<br />
Goldste<strong>in</strong> <strong>und</strong> Gordon [3, Abschnitt 2] wie folgt erklärt:<br />
1) b 1 misst die Größe der Nachbarschaftsmengen B α .<br />
2) b 2 misst die Korrelation der Bernoulli-Zufallsvariablen <strong>in</strong>nerhalb e<strong>in</strong>er Nachbarschaftsmenge.<br />
3) In Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon [3] wird nicht gefordert, dass I α <strong>und</strong> I β<br />
für alle β ɛ I c<br />
α unabhängig s<strong>in</strong>d. Statt dessen wird e<strong>in</strong>e weitere Konstante<br />
b 3 e<strong>in</strong>geführt, die die schwache Abhängigkeit“ von I ” α <strong>und</strong> (I β ) β ɛ Iα<br />
c misst.<br />
Dies wird hier nicht weiter ausgeführt, da <strong>in</strong> der folgenden Anwendung B α so<br />
gewählt werden kann, dass die Unabhängigkeit gegeben ist.
2.3. Poisson Approximation 27<br />
2.3.2 Beweis von Satz 2.5<br />
Analog zu Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34] <strong>und</strong> Hansen [50, Kapitel 5] wird<br />
die Ste<strong>in</strong>–Chen-Methode zur Poisson Approximation angewandt. Um die Unabhängigkeit<br />
der verschiedenen Maxima zu erhalten, wird jedoch die Prozessversion,<br />
wie sie <strong>in</strong> Abschnitt 2.3.1 vorgestellt wurde, benutzt.<br />
Dafür wird zunächst der Punktprozess J ∗ def<strong>in</strong>iert, der die Überschreitungen der<br />
Schwellen (t (k)<br />
n ) 1≤k≤d beschreibt. Für alle a ɛ E n , k ɛ {1, . . . , d} sei:<br />
J ∗ (a,k) := 1 .<br />
{t (k)<br />
n t (k)<br />
n = J ∗ (a,k) ≥ k ,<br />
a ɛ E n i=1 a ɛ E n<br />
so dass im Folgenden (J ∗ (a,k) ) a ɛ E n,k ɛ {1,...,d} untersucht wird.<br />
Wie <strong>in</strong> Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Lemma 1] gezeigt wird, leisten lange Segmente<br />
e<strong>in</strong>en vernachlässigbaren Beitrag zu positiven Scores, das heißt, es existiert<br />
e<strong>in</strong>e Konstante c 0 > 0, so dass für alle n ɛ N gilt:<br />
(<br />
)<br />
l∑<br />
P sup s(X i+k , Y j+k ) ≥ 0 ≤ 1 n . 2<br />
l≥c 0 log n<br />
i,j ɛ {0,...,n−l}<br />
k=1<br />
Aufgr<strong>und</strong> dieser Eigenschaft genügt es, kurze Segmente zu betrachten. Diese Beschränkung<br />
der zu untersuchenden <strong>Alignments</strong> geht <strong>in</strong> die folgenden Def<strong>in</strong>itionen<br />
e<strong>in</strong> <strong>und</strong> wird verwendet, um die Abhängigkeiten kontrollieren zu können.<br />
Wie bisher werden die <strong>Zeichenketten</strong> wieder <strong>in</strong> unabhängige Blöcke aufgeteilt.<br />
Die Länge der Blöcke ist hier l n : = (log n 2 ) 3 , die Anzahl der Blöcke m n : = n l n<br />
.<br />
Ohne E<strong>in</strong>schränkung sei n ɛ N h<strong>in</strong>reichend groß, so dass c 0 log n ≤ l n .<br />
Um lokales Sequence Match<strong>in</strong>g zu untersuchen, müssen Verschiebungen der <strong>Zeichenketten</strong><br />
gegene<strong>in</strong>ander betrachtet werden. Analog Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />
[34] werden hier die Zeichen <strong>in</strong> den Blöcken der Folge Y zyklisch verschoben,<br />
um e<strong>in</strong>e gesonderte Untersuchung von sogenannten Randeffekten zu umgehen.<br />
Für ζ ɛ {0, . . . , l n −1} werden diese sogenannten ζ-zyklisch-verschobenen Blöcke“<br />
”<br />
X i := (Xh i ) h=1,...,m n<br />
<strong>und</strong> Y j,ζ := (Y j,ζ<br />
h ) h=1,...,m n<br />
def<strong>in</strong>iert durch:<br />
Xh i := X il n+h, für alle i ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1},<br />
Y j,ζ<br />
h<br />
:= Y jln+(ζ+h) mod l n<br />
, für alle j ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}.<br />
Hansen [50, Abschnitt 5.4] nimmt statt dessen e<strong>in</strong>e Unterteilung <strong>in</strong> Streifen vor<br />
<strong>und</strong> betrachtet dann ”<br />
diagonals-with<strong>in</strong>-a-strip“. Hier sollen jedoch die ζ-zyklischverschobenen<br />
Blöcke verwendet werden, um die Resultate aus Dembo, Karl<strong>in</strong> <strong>und</strong><br />
Zeitouni [34] direkt anwenden zu können.
28 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Es seien I := {0, . . . , m n −1} 2 ×{0, . . . , l n } <strong>und</strong> I ∗ := I×{1, . . . , d}. Für (i, j, ζ) ɛ I<br />
<strong>und</strong> U ɛ M 1 (A 2 ) bezeichne<br />
{ r+l−1 ∑ ∣<br />
Mi,j,ζ U := max s(Xh, i Y j,ζ ∣∣<br />
h ) 0 ≤ l ≤ c0 log n, 1 ≤ r ≤ l n − l, }<br />
h=r<br />
L l( (Xh, i Y j,ζ<br />
h<br />
) )<br />
h=r,...,r+l−1 ɛ U<br />
den maximalen Score mit empirischer Verteilung <strong>in</strong> U auf der Diagonalen des<br />
Blocks (X i , Y j,ζ ). Def<strong>in</strong>iert man für alle (i, j, ζ, k) ɛ I ∗ :<br />
I ∗U<br />
so kann ( )<br />
I ∗U<br />
i,j,ζ,k (i,j,ζ,k) ɛ I ∗<br />
n }<br />
i,j,ζ,k := {<br />
1{M U<br />
i,j,ζ >t (1)<br />
1 {t<br />
(k)<br />
n<br />
t(d n ) }<br />
wie <strong>in</strong> Barbour <strong>und</strong> Månsson [13] oder Aldous [2] beschrieben, betrachtet werden.<br />
E<strong>in</strong>e Formulierung, <strong>in</strong> der durchgängig Prozessversionen betrachtet werden, wäre<br />
zwar wünschenswert, scheitert aber an der Abschätzung des Abstands zwischen<br />
(J ∗ (a,k) ) e ɛ E n, k ɛ {1,...,d} <strong>und</strong> (I ∗U<br />
(e,k) ) e ɛ I, k ɛ {1,...,d}. Weil beide auf verschiedenen Indexmengen<br />
def<strong>in</strong>iert s<strong>in</strong>d, ist es nicht möglich, den Abstand mit der Totalvariationsmetrik<br />
zu messen. Daher wird <strong>in</strong> der nächsten Proposition die Aussage für die<br />
Schnitte (I × {k}), k ɛ {1, . . . , d} gezeigt.<br />
Proposition 2.7<br />
Seien (J ∗ (a,k) ) a ɛ E n, k ɛ {1,...,d} <strong>und</strong> (I ∗U<br />
(e,k) ) e ɛ I, k ɛ {1,...,d} wie oben. Dann gilt für N n<br />
(k) wie<br />
<strong>in</strong> Satz 2.5 <strong>und</strong> Ñ n<br />
(k) := ∑ q ɛ I I∗U , k ɛ {1, . . . , d}:<br />
( (N<br />
(1)<br />
P<br />
n<br />
(q,k)<br />
, . . . , N (d)<br />
n<br />
)<br />
≠<br />
(Ñ<br />
(1)<br />
n<br />
, . . . , Ñ (d)<br />
n<br />
) ) −→<br />
n→∞<br />
0.<br />
Beweis:<br />
Die Behauptung wird auf den Beweis von Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34, Seite<br />
2027–2029] zurückgeführt. Es gilt:<br />
( (N<br />
(1)<br />
P<br />
n<br />
( d⋃<br />
= P<br />
=<br />
≤<br />
, . . . , N (d)<br />
n<br />
k=1<br />
{<br />
N<br />
(k)<br />
n<br />
(<br />
d∑ {N<br />
(k)<br />
P<br />
k=1<br />
n<br />
)<br />
≠<br />
(Ñ<br />
(1)<br />
n<br />
≠ Ñ } )<br />
n<br />
(k)<br />
≠ Ñ (k)<br />
n<br />
, . . . , Ñ (d)<br />
n<br />
k−1<br />
} ⋂<br />
∩<br />
i=1<br />
) )<br />
{<br />
N<br />
(i)<br />
n<br />
= Ñ } )<br />
n<br />
(i)<br />
(<br />
d∑ ∑<br />
P<br />
1 ≠ ∑ )<br />
{maxq ɛ {1,...,l} S (i,j,q) >t (k) 1<br />
n } {M U .<br />
a >t (k)<br />
n }<br />
(i,j,l) ɛ A n a ɛ I<br />
k=1
2.3. Poisson Approximation 29<br />
Es entspricht jedoch ∑ a ɛ I 1 gerade W aus [34, Gleichung (2.3)]. Ferner<br />
{Ma U >t n<br />
(k) } t (k)<br />
n<br />
ist ∑ (i,j,l) ɛ A n<br />
1 <strong>in</strong> den Bezeichnungen von [34] W . Die<br />
{maxq ɛ {1,...,l} S (i,j,q) >t (k)<br />
n } t (k)<br />
n<br />
Aussage ergibt sich daher aus der Zerlegung von {W y ≠ W y } <strong>in</strong> [34, Seite 2029].<br />
✷<br />
Der Beweis verläuft analog zum Beweis von Gleichung (5.40) <strong>in</strong> Hansen [50,<br />
Abschnitt 5.5.6], wo die Aussage für Markov-Ketten statt für unabhängig Zeichen<br />
<strong>und</strong> die Betrachtung von diagonals-with<strong>in</strong>-a-strip statt ζ-verschobenen Blöcken<br />
gezeigt wird.<br />
Im folgenden Lemma wird die Prozessversion der Ste<strong>in</strong>–Chen-Methode aus<br />
Satz 2.6 auf ( )<br />
I ∗U<br />
i,j,ζ,k angewendet:<br />
(i,j,ζ,k) ɛ I ∗<br />
Lemma 2.8<br />
Es seien ( )<br />
I ∗U<br />
i,j,ζ,k (i,j,ζ,k) ɛ I ∗<br />
<strong>und</strong> ( )<br />
I U i,j,ζ<br />
(i,j,ζ) ɛ I<br />
wie oben <strong>und</strong> die Poisson-Prozesse<br />
(˜P ∗ (a,k) ) (a,k) ɛ I ∗ <strong>und</strong> (˜P a ) a ɛ I durch die Intensitätsmaße ˜Q ∗ <strong>und</strong> ˜Q wie folgt gegeben:<br />
˜Q ∗ (A ∗ ) := ∑ E I ∗U<br />
a , für alle A ∗ ⊂ I ∗ <strong>und</strong><br />
a ɛ A ∗<br />
˜Q(A) := ∑ a ɛ A<br />
E I U a , für alle A ⊂ I.<br />
Dann gilt<br />
d TV<br />
((<br />
I<br />
∗U<br />
i,j,ζ,k<br />
)(i,j,ζ,k) ɛ I ∗ , (˜P ∗ (a,k)) (a,k) ɛ I ∗)<br />
−→<br />
n→∞<br />
d TV<br />
((<br />
I<br />
U<br />
i,j,ζ<br />
)(i,j,ζ) ɛ I , (˜P a ) a ɛ I<br />
)<br />
−→<br />
n→∞<br />
0.<br />
0 <strong>und</strong><br />
Beweis:<br />
Um Satz 2.6 anwenden zu können, müssen zunächst die Nachbarschaftsmengen<br />
def<strong>in</strong>iert werden. Sei also (i, j, ζ, k) ɛ I ∗ . Dann wählt man B (i,j,ζ) wie <strong>in</strong> Dembo,<br />
Karl<strong>in</strong> <strong>und</strong> Zeitouni [34] <strong>und</strong> B(i,j,ζ,k) ∗ <strong>in</strong> Anlehnung an Arratia, Goldste<strong>in</strong> <strong>und</strong><br />
Gordon [4, Abschnitt 3.1]:<br />
B (i,j,ζ) := {(i ′ , j ′ , ζ ′ ) | i = i ′ oder j = j ′ }<br />
:= B (i,j,ζ) × {1, . . . , d}.<br />
B ∗ (i,j,ζ,k)<br />
Sei im Folgenden U : = Uδ<br />
α∗ : = {α ɛ M(A 2 ) | d TV (α, α ∗ ) < δ} die δ-Umgebung<br />
von α ∗ für e<strong>in</strong> noch zu wählendes δ > 0 <strong>und</strong> seien b ∗ 1 <strong>und</strong> b ∗ 2 die Konstanten<br />
aus Gleichung (2.3.2) bezüglich ( )<br />
I ∗U<br />
beziehungsweise b 1 <strong>und</strong> b 2 die<br />
Konstanten für ( )<br />
I U i,j,ζ<br />
<strong>und</strong> b 1 −→ n→∞<br />
0, b 2 −→ n→∞<br />
0.<br />
i,j,ζ,k<br />
(i,j,ζ,k) ɛ I ∗<br />
(i,j,ζ) ɛ I . Nach Satz 2.6 ist zu zeigen, dass b∗ 1 −→ n→∞<br />
0, b ∗ 2 −→ n→∞<br />
0
30 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />
Wegen der Wahl von (Ba) ∗ a ɛ I ∗ folgt mit Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon [4, Abschnitt<br />
3.1] b ∗ 1 = b 1 <strong>und</strong> b ∗ 2 = b 2 , so dass im Folgenden die Konstanten b 1 <strong>und</strong> b 2<br />
bezüglich ( )<br />
I U i,j,ζ betrachtet werden:<br />
(i,j,ζ) ɛ I<br />
b 1 = ∑ a ɛ I<br />
b 2 = ∑ a ɛ I<br />
∑<br />
P (I U a = 1) P (I U b = 1) <strong>und</strong><br />
b ɛ B a<br />
∑<br />
P (I U a = 1, I U b = 1).<br />
b ɛ B a\{a}<br />
Diese stimmen jedoch mit den Konstanten aus Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34,<br />
Seite 2031] übere<strong>in</strong>, so dass man aus [34, Gleichung (2.11)] erhält, dass b 1 −→ n→∞<br />
0<br />
<strong>und</strong> aus [34, Lemma 2], dass b 2 −→ n→∞<br />
0 für h<strong>in</strong>reichend kle<strong>in</strong>e δ > 0.<br />
Hieraus folgt mit Satz 2.6:<br />
d TV<br />
((<br />
I<br />
∗U<br />
(a,k)<br />
)<br />
(a,k) ɛ I ∗ , (˜P∗ (a,k)<br />
)(a,k) ɛ I ∗ )<br />
≤ 4(b1 + b 2 ) −→ n→∞<br />
0.<br />
Das ist die Behauptung.<br />
✷<br />
In der folgenden technischen Proposition wird die Konvergenz zweier Poisson-<br />
Prozesse auf die Konvergenz der Intensitätsmaße zurückgeführt:<br />
Proposition 2.9<br />
Ist (˜P∗ a der Poisson-Prozess mit Intensitätsmaß<br />
)a ˜Q ∗ (A ∗ ) = ∑ ɛ I ∗ a ɛ A<br />
E ∗ I ∗U<br />
a , für<br />
alle A ∗ ⊂ I ∗ aus Lemma 2.8 <strong>und</strong> ( )<br />
P ∗ a der Poisson-Prozess mit Intensitätsmaß<br />
a ɛ I ∗<br />
Q ∗ , gegeben durch:<br />
Q ∗ (A ∗ ) := ∑ a ɛ A ∗ λ ∗ a, für alle A ∗ ⊂ I ∗ ,<br />
λ ∗ (q,k)<br />
:=<br />
K∗<br />
m 2 nl n<br />
[<br />
exp ( − x (k)) − exp ( − x (k−1))] , für alle (q, k) ɛ I ∗ .<br />
Dann konvergiert d TV<br />
(<br />
(˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗)<br />
−→<br />
n→∞<br />
0.<br />
Beweis:<br />
Die Totalvariation der beiden Poisson-Prozesse wird mit Reiss [74, Theorem 3.2.2]<br />
abgeschätzt. Sei ν 0 ɛ M(I ∗ ) das Zählmaß ν 0 (B) = |B| für alle B ⊂ I ∗ . Wegen<br />
|I ∗ | = m 2 nl n d ist ν 0 endlich. Des Weiteren ist E I ∗U<br />
·<br />
Dichte von ˜Q ∗ bezüglich ν 0<br />
<strong>und</strong> λ ∗· Dichte von Q∗ bezüglich ν 0 .<br />
Um unnötige Fallunterscheidungen zu vermeiden, sei t (0)<br />
n<br />
= x (0) : = ∞. Da die
2.3. Poisson Approximation 31<br />
(M U a ) a ɛ I identisch verteilt s<strong>in</strong>d, folgt aus Reiss [74, Theorem 3.2.2]:<br />
( )<br />
d TV (˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗<br />
≤ 3 ∑ ∣ E I<br />
∗U<br />
2<br />
a − λ ∗ ∣<br />
a<br />
a ɛ I ∗<br />
∣<br />
= 3 ∑ ∣∣∣∣<br />
P (Mq<br />
U > t (k)<br />
n ) − K∗ e −x(k)<br />
− P (M<br />
2<br />
m 2 q U > t (k−1)<br />
n<br />
(q,k) ɛ I<br />
nl n ∗ ≤ 3m 2 ∣<br />
nl n d max ∣P ( )<br />
M(0,0,0) U > t (k) K ∗<br />
n − exp ( − x (k))∣ ∣ k ɛ {1,...,d}<br />
m 2 nl n<br />
∣<br />
= 3d max ∣m 2 nl n P ( )<br />
M(0,0,0) U > t (k) − K ∗ exp ( − x (k))∣ ∣ ∣.<br />
k ɛ {1,...,d}<br />
n<br />
∣<br />
) + K∗ e ∣∣∣∣ −x(k−1)<br />
m 2 nl n<br />
Der Term im Betrag entspricht aber gerade dem <strong>in</strong> Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />
[34, Gleichung (2.11)] abgeschätzten. Da d ɛ N fest ist, folgt daraus die Behauptung.<br />
✷<br />
Aus den <strong>in</strong> diesem Abschnitt gezeigten Aussagen ergibt sich Satz 2.5 <strong>und</strong> somit<br />
die Konvergenz der d größten Scores gegen unabhängige Gumbel-Verteilungen.
32 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong>
33<br />
Kapitel 3<br />
Scan-Statistiken mit variabler<br />
Fenstergröße<br />
In diesem Kapitel wird die Häufigkeit des Vorkommens e<strong>in</strong>es gegebenen <strong>Muster</strong>s<br />
<strong>in</strong> e<strong>in</strong>er zufälligen Zeichenfolge untersucht. Hierbei wird e<strong>in</strong> sogenanntes Scan-<br />
Fenster auf die zu durchsuchende Zeichenkette gelegt <strong>und</strong> verschoben <strong>und</strong> gezählt,<br />
wie oft das <strong>Muster</strong> <strong>in</strong>nerhalb des Scan-Fensters, auftritt. Daraus leitet sich der<br />
Name ”<br />
Scan-Statistik“ ab. Die Position des Fensters wird als Zeitparameter <strong>in</strong>terpretiert,<br />
so dass man e<strong>in</strong>en zeitabhängigen stochastischen Prozess erhält.<br />
Die Literatur ist sehr umfangreich <strong>und</strong> vielfältig, siehe etwa die Bücher von Balakrishnan<br />
<strong>und</strong> Koutras [10] oder Glaz <strong>und</strong> Balakrishnan [47], sowie die Artikel<br />
von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] oder Karl<strong>in</strong> <strong>und</strong> Chen [53], um<br />
nur e<strong>in</strong>ige Beispiele zu nennen. E<strong>in</strong>e <strong>in</strong>teressante Anwendung <strong>in</strong> der genetischen<br />
Sequenzanalyse ist zum Beispiel <strong>in</strong> Leung, Choi, Xia <strong>und</strong> Chen [58] gegeben,<br />
wo das Vorkommen von Clustern von Pal<strong>in</strong>dromen im Genom von Herpesviren<br />
untersucht wird.<br />
Hier wird die Abhängigkeit des Grenzprozesses vom asymptotischen Verhalten der<br />
Fenstergröße betrachtet. Konvergiert die Fenstergröße gegen e<strong>in</strong>en echt positiven<br />
Wert, so erhält man e<strong>in</strong>en stetigen Grenzprozess <strong>und</strong> die Scan-Statistik lässt sich<br />
durch e<strong>in</strong> e<strong>in</strong>faches Funktional e<strong>in</strong>er Brownschen Bewegung B approximieren.<br />
Konvergiert die Fenstergröße gegen 0, so ist die Stetigkeit des Grenzprozesses<br />
nicht mehr gegeben.<br />
3.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />
Betrachtet wird e<strong>in</strong>e Zeichenkette X : = (X i ) i ɛN über dem endlichen Alphabet<br />
A : = {1, . . . , ξ}. Im Folgenden sei die Folge X<br />
∑<br />
stationär <strong>und</strong> ϕ-mischend mit<br />
∞<br />
√<br />
n=1 ϕ(n) < ∞.<br />
Gegeben sei e<strong>in</strong> <strong>Muster</strong> w = w 1 · · · w l ɛ A l der Länge l ɛ N. Es bezeichne I w (i) :=
34 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
1 {Xi···X i+l−1 =w 1···w l } := 1 {Xi =w 1 ,...,X i+l−1 =w l }. Aus der Def<strong>in</strong>ition folgt unmittelbar,<br />
dass auch die Folge ( I w (i) ) i ɛN ϕ-mischend mit e<strong>in</strong>er um l verschobenen Funktion<br />
ist. Um die Bezeichnung nicht unnötig kompliziert zu machen, wird diese<br />
verschobene Funktion wieder mit ϕ bezeichnet.<br />
Ebenso überträgt sich die Stationarität, so dass gilt:<br />
π w := E ( I w (i) ) = P (X 1 · · · X l−1 = w 1 · · · w l )<br />
ist unabhängig von i ɛ N. Des Weiteren konvergiert unter diesen Voraussetzungen<br />
nach Theorem 20.1 <strong>in</strong> Bill<strong>in</strong>gsley [17] die Summe<br />
σ 2 0 := Var( I w (1) ) + 2<br />
∞∑<br />
Kov ( I w (1), I w (1 + j) ) . (3.1.1)<br />
j=1<br />
Im Folgenden sei π w > 0, das heißt das Wort w kommt mit positiver Wahrsche<strong>in</strong>lichkeit<br />
vor <strong>und</strong> σ0 2 > 0.<br />
Zur Abkürzung bezeichne N n : = ∑ n<br />
(<br />
i=1 Iw (i) − π w) die zentrierte Anzahl des<br />
Vorkommens von w <strong>in</strong> X 1 , . . . , X n . Damit lässt sich nun die Scan-Statistik zur<br />
Fenstergröße r ɛ (0, 1) def<strong>in</strong>ieren durch<br />
D n (t) := N ⌊(t+r)n⌋ − N ⌊tn⌋ =<br />
⌊(t+r)n⌋<br />
∑<br />
i=⌊tn⌋+1<br />
(<br />
Iw (i) − π w) , für alle t > 0.<br />
Zur Veranschaulichung sei darauf h<strong>in</strong>gewiesen, dass es sich hierbei bis auf den<br />
R<strong>und</strong>ungsfehler ε := ⌊(t + r)n⌋ − ⌊tn⌋ − ⌊rn⌋ ɛ {0, 1} um die Scan-Statistik mit<br />
s := ⌊rn⌋ ɛ N Zeichen handelt:<br />
D n (t) = N ⌊tn⌋+s+ε − N ⌊tn⌋ =<br />
⌊tn⌋+s+ε<br />
∑<br />
i=⌊tn⌋+1<br />
(<br />
Iw (i) − π w) .<br />
Die hier untersuchte Frage ist die, für welche Fenstergrößen die Scan-Statistik<br />
e<strong>in</strong>en funktionalen Grenzwertsatz erfüllt, das heißt, für welche Folgen (r n ) n ɛN<br />
existiert e<strong>in</strong>e Normierung (M n ) n ɛN <strong>und</strong> e<strong>in</strong> Grenzprozess (D t ) t ɛ [0,1] , so dass<br />
M − 1 2<br />
n D D<br />
n −→ D <strong>in</strong> D[0, 1]? Des Weiteren wird die Stetigkeit des Grenzprozesses<br />
D untersucht.<br />
3.2 Ergebnisse<br />
Da das Grenzverhalten von D n wesentlich von der Fenstergröße r = r n abhängt,<br />
werden die folgenden Fälle unterschieden:
3.2. Ergebnisse 35<br />
1) r n ↘ r > 0: Als Grenzprozess erhält man (B·+r −B·), <strong>in</strong>sbesondere also e<strong>in</strong>en<br />
stetigen Grenzprozess. E<strong>in</strong> Spezialfall hiervon ist durch r n = r für alle n ɛ N<br />
gegeben, was auch mit dem Invarianzpr<strong>in</strong>zip für mischende Folgen gezeigt<br />
werden kann.<br />
2) r n ↘ 0, nr n −→ ∞: In diesem Fall bleibt die Stetigkeit nicht erhalten. Man<br />
erhält, dass die endlichdimensionalen Randverteilungen des Grenzprozesses<br />
unabhängig normalverteilt s<strong>in</strong>d. Dieses Ergebnis ist wenig überraschend, da<br />
r n −→ 0 nicht nur bedeutet, dass sich zwei beliebige unterschiedliche Fenster<br />
im Limes nicht überlappen, sondern auch, dass der Abstand zwischen den<br />
Fenstern m<strong>in</strong>destens l<strong>in</strong>ear wächst, was mit der Mischungseigenschaft der X i<br />
zu unabhängigen Randverteilungen führt.<br />
3) nr n → R: Für den Fall, dass die Anzahl der Zeichen im Scan-Fenster asymptotisch<br />
konstant ist, gibt es umfangreiche Literatur, siehe beispielsweise die<br />
Bücher von Glaz <strong>und</strong> Balakrishnan [47] beziehungsweise Balakrishnan <strong>und</strong><br />
Koutras [10] oder die Artikel von Dembo <strong>und</strong> Karl<strong>in</strong> [32], Chen <strong>und</strong> Karl<strong>in</strong><br />
[25] beziehungsweise Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69]. Daher<br />
wird dieser Fall im Folgenden nicht weiter behandelt.<br />
Der folgende Satz fasst die wichtigsten Resultate dieses Kapitels zusammen. Unter<br />
allgeme<strong>in</strong>en Voraussetzungen an die Fenstergröße wird e<strong>in</strong> funktionaler Zentraler<br />
Grenzwertsatz für die Scan-Statistik bei geeigneter Normierung gezeigt:<br />
Satz 3.1<br />
Seien die Voraussetzungen aus Abschnitt 3.1 erfüllt <strong>und</strong> die Folge (r n ) n ɛN ⊂ (0, 1)<br />
sei monoton fallend.<br />
−→ D<br />
B·+r − B·<br />
1<br />
1) Gilt r n −→ n→∞<br />
r > 0, so folgt: √<br />
σ 0 n<br />
D n<br />
<strong>in</strong> D[0, 1].<br />
Der Grenzprozess X t = B t+r − B t , t ɛ [0, 1] ist e<strong>in</strong> stationärer Gauß-Prozess<br />
mit Kovarianz E X s X t = s + r − m<strong>in</strong>{t, s + r} für alle 0 ≤ s ≤ t ≤ 1.<br />
1<br />
2) Gilt r n −→ n→∞<br />
0 <strong>und</strong> nr n −→ n→∞<br />
∞, so folgt: √ D D f<br />
σ 0 rnn n −→ D, wobei D e<strong>in</strong> Prozess<br />
mit unabhängigen normalverteilten Randverteilungen ist.<br />
Aus Teil 1 dieses Satzes ergibt sich für die maximale Scan-Statistik<br />
1<br />
T n := sup √ D n (t)<br />
t ɛ [0,1] σ 0 n<br />
unmittelbar die folgende Aussage:<br />
Korollar 3.2<br />
Es gelten die Voraussetzungen aus Abschnitt 3.1. Weiterh<strong>in</strong> konvergiere r n von<br />
oben gegen e<strong>in</strong>en echt positiven Grenzwert r > 0. Dann folgt:<br />
T n<br />
D<br />
−→ sup<br />
t ɛ [0,1]<br />
(<br />
Bt+r − B t<br />
)<br />
.
36 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
E<strong>in</strong>ige Ergebnisse zur Verteilung von sup t ɛ [0,1] (B t+r − B t ) f<strong>in</strong>det man <strong>in</strong> Piterbarg<br />
[68].<br />
In Korollar 3.2 wird das asymptotische Verhalten der maximalen Scan-Statistik<br />
im Fall r n ↘ r > 0 untersucht. Dies ist vergleichbar zu den Resultaten <strong>in</strong> der<br />
Literatur, wo für den Fall, dass die Anzahl der Zeichen im Scan-Fenster konstant<br />
oder nur schwach wachsend ist, die maximale Scan-Statistik betrachtet wird.<br />
Beweis von Satz 3.1:<br />
Wegen der Skalierungseigenschaft<br />
(B s ) s ɛ [0,2] d = (√ 2B s<br />
)s ɛ [0,1]<br />
der Brownschen Bewegung lässt sich der Randeffekt, der dadurch entsteht, dass<br />
das Suchfenster rechts über die 1 h<strong>in</strong>ausgeschoben wird, vernachlässigen: Es<br />
genügt, die Behauptung auf D[0, 1] zu zeigen. Mit obiger Umskalierung folgt dann<br />
die Aussage auf D[0, 1 + r]. Auf diesen Randeffekt wird daher im Beweis der Teilbehauptungen<br />
<strong>in</strong> den folgenden beiden Abschnitten nicht weiter e<strong>in</strong>gegangen.<br />
1) Die Verteilungskonvergenz <strong>in</strong> Teil 1 folgt aus Korollar 3.4 <strong>und</strong> Satz 3.8. Die<br />
Stationarität folgt aus B t+r − B t d = N (0, r). Weiterh<strong>in</strong> gilt für 0 ≤ s ≤ t ≤ 1:<br />
E X s X t = E B s+r B t+r −E B s+r B t −E B s B t+r +E B s B t = s+r−m<strong>in</strong>{s + r, t}.<br />
2) Teil 2 wird <strong>in</strong> Satz 3.9 gezeigt. ✷<br />
3.3 Straffheit<br />
In diesem Abschnitt wird gezeigt, dass n − 1 2 D n gegen e<strong>in</strong>en stetigen Grenzprozess<br />
konvergiert, falls r n e<strong>in</strong>en echt positiven Grenzwert hat. Im folgenden Satz werden<br />
die technischen Details hierfür bereitgestellt:<br />
Satz 3.3<br />
Es gelten die Voraussetzungen aus Abschnitt 3.1, r n sei monoton fallend <strong>und</strong><br />
r n −→ r > 0. Dann gilt: Für alle ε, η > 0 existiert δ ɛ (0, 1) <strong>und</strong> n 0 ɛ N, so dass<br />
für alle n ≥ n 0 gilt:<br />
P<br />
(<br />
sup<br />
|s−t|≤δ<br />
D n (s)<br />
∣ √ n<br />
− D ∣ )<br />
√<br />
n(t) ∣∣∣<br />
≥ ε ≤ η.<br />
n<br />
Beweis:<br />
Für ε, η > 0 <strong>und</strong> C ɛ R +<br />
def<strong>in</strong>iert man δ ′ : = ηε4<br />
C<br />
> 0, n 0 : = ⌈ 1 δ ′ ⌉ ɛ N <strong>und</strong>
3.3. Straffheit 37<br />
δ : =<br />
1 n 0<br />
ɛ (0, δ ′ ]. Nach der Bemerkung <strong>in</strong> Bill<strong>in</strong>gsley [17, S. 128], gilt das Korollar<br />
zu Theorem 8.3 auch <strong>in</strong> D[0,1], so dass mit der Zerlegung t j := jδ für alle<br />
j ɛ {0, . . . , n 0 } gilt:<br />
(<br />
P sup<br />
D n (s)<br />
∣ √ − D ∣ ) (<br />
√<br />
n(t) ∣∣∣<br />
n 0 −1<br />
∣<br />
∑<br />
∣∣∣ D n (s)<br />
≥ ε ≤ P sup √ − D ∣ )<br />
n(t j ) ∣∣∣<br />
√ ≥ ε .<br />
n n t j ≤s≤t j+1 n n 3<br />
|s−t|≤δ<br />
j=0<br />
(3.3.2)<br />
Analog zum Beweis von Theorem 12.3 <strong>in</strong> Bill<strong>in</strong>gsley [17] werden zunächst die<br />
Summanden abgeschätzt. Seien also n ≥ n 0 <strong>und</strong> j ɛ {0, . . . , n 0 − 1} fest. Nach<br />
Def<strong>in</strong>ition ist D n (t) = ∑ ⌊tn+r nn⌋<br />
i=⌊tn⌋+1 (I w(i) − π w ) stückweise konstant <strong>und</strong> wegen<br />
D n (t+ 1 )−D n n(t) = I w (⌊tn+r n n+1⌋)−I w (⌊tn+1⌋) können zwischen t <strong>und</strong> t+ 1 n<br />
höchstens zwei Sprungstellen von D n liegen. Insbesondere hat D n zwischen t j = jδ<br />
<strong>und</strong> t j+1 = jδ + δ höchstens 2nδ Sprungstellen. Seien also 0 ≤ s 0 < · · · < s m ≤ δ<br />
mit m ≤ 2nδ so, dass (t j + s i ) i=0,...,m die Unstetigkeitsstellen von D n im Intervall<br />
[t j , t j+1 ] s<strong>in</strong>d.<br />
Sei ξ i : = D n (jδ + s i ) − D n (jδ + s i −) die Sprunghöhe von D n <strong>in</strong> jδ + s i , wobei<br />
zur Abkürzung D n (jδ + s i −) : = lim h↗jδ+si D n (h) den l<strong>in</strong>ksseitigen Grenzwert<br />
bezeichnet. Dann gilt ξ i = ξ 1,i − ξ 2,i mit<br />
ξ 1,i := 1N ( (t j + r n + s i )n ) · (I<br />
w (⌊(t j + r n + s i )n⌋) − π w) ,<br />
ξ 2,i := 1N ( (t j + s i )n ) · (I<br />
w (⌊(t j + s i )n⌋ − 1) − π w) .<br />
Hierbei ist ξ 1,i = ( I w (⌊(t j + r n + s i )n⌋) − π w) , falls der Sprung dadurch zustande<br />
kommt, dass ⌊(t j +r n +s i )n−⌋ < ⌊(t j +r n +s i )n⌋, das heißt, falls beim Übergang<br />
von (t j + r n + s i )n− nach (t j + r n + s i )n e<strong>in</strong> neuer Summand h<strong>in</strong>zukommt <strong>und</strong> 0<br />
sonst. Analog ist ξ 2,i der Sprung, der auftritt, wenn beim Übergang von (t j +s i )n−<br />
nach (t j + s i )n der Summand I w (⌊(t j + s i )n⌋ − 1) − π w wegfällt.<br />
Diese Zerlegung der Sprunghöhen ist notwendig, weil (ξ i ) i=0,...,m im Allgeme<strong>in</strong>en<br />
selbst nicht mischend ist, die Folgen (ξ 1,i ) i=0,...,m <strong>und</strong> (ξ 2,i ) i=0,...,m jedoch dieselbe<br />
Mischungseigenschaft erfüllen wie (I w (i)) i=0,...,m selbst.<br />
Mit S k := ∑ k<br />
i=1 ξ k = D n (t j +s k ) − D n (t j ) lässt sich der j-te Summand <strong>in</strong> Gleichung<br />
(3.3.2) schreiben als:<br />
( ∣ ∣∣∣ D n (s)<br />
P sup √ − D ∣ )<br />
n(t j ) ∣∣∣<br />
√ ≥ ε<br />
t j ≤s≤t j+1 n n 3<br />
(<br />
= P max |D n(t j +s k ) − D n (t j )| ≥ ε )<br />
√ n<br />
k∈{1,...,m} 3<br />
(<br />
= P max |S k| ≥ ε )<br />
√ n .<br />
k∈{1,...,m} 3<br />
Dies wird mit Hilfe von Bill<strong>in</strong>gsley [17, Theorem 12.2] abgeschätzt, das heißt, es<br />
wird gezeigt, dass U ∈ R + existiert, so dass mit α = 2 <strong>und</strong> γ = 4 für alle λ > 0
38 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
<strong>und</strong> k, l ∈ N gilt: P (|S k − S l | ≥ λ) ≤ U |k − l| α . Sei ohne E<strong>in</strong>schränkung im<br />
λ γ<br />
Folgenden 1 ≤ l < k < ∞. Da die Folgen (ξ 1,i ) i=0,...,m <strong>und</strong> (ξ 2,i ) i=0,...,m stationär<br />
s<strong>in</strong>d, folgt mit der Markov-Ungleichung:<br />
(∣ ∣ )<br />
∣∣∣∣ k∑<br />
k∑ ∣∣∣∣<br />
P (|S k − S l | ≥ λ) = P ξ 1,i − ξ 2,i ≥ λ<br />
i=l+1<br />
i=l+1<br />
( ) ( )<br />
∣∣∣ ∑k−l<br />
∣ ∣∣ λ ∣∣∣ ∑k−l<br />
∣ ∣∣ λ<br />
≤ P ξ 1,i ≥ + P ξ 2,i ≥<br />
2<br />
2<br />
i=1<br />
i=1<br />
[<br />
]<br />
≤ 24<br />
∑k−l<br />
∣ ∣∣<br />
4 ∣ ∣∣<br />
∑k−l<br />
∣ ∣∣<br />
4<br />
E ∣ ξ<br />
λ 4 1,i + E ξ 2,i .<br />
i=1<br />
Des Weiteren gilt |ξ u,i | ≤ 1 <strong>und</strong> E ξ u,i = 0 für alle i = 0, . . . , m, u = 1, 2.<br />
Da die Folgen (ξ u,i ) i=0,...,m für u = 1, 2 außerdem dieselbe Mischungseigenschaft<br />
wie (I w (i)) i∈N besitzen, lassen sich obige Momente mit Hilfe von Bill<strong>in</strong>gsley [17,<br />
Lemma 20.4] abschätzen durch: E ∣ ∑ k−l<br />
i=1 ξ ∣ 4 q,i ≤ K ϕ (k − l) 2 für q ɛ {1, 2}, wobei<br />
K ϕ > 0 nur von ϕ abhängt. Mit U := √ 32K ϕ erhält man:<br />
( ) 2.<br />
P (|S k − S l | ≥ λ) ≤ 24 2K<br />
λ 4 ϕ (k − l) 2 = 1 λ U(k − l) 4<br />
Nach Bill<strong>in</strong>gsley [17, Theorem 12.2] existiert somit K γ,α ′ ɛ R + , unabhängig von<br />
k, ε <strong>und</strong> n, so dass gilt:<br />
( ∣ ∣∣∣ D n (s)<br />
P sup √ − D ∣ )<br />
n(t j ) ∣∣∣<br />
√ ≥ ε (<br />
= P max |S k | ≥ ε )<br />
√ n<br />
t j ≤s≤t j+1 n n 3<br />
k∈{1,...,m} 3<br />
( ε √ ) −4<br />
≤ K γ,α<br />
′ n (mU)<br />
2<br />
3<br />
= 3 4 K γ,αU ′ 2 m2<br />
ε 4 n . 2<br />
Da für die Anzahl m der Sprungstellen m ≤ 2nδ gilt, erhält man:<br />
P<br />
(<br />
∣ ∣∣∣ D n (s)<br />
sup √ − D ∣<br />
n(t j ) ∣∣∣<br />
√ ≥ ε<br />
t j ≤s≤t j+1 n n 3<br />
i=1<br />
)<br />
≤ C δ2<br />
ε 4 ,<br />
wobei C := 162K γ,αU ′ 2 nur von ϕ abhängt. Summation über j liefert wegen δ = 1 n 0<br />
<strong>und</strong> n 0 ≥ C<br />
ηε 4<br />
(<br />
P sup<br />
D n (s)<br />
∣ √ − D ∣ ) (<br />
√<br />
n(t) ∣∣∣<br />
n 0 −1<br />
∣<br />
∑<br />
∣∣∣ D n (s)<br />
≥ ε ≤ P sup √ − D ∣ )<br />
n(t j ) ∣∣∣<br />
√ ≥ ε n n t j ≤s≤t j+1 n n 3<br />
|s−t|≤δ<br />
Das ist die Behauptung.<br />
j=0<br />
≤ n 0 C δ2<br />
ε 4 = C<br />
n 0 ε 4 ≤ η.<br />
✷
3.4. Endlichdimensionale Randverteilungen 39<br />
Korollar 3.4<br />
S<strong>in</strong>d die Voraussetzungen aus Abschnitt 3.1 erfüllt <strong>und</strong> konvergiert r n von oben<br />
gegen e<strong>in</strong>en echt positiven Grenzwert r > 0, so ist √ Dn<br />
n<br />
straff <strong>und</strong> falls D ɛ D[0, 1]<br />
Grenzwert e<strong>in</strong>er Teilfolge ist, so ist D fast-sicher stetig.<br />
Beweis:<br />
Es wird Theorem 15.5 aus Bill<strong>in</strong>gsley [17] angewendet. Nach Satz 3.3 ist nur noch<br />
zu zeigen, dass ( n − 1 2 D n (0) ) n∈N<br />
straff ist:<br />
Es ist D n (0) = ∑ ⌊r nn⌋<br />
(<br />
i=1 Iw (i) − π w) . Wegen r n n −→ n→∞<br />
∞ konvergiert nach dem<br />
Zentralen Grenzwertsatz für mischende Folgen (siehe etwa Bill<strong>in</strong>gsley [17, Abschnitt<br />
20], Doukhan [39, Abschnitt 1.5.1] oder Philipp [66]) n − 1 2 D n (0) gegen<br />
e<strong>in</strong>e Normalverteilung. Insbesondere ist ( n − 1 2 D n (0) ) n∈N<br />
straff. Somit s<strong>in</strong>d die<br />
Voraussetzungen von Theorem 15.5 aus Bill<strong>in</strong>gsley [17] erfüllt, es folgt die Behauptung.<br />
✷<br />
3.4 Endlichdimensionale Randverteilungen<br />
In diesem Abschnitt werden die endlichdimensionalen Randverteilungen untersucht.<br />
Wie <strong>in</strong> Abschnitt 3.2 erläutert, müssen hierbei die Fälle r n ↘ r > 0 <strong>und</strong><br />
r n ↘ 0 unterschieden werden. Die beiden Fälle werden <strong>in</strong> den Abschnitten 3.4.1<br />
<strong>und</strong> 3.4.2 untersucht.<br />
Folgende technische Proposition wird später benötigt, um die Varianz mit Hilfe<br />
der Mischungseigenschaft abzuschätzen:<br />
Proposition 3.5<br />
Seien ϕ i ɛ [0, 1] monoton fallend <strong>und</strong> ∑ ∞ √<br />
i=1 ϕi konvergiere. Dann konvergiert<br />
auch die Summe ∑ ∞<br />
i=1 iϕ i.<br />
Beweis:<br />
Zunächst wird <strong>in</strong>direkt gezeigt, dass j √ ϕ j , j ɛ N beschränkt ist: Angenommen<br />
für alle n ɛ N existiert j n ≥ n, so dass j n<br />
√<br />
ϕjn > n. Sei ohne E<strong>in</strong>schränkung auch<br />
j n > j n−1 <strong>und</strong> zur Abkürzung j 0 := 1. Def<strong>in</strong>iert man nun die Folge (b j ) j ɛN durch<br />
b j := ϕ jn ≤ ϕ j , für j n−1 < j ≤ j n , so folgt:<br />
∞ ><br />
∞∑ √<br />
ϕj ≥<br />
j=1<br />
∞∑ √<br />
bj =<br />
j=1<br />
∞∑<br />
n=1<br />
j n<br />
∑<br />
j=j n−1<br />
√<br />
bj =<br />
∞∑<br />
(j n − j n−1 ) √ ϕ jn .<br />
n=1<br />
Aus der Annahme ergibt sich ∑ ∞<br />
n=1 (j n − j n−1 ) √ ϕ jn > ∑ ∞<br />
konvergiert n(1 − j n−1<br />
j n<br />
n=1 (j n − j n−1 ) n j n<br />
, somit<br />
) = (j n − j n−1 ) n j n<br />
−→ n→∞<br />
0. Daher gilt für h<strong>in</strong>reichend große<br />
n ɛ N: 0 ≤ 1− j n−1<br />
j n<br />
≤ 1 n , woraus auch j n ≤ n<br />
n−1 j n−1 ≤ . . . ≤ C 1 ( n<br />
n−1 )n −→<br />
n→∞<br />
C 1 · e,
40 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
mit C 1 ɛ R + folgt. Dies ist aber e<strong>in</strong> Widerspruch, da die Indexfolge (j n ) n ɛN nicht<br />
beschränkt se<strong>in</strong> kann.<br />
Ist also C 2 ɛ R + so dass i √ ϕ i ≤ C 2 , für alle i ɛ N, so ergibt sich die Behauptung<br />
aus<br />
∞∑ ∞∑<br />
iϕ i = i √ √ ∑ ∞<br />
√<br />
ϕ i ϕi ≤ C 2 ϕi < ∞.<br />
✷<br />
i=1<br />
i=1<br />
i=1<br />
Mit folgender Def<strong>in</strong>ition wird im Weiteren die sogenannte ” Überlappung“ zweier<br />
Wörter beziehungsweise die ”<br />
Selbstüberlappung“ <strong>in</strong>nerhalb e<strong>in</strong>es Wortes beschrieben.<br />
Die verwendeten Bezeichnungen s<strong>in</strong>d <strong>in</strong> der Literatur gebräuchlich,<br />
vergleiche etwa Waterman [94, Abschnitt 12.1].<br />
Def<strong>in</strong>ition 3.6<br />
Seien j, l, m ɛ N <strong>und</strong> w ɛ A l , v ɛ A m Wörter der Länge l beziehungsweise m über<br />
dem Alphabet A. Sei R w (j) der Rest des Wortes w ab dem Zeichen j + 1, das<br />
heißt:<br />
{<br />
wj+1 . . . w<br />
R w (j) :=<br />
l , falls j < l,<br />
das leere Wort, sonst.<br />
Das Overlap Bit β w,v : {0, . . . , l} → {0, 1} wird def<strong>in</strong>iert durch:<br />
β w,v (j) := 1 {wj+1 =v 1 ,...,w M =v M−j }, M = m<strong>in</strong>{l, m + j}.<br />
Zur Abkürzung sei β w := β w,w der Self Overlap.<br />
Damit lassen sich nun die Abhängigkeiten <strong>in</strong>nerhalb der Zeichenfolge (X i ) i ɛN<br />
untersuchen:<br />
Lemma 3.7<br />
Mit den Voraussetzungen aus Abschnitt 3.1 konvergieren unabhängig von i ɛ N<br />
folgende Summen absolut:<br />
(i) ∑ ∞<br />
j=1 Kov( I w (i), I w (i + j) ) = C 1 w,ϕ<br />
(ii) ∑ ∞<br />
j=1 j Kov( I w (i), I w (i + j) ) = C 2 w,ϕ<br />
Beweis:<br />
(i) folgt aus (ii).
3.4. Endlichdimensionale Randverteilungen 41<br />
(ii) Aus der Stationarität der Folge ( I w (i) ) i ɛN<br />
erhält man:<br />
∞∑<br />
(<br />
∣ j Kov Iw (i), I w (i + j) )∣ ∣<br />
j=1<br />
=<br />
∑l−1<br />
j ∣ βw (j)π wRw(l−j) − (π w ) 2∣ ∣<br />
j=1<br />
} {{ }<br />
=:C w<br />
∑ ∞<br />
+ π w j ∣ P (Xj+1 . . . X j+l = w|X 1 . . . X l = w) − π w∣ ∣ .<br />
} {{ }<br />
j=l<br />
≤ϕ(j−l+1)<br />
Die Behauptung ergibt sich mit Proposition 3.5 aus der Mischungseigenschaft<br />
der Folge ( I w (i) ) i ɛN .<br />
✷<br />
3.4.1 Der Fall r n ↘ r, r > 0<br />
In diesem Abschnitt wird die Konvergenz der endlichdimensionalen Randverteilungen<br />
untersucht, falls r n gegen e<strong>in</strong>en positiven Grenzwert konvergiert.<br />
Satz 3.8<br />
Konvergiert die Fenstergröße von oben gegen e<strong>in</strong>en positiven Grenzwert, r n ↘ r,<br />
r > 0, so konvergieren die endlichdimensionalen Randverteilungen gegen die entsprechenden<br />
Zuwächse e<strong>in</strong>er Brownschen Bewegung, das heißt für alle d ɛ N <strong>und</strong><br />
Zeitpunkte t 1 , . . . , t d ɛ [0, 1] gilt<br />
⎞ ⎛<br />
⎛<br />
D n (t 1 )<br />
1 ⎜ ⎟<br />
√ ⎝<br />
σ 0 n<br />
. ⎠<br />
D n (t d )<br />
mit σ 2 0 > 0 wie <strong>in</strong> Gleichung (3.1.1).<br />
D<br />
−→<br />
⎞<br />
B t1 +r − B t1<br />
⎜<br />
⎟<br />
⎝ . ⎠ ,<br />
B td +r − B td<br />
Beweis:<br />
Bezeichne zur Abkürzung X n : = ( D n (t 1 ), . . . , D n (t d ) ) T<br />
für alle n ɛ N <strong>und</strong> X : =<br />
( ) T.<br />
Bt1 +r − B t1 , . . . , B td +r − B td Nach Bill<strong>in</strong>gsley [17, Theorem 7.7] reicht es, für<br />
alle α ɛ R d 1<br />
zu zeigen, dass √<br />
σ 0 n<br />
α T X D<br />
n −→ α T X gilt. Sei σn 2 : = Var(αT X n ) =<br />
Var ( ∑ d<br />
i=1 α iD n (t i ) ) . Gezeigt wird:<br />
a) σ2 n<br />
n<br />
−→ Var(α T X)σ 2 0<br />
1<br />
b)<br />
σ n<br />
α T X D<br />
n −→ N (0, 1).
42 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
Sei ohne Beschränkung der Allgeme<strong>in</strong>heit α ≠ 0 <strong>und</strong> 0 ≤ t 1 < · · · < t d ≤ 1.<br />
Dies ist ke<strong>in</strong>e E<strong>in</strong>schränkung, da sich das Problem mit d − 1 Dimensionen <strong>und</strong><br />
˜α i := α i + α i+1 formulieren lässt, falls t i = t i+1 für e<strong>in</strong> i ɛ {1, . . . , d − 1}.<br />
Def<strong>in</strong>iert man die Koeffizienten βi n := ∑ d<br />
j=1 α j1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i), so lässt sich<br />
α T X n schreiben als:<br />
α T X n =<br />
=<br />
=<br />
=<br />
d∑<br />
α j D n (t j )<br />
j=1<br />
d∑<br />
j=1<br />
n∑<br />
i=1<br />
n∑<br />
i=1<br />
⌊(t j +r<br />
∑ n)n⌋<br />
α j<br />
i=⌊t j n⌋+1<br />
(<br />
Iw (i) − π w)<br />
d∑<br />
α ( j 1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i) I w (i) − π w)<br />
j=1<br />
β n i<br />
(<br />
Iw (i) − π w) .<br />
a) Da die Koeffizienten β n i stückweise konstant s<strong>in</strong>d <strong>und</strong> Sprungstellen nur an<br />
den Intervallgrenzen {⌊t j n⌋ + 1, ⌊(t j + r n )n⌋ | j = 1, . . . , d} auftreten können,<br />
werden die Intervalle (t j , t j + r n ] <strong>in</strong> D n disjunkte Intervalle (A n i , E n i ] i=1,...,D n<br />
zerlegt: E<strong>in</strong> solches Intervall kann nur an e<strong>in</strong>em t k oder t k +r n beg<strong>in</strong>nen beziehungsweise<br />
enden. Daher gibt es, unabhängig von n, höchstens 2d Intervalle,<br />
D n ≤ 2d. Es ergibt sich folgendes Bild:<br />
✛<br />
✛<br />
t k<br />
t k−1 +r n t k +r n t k+1 t k+2 t k+1 +r n<br />
✲<br />
✲<br />
E n i−2 =An i−1 E n i−1 =An i E n i<br />
A n i+1 E n i+1 =An i+2 E n i+2 =An i+3<br />
Nach Def<strong>in</strong>ition gilt ∪ d j=1[t j , t j + r n ] = ∪ Dn<br />
u=1[A n u, Eu] n <strong>und</strong> βn· ist konstant auf<br />
{⌊A n un⌋ + 1, . . . , ⌊Eun⌋}, n 1 ≤ u ≤ D n . Def<strong>in</strong>iert man für alle u ɛ {1, . . . , D n }<br />
γ n u<br />
:= βn i , falls i ɛ {⌊A n un⌋ + 1, . . . , ⌊Eun⌋}<br />
n<br />
d∑<br />
=<br />
j=1<br />
α j 1 {⌊A n u n⌋+1,...,⌊E n u n⌋}⊂{⌊t j n⌋+1,...,⌊(t j +r n)n⌋},<br />
als den Wert, den β n· auf {⌊An un⌋+1, . . . , ⌊E n un⌋} annimmt, so lässt sich α T X n
3.4. Endlichdimensionale Randverteilungen 43<br />
weiter umformen:<br />
α T X n =<br />
n∑<br />
i=1<br />
∑D n<br />
=<br />
β n i<br />
(<br />
Iw (i) − π w)<br />
⌊E<br />
∑u nn⌋<br />
γu<br />
n<br />
u=1 i=⌊A n un⌋+1<br />
(<br />
Iw (i) − π w) .<br />
Sei analog D ≤ 2d, (A i , E i ] i ɛ {1,...,D} die disjunkte Zerlegung der Intervalle<br />
(t j , t j + r] j ɛ {1,...,d} <strong>und</strong> γ u : = ∑ d<br />
j=1 α j1 (Au,Eu]⊂(t j ,t j +r], so dass α T X =<br />
∑ D<br />
u=1 γ u(B Eu − B Au ). Gilt t j = t i + r für 1 ≤ i < j ≤ d, so wird ohne<br />
E<strong>in</strong>schränkung an dieser Stelle e<strong>in</strong> Intervall der Länge 0 e<strong>in</strong>geschoben, das<br />
heißt E u := A u := t j , um unnötige Fallunterscheidungen zu vermeiden.<br />
Als Nächstes wird gezeigt, dass D n −→ n→∞<br />
D, A n u −→ n→∞<br />
A u <strong>und</strong> Eu n −→ n→∞<br />
E u für alle<br />
u ɛ {1, . . . , D}: Hierfür ist jedoch nur noch für 1 ≤ i < j ≤ d der Fall<br />
(t i , t i + r 1 ] ∩ (t j , t j + r 1 ] ≠ ∅ <strong>und</strong> (t i , t i + r] ∩ (t j , t j + r] = ∅<br />
zu untersuchen. Die Konvergenz der anderen Intervallgrenzen ergibt sich<br />
unmittelbar aus der Def<strong>in</strong>ition. Existieren also 1 ≤ i < j ≤ d so, dass<br />
t i + r < t j < t i + r 1 , dann wählt man ohne E<strong>in</strong>schränkung n ɛ N so groß,<br />
dass gilt:<br />
r n − r + 1 n < m := m<strong>in</strong>{t j − (t i + r) | 1 ≤ i < j ≤ d, t j − (t i + r) > 0}.<br />
Damit ist für alle 1 ≤ i < j ≤ d mit t j > t i + r auch t j n > (t i + r n )n + 1, so<br />
dass D n = D <strong>und</strong> weiterh<strong>in</strong> (t i , t i + r n ] ∩ (t j , t j + r n ] ≠ ∅ genau dann, wenn<br />
(t i , t i + r] ∩ (t j , t j + r] ≠ ∅. Wegen r n −→ n→∞<br />
r folgt A n u −→ n→∞<br />
A u <strong>und</strong> Eu n −→ n→∞<br />
E u für<br />
alle u ɛ {1, . . . , D}.<br />
Da nun über disjunkte Intervalle summiert wird, lässt sich die Varianz von<br />
α T X n mit Hilfe der Stationarität darstellen als:<br />
(<br />
σn<br />
2<br />
n = 1 D n<br />
n Var ∑<br />
[<br />
∑D n<br />
( )<br />
= γ<br />
n 2 1<br />
u<br />
n<br />
u=1<br />
∑D n<br />
+ 2<br />
⌊E<br />
∑u nn⌋<br />
γu<br />
n<br />
u=1 i=⌊A n un⌋+1<br />
∑D n<br />
u=1 v=u+1<br />
⌊E<br />
∑u nn⌋<br />
(<br />
Iw (i) − π w))<br />
i=⌊A n u n⌋+1 Var ( I w (i) ) + 2 n<br />
γ n uγ n v<br />
1<br />
n<br />
⌊Eu n n⌋<br />
∑<br />
i=⌊A n u n⌋+1<br />
⌊Ev n n⌋<br />
∑<br />
⌊E<br />
∑u nn⌋<br />
⌊E<br />
∑u nn⌋<br />
i=⌊A n u n⌋+1 j=i+1<br />
j=⌊A n v n⌋+1 Kov ( I w (i), I w (j) ) .<br />
Kov ( I w (i), I w (j) )]<br />
(3.4.3)
44 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
Die Konvergenz dieser Summanden für n −→ ∞ wird nun für alle<br />
u ɛ {1, . . . , D n } untersucht. Bezeichne hierfür ε n u := ⌊En un⌋ − ⌊A n un⌋ − n(E n u −<br />
A n u) ɛ (−1, 1) den R<strong>und</strong>ungsfehler.<br />
1) Wegen der Stationarität ist<br />
1<br />
n<br />
⌊E<br />
∑u nn⌋<br />
i=⌊A n un⌋+1<br />
Var ( I w (i) ) = 1 n<br />
(<br />
⌊E<br />
n<br />
u n⌋ − ⌊A n un⌋ ) Var ( I w (1) )<br />
= ( )<br />
Eu n − A n u π w (1 − π w ) + εn u<br />
n πw (1 − π w )<br />
( )<br />
−→ n→∞ Eu − A u π w (1 − π w ).<br />
2) Wiederum wegen der Stationarität ist K w (j) := Kov ( I w (i), I w (i + j) ) unabhängig<br />
von i ɛ N. Somit gilt:<br />
1<br />
n<br />
⌊Eu n n⌋ ⌊E<br />
∑<br />
u n n⌋<br />
∑<br />
i=⌊A n u n⌋+1 j=i+1<br />
= 1 n<br />
= 1 n<br />
⌊E∑<br />
u nn⌋−1<br />
i=⌊A n un⌋+1<br />
∑<br />
Kov ( I w (i), I w (j) )<br />
⌊Eu n n⌋−i<br />
∑<br />
j=1<br />
⌊E n u n⌋−⌊An u n⌋−1<br />
j=1<br />
= ( E n u − A n u<br />
) Ln u<br />
K w (j)<br />
(<br />
⌊E<br />
n<br />
u n⌋ − ⌊A n un⌋ − j ) K w (j)<br />
∑<br />
K w (j) − 1 L<br />
∑<br />
n u<br />
jK w (j) + εn u<br />
n<br />
n<br />
j=1<br />
j=1<br />
L<br />
∑<br />
n u<br />
j=1<br />
K w (j),<br />
wobei L n u := ⌊En un⌋ − ⌊A n un⌋ − 1 = n(Eu n − A n u) + ε n u − 1 −→ n→∞<br />
∞. Nach Lemma<br />
3.7 konvergieren die Summen ∑ L n u<br />
j=1 K w(j) <strong>und</strong> ∑ L n u<br />
j=1 jK w(j) absolut,<br />
so dass man erhält:<br />
1<br />
n<br />
⌊E<br />
∑u nn⌋<br />
i=⌊A n un⌋+1<br />
⌊E<br />
∑u nn⌋<br />
j=i+1<br />
Kov ( I w (i), I w (j) ) −→ n→∞<br />
(E u − A u )C 1 w,ϕ.<br />
3) Der dritte Term aus Gleichung (3.4.3) wird getrennt für A n v = E n u <strong>und</strong><br />
A n v ≠ E n u untersucht. Ist etwa v > u + 1, so ist A n v ≠ E n u, nach Def<strong>in</strong>ition<br />
der Intervalle [A n i , E n i ) i ɛ {1,...,Dn} . In diesem Fall wird die dritte Summe <strong>in</strong>
3.4. Endlichdimensionale Randverteilungen 45<br />
die folgenden Terme aufgeteilt:<br />
1<br />
n<br />
⌊Eu n n⌋<br />
∑<br />
i=⌊A n u n⌋+1<br />
= 1 n<br />
− 1 n<br />
− 1 n<br />
⌊E<br />
∑u nn⌋<br />
i=⌊A n un⌋+1<br />
⌊Ev n n⌋<br />
∑<br />
j=⌊A n v n⌋+1 Kov ( I w (i), I w (j) )<br />
⌊Eu n n⌋−1<br />
∑<br />
i=⌊A n u n⌋+1<br />
⌊Eu n n⌋<br />
∑<br />
⌊Ev nn⌋−⌊An ∑u n⌋−1<br />
j=⌊A n v n⌋−⌊E n u n⌋+1<br />
⌊A n v n⌋−i<br />
∑<br />
K w (j)<br />
j=⌊A n v n⌋−⌊En u n⌋+1 K w (j)<br />
∑<br />
⌊Ev n n⌋−⌊A n un⌋−1<br />
i=⌊A n u n⌋+2 j=⌊Ev nn⌋−i+1<br />
K w (j).<br />
(3.4.4)<br />
Mit Hilfe des Cauchy-Kriteriums für Reihen ergibt sich die Konvergenz<br />
dieser drei Terme aus Lemma 3.7, wenn gezeigt wird, dass die unteren<br />
Summationsgrenzen unbeschränkt s<strong>in</strong>d:<br />
(i) Mit A n v ≠ E n u folgt wegen ⌊A n v n⌋ − ⌊E n un⌋ + 1 ≥ n(A n v − E n u) −→ n→∞<br />
∞:<br />
(ii) Ebenso gilt:<br />
1<br />
n<br />
⌊Eu n n⌋<br />
∑<br />
i=⌊A n u n⌋+1<br />
=<br />
(<br />
−→ n→∞<br />
0.<br />
⌊Ev n n⌋−⌊A<br />
∑<br />
n un⌋−1<br />
j=⌊A n v n⌋−⌊En u n⌋+1 K w (j)<br />
E n u − A n u + εn u<br />
n<br />
) ⌊En v n⌋−⌊An ∑u n⌋−1<br />
j=⌊A n v n⌋−⌊E n u n⌋+1<br />
K w (j)<br />
1<br />
n<br />
⌊E∑<br />
u nn⌋−1<br />
i=⌊A n un⌋+1<br />
⌊A∑<br />
n v n⌋−i<br />
j=⌊A n v n⌋−⌊E n u n⌋+1<br />
⌊A n v n⌋−⌊A<br />
∑<br />
n un⌋−1<br />
K w (j)<br />
= 1 (<br />
⌊A<br />
n<br />
n<br />
v n⌋−⌊A n un⌋−j ) K w (j)<br />
j=⌊A n v n⌋−⌊En u n⌋+1<br />
≤ (E n u − A n u)<br />
−→ n→∞<br />
0.<br />
⌊A∑<br />
n v n⌋−i<br />
j=⌊A n v n⌋−⌊E n u n⌋+1<br />
|K w (j)|
46 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
(iii) Mit ⌊E n v n⌋ − ⌊E n un⌋ + 1 ≥ n(E n v − E n u) −→ n→∞<br />
∞ ergibt sich:<br />
1<br />
n<br />
⌊Eu n n⌋<br />
∑<br />
∑<br />
⌊Ev n n⌋−⌊A n un⌋−1<br />
i=⌊A n u n⌋+2 j=⌊Ev nn⌋−i+1<br />
= 1 n<br />
⌊Ev nn⌋−⌊An ∑u n⌋−1<br />
j=⌊E n v n⌋−⌊E n u n⌋+1<br />
≤ (E n u − A n u)<br />
−→ n→∞<br />
0.<br />
K w (j)<br />
(<br />
⌊E<br />
n<br />
u n⌋−⌊E n v n⌋+j ) K w (j)<br />
⌊Ev nn⌋−⌊An ∑u n⌋−1<br />
j=⌊E n v n⌋−⌊En u n⌋+1 |K w (j)|<br />
Ist A n v = Eu, n das heißt v = u + 1 <strong>und</strong> die Intervalle schließen direkt<br />
ane<strong>in</strong>ander an, so erhält man:<br />
1<br />
n<br />
⌊Eu n n⌋<br />
∑<br />
i=⌊A n u n⌋+1<br />
= 1 n<br />
≤<br />
mit Lemma 3.7(ii).<br />
1 n<br />
= 1 n<br />
−→ n→∞<br />
0,<br />
⌊Ev n n⌋<br />
∑<br />
j=⌊A n v n⌋+1 | Kov ( I w (i), I w (j) ) |<br />
⌊A n v n⌋−⌊An ∑<br />
u n⌋<br />
i=1<br />
⌊A n v n⌋−⌊An ∑<br />
u n⌋<br />
i=1<br />
⌊Ev n n⌋−⌊A<br />
∑<br />
n un⌋<br />
j=1<br />
⌊Ev nn⌋−⌊An ∑v n⌋+i−1<br />
j=i<br />
⌊Ev nn⌋−⌊An ∑<br />
u n⌋<br />
j=i<br />
j|K w (j)|<br />
|K w (j)|<br />
Zusammenfassend ergibt sich für die Varianz von α T X n :<br />
1<br />
n σ2 n −→<br />
=<br />
|K w (j)|<br />
D∑<br />
(γ u ) 2[ ]<br />
(E u − A u )π w (1 − π w ) + 2(E u − A u )Cw,ϕ<br />
1<br />
u=1<br />
( ∑ D )(<br />
)<br />
(γ u ) 2 (E u − A u ) π w (1 − π w ) + 2Cw,ϕ<br />
1<br />
u=1<br />
( ∑ D )<br />
= σ0<br />
2 (γ u ) 2 (E u − A u ) ,<br />
u=1<br />
wobei die letzte Gleichung aus der Def<strong>in</strong>ition von C 1 w,ϕ <strong>in</strong> Lemma 3.7 <strong>und</strong> σ 2 0<br />
<strong>in</strong> Gleichung (3.1.1) folgt.
3.4. Endlichdimensionale Randverteilungen 47<br />
Da die Intervalle (A u , E u ] für u ɛ {1, . . . , D} disjunkt s<strong>in</strong>d <strong>und</strong> die Brownsche<br />
Bewegung unabhängige normalverteilte Zuwächse hat, erhält man für die rechte<br />
Seite von Behauptung a)<br />
( ∑ D )<br />
Var(α T X) = Var γ u (B Eu − B Au )<br />
=<br />
=<br />
u=1<br />
D∑<br />
(γ u ) 2 Var(B Eu − B Au )<br />
u=1<br />
D∑<br />
(γ u ) 2 (E u − A u ).<br />
u=1<br />
Dies ergibt 1 n σ2 n −→ n→∞<br />
Var(α T X)σ 2 0 <strong>und</strong> somit Behauptung a).<br />
b) Def<strong>in</strong>iert man a n,i := βn i<br />
σ n<br />
= ( Var(α T X n ) ) − 1 ∑ 2 d<br />
j=1 α j1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i), so<br />
ist ∑ n<br />
k=1 a (<br />
n,k Iw (k) − π w) = 1<br />
σ n<br />
α T X n . Daher wird als Nächstes gezeigt, dass<br />
(a n,k ) 1≤k≤n <strong>und</strong> ( I w (k) ) k ɛN die Voraussetzungen von Peligrad <strong>und</strong> Utev [65,<br />
Theorem 2.2(a)] erfüllen:<br />
1) sup n ɛN ∑ n<br />
k=1 a2 n,k<br />
ist beschränkt: Für alle n ɛ N ergibt sich wie <strong>in</strong> a)<br />
n∑<br />
∑D n<br />
⌊E<br />
∑u nn⌋<br />
a 2 n,k = 1 (γ<br />
σ<br />
u) n 2<br />
2<br />
k=1 n u=1 k=⌊A n u<br />
∑ n⌋+1 D n<br />
u=1<br />
≤<br />
(γn u) 2 (Eu n − A n u + εn u<br />
n<br />
)<br />
1<br />
n σ2 n<br />
1<br />
−→ n→∞<br />
ɛ R.<br />
σ0<br />
2<br />
2) max k ɛ {1,...,n} |a n,k | −→ n→∞<br />
0: Nach a) ist 1 n σ2 n −→ n→∞<br />
Var(α T X)σ0 2 > 0, daher gilt<br />
für h<strong>in</strong>reichend große n ɛ N:<br />
|a n,k | =<br />
≤<br />
∣ ∣ βn k ∣∣<br />
σ n<br />
2 ∑ d<br />
j=1 |α j|<br />
√<br />
n Var(αT X)σ0<br />
2<br />
−→ n→∞<br />
0.<br />
3) Die Folge ( I w (k) − π w) k ɛN ist gleichgradig <strong>in</strong>tegrierbar, da I w(k)−π w<br />
ɛ {−π w , 1 − π w }.
48 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
4) Var ( ∑ n<br />
k=1 a n,kI w (k) ) = 1, nach Def<strong>in</strong>ition der a n,k .<br />
Damit lässt sich Theorem 2.2(a) aus Peligrad <strong>und</strong> Utev [65] anwenden. Es<br />
folgt Behauptung b):<br />
1<br />
σ n<br />
α T X n =<br />
n∑ (<br />
a n,k Iw (k) − π w) −→ D<br />
N (0, 1).<br />
k=1<br />
Aus den Eigenschaften der Brownschen Bewegung folgt, dass α T X normalverteilt<br />
ist, da es sich um e<strong>in</strong>e gewichtete Summe von Zuwächsen von B handelt. Somit<br />
wurde gezeigt, dass:<br />
1<br />
σ 0<br />
√ n<br />
α T X n =<br />
σ n<br />
σ 0<br />
√ n ·<br />
1<br />
σ n<br />
α T X n<br />
D<br />
−→ √ Var(α T X)N (0, 1) d = α T X.<br />
−→ X <strong>und</strong> damit die Behaup-<br />
✷<br />
1<br />
Mit Theorem 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17] folgt<br />
tung.<br />
σ 0<br />
√ n<br />
X n<br />
D<br />
Damit wurde die Konvergenz der endlichdimensionalen Randverteilungen gezeigt,<br />
falls r n von oben gegen e<strong>in</strong>en positiven Grenzwert konvergiert. In Verb<strong>in</strong>dung mit<br />
der <strong>in</strong> Abschnitt 3.3 bewiesenen Straffheit erhält man den ersten Teil von Satz 3.1.<br />
3.4.2 Der Fall r n ↘ 0<br />
In diesem Abschnitt werden die endlichdimensionalen Randverteilungen des<br />
Grenzprozesses untersucht, wenn die Fenstergröße gegen 0 konvergiert. Wie erwartet,<br />
erhält man <strong>in</strong> diesem Fall im Allgeme<strong>in</strong>en ke<strong>in</strong>en stetigen Grenzprozess<br />
mehr.<br />
Satz 3.9<br />
Sei X e<strong>in</strong>e stationäre, ϕ-mischende Zeichenfolge <strong>und</strong> für die Fenstergröße r n gelte<br />
r n ↘ 0 <strong>und</strong> r n n −→ ∞. Dann konvergieren die endlichdimensionalen Randverteilungen<br />
der Scan-Statistik (r n n) − 1 2 D n gegen unabhängige Normalverteilungen,<br />
das heißt für d ɛ N <strong>und</strong> Zeitpunkte t 1 , . . . , t d ɛ [0, 1] gilt:<br />
1<br />
√<br />
rn n<br />
⎛ ⎞<br />
D n (t 1 )<br />
⎜ ⎟<br />
⎝ . ⎠<br />
D n (t d )<br />
D<br />
−→ N (0, σ 2 0 I d ).<br />
Dabei bezeichnet I d ɛ R d×d die d-dimensionale E<strong>in</strong>heitsmatrix.
3.4. Endlichdimensionale Randverteilungen 49<br />
Beweis:<br />
Sei zur Abkürzung X n : =<br />
( D n (t 1 ), . . . , D n (t d ) ) T<br />
. Analog zum Beweis von<br />
Satz 3.8 wird gezeigt, dass für alle α ɛ R d 1<br />
gilt: √ αT rnn<br />
X D<br />
n −→ α T N ( )<br />
0, σ0 2 I d =<br />
N ( 0, σ0 2 ‖α‖ 2) . Die Behauptung folgt hieraus mit Theorem 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17].<br />
Seien ohne E<strong>in</strong>schränkung α ≠ 0 <strong>und</strong> 0 = : t 0 ≤ t 1 < · · · < t d ≤ 1. Dann ist<br />
m := m<strong>in</strong>{t i − t i−1 |i ɛ {1, . . . , d}} > 0. Da r n −→ n→∞<br />
0 ist r n + 1 < m für h<strong>in</strong>reichend<br />
n<br />
große n ɛ N, das heißt, die Intervalle (t i , t i + r n ] i ɛ {1,...,d} s<strong>in</strong>d disjunkt. Teilt man<br />
σn 2 := Var(αT X n ) wie <strong>in</strong> Gleichung (3.4.3) auf, <strong>und</strong> bezeichnet ε n u := ⌊(t u+r n )n⌋−<br />
⌊t u n⌋ − r n n ɛ (−1, 1) den R<strong>und</strong>ungsfehler, so ergibt sich:<br />
[<br />
σn<br />
2 d∑<br />
r n n = αu<br />
2 r n n + ε n u<br />
Var ( I w (i) ) + 2<br />
⌊(t u+r n)n⌋ ⌊(t<br />
∑ u+r n)n⌋−i<br />
]<br />
∑<br />
K w (j)<br />
r<br />
u=1<br />
n n<br />
r n n<br />
i=⌊t un⌋+1 j=1<br />
⌊(t d∑ d∑<br />
u+r n)n⌋ ⌊(t<br />
1 ∑ v+r<br />
∑ n)n⌋<br />
+ 2 α u α v Kov ( I w (i), I w (j) ) .<br />
r<br />
u=1 v=u+1 n n<br />
i=⌊t un⌋+1 j=⌊t vn⌋+1<br />
Wegen r n n −→ n→∞<br />
∞ konvergieren die Summanden wie folgt:<br />
1) rnn+εn u<br />
r nn<br />
Var ( I w (i) ) −→ n→∞<br />
(<br />
π w (1 − π w ) ) .<br />
2) Nach Lemma 3.7 ergibt sich:<br />
1<br />
r n n<br />
⌊(t u+r<br />
∑ n)n⌋<br />
i=⌊t un⌋+1<br />
∑<br />
⌊(t u+r n)n⌋−i<br />
j=1<br />
K w (j) = r nn + ε n u<br />
r n n<br />
−→ C 1 w,ϕ.<br />
r nn+ε<br />
∑<br />
n u<br />
j=1<br />
K w (j) − 1<br />
r nn+ε<br />
∑<br />
n u<br />
jK w (j)<br />
r n n<br />
j=1<br />
3) Für 1 ≤ u < v ≤ d gilt ∆ v u := ⌊t vn⌋ − ⌊t u n⌋ −→ n→∞<br />
∞. Damit lässt sich der dritte<br />
Summand analog Gleichung (3.4.4) abschätzen:<br />
1<br />
r n n<br />
⌊(t u+r<br />
∑ n)n⌋<br />
⌊(t v+r<br />
∑ n)n⌋<br />
i=⌊t un⌋+1 j=⌊t vn⌋+1<br />
≤ r nn + ε n u<br />
r n n<br />
+ r nn + ε n u<br />
r n n<br />
+ r nn + ε n u<br />
r n n<br />
∆ v u+r nn+ε n v −1<br />
∑<br />
(<br />
∣ Kov Iw (i), I w (j) )∣ ∣<br />
j=∆ v u −rnn−εn u +1 |K w (j)|<br />
∆∑<br />
v u−1<br />
j=∆ v u−r nn−ε n u+1<br />
∆ v u+r nn+ε n v −1<br />
∑<br />
j=∆ v u+ε n v −ε n u+1<br />
|K w (j)|<br />
|K w (j)|.<br />
Alle 3 Terme konvergieren nach dem Cauchy-Kriterium für Reihen gegen 0,<br />
da die Reihen nach Lemma 3.7 absolut konvergieren.
50 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />
Man erhält für die Varianz von α T X n :<br />
σ 2 n<br />
r n n −→<br />
d∑ (π<br />
αu[ 2 w (1 − π w ) ) ]<br />
+ 2Cw,ϕ<br />
1 = ‖α‖ 2 σ0.<br />
2<br />
u=1<br />
Wie im Beweis von Satz 3.8, Teil (ii) folgt aus Theorem 2.2(a) <strong>in</strong> Peligrad <strong>und</strong><br />
Utev [65]<br />
1<br />
√<br />
rn n σ n ‖α‖ αT X n<br />
D<br />
−→ N (0, 1)<br />
<strong>und</strong> mit Theorem 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17] die Behauptung.<br />
✷<br />
Damit wurde die Konvergenz der endlichdimensionalen Randverteilungen auch<br />
für den Fall, dass r n gegen 0 konvergiert, bewiesen. Somit erhält man den zweiten<br />
Teil von Satz 3.1.
51<br />
Kapitel 4<br />
Der empirische <strong>Muster</strong>prozess<br />
Dieses Kapitel hat die Häufigkeit des Auftretens e<strong>in</strong>es <strong>Muster</strong>s zum Thema. Untersucht<br />
wird das überlappende Vorkommen e<strong>in</strong>es gegebenen <strong>Muster</strong>s, wobei die<br />
durchsuchte Zeichenfolge von den Parametern abhängt. Ausgehend von e<strong>in</strong>er stationären<br />
ϕ-mischenden Folge bestimmen die Veränderlichen des Prozesses die<br />
Wahrsche<strong>in</strong>lichkeitsverteilung der Buchstaben.<br />
Es wird die Konvergenz des empirischen <strong>Muster</strong>prozesses gegen e<strong>in</strong>en stetigen<br />
Grenzprozess gezeigt <strong>und</strong> für den Fall unabhängiger Zufallsvariablen werden explizite<br />
Abschätzungen angegeben.<br />
Durch die Erweiterung auf mehr als zwei Dimensionen, die Betrachtung des Zeitparameters<br />
<strong>und</strong> die E<strong>in</strong>bettung <strong>in</strong> die Theorie der empirischen Prozesse stellt<br />
dieses Kapitel e<strong>in</strong>e Verallgeme<strong>in</strong>erung des Ergebnisses von Aki [1] dar.<br />
4.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />
Gegeben sei das Wort w = w 1 · · · w l ɛ A l der Länge l ɛ N über dem endlichen<br />
Alphabet A = {1, . . . , ξ} <strong>und</strong> e<strong>in</strong>e stationäre ϕ-mischende Folge (X i ) i ɛN auf<br />
(R, B). Die endlichdimensionalen Randverteilungen von (X i+j ) j ɛ {1,...,n} seien für<br />
alle n ɛ N <strong>und</strong> i ɛ {1, . . . , l} Lebesgue-stetig.<br />
Analog zu Remark 2.1 <strong>in</strong> Aki [1] wird ohne Beschränkung der Allgeme<strong>in</strong>heit<br />
angenommen, dass X i auf [0, 1] gleichverteilt ist für alle i ɛ N. Dies ist ke<strong>in</strong>e<br />
E<strong>in</strong>schränkung, da F i (X i ) gleichverteilt auf [0, 1] ist, wenn F i : = P (X i ≤ ·)<br />
die Verteilungsfunktion von X i bezeichnet. Wird die Behauptung nun für F (X i )<br />
gezeigt, so folgt der allgeme<strong>in</strong>e Fall mit Theorem 5.1 aus Bill<strong>in</strong>gsley [17], da<br />
F nach obiger Voraussetzung stetig ist <strong>und</strong> sich die Mischungseigenschaft auf<br />
(F (X i )) i ɛN überträgt.<br />
Für Parameter p ɛ ∆ := {(q 1 , . . . , q ξ−1 ) ɛ [0, 1] ξ−1 | 0 ≤ q 1 ≤ . . . ≤ q ξ−1 ≤ 1} ist die
52 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
durchsuchte Zeichenkette ˜X(p) := ( )<br />
˜X(p) i i ɛN def<strong>in</strong>iert durch:<br />
⎧<br />
1, X i ɛ [0, p 1 ]<br />
˜X (p)<br />
i<br />
:=<br />
ξ∑<br />
c=1<br />
c1 {pc−1 p c} =<br />
⎪⎨<br />
2, X i ɛ (p 1 , p 2 ]<br />
. . ⎪⎩<br />
ξ, X i ɛ (p ξ−1 , 1].<br />
0 p 1 p 2 · · · p ξ−1 1 (<br />
[0, 1], B[0,1] , P i)<br />
X<br />
˜X (p)<br />
i<br />
❄ ❄ ❄ ❄<br />
(<br />
e<br />
1 2 · · · ξ A, P(A), P Xi<br />
)<br />
Im Gegensatz zu Kapitel 3 soll <strong>in</strong> diesem Kapitel der empirische <strong>Muster</strong>prozess<br />
von w <strong>in</strong> Abhängigkeit von den Schwellen p = (p 1 , . . . , p ξ−1 ) untersucht werden.<br />
Die Parameter p 1 , . . . , p ξ−1 bestimmen folglich die Wahrsche<strong>in</strong>lichkeiten für das<br />
Auftreten der Zeichen <strong>in</strong> der Folge ˜X. Die im Folgenden untersuchte Stetigkeit<br />
<strong>in</strong> diesen Parametern ergibt daher e<strong>in</strong>e Rechtfertigung für die Anschauung, dass<br />
e<strong>in</strong>e ger<strong>in</strong>gfügige Veränderung der Wahrsche<strong>in</strong>lichkeiten den empirischen <strong>Muster</strong>prozess<br />
nur wenig verändert.<br />
In der Schätztheorie ergibt sich e<strong>in</strong>e <strong>in</strong>teressante Anwendung von Satz 4.2, da sich<br />
die Konsistenz e<strong>in</strong>er Folge von Schätzern der e<strong>in</strong>zelnen Zeichenwahrsche<strong>in</strong>lichkeiten<br />
auf den empirischen <strong>Muster</strong>prozess überträgt. Oftmals werden beispielsweise<br />
die relativen Häufigkeiten als Schätzer für die Zeichenwahrsche<strong>in</strong>lichkeiten verwendet.<br />
Daher genügt es, die Konvergenz der relativen Häufigkeiten gegen die<br />
Zeichenwahrsche<strong>in</strong>lichkeiten zu beweisen, um die Konsistenz e<strong>in</strong>es stetigen Funktionals<br />
des <strong>Muster</strong>prozesses zu zeigen.<br />
Bemerkungen:<br />
1) Um den Prozess später auf dem E<strong>in</strong>heitsquader betrachten zu können, sei<br />
I w (i; p) : = 0 für alle p ɛ ∆ c , <strong>in</strong>sbesondere falls e<strong>in</strong> k ɛ {1, . . . , ξ} existiert, so<br />
dass p k−1 > p k .<br />
2) Für (p 1 , . . . , p ξ−1 ) ɛ ∆ sei im Folgenden zur Abkürzung p 0 : = 0 <strong>und</strong> p ξ : = 1.<br />
Damit lassen sich unnötige Fallunterscheidungen <strong>in</strong> Summen <strong>und</strong> Produkten<br />
vermeiden.<br />
Weiterh<strong>in</strong> bezeichne L k := {i ɛ {1, . . . , l} | w i = k} die Positionen im <strong>Muster</strong> w,<br />
die mit dem Zeichen k ɛ A besetzt s<strong>in</strong>d. Der Nutzen dieser Bezeichnung wird bei<br />
der Def<strong>in</strong>ition des Ereignisses, dass das Wort w ab Position i ɛ N <strong>in</strong> ˜X(p), p ɛ ∆
4.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 53<br />
vorkommt, offensichtlich:<br />
I w (i; p 1 , . . . , p ξ−1 ) := 1 { X e(p)<br />
(p)<br />
i ··· eX =<br />
i+l−1 =w 1···w l }<br />
l∏<br />
1 (pwj −1,p wj ](X i+j−1 )<br />
j=1<br />
= ∏ k ɛ A<br />
1 (pk−1 ,p k ] |L k |(X L k +i−1).<br />
Bezeichnet zur Abkürzung π w p die Wahrsche<strong>in</strong>lichkeit, dass das Wort w vorkommt,<br />
π w p := E I w(1; p),<br />
so ist der zentrierte empirische <strong>Muster</strong>prozess von w <strong>in</strong> Abhängigkeit von p ɛ ∆<br />
zum Zeitpunkt s ɛ [0, 1] gegeben durch:<br />
Z n (p; s) := √ 1<br />
⌊ns⌋<br />
∑ ( )<br />
Iw (i; p) − π w<br />
n<br />
p .<br />
i=1<br />
Um die Kovarianzen im Fall unabhängiger (X i ) i ɛN explizit angeben zu können,<br />
wird folgende Def<strong>in</strong>ition benötigt, <strong>in</strong> der analog zum Overlap Bit <strong>in</strong> Def<strong>in</strong>ition 3.6<br />
e<strong>in</strong>e Funktion def<strong>in</strong>iert wird, die die Möglichkeit, dass das Wort w selbstüberlappend<br />
vorkommt, misst:<br />
Def<strong>in</strong>ition 4.1<br />
Für das Wort w ɛ A l sei das verallgeme<strong>in</strong>erte ”<br />
Overlap Polynom“ G w : ∆ × ∆ →<br />
[0, 1] gegeben durch:<br />
G w (p, q) :=<br />
∑l−1<br />
u=1<br />
[ ∏<br />
k ɛ A<br />
(<br />
(p k − p k−1 ) |L k∩{1,...,u}| · (q k − q k−1 ) |L k∩{l−u+1,...,l}|<br />
· ∏ (<br />
(pk ∧ q c − p k−1 ∨ q c−1 ) +) )] |L k ∩(L c+u)∩{u+1,...,l}|<br />
.<br />
c ɛ A<br />
Weiterh<strong>in</strong> sei G w (p, q) := 0 falls p ɛ ∆ c oder q ɛ ∆ c .<br />
Bemerkung:<br />
Obige Def<strong>in</strong>ition stellt e<strong>in</strong>e Verallgeme<strong>in</strong>erung des <strong>in</strong> der Literatur gebräuchlichen<br />
Overlap Polynoms dar. Dieses wird zum Beispiel <strong>in</strong> Waterman [94, Abschnitt 12.1]<br />
als Potenzreihe def<strong>in</strong>iert. Mithilfe der für Erzeugende Funktionen üblichen Ableitungen<br />
werden dort beim Übergang zu nicht überlappenden Vorkommen des<br />
<strong>Muster</strong>s w Erwartungswert <strong>und</strong> Varianz berechnet. Diese Methode br<strong>in</strong>gt hier<br />
ke<strong>in</strong>e Vorteile, weshalb an dieser Stelle darauf verzichtet wird.<br />
Damit lassen sich die Resultate der nächsten beiden Abschnitte <strong>in</strong> folgendem Satz<br />
zusammenfassen:
54 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
Satz 4.2<br />
Seien obige Voraussetzungen erfüllt <strong>und</strong> sei außerdem die Folge (X i ) i ɛN ϕ-mischend<br />
mit ∑ ∞<br />
i=1 i√ ϕ(i) < ∞. Dann existiert e<strong>in</strong> stochastischer Prozess Z mit<br />
stetigen Pfaden <strong>und</strong> normalverteilten Randverteilungen, so dass gilt:<br />
Z n<br />
D<br />
−→ Z <strong>in</strong> D ξ .<br />
Für alle p, q ɛ ∆ existiert e<strong>in</strong>e Konstante C ϕ p,q ɛ R, so dass die Kovarianz für alle<br />
s, t ɛ [0, 1] gegeben ist durch:<br />
Kov ( Z (p,s) , Z (q,t)<br />
)<br />
= (s ∧ t)C<br />
ϕ<br />
p,q .<br />
Ist die Folge (X i ) i ɛN zusätzlich stochastisch unabhängig, so lässt sich die Konstante<br />
explizit angeben:<br />
C ϕ p,q = G w (p, q) + G w (q, p) + ∏ k ɛ A<br />
(<br />
(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k |<br />
.<br />
Beweis:<br />
Die Straffheit von (Z n ) n ɛN folgt aus Satz 4.8. Die Konvergenz der endlichdimensionalen<br />
Randverteilungen sowie die explizite Darstellung ergibt sich aus Satz 4.6.<br />
✷<br />
4.2 Endlichdimensionale Randverteilungen<br />
Zunächst werden die Kovarianzen für den Fall unabhängiger (X i ) i ɛN untersucht.<br />
Hierfür wird <strong>in</strong> der folgenden Proposition die Wahrsche<strong>in</strong>lichkeit berechnet, dass<br />
das Wort w <strong>in</strong> ˜X(p) <strong>und</strong> <strong>in</strong> ˜X(q) überlappend vorkommt:<br />
Proposition 4.3<br />
Seien p, q ɛ ∆ <strong>und</strong> der Shift u ɛ {0, . . . , l − 1} gegeben. Dann lässt sich für den Fall<br />
unabhängiger (X i ) i ɛN die Wahrsche<strong>in</strong>lichkeit, dass w um u Zeichen versetzt <strong>in</strong><br />
˜X(p) <strong>und</strong> <strong>in</strong> ˜X(q) vorkommt, schreiben als:<br />
(<br />
E ( I w (1; p)I w (u + 1; q) ) = ∏ k ɛ A<br />
(p k − p k−1 ) |L k∩{1,...,u}| · (q k − q k−1 ) |L k∩{l−u+1,...,l}|<br />
)<br />
(<br />
·∏<br />
(pk ∧q c − p k−1 ∨q c−1 ) +) |L k ∩(L c+u)∩{u+1,...,l}|<br />
.<br />
c ɛ A<br />
Insbesondere ist die Wahrsche<strong>in</strong>lichkeit, dass w <strong>in</strong> ˜X(p) <strong>und</strong> <strong>in</strong> ˜X(q) an derselben<br />
Position vorkommt:<br />
E ( I w (1; p)I w (1; q) ) = ∏ k ɛ A<br />
(<br />
(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k |<br />
.
4.2. Endlichdimensionale Randverteilungen 55<br />
Beweis:<br />
Wegen der Unabhängigkeit der (X i ) i ɛN gilt:<br />
E ( I w (1; p)I w (u + 1; q) ) ( u∏<br />
= E 1 (pwj −1,p wj ](X j )<br />
j=1<br />
=<br />
·<br />
l∏<br />
j=u+1<br />
u∏<br />
(p wj − p wj −1)<br />
j=1<br />
·<br />
l∏<br />
j=u+1<br />
∏l+u<br />
j=l+1<br />
1 (qwj−u −1,q wj−u ](X j )<br />
1 (pwj −1,p wj ]∩(q wj−u −1,q wj−u ](X j )<br />
l∏<br />
j=l−u+1<br />
(q wj − q wj −1)<br />
(p wj ∧ q wj−u − p wj −1 ∨ q wj−u −1) + .<br />
Die Darstellung der ersten beiden Produkte erhält man aus der Def<strong>in</strong>ition der<br />
(L k ) k ɛ A . Für das dritte Produkt folgt mit L c +u = {j ɛ {u+1, . . . , u+l}|w j−u = c}:<br />
l∏<br />
j=u+1<br />
(p wj ∧ q wj−u − p wj −1 ∨ q wj−u −1) + = ∏<br />
k,c ɛ A<br />
∏<br />
j ɛ {u+1,...,l}<br />
w j =k,w j−u =c<br />
)<br />
(p k ∧ q c − p k−1 ∨ q c−1 ) + .<br />
Daraus ergibt sich die erste Gleichung. Die zweite folgt hieraus unmittelbar mit<br />
u = 0.<br />
✷<br />
Damit lässt sich die Konvergenz der Kovarianzfolge des empirischen <strong>Muster</strong>prozesses<br />
für den unabhängigen Fall folgendermaßen formulieren:<br />
Lemma 4.4<br />
Seien die (X i ) i ɛN unabhängig, p, q ɛ ∆ <strong>und</strong> s, t ɛ [0, 1]. Dann konvergiert die Kovarianzfolge<br />
des empirischen <strong>Muster</strong>prozesses <strong>in</strong> Abhängigkeit von (p; s) beziehungsweise<br />
(q; t):<br />
Kov ( Z n (p; s), Z n (q; t) )<br />
(<br />
−→ n→∞<br />
(s ∧ t)<br />
G w (p, q) + G w (q, p) + ∏ k ɛ A<br />
(<br />
(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k |<br />
)<br />
.<br />
Beweis:<br />
Wegen der Symmetrie der Kovarianz kann ohne E<strong>in</strong>schränkung angenommen<br />
werden, dass s ≤ t gilt. Zur Abkürzung bezeichne K i,j := Kov ( I w (i; p), I w (j; q) ) .<br />
Da I w (i; p) <strong>und</strong> I w (j; q) für i, j ɛ N mit |i − j| ≥ l unabhängig s<strong>in</strong>d, erhält man
56 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
mit der Stationarität:<br />
Kov ( Z n (p; s), Z n (q; t) ) = 1 n<br />
⌊ns⌋<br />
∑<br />
i=1<br />
= ⌊ns⌋<br />
n<br />
⌊nt⌋∧i+l−1<br />
∑<br />
j=1∨i−l+1<br />
[<br />
K 1,1 +<br />
∑l−1<br />
u=1<br />
K i,j<br />
(<br />
K1,1+u + K 1+u,1<br />
) ] − R n<br />
n ,<br />
mit R n := ∑ ⌊ns⌋−⌊nt⌋+l−1<br />
j=1<br />
jK 1,⌊nt⌋−⌊ns⌋+j+1 + ∑ l−1<br />
j=1 jK j+1,1. Wegen |R n | ≤ (l − 1) 2<br />
<strong>und</strong> ⌊ns⌋<br />
n<br />
−→ n→∞<br />
s = s∧t folgt die Behauptung aus Proposition 4.3 <strong>und</strong> Def<strong>in</strong>ition 4.1.<br />
✷<br />
Folgendes Lemma ist e<strong>in</strong>e Verallgeme<strong>in</strong>erung von Lemma 4.4 auf ϕ-mischende<br />
Folgen. Erwartungsgemäß hängt der Grenzwert <strong>in</strong> diesem Fall von der Konvergenzgeschw<strong>in</strong>digkeit<br />
der Folge (ϕ(i)) i ɛN ab:<br />
Lemma 4.5<br />
Ist die Folge (X i ) i ɛN stationär <strong>und</strong> ϕ-mischend mit ∑ ∞<br />
i=1 i√ ϕ(i) < ∞, so existiert<br />
für alle p, q ɛ ∆ e<strong>in</strong>e Konstante Cp,q ϕ ɛ R, so dass für alle s, t ɛ [0, 1] gilt:<br />
Kov ( Z n (p; s), Z n (q; t) ) −→ n→∞<br />
C ϕ p,q(s ∧ t).<br />
Beweis:<br />
Ohne E<strong>in</strong>schränkung kann s ≤ t angenommen werden. Sei zur Abkürzung<br />
K i,j : = Kov ( I w (i; p), I w (j; q) ) . Aus Bill<strong>in</strong>gsley [17, Lemma 20.1] ergibt sich mit<br />
der Stationarität |K i,j | ≤ 2 √ ϕ(|i − j|) √ πp w πq w . Aus der Voraussetzung folgt<br />
die absolute Konvergenz ∑ m<br />
i=1 K i,1 m→∞<br />
−→ C 1 , ∑ m<br />
i=2 K 1,i m→∞<br />
−→ C 2 mit C 1 , C 2 ɛ R<br />
∑<br />
<strong>und</strong><br />
∞<br />
i=1 iK i,1 < ∞, ∑ ∞<br />
i=1 iK 1,i < ∞ <strong>und</strong> somit:<br />
Kov ( Z n (p; s), Z n (q; t) )<br />
= 1 n<br />
= 1 n<br />
∑ ∑<br />
⌊ns⌋ ⌊nt⌋<br />
K i,j<br />
i=1<br />
⌊ns⌋<br />
∑<br />
j=1<br />
i=1<br />
( i∑<br />
j=1<br />
K i−j+1,1 +<br />
⌊nt⌋<br />
∑<br />
j=i+1<br />
= 1 ⌊ns⌋<br />
∑<br />
(⌊ns⌋ − j + 1)K j,1 + 1 n<br />
n<br />
j=1<br />
−→ n→∞<br />
sC 1 + sC 2 .<br />
K 1,j−i+1<br />
)<br />
⌊nt⌋−1<br />
∑<br />
j=i+1<br />
Mit C ϕ p,q := C 1 + C 2 folgt die Behauptung.<br />
(<br />
⌊ns⌋ ∧ ⌊nt⌋ − j<br />
)<br />
K1,j+1<br />
(4.2.1)<br />
✷
4.2. Endlichdimensionale Randverteilungen 57<br />
Damit lassen sich nun die bei der Berechnung der endlichdimensionalen Randverteilungen<br />
auftretenden Kovarianzen explizit als Funktion des Overlap Polynoms<br />
darstellen.<br />
Satz 4.6<br />
Die endlichdimensionalen Randverteilungen von (Z n ) n ɛN s<strong>in</strong>d konvergent. Es<br />
existiert e<strong>in</strong> Prozess (Z (p,s) ) (p,s) ɛ ∆×[0,1] , so dass für alle Dimensionen d ɛ N, Schwellenwerte<br />
p 1 , . . . , p d ɛ ∆ <strong>und</strong> Zeitpunkte s 1 , . . . , s d ɛ [0, 1] gilt:<br />
⎛ ⎞ ⎛<br />
Z n (p 1 ; s 1 )<br />
⎜ ⎟<br />
⎝ . ⎠<br />
D ⎜<br />
−→ ⎝<br />
Z n (p d ; s d )<br />
Z (p 1 ,s 1 )<br />
.<br />
Z (p d ,s d )<br />
Dabei ist die Kovarianzmatrix von Z gegeben durch:<br />
⎞<br />
⎟<br />
⎠ .<br />
Kov ( Z (p i ,s i ), Z (p j ,s j ))<br />
= (s i ∧ s j )C ϕ p i ,p j für alle i, j ɛ {1, . . . , l}<br />
mit Konstanten C ϕ p i ,p j ɛ R. Ist die Folge (X i ) i ɛN unabhängig, so ist für die C ϕ p,p<br />
durch Lemma 4.4 e<strong>in</strong>e explizite Darstellung gegeben.<br />
Beweis:<br />
Bezeichne zur Abkürzung Z n := ( Z n (p 1 ; s 1 ), . . . , Z n (p d ; s d ) ) T<br />
die l<strong>in</strong>ke <strong>und</strong> Z :=<br />
( ) T<br />
Z(p 1 ,s 1 ), . . . , Z (p d ,s d ) die rechte Seite. Wie <strong>in</strong> Abschnitt 3.4 wird gezeigt, dass<br />
α T Z n<br />
D<br />
−→ α T Z für alle α ɛ R d . Es gilt:<br />
α T Z n = 1 √ n<br />
n∑<br />
i=1<br />
d∑<br />
α j 1 {1,...,⌊ns j ⌋}(i) ( )<br />
I w (i; p j ) − π w p j<br />
j=1<br />
} {{ }<br />
=:ξ i<br />
.<br />
Da (ξ i ) i ɛN im Allgeme<strong>in</strong>en nicht stationär ist, lassen sich die Standardergebnisse,<br />
wie etwa Theorem 20.1 von Bill<strong>in</strong>gsley [17], nicht direkt verwenden. Mit<br />
Lemma 4.5 für ϕ-mischende beziehungsweise Lemma 4.4 für unabhängige Folgen<br />
erhält man jedoch:<br />
σn 2 := Var(αT Z n )<br />
=<br />
d∑<br />
α j α r Kov ( Z n (p j ; s j ), Z n (p r ; s r ) )<br />
−→ n→∞<br />
j,r=1<br />
d∑<br />
α j α r (s j ∧ s r ) C ϕ p j ,p r<br />
j,r=1<br />
=: σ 2 0,
58 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
wobei die Konstanten C ϕ im Fall unabhängiger X<br />
p j ,p r<br />
i durch Lemma 4.4 explizit<br />
gegeben s<strong>in</strong>d. Ist σ0 2 = 0, so ist nichts zu zeigen. Sei also im Folgenden σ0 2 > 0<br />
<strong>und</strong> n 0 ɛ N so groß, dass σn 2 ≥ 1 2 σ2 0 für alle n ≥ n 0 . Mit a n,k := √ 1<br />
nσn<br />
gilt für alle<br />
n ≥ n 0 :<br />
1) ∑ n<br />
k=1 a2 n,k = 1<br />
σ 2 n<br />
ist beschränkt.<br />
2) Wegen σ n −→ n→∞<br />
σ 0 gilt: max 1≤k≤n |a n,k | = √ 1<br />
nσn<br />
−→ n→∞<br />
0.<br />
3) Die Folge (ξ i ) i ɛN ist gleichgradig <strong>in</strong>tegrierbar, da |ξ i | ≤ ∑ d<br />
j=1 |α j| für alle i ɛ N.<br />
4) Nach Def<strong>in</strong>ition ist Var ( ∑ n<br />
k=1 a )<br />
n,kξ k =<br />
1<br />
Var ( ∑<br />
1 n √n<br />
σn<br />
2 k=1 ξ k)<br />
= 1.<br />
Damit s<strong>in</strong>d die Voraussetzungen von Peligrad <strong>und</strong> Utev [65, Theorem 2.2] erfüllt.<br />
Es folgt die Konvergenz:<br />
1 1 √n<br />
σ n<br />
n∑<br />
ξ k =<br />
k=1<br />
n∑<br />
a n,k ξ k<br />
k=1<br />
D<br />
−→ N (0, 1).<br />
Wegen σ 2 n −→ n→∞<br />
σ 2 0 = α T Σα mit Σ := ( (s j ∧ s r )C ϕ p j ,p r )j,r=1,...,d ɛ Rd×d ergibt sich:<br />
α T Z n = 1 √ n<br />
n∑<br />
k=1<br />
ξ k<br />
D<br />
−→ N (0, σ 2 0) = α T N (0, Σ T Σ).<br />
Mit Theorem 7.7 aus Bill<strong>in</strong>gsley [17] folgt die Behauptung.<br />
✷<br />
4.3 Straffheit<br />
Folgende technische Proposition liefert e<strong>in</strong>e Summendarstellung für I w (i; p), die<br />
Ausgangspunkt für weitere Folgerungen ist.<br />
Proposition 4.7<br />
Ist p ɛ ∆, so ergibt sich für das Ereignis, dass das Wort w ab Position i <strong>in</strong> ˜X(p)<br />
vorkommt:<br />
∑<br />
)<br />
I w (i; p) = (−1) |D| 1 [0,u w<br />
D (p)]<br />
((X i , . . . , X i+l−1 ) T ,<br />
D ɛ P({1,...,l})<br />
wobei die stetige Abbildung u w D : ∆ → [0, 1]l gegeben ist durch:<br />
für alle k ɛ {1, . . . , l}.<br />
(<br />
u<br />
w<br />
D (p) ) k := {<br />
pwk , falls k ɛ {1, . . . , l} \ D<br />
p wk −1, falls k ɛ D,
4.3. Straffheit 59<br />
Beweis:<br />
l∏<br />
Wegen (y i − x i ) =<br />
i=1<br />
y 1 , . . . , y l ɛ R, ergibt sich:<br />
∑<br />
(−1) |D|<br />
D ɛ P({1,...,l})<br />
∏<br />
k ɛ D c y k ·<br />
∏<br />
k ɛ D<br />
x k für alle x 1 , . . . , x l ,<br />
I w (i; p) =<br />
=<br />
=<br />
=<br />
l∏<br />
j=1<br />
(<br />
)<br />
1 [0,pwj ](X i+j−1 ) − 1 [0,pwj −1](X i+j−1 )<br />
∑<br />
D ɛ P({1,...,l})<br />
∑<br />
D ɛ P({1,...,l})<br />
∑<br />
D ɛ P({1,...,l})<br />
(−1) |D| ∏<br />
1 [0,pwj ](X i+j−1 ) ∏<br />
j ɛ D c j ɛ D<br />
l∏<br />
(−1) |D| 1 [0,u w<br />
D (p) j ](X i+j−1 )<br />
j=1<br />
(−1) |D| 1 [0,u w<br />
D (p)]<br />
1 [0,pwj −1](X i+j−1 )<br />
((X i , . . . , X i+l−1 ) T )<br />
. ✷<br />
Damit kann der zentrierte empirische <strong>Muster</strong>prozess dargestellt werden als:<br />
Z n (p; s) =<br />
∑<br />
D ɛ P({1,...,l})<br />
V n( u; s ) = √ 1<br />
⌊ns⌋<br />
∑<br />
n<br />
i=1<br />
(<br />
(−1) |D| V n( u w D(p); s )<br />
mit<br />
( )<br />
Xi<br />
( ) )<br />
1 [0,u] . − P (X 1,...,X l ) T [0, u] .<br />
X i+l−1<br />
Ausgehend von dieser Darstellung lässt sich nun die Straffheit von (Z n ) n ɛN zeigen:<br />
Satz 4.8<br />
Sei die Folge X ϕ-mischend mit ∑ ∞<br />
n=1 n√ ϕ(n) < ∞. Dann ist der zentrierte<br />
empirische <strong>Muster</strong>prozess (Z n ) n ɛN straff.<br />
Beweis:<br />
Man betrachtet für alle i ɛ {1, . . . , l} <strong>und</strong> j ɛ {1, . . . , n} die Beobachtungen Y j<br />
i ,<br />
gegeben durch Y j<br />
i<br />
: = X i+j−1 , so dass folgendes Schema aus n l-dimensionalen<br />
Beobachtungsvektoren entsteht:<br />
( ) ( )<br />
X1<br />
Xn<br />
Y 1 = . , . . . , Y n = . .<br />
X l X n+l−1<br />
Sei D ⊂ {1, . . . , l} fest. Im Folgenden werden die Voraussetzungen H 1 bis H 4 aus<br />
Balacheff <strong>und</strong> Dupont [9] nachgeprüft, um Theorem 5 auf die Folge V n anwenden<br />
zu können.
60 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
H 1 : Die Randverteilungen der i-ten Komponente (1 ≤ i ≤ l) jedes Beobachtungsvektors<br />
(Y j<br />
i ) (j ɛ {1,...,n}) = (X i+j−1 ) (j ɛ {1,...,n}) s<strong>in</strong>d stetig nach Voraussetzung.<br />
H 2 : Seien p, q ɛ ∆ <strong>und</strong> s, t ɛ [0, 1] fest. Bezeichnet zur Abkürzung K p,q<br />
i,j : =<br />
Kov ( 1 [0,u w<br />
D (p)](Y i ), 1 [0,u w<br />
D (q)](Y j ) ) , so lässt sich die Folge der Kovarianzen<br />
(C n ) n ɛN schreiben als:<br />
C n (p, s; q, t) := Kov ( V n (u w D(p); s), V n (u w D(q); t) ) = 1 ⌊ns⌋ ⌊nt⌋<br />
∑ ∑<br />
K p,q<br />
i,j<br />
n<br />
.<br />
Da die Folge ( 1 [0,u w<br />
D (p)](X i , . . . , X i+l−1 ) T) i ɛN dieselben Mischungseigenschaften<br />
besitzt, wie die Folge ( I w (i; p) ) i ɛN , existiert analog zum Beweis von Lemma<br />
4.5 e<strong>in</strong>e Grenzfunktion C : (∆×[0, 1]) 2 → R, so dass C n −→ n→∞<br />
C punktweise<br />
konvergiert.<br />
H 3 : (Y j ) (j ɛ {1,...,n}) ist ϕ-mischend bezüglich ϕ ′ (k + l) : = ϕ(k), da (Y k , . . . , Y m )<br />
für<br />
∑<br />
alle 1 ≤ k ≤ m ≤ n e<strong>in</strong>e Funktion von X k , . . . , X m+l−1 ist. Es gilt:<br />
n ɛN n√ ϕ ′ (n) ≤ l + l ∑ √ ∑<br />
n ɛN ϕ(n) +<br />
n ɛN n√ ϕ(n) < ∞. Das entspricht<br />
Voraussetzung H 3 .<br />
ist die Verteilungsfunktion von Y q<br />
i be-<br />
= F Xi+q−1 unabhängig von i ɛ {1, . . . , l},<br />
H 4 : Wegen der Stationarität der X i<br />
ziehungsweise X i+q−1 F : = F Y<br />
q<br />
i<br />
i=1<br />
j=1<br />
q ɛ {1, . . . , n}. Mit den Bezeichnungen aus Balacheff <strong>und</strong> Dupont [9] ergibt<br />
sich daraus für das arithmetische Mittel der Verteilungsfunktionen der i-ten<br />
Komponente:<br />
¯F n,i = 1 n<br />
n∑<br />
F q n,i = 1 n<br />
q=1<br />
n∑<br />
q=1<br />
F Y<br />
q<br />
i<br />
= 1 n<br />
n∑<br />
F Xi+q−1 = F.<br />
Es folgt ¯F<br />
(<br />
n (x1 , . . . , x l ) T) := ( ¯F n,1 (x 1 ), . . . , ¯F n,l (x l )) T = (F (x 1 ), . . . , F (x l )) T<br />
( ) (<br />
<strong>und</strong> ϕ n (x<br />
q<br />
i )q=1,...,n i=1,...,l := ¯Fn (x 1 ), . . . , ¯F n (x n ) ) = ( F (x q i )) q=1,...,n<br />
. Def<strong>in</strong>iert man<br />
i=1,...,l<br />
das stetige Maß µ := P (F (X 1),...,F (X l )) T , so ergibt sich für die j–te Randverteilung<br />
von µ n := P ϕn(Y 1,...,Y n) , j ɛ {1, . . . , n}:<br />
µ j n(B) = P ( ¯Fn (Y j ) ɛ B )<br />
(( ) )<br />
F (Xj )<br />
= P . ɛ B<br />
F (X j+l−1 )<br />
q=1<br />
= µ(B) für alle Blöcke B ⊂ [0, 1] l .<br />
Insbesondere ist µ Majorante für jede Randverteilung µ j n, womit Voraussetzung<br />
H 4 erfüllt ist.<br />
Mit Balacheff <strong>und</strong> Dupont [9, Theorem 5] folgt die Straffheit von (V n ) n ɛN. Wegen<br />
der Stetigkeit von u w D : ∆ → [0, 1]l ergibt sich, dass auch (Z n ) n ɛN straff ist. ✷
4.4. Fehlerabschätzungen 61<br />
4.4 Fehlerabschätzungen<br />
In Anwendungen, <strong>in</strong> denen die Wahrsche<strong>in</strong>lichkeiten der e<strong>in</strong>zelnen Zeichen aus<br />
Beobachtungen geschätzt werden, kann die <strong>in</strong> Abschnitt 4.3 gezeigte Stetigkeit<br />
des Grenzprozesses Z dazu verwendet werden, aus e<strong>in</strong>er Konvergenz der Wahrsche<strong>in</strong>lichkeiten<br />
auf die Konvergenz des Prozesses zu schließen. Oft s<strong>in</strong>d <strong>in</strong> diesem<br />
Zusammenhang Fehlerabschätzungen von Interesse. Daher werden <strong>in</strong> diesem<br />
Abschnitt explizite Abschätzungen für den Fall unabhängiger (X i ) i ɛN <strong>und</strong> ohne<br />
Zeitparameter gezeigt. Des Weiteren seien die X i auf [0, 1] gleichverteilt, was<br />
ke<strong>in</strong>e E<strong>in</strong>schränkung ist, wie <strong>in</strong> der E<strong>in</strong>leitung zu Abschnitt 4.1 beschrieben.<br />
Betrachtet wird also <strong>in</strong> diesem Abschnitt:<br />
Z n (p) := 1 √ n<br />
n∑ ( )<br />
Iw (i; p) − πp<br />
w für alle p ɛ ∆.<br />
i=1<br />
Daher ist die folgende Abschätzung der Variation von Z n zwischen zwei Punkten<br />
e<strong>in</strong>e direkte Verallgeme<strong>in</strong>erung von Aki [1] beziehungsweise von Bill<strong>in</strong>gsley [17,<br />
Abschnitt 22] auf mehrere Veränderliche.<br />
Sei zur Abkürzung P := × ξ k=2 P(L k).<br />
Die nächste Proposition zeigt die Zerlegung der auftretenden Terme bezüglich der<br />
(L k ) k ɛ A , die das technische F<strong>und</strong>ament für handliche Formeln zur Berechnung<br />
von Momenten ist.<br />
Proposition 4.9<br />
Gilt 0 = p 0 ≤ p 1 ≤ · · · ≤ p ξ−1 ≤ 1, so ergibt sich für das Ereignis I w (i; p), dass<br />
das Wort w ab Position i <strong>in</strong> ˜X(p) vorkommt:<br />
I w (i; p) =<br />
I w (i; p) − π w p =<br />
∑<br />
(D 2 ,...,D ξ ) ɛ P<br />
∑<br />
(D 2 ,...,D ξ ) ɛ P<br />
(−1)<br />
(−1)<br />
ξP<br />
j=2<br />
|D j |<br />
Π(i; D2 , . . . , D ξ ; p),<br />
ξP<br />
|D j |(<br />
j=2<br />
Π(i; D 2 , . . . , D ξ ; p) − λ D 2,...,D ξ<br />
p<br />
wobei die Komplementbildung von D k bezüglich L k zu verstehen ist, das heißt<br />
Dk c = L k \ D k . Des Weiteren seien Π : {1, . . . , n} × P × ∆ → {0, 1} <strong>und</strong> λ D p ɛ R<br />
def<strong>in</strong>iert als:<br />
( )<br />
)<br />
ξ−1<br />
∏ ∏<br />
ξ−1<br />
∏<br />
Π(i; D; p) :=<br />
=<br />
(1 [0,pk ] |Dc k ∪D |(X k+1 Dk c ∪D ) ,<br />
k+1<br />
mit D 1 = ∅.<br />
k=1<br />
j ɛ D c k ∪D k+1<br />
1 {Xi+j−1 ≤p k }<br />
ξ−1<br />
λ D p := E Π(i; D ∏<br />
2, . . . , D ξ ; p) =<br />
k=1<br />
k=1<br />
p |Dc k ∪D k+1|<br />
k<br />
)<br />
,
62 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
Der Nutzen dieser Darstellung liegt dar<strong>in</strong>, dass die Faktoren <strong>in</strong> Π stochastisch<br />
unabhängig <strong>und</strong> nach Schwellen p 1 , . . . , p ξ−1 geordnet s<strong>in</strong>d.<br />
Beweis:<br />
Wegen ∏ (y j −x j ) = ∑ ∏<br />
(−1) |D| y j · ∏ x j für alle endlichen Indexmengen<br />
j ɛ M<br />
D ɛ P(M) j ɛ D c j ɛ D<br />
M <strong>und</strong> x k , y k ɛ R, k ɛ M ergibt sich mit p ξ = 1 aus der Def<strong>in</strong>ition von L k :<br />
I w (i; p) = ∏ ∏ ( )<br />
1{Xi+j−1 ≤p k } − 1 {Xi+j−1} ≤p k−1<br />
k ɛ A j ɛ L k<br />
= ∏ ∑ ∏<br />
(−1) |D k|<br />
1 {Xi+j−1 ≤p k } · ∏<br />
1 {Xi+j−1 ≤p k−1 }<br />
k ɛ A D k ɛ P(L k )<br />
j ɛ Dk<br />
c j ɛ D k<br />
} {{ }<br />
=:Z(p,k,D k )<br />
= ∑ ∑<br />
· · ·<br />
Z(p, k, D k )<br />
D 1 ɛ P(L 1 )<br />
= ∑<br />
D 2 ɛ P(L 2 )<br />
.<br />
D ξ ɛ P(L ξ )<br />
(−1)<br />
D ξ ɛ P(L ξ )(−1) |D 1|+···+|D ξ | ∏ k ɛ A<br />
ξP<br />
k=2<br />
|D k |( ∏<br />
j ɛ L 1 ∪D 2<br />
1 {Xi+j−1 ≤p 1 }<br />
·<br />
∏<br />
1 {Xi+j−1 ≤p 2 } · · ·<br />
∏<br />
1 {Xi+j−1 ≤p ξ−1 }<br />
)<br />
,<br />
j ɛ D c 2 ∪D 3<br />
j ɛ D c ξ−1 ∪D ξ<br />
wobei die letzte Gleichung aus Z(p, 1, D 1 ) = 0 für alle D 1 ≠ ∅ <strong>und</strong><br />
Z(p, k, D k )Z(p, k+1, D k+1 )<br />
= ∏<br />
∏<br />
j ɛ D k<br />
1 {Xi+j−1 ≤p k−1 }<br />
j ɛ D c k ∪D k+1<br />
1 {Xi+j−1 ≤p k }<br />
∏<br />
j ɛ D c k+1<br />
1 {Xi+j−1 ≤p k }<br />
folgt. Damit ergibt sich die erste Gleichung von Proposition 4.9. Die zweite folgt<br />
analog mit der Unabhängigkeit der (X i ), da die D k ⊂ L k für k = 1, . . . , ξ disjunkt<br />
s<strong>in</strong>d.<br />
✷<br />
Seien p, q ɛ ∆ so dass p ≤ q komponentenweise. Es bezeichne ‖ · ‖ die Maximumsnorm<br />
auf ∆, das heißt ‖q − p‖ := max 1≤k≤ξ−1 |q k − p k |.<br />
Proposition 4.10<br />
Sei D ɛ P. Dann lässt sich die Varianz der Variation von Π folgendermaßen<br />
abschätzen:<br />
Var ( Π(1; D; q) − Π(1; D; p) ) ≤ (2 l − 1)‖q − p‖.
4.4. Fehlerabschätzungen 63<br />
Beweis:<br />
Aus p ≤ q ergibt sich Π(1; D; p)Π(1; D; q) = Π(1; D; p) <strong>und</strong> somit:<br />
Var ( Π(1; D; q) − Π(1; D; p) )<br />
= E ( Π(1; D; q) − Π(1; D; p) ) 2<br />
−<br />
[<br />
E<br />
(<br />
Π(1; D; q) − Π(1; D; p)<br />
)] 2<br />
= E ( Π(1; D; q) 2) − E ( Π(1; D; p) 2) − [ λ D q − λ D p<br />
= λ D q − λ D p − (λ D q − λ D p ) 2 .<br />
Da λ D p monoton wachsend <strong>in</strong> p ist, folgt mit b := ‖q − p‖ <strong>und</strong> d k := |Dk c ∪ D k+1|<br />
wegen b ≤ 1 <strong>und</strong> ∑ ξ−1<br />
k=1 d k ≤ l:<br />
] 2<br />
Var ( Π(1; D; q) − Π(1; D; p) ) ≤ λ D p+b − λ D p<br />
(<br />
ξ−1<br />
∏ ∑ dk<br />
=<br />
=<br />
k=1<br />
∑<br />
m=1<br />
m 1 ,...,m ξ−1<br />
0≤m k ≤d k<br />
m 1 +...+m ξ−1 ≠0<br />
≤ (2 l − 1)b.<br />
(<br />
dk<br />
)<br />
m<br />
( ∏ξ−1<br />
k=1<br />
b m p d k−m<br />
k<br />
(<br />
dk<br />
)<br />
ξ−1<br />
∏<br />
−<br />
k=1<br />
) )<br />
p d k−m k<br />
k<br />
m k<br />
p d k<br />
k<br />
b P ξ−1<br />
k=1 m k<br />
✷<br />
Bemerkung:<br />
Im letzten Beweisschritt wird offensichtlich, dass man mit dieser Methode die<br />
Abschätzung<br />
Var ( Π(1; D; q) − Π(1; D; p) ) ≤ l‖q − p‖ + (2 l − l)‖q − p‖ 2<br />
zeigen kann. Da sich mit dieser Ungleichung jedoch nur die Konstante, nicht aber<br />
die Ordnung von ‖q − p‖ ändert, soll an dieser Stelle darauf verzichtet werden,<br />
um die weiteren Beweise nicht unübersichtlicher zu machen.<br />
Lemma 4.11<br />
Mit C 1 := 2 2 P ξ<br />
k=2 |L k| (2 l − 1) lässt sich die Varianz der Differenz des Vorkommens<br />
von w <strong>in</strong> ˜X(p) <strong>und</strong> ˜X(q) abschätzen:<br />
Var ( I w (1; q) − I w (1; p) ) ≤ C 1 ‖q − p‖.<br />
Beweis:<br />
Nach Proposition 4.9, der Cauchy–Schwarzschen Ungleichung für Summen reeller
64 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
Zahlen <strong>und</strong> Proposition 4.10 gilt:<br />
Var ( I w (1; q) − I w (1; p) )<br />
( ∑<br />
= E (−1)<br />
≤<br />
ξ∏<br />
D ɛ P<br />
k=2<br />
2 |L k| ∑ D ɛ P<br />
ξP<br />
j=2<br />
|D j |(<br />
Π(1; D; q) − λ<br />
D<br />
q − Π(1; D; p) + λ D p<br />
E ( Π(1; D; q) − λ D q<br />
≤ 2 2 P ξ<br />
k=2 |L k| (2 l − 1)‖q − p‖.<br />
Nach Def<strong>in</strong>ition von C 1 ist das die Behauptung.<br />
− Π(1; D; p) + λ D p<br />
) 2<br />
) ) 2<br />
✷<br />
Damit lässt sich nun die Differenz zweier Funktionswerte durch den Abstand der<br />
betrachteten Punkte abschätzen. Dabei wird zunächst noch vorausgesetzt, dass<br />
der Abstand der Punkte nicht zu kle<strong>in</strong> wird. Auf diese Bed<strong>in</strong>gung wird später <strong>in</strong><br />
Satz 4.14 e<strong>in</strong>gegangen.<br />
Lemma 4.12<br />
Seien n ɛ N <strong>und</strong> q, p ɛ ∆ so, dass ‖q − p‖ ≥ 1 . Dann gilt:<br />
n<br />
E ( Z n (q) − Z n (p) ) 4<br />
≤ C(l)(C1 + 1)C 1 ‖q − p‖ 2 ,<br />
wobei C : N → N def<strong>in</strong>iert ist als C(l) := 8 l 2 (l + 1) 2 (2l + 1) 2 <strong>und</strong> somit nur von<br />
der Wortlänge l abhängt. Insbesondere gilt für γ > 0:<br />
P (∣ ∣ Zn (q) − Z n (p) ∣ ∣ ≥ γ<br />
)<br />
≤<br />
C(l)(C 1 + 1)C 1<br />
γ 4 ‖q − p‖ 2 .<br />
Beweis:<br />
Die Folge ξ i := I w (i; q) − πq w − I w (i; p) + πp w ist (l-1)-abhängig, <strong>in</strong>sbesondere ϕ-<br />
mischend, mit ∑ ∞<br />
k=0 (k + 1)2 ϕ(k) 1 2 ≤ ∑ l<br />
k=1 k2 = 1 l(l + 1)(2l + 1). Mit Bill<strong>in</strong>gsley<br />
6<br />
[17, Lemma 22.1] <strong>und</strong> Lemma 4.11 ergibt sich:<br />
E ( Z n (q) − Z n (p) ) ( )<br />
4 1 ( n∑ ) 4<br />
=<br />
n E ξ 2 i<br />
i=1<br />
( (<br />
≤ 288 E(ξ<br />
2<br />
1 ) ) 2 1<br />
) ( ∑ ∞<br />
+<br />
n E(ξ2 1) (k + 1) 2 ϕ(k) 1 2<br />
k=0<br />
≤ 8 l 2 (l + 1) 2 (2l + 1) 2 (<br />
C 2 1‖q − p‖ 2 + C 1<br />
n ‖q − p‖ )<br />
≤ 8 l 2 (l + 1) 2 (2l + 1) 2 (C 1 + 1)C 1 ‖q − p‖ 2 ,<br />
) 2<br />
wobei die letzte Ungleichung aus der Voraussetzung 1 n<br />
≤ ‖q − p‖ folgt. ✷
4.4. Fehlerabschätzungen 65<br />
Im folgenden Lemma wird die Variation auf e<strong>in</strong>em Würfel abgeschätzt.<br />
Lemma 4.13<br />
Seien q ɛ ∆, γ > 0 <strong>und</strong> b ɛ R, n ɛ N so, dass B : = [q, q + b] ⊂ [0, 1] ξ−1 . Ist<br />
b ɛ [ 1<br />
, γ<br />
n<br />
)<br />
√<br />
2C 1 n , so gilt:<br />
(<br />
P<br />
sup<br />
p ɛ B<br />
∣ Zn (p) − Z n (q) ∣ ) ≥ γ ≤ C 2<br />
γ 4 b2<br />
mit C 2 := 128 · 2 4 P ξ<br />
k=2 |L k| l 2 (l + 1) 2 (2l + 1) 2 2 l (2 l − 1).<br />
Beweis:<br />
Zunächst wird die Variation zweier beliebiger Punkte <strong>in</strong> e<strong>in</strong>em Würfel durch die<br />
Variation der Endpunkte abgeschätzt. Man erhält mit Proposition 4.9 für alle<br />
p ɛ B:<br />
|Z n (p) − Z n (q)| = √ 1 ∣ ∣∣<br />
n∑ ( ) ∣<br />
Iw (i, p) − π w<br />
n<br />
p − I w (i, q) − πq<br />
w ∣<br />
Da Π(i; D; p) <strong>und</strong> λ D p<br />
die Summanden:<br />
i=1<br />
≤ √ 1 ∑<br />
∣ n<br />
D ɛ P<br />
n∑ ( ) ∣<br />
Π(i; D; p) − λ<br />
D<br />
p − Π(i; D; q) + λ D q ∣.<br />
i=1<br />
n∑<br />
∑<br />
• Π(i; D; p) ≤ n Π(i; D; q + b).<br />
i=1<br />
• − n ∑<br />
λ D p<br />
i=1<br />
<strong>in</strong> p monoton wachsend s<strong>in</strong>d, folgt aus q ≤ p ≤ q + b für<br />
i=1<br />
∑<br />
≤ n ( ∑<br />
λ<br />
D<br />
q+b − λ D q − λq+b) D ≤ n (2 l − 1)b − n λ D q+b ,<br />
i=1<br />
wie im Beweis zu Proposition 4.10.<br />
∑<br />
• − n ( )<br />
Π(i; D; p) − λ<br />
D<br />
p − Π(i; D; q) + λ D q<br />
i=1<br />
∑<br />
≤ n ( ) n∑ ( )<br />
Π(i; D; q) − Π(i; D; p) + λ<br />
D<br />
q+b − λ D q<br />
i=1<br />
≤ n (2 l − 1)b.<br />
Mit V i := Π(i; D; q + b) − λ D q+b − Π(i; D; q) + λD q ergibt sich daraus:<br />
( )<br />
sup |Z n (p) − Z n (q)| ≤ 1 ∑ ∣∣∣ n∑ ∣ ∣∣<br />
√ V i + n(2 l − 1)b<br />
p ɛ B<br />
n<br />
D ɛ P i=1<br />
= √ 1 ∑<br />
n∑ ∣ ∣∣ √ P ξ<br />
∣ V i + n 2 k=2 |Lk| (2 l − 1)b.<br />
n<br />
D ɛ P<br />
i=1<br />
i=1<br />
i=1
66 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
Da die Folge (V i ) i ɛN (l-1)-abhängig <strong>und</strong> somit auch ϕ-mischend ist, erhält man<br />
analog zum Beweis von Lemma 4.12 mit Lemma 22.1 aus Bill<strong>in</strong>gsley [17] <strong>und</strong><br />
Proposition 4.10:<br />
E<br />
( ∣∣∣ n∑<br />
i=1<br />
)<br />
∣ ∣∣<br />
4<br />
V i ≤ 8 l 2 (l + 1) 2 (2l + 1) [ 2 n 2( E(V1 2 ) ) 2<br />
+ n E(V<br />
2<br />
1 ) ]<br />
≤ C(l) [ n 2 (2 l − 1) 2 b 2 + n(2 l − 1) b ]<br />
≤ C(l) n 2 2 l (2 l − 1) b 2 ,<br />
wobei die letzte<br />
√<br />
Ungleichung aus der Voraussetzung 1 ≤ b folgt. Mit der Voraussetzung<br />
C 1 n b <<br />
n<br />
γ<br />
ergibt sich:<br />
2<br />
(<br />
P sup ∣ Zn (p) − Z n (q) ∣ )<br />
≥ γ<br />
p ɛ B<br />
( ( ) )<br />
1 ∑ ∣∣∣ n∑ ∣ ∣∣<br />
≤ P √ V i ≥ γ n 2<br />
D ɛ P i=1<br />
( )<br />
≤ 24 |P| 4 ∣∣∣ n∑ ∣ ∣∣<br />
γ 4 n E 4<br />
V 2<br />
i<br />
i=1<br />
≤ 16 · 24 P ξ<br />
k=2 |L k| C(l) 2 l (2 l − 1)<br />
γ 4 b 2 .<br />
(<br />
+ P<br />
C 1<br />
√ n b ≥<br />
γ<br />
2<br />
)<br />
Nach Def<strong>in</strong>ition von C 2 ist das die Behauptung.<br />
✷<br />
Damit lässt sich die Variation von Z n auf e<strong>in</strong>em beliebigen Würfel durch die<br />
Kantenlänge des Würfels abschätzen.<br />
Satz 4.14<br />
Seien q ɛ ∆ <strong>und</strong> ε, c > 0 so, dass [q, q + c] ⊂ [0, 1] ξ−1 . Ferner sei n ɛ N h<strong>in</strong>reichend<br />
groß, so dass der Schnitt ( 4c<br />
C 1 ε√ n, cn<br />
)<br />
∩ N nicht leer ist. Dann gilt:<br />
P<br />
(<br />
sup<br />
p ɛ [q,q+c]<br />
mit C 3 := 16 ( C 2 + C(l)(C 1 + 1)C 1<br />
)<br />
.<br />
∣ Zn (p) − Z n (q) ∣ ∣ ≥ ε<br />
)<br />
≤ C 3<br />
ε 4 ⌈<br />
4 √ ⌉ ξ−1<br />
nc<br />
c 2<br />
C 1 ε<br />
Diese obere Schranke ist zwar für Konvergenzaussagen unbrauchbar, da sie<br />
bezüglich n von der Größenordnung n ξ−1<br />
2 ist, sie ist jedoch für Fehlerabschätzungen<br />
von Vorteil, da sie bezüglich der Kantenlänge von der Ordnung c ξ+1 ist.
4.4. Fehlerabschätzungen 67<br />
Beweis:<br />
Mit m : = ⌈ 4√ nc<br />
⌉ ɛ C 1 ε N <strong>und</strong> b : = c ɛ [ 1<br />
, C 1ε<br />
m n 4 n) √ folgt aus Lemma 4.13 <strong>und</strong> Lemma<br />
4.12:<br />
(<br />
)<br />
∣<br />
P sup ∣Z n (p) − Z n (q) ∣ ≥ ε<br />
≤<br />
p ɛ [q,q+mb]<br />
[ (<br />
∑<br />
P<br />
r ɛ {0,...,m−1} ξ−1<br />
+ P<br />
sup<br />
p ɛ [q+br,q+b(r+1)]<br />
∣<br />
∣<br />
∣Z n (p) − Z n (q + br)<br />
( ∣∣Zn<br />
(q + br) − Z n (q) ∣ ε<br />
) ]<br />
≥<br />
2<br />
≤ m ξ−1 [<br />
2 4 C 2<br />
ε 4 b 2 + 24 C(l)(C 1 + 1)C 1<br />
ε 4 (<br />
(m − 1)b<br />
) 2<br />
]<br />
≤ 16( )<br />
C 2 + C(l)(C 1 + 1)C 1<br />
m ξ−1 (mb) 2 .<br />
ε 4<br />
Mit der Def<strong>in</strong>ition von b, c <strong>und</strong> C 3 folgt die Behauptung.<br />
∣ ≥ ε 2<br />
)<br />
✷<br />
Bemerkung:<br />
Im Vorangegangenen wurde die Variation von Z n auf e<strong>in</strong>em Würfel durch die<br />
Kantenlänge des Würfels abgeschätzt. Durch analoge Vorgehensweise lässt sich<br />
auch der Zuwachs von Z n auf e<strong>in</strong>em Quader R : = (p, q] ⊂ [0, 1] ξ−1 , wie etwa<br />
von Bickel <strong>und</strong> Wichura <strong>in</strong> [16] def<strong>in</strong>iert, durch das Lebesgue-Maß des Würfels<br />
abschätzen:<br />
1) Für den Quader R ⊂ [0, 1] ξ−1 mit den Eckpunkten {(p k +ε k (q k −p k )) k=1,...,ξ−1 |<br />
ε 1 , . . . , ε ξ−1 ɛ {0, 1}} <strong>und</strong> e<strong>in</strong>e Funktion g : [0, 1] ξ−1 → R ist der Zuwachs von<br />
g über dem Quader R def<strong>in</strong>iert als:<br />
g(R) :=<br />
1∑<br />
ε 1 ,...,ε ξ−1 =0<br />
(−1) ξ−P ξ−1<br />
i=1 ε i<br />
g ( p 1 +ε 1 (q 1 −p 1 ), . . . , p ξ−1 +ε ξ−1 (q ξ−1 −p ξ−1 ) ) .<br />
2) Durch Anwendung des Distributivgesetzes folgt für die <strong>in</strong> Proposition 4.9 def<strong>in</strong>ierte<br />
Funktion Π:<br />
(<br />
ξ−1<br />
∏ ∏<br />
Π(i; D 2 , . . . , D ξ ; R) =<br />
1 {Xi+j−1 ≤q k } − ∏<br />
)<br />
.<br />
k=1<br />
j ɛ D c k ∪D k+1<br />
j ɛ D c k ∪D k+1<br />
1 {Xi+j−1 ≤p k }<br />
3) Mit der Ungleichung von Cauchy–Schwarz ergibt sich analog zu Lemma 4.11:<br />
Var ( I w (1; R) ) ≤ C ′ 1λ \ (R),<br />
wobei C ′ 1 := 2P ξ<br />
k=2 |L k| max k ɛ {1,...,ξ−1}<br />
∣<br />
∣Lk+1 ∪ L k<br />
∣ ∣.
68 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />
4) Diese Abschätzung lässt sich auf Z n übertragen, wobei wie <strong>in</strong> Lemma 4.12<br />
gefordert wird, dass das Volumen des Quaders nicht zu kle<strong>in</strong> ist: Sei n ɛ N <strong>und</strong><br />
der Quader R ⊂ ∆ so groß, dass λ \ (R) ≥ 1 ist. Dann gilt:<br />
n<br />
E ( Z n (R) 4) ≤ C ′ 2λ \ (R) 2 ,<br />
mit C ′ 2 := C(l) C′ 1(C ′ 1 + 1) <strong>und</strong> C(l) := 8 l 2 (l + 1) 2 (2l + 1) 2 wie <strong>in</strong> Lemma 4.12.<br />
Somit lassen sich die <strong>in</strong> diesem Abschnitt für Z n (p) − Z n (q) gezeigten Ergebnisse<br />
auf Z n (Q) übertragen. Da die Argumentation hier analog obiger Abschätzungen<br />
erfolgt, wird an dieser Stelle auf e<strong>in</strong>e genauere Ausführung verzichtet.
69<br />
Kapitel 5<br />
Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“<br />
Modell<br />
Gegenstand dieses Kapitels ist e<strong>in</strong> funktionaler Zentraler Grenzwertsatz für die<br />
Häufigkeit des Auftretens mehrerer <strong>Muster</strong> <strong>in</strong> e<strong>in</strong>em zufälligen Text. Unter allgeme<strong>in</strong>en<br />
Voraussetzungen wird die Konvergenz des im Folgenden def<strong>in</strong>ierten<br />
mehrdimensionalen <strong>Muster</strong>prozesses Z n gegen e<strong>in</strong>e Brownsche Bewegung gezeigt.<br />
Seit Erdös <strong>und</strong> Rényi 1970 im Artikel [41] sogenannte Long Head Runs“, das<br />
”<br />
heißt das Auftreten von außergewöhnlich vielen aufe<strong>in</strong>ander folgenden 1“en <strong>in</strong> ”<br />
e<strong>in</strong>er Folge von unabhängigen Bernoulli-verteilten Zufallsvariablen, untersucht<br />
haben, wurde die <strong>Muster</strong>suche <strong>in</strong> zwei Richtungen verallgeme<strong>in</strong>ert:<br />
Zum e<strong>in</strong>en werden allgeme<strong>in</strong>ere <strong>Muster</strong> als Head Runs“ betrachtet, von sogenannten<br />
Hidden Patterns“ <strong>in</strong> Flajolet, Guivarc’h, Szpankowski <strong>und</strong> Vallée [42],<br />
”<br />
”<br />
wo das gesuchte <strong>Muster</strong> nicht an aufe<strong>in</strong>ander folgenden Positionen vorkommen<br />
muss, bis h<strong>in</strong> zu Regulären Ausdrücken“, wie sie <strong>in</strong> der theoretischen Informatik<br />
”<br />
zur Beschreibung formaler Sprachen verwendet werden (vergleiche Schön<strong>in</strong>g [82,<br />
Abschnitt 1.2.3]), die beispielsweise von Nicodème, Salvy <strong>und</strong> Flajolet <strong>in</strong> [62] als<br />
” Motif“ oder von Regnier <strong>in</strong> [71] als Language“ bezeichnet werden.<br />
”<br />
Zum anderen werden komplexe Abhängigkeitsstrukturen im zeichenerzeugenden<br />
Modell behandelt. Hierbei handelt es sich unter anderem um Markov-Ketten <strong>in</strong><br />
Régnier <strong>und</strong> Szpankowski [73], Rob<strong>in</strong> <strong>und</strong> Daud<strong>in</strong> [77], Kleffe <strong>und</strong> Borodovsky<br />
[55] oder Stefanov [88], um Hidden Markov“ Modelle oder um Dynamische<br />
” ”<br />
Quellen“. Für Literatur zu den letzten beiden Modellen sei auf Abschnitt 5.3 verwiesen,<br />
da diese dort ausführlicher behandelt <strong>und</strong> <strong>in</strong> e<strong>in</strong>en geme<strong>in</strong>samen Kontext<br />
e<strong>in</strong>geordnet werden.<br />
Hier soll die zeichenerzeugende Quelle weiter verallgeme<strong>in</strong>ert werden. In e<strong>in</strong>er<br />
von e<strong>in</strong>em verborgenen“ stochastischen Prozess erzeugten Zeichenkette sollen<br />
”<br />
<strong>Muster</strong> gesucht werden. Da dieser als ϕ- beziehungsweise ψ-mischende Folge vorausgesetzt<br />
wird, soll das Modell hier als Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell bezeich-<br />
”
70 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
net werden. Der nicht sichtbare Prozess erzeugt die Beobachtungen mittels e<strong>in</strong>es<br />
Übergangskerns. Dieser Übergang zur sichtbaren Zeichenkette wird als ”<br />
Emission“<br />
bezeichnet.<br />
5.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />
Sei X := (X i ) i ɛN e<strong>in</strong>e ϕ- oder ψ-mischende, nicht notwendig stationäre Folge von<br />
Zufallsvariablen mit Zustandsraum X , wobei X e<strong>in</strong> separabler metrischer Raum,<br />
versehen mit der Borelschen σ-Algebra B, sei.<br />
Die emittierten Beobachtungen Y := (Y i ) i ɛN s<strong>in</strong>d e<strong>in</strong>e Folge von Zufallsvariablen<br />
mit Werten im endlichen Alphabet A = {1, . . . , ξ}, so dass Y i für alle i ɛ N nur<br />
von X i <strong>und</strong> der Randomisierung abhängt. Formal bedeutet diese Bed<strong>in</strong>gung, die<br />
<strong>in</strong> der Def<strong>in</strong>ition des Hidden Markov Modells zentral ist:<br />
a) Die Y i gegeben (X i ) i ɛN s<strong>in</strong>d bed<strong>in</strong>gt unabhängig, das heißt, dass für alle endlichen<br />
Indexmengen K ⊂ N, k : = max K, alle x ɛ X k <strong>und</strong> alle messbaren<br />
Mengen (A i ) i ɛ K ⊂ A |K| gilt:<br />
( )<br />
⋂<br />
∣<br />
P {Y i ɛ A i } ∣(X i ) i ɛ {1,...,k} = x = ∏ P ( {Y i ɛ A i } ∣ ∣(X i ) i ɛ {1,...,k} = x ) .<br />
i ɛ M<br />
i ɛ K<br />
b) Für alle i, j ɛ N, i ≠ j ist Y i gegeben X i unabhängig von X j , das bedeutet für<br />
alle messbaren Mengen A ⊂ A, B, C ɛ B gilt:<br />
P (Y i ɛ A|X i ɛ B, X j ɛ C) = P (Y i ɛ A|X i ɛ B).<br />
Weiterh<strong>in</strong> sei die bed<strong>in</strong>gte Verteilung von Y i gegeben X i stationär, so dass die<br />
Emissionswahrsche<strong>in</strong>lichkeiten<br />
λ a,u := P (Y i = a|X i = u), für alle a ɛ A, u ɛ X ,<br />
unabhängig von i ɛ N s<strong>in</strong>d. Statt des durch Λ : X × P(A) → R + , Λ(u, A) : =<br />
∑<br />
a ɛ A λ a,u def<strong>in</strong>ierten Übergangskerns von (X , B) nach (A, P(A)) wird <strong>in</strong> der<br />
Def<strong>in</strong>ition des Hidden Markov Modells <strong>in</strong> der Literatur manchmal e<strong>in</strong>e determ<strong>in</strong>istische<br />
Abbildung verwendet. Auf diese zum Beispiel von Cover <strong>und</strong> Thomas<br />
<strong>in</strong> [28, Abschnitt 4.4] <strong>und</strong> von Szpankowski <strong>in</strong> [90, Abschnitt 2.1] angegebene Variante<br />
wird hier jedoch nicht weiter e<strong>in</strong>gegangen, da sich beide Varianten durch<br />
entsprechende Wahl des Zustandsraumes beziehungsweise des Übergangskerns<br />
<strong>in</strong>e<strong>in</strong>ander überführen lassen.
5.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 71<br />
Bemerkungen:<br />
a) Mit der Glättungsregel ergibt sich aus der bed<strong>in</strong>gten Unabhängigkeit für die<br />
Wahrsche<strong>in</strong>lichkeit, dass v ɛ A k ab Position i <strong>in</strong> Y vorkommt:<br />
E(I v (i)) = P (Y i . . . , Y i+k−1 = v)<br />
∫<br />
= P (Y i · · · Y i+k−1 =v|X i · · · X i+k−1 =u) dP (X i,...,X i+k−1 ) (u)<br />
X k<br />
∫<br />
=<br />
X k<br />
k∏<br />
r=1<br />
λ vr,u r<br />
dP (X i···X i+k−1 ) (u).<br />
b) Für die Wahrsche<strong>in</strong>lichkeit, dass v ɛ A k ab Position i <strong>und</strong> w ɛ A l ohne Überlappung,<br />
das heißt ab Position j ≥ i + k oder j ≤ i − l <strong>in</strong> Y vorkommt, gilt<br />
analog:<br />
E ( I v (i)I w (j) ) = P (Y i . . . , Y i+k−1 = v, Y j . . . , Y j+l−1 = w)<br />
∫ k∏ l∏<br />
=<br />
dP (X i...X i+k−1 ,X j ...X j+l−1 ) (t, u).<br />
X k ×X l<br />
r=1<br />
λ vr,t r<br />
r=1<br />
λ wr,u r<br />
In folgendem Lemma wird gezeigt, dass sich die Mischungseigenschaften von X<br />
im Wesentlichen auf Y übertragen. Dies ist e<strong>in</strong> elementarer Vorteil gegenüber<br />
dem Hidden Markov Modell, bei dem die emittierte Zeichenfolge im Allgeme<strong>in</strong>en<br />
ke<strong>in</strong>e Markov-Kette ist.<br />
Lemma 5.1<br />
Sei X ϕ- beziehungsweise ψ-mischend <strong>und</strong> Y die emittierte Zeichenfolge, wie<br />
oben def<strong>in</strong>iert. Dann ist auch Y ϕ- beziehungsweise ψ-mischend bezüglich der<br />
Funktion ˜ϕ = m<strong>in</strong>{1, 2ϕ} beziehungsweise ˜ψ = m<strong>in</strong>{1, 2ψ}.<br />
Beweis:<br />
Um die Mischungseigenschaft nachzuweisen, reicht es aus, beliebige endliche Indexmengen<br />
zu betrachten. Seien also i, s, K ɛ N mit K > i+s gegeben. Bezeichne<br />
zur Abkürzung I : = {1, . . . , i}, J : = {i + s, . . . , K} <strong>und</strong> M : = I ∪ J. Ist X ϕ- )<br />
mischend, so erhält man mittels algebraischer Induktion für alle f ɛ L+( 1 P<br />
X I<br />
( ) ,<br />
g ɛ L ∞ + P<br />
X J :<br />
∫<br />
∣ fg d ( )∣ ∫<br />
P X M<br />
− P X I<br />
⊗ P X J ∣∣ ≤ 2ϕ(s) ‖g‖L ∞ ∣ f dP X I∣<br />
∣. (5.1.1)<br />
Diese Folgerung aus der Hölderschen Ungleichung f<strong>in</strong>det man beispielsweise <strong>in</strong><br />
Philipp [66, Lemma 1] <strong>und</strong> <strong>in</strong> der Bemerkung zu Lemma 20.1 <strong>in</strong> Bill<strong>in</strong>gsley [17].<br />
Aus der bed<strong>in</strong>gten Unabhängigkeit folgt außerdem<br />
P (Y I ɛ E 1 , Y J ɛ E 2 |X M =x M ) = P (Y I ɛ E 1 |X I = x I )P (Y J ɛ E 2 |X J = x J )
72 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
für alle E I ɛ A |I| , E J ɛ A |J| <strong>und</strong> somit<br />
∣<br />
∣P (Y I ɛ E 1 , Y J ɛ E 2 ) − P (Y I ɛ E 1 )P (Y J ɛ E 2 ) ∣ ∫<br />
=<br />
P (Y I ɛ E 1 , Y J ɛ E 2 |X M =x M ) dP (X I,X J ) (x I , x J )<br />
∣<br />
X |M| ∫<br />
∫<br />
− P (Y I ɛ E 1 |X I =x I ) dP X I<br />
(x I ) P (Y J ɛ E 2 |X J =x J ) dP X J (x J )<br />
∣<br />
X |I| X |J| ∫<br />
=<br />
P (Y<br />
∣<br />
I ɛ E 1 |X I =x I )P (Y J ɛ E 2 |X J =x J ) d ( ) P (X I,X J ) − P X I<br />
⊗ P X J<br />
(xI , x J )<br />
∣<br />
X |M|<br />
∫<br />
≤ 2ϕ(s) P (Y I ɛ E 1 |X I =x I ) dP X I<br />
(x I )<br />
X |I|<br />
= 2ϕ(s)P (Y I ɛ E 1 ).<br />
Ist X ψ-mischend, so folgt ) analog zu ( Gleichung ) (5.1.1) mit Lemma 3 aus Philipp<br />
[66] für alle f ɛ L+( 2 P<br />
X I , g ɛ L<br />
2<br />
+ P<br />
X J :<br />
∫<br />
∣ fg d ( )∣ ∣ ∫ ∫<br />
P X M<br />
− P X I<br />
⊗ P X J ∣∣ ∣∣ ≤ 2ψ(s) f dP X I<br />
g dP X J<br />
∣<br />
<strong>und</strong> damit:<br />
∣ P (YI ɛ E 1 , Y J ɛ E 2 ) − P (Y I ɛ E 1 )P (Y J ɛ E 2 ) ∣ ∫<br />
∫<br />
≤ 2ψ(s) P (Y I ɛ E 1 |X I =x I ) dP X I<br />
(x I )<br />
X |I|<br />
= 2ψ(s)P (Y I ɛ E 1 )P (Y J ɛ E 2 ).<br />
X |J| P (Y J ɛ E 2 |X J =x J ) dP X J<br />
(x J )<br />
Das ergibt die Behauptung.<br />
✷<br />
Bemerkung:<br />
Mit dem soeben gezeigten spielt es ke<strong>in</strong>e Rolle, ob die Mischungsgeschw<strong>in</strong>digkeit<br />
der verborgenen oder die der emittierten Folge untersucht wird. Im Allgeme<strong>in</strong>en<br />
besteht jedoch e<strong>in</strong> erheblicher Unterschied ob die Verteilung von X oder die<br />
Verteilung von Y betrachtet wird.<br />
Der Versuch, die Verteilung der Beobachtungen oder e<strong>in</strong>e davon abhängige Größe<br />
zu schätzen, kann zu e<strong>in</strong>er unzureichenden Schätzung führen, wenn e<strong>in</strong>e verborgene<br />
Information die Verteilung der Emissionen bestimmt, da e<strong>in</strong>e nicht beobachtete<br />
Veränderung <strong>in</strong> der Folge X zu e<strong>in</strong>er deutlich anderen Verteilung von Y führen<br />
kann. Würde nun lediglich die Verteilung der Beobachtungen P Y betrachtet, so
5.2. Der allgeme<strong>in</strong>e Fall 73<br />
würden eventuell wichtige Informationen nicht berücksichtigt. Dies wird <strong>in</strong>sbesondere<br />
<strong>in</strong> Abschnitt 5.3.1 deutlich, <strong>in</strong> dem mit dem Hidden Markov Modell e<strong>in</strong><br />
<strong>in</strong> der Praxis verwendetes Modell zur Zeichenerzeugung näher betrachtet wird.<br />
5.2 Der allgeme<strong>in</strong>e Fall<br />
In diesem Abschnitt wird e<strong>in</strong> funktionaler Zentraler Grenzwertsatz für die Häufigkeit<br />
des Auftretens mehrerer <strong>Muster</strong> im Hidden ϕ-/ψ-Mix<strong>in</strong>g Modell bewiesen.<br />
Ferner soll auch aufgezeigt werden, wie auf die <strong>in</strong> der Literatur oft verwendete<br />
Voraussetzung, dass der verborgene Prozess X stationär ist, verzichtet werden<br />
kann. Sei X im Folgenden also ϕ- beziehungsweise ψ-mischend aber nicht notwendig<br />
stationär.<br />
Sei m ɛ N. Gesucht werden m <strong>Muster</strong> w = (w 1 , . . . , w m ) T über dem Alphabet<br />
A, wobei das Wort w i = w 1 · · · w li die Länge l i ɛ N habe. Sei N n =<br />
(Nn, 1 . . . , Nn m ) T analog Abschnitt 3.1 mit Nn k : = ∑ n<br />
( )<br />
j=1 Iwk (j) − π w k , Iwk (j) : =<br />
1 {Yj···Y j+lk −1=w 1···w lk } def<strong>in</strong>iert.<br />
Die folgende Proposition liefert das technische F<strong>und</strong>ament für die Abschätzung<br />
der auftretenden Kovarianzen <strong>und</strong> die Konvergenz der Kovarianzfolge:<br />
Proposition 5.2<br />
Seien i, s, k, l, n ɛ N so, dass i + k + s ≤ n, sowie v ɛ A k <strong>und</strong> w ɛ A l gegeben. Ist X<br />
ϕ-mischend mit ∑ ∞<br />
i=1<br />
ϕ(i) < ∞, so konvergiert die folgende Summe absolut, das<br />
heißt, es existiert C v,w ɛ R, so dass gilt:<br />
1 ∑n−k<br />
n<br />
i=1<br />
n−k−i<br />
∑<br />
s=0<br />
Kov ( I v (i), I w (i + k + s) ) −→ n→∞<br />
C v,w .<br />
Beweis:<br />
Mit Lemma 5.1 erhält man für die Kovarianz:<br />
∣ Kov<br />
(<br />
Iv (i), I w (i+k+s) )∣ ∣ =<br />
∣ ∣P (Yi · · · Y i+k−1 =v, Y i+k+s · · · Y i+k+s+l−1 =w)<br />
− P (Y i · · · Y i+k−1 =v)P (Y i+k+s · · · Y i+k+s+l−1 =w) ∣ ∣<br />
Summation liefert:<br />
1 ∑n−k<br />
n<br />
i=1<br />
n−k−i<br />
∑<br />
s=0<br />
≤ ϕ(s)P (Y i · · · Y i+k−1 =v)<br />
≤ ϕ(s).<br />
∣ Kov ( I v (i), I w (i + k + s) )∣ ∣ =<br />
≤<br />
n−k−1<br />
∑<br />
s=0<br />
n∑<br />
ϕ(s).<br />
s=0<br />
n − k − s<br />
ϕ(s)<br />
n
74 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
Die letzte Summe konvergiert nach Voraussetzung, somit folgt die Behauptung.<br />
✷<br />
Mithilfe dieser Proposition lassen sich nun die Kovarianzen untersuchen:<br />
Lemma 5.3<br />
S<strong>in</strong>d obige Voraussetzungen erfüllt <strong>und</strong> es konvergiert ∑ ∞<br />
i=1<br />
ϕ(i) < ∞, so konvergiert<br />
für Wörter v ɛ A k <strong>und</strong> w ɛ A l die Kovarianz, das heißt es existiert σ v,w ɛ R,<br />
so dass:<br />
1<br />
n Kov(N v n, N w n ) −→ n→∞<br />
σ v,w .<br />
Beweis:<br />
Für n ɛ N lässt sich die Kovarianz wie folgt zerlegen:<br />
[<br />
1<br />
n Kov(N n, v Nn w ) = 1 n∑ ∑i−l<br />
Kov(I v (i), I w (j)) +<br />
n<br />
i=1 j=1<br />
n∑<br />
+<br />
j=i+k<br />
i+k−1<br />
∑<br />
j=i−l+1<br />
Kov(I v (i), I w (j))<br />
Kov(I v (i), I w (j))<br />
Aus Proposition 5.2 folgt für den letzten Summanden aus Gleichung (5.2.2):<br />
1<br />
n<br />
n∑<br />
n∑<br />
i=1 j=i+k<br />
Kov ( I v (i), I w (j) ) = 1 n<br />
∑n−k<br />
i=1<br />
−→ n→∞<br />
C v,w .<br />
n−i−k<br />
∑<br />
s=0<br />
]<br />
Kov ( I v (i), I w (i + k + s) )<br />
.<br />
(5.2.2)<br />
Analog konvergiert aus Symmetriegründen auch der erste Summand <strong>in</strong> Gleichung<br />
(5.2.2) absolut:<br />
1<br />
n<br />
n∑ ∑i−l<br />
Kov(I v (i), I w (j)) = 1 n<br />
i=1<br />
j=1<br />
∑n−l<br />
j=1<br />
−→ n→∞<br />
C w,v .<br />
n−l−j<br />
∑<br />
s=0<br />
Kov ( I v (j + l + s), I w (j) )<br />
Die <strong>in</strong>nere Summe des zweiten Summanden ist jedoch endlich, so dass man für<br />
diesen<br />
1<br />
n∑<br />
i+k−1<br />
∑<br />
∣ Kov(Iv (i), I w (j)) ∣ 1<br />
n∑<br />
≤ (k + l − 1)<br />
n<br />
n<br />
i=1 j=i−l+1<br />
i=1<br />
= k + l − 1<br />
erhält <strong>und</strong> damit <strong>in</strong>sbesondere absolute Konvergenz. Somit ist die Konvergenz<br />
der auftretenden Reihen gesichert, durch Summation über diese folgt mit Gleichung<br />
(5.2.2) die Behauptung.<br />
✷
5.2. Der allgeme<strong>in</strong>e Fall 75<br />
Satz 5.4<br />
Die verborgene Folge erfülle e<strong>in</strong>e der beiden Voraussetzungen:<br />
a) X ist ψ-mischend mit ∑ i ɛN ψ(i) 1 3 < ∞ oder<br />
b) X ist ϕ-mischend mit ∑ i ɛN ϕ(i) 1 5 < ∞.<br />
Seien weiterh<strong>in</strong> die Wörter w 1 , . . . , w m ɛ A ∗ , m ɛ N so, dass die Matrix Σ : =<br />
(σ wp,wq ) p,q=1,...,m mit σ v,w wie <strong>in</strong> Lemma 5.3 positiv def<strong>in</strong>it ist, <strong>und</strong><br />
⎛<br />
⎞<br />
Z n (t) := √ 1<br />
⌊nt⌋ I<br />
∑ w1 (i) − π w 1<br />
⎜<br />
⎟<br />
⎝ n<br />
. ⎠ für t ɛ [0, 1] <strong>und</strong> n ɛ N.<br />
i=1 I wm (i) − π wm<br />
Dann konvergiert Z n <strong>in</strong> Verteilung gegen e<strong>in</strong>e m-dimensionale Brownsche Bewegung<br />
mit Kovarianzmatrix Σ.<br />
Beweis:<br />
Da nach Voraussetzung <strong>in</strong>sbesondere ∑ ∞<br />
i=1 ψ(i) beziehungsweise ∑ ∞<br />
i=1<br />
ϕ(i) konvergieren,<br />
s<strong>in</strong>d die Voraussetzungen von Proposition 5.2 <strong>und</strong> Lemma 5.3 erfüllt.<br />
Somit lässt sich der Beweis <strong>in</strong> drei Schritte gliedern:<br />
1) Zunächst wird die Konvergenz e<strong>in</strong>es geeignet konstruierten e<strong>in</strong>dimensionalen<br />
Prozesses gezeigt:<br />
Sei α ɛ R m , mit ‖α‖ = √ 1<br />
m<br />
, wobei ‖·‖ hier die Euklidische Norm bezeichnet. Zuerst<br />
wird gezeigt, dass die Voraussetzungen von Philipp <strong>und</strong> Webb [67, Satz 2]<br />
im ψ-mischenden Fall beziehungsweise von [67, Satz 3] im ϕ-mischenden Fall<br />
für ξ i := α T( I w1 (i) − E I w1 (i), . . . , I wm (i) − E I wm (i) ) T<br />
erfüllt s<strong>in</strong>d:<br />
(i) Für s 2 n := E( ∑ n<br />
i=1 ξ 2<br />
i)<br />
gilt nach Lemma 5.3:<br />
m∑<br />
(<br />
s 2 n = α p α q E Iwp (i) − E I wp (i) ))( n∑ (<br />
Iwq (j) − E I wq (j) ))<br />
= n<br />
p,q=1<br />
m∑<br />
p,q=1<br />
−→ n→∞<br />
∞,<br />
( n∑<br />
i=1<br />
1<br />
α p α q<br />
n Kov( )<br />
Nn, p Nn<br />
q<br />
(<br />
da Σ = lim 1<br />
n→∞ Kov(N p n n, Nn) ) q positiv def<strong>in</strong>it ist.<br />
p,q=1,...,m<br />
(ii) Wegen |I wk (i) − E I wk (i)| ≤ 1 für alle k ɛ {1, . . . , m}, i ɛ N folgt mit der<br />
Hölderschen Ungleichung:<br />
E ( [ (<br />
) m<br />
) 2 (<br />
∑ ∑ m<br />
(<br />
ξi<br />
4 ≤ E αk<br />
2 Iwk (i) − E I wk (i) ) ) 2<br />
2<br />
≤ 1.<br />
k=1<br />
} {{ }<br />
=‖α‖ 4<br />
k=1<br />
j=1<br />
} {{ }<br />
≤m 2 ]
76 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
Somit ist die L 4 -Norm von ξ i durch 1 beschränkt.<br />
(iii) Seien M, H ɛ N. Dann ist wie <strong>in</strong> Teil (i):<br />
E<br />
( M+H ∑<br />
i=M+1<br />
ξ i<br />
) 2<br />
= H<br />
m∑<br />
p,q=1<br />
α p α q<br />
1<br />
H<br />
M+H<br />
∑<br />
i,j=M+1<br />
Kov ( I wp (i), I wq (j) ) .<br />
Ersetzt man <strong>in</strong> Gleichung (5.2.2) die Summation über 1 bis n durch<br />
Summation von M + 1 bis M + H, so folgt:<br />
C M,H<br />
p,q<br />
:= 1 H<br />
M+H<br />
∑<br />
i,j=M+1<br />
Kov ( I wp (i), I wq (j) ) −→<br />
H→∞<br />
σ wp,w q<br />
,<br />
so dass für h<strong>in</strong>reichend große H ɛ N auch Σ M,H := ( )<br />
Cp,q<br />
M,H positiv<br />
def<strong>in</strong>it ist. Damit ergibt sich aus Teil<br />
p,q=1,...,m<br />
(ii):<br />
M+H ∑<br />
i=M+1<br />
( M+H<br />
(<br />
E<br />
(<br />
E ( ) ) 1<br />
ξi<br />
4 4<br />
∑<br />
i=M+1<br />
ξ i<br />
) 2 ) 9<br />
4<br />
≤<br />
=<br />
(H m ∑<br />
p,q=1<br />
1<br />
H<br />
α p α q C M,H<br />
p,q<br />
H 5 4<br />
(<br />
αT Σ M,H α ) 9 4<br />
−→ 0,<br />
H→∞<br />
) 9<br />
4<br />
<strong>und</strong> somit:<br />
M+H<br />
∑<br />
i=M+1<br />
(<br />
E ( ) ) )<br />
1<br />
ξi<br />
4 4<br />
[ ( M+H<br />
∑ ) 2 ] 9<br />
4<br />
ɛ O(<br />
E ξ i<br />
i=M+1<br />
(H −→ ∞).<br />
(iv) Ebenso erhält man mit Teil (i) <strong>und</strong> (ii)<br />
M+H<br />
∑<br />
i=M+1<br />
M+H<br />
∑<br />
i=M+1<br />
E ( (<br />
) [ ( M+H<br />
∑<br />
ξi 4 ɛ O E<br />
i=M+1<br />
E ∣ (<br />
∣ [ ( M+H<br />
∑<br />
ξi ɛ O E<br />
i=M+1<br />
ξ i<br />
) 2 ] 3<br />
)<br />
)<br />
) 2 ] 3<br />
2<br />
ξ i<br />
(H −→ ∞) <strong>und</strong><br />
(H −→ ∞).<br />
Aus Satz 2 beziehungsweise Satz 3 <strong>in</strong> Philipp <strong>und</strong> Webb [67] folgt die Konvergenz<br />
Z n<br />
′ D<br />
−→ B <strong>in</strong> D[0, 1], wobei Z n<br />
′ folgendermaßen def<strong>in</strong>iert ist: Für<br />
n ɛ N, i ɛ {0, . . . , n} sei t n i : = ( s 2 i<br />
∧ 1 ) . Die zugehörige strikt geordnete Folge<br />
s 2 n
5.2. Der allgeme<strong>in</strong>e Fall 77<br />
(t n (i) ) i ɛ {0,...,n ′ } erhält man durch Sortieren <strong>und</strong> Streichen von doppelten E<strong>in</strong>trägen:<br />
0 = t n (0) < tn (1) < . . . < tn (n ′ ) = 1, mit n′ ≤ n. Die stückweise konstante<br />
Funktion Z ′ n ist damit gegeben durch:<br />
Z ′ n(0) := 0 <strong>und</strong> Z ′ n(t) := 1 s n<br />
i∑<br />
ξ j , falls t ɛ ( t n (i−1), t(i)] n .<br />
j=1<br />
2) Als Nächstes wird die Konvergenz von Zn α für beliebige α ɛ R m gezeigt, wobei<br />
⎛<br />
⎞<br />
Zn α (t) := √ 1<br />
⌊nt⌋ I<br />
∑ w1 (i) − π w 1<br />
α T ⎜<br />
⎟<br />
⎝<br />
nσ<br />
. ⎠ , σ 2 := α T Σα.<br />
i=1 I wm (i) − π wm<br />
Sei t ɛ (0, 1] <strong>und</strong> i n so, dass t ɛ ( ]<br />
t n i n−1, t n i n für alle n ɛ N. Dann gilt nach Lemma<br />
5.3:<br />
m∑<br />
1<br />
α p α q i n<br />
Kov ( )<br />
N p i n<br />
, N q i n<br />
s 2<br />
lim<br />
n→∞ tn i<br />
i n<br />
= lim n<br />
n→∞ s 2 n<br />
= lim<br />
n→∞<br />
i n<br />
n<br />
lim<br />
n→∞<br />
p,q=1<br />
m∑<br />
p,q=1<br />
1<br />
α p α q Kov( ) = lim<br />
N p n n, Nn<br />
q n→∞<br />
<strong>und</strong> ebenso lim n→∞ t n i<br />
i n−1 = lim n−1<br />
n→∞ . Somit folgt n<br />
tn i n<br />
−→ n→∞<br />
t, <strong>und</strong> analog zum<br />
Beweis von Theorem 4 <strong>in</strong> Philipp <strong>und</strong> Webb [67] erhält man für α wie <strong>in</strong> Teil 1<br />
mit Satz 4.1 aus Bill<strong>in</strong>gsley [17]:<br />
Zn α = √ 1<br />
⌊n·⌋<br />
∑<br />
nσ<br />
j=1<br />
ξ j<br />
D<br />
−→ B <strong>in</strong> D[0, 1], mit σ 2 := α T Σα.<br />
Für beliebige α ɛ R m \ {0} folgt die Behauptung mit α ′ : =<br />
α √ m‖α‖<br />
Skalierungs<strong>in</strong>varianz von Zn α (t) <strong>in</strong> α: Für alle C > 0 gilt Zn<br />
Cα (t) = Zn α (t).<br />
i n<br />
n<br />
aus der<br />
3) Mit Teil 2 folgt aus Satz 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17] unmittelbar die Konvergenz der<br />
mehrdimensionalen Randverteilungen. Zu zeigen bleibt die Straffheit. Sei also<br />
ε > 0 gegeben. Ist e i ɛ R m für i ɛ {1, . . . , m} der i-te E<strong>in</strong>heitsvektor, das heißt<br />
e i := (1 {i} (j)) j=1,...,m , so existiert wegen der Straffheit von Z e i<br />
n<br />
Teilmenge D i ⊂ D[0, 1], so dass P (Z e i<br />
n ɛ D i ) ≥ 1 − ε m<br />
die kompakte Menge D := × i ɛ {1,...,m} D i :<br />
P ( Z n ɛ D ) ( m<br />
)<br />
⋃<br />
= 1 − P {Z e i<br />
n ɛ (D i ) c } ≥ 1 −<br />
i=1<br />
m∑<br />
i=1<br />
e<strong>in</strong>e kompakte<br />
. Daraus ergibt sich für<br />
P ( Z e i<br />
n ɛ (D i ) c) ≥ 1 − ε.<br />
Das entspricht der Straffheit von Z n .<br />
✷
78 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
Nicht zuletzt, weil Statistiken auf der Gr<strong>und</strong>lage von auffällig häufigen oder seltenen<br />
Vorkommen von <strong>Muster</strong>n <strong>in</strong> Sequenzen vielfach verwendet werden, erweitert<br />
obiger Satz zum e<strong>in</strong>en die Anwendungsmöglichkeiten, <strong>in</strong>dem er die Anwendung<br />
auf weitere Modelle ermöglicht. Zum anderen wird die Möglichkeit gegeben, ähnliche<br />
Probleme <strong>in</strong> diesen allgeme<strong>in</strong>eren Zusammenhang e<strong>in</strong>zubetten.<br />
5.3 Anwendungen<br />
Nachdem im obigen Abschnitt e<strong>in</strong> sehr allgeme<strong>in</strong>es Modell zur Erzeugung der<br />
durchsuchten Zeichenkette e<strong>in</strong>geführt wurde, sollen die Ergebnisse <strong>in</strong> diesem Abschnitt<br />
auf zwei spezielle Modelle angewendet <strong>und</strong> die Resultate verfe<strong>in</strong>ert werden.<br />
5.3.1 Das ”<br />
Hidden Markov“ Modell<br />
In diesem Abschnitt wird das sogenannte ”<br />
Hidden Markov“ Modell, das nach<br />
Wissen des Autors zum ersten Mal 1966 von Baum <strong>und</strong> Petrie <strong>in</strong> [14] untersucht<br />
wurde, als Spezialfall betrachtet, <strong>und</strong> mit obigen Methoden explizit Grenzwerte<br />
für die Kovarianz angegeben. Auf die Stationarität wird weiterh<strong>in</strong> verzichtet, um<br />
die größtmögliche Allgeme<strong>in</strong>heit zu erhalten.<br />
Das Hidden Markov Modell f<strong>in</strong>det zum Beispiel <strong>in</strong> der Analyse von Gensequenzen<br />
Anwendung. Ist etwa bei e<strong>in</strong>em vorliegenden Teil e<strong>in</strong>er DNS unbekannt, ob es<br />
sich dabei um Intergen, Exon oder Intron handelt, so lässt sich dieser verborgene<br />
Zustand zunächst ebenso wenig ablesen wie e<strong>in</strong> Wechsel dieses Zustands. Des<br />
Weiteren ist der sogenannte Leserahmen entscheidend, da <strong>in</strong> e<strong>in</strong>em Gen immer<br />
drei aufe<strong>in</strong>ander folgende Nukle<strong>in</strong>säurebauste<strong>in</strong>e zu e<strong>in</strong>em Am<strong>in</strong>osäurebauste<strong>in</strong><br />
transkribiert werden, so dass es durch Verschieben des Leserahmens drei verschiedene<br />
Möglichkeiten zur Transkription gibt. Für e<strong>in</strong>e ausführliche E<strong>in</strong>leitung<br />
<strong>in</strong> die biologischen Gr<strong>und</strong>lagen sei auf Abschnitt 1.3 bis 1.5 <strong>in</strong> Waterman [94],<br />
verwiesen.<br />
E<strong>in</strong> für die mathematische Modellierung der Nukle<strong>in</strong>säurekette gebräuchlicher<br />
Ansatz ist es, die Beobachtungen als Emission e<strong>in</strong>er verborgenen Markov-Kette<br />
aufzufassen, die als Zustandsraum das kartesische Produkt aus dem beobachteten<br />
Säurebauste<strong>in</strong> <strong>und</strong> dem verborgenen Zustand besitzt. Im obigen Beispiel wäre das<br />
etwa {T,G,A,C}×{Intergen,Intron1,Intron2,Intron3,Exon1,Exon2,Exon3}, andere<br />
Zustandsräume werden jedoch ebenfalls verwendet. Die Emission ist <strong>in</strong> diesem<br />
Fall gerade die Projektion auf die erste Komponente. Durch diesen determ<strong>in</strong>istischen<br />
Übergang von der verborgenen zur sichtbaren Zeichenkette vere<strong>in</strong>facht sich<br />
die Anwendung des Modells erheblich, da ke<strong>in</strong>e Emissionswahrsche<strong>in</strong>lichkeiten zu<br />
schätzen s<strong>in</strong>d.<br />
In der Literatur werden verschiedene Modelle verwendet, deren Parameter <strong>in</strong> der
5.3. Anwendungen 79<br />
Regel gerade die Übergangswahrsche<strong>in</strong>lichkeiten der verborgenen Markov-Kette<br />
s<strong>in</strong>d. Die Literatur zu Hidden Markov Modellen <strong>und</strong> der Schätzung der Parameter<br />
ist sehr umfangreich, siehe etwa Genon-Catalot et al. [46], [45] oder [44],<br />
Rab<strong>in</strong>er [70], Dorea <strong>und</strong> Zhao [38], Maxwell <strong>und</strong> Woodroofe [60] oder Ryden [79],<br />
um nur e<strong>in</strong>ige Beispiele zu nennen.<br />
Für die Anwendung <strong>in</strong> der genetischen Sequenzanalyse gibt es zumeist Software,<br />
die die Übergangswahrsche<strong>in</strong>lichkeiten schätzt, wie etwa R’HOM“, siehe Nicolas<br />
”<br />
<strong>und</strong> Muri-Majoube [63] oder EuGène“, siehe Schiex et al. [81], beziehungsweise<br />
”<br />
EuGène’Hom“, siehe Foissac et al. [43].<br />
”<br />
Die so gewonnene Information über die verborgene Markov-Kette X lässt sich<br />
nun verwenden, um die Wahrsche<strong>in</strong>lichkeit des Auftretens vorgegebener <strong>Muster</strong><br />
genauer zu schätzen. E<strong>in</strong>e Schätzung, die lediglich die beobachtete Zeichenfolge<br />
Y berücksichtigt, ist immer dann unzureichend, wenn sich die Übergangswahrsche<strong>in</strong>lichkeiten<br />
<strong>in</strong> der emittierten Kette durch e<strong>in</strong>e nicht sichtbare Änderung <strong>in</strong><br />
der verborgenen Kette ändert.<br />
Sei also (X i ) i ɛN e<strong>in</strong>e irreduzible aperiodische <strong>und</strong> homogene Markov-Kette mit<br />
endlichem Zustandsraum X = {1, . . . , ρ}, Übergangsmatrix Γ = (γ i,j ) i,j=1,...,ρ<br />
<strong>und</strong> Startverteilung (γ X i ) i ɛ X . Somit existiert die stationäre Verteilung π =<br />
(π 1 , . . . , π ρ ) T , derart dass Γ · π = π, vergleiche etwa Behrends [15] oder Bremaud<br />
[21].<br />
Wie üblich sei die s-Schritt-Übergangswahrsche<strong>in</strong>lichkeit γ (s)<br />
i,j<br />
def<strong>in</strong>iert durch γ (0)<br />
i,j := 1 {i}(j) <strong>und</strong>:<br />
(<br />
γ (s+1)<br />
i,j<br />
)<br />
i,j=1,...,ρ<br />
:= Γ s+1 :=<br />
( ρ∑<br />
q=1<br />
γ (s)<br />
i,q γ q,j<br />
)<br />
i,j=1,...,ρ<br />
für s ɛ N 0 <strong>in</strong>duktiv<br />
.<br />
Bemerkungen:<br />
1) In der Literatur wird <strong>in</strong> der Regel vorausgesetzt, dass die Markov-Kette stationär<br />
ist. Hier wird statt dessen die exponentiell schnelle Konvergenz der s-<br />
Schritt-Übergangswahrsche<strong>in</strong>lichkeit gegen die stationäre Verteilung verwendet:<br />
Es existieren Konstanten C 0 > 0 <strong>und</strong> δ < 1, so dass für alle i, j ɛ X <strong>und</strong><br />
s ɛ N gilt:<br />
|γ (s)<br />
i,j − π j| ≤ C 0 τ s .<br />
Diese Eigenschaft f<strong>in</strong>det man <strong>in</strong> der Standardliteratur zu Markov-Ketten, wie<br />
zum Beispiel <strong>in</strong> Doob [37, Abschnitt V.2], Behrends [15, Kapitel 10] oder<br />
Bremaud [21, Kapitel 4]. Meist f<strong>in</strong>det man dort auch explizite Schranken für<br />
C 0 <strong>und</strong> τ, die von den E<strong>in</strong>trägen oder den Eigenwerten der Übergangsmatrix<br />
abhängen.
80 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
2) Da somit jede irreduzible aperiodische <strong>und</strong> homogene Markov-Kette mit endlichem<br />
Zustandsraum ψ-mischend mit e<strong>in</strong>er Exponentialfunktion ψ(n) = C 0 τ n ,<br />
n ɛ N ist, lassen sich die Ergebnisse des vorangegangenen Abschnitts unmittelbar<br />
auf Hidden Markov Modelle übertragen. Zur kanonischen E<strong>in</strong>bettung<br />
e<strong>in</strong>er Markov-Kette mit endlichem Zustandsraum <strong>in</strong> e<strong>in</strong>en Markovprozess mit<br />
nicht diskretem Zustandsraum, vergleiche etwa Abschnitt 5.5, Example 1 <strong>in</strong><br />
Doob [37].<br />
Weiterh<strong>in</strong> sei im Folgenden Y die emittierte Zeichenfolge <strong>und</strong> erfülle die Voraussetzungen<br />
der bed<strong>in</strong>gten Unabhängigkeit, vergleiche Seite 70.<br />
Um die Konvergenz von N n zu untersuchen, wird zunächst Proposition 5.2 verfe<strong>in</strong>ert<br />
<strong>und</strong> die Wahrsche<strong>in</strong>lichkeit des Auftretens e<strong>in</strong>zelner Wörter genauer betrachtet:<br />
Proposition 5.5<br />
Seien i, s, k, l, n ɛ N mit i + k + s ≤ n, sowie v ɛ A k <strong>und</strong> w ɛ A l . Dann konvergiert:<br />
a) die Wahrsche<strong>in</strong>lichkeit, dass v ab Position i <strong>in</strong> Y vorkommt:<br />
E ( I v (i) ) −→<br />
i→∞<br />
π v ,<br />
b) die Wahrsche<strong>in</strong>lichkeit, dass v ab Position i <strong>und</strong> w ab Position i + k + s <strong>in</strong> Y<br />
vorkommt:<br />
E ( I v (i)I w (i + k + s) ) −→<br />
i→∞<br />
πs+1.<br />
v,w<br />
Die Grenzwerte s<strong>in</strong>d dabei durch die stationären Wahrsche<strong>in</strong>lichkeiten“ gegeben:<br />
”<br />
π v :=<br />
∑<br />
k∏<br />
π u1 λ v1 ,u 1<br />
γ ui−1 ,u i<br />
λ vi ,u i<br />
<strong>und</strong><br />
Beweis:<br />
u 1 ,...,u l ɛ X<br />
π v,w<br />
s<br />
:= ∑<br />
t 1 ,...,t k ɛ X<br />
u 1 ,...,u l ɛ X<br />
π t1 λ v1 ,t 1<br />
i=2<br />
k∏<br />
γ tq−1 ,t q<br />
λ vq,tq<br />
q=2<br />
γ (s)<br />
t k ,u 1<br />
λ w1 ,u 1<br />
l∏<br />
γ uq−1 ,u q<br />
λ wq,uq .<br />
a) Aus der Bemerkung zur Def<strong>in</strong>ition der bed<strong>in</strong>gten Unabhängigkeit auf Seite 71,<br />
ergibt sich für alle j ɛ N:<br />
E(I v (j)) =<br />
∑<br />
u 1 ,...,u l ɛ X<br />
( l∏<br />
i=1<br />
= ∑<br />
( l∏<br />
u 1 ,...,u l ɛ X i=1<br />
= ∑ ( ∑<br />
u 1 ,...,u l ɛ X<br />
u 0 ɛ X<br />
q=2<br />
γ vi ,u i<br />
)P (X j · · · X j+l−1 = u 1 · · · u l )<br />
γ vi ,u i<br />
)( ∑<br />
u 0 ɛ X<br />
)<br />
γ X u 0<br />
γ u (j−1)<br />
0 ,u 1<br />
λ v1 ,u 1<br />
γ X u 0<br />
γ (j−1)<br />
u 0 ,u 1<br />
)<br />
l∏<br />
γ ui−1 ,u i<br />
i=2<br />
l∏<br />
λ vi ,u i<br />
γ ui−1 ,u i<br />
.<br />
i=2
5.3. Anwendungen 81<br />
Hiermit überträgt sich die exponentiell schnelle Konvergenz der j-Schritt-<br />
Übergangswahrsche<strong>in</strong>lichkeit gegen die stationäre Verteilung auf E(I v (j)). Das<br />
bedeutet mit C 0 > 0 <strong>und</strong> τ < 1 wie <strong>in</strong> obiger Bemerkung gilt für alle w ɛ A ∗ ,<br />
j ɛ N:<br />
∣ E(Iw (j))−π w∣ ∑<br />
∣ ≤<br />
u 0 ,...,u l ɛ X<br />
γ X u 0<br />
|γ u (j−1)<br />
0 ,u 1<br />
−π u1 |λ w1 ,u 1<br />
l∏<br />
λ wi ,u i<br />
γ ui−1 ,u i<br />
i=2<br />
≤ C 0 τ i−1 −→<br />
i→∞<br />
0.<br />
(5.3.3)<br />
b) Die Behauptung folgt analog. ✷<br />
S<strong>in</strong>d das Overlap Bit β <strong>und</strong> der Wort-Rest R def<strong>in</strong>iert wie <strong>in</strong> Def<strong>in</strong>ition 3.6,<br />
so lassen sich durch die Spezialisierung auf das Hidden Markov Modell im folgenden<br />
Lemma Erwartungswert <strong>und</strong> Kovarianz von N n angeben beziehungsweise<br />
abschätzen:<br />
Lemma 5.6<br />
Seien v ɛ A k <strong>und</strong> w ɛ A l . Dann konvergiert:<br />
a) 1 n E N v n −→ n→∞<br />
π v ,<br />
b) 1 n Kov(N v n, N w n ) −→ n→∞<br />
σ v,w .<br />
Dabei ist π v wie <strong>in</strong> Proposition 5.5 <strong>und</strong> der Grenzwert der Kovarianz<br />
∑k−1<br />
(<br />
σ v,w := βv,w (s)π vRw(l−s) − π v π w) + C v,w<br />
s=0<br />
∑l−1<br />
(<br />
+ βw,v (s)π wRv(k−s) − π v π w) + C w,v ,<br />
s=1<br />
wobei sich C v,w im Gegensatz zu Proposition 5.2 hier explizit angeben <strong>und</strong><br />
abschätzen lässt:<br />
∞∑ (<br />
C v,w := π<br />
v,w<br />
s − π v π w) <strong>und</strong> ∣ ∣ C<br />
v,w C 0 ≤<br />
1 − τ .<br />
Beweis:<br />
s=1<br />
a) Aus Proposition 5.5 a) ergibt sich E ( I v (i) ) −→<br />
i→∞<br />
π v . Nach dem Lemma von<br />
Cesàro folgt daraus auch die Konvergenz des arithmetischen Mittels, das heißt:<br />
1<br />
n E N v n = 1 n<br />
n∑<br />
j=1<br />
E(I v (j)) −→ n→∞<br />
π v .
82 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
b) Die Konvergenz der Reihen ist nach Lemma 5.3 gesichert. Die Behauptung<br />
wird analog dem dort geführten Beweis mit folgender Zerlegung gezeigt:<br />
[<br />
1<br />
n Kov(N n, v Nn w ) = 1 n∑ ∑i−l<br />
∑i−1<br />
Kov(I v (i), I w (j)) + Kov(I v (i), I w (j))<br />
n<br />
i=1 j=1<br />
+<br />
i+k−1<br />
∑<br />
j=i<br />
Kov(I v (i), I w (j)) +<br />
j=i−l+1<br />
n∑<br />
j=i+k<br />
Kov(I v (i), I w (j))<br />
]<br />
.<br />
(5.3.4)<br />
Die Konvergenz des ersten <strong>und</strong> des letzten Summanden folgen aus Proposition<br />
5.5 <strong>und</strong> dem Lemma von Cesàro wie im Beweis zu Lemma 5.3. Die<br />
Abschätzung für C v,w folgt analog Gleichung (5.3.3) aus der geometrischen<br />
Reihe:<br />
∣ ∣ ∣<br />
C<br />
v,w ∣∣<br />
∑ ∞<br />
(<br />
= π<br />
v,w<br />
s − π v π w)∣ ∣ ≤<br />
s=1<br />
∑<br />
π t1 λ v1 ,t 1<br />
t 1 ,...,t k ɛ X<br />
u 1 ,...,u l ɛ X<br />
≤ C 0<br />
1 − τ .<br />
∣<br />
k∏<br />
∣∣∣∣ ∑ ∞<br />
γ tq−1 ,t q<br />
λ vq,tq<br />
q=2<br />
s=1<br />
γ (s)<br />
t k ,u 1<br />
− π u1<br />
∣ ∣∣∣∣<br />
λ w1 ,u 1<br />
l∏<br />
γ uq−1 ,u q<br />
λ wq,uq<br />
Für s ≤ k−1 ist E ( I v (i)I w (i+s) ) = β v,w (s) E ( ) I vRw(l−s)(i) . Daher konvergiert<br />
nach Proposition 5.5 die Kovarianz Kov ( I v (i), I w (i+s) ) −→<br />
i→∞<br />
β v,w (s)π vRw(l−s) −<br />
π v π w . Wie oben folgt mit dem Lemma von Cesàro:<br />
1<br />
n∑<br />
Kov ( I v (i), I w (i + s) ) −→<br />
n<br />
n→∞<br />
β v,w (s)π vRw(l−s) − π v π w .<br />
i=1<br />
Für den dritten Term <strong>in</strong> Gleichung (5.3.4) erhält man demnach:<br />
1<br />
n<br />
n∑<br />
i=1<br />
i+k−1<br />
∑<br />
j=i<br />
Kov ( I v (i), I w (j) ) = 1 n<br />
−→ n→∞<br />
q=2<br />
n∑ ∑k−1<br />
Kov ( I v (i), I w (i + s) )<br />
i=1<br />
s=0<br />
∑k−1<br />
(<br />
βv,w (s)π vRw(l−s) − π v π w) .<br />
Analog konvergiert der zweite Summand <strong>in</strong> Gleichung (5.3.4):<br />
1<br />
n<br />
n∑<br />
∑i−1<br />
i=1 j=i−l+1<br />
Kov ( I v (i), I w (j) ) −→ n→∞<br />
s=0<br />
∑l−1<br />
(<br />
βw,v (s)π wRv(k−s) − π v π w) .<br />
Durch Summation über diese vier Reihen erhält man die Behauptung.<br />
s=1<br />
✷
5.3. Anwendungen 83<br />
Das folgende Korollar fasst die Ergebnisse dieses Abschnitts zusammen. Es ist<br />
als Verfe<strong>in</strong>erung zu Satz 5.4 anzusehen, <strong>in</strong> der die Markov-Eigenschaft des verborgenen<br />
Prozesses ausgenutzt wird.<br />
Korollar 5.7<br />
Sei X e<strong>in</strong>e irreduzible aperiodische <strong>und</strong> homogene Markov-Kette, <strong>und</strong> sei Y die<br />
Folge der emittierten Beobachtungen. S<strong>in</strong>d die Wörter w 1 , . . . , w m ɛ A ∗ so, dass<br />
die Matrix Σ : = (σ wp,w q<br />
) p,q=1,...,m mit σ v,w wie <strong>in</strong> Lemma 5.6 positiv def<strong>in</strong>it ist,<br />
so konvergiert der <strong>in</strong> Satz 5.4 def<strong>in</strong>ierte Prozess Z n <strong>in</strong> Verteilung gegen e<strong>in</strong>e m-<br />
dimensionale Brownsche Bewegung mit Kovarianzmatrix Σ.<br />
Beweis:<br />
Die Behauptung folgt unmittelbar aus Satz 5.4 <strong>und</strong> Lemma 5.6.<br />
✷<br />
5.3.2 Dynamische Quellen<br />
Probabilistische Dynamische Quellen wurden 2001 von Vallée im Artikel [92] e<strong>in</strong>geführt<br />
(Erratum siehe Chazal, Maume-Deschamps <strong>und</strong> Vallée [24]). Dabei wird<br />
e<strong>in</strong> zufälliger Startwert x ɛ (0, 1) gewählt, <strong>und</strong> iterativ e<strong>in</strong>e sogenannte ”<br />
Shift-<br />
Abbildung“ T : (0, 1) → (0, 1) angewandt. Jedes Element der Folge x, T x, T 2 x, . . .<br />
wird mithilfe e<strong>in</strong>er ”<br />
Encod<strong>in</strong>g-Abbildung“ σ : (0, 1) → A auf e<strong>in</strong> Zeichen des<br />
Alphabets abgebildet. Hierdurch entsteht die zu durchsuchende Zeichenkette<br />
σ(x), σ(T x), σ(T 2 x), . . .<br />
In weiteren Artikeln, wie etwa Bourdon <strong>und</strong> Vallée [20], wird das Vorkommen<br />
von sehr allgeme<strong>in</strong>en <strong>Muster</strong>n, die durch E<strong>in</strong>schübe unterbrochen se<strong>in</strong> können, <strong>in</strong><br />
den so erzeugten <strong>Zeichenketten</strong> untersucht. Wie auch <strong>in</strong> Regnier et al. [72], [73]<br />
oder Flajolet et al. [42], wo andere zeichenerzeugende Quellen behandelt werden,<br />
werden die <strong>Muster</strong> durch Reguläre Ausdrücke beschrieben, die <strong>in</strong> entsprechende<br />
Erzeugende Funktionen übersetzt werden.<br />
Hier soll nun aufgezeigt werden, wie sich Dynamische Quellen <strong>in</strong> das Hidden ϕ-<br />
/ψ-Mix<strong>in</strong>g Modell e<strong>in</strong>betten lassen <strong>und</strong> somit für e<strong>in</strong>fache <strong>Muster</strong>vektoren mit<br />
Satz 5.4 e<strong>in</strong> allgeme<strong>in</strong>er Grenzwertsatz zur Verfügung steht.<br />
Die folgende formale Def<strong>in</strong>ition von Dynamischen Quellen f<strong>in</strong>det man zum Beispiel<br />
<strong>in</strong> Abschnitt 3.1 <strong>in</strong> Bourdon <strong>und</strong> Vallée [20]:<br />
Def<strong>in</strong>ition 5.8<br />
E<strong>in</strong>e Dynamische Quelle S wird durch die folgenden vier Elemente def<strong>in</strong>iert:<br />
a) E<strong>in</strong> endliches oder abzählbares Alphabet A<br />
b) E<strong>in</strong>e ”<br />
topologische Partition des E<strong>in</strong>heits<strong>in</strong>tervalls“ <strong>in</strong> Intervalle, das heißt:<br />
Sei I a ⊂ I := (0, 1) für alle a ɛ A e<strong>in</strong> offenes Intervall, so dass I a ∩ I b = ∅ für<br />
alle Zeichen a ≠ b <strong>und</strong> ∪ a ɛ A I a = I.
84 Kapitel 5. Das ”<br />
Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />
c) E<strong>in</strong>e ”<br />
Encod<strong>in</strong>g-Abbildung“ σ : I → A, so dass σ| Ia = a für alle a ɛ A konstant<br />
ist.<br />
d) E<strong>in</strong>e ”<br />
Shift-Abbildung“ T : I → I, so dass T | Ia e<strong>in</strong> Diffeomorphismus ist, das<br />
heißt T | Ia ɛ C 1 (I a ; I) <strong>und</strong> (T | Ia ) −1 ɛ C 1 (I; I a ).<br />
In den erwähnten Artikeln zu Dynamischen Quellen werden des Weiteren analytische<br />
Eigenschaften der Shift-Abbildung T vorausgesetzt. In der Regel werden<br />
diese Voraussetzungen unmittelbar zu Teil d) obiger Def<strong>in</strong>ition h<strong>in</strong>zugefügt.<br />
Abweichend davon wird hier die Def<strong>in</strong>ition von ”<br />
expandierend <strong>und</strong> analytisch“<br />
von Bourdon <strong>und</strong> Vallée [20] beziehungsweise die um (d4) erweiterte Fassung<br />
von Chazal, Maume-Deschamps <strong>und</strong> Vallée [24] angegeben:<br />
Def<strong>in</strong>ition 5.9<br />
E<strong>in</strong>e Dynamische Quelle S ist expandierend <strong>und</strong> analytisch, falls für alle a ɛ A die<br />
Shift-Abbildung T | Ia e<strong>in</strong>e reelle analytische Bijektion ist <strong>und</strong> es e<strong>in</strong>e komplexe<br />
Umgebung des E<strong>in</strong>heits<strong>in</strong>tervalls I ⊂ V ⊂ C 2 gibt, so dass für alle h a := (T | Ia ) −1 ,<br />
a ɛ A gilt:<br />
(d1) Es existiert e<strong>in</strong>e holomorphe Fortsetzung von h a auf V , die der E<strong>in</strong>fachheit<br />
wegen wieder mit h a bezeichnet wird <strong>und</strong> für die gilt: h a (V ) ⊂ V .<br />
(d2) Es existiert e<strong>in</strong>e holomorphe Fortsetzung ˜h a von |h ′ a| auf V <strong>und</strong> α a > 0,<br />
δ a < 1, so dass α a < |˜h a (z)| ≤ δ a für alle z ɛ V .<br />
(d3) Die Reihe ∑ a ɛ A δ a konvergiert.<br />
(d4) Es gibt e<strong>in</strong>e Konstante A ɛ (0, ∞), so dass h′′<br />
< A für alle x, y ɛ V .<br />
(y)<br />
a(x)<br />
h ′ a<br />
E<strong>in</strong>e allgeme<strong>in</strong>ere Fassung von Def<strong>in</strong>ition 5.9 für positive Markovsche Dynamischen<br />
Quellen f<strong>in</strong>det man <strong>in</strong> Chazal <strong>und</strong> Maume-Deschamps [23, Def<strong>in</strong>ition 1].<br />
Mithilfe funktionalanalytischer Methoden wird <strong>in</strong> [20, Proposition 1] gezeigt, dass<br />
jede expandierende <strong>und</strong> analytische Dynamische Quelle ergodisch <strong>und</strong> exponentiell<br />
schnell mischend ist. Somit s<strong>in</strong>d die Voraussetzungen von Satz 5.4 erfüllt, so<br />
dass sich folgendes Korollar ergibt:<br />
Korollar 5.10<br />
Sei (A, (I a ) a ɛ A , σ, T ) e<strong>in</strong>e expandierende <strong>und</strong> analytische Dynamische Quelle mit<br />
emittierter Zeichenfolge Y. S<strong>in</strong>d die Wörter w 1 , . . . , w m ɛ A ∗ , m ɛ N so, dass die<br />
Matrix Σ : = (σ wp,w q<br />
) p,q=1,...,m mit σ v,w wie <strong>in</strong> Lemma 5.3 positiv def<strong>in</strong>it ist, so<br />
konvergiert der normierte Häufigkeitsprozess Z n (mit Z n wie <strong>in</strong> Satz 5.4) <strong>in</strong> Verteilung<br />
gegen e<strong>in</strong>e m-dimensionale Brownsche Bewegung mit Kovarianzmatrix<br />
Σ.
Literaturverzeichnis 85<br />
Literaturverzeichnis<br />
[1] Aki, Sigeo: Empirical processes for occurences of a {0, 1}-pattern. Prepr<strong>in</strong>t,<br />
2004. presented at 2nd International Workshop <strong>in</strong> Applied Probability<br />
(IWAP 2004), Athens, Greece.<br />
[2] Aldous, David: Probability Approximations via the Poisson Clump<strong>in</strong>g Heuristic.<br />
Applied Mathematical Sciences, Band 77. Spr<strong>in</strong>ger-Verlag, 1989.<br />
[3] Arratia, Richard; Goldste<strong>in</strong>, Larry <strong>und</strong> Gordon, Louis: Two moments<br />
suffice for Poisson approximations: The Chen–Ste<strong>in</strong> method. The<br />
Annals of Probability, Band 17, Seite 9–25, 1989.<br />
[4] Arratia, Richard; Goldste<strong>in</strong>, Larry <strong>und</strong> Gordon, Louis: Poisson<br />
approximation and the Chen–Ste<strong>in</strong> method. Statistical Science, Band 5, Seite<br />
403–434, 1990.<br />
[5] Arratia, Richard; Gordon, Louis <strong>und</strong> Waterman, Michael S.: The<br />
Erdös–Rényi law <strong>in</strong> distribution, for co<strong>in</strong> toss<strong>in</strong>g and sequence match<strong>in</strong>g. The<br />
Annals of Statistics, Band 18, Seite 539–570, 1990.<br />
[6] Arratia, Richard <strong>und</strong> Waterman, Michael S.: Critical phenomena <strong>in</strong><br />
sequence match<strong>in</strong>g. The Annals of Probability, Band 13, Seite 1236–1249,<br />
1985.<br />
[7] Arratia, Richard <strong>und</strong> Waterman, Michael S.: An Erdös–Rényi law<br />
with shifts. Advances <strong>in</strong> Mathematics, Band 55, Seite 13–23, 1985.<br />
[8] Arratia, Richard <strong>und</strong> Waterman, Michael S.: A phase transition for<br />
the score <strong>in</strong> match<strong>in</strong>g random sequences allow<strong>in</strong>g deletions. The Annals of<br />
Applied Probability, Band 4, Seite 200–225, 1994.<br />
[9] Balacheff, Serge <strong>und</strong> Dupont, Ghisla<strong>in</strong>: Normalité asymptotique des<br />
processus empirique tronqués et des processus de rang (cas multidimensionnel<br />
mélangeant). In: Dold, A. <strong>und</strong> Eckmann, B. (Herausgeber): Statistique<br />
non Paramétrique Asymptotique. Lecture Notes <strong>in</strong> Mathematics, Band 821,<br />
Seite 19–45, 1979.
86 Literaturverzeichnis<br />
[10] Balakrishnan, Narayanaswamy <strong>und</strong> Koutras, Markos V.: Runs<br />
and Scans with Applications. John Wiley & Sons, 2002.<br />
[11] Barbour, Andrew D.: Topics <strong>in</strong> Poisson approximation. http://<br />
www.math.unizh.ch/~adb/.<br />
[12] Barbour, Andrew D.; Holst, Lars <strong>und</strong> Janson, Svante: Poisson<br />
Approximation. Oxford University Press, 1992.<br />
[13] Barbour, Andrew D. <strong>und</strong> Månsson, Marianne: Compo<strong>und</strong> Poisson<br />
Process Approximation. The Annals of Probability, Band 30, Seite 1492–<br />
1537, 2002.<br />
[14] Baum, Leonard E. <strong>und</strong> Petrie, Ted: Statistical <strong>in</strong>ference for probabilistic<br />
functions of f<strong>in</strong>ite state Markov cha<strong>in</strong>s. Annals of Mathematical Statistics,<br />
Band 37, Seite 1554–1563, 1966.<br />
[15] Behrends, Ehrhard: Introduction to Markov Cha<strong>in</strong>s. With Special Emphasis<br />
on Rapid Mix<strong>in</strong>g. Vieweg & Sohn Verlagsgesellschaft, 2000.<br />
[16] Bickel, Peter J. <strong>und</strong> Wichura, Michael J.: Convergence criteria for<br />
multiparameter stochastic processes and some applications. Annals of Mathematical<br />
Statistics, Band 42, Seite 1656–1670, 1971.<br />
[17] Bill<strong>in</strong>gsley, Patrick: Convergence of Probability Measures. John Wiley<br />
& Sons, 1968.<br />
[18] Bishop, M. J. <strong>und</strong> Rawl<strong>in</strong>gs, C. J. (Herausgeber): DNA and Prote<strong>in</strong><br />
Sequence Analysis. Oxford University Press, 1997.<br />
[19] Borovkov, K. A.: A functional form of the Erdös–Rényi law of large numbers.<br />
Theory of Probability and its Applications, Band 35, Seite 762–766,<br />
1990.<br />
[20] Bourdon, Jérémie <strong>und</strong> Vallée, Brigitte: Generalized Pattern Match<strong>in</strong>g<br />
Statistics. In: Chauv<strong>in</strong>, Brigitte et al. (Herausgeber):<br />
Mathematics and Computer Science II. Algorithms, trees, comb<strong>in</strong>atorics<br />
and probabilities. Proceed<strong>in</strong>gs of the 2nd colloquium, Versailles–St.-<br />
Quent<strong>in</strong>, France, September 16–19. Basel, Seite 249–265. Birkhäuser, 2002.<br />
http://users.<strong>in</strong>fo.unicaen.fr/~bourdon/.<br />
[21] Brémaud, Pierre: Markov Cha<strong>in</strong>s. Gibbs Fields, Monte Carlo Simulation,<br />
and Queues. Spr<strong>in</strong>ger-Verlag, 1999.<br />
[22] Bucklew, James A.: Large Deviation Techniques <strong>in</strong> Decision, Simulation,<br />
and Estimation. Wiley & Sons, 1990.
Literaturverzeichnis 87<br />
[23] Chazal, Frédéric <strong>und</strong> Maume-Deschamps, Véronique: Statistical<br />
properties of Markov dynamical sources: applications to <strong>in</strong>formation<br />
theory. Discrete Mathematics & Theoretical Computer<br />
Science, Band 6, Seite 283–314, 2004. http://www.emis.de/<br />
journals/DMTCS/volumes/abstracts/dm060208.abs.html.<br />
[24] Chazal, Frédéric; Maume-Deschamps, Véronique <strong>und</strong> Vallée,<br />
Brigitte: Erratum to: Dynamical sources <strong>in</strong> <strong>in</strong>formation theory: F<strong>und</strong>amental<br />
<strong>in</strong>tervals and word prefixes. Algorithmica, Band 38, Seite 591–596,<br />
2004.<br />
[25] Chen, Ch<strong>in</strong>gfer <strong>und</strong> Karl<strong>in</strong>, Samuel: Poisson approximation for conditional<br />
r-scan lengths of multiple renewal processes and application to marker<br />
arrays <strong>in</strong> biomolecular sequences. Journal of Applied Probability, Band 37,<br />
Seite 865–880, 2000.<br />
[26] Chen, Louis H. Y.: Poisson approximation for dependent trials. The Annals<br />
of Probability, Band 3, Seite 534–545, 1975.<br />
[27] Chvátal, Vacláv <strong>und</strong> Sankoff, David: Longest common subsequences<br />
of two random sequences. Journal of Applied Probability, Band 12, Seite<br />
306–315, 1975.<br />
[28] Cover, Thomas M. <strong>und</strong> Thomas, Joy A.: Elements of Information<br />
Theory. John Wiley & Sons, 1991.<br />
[29] Csiszár, Imre <strong>und</strong> Körner, János: Information Theory. Academic Press,<br />
1981.<br />
[30] Czihak, Gerhard; Langer, Helmut <strong>und</strong> Ziegler, Hubert (Herausgeber):<br />
Biologie. Spr<strong>in</strong>ger-Verlag, Sechste Auflage, 1996.<br />
[31] Daley, D. J. <strong>und</strong> Vere-Jones, D.: An Introduction to the Theory of<br />
Po<strong>in</strong>t Processes. Spr<strong>in</strong>ger Series <strong>in</strong> Statistics. Spr<strong>in</strong>ger-Verlag, 1988.<br />
[32] Dembo, Amir <strong>und</strong> Karl<strong>in</strong>, Samuel: Poisson approximations for r-scan<br />
processes. The Annals of Applied Probability, Band 2, Seite 329–357, 1992.<br />
[33] Dembo, Amir; Karl<strong>in</strong>, Samuel <strong>und</strong> Zeitouni, Ofer: Critical phenomena<br />
for sequence match<strong>in</strong>g with scor<strong>in</strong>g. The Annals of Probability, Band 22,<br />
Seite 1993–2021, 1994.<br />
[34] Dembo, Amir; Karl<strong>in</strong>, Samuel <strong>und</strong> Zeitouni, Ofer: Limit distribution<br />
of maximal non-aligned two-sequence segmental score. The Annals of<br />
Probability, Band 22, Seite 2022–2039, 1994.
88 Literaturverzeichnis<br />
[35] Dembo, Amir <strong>und</strong> Zeitouni, Ofer: Large Deviations Techniques and Applications.<br />
Spr<strong>in</strong>ger-Verlag, 2. Auflage, 1998.<br />
[36] Deuschel, Jean-Dom<strong>in</strong>ique <strong>und</strong> Stroock, Daniel W.: Large Deviations.<br />
Academic Press Inc., 1989. Rev. ed.<br />
[37] Doob, Joseph L.: Stochastic Processes. John Wiley & Sons, Siebte Auflage,<br />
1967.<br />
[38] Dorea, Chang C. Y. <strong>und</strong> Zhao, L<strong>in</strong> Cheng: Nonparametric density<br />
estimation <strong>in</strong> hidden Markov models. Statistical Inference for Stochastic<br />
Processes, Band 5, Seite 55–64, 2002.<br />
[39] Doukhan, Paul: Mix<strong>in</strong>g: Properties and Examples. Lecture Notes <strong>in</strong> Statistics,<br />
Band 85. Spr<strong>in</strong>ger-Verlag, 1994.<br />
[40] Durb<strong>in</strong>, R.; Eddy, S.; Krogh, A. <strong>und</strong> Mitchison, G.: Biological Sequence<br />
Analysis. Cambridge University Press, 1998. Repr<strong>in</strong>ted 2000.<br />
[41] Erdös, Paul <strong>und</strong> Rényi, Alfred: On a new law of large numbers. Journal<br />
d’Analyse Mathematique, Band 23, Seite 103–111, 1970.<br />
[42] Flajolet, Philippe; Guivarc’h, Yves; Szpankowski, Wojciech <strong>und</strong><br />
Vallée, Brigitte: Hidden pattern statistics. In: Orejas, Fernando<br />
(Herausgeber): Automata, Languages and Programm<strong>in</strong>g, 28th <strong>in</strong>ternational<br />
Colloquium, ICALP 2001, Crete, Greece, Seite 152–165. Spr<strong>in</strong>ger, 2001.<br />
[43] Foissac, Sylva<strong>in</strong>; Bardou, Philippe; Moisan, Annick;<br />
Cros, Marie-Josée <strong>und</strong> Schiex, Thomas: EuGène’Hom: a generic<br />
similarity-based gene f<strong>in</strong>der us<strong>in</strong>g multiple homologous sequences.<br />
Nucleic Acids Research, Band 31, Seite 3742–3745, 2003.<br />
http://nar.oxfordjournals.org/cgi/content/full/31/13/3742.<br />
[44] Genon-Catalot, Valent<strong>in</strong>e; Jeantheau, Thierry <strong>und</strong> Laredo, Cather<strong>in</strong>e:<br />
Stochastic volatility models as hidden Markov models and statistical<br />
applications. Bernoulli, Band 6, Seite 1051–1079, 2000.<br />
[45] Genon-Catalot, Valent<strong>in</strong>e; Jeantheau, Thierry <strong>und</strong> Laredo, Cather<strong>in</strong>e:<br />
Conditional likelihood estimators for hidden Markov models and<br />
stochastic volatility models. Scand<strong>in</strong>avian Journal of Statistics, Band 30,<br />
Seite 297–316, 2003.<br />
[46] Genon-Catalot, Valent<strong>in</strong>e <strong>und</strong> Laredo, Cather<strong>in</strong>e: Leraux’s method<br />
for general hidden Markov models. Stochastic Processes and Their Applications,<br />
Band 116, Seite 222–243, 2006.
Literaturverzeichnis 89<br />
[47] Glaz, Joseph <strong>und</strong> Balakrishnan, Narayanaswamy (Herausgeber):<br />
Scan Statistics and Applications. Statistics for Industry and Technology.<br />
Birkhäuser, 1999.<br />
[48] Goldste<strong>in</strong>, Larry: Poisson approximation and DNA sequence match<strong>in</strong>g.<br />
Communications <strong>in</strong> Statistics - Theory and Methods, Band 19, Seite 4167–<br />
4179, 1990.<br />
[49] Greene, Daniel H. <strong>und</strong> Knuth, Donald E.: Mathematics for the Analysis<br />
of Algorithms. Progress <strong>in</strong> Computer Science. Birkhäuser, 1981.<br />
[50] Hansen, Niels Richard: Markov controlled excursions, local alignment<br />
and structure. Doktorarbeit, Department of Applied Mathematics and Statistics,<br />
University of Copenhagen, 2003. http://www.stat.ku.dk/˜richard/.<br />
[51] Jann<strong>in</strong>g, Wilfried <strong>und</strong> Knust, Elisabeth: Genetik. Georg Thieme<br />
Verlag, 2004.<br />
[52] Karatzas, Ioannis <strong>und</strong> Shreve, Steven E.: Brownian Motion and Stochastic<br />
Calculus. Spr<strong>in</strong>ger-Verlag, Zweite Auflage, 1991.<br />
[53] Karl<strong>in</strong>, Samuel <strong>und</strong> Chen, Ch<strong>in</strong>gfer: r-scan statistics of a marker array<br />
<strong>in</strong> multiple sequences derived from a common progenitor. The Annals of<br />
Applied Probability, Band 10, Seite 709–725, 2000.<br />
[54] Karl<strong>in</strong>, Samuel <strong>und</strong> Dembo, Amir: Limit distributions of maximal segmental<br />
score among Markov-dependent partial sums. Advances <strong>in</strong> Applied<br />
Probability, Band 24, Seite 113–140, 1992.<br />
[55] Kleffe, Jürgen <strong>und</strong> Borodovsky, Mark: First and second moment of<br />
counts of words <strong>in</strong> random texts generated by Markov cha<strong>in</strong>s. CABIOS –<br />
Computer Applications <strong>in</strong> the Bioscenes, Band 8, Seite 433–441, 1992.<br />
[56] Kullback, Solomon: Information theory and statistics. M<strong>in</strong>eola, NY:<br />
Dover Publications, Repr<strong>in</strong>t der zweiten Auflage, 1997.<br />
[57] Lauer, Christian: Sequence Match<strong>in</strong>g – Theorie <strong>und</strong> Methoden. Diplomarbeit,<br />
Albert-Ludwigs-Universität Freiburg i. Br., August 1999.<br />
[58] Leung, M<strong>in</strong>g-Y<strong>in</strong>g; Choi, Kwok Pui; Xia, Aihua <strong>und</strong> Chen,<br />
Louis H.Y.: Nonrandom clusters of pal<strong>in</strong>dromes <strong>in</strong> herpesvirus genomes.<br />
Journal of Computational Biology, Band 12, Seite 331–354, 2005.<br />
[59] Liu, J<strong>in</strong>gjun: Functional Erdös–Rényi laws for ϕ-mix<strong>in</strong>g random variables.<br />
Ch<strong>in</strong>ese Journal of Contemporary Mathematics, Band 21, Seite 15–22, 2000.
90 Literaturverzeichnis<br />
[60] Maxwell, Michael <strong>und</strong> Woodroofe, Michael: A local limit theorem<br />
for hidden Markov cha<strong>in</strong>s. Statistics & Probability Letters, Band 32, Seite<br />
125–131, 1997.<br />
[61] Neuhauser, Claudia: A Poisson approximation for sequence comparisons<br />
with <strong>in</strong>sertions and deletions. The Annals of Statistics, Band 22, Seite 1603–<br />
1629, 1994.<br />
[62] Nicodème, Pierre; Salvy, Bruno <strong>und</strong> Flajolet, Philippe: Motif statistics.<br />
Theoretical Computer Science, Band 287, Seite 593–617, 2002.<br />
[63] Nicolas, Pierre <strong>und</strong> Muri-Majoube, Florence: R’HOM – Programs<br />
to segment DNA sequences <strong>in</strong>to homogeneous regions. http://<br />
genome.jouy.<strong>in</strong>ra.fr/ssb/rhom/rhom doc/rhom doc.html, 2001. Software<br />
Research of HOMogeneous regions <strong>in</strong> DNA sequences“, http://<br />
”<br />
genome.jouy.<strong>in</strong>ra.fr/ssb/rhom/.<br />
[64] Novak, Serguei Yu.: Poisson approximation for the number of long match<br />
patterns <strong>in</strong> random sequences. Theory of Probability and Its Applications,<br />
Band 39, Seite 593–603, 1994.<br />
[65] Peligrad, Magda <strong>und</strong> Utev, Sergey: Central limit theorem for l<strong>in</strong>ear<br />
processes. The Annals of Probability, Band 25, Seite 443–456, 1997.<br />
[66] Philipp, Walter: The central limit problem for mix<strong>in</strong>g sequences of random<br />
variables. Zeitschrift für Wahrsche<strong>in</strong>lichkeitstheorie <strong>und</strong> verwandte Gebiete,<br />
Band 12, Seite 155–171, 1969.<br />
[67] Philipp, Walter <strong>und</strong> Webb, Geoffrey R.: An <strong>in</strong>variance pr<strong>in</strong>ciple for<br />
mix<strong>in</strong>g sequences of random variables. Zeitschrift für Wahrsche<strong>in</strong>lichkeitstheorie<br />
<strong>und</strong> verwandte Gebiete, Band 25, Seite 223–237, 1973.<br />
[68] Piterbarg, V.I.: Asymptotic methods <strong>in</strong> the theory of Gaussian processes<br />
and fields. Translations of Mathematical Monographs, 1996. Aus dem<br />
Russischen übersetzt von V. V. Piterbarg.<br />
[69] Pozdnyakov, V.; Glaz, Joseph; Kulldorff, M. <strong>und</strong> Steele, J. Michael:<br />
A mart<strong>in</strong>gale approach to scan statistics. Annals of the Institute of<br />
Statistical Mathematics, Band 57, Seite 21–37, 2005.<br />
[70] Rab<strong>in</strong>er, Lawrence R.: A tutorial on hidden Markov models and selected<br />
applications <strong>in</strong> speech recognition. Proceed<strong>in</strong>gs of the IEEE, Band 77,<br />
Seite 257–286, 1989. http://ieeexplore.ieee.org/xpl/abs free.jsp?<br />
arNumber=18626.<br />
[71] Régnier, Mireille: A unified approach to word statistics. In: RECOMB,<br />
Seite 207–213, 1998. http://doi.acm.org/10.1145/279069.279116.
Literaturverzeichnis 91<br />
[72] Régnier, Mireille <strong>und</strong> Szpankowski, Wojciech: On the approximate<br />
pattern occurrences <strong>in</strong> a text. In: Society, IEEE Computer (Herausgeber):<br />
Compression and Complexity of SEQUENCES, Positano, Italy, Seite<br />
253–264, 1997.<br />
[73] Régnier, Mireille <strong>und</strong> Szpankowski, Wojciech: On pattern frequency<br />
occurences <strong>in</strong> a Markovian sequence. Algorithmica, Band 22, Seite 631–649,<br />
1998. This paper was presented <strong>in</strong> part at the 1997 International Symposium<br />
on Information Theory, Ulm, Germany.<br />
[74] Reiss, Rolf-Dieter: A Course on Po<strong>in</strong>t Processes. Spr<strong>in</strong>ger Series <strong>in</strong><br />
Statistics. Spr<strong>in</strong>ger-Verlag, 1993.<br />
[75] Resnick, Sidney I.: Extreme Values, Regular Variation and Po<strong>in</strong>t Processes.<br />
Spr<strong>in</strong>ger-Verlag, 1987.<br />
[76] Revuz, Daniel <strong>und</strong> Yor, Marc: Cont<strong>in</strong>uous Mart<strong>in</strong>gales and Brownian<br />
Motion. Spr<strong>in</strong>ger-Verlag, Dritte Auflage, 1999.<br />
[77] Rob<strong>in</strong>, Stéphane <strong>und</strong> Daud<strong>in</strong>, Jean-Jacques: Exact distribution of<br />
word occurences <strong>in</strong> a random sequence of letters. Journal of Applied Probability,<br />
Band 36, Seite 179–193, 1999.<br />
[78] Roman, Steven: Introduction to cod<strong>in</strong>g and <strong>in</strong>formation theory. Spr<strong>in</strong>ger-<br />
Verlag, 1997.<br />
[79] Ryden, Tobias: Estimat<strong>in</strong>g the order of hidden Markov models. Statistics,<br />
Band 26, Seite 345–354, 1995.<br />
[80] Sanchis, Gabriela R.: A functional limit theorem for Erdös-Rényi’s law<br />
of large numbers. Probability Theory and Related Fields, Band 98, Seite<br />
1–5, 1994.<br />
[81] Schiex, Thomas; Moisan, Annick; Duret, Lucien <strong>und</strong> Rouzé, Pierre:<br />
EuGène: A simple yet effective gene f<strong>in</strong>der for eucaryotic organisms<br />
(Arabidopsis thaliana). In: Proc. of the Second Georgia Tech International<br />
Conference on Bio<strong>in</strong>formatics – In silico Biology, Atlanta, 1999. http://<br />
www.<strong>in</strong>ra.fr/mia/T/schiex/Doc/publis.shtml.<br />
[82] Schön<strong>in</strong>g, Uwe: Theoretische Informatik kurz gefasst. B.I.Wissenschaftsverlag,<br />
1992.<br />
[83] Shannon, Claude E. <strong>und</strong> Weaver, W.: The Mathematical Theory of<br />
Communication. University of Ill<strong>in</strong>ois Press, 1963.<br />
[84] Siegm<strong>und</strong>, David <strong>und</strong> Yakir, Benjam<strong>in</strong>: Approximate p-values for local<br />
sequence alignments. The Annals of Statistics, Band 28, Seite 657–680, 2000.
92 Literaturverzeichnis<br />
[85] Siegm<strong>und</strong>, David <strong>und</strong> Yakir, Benjam<strong>in</strong>: Correction: Approximate p-<br />
values for local sequence alignments. The Annals of Statistics, Band 31,<br />
Seite 1027–1031, 2003.<br />
[86] Spang, Ra<strong>in</strong>er <strong>und</strong> V<strong>in</strong>gron, Mart<strong>in</strong>: Limits of homology detection by<br />
pairwise sequence comparison. Bio<strong>in</strong>formatics, Band 17, Seite 338–342, 2001.<br />
[87] Steele, J. Michael: Long common subsequence and the proximity of two<br />
random str<strong>in</strong>gs. SIAM Journal of Applied Mathematics, Band 42, Seite<br />
731–736, 1982.<br />
[88] Stefanov, Valeri T.: The <strong>in</strong>tersite distances between pattern occurences<br />
<strong>in</strong> str<strong>in</strong>gs generated by general discrete- and cont<strong>in</strong>uous-time models: An<br />
algorithmic approach. Journal of Applied Probability, Band 40, Seite 881–<br />
892, 2003.<br />
[89] Ste<strong>in</strong>, Charles: A bo<strong>und</strong> for the error <strong>in</strong> the normal approximation to the<br />
distribution of a sum of dependent random variables. In: LeCam, Lucien<br />
M.; Neyman, Jerzy <strong>und</strong> Scott, Elizabeth L. (Herausgeber): Proceed<strong>in</strong>gs<br />
of the sixth Berkeley Symposium on Mathematical Statistics and<br />
Probability, Band II, Seite 583–602. University of California Press, 1970.<br />
[90] Szpankowski, Wojciech: Average Case Analysis of Algorithms on Sequences.<br />
John Wiley & Sons, 2000.<br />
[91] Szpankowski, Wojciech: New and old problems <strong>in</strong> pattern match<strong>in</strong>g: Limited<br />
(and personal) survey. Vortrag zum Seventh International Sem<strong>in</strong>ar on<br />
the Analysis of Algorithms, Tatihou, France, Juni 2001.<br />
[92] Vallée, Brigitte: Dynamical sources <strong>in</strong> <strong>in</strong>formation theory: f<strong>und</strong>amental<br />
<strong>in</strong>tervals and word prefixes. Algorithmica, Band 29, Seite 262–306, 2001.<br />
[93] Varadhan, S. R. Sr<strong>in</strong>ivasa: Large Deviations and Applications. SIAM,<br />
1984.<br />
[94] Waterman, Michael S.: Introduction to Computational Biology. Chapman<br />
& Hall, 1995. Repr<strong>in</strong>t 1996.<br />
[95] Watson, James D. <strong>und</strong> Crick, Francis H. C.: A structure for deoxyribose<br />
nucleic acid. Nature, Band 171, Seite 737–738, 1953.