27.08.2014 Aufrufe

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

Muster und Alignments in zufälligen Zeichenketten - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Muster</strong> <strong>und</strong> <strong>Alignments</strong><br />

<strong>in</strong> zufälligen <strong>Zeichenketten</strong><br />

Dissertation<br />

zur Erlangung des Doktorgrades<br />

der Fakultät für Mathematik <strong>und</strong> Physik<br />

der Albert-Ludwigs-Universität<br />

Freiburg im Breisgau<br />

vorgelegt von<br />

Christian Lauer<br />

Mai 2006


Dekan: Prof. Dr. J. Honerkamp<br />

1. Referent: Prof. Dr. L. Rüschendorf<br />

2. Referent: Prof. Dr. D. Pfeifer, Oldenburg<br />

Datum der Promotion: 26. Juli 2006


i<br />

E<strong>in</strong>leitung<br />

Die Fortschritte der Molekularbiologie seit der Entdeckung der Doppelhelixstruktur<br />

im Jahr 1953 durch Watson <strong>und</strong> Crick [95] eröffneten völlig neuartige Möglichkeiten<br />

zur Diagnostik <strong>und</strong> Therapie <strong>in</strong> der Mediz<strong>in</strong>, trugen zum vieldiskutierten<br />

E<strong>in</strong>satz der Gentechnik <strong>in</strong> der Agrarwirtschaft beziehungsweise Nahrungsmittel<strong>in</strong>dustrie<br />

bei, s<strong>in</strong>d fester Bestandteil <strong>in</strong> der Krim<strong>in</strong>altechnik sowie Gr<strong>und</strong>lage für<br />

viele historische <strong>und</strong> anthropologische Studien <strong>und</strong> haben viele andere Lebensbereiche<br />

bee<strong>in</strong>flusst. Der E<strong>in</strong>satz dieser neuen Erkenntnisse wäre zumeist nicht<br />

ohne die Methoden der Mathematik, <strong>in</strong>sbesondere der mathematischen Statistik,<br />

möglich gewesen. Viele Ergebnisse beruhen auf neuen Methoden Daten auszuwerten,<br />

zu verarbeiten, zu klassifizieren <strong>und</strong> zu <strong>in</strong>terpretieren. Insbesondere bei der<br />

Klassifikation <strong>und</strong> Interpretation g<strong>in</strong>g die Forschung im Labor mit gravierenden<br />

Fortschritten <strong>in</strong> der Mathematik e<strong>in</strong>her, die Relevanz der beobachteten Daten<br />

e<strong>in</strong>schätzen zu können.<br />

Um die Forschung auf diesem Gebiet voranzubr<strong>in</strong>gen war <strong>und</strong> ist e<strong>in</strong>e fächerübergreifende<br />

Zusammenarbeit verschiedener Diszipl<strong>in</strong>en notwendig:<br />

• Das Erfassen der Problemstellung erfordert e<strong>in</strong> gr<strong>und</strong>legendes Verständnis<br />

der biologischen <strong>und</strong> chemischen Zusammenhänge.<br />

• Ohne den E<strong>in</strong>satz immer effizienterer Algorithmen aus dem Gebiet der Informatik<br />

hätte wohl auch der rasante Fortschritt <strong>in</strong> der Computertechnik<br />

nicht ausgereicht, um die auftretenden Datenmengen zu verarbeiten.<br />

• Aus dem Bereich der mathematischen Statistik werden für die neuen<br />

Fragestellungen <strong>und</strong> den daraus entstehenden Verfahren präzise Formeln<br />

zur Berechnung beziehungsweise Approximation von Wahrsche<strong>in</strong>lichkeiten<br />

benötigt, um die Signifikanz der im Labor oder numerisch ermittelten Daten<br />

e<strong>in</strong>schätzen zu können.<br />

Historisch s<strong>in</strong>d die mathematischen Fragestellungen auf die Artikel von Erdös<br />

<strong>und</strong> Rényi [41], wo 1970 das Auftreten von außergewöhnlich vielen ”<br />

1“en <strong>in</strong> e<strong>in</strong>er<br />

Folge von Bernoulli-verteilten Zufallsvariablen betrachtet wurde <strong>und</strong> von Chvátal<br />

<strong>und</strong> Sankoff [27], wo 1975 die Länge der längsten geme<strong>in</strong>samen Teilfolge zweier<br />

zufälliger <strong>Zeichenketten</strong> untersucht wurde, zurückzuführen.


ii<br />

In der vorliegenden Arbeit werden Fragestellungen, wie sie hauptsächlich <strong>in</strong> der<br />

Molekularbiologie aber auch <strong>in</strong> vielen anderen Bereichen, wie etwa der Spracherkennung,<br />

der <strong>Muster</strong>suche oder der Fehlererkennung <strong>und</strong> -korrektur, auftreten,<br />

aus mathematischer Perspektive untersucht. Daher werden im ersten Kapitel<br />

nicht nur die verwendeten mathematischen Bezeichnungen e<strong>in</strong>geführt, sondern<br />

auch die biologischen Gr<strong>und</strong>lagen skizziert. Die <strong>in</strong> der Molekularbiologie<br />

behandelten DNS- beziehungsweise Prote<strong>in</strong>sequenzen werden mathematisch als<br />

zufällige <strong>Zeichenketten</strong> über e<strong>in</strong>em Alphabet mit vier beziehungsweise zwanzig<br />

Buchstaben aufgefasst. Daher stehen <strong>in</strong> dieser Arbeit Folgen von Zufallsvariablen<br />

über e<strong>in</strong>em endlichen Alphabet im Vordergr<strong>und</strong>. Genauer wird das Grenzwertverhalten<br />

ausgewählter Funktionale, wie sie <strong>in</strong> obigen Anwendungen auftreten,<br />

untersucht, wenn die Länge der zufälligen Folgen gegen unendlich konvergiert.<br />

Im Gegensatz zu vielen anderen Anwendungen besteht die Schwierigkeit der Aufgabe<br />

hier nicht dar<strong>in</strong>, aus wenigen Daten möglichst viele Informationen nutzbar<br />

zu machen oder e<strong>in</strong> robustes Verfahren zu entwickeln. Ziel der verwendeten mathematischen<br />

Methoden ist vielmehr, die relevante Information effizient aus der<br />

Fülle der Daten zu extrahieren. Mit der wachsenden Zahl <strong>und</strong> Größe der bekannten<br />

DNS- <strong>und</strong> Prote<strong>in</strong>sequenzen, werden immer ökonomischere Verfahren<br />

notwendig, um relevante Teile automatisch zu identifizieren oder Ähnlichkeiten<br />

festzustellen.<br />

Diese Verfahren müssen auf der e<strong>in</strong>en Seite so sensitiv se<strong>in</strong>, dass ke<strong>in</strong>e funktionellen<br />

Segmente oder Ähnlichkeiten mit anderen Organismen übersehen werden, auf<br />

der anderen Seite jedoch auch möglichst selektiv se<strong>in</strong>, da weitere Untersuchungen<br />

im Labor meist mit erheblichem zeitlichem oder f<strong>in</strong>anziellem Aufwand verb<strong>und</strong>en<br />

s<strong>in</strong>d.<br />

Das zweite Kapitel behandelt den Vergleich zweier <strong>Zeichenketten</strong> mittels lokalem<br />

”<br />

Sequence Match<strong>in</strong>g“. Mit dem Artikel von Siegm<strong>und</strong> <strong>und</strong> Yakir [84] kann<br />

die Frage nach dem maximalen Score beim lokalen Sequence Match<strong>in</strong>g mit Gaps<br />

<strong>in</strong>sofern als umfassend gelöst angesehen werden, als im Fall unabhängiger <strong>Zeichenketten</strong><br />

e<strong>in</strong>e Formel zur approximativen Berechnung von p-Werten angegeben<br />

wurde. Weitere Arbeiten von Hansen [50] <strong>und</strong> Liu [59] befassen sich mit Sequence<br />

Match<strong>in</strong>g ohne Gaps von Markov-Ketten <strong>und</strong> ϕ-mischenden Folgen.<br />

Von Spang <strong>und</strong> V<strong>in</strong>gron [86] wurde jedoch das zusätzliche Problem aufgezeigt,<br />

dass viele Ähnlichkeiten von entfernt verwandten Gen- beziehungsweise Prote<strong>in</strong>sequenzen<br />

im statistischen Rauschen, das von der enormen Anzahl der <strong>in</strong> Datenbanken<br />

gespeicherten Sequenzen herrührt, übersehen werden. Dieses wird <strong>in</strong> den<br />

oben genannten Veröffentlichungen nicht behandelt.<br />

Um dem Problem, das aus den exponentiell schnell wachsenden Datenbankgrößen<br />

resultiert, entgegenzuwirken werden <strong>in</strong> dieser Arbeit die d größten Scores betrachtet.<br />

Dies bietet die Möglichkeit, mehr Information aus den <strong>Zeichenketten</strong> zu<br />

nutzen <strong>und</strong> dadurch die Selektivität der e<strong>in</strong>gesetzten Algorithmen zu verbessern.


iii<br />

Mithilfe der Ste<strong>in</strong>–Chen-Methode wird gezeigt, dass die d größten Scores im Limes<br />

unabhängigen Gumbel-Verteilungen folgen. Des Weiteren wird e<strong>in</strong>e Formel zur<br />

effektiven Berechnung der approximativen Wahrsche<strong>in</strong>lichkeit, dass die d größten<br />

Scores bestimmte Schwellenwerte überschreiten, angegeben. Dieses Ergebnis kann<br />

als Gr<strong>und</strong>lage für e<strong>in</strong> neues, selektiveres Verfahren zum Vergleichen zweier <strong>Zeichenketten</strong><br />

dienen.<br />

log n<br />

log log n<br />

Im Weiteren wird das Auftreten von <strong>Muster</strong>n <strong>in</strong> e<strong>in</strong>er Zeichenkette unter diversen<br />

mathematischen Fragestellungen untersucht.<br />

So steht im dritten Kapitel die Scan-Statistik im Mittelpunkt, bei der <strong>in</strong>nerhalb<br />

e<strong>in</strong>es sogenannten Scan-Fensters nach auffällig häufigem Auftreten e<strong>in</strong>es <strong>Muster</strong>s<br />

der Länge l <strong>in</strong> e<strong>in</strong>er ϕ-mischenden Folge gesucht wird. In der Biologie wird mit<br />

dieser Methode meist nach speziellen funktionellen Gruppen wie beispielsweise<br />

e<strong>in</strong>em Startpunkt der DNS-Replikation oder von Viren für die Infektion e<strong>in</strong>er<br />

Wirtszelle genutzten Angriffspunkten gesucht. So wird <strong>in</strong> Leung, Choi, Xia <strong>und</strong><br />

Chen [58] mittels der Scan-Statistik nach Regionen mit außergewöhnlich vielen<br />

Pal<strong>in</strong>dromen gesucht, weil diese mit der Replikation von Herpesviren <strong>in</strong> Verb<strong>in</strong>dung<br />

gebracht werden.<br />

Die Literatur zu diesem Thema, das eng mit der Wartezeit auf den ersten Erfolg<br />

<strong>und</strong> dem Auftreten von Runs“ zusammenhängt, ist sehr umfangreich <strong>und</strong><br />

”<br />

vielfältig, siehe etwa die Bücher von Glaz <strong>und</strong> Balakrishnan [47] <strong>und</strong> Balakrishnan<br />

<strong>und</strong> Koutras [10]. Des Weiteren wird die Scan-Statistik beispielsweise <strong>in</strong> Dembo<br />

<strong>und</strong> Karl<strong>in</strong> [32] untersucht, wo mittels der Ste<strong>in</strong>–Chen-Methode e<strong>in</strong>e Poisson-<br />

Approximation für das Über- beziehungsweise Unterschreiten von Schwellenwerten<br />

gezeigt <strong>und</strong> daraus e<strong>in</strong>e asymptotische Extremwertverteilung der Scan-<br />

Statistik abgleitet wird. Ebenfalls mit der Ste<strong>in</strong>–Chen-Methode wird <strong>in</strong> Chen <strong>und</strong><br />

Karl<strong>in</strong> [25] das asymptotische Verhalten des bed<strong>in</strong>gten Scan-Modells“, das die<br />

”<br />

parallele Suche nach mehreren Markern (vergleichbar mit den hier verwendeten<br />

<strong>Muster</strong>n) <strong>in</strong> e<strong>in</strong>er Zeichenkette beschreibt, untersucht. In der praxisorientierten<br />

Veröffentlichung von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] f<strong>in</strong>det sich zum<br />

e<strong>in</strong>en e<strong>in</strong>e Schätzung der Parameter der Extremwertverteilung mittels Erzeugenden<br />

Funktionen sowie der Verwendung von Ergebnissen aus der Theorie der<br />

Mart<strong>in</strong>gale <strong>und</strong> zum anderen e<strong>in</strong>e ausführliche Übersicht über weitere Literatur.<br />

In den genannten Artikeln ist die Anzahl der Zeichen im Scan-Fenster konstant,<br />

beziehungsweise <strong>in</strong> Dembo <strong>und</strong> Karl<strong>in</strong> [32] konstant oder höchstens von der Ordnung<br />

wachsend, wobei n die Länge der Zeichenkette bezeichnet. Es wird<br />

e<strong>in</strong>e asymptotische Extremwertverteilung des Supremums des Scan-Prozesses hergeleitet.<br />

In dieser Arbeit wird demgegenüber der Scan-Prozess mit größerem Scan-Fenster<br />

mit nr n Zeichen betrachtet. Falls r n monoton fallend <strong>und</strong> asymptotisch konstant<br />

ist, r n ↘ r > 0, ergibt sich für den Scan-Prozess e<strong>in</strong> Limesresultat <strong>in</strong> D[0, 1]<br />

mit Gaußschem Prozess als Grenzwert. Dieses erlaubt <strong>in</strong>sbesondere auch, die


iv<br />

maximale Scan-Statistik zu approximieren. Im Fall r n ↘ 0 erhält man lediglich<br />

die Konvergenz der endlichdimensionalen Randverteilungen.<br />

Im vierten Kapitel soll e<strong>in</strong>e neue Sichtweise auf die <strong>Muster</strong>suche e<strong>in</strong>genommen<br />

werden: Wie verändert sich der Prozess, der die Anzahl des Vorkommens e<strong>in</strong>es<br />

<strong>Muster</strong>s beschreibt, mit der Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet?<br />

Diese Fragestellung wurde 2004 von Aki [1] für e<strong>in</strong>e Zeichenkette, die von e<strong>in</strong>er<br />

unabhängigen Zufallsfolge auf e<strong>in</strong>em b<strong>in</strong>ären Alphabet erzeugt wird, untersucht.<br />

Zum Beweis der Konvergenz des dort konstruierten <strong>Muster</strong>prozesses mit e<strong>in</strong>em<br />

Parameter gegen e<strong>in</strong>en Gauß-Prozess wurden analoge Methoden, wie für den<br />

Nachweis der Konvergenz der empirischen Verteilungsfunktion <strong>in</strong> Bill<strong>in</strong>gsley [17,<br />

Abschnitt 22] verwendet.<br />

Dieses Ergebnis wird <strong>in</strong> der vorliegenden Arbeit <strong>in</strong> mehrere Richtungen verallgeme<strong>in</strong>ert:<br />

So wird hier die zu durchsuchende Zeichenkette von e<strong>in</strong>er ϕ-mischenden<br />

Folge von Zufallsvariablen erzeugt. Des Weiteren wird e<strong>in</strong> beliebiges endliches<br />

Alphabet mit ξ Zeichen betrachtet, so dass der <strong>Muster</strong>prozess von ξ-1 Parametern,<br />

die die Wahrsche<strong>in</strong>lichkeitsverteilung auf dem Alphabet angeben, abhängt.<br />

Außerdem wird e<strong>in</strong> zusätzlicher ”<br />

Zeitparameter“ e<strong>in</strong>geführt, der die Position <strong>in</strong>nerhalb<br />

der Zeichenkette X 1 , . . . , X n angibt.<br />

Mithilfe e<strong>in</strong>es Ergebnisses von Balacheff <strong>und</strong> Dupont [9] wird gezeigt, dass der<br />

empirische <strong>Muster</strong>prozess konvergiert <strong>und</strong> dass der Grenzprozess stetig von der<br />

Verteilung der Zeichen <strong>und</strong> dem Zeitparameter abhängt. Hierzu wird das Problem<br />

im Kontext der Theorie der empirischen Prozesse betrachtet. Da die Wahrsche<strong>in</strong>lichkeitsverteilung<br />

auf dem Alphabet <strong>in</strong> der Praxis zumeist aus den Beobachtungen<br />

geschätzt wird, rechtfertigt die bewiesene Stetigkeit die Annahme, dass e<strong>in</strong>e<br />

h<strong>in</strong>reichend gute Schätzung der Zeichenwahrsche<strong>in</strong>lichkeiten e<strong>in</strong>e gute Approximation<br />

des <strong>Muster</strong>prozesses ergibt. Konkrete Fehlerabschätzungen erhöhen den<br />

praktischen Nutzen der Ergebnisse.<br />

Um das Erzeugen der zufälligen Zeichenkette <strong>in</strong> e<strong>in</strong>em möglichst allgeme<strong>in</strong>en<br />

Modell geht es im fünften Kapitel. Das schon 1966 von Baum <strong>und</strong> Petrie <strong>in</strong> [14]<br />

untersuchte Hidden-Markov“-Modell wird <strong>in</strong> der Praxis auch heute noch verwendet,<br />

da es viele konkrete Anpassungen des Modells an praktische Fragestellungen<br />

”<br />

<strong>und</strong> effiziente Methoden zur Bestimmung oder Schätzung der Parameter gibt.<br />

Vallée [92] lieferte 2001 mit den Dynamischen Quellen“ e<strong>in</strong>en Ansatz, der durch<br />

”<br />

die Theorie der Dynamischen Systeme motiviert ist. Beiden Modellen ist geme<strong>in</strong>,<br />

dass die Zeichenkette durch e<strong>in</strong>en verborgenen“ Prozess erzeugt wird, dessen Zustand<br />

nicht direkt beobachtet werden kann. Dieser wird <strong>in</strong> Baum <strong>und</strong> Petrie [14]<br />

”<br />

durch e<strong>in</strong>e Markov-Kette <strong>und</strong> <strong>in</strong> Vallée [92] durch e<strong>in</strong>e determ<strong>in</strong>istische Iteration<br />

mit zufälligem Startwert gegeben. E<strong>in</strong>e nicht notwendigerweise determ<strong>in</strong>istische<br />

Abbildung vom Zustandsraum <strong>in</strong> den Raum der Beobachtungen bestimmt die<br />

emittierten“ Zeichen, das heißt den sichtbaren Prozess, der nach den <strong>Muster</strong>n<br />

”<br />

durchsucht wird. Hidden-Markov-Modelle <strong>und</strong> Dynamische Quellen werden hier


v<br />

<strong>in</strong> e<strong>in</strong> neues allgeme<strong>in</strong>eres Modell e<strong>in</strong>gebettet, <strong>in</strong> dem der nicht beobachtbare<br />

Prozess durch e<strong>in</strong>e ϕ- beziehungsweise ψ-mischende Zufallsfolge modelliert wird.<br />

Es wird gezeigt, dass der mehrdimensionale <strong>Muster</strong>prozess mehrerer fester <strong>Muster</strong><br />

gegen e<strong>in</strong>e mehrdimensionale Brownsche Bewegung konvergiert. Dies zeigt<br />

<strong>in</strong>sbesondere, dass sich das neu vorgestellte Modell <strong>in</strong> der Praxis anwenden lässt.<br />

Modelle, <strong>in</strong> denen e<strong>in</strong> verborgener Prozess, bezüglich dessen die Abhängigkeiten<br />

kontrolliert werden, <strong>und</strong> e<strong>in</strong> sichtbarer Prozess, dessen Zustand gemessen wird,<br />

unterschieden werden, spiegeln die Anschauung wider, dass <strong>in</strong> vielen Experimenten<br />

nur e<strong>in</strong> Bruchteil des Mechanismus beobachtet werden kann, der den zufälligen<br />

Prozess bestimmt. Liegt e<strong>in</strong>e solche Situation vor, so ist davon auszugehen,<br />

dass e<strong>in</strong> Modell, das nur den sichtbaren Prozess berücksichtigt, unzureichend ist,<br />

da sich dessen Parameter bei e<strong>in</strong>er nicht beobachtbaren Zustandsänderung des<br />

verborgenen Prozesses sprunghaft ändern können.<br />

Me<strong>in</strong> Dank gilt all denen, die mich auf me<strong>in</strong>em Weg zu dieser Arbeit unterstützt<br />

haben. Jede Liste, die ich hier anführen könnte, wäre sicherlich unvollständig.<br />

Daher möchte ich hier diejenigen nennen, die unmittelbar mit dieser Arbeit <strong>in</strong><br />

Verb<strong>in</strong>dung stehen:<br />

Herrn Prof. Dr. L. Rüschendorf danke ich für die Anregung zu dieser Arbeit <strong>und</strong><br />

die gute Betreuung; die hilfreichen Diskussionen <strong>und</strong> persönlichen Ermunterungen<br />

haben wesentlich zum Gel<strong>in</strong>gen beigetragen.<br />

Ebenso bedanke ich mich bei Sarah Weiß für das sorgfältige Korrekturlesen des<br />

Manuskripts <strong>und</strong> bei Monika Hattenbach für die geduldige Hilfe bei allerlei L A TEX-<br />

Fragen.<br />

Ich danke me<strong>in</strong>en Kolleg<strong>in</strong>nen <strong>und</strong> Kollegen <strong>und</strong> den Mitarbeitern der <strong>Abteilung</strong><br />

für Mathematische Stochastik für die gute Arbeitsatmosphäre <strong>und</strong> allen, die<br />

mit kritischen <strong>und</strong> konstruktiven Verbesserungsvorschlägen zum Gel<strong>in</strong>gen dieser<br />

Arbeit beigetragen haben.<br />

Besonders bedanken möchte ich mich bei me<strong>in</strong>en Fre<strong>und</strong>en <strong>und</strong> me<strong>in</strong>er Familie<br />

für ihre Unterstützung. Nicht zuletzt danke ich Angelika für ihre Geduld <strong>und</strong><br />

Hilfsbereitschaft.


Inhaltsverzeichnis<br />

vii<br />

Inhaltsverzeichnis<br />

1 Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen 1<br />

1.1 Biologische Gr<strong>und</strong>lagen . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

2 Vergleich zweier <strong>Zeichenketten</strong> 9<br />

2.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 11<br />

2.2 Starkes Gesetz großer Zahlen . . . . . . . . . . . . . . . . . . . . . 15<br />

2.3 Poisson Approximation . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.3.1 Die Ste<strong>in</strong>–Chen-Methode . . . . . . . . . . . . . . . . . . . 25<br />

2.3.2 Beweis von Satz 2.5 . . . . . . . . . . . . . . . . . . . . . . 27<br />

3 Scan-Statistiken mit variabler Fenstergröße 33<br />

3.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 33<br />

3.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

3.3 Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

3.4 Endlichdimensionale Randverteilungen . . . . . . . . . . . . . . . 39<br />

3.4.1 Der Fall r n ↘ r, r > 0 . . . . . . . . . . . . . . . . . . . . 41<br />

3.4.2 Der Fall r n ↘ 0 . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

4 Der empirische <strong>Muster</strong>prozess 51<br />

4.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 51<br />

4.2 Endlichdimensionale Randverteilungen . . . . . . . . . . . . . . . 54<br />

4.3 Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />

4.4 Fehlerabschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . 61


viii<br />

Inhaltsverzeichnis<br />

5 Das Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell ”<br />

69<br />

5.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen . . . . . . . . . . . . . . . . . . 70<br />

5.2 Der allgeme<strong>in</strong>e Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

5.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />

5.3.1 Das Hidden Markov“ Modell . . . . . . . . . . . . . . . . 78<br />

”<br />

5.3.2 Dynamische Quellen . . . . . . . . . . . . . . . . . . . . . 83<br />

Literatur 85


1<br />

Kapitel 1<br />

Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />

1.1 Biologische Gr<strong>und</strong>lagen<br />

Da die vorliegende Arbeit wesentlich durch Fragestellungen aus der Molekularbiologie<br />

motiviert wurde, soll <strong>in</strong> diesem Abschnitt e<strong>in</strong>e kurze E<strong>in</strong>führung <strong>in</strong> die biologischen<br />

Gr<strong>und</strong>lagen gegeben werden. Diese umfasst den gr<strong>und</strong>sätzlichen Aufbau<br />

von DNS- <strong>und</strong> Prote<strong>in</strong>-Sequenzen <strong>und</strong> die Transkription beziehungsweise Translation.<br />

Die geläufige Abkürzung DNS beziehungsweise DNA steht für Desoxyribonukle<strong>in</strong>säure<br />

oder im Englischen Deoxyribonucleic acid. Die DNS besteht aus zwei<br />

langen Molekülketten, die schraubenförmig um e<strong>in</strong>e geme<strong>in</strong>same, gedachte Achse<br />

gew<strong>und</strong>en s<strong>in</strong>d.<br />

Für die Entdeckung dieser Struktur 1953 erhielten Watson <strong>und</strong> Crick [95] im Jahr<br />

1962 den Nobelpreis für Mediz<strong>in</strong>.<br />

Die beiden E<strong>in</strong>zelstränge bestehen aus abwechselnd angeordneten Phosphorsäureresten<br />

<strong>und</strong> Desoxyribosemolekülen, wegen der fünf Kohlenstoffatome auch<br />

Pentose genannt. Diese bilden das sogenannte ”<br />

Desoxyribose-Phosphat-Rückgrat“.<br />

Die genetische Information wird von stickstoffhaltigen organischen Basen<br />

codiert, die sich auf der Innenseite der Helix an der Desoxyribose bef<strong>in</strong>den. Die<br />

vier verschiedenen Nukleobasen, die <strong>in</strong> der DNS vorkommen, s<strong>in</strong>d Aden<strong>in</strong>, Guan<strong>in</strong>,<br />

Cytos<strong>in</strong> <strong>und</strong> Thym<strong>in</strong>. Aus diesem Gr<strong>und</strong> werden DNS In der Regel als ”<br />

Text“<br />

über dem 4-nären Alphabet A = {A,G,C,T} angegeben.<br />

Die Stränge können theoretisch beliebig fortgesetzt werden, es gibt ke<strong>in</strong>en Abschluss,<br />

der e<strong>in</strong>e Helix term<strong>in</strong>iert. Wegen der <strong>in</strong> der organischen Chemie üblichen<br />

Nummerierung der Kohlenstoffatome s<strong>in</strong>d die Enden durch die nicht abgeschlossenen<br />

Kohlenstoffe 3 ′ <strong>und</strong> 5 ′ e<strong>in</strong>deutig bezeichnet, so dass durch die Konvention<br />

5 ′ → 3 ′ e<strong>in</strong>e ”<br />

Laufrichtung“ vorgegeben ist, wie die DNS-Sequenz angegeben<br />

wird.<br />

Zwischen den Nukleobasen A <strong>und</strong> T beziehungsweise zwischen G <strong>und</strong> C bil-


2 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />

den sich Wasserstoffbrückenb<strong>in</strong>dungen aus. Diese halten die beiden antiparallelen<br />

Stränge zusammen <strong>und</strong> sorgen so für die die sogenannte Doppelhelix-Struktur der<br />

DNS. Da es somit zu jeder Base auf dem e<strong>in</strong>en Strang e<strong>in</strong>e komplementäre Base<br />

auf dem anderen Strang gibt, werden die Länge der Doppelhelix <strong>und</strong> Abstände<br />

darauf auch <strong>in</strong> der E<strong>in</strong>heit Basenpaare oder kurz bp angegeben.<br />

Die Replikation der DNS geschieht durch das Aufw<strong>in</strong>den der Doppelhelix <strong>und</strong><br />

Trennen der beiden Stränge. Hierfür <strong>in</strong>itiieren bestimmte Prote<strong>in</strong>e, sogenannte<br />

Helikasen, an e<strong>in</strong>em speziellen ”<br />

Replikations-Ursprung“ oder ”<br />

Startpunkt“ das<br />

Entw<strong>in</strong>den der beiden Stränge, so dass die Wasserstoffbrückenb<strong>in</strong>dungen gelöst<br />

werden können. Jeder E<strong>in</strong>zelstrang dient dann als Vorlage für den entsprechenden<br />

komplementären Strang, so dass dieser durch die Polymerase synthetisiert wird.<br />

Dieser hier stark vere<strong>in</strong>facht dargestellte Vorgang steht im Mittelpunkt vieler Forschungsarbeiten.<br />

So s<strong>in</strong>d sowohl Veränderungen bei der Replikation von großem<br />

Interesse, als auch beispielsweise das Lokalisieren e<strong>in</strong>es Replikations-Ursprungs.<br />

Die DNS fungiert daher als e<strong>in</strong>e Art ”<br />

genetische Datenbank“, <strong>in</strong> der auf diese<br />

Weise Unmengen an Information ”<br />

gespeichert“ wird. So besteht das Genom<br />

des Escherichia coli, e<strong>in</strong> Colibakterium, das gerne als Modellorganismus herangezogen<br />

wird, weil es sehr gut erforscht ist, aus etwa 5 · 10 6 Basenpaaren, das der<br />

Drosophila, der allseits bekannten Fliege, aus etwa 2·10 8 <strong>und</strong> das menschliche Genom<br />

aus etwa 3 · 10 9 Basenpaaren. Hieraus wird offensichtlich, dass automatische<br />

Verfahren gebraucht werden, um diese enormen Datenmengen zu untersuchen.<br />

So müssen beispielsweise DNS-Sequenzen verglichen <strong>und</strong> signifikante Ähnlichkeiten<br />

ermittelt werden, um von bekannten Organismen auf zu erforschende schließen<br />

zu können oder es müssen Regionen mit speziellen Funktionen gef<strong>und</strong>en werden,<br />

um die Infektion e<strong>in</strong>er Wirtszelle durch e<strong>in</strong>en Virus zu untersuchen. Diese<br />

Verfahren benötigen zum e<strong>in</strong>en immer ausgeklügeltere Algorithmen sowie mehr<br />

Rechenleistung <strong>und</strong> zum anderen immer bessere statistische Verfahren um die<br />

Signifikanz der ermittelten Ergebnisse e<strong>in</strong>zuschätzen.<br />

Die Informationen s<strong>in</strong>d <strong>in</strong> funktionellen Gruppen, den Genen, auf der DNS angeordnet.<br />

Diese machen nur e<strong>in</strong>en Bruchteil der DNS aus. Dazwischen liegen große<br />

Teile, die oft als ”<br />

DNS-Müll“ beziehungsweise englisch ”<br />

junk DNA“ bezeichnet<br />

wurden. Man geht jedoch mittlerweile davon aus, dass diese Intergensequenzen<br />

regulatorische Aufgaben erfüllen. Da die Intergensequenzen jedoch ke<strong>in</strong>e direkte<br />

Bedeutung für die Struktur der Translationsprodukte besitzen, tendieren sie <strong>in</strong><br />

höherem Maße zur Mutation, so dass sie sich bei verschiedenen Individuen <strong>in</strong> der<br />

Regel messbar unterscheiden. Sie werden daher für den sogenannten genetischen<br />

F<strong>in</strong>gerabdruck oder für Abstammungsgutachten, volkstümlich auch Vaterschaftstest<br />

genannt, benutzt.<br />

Zur Erforschung von Verwandschaften auf evolutionärer Ebene s<strong>in</strong>d dagegen die<br />

Gene geeignet. Anhand der Ähnlichkeit der Sequenz von Genen mit vergleichbarer<br />

Funktion werden mithilfe des sogenannten ”<br />

Sequence Match<strong>in</strong>g“ beispielsweise<br />

phylogenetische Bäume erstellt.


1.1. Biologische Gr<strong>und</strong>lagen 3<br />

Der erste Schritt bei der Prote<strong>in</strong>synthese ist das Auswerten von Informationen<br />

aus der ”<br />

Datenbank“ DNS. Hierzu wird e<strong>in</strong> Gen ”<br />

abgelesen“ <strong>und</strong> dient bei e<strong>in</strong>em<br />

ähnlichen Vorgang wie der oben beschriebenen Replikation als Vorlage für die<br />

Synthese e<strong>in</strong>es neuen Ribonukle<strong>in</strong>säure-Strangs. Dieser Vorgang heißt Transkription.<br />

Die Ribonukle<strong>in</strong>säure, im Folgenden als RNS abgekürzt, ähnelt im Aufbau dem<br />

der DNS. Die Struktur ist jedoch e<strong>in</strong>zelsträngig <strong>und</strong> wird von e<strong>in</strong>em Ribose-<br />

Phosphat-Rückgrat gegeben, bei dem an jede Pentose e<strong>in</strong>e der Basen Aden<strong>in</strong>,<br />

Guan<strong>in</strong>, Cytos<strong>in</strong> oder Uracil angekoppelt ist. Daher wird hier <strong>in</strong> der Regel das Alphabet<br />

A = {A,G,C,U} zur Beschreibung verwendet. Uracil ist wie bei der DNS<br />

Thym<strong>in</strong> die komplementäre Base zu Aden<strong>in</strong>. Während die DNS ihrer Funktion<br />

gemäß e<strong>in</strong>e sehr stabiles Molekül ist, ist die RNS reaktiv genug, um verschiedene<br />

Funktionen zu übernehmen.<br />

So dient beispielsweise die sogenannte messenger RNA, meist mRNA abgekürzt,<br />

als Vorlage für die Prote<strong>in</strong>synthese im Cytoplasma. Hier wird <strong>in</strong> e<strong>in</strong>em Zwischenschritt<br />

zunächst die prä-mRNA oder auch hnRNA aus der DNS transkribiert.<br />

Aus dieser werden dann die nicht codierenden Regionen, die sogenannten Introns,<br />

herausgespleißt. Die übrig bleibenden Exons bilden die mRNA.<br />

Bei der sogenannten Translation der mRNA werden jeweils drei Nukle<strong>in</strong>säuren,<br />

die auch als Codon bezeichnet werden, zu e<strong>in</strong>er Am<strong>in</strong>osäure übersetzt. Hier s<strong>in</strong>d<br />

drei verschieden ”<br />

Leserahmen“ möglich, die <strong>in</strong> der Regel zu völlig unterschiedlichen<br />

Translationen führen.<br />

Die Zuordnungsvorschrift der 4 3 = 64 möglichen Codons zu e<strong>in</strong>er der 20 direkt<br />

erzeugten Am<strong>in</strong>osäuren wird auch als ”<br />

genetischer Code“ bezeichnet, vergleiche<br />

Waterman [94, Tabelle 1.2]. E<strong>in</strong>e Sonderstellung nimmt die Am<strong>in</strong>osäure Selenocyste<strong>in</strong><br />

e<strong>in</strong>, da sie nicht direkt durch Translation entsteht, sondern durch sogenannte<br />

”<br />

Rekodierung“ e<strong>in</strong>gebaut wird. Des Weiteren gibt es e<strong>in</strong> sogenanntes<br />

Startcodon, das die Translation <strong>in</strong>itiiert <strong>und</strong> drei Stoppcodons, die die Translation<br />

term<strong>in</strong>ieren.<br />

Die Prote<strong>in</strong>e erfüllen vielfältige Aufgaben: So ermöglichen Enzyme viele chemische<br />

Reaktionen <strong>und</strong> steuern Abläufe <strong>in</strong> der Zelle, Strukturprote<strong>in</strong>e bestimmen<br />

den Aufbau der Zelle, das Transportprote<strong>in</strong> Hämoglob<strong>in</strong> versorgt das Gewebe mit<br />

Sauerstoff, um nur e<strong>in</strong>ige Beispiele zu nennen.<br />

Die räumliche Struktur der Prote<strong>in</strong>e ist wesentlich komplexer, als die der DNS:<br />

Die Primärstruktur ist durch die Abfolge der Am<strong>in</strong>osäuren gegeben <strong>und</strong> wird<br />

hier als Text über e<strong>in</strong>em Alphabet mit 20 beziehungsweise 21 Zeichen modelliert,<br />

so dass sie aus mathematischer Sicht ähnlich wie DNS behandelt werden kann.<br />

Die sogenannte Sek<strong>und</strong>ärstruktur beschreibt Sequenzabschnitte mit regelmäßiger<br />

lokaler Ordnung, wie etwa Helices, Bögen oder Faltungen, die durch Wasserstoffbrückenb<strong>in</strong>dungen<br />

entstehen. Die vollständige räumliche Gestalt wird als<br />

Tertiärstruktur bezeichnet, die Kooperation mehrerer Tertiärstrukturen zu e<strong>in</strong>em


4 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />

Prote<strong>in</strong>komplex als Quartärstruktur. Das Gebiet der Prote<strong>in</strong>faltung wird zur Zeit<br />

erforscht, <strong>in</strong> diesem Bereich bef<strong>in</strong>det sich die Molekularbiologie noch <strong>in</strong> ständiger<br />

Bewegung. E<strong>in</strong>e vollständige <strong>und</strong> zuverlässige Vorhersage der Sek<strong>und</strong>är- bis<br />

Quartärstruktur aus der Primärstruktur ist heute noch nicht möglich.<br />

Die E<strong>in</strong>führung der biologischen Gr<strong>und</strong>lagen <strong>in</strong> diesem Abschnitt ließe sich noch<br />

beliebig erweitern. Alle<strong>in</strong>e e<strong>in</strong>e Erläuterung der RNA-Typen <strong>und</strong> ihrer Funktion<br />

würde e<strong>in</strong> ganzes Kapitel füllen. Weitere <strong>in</strong>teressante Themen wie ”<br />

Alternatives<br />

Spleißen“, der Aufbau der Chromosomen oder e<strong>in</strong>e gr<strong>und</strong>legende Unterscheidung<br />

von Prote<strong>in</strong>en werden hier nicht ausgeführt, da dies weit über den Rahmen e<strong>in</strong>er<br />

mathematischen Arbeit h<strong>in</strong>ausgehen würde.<br />

E<strong>in</strong>e weitere Diszipl<strong>in</strong>, <strong>in</strong> der aktiv geforscht wird, ist die Genexpressionsanalyse.<br />

Hier wird mit sogenannten ”<br />

Micrarrays“ die Expression von Genen gemessen, das<br />

heißt es wird die Aktivität bestimmter Gene <strong>in</strong> speziellen Lebens-Zyklen beziehungsweise<br />

Stadien betrachtet. Die Methode wird hauptsächlich <strong>in</strong> der Krebsforschung<br />

angewendet. Da man hierbei <strong>in</strong> der Regel jedoch kle<strong>in</strong>e Datensätze<br />

von hochdimensionalen Daten auswertet, s<strong>in</strong>d die <strong>in</strong> dieser Arbeit beschriebenen<br />

Verfahren darauf nicht anwendbar.<br />

Weiterführende Literatur, die den Sachverhalt aus biologischer Perspektive beschreibt,<br />

s<strong>in</strong>d die Bücher von Jann<strong>in</strong>g <strong>und</strong> Knust [51] oder Czihak, Langer <strong>und</strong><br />

Ziegler [30]. In den Büchern von Durb<strong>in</strong>, Eddy, Krogh <strong>und</strong> Mitchison [40] sowie<br />

Bishop <strong>und</strong> Rawl<strong>in</strong>gs [18] wird die mathematische <strong>und</strong> algorithmische Seite<br />

beleuchtet. Empfehlenswert ist das fächerübergreifende Buch ”<br />

Introduction to<br />

Computational Biology“ von Waterman [94], der Professor für Biologie, Mathematik<br />

<strong>und</strong> Informatik an der University of Southern California ist.<br />

1.2 Notation<br />

In diesem Abschnitt werden e<strong>in</strong>ige Def<strong>in</strong>itionen <strong>und</strong> Konventionen zusammengefasst.<br />

Viele s<strong>in</strong>d <strong>in</strong> der Literatur allgeme<strong>in</strong> gebräuchlich <strong>und</strong> werden daher hier<br />

zumeist ohne Quellenverweise aufgeführt.<br />

Es bezeichnet N die natürlichen Zahlen, N 0 := N ∪ {0}, Z die Menge der ganzen<br />

Zahlen, R die reellen Zahlen <strong>und</strong> C die komplexe Zahlenebene. Des Weiteren sei<br />

B die Borelsche σ-Algebra auf R <strong>und</strong> λ \ das Lebesgue-Maß auf (R, B).<br />

Ist M e<strong>in</strong>e endliche Menge, so bezeichnet |M| die Mächtigkeit von M, P(M) :=<br />

{A | A ⊂ M} die Potenzmenge von M <strong>und</strong> M ∗ := {m ɛ M n | n ɛ N} die Menge<br />

aller endlichen ”<br />

Wörter“ über M.<br />

Ist M ⊂ R <strong>und</strong> c ɛ R, so sei M + c := {a + c | a ɛ M}.<br />

Für zwei Zahlen x, y ɛ R sei zur Abkürzung def<strong>in</strong>iert: x ∧ y : = m<strong>in</strong>{x, y} <strong>und</strong><br />

x ∨ y := max{x, y}, x + := max{x, 0} <strong>und</strong> x − := max{−x, 0}. ⌊x⌋ sei die größte<br />

ganze Zahl z ɛ Z mit z ≤ x. Analog sei ⌈x⌉ die kle<strong>in</strong>ste ganze Zahl z ɛ Z mit z ≥ x.


1.2. Notation 5<br />

Um unnötige Fallunterscheidung zu vermeiden, sei ∏ ∅<br />

:= 1, ∑ ∅<br />

:= 0 <strong>und</strong> 1 ∅ := 1.<br />

Ist v e<strong>in</strong> Vektor beziehungsweise A e<strong>in</strong>e Matrix, so bezeichnet v T den transponierten<br />

Vektor beziehungsweise A T die transponierte Matrix. Für e<strong>in</strong>en n-<br />

dimensionalen Vektor v = (v 1 , . . . , v n ) T <strong>und</strong> e<strong>in</strong>e Menge M ⊂ {1, . . . , n} bezeichne<br />

v M := (v i ) i ɛ M die Projektion von v auf die |M|-dimensionale Hyperebene. Für<br />

e<strong>in</strong>e reelle Zahl c ɛ R ist v + c := (v 1 + c, . . . , v n + c) T die Translation um c. Ist<br />

w ɛ R n e<strong>in</strong> weiterer Vektor, so ist v ≤ w genau dann, wenn für alle Komponenten<br />

gilt v i ≤ w i . In diesem Fall ist das abgeschlossene n-dimensionale Intervall<br />

gegeben durch [v, w] : = × n i=1[v i , w i ]. n-dimensionale Intervalle werden auch als<br />

(achsenparallele) Quader bezeichnet.<br />

Ist (Ω, A) e<strong>in</strong> Messraum, so wird mit M(Ω, A) die Menge der Maße auf (Ω, A) bezeichnet<br />

<strong>und</strong> mit M 1 (Ω, A) die Menge aller Wahrsche<strong>in</strong>lichkeitsmaße auf (Ω, A).<br />

Ist die Menge Ω endlich oder abzählbar, so wird abkürzend auch M 1 (Ω) : =<br />

M 1 (Ω, P(Ω)) verwendet <strong>und</strong> mit der Menge aller Wahrsche<strong>in</strong>lichkeitsvektoren<br />

identifiziert: M 1 (Ω) = { (p ω ) ω ɛ Ω ɛ [0, 1] |Ω| | ∑ ω ɛ Ω p ω = 1 } . Ebenso bezeichnet<br />

M l := { β ɛ M 1 (Ω) | l · β ɛ N |Ω| } für l ɛ N die Menge aller empirischen Verteilungen,<br />

die e<strong>in</strong> Wort der Länge l haben kann. Für endliche Mengen Ω bezeichne | · |<br />

die Euklidische Norm auf M(Ω).<br />

E<strong>in</strong>e Zufallsvariable ist e<strong>in</strong>e messbare Abbildung zwischen zwei Messräumen, das<br />

heißt X : (Ω 1 , A 1 ) → (Ω 2 , A 2 ). Ist (Ω 1 , A 1 , P ) e<strong>in</strong> Maßraum, so ist das Bildmaß<br />

von P unter X gegeben durch P X = P (X ɛ · ).<br />

Ist X e<strong>in</strong>e reellwertige Zufallsvariable, so bezeichnet die rechtsseitig stetige Abbildung<br />

F X : R → [0, 1], def<strong>in</strong>iert durch F X (x) := P (X ≤ x) die Verteilungsfunktion<br />

von X <strong>und</strong> E P X = ∫ XdP den Erwartungswert von X bezüglich P . Wenn ke<strong>in</strong>e<br />

Verwechslungsgefahr besteht, wird E X verwendet.<br />

Für Zufallsvariablen X, Y mit gleichem Wertebereich bedeutet X = d Y , dass die<br />

Zufallsvariablen identisch verteilt s<strong>in</strong>d, das heißt P X = P Y . Diese Abkürung<br />

wird ebenso für Verteilungen beziehungsweise Wahrsche<strong>in</strong>lichkeitsmaße Q auf<br />

dem selben Gr<strong>und</strong>raum verwendet, das heißt es gilt genau dann X = d Q, wenn<br />

P X = Q.<br />

Für e<strong>in</strong>en Gr<strong>und</strong>raum (Ω, A, P ) <strong>und</strong> p > 1 sei L p (P ) die Menge der<br />

p-<strong>in</strong>tegrierbaren Funktionen <strong>und</strong> L p +(P ) die Menge der nichtnegativen p-<br />

<strong>in</strong>tegrierbaren Funktionen. Für f ɛ L p (P ) ist die L p –Norm von f gegeben durch<br />

‖f‖ p := ( ∫ |f| p dP ) 1 p<br />

für p < ∞, beziehungsweise ‖f‖ ∞ := <strong>in</strong>f{sup x ɛ Ω\N |f(x)| :<br />

N ɛ A, P (N) = 0}.<br />

D[0, 1] sei der Raum der rechtsseitig stetigen, reellen Funktionen auf [0, 1] mit<br />

l<strong>in</strong>kseitigem Grenzwert. Allgeme<strong>in</strong>er sei D d für d ɛ N der Raum der càdlàg-<br />

Funktionen auf [0, 1] d , wie beispielsweise von Bickel <strong>und</strong> Wichura [16, Abschnitt 3]<br />

def<strong>in</strong>iert. Bezeichnen Q 1 (t), . . . , Q 2 d(t) für alle t ɛ [0, 1] d die achsenparallelen Quader,<br />

die t <strong>und</strong> e<strong>in</strong>en Eckpunkt des E<strong>in</strong>heitsquaders [0, 1] d als Eckpunkte ha-


6 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen<br />

ben, so s<strong>in</strong>d dies gerade die reellen Funktionen f für die lim s→t, s ɛ Qi (t) für alle<br />

i ɛ {1, . . . , 2 d } existiert <strong>und</strong> für die f(t) = lim s→t, s≥t f(s) gilt.<br />

Gegeben seien Wahrsche<strong>in</strong>lichkeitsmaße P n , P ɛ M 1 (Ω, A), n ɛ N auf dem Borel-<br />

Raum (Ω, A). Dann konvergiert P n genau dann <strong>in</strong> Verteilung gegen P , abkürzend<br />

P D<br />

n −→ P , wenn ∫ ∫<br />

fdP n −→ n→∞ fdP für alle stetigen, beschränkten, reellwertigen<br />

Funktionen f auf Ω. S<strong>in</strong>d X n <strong>und</strong> X Zufallsvariablen, so konvergiert X D<br />

n −→ X<br />

genau dann, wenn P Xn −→ D<br />

P X . S<strong>in</strong>d X n , X ɛ D[0, 1], so wird die Konvergenz<br />

der endlichdimensionalen Randverteilungen, das heißt (X n,t1 , . . . , X n,tk )<br />

D<br />

−→<br />

D f<br />

(X t1 , . . . , X tk ) für alle k ɛ N, t 1 , . . . , t k ɛ [0, 1], mit X n −→ X abgekürzt.<br />

E<strong>in</strong>e Folge X : = (X i ) i ɛN von Zufallsvariablen mit Werten <strong>in</strong> e<strong>in</strong>em endlichen<br />

Zustandsraum I ist e<strong>in</strong>e Markov-Kette, wenn für alle n ɛ N, x 1 , . . . , x n ɛ I gilt:<br />

P (X n = x n | X 1 = x 1 , . . . , X n−1 = x n−1 ) = P (X n = x n | X n−1 = x n−1 ).<br />

X ist homogen, falls γ i,j = P (X n = j | X n−1 = i) für alle Zustände i, j ɛ I<br />

unabhängig von n ɛ N ist. Die Matrix Γ = (γ i,j ) i,j ɛ I heißt Übergangsmatrix. Die<br />

Markov-Kette X ist irreduzibel, wenn alle Zustände i, j ɛ I verb<strong>und</strong>en“ s<strong>in</strong>d, das<br />

”<br />

heißt, wenn m, n ɛ N existieren, so dass P (X m = i | X 1 = j) > 0 <strong>und</strong> P (X n =<br />

j | X 1 = i) > 0. X heißt aperiodisch, wenn alle Zustände i ɛ I aperiodisch s<strong>in</strong>d,<br />

das bedeutet, dass der größte geme<strong>in</strong>same Teiler der potentiellen Rückkehrzeiten<br />

ggT{n ɛ N | P (X n+1 = i | X 1 = i) > 0} = 1 ist.<br />

Für e<strong>in</strong>e Indexmenge M <strong>und</strong> Zufallsvariablen (X i ) i ɛ M auf e<strong>in</strong>em geme<strong>in</strong>samen<br />

Gr<strong>und</strong>raum (Ω, A, P ), sei σ(X i ; i ɛ M) ⊂ A die von (X i ) i ɛ M erzeugte σ-Algebra.<br />

S<strong>in</strong>d die Funktionen ϕ, ψ : N → [0, 1] mit ϕ(i) −→<br />

i→∞<br />

0 <strong>und</strong> ψ(i) −→<br />

i→∞<br />

0 gegeben <strong>und</strong><br />

X := (X i ) i ɛN e<strong>in</strong>e Folge von Zufallsvariablen auf dem geme<strong>in</strong>samen Gr<strong>und</strong>raum<br />

(Ω, A, P ), so heißt die Folge X ϕ-mischend, falls für alle i, j ɛ N, E 1 ɛ σ(X k ; k ≤ i),<br />

E 2 ɛ σ(X k ; k ≥ i + j) gilt:<br />

∣ P (E1 ∩ E 2 ) − P (E 1 )P (E 2 ) ∣ ≤ ϕ(j)P (E1 )<br />

<strong>und</strong> ψ-mischend, falls für alle i, j ɛ N, E 1 ɛ σ(X k ; k ≤ i), E 2 ɛ σ(X k ; k ≥ i + j) gilt:<br />

∣ P (E1 ∩ E 2 ) − P (E 1 )P (E 2 ) ∣ ∣ ≤ ψ(j)P (E1 )P (E 2 )<br />

Wie <strong>in</strong> Bill<strong>in</strong>gsley [17, Abschnitt 20] wird angenommen, dass die Folge ( ϕ(n) ) n ɛN<br />

monoton fallend ist <strong>und</strong> ϕ(n) ≤ 1, für alle n ɛ N. Dies ist ke<strong>in</strong>e E<strong>in</strong>schränkung,<br />

da die Mischungsbed<strong>in</strong>gung bezüglich der Folge ( ϕ ′ (n) ) n ɛN , ϕ′ (n) :=<br />

m<strong>in</strong>{1, ϕ(1), . . . , ϕ(n)} erhalten bleibt. Anschaulich unterscheidet sich e<strong>in</strong> mischender<br />

Prozess von e<strong>in</strong>em unabhängigen Prozess mit den selben Randverteilungen<br />

um ”<br />

höchstens ϕ“ beziehungsweise ψ. Die stärkere ψ-Mischungsbed<strong>in</strong>gung<br />

berücksichtigt dabei ”<br />

Vergangenheit“ <strong>und</strong> ”<br />

Zukunft“ symmetrisch, während bei<br />

der ϕ-Mischungseigenschaft nur bezüglich der ”<br />

Vergangenheit“ gewichtet wird.


1.2. Notation 7<br />

E<strong>in</strong>e übersichtliche Zusammenfassung über weitere Mischungsbegriffe sowie weitere<br />

Eigenschaften f<strong>in</strong>det man zum Beispiel <strong>in</strong> Doukhan [39].<br />

(B t ) t ɛ [0,1] bezeichne e<strong>in</strong>e Standard Brownsche Bewegung, das heißt B ist e<strong>in</strong> Wiener<br />

Prozess mit stetigen Pfaden. Standardwerke zu Stochastischen Prozessen s<strong>in</strong>d<br />

zum Beispiel Revuz <strong>und</strong> Yor [76] oder Karatzas <strong>und</strong> Shreve [52].<br />

Für e<strong>in</strong>e Funktion f : R → R s<strong>in</strong>d die Landauschen Symbole def<strong>in</strong>iert durch<br />

O(f) : = {g : R → R | ∃C 1 , C 2 ɛ R ∀x ≥ C 2 : g(x) ≤ C 1 f(x)} <strong>und</strong> O(f) : = {g :<br />

R → R | lim x−→∞<br />

g(x)<br />

f(x) = 0}. In der Literatur f<strong>in</strong>det man für die oft ” O-Notation“<br />

genannten Symbole auch e<strong>in</strong>e Def<strong>in</strong>ition <strong>in</strong> der Form g = O(f), siehe etwa Greene<br />

<strong>und</strong> Knuth [49].


8 Kapitel 1. Bezeichnungen <strong>und</strong> Gr<strong>und</strong>lagen


9<br />

Kapitel 2<br />

Vergleich zweier <strong>Zeichenketten</strong><br />

Gegenstand dieses Kapitels ist der Vergleich zweier <strong>Zeichenketten</strong>, im Folgenden<br />

Sequence Match<strong>in</strong>g“ genannt. Elementar für die Bewertung der Ähnlichkeit ist<br />

”<br />

der Algorithmus, der die Zeichen der beiden <strong>Zeichenketten</strong> e<strong>in</strong>ander zuordnet. Die<br />

Zuordnung wird geme<strong>in</strong>h<strong>in</strong> als Alignment“ bezeichnet. An dieser Stelle wird das<br />

”<br />

Sequence Match<strong>in</strong>g mit Scor<strong>in</strong>g-Funktion behandelt. Diese ist <strong>in</strong> der Regel durch<br />

die Anwendung gegeben <strong>und</strong> bewertet die Ähnlichkeit zweier Zeichen. Der Score<br />

e<strong>in</strong>es <strong>Alignments</strong> ist die Summe über den Score der Zeichenpaare, die e<strong>in</strong>ander<br />

durch das Alignment zugeordnet werden.<br />

Um die Ähnlichkeit zweier Zeichenfolgen zu messen, wird im hier betrachteten<br />

lokalen Sequence Match<strong>in</strong>g ohne Gaps das Maximum des Scores über alle lokalen<br />

<strong>Alignments</strong> ohne Gaps gebildet. Das heißt, dass aus jeder Zeichenkette e<strong>in</strong>e<br />

beliebige zusammenhängende Folge von Zeichen betrachtet wird. Hierfür müssen<br />

die beiden Segmente gleiche Länge haben. Das Alignment ergibt sich, <strong>in</strong>dem der<br />

Reihe nach aus jedem Segment zwei Zeichen e<strong>in</strong>ander zugeordnet werden.<br />

Alternativen s<strong>in</strong>d das globale Sequence Match<strong>in</strong>g, wo jeweils die gesamte Zeichenfolge<br />

betrachtet wird, <strong>und</strong> Sequence Match<strong>in</strong>g mit Gaps, wo die Segmente<br />

Lücken haben dürfen, sowie Komb<strong>in</strong>ationen aus den vorgestellten Verfahren.<br />

Der Ursprung des Sequence Match<strong>in</strong>g wird <strong>in</strong> der Literatur oft im 1970 erschienenen<br />

Artikel von Erdös <strong>und</strong> Rényi [41] gesehen, wo das Auftreten von außergewöhnlich<br />

vielen aufe<strong>in</strong>ander folgenden Erfolgen <strong>in</strong> e<strong>in</strong>er zufälligen Erfolgs-/<br />

Misserfolgs-Folge untersucht wurde, was e<strong>in</strong>en Spezialfall des globalen Sequence<br />

Match<strong>in</strong>g ohne Gaps darstellt. Daher werden Verallgeme<strong>in</strong>erungen <strong>in</strong> Arratia <strong>und</strong><br />

Waterman [7], Borovkov [19], Arratia, Gordon <strong>und</strong> Waterman [5], Sanchis [80]<br />

<strong>und</strong> vielen anderen Artikeln als Erdös–Rényi’s Law“ bezeichnet.<br />

”<br />

Dagegen werden <strong>in</strong> Steele [87], Arratia <strong>und</strong> Waterman [8, Gleichung (6)], Waterman<br />

[94, Abschnitt 11.6.1] <strong>und</strong> anderen Veröffentlichungen die sogenannten<br />

Chvátal–Sankoff-Konstanten“ e<strong>in</strong>geführt. Diese Bezeichnung liegt nahe, weil<br />

”<br />

Chvátal <strong>und</strong> Sankoff [27] im Jahr 1975 erstmals mit wahrsche<strong>in</strong>lichkeitstheoretischen<br />

Methoden die Länge der längsten geme<strong>in</strong>samen Teilfolge zweier zufälliger


10 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

<strong>Zeichenketten</strong> untersucht haben.<br />

Der Artikel von Siegm<strong>und</strong> <strong>und</strong> Yakir [84], sowie dessen Korrektur [85], dürfte<br />

zu den wichtigsten Verallgeme<strong>in</strong>erungen auf diesem Gebiet zählen. Dort wird die<br />

Verteilung des maximalen Scores bei lokalem Sequence Match<strong>in</strong>g mit Gaps approximiert.<br />

Weitere Veröffentlichungen s<strong>in</strong>d etwa Goldste<strong>in</strong> [48], Arratia, Gordon<br />

<strong>und</strong> Waterman [5], Neuhauser [61] <strong>und</strong> Novak [64] um nur e<strong>in</strong>ige zu nennen.<br />

Da sich die genannten Veröffentlichungen mit unabhängigen Zeichenfolgen<br />

beschäftigen, besteht e<strong>in</strong>e weitere Verallgeme<strong>in</strong>erung dar<strong>in</strong>, abhängige <strong>Zeichenketten</strong><br />

zu betrachten. So werden zum Beispiel <strong>in</strong> Hansen [50] Markov-Ketten <strong>und</strong><br />

<strong>in</strong> Liu [59] ϕ-mischende Folgen untersucht.<br />

Die wohl wichtigste Anwendung des Sequence Match<strong>in</strong>g liegt <strong>in</strong> der Genetik.<br />

Hier werden DNS- oder Prote<strong>in</strong>sequenzen verglichen, um entweder die Verwandschaft<br />

von verschiedenen Spezies auf evolutionärer Ebene zu untersuchen, oder<br />

funktionelle beziehungsweise strukturelle Ähnlichkeiten verschiedener Sequenzen<br />

feststellen zu können. Die Sequenzen werden für diesen Zweck <strong>in</strong> Datenbanken,<br />

wie beispielsweise Swiss-Prot, e<strong>in</strong>er Datenbank für Prote<strong>in</strong>sequenzen, gespeichert.<br />

Für Details zu diesem Projekt, dessen zwanzigjähriges Bestehen im August 2006<br />

gefeiert wird, siehe http://www.expasy.org/sprot/. Zu untersuchende Prote<strong>in</strong>sequenzen<br />

werden mit den bestehenden E<strong>in</strong>trägen verglichen, um Ähnlichkeiten<br />

anhand e<strong>in</strong>es außergewöhnlich großen Scores zu f<strong>in</strong>den.<br />

Spang <strong>und</strong> V<strong>in</strong>gron haben 2001 <strong>in</strong> [86] den E<strong>in</strong>fluss der ständig wachsenden<br />

Zahl von Datenbanke<strong>in</strong>trägen auf die Wahrsche<strong>in</strong>lichkeit, zufällig e<strong>in</strong>en<br />

großen Score zu erhalten, untersucht. Auf der Gr<strong>und</strong>lage der Zahl von E<strong>in</strong>trägen<br />

<strong>in</strong> Swiss-Prot wurde festgestellt, dass schon 2001 die Ähnlichkeit<br />

vieler entfernt verwandter Prote<strong>in</strong>e <strong>in</strong> diesem zufälligen Rauschen“ übersehen<br />

wird. In dieser Veröffentlichung wurde auch festgestellt, dass das<br />

”<br />

annähernd exponentielle Wachstum der Datenbankgröße im Verlauf der Zeit (siehe<br />

http://www.expasy.org/sprot/relnotes/relstat.html) e<strong>in</strong>e näherungsweise<br />

l<strong>in</strong>eare Zunahme des Rauschens bewirkt, vergleiche Spang <strong>und</strong> V<strong>in</strong>gron [86,<br />

Abbildung 1].<br />

Als Lösung für die dargestellte Problematik wird hier e<strong>in</strong> neuer Ansatz vorgestellt,<br />

der mehr Informationen über die <strong>Zeichenketten</strong> verwendet: Durch das Betrachten<br />

weiterer Maxima soll im Folgenden die Selektivität erhöht werden. Das bedeutet,<br />

dass nicht nur der maximale Score gesucht wird, sondern danach die <strong>in</strong> diesem<br />

Alignment verwendeten Zeichenpaare nicht mehr verwendet werden <strong>und</strong> das Alignment<br />

mit maximalem Score <strong>in</strong> den verbleibenden Zeichenpaaren gesucht wird.<br />

Mit dieser Methode erhält man e<strong>in</strong>e absteigende Folge von größten Scores“, wobei<br />

im nächsten Abschnitt mathematisch def<strong>in</strong>iert wird, welche Zeichenpaare für<br />

”<br />

das Alignment des k-größten Scores noch berücksicht werden.


2.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 11<br />

2.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />

Betrachtet werden unabhängig identisch verteilte <strong>Zeichenketten</strong> X = (X i ) i ɛN <strong>und</strong><br />

Y = (Y j ) j ɛN über dem endlichen Alphabet A = {1, . . . , ξ}. Zur Abkürzung sei<br />

X identisch X i <strong>und</strong> Y identisch Y i verteilt, i ɛ N.<br />

E<strong>in</strong>e der fruchtbarsten Methoden beim Sequence Match<strong>in</strong>g ist die Large-<br />

Deviation-Theorie, <strong>in</strong> der das Grenzwertverhalten von Wahrsche<strong>in</strong>lichkeiten<br />

seltener Ereignisse durch exponentielle Schranken abgeschätzt wird. Für e<strong>in</strong>e<br />

E<strong>in</strong>führung sowie e<strong>in</strong>e Def<strong>in</strong>ition des sogenannten ”<br />

Large-Deviation-Pr<strong>in</strong>zips“<br />

<strong>und</strong> weitere Resultate gibt es umfangreiche Literatur, wie etwa Dembo <strong>und</strong> Zeitouni<br />

[35], Deuschel <strong>und</strong> Stroock [36], Bucklew [22] oder Varadhan [93], so dass<br />

im Folgenden nur die benötigten Ergebnisse zitiert werden.<br />

E<strong>in</strong> <strong>in</strong> der Large-Deviation-Theorie wichtiger Begriff ist die Entropie, wie sie<br />

auch <strong>in</strong> der Informationstheorie verwendet wird. Weitere mathematische Gr<strong>und</strong>lagen<br />

sowie <strong>in</strong>formationstheoretische Anwendungen f<strong>in</strong>den sich zum Beispiel <strong>in</strong><br />

Roman [78], Shannon <strong>und</strong> Weaver [83], Csiszár <strong>und</strong> Körner [29] <strong>und</strong> Kullback [56].<br />

Da die Def<strong>in</strong>ition <strong>und</strong> Verwendung <strong>in</strong>sbesondere der relativen Entropie <strong>in</strong> der Literatur<br />

nicht konsistent ist, werden die verwendeten Begriffe hier folgendermaßen<br />

def<strong>in</strong>iert:<br />

Def<strong>in</strong>ition 2.1 (Entropie)<br />

Sei A = {1, . . . , a} e<strong>in</strong> beliebiges endliches Alphabet. Für die Wahrsche<strong>in</strong>lichkeitsmaße<br />

π = (π 1 , . . . , π a ) <strong>und</strong> β = (β 1 , . . . , β a ) auf A ist die Entropie von π<br />

durch<br />

a∑<br />

( ) 1<br />

H(π) := π k log<br />

π k<br />

k=1<br />

<strong>und</strong> die relative Entropie von π bezüglich β durch<br />

def<strong>in</strong>iert.<br />

H(π|β) :=<br />

a∑<br />

k=1<br />

( )<br />

πk<br />

π k log<br />

β k<br />

Die Scor<strong>in</strong>g Funktion s : A×A → R sei symmetrisch, nehme mit positiver Wahrsche<strong>in</strong>lichkeit<br />

positive Werte an <strong>und</strong> habe negativen Erwartungswert bezüglich<br />

P (X,Y ) , das heißt es gelte:<br />

s(b, c) = s(c, b), P ( s(X, Y ) > 0 ) > 0 <strong>und</strong> E ( s(X, Y ) ) < 0<br />

für alle b, c ɛ A. Dem Vorzeichen von E ( s(X, Y ) ) kommt besondere Bedeutung<br />

zu: Wie <strong>in</strong> Arratia <strong>und</strong> Waterman [8] gezeigt wird, verhält sich der maximale<br />

Score für E ( s(X, Y ) ) < 0 asymptotisch logarithmisch <strong>und</strong> für E ( s(X, Y ) ) > 0<br />

wächst der maximale Score l<strong>in</strong>ear. Dieses Verhalten wird <strong>in</strong> der Literatur als


12 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Phasenübergang bezeichnet. Bei positivem erwartetem Score werden durch das<br />

lokale Sequence Match<strong>in</strong>g also nur vernachlässigbar viele Zeichen am Anfang <strong>und</strong><br />

am Ende weggelassen. Weil es <strong>in</strong> der biologischen Anwendung <strong>in</strong> der Regel um das<br />

Auff<strong>in</strong>den von Ähnlichkeiten durch die Identifikation von Segmenten mit großem<br />

Score geht, wird zumeist e<strong>in</strong>e Scor<strong>in</strong>g-Funktion mit negativer Erwartung gewählt.<br />

Daher wird <strong>in</strong> diesem Kapitel Sequence Match<strong>in</strong>g unter dieser Voraussetzung<br />

untersucht.<br />

E<strong>in</strong>e Zusammenstellung e<strong>in</strong>iger Ergebnisse, die den Phasenübergang zwischen<br />

logarithmischem <strong>und</strong> l<strong>in</strong>earem Wachstum zum Thema haben <strong>und</strong> die dieselbe<br />

Notation wie hier verwenden, f<strong>in</strong>det man beispielsweise <strong>in</strong> Lauer [57, Kapitel 5].<br />

Aus den Forderungen an s ergibt sich mit e<strong>in</strong>fachen analytischen Methoden, dass<br />

genau e<strong>in</strong> Θ ∗ > 0 existiert, so dass:<br />

E ( e Θ∗ s(X,Y ) ) = 1.<br />

Es sei α ∗ ɛ M(A 2 ) das Maß mit Zähldichte e Θ∗s bezüglich P (X,Y ) , das heißt für<br />

alle b, c ɛ A ist:<br />

α ∗ b,c := eΘ∗ s(b,c) P ( (X, Y ) = (b, c) ) .<br />

Es gelte weiterh<strong>in</strong><br />

H(α ∗ | P X × P Y ) > 2 max { H(α ∗ X|P X ), H(α ∗ Y |P Y ) } ,<br />

wobei αX ∗ := α∗ (·, A) die Randverteilung von α ∗ bezüglich der ersten Komponente<br />

<strong>und</strong> αY ∗ analog die Randverteilung bezüglich der zweiten Komponente bezeichne.<br />

Betrachtet man, wie <strong>in</strong> der Literatur üblich, den maximalen Score beim Vergleich<br />

von (X i ) 1≤i≤n mit (Y j ) 1≤j≤n :<br />

M (1)<br />

n = M n := max<br />

l ɛ {0,...,n}<br />

i,j ɛ {0,...,n−l}<br />

{ l∑<br />

k=1<br />

}<br />

s(X i+k , Y j+k ) ,<br />

so ergibt sich aus Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Theorem 3] e<strong>in</strong> starkes<br />

Gesetz großer Zahlen mit asymptotisch logarithmischem Wachstum, das heißt<br />

M n<br />

−→ 2<br />

.<br />

log n n→∞ Θ ∗<br />

Für die Def<strong>in</strong>ition des zweitgrößten Scores M n<br />

(2) sollen nun die Zeichenpaare<br />

(X i+k , Y j+k ) k=1,...,l , die im Alignment des größten Scores benutzt wurden, ausgeschlossen<br />

werden. Hierfür wird e<strong>in</strong>e Methode verwendet, die sich sowohl <strong>in</strong><br />

der wahrsche<strong>in</strong>lichkeitstheoretischen Analyse der Maxima als auch <strong>in</strong> der Implementierung<br />

von Algorithmen zur Bestimmung des maximalen Scores bei der<br />

sogenannten Dynamischen Programmierung“ bewährt hat. E<strong>in</strong>ige der folgenden<br />

Def<strong>in</strong>itionen sowie weitere <strong>in</strong>teressante Aussagen f<strong>in</strong>det man beispielsweise<br />

”<br />

<strong>in</strong> Waterman [94, Kapitel 9] oder Hansen [50, Kapitel 2 <strong>und</strong> Abschnitt 5.2].


2.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 13<br />

Für n ɛ N def<strong>in</strong>iert man die Menge der <strong>Alignments</strong> als<br />

A n := { (i, j, l) ɛ (N 0 ) 3 | l ɛ {0, . . . , n}, i, j ɛ {0, . . . , n − l} } .<br />

Dann ist der Score des <strong>Alignments</strong> (i, j, l) ɛ A n gegeben durch S (i,j,l) : =<br />

∑ l<br />

k=1 s(X i+k, Y j+k ) <strong>und</strong> der maximale Score durch M n = max a ɛ An S a . Für<br />

i, j ɛ {0, . . . , n} sei<br />

T i,j :=<br />

{ 0, falls i = 0 oder j = 0,<br />

(<br />

Ti−1,j−1 + s(X i , Y j ) ) +<br />

, sonst.<br />

Für e<strong>in</strong>dimensionale Indexmengen {0, . . . , n} wird der analoge Prozess ˜T 0 : = 0,<br />

˜T i+1 := ( T i + ˜s(X i ) ) +<br />

anschaulich als Spiegelung an der 0 bezeichnet. Ebenso wie<br />

max 0≤i≤j≤n<br />

∑ j<br />

k=i+1 ˜s(X i) = max i ɛ {0,...,n} ˜Ti gilt, erhält man:<br />

M n = max S a = max T i,j .<br />

a ɛ A n i,j ɛ {0,...,n}<br />

Diese Darstellung bietet aus algorithmischer Sicht <strong>in</strong>sbesondere bei Sequence<br />

Match<strong>in</strong>g mit Gaps sehr große Vorteile, da die Rechenzeit durch Implementierung<br />

obiger Darstellung drastisch s<strong>in</strong>kt. Dies liegt dar<strong>in</strong> begründet, dass über<br />

weniger Variablen maximiert wird, vergleiche hierzu etwa Waterman [94, Kapitel<br />

9] oder Szpankowski [91, Abschnitt 1.5]. Darauf soll hier jedoch ebenso<br />

wenig e<strong>in</strong>gegangen werden, wie auf die Ableitung des <strong>in</strong> der Praxis verwendeten<br />

Smith–Waterman-Algorithmus aus dieser Darstellung.<br />

In Anlehnung an die Def<strong>in</strong>ition der Exkursionen <strong>in</strong> Karl<strong>in</strong> <strong>und</strong> Dembo [54, Gleichung<br />

(1.4)] oder Hansen [50, Def<strong>in</strong>ition 5.2.2] wird das Alignment (i, j, l) ɛ A n<br />

genau dann als relevantes Alignment“ bezeichnet, wenn es folgende Bed<strong>in</strong>gungen<br />

”<br />

erfüllt:<br />

• S (i,j,l) ≥ S (i,j,k) für alle k ɛ {0, . . . , max{l ′ | S (i,j,l ′ ) > 0}}<br />

• T i,j = 0 oder es existieren s ɛ {0, . . . , m<strong>in</strong>{i, j}}, l ′ ɛ {1, . . . , s}, so dass gilt:<br />

(i − s, j − s, l ′ ) ist relevantes Alignment <strong>und</strong><br />

T i,j ≤ T i−k,j−k für alle k ɛ {1, . . . , s − l ′ }<br />

• S (i,j,k) > 0 für alle k ɛ {1, . . . , l − 1}<br />

Anschaulich bedeutet die erste Bed<strong>in</strong>gung, dass der Score durch Verlängern oder<br />

Verkürzen des <strong>Alignments</strong> nicht vergrößert werden kann, die zweite, dass der<br />

Score durch Verschieben der Startposition (i, j) nicht vergrößert werden kann,<br />

<strong>und</strong> die letzte sichert, dass die relevanten <strong>Alignments</strong> möglichst kurz s<strong>in</strong>d.


14 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Bezeichnet E n = : E n<br />

(1) die zufällige Menge aller relevanten <strong>Alignments</strong>, so gilt<br />

analog zu obiger Argumentation:<br />

M n = M (1)<br />

n<br />

= max S a .<br />

a ɛ E (1)<br />

n<br />

Der zweitgrößte Score wird nun durch Herausnehmen“ des <strong>Alignments</strong> a (1)<br />

”<br />

n , das<br />

den maximalen Score ergibt, ermittelt. Dieses Verfahren wird d-mal iteriert:<br />

Seien M n<br />

(1) , . . . , M n (k) , E n<br />

(1) , . . . , E (k)<br />

schon def<strong>in</strong>iert. Dann wählt man:<br />

E (k+1)<br />

n<br />

n <strong>und</strong> a (1)<br />

n<br />

:= E (k)<br />

n<br />

M (k+1)<br />

n<br />

:= max<br />

a (k+1)<br />

n<br />

a ɛ E (k+1)<br />

n<br />

\ {a (k)<br />

n },<br />

S a ,<br />

:= arg max S a .<br />

a ɛ E n<br />

(k+1)<br />

, . . . , a (k)<br />

n für k ɛ {1, . . . , d}<br />

Damit erhält man die d größten Scores M (1)<br />

n<br />

≥ . . . ≥ M (d)<br />

n .<br />

Alternativ wäre auch e<strong>in</strong>e Formulierung möglich, bei der nicht das Alignment mit<br />

maximalem Score, sondern die ”<br />

Exkursion“, die das Alignment enthält, ausgeschlossen<br />

wird. Für e<strong>in</strong>e mathematische Def<strong>in</strong>ition des Exkursions-Begriffes sowie<br />

weitere Eigenschaften, siehe Karl<strong>in</strong> <strong>und</strong> Dembo [54] oder Hansen [50]. Anschaulich<br />

ist e<strong>in</strong>e Exkursion e<strong>in</strong> Alignment maximaler Länge mit strikt positivem Score.<br />

Auch hier gilt, dass sich der maximale Score als Maximum über alle Exkursionen<br />

berechnen lässt.<br />

Auf e<strong>in</strong>e Formulierung mithilfe von Exkursionen wurde jedoch verzichtet, da<br />

ansonsten mehrere große Scores <strong>in</strong> e<strong>in</strong>er Exkursion nur e<strong>in</strong>mal berücksichtigt<br />

würden. Weil damit <strong>Alignments</strong> unnötig ausgeschlossen würden <strong>und</strong> eventuell<br />

wichtige Informationen ungenutzt blieben, entspricht dies nicht der zuvor beschriebenen<br />

Anwendung <strong>in</strong> der Genetik.<br />

Aus der Def<strong>in</strong>ition der M (k)<br />

n<br />

mithilfe der zufälligen Mengen E (k)<br />

n , k ɛ {1, . . . , d}<br />

wird offensichtlich, dass e<strong>in</strong>e Untersuchung des maximalen Scores lediglich anhand<br />

der Position der auftretenden Abhängigkeiten wegen wenig erfolgversprechend<br />

ist. Daher wird <strong>in</strong> der folgenden Def<strong>in</strong>ition e<strong>in</strong> Hilfsmittel für die sogenannte<br />

<strong>Muster</strong>analyse“ bereitgestellt. In der Large-Deviation-Theorie wird diese Methode<br />

auch als Method of Types“ bezeichnet, vergleiche Dembo <strong>und</strong> Zeitouni [35,<br />

”<br />

”<br />

Abschnitt 2.1.1]. Hierbei wird <strong>in</strong> beiden <strong>Zeichenketten</strong> nach Sequenz-Abschnitten<br />

gesucht, deren empirische Verteilung derjenigen der <strong>Alignments</strong> mit großem Score<br />

nahekommen. Wie <strong>in</strong> [6, Abschnitt 4] beziehungsweise <strong>in</strong> den nächsten Abschnitten<br />

offensichtlich wird, s<strong>in</strong>d das die empirischen Verteilungen <strong>in</strong> e<strong>in</strong>er kle<strong>in</strong>en<br />

Umgebung von α ∗ .


2.2. Starkes Gesetz großer Zahlen 15<br />

Def<strong>in</strong>ition 2.2<br />

Für die Länge l ɛ N <strong>und</strong> das Wort w = w 1 · · · w l ɛ A l ist die empirische Verteilung<br />

L l (w) = ( L l (w) 1 , . . . , L l (w) ξ<br />

)<br />

von w gegeben durch:<br />

L l (w) k := 1 l<br />

l∑<br />

1 {wi }(k) für alle k ∈ {1, . . . , ξ}.<br />

i=1<br />

2.2 Starkes Gesetz großer Zahlen<br />

Gegenstand dieses Abschnitts ist e<strong>in</strong> starkes Gesetz großer Zahlen für die d<br />

größten Scores. Dies ist e<strong>in</strong>e Verallgeme<strong>in</strong>erung von Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />

[33, Theorem 3 <strong>und</strong> 4].<br />

Satz 2.3<br />

Es gelten die Voraussetzungen aus Abschnitt 2.1. Dann verhalten sich die d<br />

größten Scores asymptotisch logarithmisch, das heißt für alle k ɛ {1, . . . , d} gilt:<br />

M n<br />

(k)<br />

log n −→ 2<br />

n→∞<br />

Θ . ∗<br />

Insbesondere unterscheiden sich also die d größten Scores bei logarithmischer<br />

Normierung asymptotisch nicht.<br />

Beweis:<br />

Sei d ɛ N fest. Nach Def<strong>in</strong>ition der ( M n<br />

(k) )1≤k≤d gilt M n = M n<br />

(1) ≥ . . . ≥ M n (d) .<br />

In Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Theorem 3 <strong>und</strong> 4] wurde für den maximalen<br />

M<br />

Score gezeigt, dass lim sup n<br />

≤ 2<br />

n→∞ ist. Somit reicht es zu zeigen, dass<br />

log n Θ ∗<br />

lim <strong>in</strong>f<br />

n→∞<br />

M (d)<br />

n<br />

log n ≥ 2 Θ ∗<br />

gilt. Hierzu werden die <strong>Zeichenketten</strong> X <strong>und</strong> Y <strong>in</strong> Blöcke der Länge l ɛ N aufgeteilt<br />

<strong>und</strong> bewiesen, dass <strong>in</strong> den Diagonalen dieser Blöcke bereits ausreichend große<br />

Scores vorkommen.<br />

Seien also l, n ɛ N, l ≤ n, n ∗ := l⌊ n⌋ <strong>und</strong> γ ɛ M l l(A 2 ). Da M n<br />

(d) monoton wachsend<br />

<strong>in</strong> n ist, wird hier ohne E<strong>in</strong>schränkung von n = n ∗ ausgegangen. Zunächst wird<br />

die ( Wahrsche<strong>in</strong>lichkeit dafür abgeschätzt, dass weniger als d Blöcke der Form<br />

(Xil+1 , Y jl+1 ), . . . , (X (i+1)l , Y (j+1)l ) ) , i, j ɛ {0, . . . n −1} mit empirischer Verteilung<br />

l<br />

γ vorkommen.


16 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

<strong>in</strong> X bezie-<br />

Die Anzahl der Blöcke der Länge l mit empirischer Verteilung γ X<br />

hungsweise γ Y <strong>in</strong> Y ist gegeben durch:<br />

n<br />

l −1<br />

∑<br />

M := M(γ X ) := 1 {L l (X il+1···X (i+1)l )=γ X } beziehungsweise<br />

i=0<br />

n<br />

l −1<br />

∑<br />

N := M(γ Y ) := 1 {L l (Y jl+1···Y (j+1)l )=γ Y }.<br />

j=0<br />

Für den Fall M ≥ 1 <strong>und</strong> N ≥ 1 seien dies die Blöcke πX 1 , . . . , πM X<br />

πY 1 , . . . , πN Y , das heißt, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} ist:<br />

beziehungsweise<br />

L l( X π i<br />

X l+1 · · · X (π i<br />

X +1)l)<br />

= γX <strong>und</strong> L l( Y π<br />

j<br />

Y l+1 · · · Y (π j Y +1)l )<br />

= γY .<br />

Das Ereignis, dass der i-te Block <strong>in</strong> X <strong>und</strong> der j-te Block <strong>in</strong> Y geme<strong>in</strong>same empirische<br />

Verteilung γ aufweisen, bezeichnet man für i ɛ {1, . . . , M}, j ɛ {1, . . . , N}<br />

mit:<br />

B i,j := B i,j (γ) := { L l( (X π i<br />

X l+1, Y π<br />

j<br />

Y l+1), . . . , (X (π i X +1)l , Y (π<br />

j<br />

Y +1)l)) = γ } .<br />

Für jeden Block X π i<br />

X l+1 · · · X (π i<br />

X +1)l beziehungsweise Y π<br />

j<br />

Y l+1 · · · Y (π j Y +1)l<br />

stimmt die<br />

empirische Verteilung mit γ X beziehungsweise γ Y übere<strong>in</strong>. Somit hängt es nur von<br />

der Reihenfolge der e<strong>in</strong>zelnen Buchstaben <strong>in</strong>nerhalb e<strong>in</strong>es solchen Blockpaares ab,<br />

ob (X π i<br />

X l+1, Y π<br />

j<br />

l+1), . . . , (X (π i Y X +1)l , Y (π<br />

j<br />

Y +1)l)<br />

geme<strong>in</strong>same empirische Verteilung γ<br />

hat. Dies bedeutet, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} gilt:<br />

P (B i,j ) = P (B 1,1 ) =: p<br />

unabhängig von i, j. Def<strong>in</strong>iert man die Anzahl von Block-Paaren mit empirischer<br />

Verteilung γ als:<br />

M∑ N∑<br />

W := W (γ) := 1 Bi,j ,<br />

so erhält man für den bed<strong>in</strong>gten Erwartungswert von W bei gegebenem M <strong>und</strong><br />

N: E[W | M, N] = MNp <strong>und</strong> für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N}:<br />

E ( exp(p − 1 Bi,j ) ) = e p( 1 − p + p e<br />

i=1<br />

j=1<br />

)<br />

= e p (1 − cp), mit c = e − 1<br />

e<br />

ɛ (0, 1).<br />

Aufgr<strong>und</strong> der Unabhängigkeit der <strong>Zeichenketten</strong> s<strong>in</strong>d B i,j <strong>und</strong> B i ′ ,j ′ für alle<br />

i, i ′ ɛ {1, . . . , M}, j, j ′ ɛ {1, . . . , N} mit (i, j) ≠ (i ′ , j ′ ) unabhängig. Mit e<strong>in</strong>fachen<br />

analytischen Mitteln lässt sich zeigen, dass für alle a ɛ (0, 1), v > 0 gilt:


2.2. Starkes Gesetz großer Zahlen 17<br />

(1−a) v ≤ 1 . Somit folgt bei gegebenem M <strong>und</strong> N aus der Markov-Ungleichung:<br />

av<br />

P (W ≤ d − 1 | M, N) = P ( E[W |M, N] − W ≥ E[W |M, N] − d + 1 ∣ )<br />

M, N<br />

≤ E( exp(E[W |M, N] − W ) ∣ )<br />

M, N<br />

exp ( E[W |M, N] − d + 1 )<br />

∑ N<br />

j=1 (p − 1 B i,j<br />

) ) ∣ ∣ M, N<br />

)<br />

= E ( exp ( ∑ M<br />

i=1<br />

exp(MN p − d + 1)<br />

∏ M ∏ N<br />

i=1 j=1 E ( exp(p − 1 Bi,j ) )<br />

=<br />

(e p ) MN e −d+1<br />

( ) MN<br />

e p (1 − cp)<br />

=<br />

e d−1<br />

e p<br />

≤<br />

ed−1<br />

MN cp<br />

= ed<br />

e − 1 · 1<br />

MNp .<br />

Da M <strong>und</strong> N unabhängig s<strong>in</strong>d, folgt mit der Glättungsregel für die Wahrsche<strong>in</strong>lichkeit,<br />

dass höchstens d-1 Paare von Blöcken empirische Verteilung γ haben:<br />

P (W ≤ d − 1) ≤ E [ 1 {W ≤d−1} 1 {M≥1} 1 {N≥1}<br />

]<br />

+ P (M = 0) + P (N = 0)<br />

= E [ ]<br />

P (W ≤ d−1 | M, N)1 {M≥1} 1 {N≥1} + P (M =0) + P (N =0)<br />

e d [<br />

≤<br />

(e − 1)p E 1{M≥1}<br />

] [ 1{N≥1}<br />

]<br />

E + P (M = 0) + P (N = 0),<br />

M N<br />

mit der Konvention 0 := 0, um unnötige Fallunterscheidungen zu vermeiden. Für<br />

0<br />

alle n ≥ 0 gilt 1 {n≥1} (n + 1) ≤ 2n <strong>und</strong> somit 1 {n≥1}<br />

≤ 2 . M ist b<strong>in</strong>omialverteilt<br />

n n+1<br />

mit Parameter ñ := n ɛ l N <strong>und</strong> ˜p := P( )<br />

L l (X 1 · · · X l ) = γ X . Somit ergibt sich für<br />

den ersten Erwartungswert:<br />

[ 1{M≥1}<br />

] [<br />

2<br />

]<br />

E ≤ E<br />

M M + 1<br />

en∑<br />

(ñ )<br />

1<br />

= 2<br />

˜p k (1 − ˜p) en−k<br />

k + 1 k<br />

k=0<br />

2 [<br />

=<br />

]<br />

1 − (1 − ˜p)<br />

en+1<br />

(ñ + 1)˜p<br />

≤ 2<br />

˜p ñ<br />

=<br />

2l<br />

P ( L l (X 1 · · · X l ) = γ X<br />

)<br />

n<br />

.


18 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Analog gilt für den zweiten Erwartungswert:<br />

Aus (1 − a) v ≤ 1<br />

av<br />

E<br />

[ 1{N≥1}<br />

N<br />

erhält man:<br />

]<br />

≤<br />

2l<br />

P ( L l (Y 1 · · · Y l ) = γ Y<br />

)<br />

n<br />

.<br />

P (M = 0) =<br />

≤<br />

P (N = 0) ≤<br />

(<br />

1 − P ( L l (X 1 · · · X l ) = γ X<br />

) ) n l<br />

l<br />

n P ( )<br />

L l (X 1 · · · X l ) = γ X<br />

l<br />

n P ( ) .<br />

L l (Y 1 · · · Y l ) = γ Y<br />

Für die Wahrsche<strong>in</strong>lichkeit P (W ≤ d − 1) folgt daraus:<br />

Wegen<br />

P (W ≤ d − 1) ≤<br />

<strong>und</strong> ebenso<br />

4e d l 2<br />

(e−1) n 2 p P ( ) ( )<br />

L l (X 1 · · · X l ) = γ X P Ll (Y 1 · · · Y l ) = γ Y<br />

l<br />

+<br />

n P ( l<br />

) +<br />

L l (X 1 · · · X l ) = γ X n P ( ) .<br />

L l (Y 1 · · · Y l ) = γ Y<br />

p = P (B 1,1 )<br />

= P ( L l( (X 1 ,Y 1 ), . . . , (X l ,Y l ) ) =γ ∣ ∣ L<br />

l ( X 1 · · · X l<br />

)<br />

=γX , L l( Y 1 · · · Y l<br />

)<br />

=γY<br />

)<br />

ergibt sich mit Dembo <strong>und</strong> Zeitouni [35, Lemma 2.1.9] für die Wahrsche<strong>in</strong>lichkeiten<br />

im Nenner des ersten Summanden:<br />

Ebenso folgt:<br />

p P ( L l (X 1 · · · X l )=γ X<br />

)<br />

P<br />

(<br />

L l (Y 1 · · · Y l )=γ Y<br />

)<br />

= P ( L l( (X 1 , Y 1 ), . . . , (X l , Y l ) ) =γ )<br />

≥ ( l+1 ) −ξ 2 exp ( −lH(γ|P (X,Y ) ) ) .<br />

P ( L l (X 1 · · · X l ) = γ X<br />

)<br />

≥ (l + 1) −ξ exp ( − lH(γ X |P X ) ) <strong>und</strong><br />

P ( L l (Y 1 · · · Y l ) = γ Y<br />

)<br />

≥ (l + 1) −ξ exp ( − lH(γ Y |P Y ) ) .<br />

Wählt man abkürzend ξ ′ : = ξ 2 − ξ + 1 ɛ N, so läßt sich damit P (W ≤ d − 1)


2.2. Starkes Gesetz großer Zahlen 19<br />

abschätzen:<br />

P (W ≤ d−1) ≤ 4ed l 2<br />

(e−1) n 2 (l+1)ξ2 exp ( lH(γ|P (X,Y ) ) )<br />

+ l (<br />

n (l+1)ξ exp ( lH(γ X |P X ) ) + exp ( lH(γ Y |P Y ) ))<br />

(<br />

≤ (l+1)ξ+1 4e d (l + 1) ξ′<br />

exp ( lH(γ|P (X,Y ) ) )<br />

n (e−1) n<br />

(2.2.1)<br />

+ exp ( lH(γ X |P X ) ) + exp ( lH(γ Y |P Y ) )) .<br />

Mit t := (1 − 2ε) 2 soll als nächstes gezeigt werden, dass D ɛ<br />

Θ ∗<br />

R existiert, so dass<br />

für alle ε > 0 <strong>und</strong> h<strong>in</strong>reichend große n ɛ N gilt:<br />

P ( M (d)<br />

n ≤ t log n ) ≤ Dn − 1 2 ε2 .<br />

Entscheidend ist hierbei, dass Blöcke mit empirischer Verteilung α ∗ e<strong>in</strong>en h<strong>in</strong>reichend<br />

großen Score ergeben. So ist nach Def<strong>in</strong>ition 2.1:<br />

H(α ∗ | P (X,Y ) ) = ∑<br />

(<br />

)<br />

e Θ∗s(b,c) P (X,Y ) e Θ∗s(b,c) P (X,Y ) (b, c)<br />

(b, c) log<br />

P (X,Y ) (b, c)<br />

b,c ɛ A<br />

= Θ ∑<br />

∗ s(b, c) α ∗ (b, c)<br />

b,c ɛ A<br />

= Θ ∗ E α ∗s.<br />

Für alle n ɛ N betrachtet man nun die Blocklänge l : = l n : = ⌈ (1−ε) log n 2<br />

H(α ∗ |P (X,Y ) )⌉<br />

. Sei<br />

γ (n) ɛ M ln (A 2 ) gegeben durch:<br />

γ (n)<br />

b,c := 1 l n<br />

⌊l n α ∗ b,c⌋, für (b, c) ɛ A 2 \ {(ξ, ξ)} <strong>und</strong> γ (n)<br />

ξ,ξ := 1 −<br />

∑<br />

γ (n)<br />

b,c .<br />

(b,c) ɛ A 2 \{(ξ,ξ)}<br />

Dann folgt: ∑ ∣ (n)<br />

b,c ɛ A γ<br />

b,c<br />

− α∗ ∣<br />

b,c ≤ 2<br />

ξ 2 −1<br />

l n<br />

. Bezeichnet s M : = max b,c ɛ A s(b, c) das<br />

Maximum der Scor<strong>in</strong>g-Funktion, so gilt:<br />

∑<br />

l n E γ (n) s = l n s(b, c)γ (n)<br />

b,c<br />

b,c ɛ A<br />

= l n<br />

∑<br />

b,c ɛ A<br />

s(b, c)α ∗ b,c − l n<br />

∑<br />

b,c ɛ A<br />

s(b, c) ( αb,c ∗ − γ (n) )<br />

b,c<br />

≥ l n E α ∗ s − 2s M ξ 2<br />

(1 − ε)<br />

≥<br />

H(α ∗ | P (X,Y ) ) log n2 E α ∗ s − 2s M ξ 2<br />

= 2(1 − ε) log n<br />

Θ ∗ − 2s M ξ 2 .


20 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Ist n ≥ N 1 := exp ( s Mε<br />

ξ 2 Θ ∗) <strong>und</strong> somit 2ε log n<br />

Θ ∗<br />

≥ 2s M ξ 2 , so erhält man:<br />

l n E γ (n) s ≥ 2(1 − 2ε) log n<br />

Θ ∗ = t log n.<br />

Sei n ≥ N 1 <strong>und</strong> ω ɛ {W (γ (n) ) ≥ d}, das heißt für alle k ɛ {1, . . . , d} existieren<br />

paarweise verschiedene (π k X , πk Y ) ɛ {0, . . . , n l n<br />

} 2 mit<br />

L ln ( (Xπ<br />

k<br />

X l n+1(ω), Y π k<br />

Y l n+1(ω) ) , . . . , ( X (π k<br />

X +1)l n<br />

(ω), Y (π k<br />

Y +1)l n<br />

(ω) )) = γ (n) .<br />

Für M n<br />

(d) (ω) ergibt dies:<br />

{<br />

∑ ln<br />

M n<br />

(d) (ω) ≥ m<strong>in</strong> s ( X π k<br />

X l n+r(ω), Y ) ∣ }<br />

π k<br />

Y l n+r(ω) ∣ k ɛ {1, . . . , d}<br />

r=1<br />

= l n E γ (n) s<br />

≥ t log n.<br />

Daher ist {W (γ (n) ) ≥ d} ⊂ { M n<br />

(d)<br />

P ( M n (d) < t log n )<br />

≤ P ( W (γ (n) ) ≤ d − 1 )<br />

≤ (l n + 1) ξ+1<br />

n<br />

(<br />

4e d (l n + 1) ξ′<br />

(e − 1)n<br />

≥ t log n } . Aus Gleichung (2.2.1) folgt:<br />

exp ( l n H(γ (n) |P (X,Y ) ) )<br />

+ exp ( l n H(γ (n)<br />

X |P X ) ) + exp ( l n H(γ (n)<br />

Y |P Y ) )) .<br />

Wegen der Konvergenz γ (n) −→ n→∞<br />

α ∗ <strong>und</strong> der Stetigkeit der Entropie gibt es N 2 ɛ N,<br />

so dass H(γ(n) |P (X,Y ) )<br />

H(α ∗ |P (X,Y ) )<br />

n ≥ N 2 <strong>und</strong> somit:<br />

P ( M n (d) < t log n )<br />

≤ (l n + 1) ξ+1<br />

n<br />

≤ 1 + ε, H(γ(n) X |P X )<br />

H(α ∗ X |P X )<br />

(<br />

4e d (l n + 1) ξ′<br />

(e − 1)n<br />

≤ 1 + ε <strong>und</strong> H(γ(n) Y |P Y )<br />

H(α ∗ Y |P Y )<br />

exp ( (1 + ε)l n H(α ∗ |P (X,Y ) ) )<br />

≤ 1 + ε für alle<br />

+ exp ( (1 + ε)l n H(α ∗ X|P X ) ) + exp ( (1 + ε)l n H(α ∗ Y |P Y ) )) .<br />

Sei N 3 ɛ N so groß, dass für alle n ≥ N 3 gilt: 4ed (l n+1) ξ′<br />

≤ n ε2 <strong>und</strong> damit wegen<br />

e−1<br />

l n := ⌈ (1−ε) log n 2<br />

H(α ∗ |P )⌉<br />

auch:<br />

(X,Y )<br />

4e d (l n + 1) ξ′<br />

(e − 1)n<br />

exp ( (1 + ε)l n H(α ∗ |P (X,Y ) ) ) (<br />

)<br />

1<br />

≤ exp<br />

2 (1 + ε)l nH(α ∗ |P (X,Y ) ) .


2.2. Starkes Gesetz großer Zahlen 21<br />

Nach Voraussetzung ist H(α ∗ | P (X,Y ) ) > 2 max { H(α ∗ X |P X ), H(α ∗ Y |P Y ) } , daher<br />

lässt sich der d-größte Score weiter abschätzen:<br />

P ( M (d)<br />

n ≤ t log n )<br />

≤ (l n + 1) ξ+1<br />

n<br />

[<br />

exp<br />

(<br />

1<br />

(1 + ε)l 2 nH ( α ∗ |P<br />

(X,Y )))<br />

+ exp ( (1 + ε)l n H(αX|P ∗ X ) ) + exp ( (1 + ε)l n H(αY ∗ |P Y ) )]<br />

(<br />

≤ 3 (l n + 1) ξ+1 n −1 1<br />

exp (1 + ε)l 2 nH ( α ∗ (X,Y<br />

|P )))<br />

(<br />

)<br />

1−ε<br />

ξ+1n<br />

≤ 3<br />

log H(α ∗ |P (X,Y ) ) n2 −1<br />

+ 2<br />

( (<br />

1−ε<br />

· exp (1 + ε)<br />

log H(α ∗ |P (X,Y ) ) n2 + 1<br />

)H ( α ∗ (X,Y<br />

| P<br />

)))<br />

(<br />

) ξ+1<br />

1−ε<br />

≤ 3<br />

log n + 2 H(α ∗ |P (X,Y ) ) exp<br />

((1 + ε)H ( α ∗ | P (X,Y ))) n −ε2 .<br />

Sei D := 3 exp ( (1 + ε)H(α ∗ | P (X,Y ) ) ) <strong>und</strong> N 4 ɛ N h<strong>in</strong>reichend groß, so dass für<br />

alle n ≥ N 4 gilt:<br />

(<br />

) ξ+1<br />

1−ε<br />

log n + 2 1<br />

H(α ∗ |P (X,Y ) ) ≤ n 2 ε2 .<br />

Man erhält für alle n ≥ max{N 1 , N 2 , N 3 , N 4 }<br />

P ( M (d)<br />

n ≤ (1 − 2ε) 2<br />

Θ ∗ log n ) ≤ Dn − 1 2 ε2 .<br />

Die Behauptung wird nun mit dem Lemma von Borel–Cantelli zunächst für e<strong>in</strong>e<br />

Teilfolge, <strong>in</strong> der Literatur üblicherweise n k -Gerüst genannt, bewiesen. Unter<br />

Zuhilfenahme der Monotonie von M n<br />

(d) wird diese Aussage schließlich für die verbleibenden<br />

Lücken gezeigt, das heißt, es wird bewiesen, dass die Abschätzungen<br />

im Wesentlichen auch außerhalb des n k -Gerüsts gelten.<br />

Mit n k := e k folgt für alle h<strong>in</strong>reichend großen k ɛ N:<br />

P ( M (d)<br />

n k<br />

≤ (1 − 2ε) 2<br />

Θ ∗ k ) ≤ D ( exp(− 1 2 ε2 ) ) k<br />

,<br />

so dass die Reihe ∑ ∞<br />

k=1 P( M (d)<br />

n k<br />

≤ (1 − 2ε) 2<br />

Θ ∗ k ) konvergiert. Nach dem Lemma<br />

von Borel–Cantelli existiert e<strong>in</strong>e messbare Menge M mit P (M) = 1, so dass auf<br />

M für h<strong>in</strong>reichend große k gilt:<br />

M (d)<br />

n k<br />

≥ (1 − 2ε) 2<br />

Θ ∗ k.<br />

Sei K ɛ N so groß, dass für alle k ≥ K gilt:<br />

(1 − 2ε)k ≥ (1 − 3ε)(k + 1).


22 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Für alle n ≥ N 0 := max{N 1 , N 2 , N 3 , N 4 , e K } existiert genau e<strong>in</strong> k ≥ K, so dass<br />

n k ≤ n < n k+1 = e k+1 . Somit folgt auf M:<br />

M (d)<br />

n<br />

≥ M (d)<br />

n k<br />

≥ (1 − 2ε) 2<br />

Θ ∗ k<br />

≥ (1 − 3ε) 2<br />

Θ ∗ (k + 1)<br />

= (1 − 3ε) 2<br />

Θ ∗ log n k+1<br />

≥ (1 − 3ε) 2<br />

Θ ∗ log n.<br />

Wegen P (M) = 1 ergibt sich die Behauptung mit ε −→ 0.<br />

✷<br />

Bemerkung:<br />

Die bewiesene Aussage lässt sich mit den <strong>in</strong> Arratia <strong>und</strong> Waterman [6] oder<br />

Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33] vorgestellten Methoden auch auf die d größten<br />

Scores mit empirischer Verteilung <strong>in</strong> e<strong>in</strong>er gegeben Teilmenge U ⊂ M 1 (A 2 ) verallgeme<strong>in</strong>ern.<br />

Dies br<strong>in</strong>gt ke<strong>in</strong>e neuen Erkenntnisse, erfordert aber stellenweise<br />

e<strong>in</strong>e wesentlich aufwendigere Notation. Daher wurde hier darauf verzichtet, um<br />

den Beweis übersichtlich <strong>und</strong> die Struktur erkennbar zu halten.<br />

2.3 Poisson Approximation<br />

In diesem Abschnitt wird die geme<strong>in</strong>same Verteilung der Maxima gegen unabhängige<br />

Gumbel-Verteilungen gezeigt. In der Anwendung dürfte die asymptotische<br />

Unabhängikeit von Bedeutung se<strong>in</strong>, da diese Eigenschaft e<strong>in</strong>e sehr e<strong>in</strong>fache<br />

Berechnung der approximativen Wahrsche<strong>in</strong>lichkeiten ermöglicht. Anschaulich<br />

lässt sich diese Eigenschaft damit erklären, dass es sich beim Überschreiten<br />

e<strong>in</strong>es großen Schwellenwerts um e<strong>in</strong> seltenes Ereignis handelt. Ist die Anzahl der<br />

betrachteten Zeichen h<strong>in</strong>reichend groß, so lässt sich die gegenseitige Bee<strong>in</strong>flussung<br />

dieser Ereignisse kontrollieren.<br />

Als geeignete Metrik hat sich für diese Fragestellung die sogenannte ”<br />

Totalvariation“<br />

herausgestellt. In der Literatur s<strong>in</strong>d zwei unterschiedliche Def<strong>in</strong>itionen<br />

üblich, die sich um den Faktor 2 unterscheiden. Hier wird die Variante verwendet,<br />

wie sie von Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon <strong>in</strong> [3] <strong>und</strong> [4] <strong>in</strong> Zusammenhang mit<br />

der Ste<strong>in</strong>–Chen-Methode def<strong>in</strong>iert wird.<br />

Def<strong>in</strong>ition 2.4 (Totalvariation)<br />

Seien (Ω, A) e<strong>in</strong> Messraum <strong>und</strong> µ, ν ɛ M 1 (Ω, A) Wahrsche<strong>in</strong>lichkeitsmaße auf


2.3. Poisson Approximation 23<br />

(Ω, A). Dann ist die Totalvariation von µ <strong>und</strong> ν gegeben durch:<br />

∫ ∫<br />

d TV (µ, ν) := sup ∣ fdµ − fdν∣<br />

|f|≤1<br />

∣<br />

= 2 sup ∣ µ(A) − ν(A) ∣.<br />

A ɛ A<br />

Bemerkungen:<br />

1. Die Totalvariation ist e<strong>in</strong>e Metrik auf M 1 (Ω, A). Für Eigenschaften <strong>und</strong> Zusammenhänge<br />

zu anderen Metriken auf M 1 (Ω, A) siehe etwa Daley <strong>und</strong> Vere-<br />

Jones [31, Kapitel 9], Barbour, Holst <strong>und</strong> Janson [12, Appendix A.1] oder<br />

Reiss [74, Abschnitt 1.3 <strong>und</strong> 3.2].<br />

2. Die Totalvariation ist für die folgende Untersuchung geeignet, weil sie e<strong>in</strong>erseits<br />

stark genug ist, so dass zum Beispiel aus der Konvergenz d TV (µ n , µ) −→ n→∞<br />

0 für<br />

µ n , µ ɛ M 1 (Ω, A) auch die Konvergenz <strong>in</strong> Verteilung µ D<br />

n −→ µ folgt. Andererseits<br />

ist sie nicht zu stark, so dass sich <strong>in</strong> vielen Anwendungen Abschätzungen<br />

der Totalvariation f<strong>in</strong>den lassen.<br />

Ist I e<strong>in</strong>e Indexmenge <strong>und</strong> (I i ) i ɛ I e<strong>in</strong>e Familie von Bernoulli-verteilten Zufallsvariablen,<br />

so wird durch Ĩ(B) := ∑ i ɛ B I i, B ⊂ I <strong>in</strong> e<strong>in</strong>deutiger Weise e<strong>in</strong> Punktprozess<br />

mit Intensitätsmaß ν(B) = ∑ i ɛ B E I i, B ⊂ I def<strong>in</strong>iert, vergleiche beispielsweise<br />

Resnick [75, Abschnitt 3.1] oder Reiss [74, Abschnitt 1.1]. Der Punktprozess<br />

Ĩ wird im Folgenden mit (I i ) i ɛ I identifiziert <strong>und</strong> auch mit (I i ) i ɛ I bezeichnet, da<br />

auf e<strong>in</strong>e Unterscheidung hier verzichtet werden kann.<br />

Damit lässt sich nun das wichtigste Resultat dieses Kapitels formulieren. Im folgenden<br />

Satz wird die Wahrsche<strong>in</strong>lichkeit, dass die größten Scores große Schwellenwerte<br />

überschreiten, approximiert:<br />

Satz 2.5<br />

Seien d ɛ N <strong>und</strong> x (1) > · · · > x (d) > 0 gegeben. Def<strong>in</strong>iert man die Schwellen<br />

t (k)<br />

n<br />

:= log n2 + x (k)<br />

, für alle k ɛ {1, . . . , d},<br />

Θ ∗<br />

so konvergiert die Anzahl der Überschreitungen dieser Schwellen<br />

N (k)<br />

n<br />

:= ∑ 1 (k) {t n


24 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

mit λ (k) := K ∗( )<br />

e −x(k) −e −x(k−1) , wobei die Konstante K ∗ ɛ R nur von der Scor<strong>in</strong>g-<br />

Funktion s <strong>und</strong> der Verteilung P (X,Y ) abhängt <strong>und</strong> ohne E<strong>in</strong>schränkung t (0)<br />

n := ∞<br />

<strong>und</strong> e −x(0) := 0 zur Abkürzung verwendet wird. Insbesondere folgen die d größten<br />

Scores im Limes unabhängigen Gumbel-Verteilungen, so dass gilt:<br />

−→ n→∞<br />

)<br />

> t (d)<br />

n<br />

P ( M n (1) > t (1)<br />

n ≥ M n<br />

(2) > · · · > t (d−1)<br />

n ≥ M n<br />

(d)<br />

{ ∏d−1<br />

(<br />

(K ∗ ) d−1 exp(−x (k) ) − exp(−x )) }<br />

(k−1) exp(−K ∗ e −x(d−1) )<br />

k=1<br />

{ (<br />

· 1 − exp − K ∗[ exp(−x (d) ) − exp(−x (d−1) ) ])} .<br />

Beweis:<br />

Mit den Bezeichnungen aus Abschnitt 2.3.2 <strong>und</strong> κ (k)<br />

n<br />

k ɛ {1, . . . , d} gilt:<br />

d TV<br />

(<br />

(N<br />

(1)<br />

n<br />

)<br />

, . . . , N n<br />

(d) ), P λ (1) ⊗ . . . ⊗ P λ (d)<br />

n ) ≠ (Ñ n<br />

(1) , . . . , Ñ n (d) ) )<br />

≤ P ( (N n<br />

(1) , . . . , N (d)<br />

(<br />

+ d TV ( Ñ n<br />

(1) , . . . , Ñ (d)<br />

n ), (P κ<br />

(1)<br />

n<br />

, . . . , P κ (d)<br />

n ))<br />

: = ∑ q ɛ I E I∗U (q,k)<br />

(<br />

+ d TV (Pκ , . . . , P ), (P (1)<br />

n<br />

κ n (d) λ ⊗ . . . ⊗ P (1) λ (d))) .<br />

für alle<br />

Die Abschätzung dieser drei Summanden erfolgt nun mit den Ergebnissen aus<br />

Abschnitt 2.3.2:<br />

1. Nach Proposition 2.7 konvergiert P ( (N n<br />

(1) , . . . , N (d)<br />

n ) ≠ (Ñ n<br />

(1)<br />

, . . . , Ñ n<br />

(d) ) ) −→ n→∞<br />

0.<br />

(<br />

2. Aus Lemma 2.8 folgt die Konvergenz d TV (I<br />

∗U<br />

(q,k)<br />

) (q,k) ɛ I ∗, (˜P ∗ (q,k) ) )<br />

(q,k) ɛ I ∗ −→ n→∞<br />

0.<br />

Wegen Ñ n<br />

(k) = ∑ q ɛ I I∗U (q,k) <strong>und</strong> P d<br />

= ∑ ˜P κ (k)<br />

n q ɛ I ∗ (q,k)<br />

für alle k ɛ {1, . . . , d} folgt<br />

die Behauptung.<br />

3. In ( Proposition 2.9 wird die Konvergenz der Poisson-Prozesse<br />

d TV (˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗)<br />

−→<br />

n→∞<br />

0 gezeigt. Wie <strong>in</strong> 2. ergibt sich die Aussage<br />

d<br />

aus P (k) κ<br />

= ∑ ˜P<br />

n q ɛ I ∗ (q,k) <strong>und</strong> P λ = d ∑ (k) q ɛ I P∗ (q,k)<br />

für alle k ɛ {1, . . . , d}.<br />

Die Unabhängigkeit ergibt sich explizit aus der Def<strong>in</strong>ition des Poisson-Prozesses<br />

<strong>und</strong> der Disjunktkeit der Schnitte (I×{k}) für k ɛ {1, . . . , d}, vergleiche etwa Resnick<br />

[75, Abschnitt 3.3.1], Daley <strong>und</strong> Vere-Jones [31, Abschnitt 2.1] oder Reiss [74,<br />

Abschnitt 1.2].


2.3. Poisson Approximation 25<br />

Die Konvergenz der Verteilung der d größten Scores erhält man hieraus wie folgt:<br />

P ( )<br />

M n (1) > t (1)<br />

n ≥ M n<br />

(2) > · · · > t (d−1)<br />

n ≥ M n<br />

(d) > t (d)<br />

n<br />

= P ( N n<br />

(1) = 1, . . . , N n<br />

(d−1) = 1, N n (d) ≠ 0 )<br />

−→ n→∞<br />

P λ (1)({1}) · · · P λ (d−1)({1})P λ (d)({0} c )<br />

∏d−1<br />

( ∑d−1<br />

) (1<br />

= λ (k) exp − λ (k) − exp(−λ (d) ) ) .<br />

k=1<br />

k=1<br />

Durch E<strong>in</strong>setzen von λ (k) := K ∗( )<br />

e −x(k) − e −x(k−1) folgt auch die zweite Behauptung.<br />

✷<br />

Bemerkung:<br />

Die Berechnung der Doppel-Exponentialterme <strong>in</strong> obigen Formeln ist numerisch<br />

problemlos. Um die Approximation anwenden zu können, muss man jedoch auch<br />

die Konstante K ∗ bestimmen beziehungsweise numerisch approximieren. Für den<br />

hier untersuchten Fall wird die Konstante <strong>in</strong> Karl<strong>in</strong> <strong>und</strong> Dembo [54, Theorem A]<br />

angegeben mit:<br />

K ∗ =<br />

(<br />

exp − 2 ∑ ∞<br />

k=1<br />

{<br />

1<br />

k E[exp(Θ ∗ S k )1 {Sk


26 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

können. Um die Abhängigkeiten zu kontrollieren, gibt es im Wesentlichen zwei<br />

Ansätze: Den Kopplungsansatz, wie er beispielsweise <strong>in</strong> dem Standardwerk von<br />

Barbour, Holst <strong>und</strong> Janson [12] verfolgt wird, <strong>und</strong> den lokalen Ansatz, der hier<br />

verwendet werden soll. Für e<strong>in</strong>e tiefer gehende Behandlung dieser beiden Ansätze<br />

siehe beispielsweise Barbour [11, Abschnitt 2].<br />

Hier wird nun e<strong>in</strong> Spezialfall des lokalen Ansatzes, der im Weiteren verwendet<br />

wird, zitiert. Besondere Bedeutung kommt beim lokalen Ansatz den sogenannten<br />

Nachbarschaftsmengen zu, die die abhängigen Zufallsvariablen zusammenfassen:<br />

Satz 2.6 (Ste<strong>in</strong>–Chen-Methode)<br />

Gegeben sei e<strong>in</strong>e endliche Indexmenge I <strong>und</strong> e<strong>in</strong>e Familie von Bernoulli-verteilten<br />

Zufallsvariablen (I α ) α ɛ I . Des Weiteren existiere für alle α ɛ I e<strong>in</strong>e ”<br />

Nachbarschaftsmenge“<br />

B α ⊂ I, so dass α ɛ B α ist <strong>und</strong> I α <strong>und</strong> I β für alle β ɛ I α c unabhängig<br />

s<strong>in</strong>d. Ist (P α ) α ɛ I e<strong>in</strong> Poisson-Prozess auf I mit Intensitätsmaß ν ɛ M(I),<br />

ν(B) := ∑ α ɛ B E I α für alle B ⊂ I, so gilt:<br />

d TV<br />

(<br />

(Iα ) α ɛ I , (P α ) α ɛ I<br />

)<br />

≤ 4(b1 + b 2 )<br />

mit<br />

b 1 := ∑ α ɛ I<br />

b 2 := ∑ α ɛ I<br />

∑<br />

E I α E I β <strong>und</strong><br />

β ɛ I α<br />

∑<br />

E I α I β .<br />

(2.3.2)<br />

β ɛ I α\{α}<br />

Beweis:<br />

Die Behauptung folgt unmittelbar aus Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon [3, Theorem<br />

2] wegen der Unabhängigkeit von I α <strong>und</strong> I β , falls β ɛ I c α ist.<br />

✷<br />

Bemerkung:<br />

Die Bedeutung der Konstanten wird <strong>in</strong> dem vielzitierten Artikel von Arratia,<br />

Goldste<strong>in</strong> <strong>und</strong> Gordon [3, Abschnitt 2] wie folgt erklärt:<br />

1) b 1 misst die Größe der Nachbarschaftsmengen B α .<br />

2) b 2 misst die Korrelation der Bernoulli-Zufallsvariablen <strong>in</strong>nerhalb e<strong>in</strong>er Nachbarschaftsmenge.<br />

3) In Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon [3] wird nicht gefordert, dass I α <strong>und</strong> I β<br />

für alle β ɛ I c<br />

α unabhängig s<strong>in</strong>d. Statt dessen wird e<strong>in</strong>e weitere Konstante<br />

b 3 e<strong>in</strong>geführt, die die schwache Abhängigkeit“ von I ” α <strong>und</strong> (I β ) β ɛ Iα<br />

c misst.<br />

Dies wird hier nicht weiter ausgeführt, da <strong>in</strong> der folgenden Anwendung B α so<br />

gewählt werden kann, dass die Unabhängigkeit gegeben ist.


2.3. Poisson Approximation 27<br />

2.3.2 Beweis von Satz 2.5<br />

Analog zu Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34] <strong>und</strong> Hansen [50, Kapitel 5] wird<br />

die Ste<strong>in</strong>–Chen-Methode zur Poisson Approximation angewandt. Um die Unabhängigkeit<br />

der verschiedenen Maxima zu erhalten, wird jedoch die Prozessversion,<br />

wie sie <strong>in</strong> Abschnitt 2.3.1 vorgestellt wurde, benutzt.<br />

Dafür wird zunächst der Punktprozess J ∗ def<strong>in</strong>iert, der die Überschreitungen der<br />

Schwellen (t (k)<br />

n ) 1≤k≤d beschreibt. Für alle a ɛ E n , k ɛ {1, . . . , d} sei:<br />

J ∗ (a,k) := 1 .<br />

{t (k)<br />

n t (k)<br />

n = J ∗ (a,k) ≥ k ,<br />

a ɛ E n i=1 a ɛ E n<br />

so dass im Folgenden (J ∗ (a,k) ) a ɛ E n,k ɛ {1,...,d} untersucht wird.<br />

Wie <strong>in</strong> Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [33, Lemma 1] gezeigt wird, leisten lange Segmente<br />

e<strong>in</strong>en vernachlässigbaren Beitrag zu positiven Scores, das heißt, es existiert<br />

e<strong>in</strong>e Konstante c 0 > 0, so dass für alle n ɛ N gilt:<br />

(<br />

)<br />

l∑<br />

P sup s(X i+k , Y j+k ) ≥ 0 ≤ 1 n . 2<br />

l≥c 0 log n<br />

i,j ɛ {0,...,n−l}<br />

k=1<br />

Aufgr<strong>und</strong> dieser Eigenschaft genügt es, kurze Segmente zu betrachten. Diese Beschränkung<br />

der zu untersuchenden <strong>Alignments</strong> geht <strong>in</strong> die folgenden Def<strong>in</strong>itionen<br />

e<strong>in</strong> <strong>und</strong> wird verwendet, um die Abhängigkeiten kontrollieren zu können.<br />

Wie bisher werden die <strong>Zeichenketten</strong> wieder <strong>in</strong> unabhängige Blöcke aufgeteilt.<br />

Die Länge der Blöcke ist hier l n : = (log n 2 ) 3 , die Anzahl der Blöcke m n : = n l n<br />

.<br />

Ohne E<strong>in</strong>schränkung sei n ɛ N h<strong>in</strong>reichend groß, so dass c 0 log n ≤ l n .<br />

Um lokales Sequence Match<strong>in</strong>g zu untersuchen, müssen Verschiebungen der <strong>Zeichenketten</strong><br />

gegene<strong>in</strong>ander betrachtet werden. Analog Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />

[34] werden hier die Zeichen <strong>in</strong> den Blöcken der Folge Y zyklisch verschoben,<br />

um e<strong>in</strong>e gesonderte Untersuchung von sogenannten Randeffekten zu umgehen.<br />

Für ζ ɛ {0, . . . , l n −1} werden diese sogenannten ζ-zyklisch-verschobenen Blöcke“<br />

”<br />

X i := (Xh i ) h=1,...,m n<br />

<strong>und</strong> Y j,ζ := (Y j,ζ<br />

h ) h=1,...,m n<br />

def<strong>in</strong>iert durch:<br />

Xh i := X il n+h, für alle i ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1},<br />

Y j,ζ<br />

h<br />

:= Y jln+(ζ+h) mod l n<br />

, für alle j ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}.<br />

Hansen [50, Abschnitt 5.4] nimmt statt dessen e<strong>in</strong>e Unterteilung <strong>in</strong> Streifen vor<br />

<strong>und</strong> betrachtet dann ”<br />

diagonals-with<strong>in</strong>-a-strip“. Hier sollen jedoch die ζ-zyklischverschobenen<br />

Blöcke verwendet werden, um die Resultate aus Dembo, Karl<strong>in</strong> <strong>und</strong><br />

Zeitouni [34] direkt anwenden zu können.


28 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Es seien I := {0, . . . , m n −1} 2 ×{0, . . . , l n } <strong>und</strong> I ∗ := I×{1, . . . , d}. Für (i, j, ζ) ɛ I<br />

<strong>und</strong> U ɛ M 1 (A 2 ) bezeichne<br />

{ r+l−1 ∑ ∣<br />

Mi,j,ζ U := max s(Xh, i Y j,ζ ∣∣<br />

h ) 0 ≤ l ≤ c0 log n, 1 ≤ r ≤ l n − l, }<br />

h=r<br />

L l( (Xh, i Y j,ζ<br />

h<br />

) )<br />

h=r,...,r+l−1 ɛ U<br />

den maximalen Score mit empirischer Verteilung <strong>in</strong> U auf der Diagonalen des<br />

Blocks (X i , Y j,ζ ). Def<strong>in</strong>iert man für alle (i, j, ζ, k) ɛ I ∗ :<br />

I ∗U<br />

so kann ( )<br />

I ∗U<br />

i,j,ζ,k (i,j,ζ,k) ɛ I ∗<br />

n }<br />

i,j,ζ,k := {<br />

1{M U<br />

i,j,ζ >t (1)<br />

1 {t<br />

(k)<br />

n<br />

t(d n ) }<br />

wie <strong>in</strong> Barbour <strong>und</strong> Månsson [13] oder Aldous [2] beschrieben, betrachtet werden.<br />

E<strong>in</strong>e Formulierung, <strong>in</strong> der durchgängig Prozessversionen betrachtet werden, wäre<br />

zwar wünschenswert, scheitert aber an der Abschätzung des Abstands zwischen<br />

(J ∗ (a,k) ) e ɛ E n, k ɛ {1,...,d} <strong>und</strong> (I ∗U<br />

(e,k) ) e ɛ I, k ɛ {1,...,d}. Weil beide auf verschiedenen Indexmengen<br />

def<strong>in</strong>iert s<strong>in</strong>d, ist es nicht möglich, den Abstand mit der Totalvariationsmetrik<br />

zu messen. Daher wird <strong>in</strong> der nächsten Proposition die Aussage für die<br />

Schnitte (I × {k}), k ɛ {1, . . . , d} gezeigt.<br />

Proposition 2.7<br />

Seien (J ∗ (a,k) ) a ɛ E n, k ɛ {1,...,d} <strong>und</strong> (I ∗U<br />

(e,k) ) e ɛ I, k ɛ {1,...,d} wie oben. Dann gilt für N n<br />

(k) wie<br />

<strong>in</strong> Satz 2.5 <strong>und</strong> Ñ n<br />

(k) := ∑ q ɛ I I∗U , k ɛ {1, . . . , d}:<br />

( (N<br />

(1)<br />

P<br />

n<br />

(q,k)<br />

, . . . , N (d)<br />

n<br />

)<br />

≠<br />

(Ñ<br />

(1)<br />

n<br />

, . . . , Ñ (d)<br />

n<br />

) ) −→<br />

n→∞<br />

0.<br />

Beweis:<br />

Die Behauptung wird auf den Beweis von Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34, Seite<br />

2027–2029] zurückgeführt. Es gilt:<br />

( (N<br />

(1)<br />

P<br />

n<br />

( d⋃<br />

= P<br />

=<br />

≤<br />

, . . . , N (d)<br />

n<br />

k=1<br />

{<br />

N<br />

(k)<br />

n<br />

(<br />

d∑ {N<br />

(k)<br />

P<br />

k=1<br />

n<br />

)<br />

≠<br />

(Ñ<br />

(1)<br />

n<br />

≠ Ñ } )<br />

n<br />

(k)<br />

≠ Ñ (k)<br />

n<br />

, . . . , Ñ (d)<br />

n<br />

k−1<br />

} ⋂<br />

∩<br />

i=1<br />

) )<br />

{<br />

N<br />

(i)<br />

n<br />

= Ñ } )<br />

n<br />

(i)<br />

(<br />

d∑ ∑<br />

P<br />

1 ≠ ∑ )<br />

{maxq ɛ {1,...,l} S (i,j,q) >t (k) 1<br />

n } {M U .<br />

a >t (k)<br />

n }<br />

(i,j,l) ɛ A n a ɛ I<br />

k=1


2.3. Poisson Approximation 29<br />

Es entspricht jedoch ∑ a ɛ I 1 gerade W aus [34, Gleichung (2.3)]. Ferner<br />

{Ma U >t n<br />

(k) } t (k)<br />

n<br />

ist ∑ (i,j,l) ɛ A n<br />

1 <strong>in</strong> den Bezeichnungen von [34] W . Die<br />

{maxq ɛ {1,...,l} S (i,j,q) >t (k)<br />

n } t (k)<br />

n<br />

Aussage ergibt sich daher aus der Zerlegung von {W y ≠ W y } <strong>in</strong> [34, Seite 2029].<br />

✷<br />

Der Beweis verläuft analog zum Beweis von Gleichung (5.40) <strong>in</strong> Hansen [50,<br />

Abschnitt 5.5.6], wo die Aussage für Markov-Ketten statt für unabhängig Zeichen<br />

<strong>und</strong> die Betrachtung von diagonals-with<strong>in</strong>-a-strip statt ζ-verschobenen Blöcken<br />

gezeigt wird.<br />

Im folgenden Lemma wird die Prozessversion der Ste<strong>in</strong>–Chen-Methode aus<br />

Satz 2.6 auf ( )<br />

I ∗U<br />

i,j,ζ,k angewendet:<br />

(i,j,ζ,k) ɛ I ∗<br />

Lemma 2.8<br />

Es seien ( )<br />

I ∗U<br />

i,j,ζ,k (i,j,ζ,k) ɛ I ∗<br />

<strong>und</strong> ( )<br />

I U i,j,ζ<br />

(i,j,ζ) ɛ I<br />

wie oben <strong>und</strong> die Poisson-Prozesse<br />

(˜P ∗ (a,k) ) (a,k) ɛ I ∗ <strong>und</strong> (˜P a ) a ɛ I durch die Intensitätsmaße ˜Q ∗ <strong>und</strong> ˜Q wie folgt gegeben:<br />

˜Q ∗ (A ∗ ) := ∑ E I ∗U<br />

a , für alle A ∗ ⊂ I ∗ <strong>und</strong><br />

a ɛ A ∗<br />

˜Q(A) := ∑ a ɛ A<br />

E I U a , für alle A ⊂ I.<br />

Dann gilt<br />

d TV<br />

((<br />

I<br />

∗U<br />

i,j,ζ,k<br />

)(i,j,ζ,k) ɛ I ∗ , (˜P ∗ (a,k)) (a,k) ɛ I ∗)<br />

−→<br />

n→∞<br />

d TV<br />

((<br />

I<br />

U<br />

i,j,ζ<br />

)(i,j,ζ) ɛ I , (˜P a ) a ɛ I<br />

)<br />

−→<br />

n→∞<br />

0.<br />

0 <strong>und</strong><br />

Beweis:<br />

Um Satz 2.6 anwenden zu können, müssen zunächst die Nachbarschaftsmengen<br />

def<strong>in</strong>iert werden. Sei also (i, j, ζ, k) ɛ I ∗ . Dann wählt man B (i,j,ζ) wie <strong>in</strong> Dembo,<br />

Karl<strong>in</strong> <strong>und</strong> Zeitouni [34] <strong>und</strong> B(i,j,ζ,k) ∗ <strong>in</strong> Anlehnung an Arratia, Goldste<strong>in</strong> <strong>und</strong><br />

Gordon [4, Abschnitt 3.1]:<br />

B (i,j,ζ) := {(i ′ , j ′ , ζ ′ ) | i = i ′ oder j = j ′ }<br />

:= B (i,j,ζ) × {1, . . . , d}.<br />

B ∗ (i,j,ζ,k)<br />

Sei im Folgenden U : = Uδ<br />

α∗ : = {α ɛ M(A 2 ) | d TV (α, α ∗ ) < δ} die δ-Umgebung<br />

von α ∗ für e<strong>in</strong> noch zu wählendes δ > 0 <strong>und</strong> seien b ∗ 1 <strong>und</strong> b ∗ 2 die Konstanten<br />

aus Gleichung (2.3.2) bezüglich ( )<br />

I ∗U<br />

beziehungsweise b 1 <strong>und</strong> b 2 die<br />

Konstanten für ( )<br />

I U i,j,ζ<br />

<strong>und</strong> b 1 −→ n→∞<br />

0, b 2 −→ n→∞<br />

0.<br />

i,j,ζ,k<br />

(i,j,ζ,k) ɛ I ∗<br />

(i,j,ζ) ɛ I . Nach Satz 2.6 ist zu zeigen, dass b∗ 1 −→ n→∞<br />

0, b ∗ 2 −→ n→∞<br />

0


30 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong><br />

Wegen der Wahl von (Ba) ∗ a ɛ I ∗ folgt mit Arratia, Goldste<strong>in</strong> <strong>und</strong> Gordon [4, Abschnitt<br />

3.1] b ∗ 1 = b 1 <strong>und</strong> b ∗ 2 = b 2 , so dass im Folgenden die Konstanten b 1 <strong>und</strong> b 2<br />

bezüglich ( )<br />

I U i,j,ζ betrachtet werden:<br />

(i,j,ζ) ɛ I<br />

b 1 = ∑ a ɛ I<br />

b 2 = ∑ a ɛ I<br />

∑<br />

P (I U a = 1) P (I U b = 1) <strong>und</strong><br />

b ɛ B a<br />

∑<br />

P (I U a = 1, I U b = 1).<br />

b ɛ B a\{a}<br />

Diese stimmen jedoch mit den Konstanten aus Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni [34,<br />

Seite 2031] übere<strong>in</strong>, so dass man aus [34, Gleichung (2.11)] erhält, dass b 1 −→ n→∞<br />

0<br />

<strong>und</strong> aus [34, Lemma 2], dass b 2 −→ n→∞<br />

0 für h<strong>in</strong>reichend kle<strong>in</strong>e δ > 0.<br />

Hieraus folgt mit Satz 2.6:<br />

d TV<br />

((<br />

I<br />

∗U<br />

(a,k)<br />

)<br />

(a,k) ɛ I ∗ , (˜P∗ (a,k)<br />

)(a,k) ɛ I ∗ )<br />

≤ 4(b1 + b 2 ) −→ n→∞<br />

0.<br />

Das ist die Behauptung.<br />

✷<br />

In der folgenden technischen Proposition wird die Konvergenz zweier Poisson-<br />

Prozesse auf die Konvergenz der Intensitätsmaße zurückgeführt:<br />

Proposition 2.9<br />

Ist (˜P∗ a der Poisson-Prozess mit Intensitätsmaß<br />

)a ˜Q ∗ (A ∗ ) = ∑ ɛ I ∗ a ɛ A<br />

E ∗ I ∗U<br />

a , für<br />

alle A ∗ ⊂ I ∗ aus Lemma 2.8 <strong>und</strong> ( )<br />

P ∗ a der Poisson-Prozess mit Intensitätsmaß<br />

a ɛ I ∗<br />

Q ∗ , gegeben durch:<br />

Q ∗ (A ∗ ) := ∑ a ɛ A ∗ λ ∗ a, für alle A ∗ ⊂ I ∗ ,<br />

λ ∗ (q,k)<br />

:=<br />

K∗<br />

m 2 nl n<br />

[<br />

exp ( − x (k)) − exp ( − x (k−1))] , für alle (q, k) ɛ I ∗ .<br />

Dann konvergiert d TV<br />

(<br />

(˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗)<br />

−→<br />

n→∞<br />

0.<br />

Beweis:<br />

Die Totalvariation der beiden Poisson-Prozesse wird mit Reiss [74, Theorem 3.2.2]<br />

abgeschätzt. Sei ν 0 ɛ M(I ∗ ) das Zählmaß ν 0 (B) = |B| für alle B ⊂ I ∗ . Wegen<br />

|I ∗ | = m 2 nl n d ist ν 0 endlich. Des Weiteren ist E I ∗U<br />

·<br />

Dichte von ˜Q ∗ bezüglich ν 0<br />

<strong>und</strong> λ ∗· Dichte von Q∗ bezüglich ν 0 .<br />

Um unnötige Fallunterscheidungen zu vermeiden, sei t (0)<br />

n<br />

= x (0) : = ∞. Da die


2.3. Poisson Approximation 31<br />

(M U a ) a ɛ I identisch verteilt s<strong>in</strong>d, folgt aus Reiss [74, Theorem 3.2.2]:<br />

( )<br />

d TV (˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗<br />

≤ 3 ∑ ∣ E I<br />

∗U<br />

2<br />

a − λ ∗ ∣<br />

a<br />

a ɛ I ∗<br />

∣<br />

= 3 ∑ ∣∣∣∣<br />

P (Mq<br />

U > t (k)<br />

n ) − K∗ e −x(k)<br />

− P (M<br />

2<br />

m 2 q U > t (k−1)<br />

n<br />

(q,k) ɛ I<br />

nl n ∗ ≤ 3m 2 ∣<br />

nl n d max ∣P ( )<br />

M(0,0,0) U > t (k) K ∗<br />

n − exp ( − x (k))∣ ∣ k ɛ {1,...,d}<br />

m 2 nl n<br />

∣<br />

= 3d max ∣m 2 nl n P ( )<br />

M(0,0,0) U > t (k) − K ∗ exp ( − x (k))∣ ∣ ∣.<br />

k ɛ {1,...,d}<br />

n<br />

∣<br />

) + K∗ e ∣∣∣∣ −x(k−1)<br />

m 2 nl n<br />

Der Term im Betrag entspricht aber gerade dem <strong>in</strong> Dembo, Karl<strong>in</strong> <strong>und</strong> Zeitouni<br />

[34, Gleichung (2.11)] abgeschätzten. Da d ɛ N fest ist, folgt daraus die Behauptung.<br />

✷<br />

Aus den <strong>in</strong> diesem Abschnitt gezeigten Aussagen ergibt sich Satz 2.5 <strong>und</strong> somit<br />

die Konvergenz der d größten Scores gegen unabhängige Gumbel-Verteilungen.


32 Kapitel 2. Vergleich zweier <strong>Zeichenketten</strong>


33<br />

Kapitel 3<br />

Scan-Statistiken mit variabler<br />

Fenstergröße<br />

In diesem Kapitel wird die Häufigkeit des Vorkommens e<strong>in</strong>es gegebenen <strong>Muster</strong>s<br />

<strong>in</strong> e<strong>in</strong>er zufälligen Zeichenfolge untersucht. Hierbei wird e<strong>in</strong> sogenanntes Scan-<br />

Fenster auf die zu durchsuchende Zeichenkette gelegt <strong>und</strong> verschoben <strong>und</strong> gezählt,<br />

wie oft das <strong>Muster</strong> <strong>in</strong>nerhalb des Scan-Fensters, auftritt. Daraus leitet sich der<br />

Name ”<br />

Scan-Statistik“ ab. Die Position des Fensters wird als Zeitparameter <strong>in</strong>terpretiert,<br />

so dass man e<strong>in</strong>en zeitabhängigen stochastischen Prozess erhält.<br />

Die Literatur ist sehr umfangreich <strong>und</strong> vielfältig, siehe etwa die Bücher von Balakrishnan<br />

<strong>und</strong> Koutras [10] oder Glaz <strong>und</strong> Balakrishnan [47], sowie die Artikel<br />

von Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69] oder Karl<strong>in</strong> <strong>und</strong> Chen [53], um<br />

nur e<strong>in</strong>ige Beispiele zu nennen. E<strong>in</strong>e <strong>in</strong>teressante Anwendung <strong>in</strong> der genetischen<br />

Sequenzanalyse ist zum Beispiel <strong>in</strong> Leung, Choi, Xia <strong>und</strong> Chen [58] gegeben,<br />

wo das Vorkommen von Clustern von Pal<strong>in</strong>dromen im Genom von Herpesviren<br />

untersucht wird.<br />

Hier wird die Abhängigkeit des Grenzprozesses vom asymptotischen Verhalten der<br />

Fenstergröße betrachtet. Konvergiert die Fenstergröße gegen e<strong>in</strong>en echt positiven<br />

Wert, so erhält man e<strong>in</strong>en stetigen Grenzprozess <strong>und</strong> die Scan-Statistik lässt sich<br />

durch e<strong>in</strong> e<strong>in</strong>faches Funktional e<strong>in</strong>er Brownschen Bewegung B approximieren.<br />

Konvergiert die Fenstergröße gegen 0, so ist die Stetigkeit des Grenzprozesses<br />

nicht mehr gegeben.<br />

3.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />

Betrachtet wird e<strong>in</strong>e Zeichenkette X : = (X i ) i ɛN über dem endlichen Alphabet<br />

A : = {1, . . . , ξ}. Im Folgenden sei die Folge X<br />

∑<br />

stationär <strong>und</strong> ϕ-mischend mit<br />

∞<br />

√<br />

n=1 ϕ(n) < ∞.<br />

Gegeben sei e<strong>in</strong> <strong>Muster</strong> w = w 1 · · · w l ɛ A l der Länge l ɛ N. Es bezeichne I w (i) :=


34 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

1 {Xi···X i+l−1 =w 1···w l } := 1 {Xi =w 1 ,...,X i+l−1 =w l }. Aus der Def<strong>in</strong>ition folgt unmittelbar,<br />

dass auch die Folge ( I w (i) ) i ɛN ϕ-mischend mit e<strong>in</strong>er um l verschobenen Funktion<br />

ist. Um die Bezeichnung nicht unnötig kompliziert zu machen, wird diese<br />

verschobene Funktion wieder mit ϕ bezeichnet.<br />

Ebenso überträgt sich die Stationarität, so dass gilt:<br />

π w := E ( I w (i) ) = P (X 1 · · · X l−1 = w 1 · · · w l )<br />

ist unabhängig von i ɛ N. Des Weiteren konvergiert unter diesen Voraussetzungen<br />

nach Theorem 20.1 <strong>in</strong> Bill<strong>in</strong>gsley [17] die Summe<br />

σ 2 0 := Var( I w (1) ) + 2<br />

∞∑<br />

Kov ( I w (1), I w (1 + j) ) . (3.1.1)<br />

j=1<br />

Im Folgenden sei π w > 0, das heißt das Wort w kommt mit positiver Wahrsche<strong>in</strong>lichkeit<br />

vor <strong>und</strong> σ0 2 > 0.<br />

Zur Abkürzung bezeichne N n : = ∑ n<br />

(<br />

i=1 Iw (i) − π w) die zentrierte Anzahl des<br />

Vorkommens von w <strong>in</strong> X 1 , . . . , X n . Damit lässt sich nun die Scan-Statistik zur<br />

Fenstergröße r ɛ (0, 1) def<strong>in</strong>ieren durch<br />

D n (t) := N ⌊(t+r)n⌋ − N ⌊tn⌋ =<br />

⌊(t+r)n⌋<br />

∑<br />

i=⌊tn⌋+1<br />

(<br />

Iw (i) − π w) , für alle t > 0.<br />

Zur Veranschaulichung sei darauf h<strong>in</strong>gewiesen, dass es sich hierbei bis auf den<br />

R<strong>und</strong>ungsfehler ε := ⌊(t + r)n⌋ − ⌊tn⌋ − ⌊rn⌋ ɛ {0, 1} um die Scan-Statistik mit<br />

s := ⌊rn⌋ ɛ N Zeichen handelt:<br />

D n (t) = N ⌊tn⌋+s+ε − N ⌊tn⌋ =<br />

⌊tn⌋+s+ε<br />

∑<br />

i=⌊tn⌋+1<br />

(<br />

Iw (i) − π w) .<br />

Die hier untersuchte Frage ist die, für welche Fenstergrößen die Scan-Statistik<br />

e<strong>in</strong>en funktionalen Grenzwertsatz erfüllt, das heißt, für welche Folgen (r n ) n ɛN<br />

existiert e<strong>in</strong>e Normierung (M n ) n ɛN <strong>und</strong> e<strong>in</strong> Grenzprozess (D t ) t ɛ [0,1] , so dass<br />

M − 1 2<br />

n D D<br />

n −→ D <strong>in</strong> D[0, 1]? Des Weiteren wird die Stetigkeit des Grenzprozesses<br />

D untersucht.<br />

3.2 Ergebnisse<br />

Da das Grenzverhalten von D n wesentlich von der Fenstergröße r = r n abhängt,<br />

werden die folgenden Fälle unterschieden:


3.2. Ergebnisse 35<br />

1) r n ↘ r > 0: Als Grenzprozess erhält man (B·+r −B·), <strong>in</strong>sbesondere also e<strong>in</strong>en<br />

stetigen Grenzprozess. E<strong>in</strong> Spezialfall hiervon ist durch r n = r für alle n ɛ N<br />

gegeben, was auch mit dem Invarianzpr<strong>in</strong>zip für mischende Folgen gezeigt<br />

werden kann.<br />

2) r n ↘ 0, nr n −→ ∞: In diesem Fall bleibt die Stetigkeit nicht erhalten. Man<br />

erhält, dass die endlichdimensionalen Randverteilungen des Grenzprozesses<br />

unabhängig normalverteilt s<strong>in</strong>d. Dieses Ergebnis ist wenig überraschend, da<br />

r n −→ 0 nicht nur bedeutet, dass sich zwei beliebige unterschiedliche Fenster<br />

im Limes nicht überlappen, sondern auch, dass der Abstand zwischen den<br />

Fenstern m<strong>in</strong>destens l<strong>in</strong>ear wächst, was mit der Mischungseigenschaft der X i<br />

zu unabhängigen Randverteilungen führt.<br />

3) nr n → R: Für den Fall, dass die Anzahl der Zeichen im Scan-Fenster asymptotisch<br />

konstant ist, gibt es umfangreiche Literatur, siehe beispielsweise die<br />

Bücher von Glaz <strong>und</strong> Balakrishnan [47] beziehungsweise Balakrishnan <strong>und</strong><br />

Koutras [10] oder die Artikel von Dembo <strong>und</strong> Karl<strong>in</strong> [32], Chen <strong>und</strong> Karl<strong>in</strong><br />

[25] beziehungsweise Pozdnyakov, Glaz, Kulldorff <strong>und</strong> Steele [69]. Daher<br />

wird dieser Fall im Folgenden nicht weiter behandelt.<br />

Der folgende Satz fasst die wichtigsten Resultate dieses Kapitels zusammen. Unter<br />

allgeme<strong>in</strong>en Voraussetzungen an die Fenstergröße wird e<strong>in</strong> funktionaler Zentraler<br />

Grenzwertsatz für die Scan-Statistik bei geeigneter Normierung gezeigt:<br />

Satz 3.1<br />

Seien die Voraussetzungen aus Abschnitt 3.1 erfüllt <strong>und</strong> die Folge (r n ) n ɛN ⊂ (0, 1)<br />

sei monoton fallend.<br />

−→ D<br />

B·+r − B·<br />

1<br />

1) Gilt r n −→ n→∞<br />

r > 0, so folgt: √<br />

σ 0 n<br />

D n<br />

<strong>in</strong> D[0, 1].<br />

Der Grenzprozess X t = B t+r − B t , t ɛ [0, 1] ist e<strong>in</strong> stationärer Gauß-Prozess<br />

mit Kovarianz E X s X t = s + r − m<strong>in</strong>{t, s + r} für alle 0 ≤ s ≤ t ≤ 1.<br />

1<br />

2) Gilt r n −→ n→∞<br />

0 <strong>und</strong> nr n −→ n→∞<br />

∞, so folgt: √ D D f<br />

σ 0 rnn n −→ D, wobei D e<strong>in</strong> Prozess<br />

mit unabhängigen normalverteilten Randverteilungen ist.<br />

Aus Teil 1 dieses Satzes ergibt sich für die maximale Scan-Statistik<br />

1<br />

T n := sup √ D n (t)<br />

t ɛ [0,1] σ 0 n<br />

unmittelbar die folgende Aussage:<br />

Korollar 3.2<br />

Es gelten die Voraussetzungen aus Abschnitt 3.1. Weiterh<strong>in</strong> konvergiere r n von<br />

oben gegen e<strong>in</strong>en echt positiven Grenzwert r > 0. Dann folgt:<br />

T n<br />

D<br />

−→ sup<br />

t ɛ [0,1]<br />

(<br />

Bt+r − B t<br />

)<br />

.


36 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

E<strong>in</strong>ige Ergebnisse zur Verteilung von sup t ɛ [0,1] (B t+r − B t ) f<strong>in</strong>det man <strong>in</strong> Piterbarg<br />

[68].<br />

In Korollar 3.2 wird das asymptotische Verhalten der maximalen Scan-Statistik<br />

im Fall r n ↘ r > 0 untersucht. Dies ist vergleichbar zu den Resultaten <strong>in</strong> der<br />

Literatur, wo für den Fall, dass die Anzahl der Zeichen im Scan-Fenster konstant<br />

oder nur schwach wachsend ist, die maximale Scan-Statistik betrachtet wird.<br />

Beweis von Satz 3.1:<br />

Wegen der Skalierungseigenschaft<br />

(B s ) s ɛ [0,2] d = (√ 2B s<br />

)s ɛ [0,1]<br />

der Brownschen Bewegung lässt sich der Randeffekt, der dadurch entsteht, dass<br />

das Suchfenster rechts über die 1 h<strong>in</strong>ausgeschoben wird, vernachlässigen: Es<br />

genügt, die Behauptung auf D[0, 1] zu zeigen. Mit obiger Umskalierung folgt dann<br />

die Aussage auf D[0, 1 + r]. Auf diesen Randeffekt wird daher im Beweis der Teilbehauptungen<br />

<strong>in</strong> den folgenden beiden Abschnitten nicht weiter e<strong>in</strong>gegangen.<br />

1) Die Verteilungskonvergenz <strong>in</strong> Teil 1 folgt aus Korollar 3.4 <strong>und</strong> Satz 3.8. Die<br />

Stationarität folgt aus B t+r − B t d = N (0, r). Weiterh<strong>in</strong> gilt für 0 ≤ s ≤ t ≤ 1:<br />

E X s X t = E B s+r B t+r −E B s+r B t −E B s B t+r +E B s B t = s+r−m<strong>in</strong>{s + r, t}.<br />

2) Teil 2 wird <strong>in</strong> Satz 3.9 gezeigt. ✷<br />

3.3 Straffheit<br />

In diesem Abschnitt wird gezeigt, dass n − 1 2 D n gegen e<strong>in</strong>en stetigen Grenzprozess<br />

konvergiert, falls r n e<strong>in</strong>en echt positiven Grenzwert hat. Im folgenden Satz werden<br />

die technischen Details hierfür bereitgestellt:<br />

Satz 3.3<br />

Es gelten die Voraussetzungen aus Abschnitt 3.1, r n sei monoton fallend <strong>und</strong><br />

r n −→ r > 0. Dann gilt: Für alle ε, η > 0 existiert δ ɛ (0, 1) <strong>und</strong> n 0 ɛ N, so dass<br />

für alle n ≥ n 0 gilt:<br />

P<br />

(<br />

sup<br />

|s−t|≤δ<br />

D n (s)<br />

∣ √ n<br />

− D ∣ )<br />

√<br />

n(t) ∣∣∣<br />

≥ ε ≤ η.<br />

n<br />

Beweis:<br />

Für ε, η > 0 <strong>und</strong> C ɛ R +<br />

def<strong>in</strong>iert man δ ′ : = ηε4<br />

C<br />

> 0, n 0 : = ⌈ 1 δ ′ ⌉ ɛ N <strong>und</strong>


3.3. Straffheit 37<br />

δ : =<br />

1 n 0<br />

ɛ (0, δ ′ ]. Nach der Bemerkung <strong>in</strong> Bill<strong>in</strong>gsley [17, S. 128], gilt das Korollar<br />

zu Theorem 8.3 auch <strong>in</strong> D[0,1], so dass mit der Zerlegung t j := jδ für alle<br />

j ɛ {0, . . . , n 0 } gilt:<br />

(<br />

P sup<br />

D n (s)<br />

∣ √ − D ∣ ) (<br />

√<br />

n(t) ∣∣∣<br />

n 0 −1<br />

∣<br />

∑<br />

∣∣∣ D n (s)<br />

≥ ε ≤ P sup √ − D ∣ )<br />

n(t j ) ∣∣∣<br />

√ ≥ ε .<br />

n n t j ≤s≤t j+1 n n 3<br />

|s−t|≤δ<br />

j=0<br />

(3.3.2)<br />

Analog zum Beweis von Theorem 12.3 <strong>in</strong> Bill<strong>in</strong>gsley [17] werden zunächst die<br />

Summanden abgeschätzt. Seien also n ≥ n 0 <strong>und</strong> j ɛ {0, . . . , n 0 − 1} fest. Nach<br />

Def<strong>in</strong>ition ist D n (t) = ∑ ⌊tn+r nn⌋<br />

i=⌊tn⌋+1 (I w(i) − π w ) stückweise konstant <strong>und</strong> wegen<br />

D n (t+ 1 )−D n n(t) = I w (⌊tn+r n n+1⌋)−I w (⌊tn+1⌋) können zwischen t <strong>und</strong> t+ 1 n<br />

höchstens zwei Sprungstellen von D n liegen. Insbesondere hat D n zwischen t j = jδ<br />

<strong>und</strong> t j+1 = jδ + δ höchstens 2nδ Sprungstellen. Seien also 0 ≤ s 0 < · · · < s m ≤ δ<br />

mit m ≤ 2nδ so, dass (t j + s i ) i=0,...,m die Unstetigkeitsstellen von D n im Intervall<br />

[t j , t j+1 ] s<strong>in</strong>d.<br />

Sei ξ i : = D n (jδ + s i ) − D n (jδ + s i −) die Sprunghöhe von D n <strong>in</strong> jδ + s i , wobei<br />

zur Abkürzung D n (jδ + s i −) : = lim h↗jδ+si D n (h) den l<strong>in</strong>ksseitigen Grenzwert<br />

bezeichnet. Dann gilt ξ i = ξ 1,i − ξ 2,i mit<br />

ξ 1,i := 1N ( (t j + r n + s i )n ) · (I<br />

w (⌊(t j + r n + s i )n⌋) − π w) ,<br />

ξ 2,i := 1N ( (t j + s i )n ) · (I<br />

w (⌊(t j + s i )n⌋ − 1) − π w) .<br />

Hierbei ist ξ 1,i = ( I w (⌊(t j + r n + s i )n⌋) − π w) , falls der Sprung dadurch zustande<br />

kommt, dass ⌊(t j +r n +s i )n−⌋ < ⌊(t j +r n +s i )n⌋, das heißt, falls beim Übergang<br />

von (t j + r n + s i )n− nach (t j + r n + s i )n e<strong>in</strong> neuer Summand h<strong>in</strong>zukommt <strong>und</strong> 0<br />

sonst. Analog ist ξ 2,i der Sprung, der auftritt, wenn beim Übergang von (t j +s i )n−<br />

nach (t j + s i )n der Summand I w (⌊(t j + s i )n⌋ − 1) − π w wegfällt.<br />

Diese Zerlegung der Sprunghöhen ist notwendig, weil (ξ i ) i=0,...,m im Allgeme<strong>in</strong>en<br />

selbst nicht mischend ist, die Folgen (ξ 1,i ) i=0,...,m <strong>und</strong> (ξ 2,i ) i=0,...,m jedoch dieselbe<br />

Mischungseigenschaft erfüllen wie (I w (i)) i=0,...,m selbst.<br />

Mit S k := ∑ k<br />

i=1 ξ k = D n (t j +s k ) − D n (t j ) lässt sich der j-te Summand <strong>in</strong> Gleichung<br />

(3.3.2) schreiben als:<br />

( ∣ ∣∣∣ D n (s)<br />

P sup √ − D ∣ )<br />

n(t j ) ∣∣∣<br />

√ ≥ ε<br />

t j ≤s≤t j+1 n n 3<br />

(<br />

= P max |D n(t j +s k ) − D n (t j )| ≥ ε )<br />

√ n<br />

k∈{1,...,m} 3<br />

(<br />

= P max |S k| ≥ ε )<br />

√ n .<br />

k∈{1,...,m} 3<br />

Dies wird mit Hilfe von Bill<strong>in</strong>gsley [17, Theorem 12.2] abgeschätzt, das heißt, es<br />

wird gezeigt, dass U ∈ R + existiert, so dass mit α = 2 <strong>und</strong> γ = 4 für alle λ > 0


38 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

<strong>und</strong> k, l ∈ N gilt: P (|S k − S l | ≥ λ) ≤ U |k − l| α . Sei ohne E<strong>in</strong>schränkung im<br />

λ γ<br />

Folgenden 1 ≤ l < k < ∞. Da die Folgen (ξ 1,i ) i=0,...,m <strong>und</strong> (ξ 2,i ) i=0,...,m stationär<br />

s<strong>in</strong>d, folgt mit der Markov-Ungleichung:<br />

(∣ ∣ )<br />

∣∣∣∣ k∑<br />

k∑ ∣∣∣∣<br />

P (|S k − S l | ≥ λ) = P ξ 1,i − ξ 2,i ≥ λ<br />

i=l+1<br />

i=l+1<br />

( ) ( )<br />

∣∣∣ ∑k−l<br />

∣ ∣∣ λ ∣∣∣ ∑k−l<br />

∣ ∣∣ λ<br />

≤ P ξ 1,i ≥ + P ξ 2,i ≥<br />

2<br />

2<br />

i=1<br />

i=1<br />

[<br />

]<br />

≤ 24<br />

∑k−l<br />

∣ ∣∣<br />

4 ∣ ∣∣<br />

∑k−l<br />

∣ ∣∣<br />

4<br />

E ∣ ξ<br />

λ 4 1,i + E ξ 2,i .<br />

i=1<br />

Des Weiteren gilt |ξ u,i | ≤ 1 <strong>und</strong> E ξ u,i = 0 für alle i = 0, . . . , m, u = 1, 2.<br />

Da die Folgen (ξ u,i ) i=0,...,m für u = 1, 2 außerdem dieselbe Mischungseigenschaft<br />

wie (I w (i)) i∈N besitzen, lassen sich obige Momente mit Hilfe von Bill<strong>in</strong>gsley [17,<br />

Lemma 20.4] abschätzen durch: E ∣ ∑ k−l<br />

i=1 ξ ∣ 4 q,i ≤ K ϕ (k − l) 2 für q ɛ {1, 2}, wobei<br />

K ϕ > 0 nur von ϕ abhängt. Mit U := √ 32K ϕ erhält man:<br />

( ) 2.<br />

P (|S k − S l | ≥ λ) ≤ 24 2K<br />

λ 4 ϕ (k − l) 2 = 1 λ U(k − l) 4<br />

Nach Bill<strong>in</strong>gsley [17, Theorem 12.2] existiert somit K γ,α ′ ɛ R + , unabhängig von<br />

k, ε <strong>und</strong> n, so dass gilt:<br />

( ∣ ∣∣∣ D n (s)<br />

P sup √ − D ∣ )<br />

n(t j ) ∣∣∣<br />

√ ≥ ε (<br />

= P max |S k | ≥ ε )<br />

√ n<br />

t j ≤s≤t j+1 n n 3<br />

k∈{1,...,m} 3<br />

( ε √ ) −4<br />

≤ K γ,α<br />

′ n (mU)<br />

2<br />

3<br />

= 3 4 K γ,αU ′ 2 m2<br />

ε 4 n . 2<br />

Da für die Anzahl m der Sprungstellen m ≤ 2nδ gilt, erhält man:<br />

P<br />

(<br />

∣ ∣∣∣ D n (s)<br />

sup √ − D ∣<br />

n(t j ) ∣∣∣<br />

√ ≥ ε<br />

t j ≤s≤t j+1 n n 3<br />

i=1<br />

)<br />

≤ C δ2<br />

ε 4 ,<br />

wobei C := 162K γ,αU ′ 2 nur von ϕ abhängt. Summation über j liefert wegen δ = 1 n 0<br />

<strong>und</strong> n 0 ≥ C<br />

ηε 4<br />

(<br />

P sup<br />

D n (s)<br />

∣ √ − D ∣ ) (<br />

√<br />

n(t) ∣∣∣<br />

n 0 −1<br />

∣<br />

∑<br />

∣∣∣ D n (s)<br />

≥ ε ≤ P sup √ − D ∣ )<br />

n(t j ) ∣∣∣<br />

√ ≥ ε n n t j ≤s≤t j+1 n n 3<br />

|s−t|≤δ<br />

Das ist die Behauptung.<br />

j=0<br />

≤ n 0 C δ2<br />

ε 4 = C<br />

n 0 ε 4 ≤ η.<br />


3.4. Endlichdimensionale Randverteilungen 39<br />

Korollar 3.4<br />

S<strong>in</strong>d die Voraussetzungen aus Abschnitt 3.1 erfüllt <strong>und</strong> konvergiert r n von oben<br />

gegen e<strong>in</strong>en echt positiven Grenzwert r > 0, so ist √ Dn<br />

n<br />

straff <strong>und</strong> falls D ɛ D[0, 1]<br />

Grenzwert e<strong>in</strong>er Teilfolge ist, so ist D fast-sicher stetig.<br />

Beweis:<br />

Es wird Theorem 15.5 aus Bill<strong>in</strong>gsley [17] angewendet. Nach Satz 3.3 ist nur noch<br />

zu zeigen, dass ( n − 1 2 D n (0) ) n∈N<br />

straff ist:<br />

Es ist D n (0) = ∑ ⌊r nn⌋<br />

(<br />

i=1 Iw (i) − π w) . Wegen r n n −→ n→∞<br />

∞ konvergiert nach dem<br />

Zentralen Grenzwertsatz für mischende Folgen (siehe etwa Bill<strong>in</strong>gsley [17, Abschnitt<br />

20], Doukhan [39, Abschnitt 1.5.1] oder Philipp [66]) n − 1 2 D n (0) gegen<br />

e<strong>in</strong>e Normalverteilung. Insbesondere ist ( n − 1 2 D n (0) ) n∈N<br />

straff. Somit s<strong>in</strong>d die<br />

Voraussetzungen von Theorem 15.5 aus Bill<strong>in</strong>gsley [17] erfüllt, es folgt die Behauptung.<br />

✷<br />

3.4 Endlichdimensionale Randverteilungen<br />

In diesem Abschnitt werden die endlichdimensionalen Randverteilungen untersucht.<br />

Wie <strong>in</strong> Abschnitt 3.2 erläutert, müssen hierbei die Fälle r n ↘ r > 0 <strong>und</strong><br />

r n ↘ 0 unterschieden werden. Die beiden Fälle werden <strong>in</strong> den Abschnitten 3.4.1<br />

<strong>und</strong> 3.4.2 untersucht.<br />

Folgende technische Proposition wird später benötigt, um die Varianz mit Hilfe<br />

der Mischungseigenschaft abzuschätzen:<br />

Proposition 3.5<br />

Seien ϕ i ɛ [0, 1] monoton fallend <strong>und</strong> ∑ ∞ √<br />

i=1 ϕi konvergiere. Dann konvergiert<br />

auch die Summe ∑ ∞<br />

i=1 iϕ i.<br />

Beweis:<br />

Zunächst wird <strong>in</strong>direkt gezeigt, dass j √ ϕ j , j ɛ N beschränkt ist: Angenommen<br />

für alle n ɛ N existiert j n ≥ n, so dass j n<br />

√<br />

ϕjn > n. Sei ohne E<strong>in</strong>schränkung auch<br />

j n > j n−1 <strong>und</strong> zur Abkürzung j 0 := 1. Def<strong>in</strong>iert man nun die Folge (b j ) j ɛN durch<br />

b j := ϕ jn ≤ ϕ j , für j n−1 < j ≤ j n , so folgt:<br />

∞ ><br />

∞∑ √<br />

ϕj ≥<br />

j=1<br />

∞∑ √<br />

bj =<br />

j=1<br />

∞∑<br />

n=1<br />

j n<br />

∑<br />

j=j n−1<br />

√<br />

bj =<br />

∞∑<br />

(j n − j n−1 ) √ ϕ jn .<br />

n=1<br />

Aus der Annahme ergibt sich ∑ ∞<br />

n=1 (j n − j n−1 ) √ ϕ jn > ∑ ∞<br />

konvergiert n(1 − j n−1<br />

j n<br />

n=1 (j n − j n−1 ) n j n<br />

, somit<br />

) = (j n − j n−1 ) n j n<br />

−→ n→∞<br />

0. Daher gilt für h<strong>in</strong>reichend große<br />

n ɛ N: 0 ≤ 1− j n−1<br />

j n<br />

≤ 1 n , woraus auch j n ≤ n<br />

n−1 j n−1 ≤ . . . ≤ C 1 ( n<br />

n−1 )n −→<br />

n→∞<br />

C 1 · e,


40 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

mit C 1 ɛ R + folgt. Dies ist aber e<strong>in</strong> Widerspruch, da die Indexfolge (j n ) n ɛN nicht<br />

beschränkt se<strong>in</strong> kann.<br />

Ist also C 2 ɛ R + so dass i √ ϕ i ≤ C 2 , für alle i ɛ N, so ergibt sich die Behauptung<br />

aus<br />

∞∑ ∞∑<br />

iϕ i = i √ √ ∑ ∞<br />

√<br />

ϕ i ϕi ≤ C 2 ϕi < ∞.<br />

✷<br />

i=1<br />

i=1<br />

i=1<br />

Mit folgender Def<strong>in</strong>ition wird im Weiteren die sogenannte ” Überlappung“ zweier<br />

Wörter beziehungsweise die ”<br />

Selbstüberlappung“ <strong>in</strong>nerhalb e<strong>in</strong>es Wortes beschrieben.<br />

Die verwendeten Bezeichnungen s<strong>in</strong>d <strong>in</strong> der Literatur gebräuchlich,<br />

vergleiche etwa Waterman [94, Abschnitt 12.1].<br />

Def<strong>in</strong>ition 3.6<br />

Seien j, l, m ɛ N <strong>und</strong> w ɛ A l , v ɛ A m Wörter der Länge l beziehungsweise m über<br />

dem Alphabet A. Sei R w (j) der Rest des Wortes w ab dem Zeichen j + 1, das<br />

heißt:<br />

{<br />

wj+1 . . . w<br />

R w (j) :=<br />

l , falls j < l,<br />

das leere Wort, sonst.<br />

Das Overlap Bit β w,v : {0, . . . , l} → {0, 1} wird def<strong>in</strong>iert durch:<br />

β w,v (j) := 1 {wj+1 =v 1 ,...,w M =v M−j }, M = m<strong>in</strong>{l, m + j}.<br />

Zur Abkürzung sei β w := β w,w der Self Overlap.<br />

Damit lassen sich nun die Abhängigkeiten <strong>in</strong>nerhalb der Zeichenfolge (X i ) i ɛN<br />

untersuchen:<br />

Lemma 3.7<br />

Mit den Voraussetzungen aus Abschnitt 3.1 konvergieren unabhängig von i ɛ N<br />

folgende Summen absolut:<br />

(i) ∑ ∞<br />

j=1 Kov( I w (i), I w (i + j) ) = C 1 w,ϕ<br />

(ii) ∑ ∞<br />

j=1 j Kov( I w (i), I w (i + j) ) = C 2 w,ϕ<br />

Beweis:<br />

(i) folgt aus (ii).


3.4. Endlichdimensionale Randverteilungen 41<br />

(ii) Aus der Stationarität der Folge ( I w (i) ) i ɛN<br />

erhält man:<br />

∞∑<br />

(<br />

∣ j Kov Iw (i), I w (i + j) )∣ ∣<br />

j=1<br />

=<br />

∑l−1<br />

j ∣ βw (j)π wRw(l−j) − (π w ) 2∣ ∣<br />

j=1<br />

} {{ }<br />

=:C w<br />

∑ ∞<br />

+ π w j ∣ P (Xj+1 . . . X j+l = w|X 1 . . . X l = w) − π w∣ ∣ .<br />

} {{ }<br />

j=l<br />

≤ϕ(j−l+1)<br />

Die Behauptung ergibt sich mit Proposition 3.5 aus der Mischungseigenschaft<br />

der Folge ( I w (i) ) i ɛN .<br />

✷<br />

3.4.1 Der Fall r n ↘ r, r > 0<br />

In diesem Abschnitt wird die Konvergenz der endlichdimensionalen Randverteilungen<br />

untersucht, falls r n gegen e<strong>in</strong>en positiven Grenzwert konvergiert.<br />

Satz 3.8<br />

Konvergiert die Fenstergröße von oben gegen e<strong>in</strong>en positiven Grenzwert, r n ↘ r,<br />

r > 0, so konvergieren die endlichdimensionalen Randverteilungen gegen die entsprechenden<br />

Zuwächse e<strong>in</strong>er Brownschen Bewegung, das heißt für alle d ɛ N <strong>und</strong><br />

Zeitpunkte t 1 , . . . , t d ɛ [0, 1] gilt<br />

⎞ ⎛<br />

⎛<br />

D n (t 1 )<br />

1 ⎜ ⎟<br />

√ ⎝<br />

σ 0 n<br />

. ⎠<br />

D n (t d )<br />

mit σ 2 0 > 0 wie <strong>in</strong> Gleichung (3.1.1).<br />

D<br />

−→<br />

⎞<br />

B t1 +r − B t1<br />

⎜<br />

⎟<br />

⎝ . ⎠ ,<br />

B td +r − B td<br />

Beweis:<br />

Bezeichne zur Abkürzung X n : = ( D n (t 1 ), . . . , D n (t d ) ) T<br />

für alle n ɛ N <strong>und</strong> X : =<br />

( ) T.<br />

Bt1 +r − B t1 , . . . , B td +r − B td Nach Bill<strong>in</strong>gsley [17, Theorem 7.7] reicht es, für<br />

alle α ɛ R d 1<br />

zu zeigen, dass √<br />

σ 0 n<br />

α T X D<br />

n −→ α T X gilt. Sei σn 2 : = Var(αT X n ) =<br />

Var ( ∑ d<br />

i=1 α iD n (t i ) ) . Gezeigt wird:<br />

a) σ2 n<br />

n<br />

−→ Var(α T X)σ 2 0<br />

1<br />

b)<br />

σ n<br />

α T X D<br />

n −→ N (0, 1).


42 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

Sei ohne Beschränkung der Allgeme<strong>in</strong>heit α ≠ 0 <strong>und</strong> 0 ≤ t 1 < · · · < t d ≤ 1.<br />

Dies ist ke<strong>in</strong>e E<strong>in</strong>schränkung, da sich das Problem mit d − 1 Dimensionen <strong>und</strong><br />

˜α i := α i + α i+1 formulieren lässt, falls t i = t i+1 für e<strong>in</strong> i ɛ {1, . . . , d − 1}.<br />

Def<strong>in</strong>iert man die Koeffizienten βi n := ∑ d<br />

j=1 α j1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i), so lässt sich<br />

α T X n schreiben als:<br />

α T X n =<br />

=<br />

=<br />

=<br />

d∑<br />

α j D n (t j )<br />

j=1<br />

d∑<br />

j=1<br />

n∑<br />

i=1<br />

n∑<br />

i=1<br />

⌊(t j +r<br />

∑ n)n⌋<br />

α j<br />

i=⌊t j n⌋+1<br />

(<br />

Iw (i) − π w)<br />

d∑<br />

α ( j 1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i) I w (i) − π w)<br />

j=1<br />

β n i<br />

(<br />

Iw (i) − π w) .<br />

a) Da die Koeffizienten β n i stückweise konstant s<strong>in</strong>d <strong>und</strong> Sprungstellen nur an<br />

den Intervallgrenzen {⌊t j n⌋ + 1, ⌊(t j + r n )n⌋ | j = 1, . . . , d} auftreten können,<br />

werden die Intervalle (t j , t j + r n ] <strong>in</strong> D n disjunkte Intervalle (A n i , E n i ] i=1,...,D n<br />

zerlegt: E<strong>in</strong> solches Intervall kann nur an e<strong>in</strong>em t k oder t k +r n beg<strong>in</strong>nen beziehungsweise<br />

enden. Daher gibt es, unabhängig von n, höchstens 2d Intervalle,<br />

D n ≤ 2d. Es ergibt sich folgendes Bild:<br />

✛<br />

✛<br />

t k<br />

t k−1 +r n t k +r n t k+1 t k+2 t k+1 +r n<br />

✲<br />

✲<br />

E n i−2 =An i−1 E n i−1 =An i E n i<br />

A n i+1 E n i+1 =An i+2 E n i+2 =An i+3<br />

Nach Def<strong>in</strong>ition gilt ∪ d j=1[t j , t j + r n ] = ∪ Dn<br />

u=1[A n u, Eu] n <strong>und</strong> βn· ist konstant auf<br />

{⌊A n un⌋ + 1, . . . , ⌊Eun⌋}, n 1 ≤ u ≤ D n . Def<strong>in</strong>iert man für alle u ɛ {1, . . . , D n }<br />

γ n u<br />

:= βn i , falls i ɛ {⌊A n un⌋ + 1, . . . , ⌊Eun⌋}<br />

n<br />

d∑<br />

=<br />

j=1<br />

α j 1 {⌊A n u n⌋+1,...,⌊E n u n⌋}⊂{⌊t j n⌋+1,...,⌊(t j +r n)n⌋},<br />

als den Wert, den β n· auf {⌊An un⌋+1, . . . , ⌊E n un⌋} annimmt, so lässt sich α T X n


3.4. Endlichdimensionale Randverteilungen 43<br />

weiter umformen:<br />

α T X n =<br />

n∑<br />

i=1<br />

∑D n<br />

=<br />

β n i<br />

(<br />

Iw (i) − π w)<br />

⌊E<br />

∑u nn⌋<br />

γu<br />

n<br />

u=1 i=⌊A n un⌋+1<br />

(<br />

Iw (i) − π w) .<br />

Sei analog D ≤ 2d, (A i , E i ] i ɛ {1,...,D} die disjunkte Zerlegung der Intervalle<br />

(t j , t j + r] j ɛ {1,...,d} <strong>und</strong> γ u : = ∑ d<br />

j=1 α j1 (Au,Eu]⊂(t j ,t j +r], so dass α T X =<br />

∑ D<br />

u=1 γ u(B Eu − B Au ). Gilt t j = t i + r für 1 ≤ i < j ≤ d, so wird ohne<br />

E<strong>in</strong>schränkung an dieser Stelle e<strong>in</strong> Intervall der Länge 0 e<strong>in</strong>geschoben, das<br />

heißt E u := A u := t j , um unnötige Fallunterscheidungen zu vermeiden.<br />

Als Nächstes wird gezeigt, dass D n −→ n→∞<br />

D, A n u −→ n→∞<br />

A u <strong>und</strong> Eu n −→ n→∞<br />

E u für alle<br />

u ɛ {1, . . . , D}: Hierfür ist jedoch nur noch für 1 ≤ i < j ≤ d der Fall<br />

(t i , t i + r 1 ] ∩ (t j , t j + r 1 ] ≠ ∅ <strong>und</strong> (t i , t i + r] ∩ (t j , t j + r] = ∅<br />

zu untersuchen. Die Konvergenz der anderen Intervallgrenzen ergibt sich<br />

unmittelbar aus der Def<strong>in</strong>ition. Existieren also 1 ≤ i < j ≤ d so, dass<br />

t i + r < t j < t i + r 1 , dann wählt man ohne E<strong>in</strong>schränkung n ɛ N so groß,<br />

dass gilt:<br />

r n − r + 1 n < m := m<strong>in</strong>{t j − (t i + r) | 1 ≤ i < j ≤ d, t j − (t i + r) > 0}.<br />

Damit ist für alle 1 ≤ i < j ≤ d mit t j > t i + r auch t j n > (t i + r n )n + 1, so<br />

dass D n = D <strong>und</strong> weiterh<strong>in</strong> (t i , t i + r n ] ∩ (t j , t j + r n ] ≠ ∅ genau dann, wenn<br />

(t i , t i + r] ∩ (t j , t j + r] ≠ ∅. Wegen r n −→ n→∞<br />

r folgt A n u −→ n→∞<br />

A u <strong>und</strong> Eu n −→ n→∞<br />

E u für<br />

alle u ɛ {1, . . . , D}.<br />

Da nun über disjunkte Intervalle summiert wird, lässt sich die Varianz von<br />

α T X n mit Hilfe der Stationarität darstellen als:<br />

(<br />

σn<br />

2<br />

n = 1 D n<br />

n Var ∑<br />

[<br />

∑D n<br />

( )<br />

= γ<br />

n 2 1<br />

u<br />

n<br />

u=1<br />

∑D n<br />

+ 2<br />

⌊E<br />

∑u nn⌋<br />

γu<br />

n<br />

u=1 i=⌊A n un⌋+1<br />

∑D n<br />

u=1 v=u+1<br />

⌊E<br />

∑u nn⌋<br />

(<br />

Iw (i) − π w))<br />

i=⌊A n u n⌋+1 Var ( I w (i) ) + 2 n<br />

γ n uγ n v<br />

1<br />

n<br />

⌊Eu n n⌋<br />

∑<br />

i=⌊A n u n⌋+1<br />

⌊Ev n n⌋<br />

∑<br />

⌊E<br />

∑u nn⌋<br />

⌊E<br />

∑u nn⌋<br />

i=⌊A n u n⌋+1 j=i+1<br />

j=⌊A n v n⌋+1 Kov ( I w (i), I w (j) ) .<br />

Kov ( I w (i), I w (j) )]<br />

(3.4.3)


44 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

Die Konvergenz dieser Summanden für n −→ ∞ wird nun für alle<br />

u ɛ {1, . . . , D n } untersucht. Bezeichne hierfür ε n u := ⌊En un⌋ − ⌊A n un⌋ − n(E n u −<br />

A n u) ɛ (−1, 1) den R<strong>und</strong>ungsfehler.<br />

1) Wegen der Stationarität ist<br />

1<br />

n<br />

⌊E<br />

∑u nn⌋<br />

i=⌊A n un⌋+1<br />

Var ( I w (i) ) = 1 n<br />

(<br />

⌊E<br />

n<br />

u n⌋ − ⌊A n un⌋ ) Var ( I w (1) )<br />

= ( )<br />

Eu n − A n u π w (1 − π w ) + εn u<br />

n πw (1 − π w )<br />

( )<br />

−→ n→∞ Eu − A u π w (1 − π w ).<br />

2) Wiederum wegen der Stationarität ist K w (j) := Kov ( I w (i), I w (i + j) ) unabhängig<br />

von i ɛ N. Somit gilt:<br />

1<br />

n<br />

⌊Eu n n⌋ ⌊E<br />

∑<br />

u n n⌋<br />

∑<br />

i=⌊A n u n⌋+1 j=i+1<br />

= 1 n<br />

= 1 n<br />

⌊E∑<br />

u nn⌋−1<br />

i=⌊A n un⌋+1<br />

∑<br />

Kov ( I w (i), I w (j) )<br />

⌊Eu n n⌋−i<br />

∑<br />

j=1<br />

⌊E n u n⌋−⌊An u n⌋−1<br />

j=1<br />

= ( E n u − A n u<br />

) Ln u<br />

K w (j)<br />

(<br />

⌊E<br />

n<br />

u n⌋ − ⌊A n un⌋ − j ) K w (j)<br />

∑<br />

K w (j) − 1 L<br />

∑<br />

n u<br />

jK w (j) + εn u<br />

n<br />

n<br />

j=1<br />

j=1<br />

L<br />

∑<br />

n u<br />

j=1<br />

K w (j),<br />

wobei L n u := ⌊En un⌋ − ⌊A n un⌋ − 1 = n(Eu n − A n u) + ε n u − 1 −→ n→∞<br />

∞. Nach Lemma<br />

3.7 konvergieren die Summen ∑ L n u<br />

j=1 K w(j) <strong>und</strong> ∑ L n u<br />

j=1 jK w(j) absolut,<br />

so dass man erhält:<br />

1<br />

n<br />

⌊E<br />

∑u nn⌋<br />

i=⌊A n un⌋+1<br />

⌊E<br />

∑u nn⌋<br />

j=i+1<br />

Kov ( I w (i), I w (j) ) −→ n→∞<br />

(E u − A u )C 1 w,ϕ.<br />

3) Der dritte Term aus Gleichung (3.4.3) wird getrennt für A n v = E n u <strong>und</strong><br />

A n v ≠ E n u untersucht. Ist etwa v > u + 1, so ist A n v ≠ E n u, nach Def<strong>in</strong>ition<br />

der Intervalle [A n i , E n i ) i ɛ {1,...,Dn} . In diesem Fall wird die dritte Summe <strong>in</strong>


3.4. Endlichdimensionale Randverteilungen 45<br />

die folgenden Terme aufgeteilt:<br />

1<br />

n<br />

⌊Eu n n⌋<br />

∑<br />

i=⌊A n u n⌋+1<br />

= 1 n<br />

− 1 n<br />

− 1 n<br />

⌊E<br />

∑u nn⌋<br />

i=⌊A n un⌋+1<br />

⌊Ev n n⌋<br />

∑<br />

j=⌊A n v n⌋+1 Kov ( I w (i), I w (j) )<br />

⌊Eu n n⌋−1<br />

∑<br />

i=⌊A n u n⌋+1<br />

⌊Eu n n⌋<br />

∑<br />

⌊Ev nn⌋−⌊An ∑u n⌋−1<br />

j=⌊A n v n⌋−⌊E n u n⌋+1<br />

⌊A n v n⌋−i<br />

∑<br />

K w (j)<br />

j=⌊A n v n⌋−⌊En u n⌋+1 K w (j)<br />

∑<br />

⌊Ev n n⌋−⌊A n un⌋−1<br />

i=⌊A n u n⌋+2 j=⌊Ev nn⌋−i+1<br />

K w (j).<br />

(3.4.4)<br />

Mit Hilfe des Cauchy-Kriteriums für Reihen ergibt sich die Konvergenz<br />

dieser drei Terme aus Lemma 3.7, wenn gezeigt wird, dass die unteren<br />

Summationsgrenzen unbeschränkt s<strong>in</strong>d:<br />

(i) Mit A n v ≠ E n u folgt wegen ⌊A n v n⌋ − ⌊E n un⌋ + 1 ≥ n(A n v − E n u) −→ n→∞<br />

∞:<br />

(ii) Ebenso gilt:<br />

1<br />

n<br />

⌊Eu n n⌋<br />

∑<br />

i=⌊A n u n⌋+1<br />

=<br />

(<br />

−→ n→∞<br />

0.<br />

⌊Ev n n⌋−⌊A<br />

∑<br />

n un⌋−1<br />

j=⌊A n v n⌋−⌊En u n⌋+1 K w (j)<br />

E n u − A n u + εn u<br />

n<br />

) ⌊En v n⌋−⌊An ∑u n⌋−1<br />

j=⌊A n v n⌋−⌊E n u n⌋+1<br />

K w (j)<br />

1<br />

n<br />

⌊E∑<br />

u nn⌋−1<br />

i=⌊A n un⌋+1<br />

⌊A∑<br />

n v n⌋−i<br />

j=⌊A n v n⌋−⌊E n u n⌋+1<br />

⌊A n v n⌋−⌊A<br />

∑<br />

n un⌋−1<br />

K w (j)<br />

= 1 (<br />

⌊A<br />

n<br />

n<br />

v n⌋−⌊A n un⌋−j ) K w (j)<br />

j=⌊A n v n⌋−⌊En u n⌋+1<br />

≤ (E n u − A n u)<br />

−→ n→∞<br />

0.<br />

⌊A∑<br />

n v n⌋−i<br />

j=⌊A n v n⌋−⌊E n u n⌋+1<br />

|K w (j)|


46 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

(iii) Mit ⌊E n v n⌋ − ⌊E n un⌋ + 1 ≥ n(E n v − E n u) −→ n→∞<br />

∞ ergibt sich:<br />

1<br />

n<br />

⌊Eu n n⌋<br />

∑<br />

∑<br />

⌊Ev n n⌋−⌊A n un⌋−1<br />

i=⌊A n u n⌋+2 j=⌊Ev nn⌋−i+1<br />

= 1 n<br />

⌊Ev nn⌋−⌊An ∑u n⌋−1<br />

j=⌊E n v n⌋−⌊E n u n⌋+1<br />

≤ (E n u − A n u)<br />

−→ n→∞<br />

0.<br />

K w (j)<br />

(<br />

⌊E<br />

n<br />

u n⌋−⌊E n v n⌋+j ) K w (j)<br />

⌊Ev nn⌋−⌊An ∑u n⌋−1<br />

j=⌊E n v n⌋−⌊En u n⌋+1 |K w (j)|<br />

Ist A n v = Eu, n das heißt v = u + 1 <strong>und</strong> die Intervalle schließen direkt<br />

ane<strong>in</strong>ander an, so erhält man:<br />

1<br />

n<br />

⌊Eu n n⌋<br />

∑<br />

i=⌊A n u n⌋+1<br />

= 1 n<br />

≤<br />

mit Lemma 3.7(ii).<br />

1 n<br />

= 1 n<br />

−→ n→∞<br />

0,<br />

⌊Ev n n⌋<br />

∑<br />

j=⌊A n v n⌋+1 | Kov ( I w (i), I w (j) ) |<br />

⌊A n v n⌋−⌊An ∑<br />

u n⌋<br />

i=1<br />

⌊A n v n⌋−⌊An ∑<br />

u n⌋<br />

i=1<br />

⌊Ev n n⌋−⌊A<br />

∑<br />

n un⌋<br />

j=1<br />

⌊Ev nn⌋−⌊An ∑v n⌋+i−1<br />

j=i<br />

⌊Ev nn⌋−⌊An ∑<br />

u n⌋<br />

j=i<br />

j|K w (j)|<br />

|K w (j)|<br />

Zusammenfassend ergibt sich für die Varianz von α T X n :<br />

1<br />

n σ2 n −→<br />

=<br />

|K w (j)|<br />

D∑<br />

(γ u ) 2[ ]<br />

(E u − A u )π w (1 − π w ) + 2(E u − A u )Cw,ϕ<br />

1<br />

u=1<br />

( ∑ D )(<br />

)<br />

(γ u ) 2 (E u − A u ) π w (1 − π w ) + 2Cw,ϕ<br />

1<br />

u=1<br />

( ∑ D )<br />

= σ0<br />

2 (γ u ) 2 (E u − A u ) ,<br />

u=1<br />

wobei die letzte Gleichung aus der Def<strong>in</strong>ition von C 1 w,ϕ <strong>in</strong> Lemma 3.7 <strong>und</strong> σ 2 0<br />

<strong>in</strong> Gleichung (3.1.1) folgt.


3.4. Endlichdimensionale Randverteilungen 47<br />

Da die Intervalle (A u , E u ] für u ɛ {1, . . . , D} disjunkt s<strong>in</strong>d <strong>und</strong> die Brownsche<br />

Bewegung unabhängige normalverteilte Zuwächse hat, erhält man für die rechte<br />

Seite von Behauptung a)<br />

( ∑ D )<br />

Var(α T X) = Var γ u (B Eu − B Au )<br />

=<br />

=<br />

u=1<br />

D∑<br />

(γ u ) 2 Var(B Eu − B Au )<br />

u=1<br />

D∑<br />

(γ u ) 2 (E u − A u ).<br />

u=1<br />

Dies ergibt 1 n σ2 n −→ n→∞<br />

Var(α T X)σ 2 0 <strong>und</strong> somit Behauptung a).<br />

b) Def<strong>in</strong>iert man a n,i := βn i<br />

σ n<br />

= ( Var(α T X n ) ) − 1 ∑ 2 d<br />

j=1 α j1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i), so<br />

ist ∑ n<br />

k=1 a (<br />

n,k Iw (k) − π w) = 1<br />

σ n<br />

α T X n . Daher wird als Nächstes gezeigt, dass<br />

(a n,k ) 1≤k≤n <strong>und</strong> ( I w (k) ) k ɛN die Voraussetzungen von Peligrad <strong>und</strong> Utev [65,<br />

Theorem 2.2(a)] erfüllen:<br />

1) sup n ɛN ∑ n<br />

k=1 a2 n,k<br />

ist beschränkt: Für alle n ɛ N ergibt sich wie <strong>in</strong> a)<br />

n∑<br />

∑D n<br />

⌊E<br />

∑u nn⌋<br />

a 2 n,k = 1 (γ<br />

σ<br />

u) n 2<br />

2<br />

k=1 n u=1 k=⌊A n u<br />

∑ n⌋+1 D n<br />

u=1<br />

≤<br />

(γn u) 2 (Eu n − A n u + εn u<br />

n<br />

)<br />

1<br />

n σ2 n<br />

1<br />

−→ n→∞<br />

ɛ R.<br />

σ0<br />

2<br />

2) max k ɛ {1,...,n} |a n,k | −→ n→∞<br />

0: Nach a) ist 1 n σ2 n −→ n→∞<br />

Var(α T X)σ0 2 > 0, daher gilt<br />

für h<strong>in</strong>reichend große n ɛ N:<br />

|a n,k | =<br />

≤<br />

∣ ∣ βn k ∣∣<br />

σ n<br />

2 ∑ d<br />

j=1 |α j|<br />

√<br />

n Var(αT X)σ0<br />

2<br />

−→ n→∞<br />

0.<br />

3) Die Folge ( I w (k) − π w) k ɛN ist gleichgradig <strong>in</strong>tegrierbar, da I w(k)−π w<br />

ɛ {−π w , 1 − π w }.


48 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

4) Var ( ∑ n<br />

k=1 a n,kI w (k) ) = 1, nach Def<strong>in</strong>ition der a n,k .<br />

Damit lässt sich Theorem 2.2(a) aus Peligrad <strong>und</strong> Utev [65] anwenden. Es<br />

folgt Behauptung b):<br />

1<br />

σ n<br />

α T X n =<br />

n∑ (<br />

a n,k Iw (k) − π w) −→ D<br />

N (0, 1).<br />

k=1<br />

Aus den Eigenschaften der Brownschen Bewegung folgt, dass α T X normalverteilt<br />

ist, da es sich um e<strong>in</strong>e gewichtete Summe von Zuwächsen von B handelt. Somit<br />

wurde gezeigt, dass:<br />

1<br />

σ 0<br />

√ n<br />

α T X n =<br />

σ n<br />

σ 0<br />

√ n ·<br />

1<br />

σ n<br />

α T X n<br />

D<br />

−→ √ Var(α T X)N (0, 1) d = α T X.<br />

−→ X <strong>und</strong> damit die Behaup-<br />

✷<br />

1<br />

Mit Theorem 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17] folgt<br />

tung.<br />

σ 0<br />

√ n<br />

X n<br />

D<br />

Damit wurde die Konvergenz der endlichdimensionalen Randverteilungen gezeigt,<br />

falls r n von oben gegen e<strong>in</strong>en positiven Grenzwert konvergiert. In Verb<strong>in</strong>dung mit<br />

der <strong>in</strong> Abschnitt 3.3 bewiesenen Straffheit erhält man den ersten Teil von Satz 3.1.<br />

3.4.2 Der Fall r n ↘ 0<br />

In diesem Abschnitt werden die endlichdimensionalen Randverteilungen des<br />

Grenzprozesses untersucht, wenn die Fenstergröße gegen 0 konvergiert. Wie erwartet,<br />

erhält man <strong>in</strong> diesem Fall im Allgeme<strong>in</strong>en ke<strong>in</strong>en stetigen Grenzprozess<br />

mehr.<br />

Satz 3.9<br />

Sei X e<strong>in</strong>e stationäre, ϕ-mischende Zeichenfolge <strong>und</strong> für die Fenstergröße r n gelte<br />

r n ↘ 0 <strong>und</strong> r n n −→ ∞. Dann konvergieren die endlichdimensionalen Randverteilungen<br />

der Scan-Statistik (r n n) − 1 2 D n gegen unabhängige Normalverteilungen,<br />

das heißt für d ɛ N <strong>und</strong> Zeitpunkte t 1 , . . . , t d ɛ [0, 1] gilt:<br />

1<br />

√<br />

rn n<br />

⎛ ⎞<br />

D n (t 1 )<br />

⎜ ⎟<br />

⎝ . ⎠<br />

D n (t d )<br />

D<br />

−→ N (0, σ 2 0 I d ).<br />

Dabei bezeichnet I d ɛ R d×d die d-dimensionale E<strong>in</strong>heitsmatrix.


3.4. Endlichdimensionale Randverteilungen 49<br />

Beweis:<br />

Sei zur Abkürzung X n : =<br />

( D n (t 1 ), . . . , D n (t d ) ) T<br />

. Analog zum Beweis von<br />

Satz 3.8 wird gezeigt, dass für alle α ɛ R d 1<br />

gilt: √ αT rnn<br />

X D<br />

n −→ α T N ( )<br />

0, σ0 2 I d =<br />

N ( 0, σ0 2 ‖α‖ 2) . Die Behauptung folgt hieraus mit Theorem 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17].<br />

Seien ohne E<strong>in</strong>schränkung α ≠ 0 <strong>und</strong> 0 = : t 0 ≤ t 1 < · · · < t d ≤ 1. Dann ist<br />

m := m<strong>in</strong>{t i − t i−1 |i ɛ {1, . . . , d}} > 0. Da r n −→ n→∞<br />

0 ist r n + 1 < m für h<strong>in</strong>reichend<br />

n<br />

große n ɛ N, das heißt, die Intervalle (t i , t i + r n ] i ɛ {1,...,d} s<strong>in</strong>d disjunkt. Teilt man<br />

σn 2 := Var(αT X n ) wie <strong>in</strong> Gleichung (3.4.3) auf, <strong>und</strong> bezeichnet ε n u := ⌊(t u+r n )n⌋−<br />

⌊t u n⌋ − r n n ɛ (−1, 1) den R<strong>und</strong>ungsfehler, so ergibt sich:<br />

[<br />

σn<br />

2 d∑<br />

r n n = αu<br />

2 r n n + ε n u<br />

Var ( I w (i) ) + 2<br />

⌊(t u+r n)n⌋ ⌊(t<br />

∑ u+r n)n⌋−i<br />

]<br />

∑<br />

K w (j)<br />

r<br />

u=1<br />

n n<br />

r n n<br />

i=⌊t un⌋+1 j=1<br />

⌊(t d∑ d∑<br />

u+r n)n⌋ ⌊(t<br />

1 ∑ v+r<br />

∑ n)n⌋<br />

+ 2 α u α v Kov ( I w (i), I w (j) ) .<br />

r<br />

u=1 v=u+1 n n<br />

i=⌊t un⌋+1 j=⌊t vn⌋+1<br />

Wegen r n n −→ n→∞<br />

∞ konvergieren die Summanden wie folgt:<br />

1) rnn+εn u<br />

r nn<br />

Var ( I w (i) ) −→ n→∞<br />

(<br />

π w (1 − π w ) ) .<br />

2) Nach Lemma 3.7 ergibt sich:<br />

1<br />

r n n<br />

⌊(t u+r<br />

∑ n)n⌋<br />

i=⌊t un⌋+1<br />

∑<br />

⌊(t u+r n)n⌋−i<br />

j=1<br />

K w (j) = r nn + ε n u<br />

r n n<br />

−→ C 1 w,ϕ.<br />

r nn+ε<br />

∑<br />

n u<br />

j=1<br />

K w (j) − 1<br />

r nn+ε<br />

∑<br />

n u<br />

jK w (j)<br />

r n n<br />

j=1<br />

3) Für 1 ≤ u < v ≤ d gilt ∆ v u := ⌊t vn⌋ − ⌊t u n⌋ −→ n→∞<br />

∞. Damit lässt sich der dritte<br />

Summand analog Gleichung (3.4.4) abschätzen:<br />

1<br />

r n n<br />

⌊(t u+r<br />

∑ n)n⌋<br />

⌊(t v+r<br />

∑ n)n⌋<br />

i=⌊t un⌋+1 j=⌊t vn⌋+1<br />

≤ r nn + ε n u<br />

r n n<br />

+ r nn + ε n u<br />

r n n<br />

+ r nn + ε n u<br />

r n n<br />

∆ v u+r nn+ε n v −1<br />

∑<br />

(<br />

∣ Kov Iw (i), I w (j) )∣ ∣<br />

j=∆ v u −rnn−εn u +1 |K w (j)|<br />

∆∑<br />

v u−1<br />

j=∆ v u−r nn−ε n u+1<br />

∆ v u+r nn+ε n v −1<br />

∑<br />

j=∆ v u+ε n v −ε n u+1<br />

|K w (j)|<br />

|K w (j)|.<br />

Alle 3 Terme konvergieren nach dem Cauchy-Kriterium für Reihen gegen 0,<br />

da die Reihen nach Lemma 3.7 absolut konvergieren.


50 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße<br />

Man erhält für die Varianz von α T X n :<br />

σ 2 n<br />

r n n −→<br />

d∑ (π<br />

αu[ 2 w (1 − π w ) ) ]<br />

+ 2Cw,ϕ<br />

1 = ‖α‖ 2 σ0.<br />

2<br />

u=1<br />

Wie im Beweis von Satz 3.8, Teil (ii) folgt aus Theorem 2.2(a) <strong>in</strong> Peligrad <strong>und</strong><br />

Utev [65]<br />

1<br />

√<br />

rn n σ n ‖α‖ αT X n<br />

D<br />

−→ N (0, 1)<br />

<strong>und</strong> mit Theorem 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17] die Behauptung.<br />

✷<br />

Damit wurde die Konvergenz der endlichdimensionalen Randverteilungen auch<br />

für den Fall, dass r n gegen 0 konvergiert, bewiesen. Somit erhält man den zweiten<br />

Teil von Satz 3.1.


51<br />

Kapitel 4<br />

Der empirische <strong>Muster</strong>prozess<br />

Dieses Kapitel hat die Häufigkeit des Auftretens e<strong>in</strong>es <strong>Muster</strong>s zum Thema. Untersucht<br />

wird das überlappende Vorkommen e<strong>in</strong>es gegebenen <strong>Muster</strong>s, wobei die<br />

durchsuchte Zeichenfolge von den Parametern abhängt. Ausgehend von e<strong>in</strong>er stationären<br />

ϕ-mischenden Folge bestimmen die Veränderlichen des Prozesses die<br />

Wahrsche<strong>in</strong>lichkeitsverteilung der Buchstaben.<br />

Es wird die Konvergenz des empirischen <strong>Muster</strong>prozesses gegen e<strong>in</strong>en stetigen<br />

Grenzprozess gezeigt <strong>und</strong> für den Fall unabhängiger Zufallsvariablen werden explizite<br />

Abschätzungen angegeben.<br />

Durch die Erweiterung auf mehr als zwei Dimensionen, die Betrachtung des Zeitparameters<br />

<strong>und</strong> die E<strong>in</strong>bettung <strong>in</strong> die Theorie der empirischen Prozesse stellt<br />

dieses Kapitel e<strong>in</strong>e Verallgeme<strong>in</strong>erung des Ergebnisses von Aki [1] dar.<br />

4.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />

Gegeben sei das Wort w = w 1 · · · w l ɛ A l der Länge l ɛ N über dem endlichen<br />

Alphabet A = {1, . . . , ξ} <strong>und</strong> e<strong>in</strong>e stationäre ϕ-mischende Folge (X i ) i ɛN auf<br />

(R, B). Die endlichdimensionalen Randverteilungen von (X i+j ) j ɛ {1,...,n} seien für<br />

alle n ɛ N <strong>und</strong> i ɛ {1, . . . , l} Lebesgue-stetig.<br />

Analog zu Remark 2.1 <strong>in</strong> Aki [1] wird ohne Beschränkung der Allgeme<strong>in</strong>heit<br />

angenommen, dass X i auf [0, 1] gleichverteilt ist für alle i ɛ N. Dies ist ke<strong>in</strong>e<br />

E<strong>in</strong>schränkung, da F i (X i ) gleichverteilt auf [0, 1] ist, wenn F i : = P (X i ≤ ·)<br />

die Verteilungsfunktion von X i bezeichnet. Wird die Behauptung nun für F (X i )<br />

gezeigt, so folgt der allgeme<strong>in</strong>e Fall mit Theorem 5.1 aus Bill<strong>in</strong>gsley [17], da<br />

F nach obiger Voraussetzung stetig ist <strong>und</strong> sich die Mischungseigenschaft auf<br />

(F (X i )) i ɛN überträgt.<br />

Für Parameter p ɛ ∆ := {(q 1 , . . . , q ξ−1 ) ɛ [0, 1] ξ−1 | 0 ≤ q 1 ≤ . . . ≤ q ξ−1 ≤ 1} ist die


52 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

durchsuchte Zeichenkette ˜X(p) := ( )<br />

˜X(p) i i ɛN def<strong>in</strong>iert durch:<br />

⎧<br />

1, X i ɛ [0, p 1 ]<br />

˜X (p)<br />

i<br />

:=<br />

ξ∑<br />

c=1<br />

c1 {pc−1 p c} =<br />

⎪⎨<br />

2, X i ɛ (p 1 , p 2 ]<br />

. . ⎪⎩<br />

ξ, X i ɛ (p ξ−1 , 1].<br />

0 p 1 p 2 · · · p ξ−1 1 (<br />

[0, 1], B[0,1] , P i)<br />

X<br />

˜X (p)<br />

i<br />

❄ ❄ ❄ ❄<br />

(<br />

e<br />

1 2 · · · ξ A, P(A), P Xi<br />

)<br />

Im Gegensatz zu Kapitel 3 soll <strong>in</strong> diesem Kapitel der empirische <strong>Muster</strong>prozess<br />

von w <strong>in</strong> Abhängigkeit von den Schwellen p = (p 1 , . . . , p ξ−1 ) untersucht werden.<br />

Die Parameter p 1 , . . . , p ξ−1 bestimmen folglich die Wahrsche<strong>in</strong>lichkeiten für das<br />

Auftreten der Zeichen <strong>in</strong> der Folge ˜X. Die im Folgenden untersuchte Stetigkeit<br />

<strong>in</strong> diesen Parametern ergibt daher e<strong>in</strong>e Rechtfertigung für die Anschauung, dass<br />

e<strong>in</strong>e ger<strong>in</strong>gfügige Veränderung der Wahrsche<strong>in</strong>lichkeiten den empirischen <strong>Muster</strong>prozess<br />

nur wenig verändert.<br />

In der Schätztheorie ergibt sich e<strong>in</strong>e <strong>in</strong>teressante Anwendung von Satz 4.2, da sich<br />

die Konsistenz e<strong>in</strong>er Folge von Schätzern der e<strong>in</strong>zelnen Zeichenwahrsche<strong>in</strong>lichkeiten<br />

auf den empirischen <strong>Muster</strong>prozess überträgt. Oftmals werden beispielsweise<br />

die relativen Häufigkeiten als Schätzer für die Zeichenwahrsche<strong>in</strong>lichkeiten verwendet.<br />

Daher genügt es, die Konvergenz der relativen Häufigkeiten gegen die<br />

Zeichenwahrsche<strong>in</strong>lichkeiten zu beweisen, um die Konsistenz e<strong>in</strong>es stetigen Funktionals<br />

des <strong>Muster</strong>prozesses zu zeigen.<br />

Bemerkungen:<br />

1) Um den Prozess später auf dem E<strong>in</strong>heitsquader betrachten zu können, sei<br />

I w (i; p) : = 0 für alle p ɛ ∆ c , <strong>in</strong>sbesondere falls e<strong>in</strong> k ɛ {1, . . . , ξ} existiert, so<br />

dass p k−1 > p k .<br />

2) Für (p 1 , . . . , p ξ−1 ) ɛ ∆ sei im Folgenden zur Abkürzung p 0 : = 0 <strong>und</strong> p ξ : = 1.<br />

Damit lassen sich unnötige Fallunterscheidungen <strong>in</strong> Summen <strong>und</strong> Produkten<br />

vermeiden.<br />

Weiterh<strong>in</strong> bezeichne L k := {i ɛ {1, . . . , l} | w i = k} die Positionen im <strong>Muster</strong> w,<br />

die mit dem Zeichen k ɛ A besetzt s<strong>in</strong>d. Der Nutzen dieser Bezeichnung wird bei<br />

der Def<strong>in</strong>ition des Ereignisses, dass das Wort w ab Position i ɛ N <strong>in</strong> ˜X(p), p ɛ ∆


4.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 53<br />

vorkommt, offensichtlich:<br />

I w (i; p 1 , . . . , p ξ−1 ) := 1 { X e(p)<br />

(p)<br />

i ··· eX =<br />

i+l−1 =w 1···w l }<br />

l∏<br />

1 (pwj −1,p wj ](X i+j−1 )<br />

j=1<br />

= ∏ k ɛ A<br />

1 (pk−1 ,p k ] |L k |(X L k +i−1).<br />

Bezeichnet zur Abkürzung π w p die Wahrsche<strong>in</strong>lichkeit, dass das Wort w vorkommt,<br />

π w p := E I w(1; p),<br />

so ist der zentrierte empirische <strong>Muster</strong>prozess von w <strong>in</strong> Abhängigkeit von p ɛ ∆<br />

zum Zeitpunkt s ɛ [0, 1] gegeben durch:<br />

Z n (p; s) := √ 1<br />

⌊ns⌋<br />

∑ ( )<br />

Iw (i; p) − π w<br />

n<br />

p .<br />

i=1<br />

Um die Kovarianzen im Fall unabhängiger (X i ) i ɛN explizit angeben zu können,<br />

wird folgende Def<strong>in</strong>ition benötigt, <strong>in</strong> der analog zum Overlap Bit <strong>in</strong> Def<strong>in</strong>ition 3.6<br />

e<strong>in</strong>e Funktion def<strong>in</strong>iert wird, die die Möglichkeit, dass das Wort w selbstüberlappend<br />

vorkommt, misst:<br />

Def<strong>in</strong>ition 4.1<br />

Für das Wort w ɛ A l sei das verallgeme<strong>in</strong>erte ”<br />

Overlap Polynom“ G w : ∆ × ∆ →<br />

[0, 1] gegeben durch:<br />

G w (p, q) :=<br />

∑l−1<br />

u=1<br />

[ ∏<br />

k ɛ A<br />

(<br />

(p k − p k−1 ) |L k∩{1,...,u}| · (q k − q k−1 ) |L k∩{l−u+1,...,l}|<br />

· ∏ (<br />

(pk ∧ q c − p k−1 ∨ q c−1 ) +) )] |L k ∩(L c+u)∩{u+1,...,l}|<br />

.<br />

c ɛ A<br />

Weiterh<strong>in</strong> sei G w (p, q) := 0 falls p ɛ ∆ c oder q ɛ ∆ c .<br />

Bemerkung:<br />

Obige Def<strong>in</strong>ition stellt e<strong>in</strong>e Verallgeme<strong>in</strong>erung des <strong>in</strong> der Literatur gebräuchlichen<br />

Overlap Polynoms dar. Dieses wird zum Beispiel <strong>in</strong> Waterman [94, Abschnitt 12.1]<br />

als Potenzreihe def<strong>in</strong>iert. Mithilfe der für Erzeugende Funktionen üblichen Ableitungen<br />

werden dort beim Übergang zu nicht überlappenden Vorkommen des<br />

<strong>Muster</strong>s w Erwartungswert <strong>und</strong> Varianz berechnet. Diese Methode br<strong>in</strong>gt hier<br />

ke<strong>in</strong>e Vorteile, weshalb an dieser Stelle darauf verzichtet wird.<br />

Damit lassen sich die Resultate der nächsten beiden Abschnitte <strong>in</strong> folgendem Satz<br />

zusammenfassen:


54 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

Satz 4.2<br />

Seien obige Voraussetzungen erfüllt <strong>und</strong> sei außerdem die Folge (X i ) i ɛN ϕ-mischend<br />

mit ∑ ∞<br />

i=1 i√ ϕ(i) < ∞. Dann existiert e<strong>in</strong> stochastischer Prozess Z mit<br />

stetigen Pfaden <strong>und</strong> normalverteilten Randverteilungen, so dass gilt:<br />

Z n<br />

D<br />

−→ Z <strong>in</strong> D ξ .<br />

Für alle p, q ɛ ∆ existiert e<strong>in</strong>e Konstante C ϕ p,q ɛ R, so dass die Kovarianz für alle<br />

s, t ɛ [0, 1] gegeben ist durch:<br />

Kov ( Z (p,s) , Z (q,t)<br />

)<br />

= (s ∧ t)C<br />

ϕ<br />

p,q .<br />

Ist die Folge (X i ) i ɛN zusätzlich stochastisch unabhängig, so lässt sich die Konstante<br />

explizit angeben:<br />

C ϕ p,q = G w (p, q) + G w (q, p) + ∏ k ɛ A<br />

(<br />

(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k |<br />

.<br />

Beweis:<br />

Die Straffheit von (Z n ) n ɛN folgt aus Satz 4.8. Die Konvergenz der endlichdimensionalen<br />

Randverteilungen sowie die explizite Darstellung ergibt sich aus Satz 4.6.<br />

✷<br />

4.2 Endlichdimensionale Randverteilungen<br />

Zunächst werden die Kovarianzen für den Fall unabhängiger (X i ) i ɛN untersucht.<br />

Hierfür wird <strong>in</strong> der folgenden Proposition die Wahrsche<strong>in</strong>lichkeit berechnet, dass<br />

das Wort w <strong>in</strong> ˜X(p) <strong>und</strong> <strong>in</strong> ˜X(q) überlappend vorkommt:<br />

Proposition 4.3<br />

Seien p, q ɛ ∆ <strong>und</strong> der Shift u ɛ {0, . . . , l − 1} gegeben. Dann lässt sich für den Fall<br />

unabhängiger (X i ) i ɛN die Wahrsche<strong>in</strong>lichkeit, dass w um u Zeichen versetzt <strong>in</strong><br />

˜X(p) <strong>und</strong> <strong>in</strong> ˜X(q) vorkommt, schreiben als:<br />

(<br />

E ( I w (1; p)I w (u + 1; q) ) = ∏ k ɛ A<br />

(p k − p k−1 ) |L k∩{1,...,u}| · (q k − q k−1 ) |L k∩{l−u+1,...,l}|<br />

)<br />

(<br />

·∏<br />

(pk ∧q c − p k−1 ∨q c−1 ) +) |L k ∩(L c+u)∩{u+1,...,l}|<br />

.<br />

c ɛ A<br />

Insbesondere ist die Wahrsche<strong>in</strong>lichkeit, dass w <strong>in</strong> ˜X(p) <strong>und</strong> <strong>in</strong> ˜X(q) an derselben<br />

Position vorkommt:<br />

E ( I w (1; p)I w (1; q) ) = ∏ k ɛ A<br />

(<br />

(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k |<br />

.


4.2. Endlichdimensionale Randverteilungen 55<br />

Beweis:<br />

Wegen der Unabhängigkeit der (X i ) i ɛN gilt:<br />

E ( I w (1; p)I w (u + 1; q) ) ( u∏<br />

= E 1 (pwj −1,p wj ](X j )<br />

j=1<br />

=<br />

·<br />

l∏<br />

j=u+1<br />

u∏<br />

(p wj − p wj −1)<br />

j=1<br />

·<br />

l∏<br />

j=u+1<br />

∏l+u<br />

j=l+1<br />

1 (qwj−u −1,q wj−u ](X j )<br />

1 (pwj −1,p wj ]∩(q wj−u −1,q wj−u ](X j )<br />

l∏<br />

j=l−u+1<br />

(q wj − q wj −1)<br />

(p wj ∧ q wj−u − p wj −1 ∨ q wj−u −1) + .<br />

Die Darstellung der ersten beiden Produkte erhält man aus der Def<strong>in</strong>ition der<br />

(L k ) k ɛ A . Für das dritte Produkt folgt mit L c +u = {j ɛ {u+1, . . . , u+l}|w j−u = c}:<br />

l∏<br />

j=u+1<br />

(p wj ∧ q wj−u − p wj −1 ∨ q wj−u −1) + = ∏<br />

k,c ɛ A<br />

∏<br />

j ɛ {u+1,...,l}<br />

w j =k,w j−u =c<br />

)<br />

(p k ∧ q c − p k−1 ∨ q c−1 ) + .<br />

Daraus ergibt sich die erste Gleichung. Die zweite folgt hieraus unmittelbar mit<br />

u = 0.<br />

✷<br />

Damit lässt sich die Konvergenz der Kovarianzfolge des empirischen <strong>Muster</strong>prozesses<br />

für den unabhängigen Fall folgendermaßen formulieren:<br />

Lemma 4.4<br />

Seien die (X i ) i ɛN unabhängig, p, q ɛ ∆ <strong>und</strong> s, t ɛ [0, 1]. Dann konvergiert die Kovarianzfolge<br />

des empirischen <strong>Muster</strong>prozesses <strong>in</strong> Abhängigkeit von (p; s) beziehungsweise<br />

(q; t):<br />

Kov ( Z n (p; s), Z n (q; t) )<br />

(<br />

−→ n→∞<br />

(s ∧ t)<br />

G w (p, q) + G w (q, p) + ∏ k ɛ A<br />

(<br />

(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k |<br />

)<br />

.<br />

Beweis:<br />

Wegen der Symmetrie der Kovarianz kann ohne E<strong>in</strong>schränkung angenommen<br />

werden, dass s ≤ t gilt. Zur Abkürzung bezeichne K i,j := Kov ( I w (i; p), I w (j; q) ) .<br />

Da I w (i; p) <strong>und</strong> I w (j; q) für i, j ɛ N mit |i − j| ≥ l unabhängig s<strong>in</strong>d, erhält man


56 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

mit der Stationarität:<br />

Kov ( Z n (p; s), Z n (q; t) ) = 1 n<br />

⌊ns⌋<br />

∑<br />

i=1<br />

= ⌊ns⌋<br />

n<br />

⌊nt⌋∧i+l−1<br />

∑<br />

j=1∨i−l+1<br />

[<br />

K 1,1 +<br />

∑l−1<br />

u=1<br />

K i,j<br />

(<br />

K1,1+u + K 1+u,1<br />

) ] − R n<br />

n ,<br />

mit R n := ∑ ⌊ns⌋−⌊nt⌋+l−1<br />

j=1<br />

jK 1,⌊nt⌋−⌊ns⌋+j+1 + ∑ l−1<br />

j=1 jK j+1,1. Wegen |R n | ≤ (l − 1) 2<br />

<strong>und</strong> ⌊ns⌋<br />

n<br />

−→ n→∞<br />

s = s∧t folgt die Behauptung aus Proposition 4.3 <strong>und</strong> Def<strong>in</strong>ition 4.1.<br />

✷<br />

Folgendes Lemma ist e<strong>in</strong>e Verallgeme<strong>in</strong>erung von Lemma 4.4 auf ϕ-mischende<br />

Folgen. Erwartungsgemäß hängt der Grenzwert <strong>in</strong> diesem Fall von der Konvergenzgeschw<strong>in</strong>digkeit<br />

der Folge (ϕ(i)) i ɛN ab:<br />

Lemma 4.5<br />

Ist die Folge (X i ) i ɛN stationär <strong>und</strong> ϕ-mischend mit ∑ ∞<br />

i=1 i√ ϕ(i) < ∞, so existiert<br />

für alle p, q ɛ ∆ e<strong>in</strong>e Konstante Cp,q ϕ ɛ R, so dass für alle s, t ɛ [0, 1] gilt:<br />

Kov ( Z n (p; s), Z n (q; t) ) −→ n→∞<br />

C ϕ p,q(s ∧ t).<br />

Beweis:<br />

Ohne E<strong>in</strong>schränkung kann s ≤ t angenommen werden. Sei zur Abkürzung<br />

K i,j : = Kov ( I w (i; p), I w (j; q) ) . Aus Bill<strong>in</strong>gsley [17, Lemma 20.1] ergibt sich mit<br />

der Stationarität |K i,j | ≤ 2 √ ϕ(|i − j|) √ πp w πq w . Aus der Voraussetzung folgt<br />

die absolute Konvergenz ∑ m<br />

i=1 K i,1 m→∞<br />

−→ C 1 , ∑ m<br />

i=2 K 1,i m→∞<br />

−→ C 2 mit C 1 , C 2 ɛ R<br />

∑<br />

<strong>und</strong><br />

∞<br />

i=1 iK i,1 < ∞, ∑ ∞<br />

i=1 iK 1,i < ∞ <strong>und</strong> somit:<br />

Kov ( Z n (p; s), Z n (q; t) )<br />

= 1 n<br />

= 1 n<br />

∑ ∑<br />

⌊ns⌋ ⌊nt⌋<br />

K i,j<br />

i=1<br />

⌊ns⌋<br />

∑<br />

j=1<br />

i=1<br />

( i∑<br />

j=1<br />

K i−j+1,1 +<br />

⌊nt⌋<br />

∑<br />

j=i+1<br />

= 1 ⌊ns⌋<br />

∑<br />

(⌊ns⌋ − j + 1)K j,1 + 1 n<br />

n<br />

j=1<br />

−→ n→∞<br />

sC 1 + sC 2 .<br />

K 1,j−i+1<br />

)<br />

⌊nt⌋−1<br />

∑<br />

j=i+1<br />

Mit C ϕ p,q := C 1 + C 2 folgt die Behauptung.<br />

(<br />

⌊ns⌋ ∧ ⌊nt⌋ − j<br />

)<br />

K1,j+1<br />

(4.2.1)<br />


4.2. Endlichdimensionale Randverteilungen 57<br />

Damit lassen sich nun die bei der Berechnung der endlichdimensionalen Randverteilungen<br />

auftretenden Kovarianzen explizit als Funktion des Overlap Polynoms<br />

darstellen.<br />

Satz 4.6<br />

Die endlichdimensionalen Randverteilungen von (Z n ) n ɛN s<strong>in</strong>d konvergent. Es<br />

existiert e<strong>in</strong> Prozess (Z (p,s) ) (p,s) ɛ ∆×[0,1] , so dass für alle Dimensionen d ɛ N, Schwellenwerte<br />

p 1 , . . . , p d ɛ ∆ <strong>und</strong> Zeitpunkte s 1 , . . . , s d ɛ [0, 1] gilt:<br />

⎛ ⎞ ⎛<br />

Z n (p 1 ; s 1 )<br />

⎜ ⎟<br />

⎝ . ⎠<br />

D ⎜<br />

−→ ⎝<br />

Z n (p d ; s d )<br />

Z (p 1 ,s 1 )<br />

.<br />

Z (p d ,s d )<br />

Dabei ist die Kovarianzmatrix von Z gegeben durch:<br />

⎞<br />

⎟<br />

⎠ .<br />

Kov ( Z (p i ,s i ), Z (p j ,s j ))<br />

= (s i ∧ s j )C ϕ p i ,p j für alle i, j ɛ {1, . . . , l}<br />

mit Konstanten C ϕ p i ,p j ɛ R. Ist die Folge (X i ) i ɛN unabhängig, so ist für die C ϕ p,p<br />

durch Lemma 4.4 e<strong>in</strong>e explizite Darstellung gegeben.<br />

Beweis:<br />

Bezeichne zur Abkürzung Z n := ( Z n (p 1 ; s 1 ), . . . , Z n (p d ; s d ) ) T<br />

die l<strong>in</strong>ke <strong>und</strong> Z :=<br />

( ) T<br />

Z(p 1 ,s 1 ), . . . , Z (p d ,s d ) die rechte Seite. Wie <strong>in</strong> Abschnitt 3.4 wird gezeigt, dass<br />

α T Z n<br />

D<br />

−→ α T Z für alle α ɛ R d . Es gilt:<br />

α T Z n = 1 √ n<br />

n∑<br />

i=1<br />

d∑<br />

α j 1 {1,...,⌊ns j ⌋}(i) ( )<br />

I w (i; p j ) − π w p j<br />

j=1<br />

} {{ }<br />

=:ξ i<br />

.<br />

Da (ξ i ) i ɛN im Allgeme<strong>in</strong>en nicht stationär ist, lassen sich die Standardergebnisse,<br />

wie etwa Theorem 20.1 von Bill<strong>in</strong>gsley [17], nicht direkt verwenden. Mit<br />

Lemma 4.5 für ϕ-mischende beziehungsweise Lemma 4.4 für unabhängige Folgen<br />

erhält man jedoch:<br />

σn 2 := Var(αT Z n )<br />

=<br />

d∑<br />

α j α r Kov ( Z n (p j ; s j ), Z n (p r ; s r ) )<br />

−→ n→∞<br />

j,r=1<br />

d∑<br />

α j α r (s j ∧ s r ) C ϕ p j ,p r<br />

j,r=1<br />

=: σ 2 0,


58 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

wobei die Konstanten C ϕ im Fall unabhängiger X<br />

p j ,p r<br />

i durch Lemma 4.4 explizit<br />

gegeben s<strong>in</strong>d. Ist σ0 2 = 0, so ist nichts zu zeigen. Sei also im Folgenden σ0 2 > 0<br />

<strong>und</strong> n 0 ɛ N so groß, dass σn 2 ≥ 1 2 σ2 0 für alle n ≥ n 0 . Mit a n,k := √ 1<br />

nσn<br />

gilt für alle<br />

n ≥ n 0 :<br />

1) ∑ n<br />

k=1 a2 n,k = 1<br />

σ 2 n<br />

ist beschränkt.<br />

2) Wegen σ n −→ n→∞<br />

σ 0 gilt: max 1≤k≤n |a n,k | = √ 1<br />

nσn<br />

−→ n→∞<br />

0.<br />

3) Die Folge (ξ i ) i ɛN ist gleichgradig <strong>in</strong>tegrierbar, da |ξ i | ≤ ∑ d<br />

j=1 |α j| für alle i ɛ N.<br />

4) Nach Def<strong>in</strong>ition ist Var ( ∑ n<br />

k=1 a )<br />

n,kξ k =<br />

1<br />

Var ( ∑<br />

1 n √n<br />

σn<br />

2 k=1 ξ k)<br />

= 1.<br />

Damit s<strong>in</strong>d die Voraussetzungen von Peligrad <strong>und</strong> Utev [65, Theorem 2.2] erfüllt.<br />

Es folgt die Konvergenz:<br />

1 1 √n<br />

σ n<br />

n∑<br />

ξ k =<br />

k=1<br />

n∑<br />

a n,k ξ k<br />

k=1<br />

D<br />

−→ N (0, 1).<br />

Wegen σ 2 n −→ n→∞<br />

σ 2 0 = α T Σα mit Σ := ( (s j ∧ s r )C ϕ p j ,p r )j,r=1,...,d ɛ Rd×d ergibt sich:<br />

α T Z n = 1 √ n<br />

n∑<br />

k=1<br />

ξ k<br />

D<br />

−→ N (0, σ 2 0) = α T N (0, Σ T Σ).<br />

Mit Theorem 7.7 aus Bill<strong>in</strong>gsley [17] folgt die Behauptung.<br />

✷<br />

4.3 Straffheit<br />

Folgende technische Proposition liefert e<strong>in</strong>e Summendarstellung für I w (i; p), die<br />

Ausgangspunkt für weitere Folgerungen ist.<br />

Proposition 4.7<br />

Ist p ɛ ∆, so ergibt sich für das Ereignis, dass das Wort w ab Position i <strong>in</strong> ˜X(p)<br />

vorkommt:<br />

∑<br />

)<br />

I w (i; p) = (−1) |D| 1 [0,u w<br />

D (p)]<br />

((X i , . . . , X i+l−1 ) T ,<br />

D ɛ P({1,...,l})<br />

wobei die stetige Abbildung u w D : ∆ → [0, 1]l gegeben ist durch:<br />

für alle k ɛ {1, . . . , l}.<br />

(<br />

u<br />

w<br />

D (p) ) k := {<br />

pwk , falls k ɛ {1, . . . , l} \ D<br />

p wk −1, falls k ɛ D,


4.3. Straffheit 59<br />

Beweis:<br />

l∏<br />

Wegen (y i − x i ) =<br />

i=1<br />

y 1 , . . . , y l ɛ R, ergibt sich:<br />

∑<br />

(−1) |D|<br />

D ɛ P({1,...,l})<br />

∏<br />

k ɛ D c y k ·<br />

∏<br />

k ɛ D<br />

x k für alle x 1 , . . . , x l ,<br />

I w (i; p) =<br />

=<br />

=<br />

=<br />

l∏<br />

j=1<br />

(<br />

)<br />

1 [0,pwj ](X i+j−1 ) − 1 [0,pwj −1](X i+j−1 )<br />

∑<br />

D ɛ P({1,...,l})<br />

∑<br />

D ɛ P({1,...,l})<br />

∑<br />

D ɛ P({1,...,l})<br />

(−1) |D| ∏<br />

1 [0,pwj ](X i+j−1 ) ∏<br />

j ɛ D c j ɛ D<br />

l∏<br />

(−1) |D| 1 [0,u w<br />

D (p) j ](X i+j−1 )<br />

j=1<br />

(−1) |D| 1 [0,u w<br />

D (p)]<br />

1 [0,pwj −1](X i+j−1 )<br />

((X i , . . . , X i+l−1 ) T )<br />

. ✷<br />

Damit kann der zentrierte empirische <strong>Muster</strong>prozess dargestellt werden als:<br />

Z n (p; s) =<br />

∑<br />

D ɛ P({1,...,l})<br />

V n( u; s ) = √ 1<br />

⌊ns⌋<br />

∑<br />

n<br />

i=1<br />

(<br />

(−1) |D| V n( u w D(p); s )<br />

mit<br />

( )<br />

Xi<br />

( ) )<br />

1 [0,u] . − P (X 1,...,X l ) T [0, u] .<br />

X i+l−1<br />

Ausgehend von dieser Darstellung lässt sich nun die Straffheit von (Z n ) n ɛN zeigen:<br />

Satz 4.8<br />

Sei die Folge X ϕ-mischend mit ∑ ∞<br />

n=1 n√ ϕ(n) < ∞. Dann ist der zentrierte<br />

empirische <strong>Muster</strong>prozess (Z n ) n ɛN straff.<br />

Beweis:<br />

Man betrachtet für alle i ɛ {1, . . . , l} <strong>und</strong> j ɛ {1, . . . , n} die Beobachtungen Y j<br />

i ,<br />

gegeben durch Y j<br />

i<br />

: = X i+j−1 , so dass folgendes Schema aus n l-dimensionalen<br />

Beobachtungsvektoren entsteht:<br />

( ) ( )<br />

X1<br />

Xn<br />

Y 1 = . , . . . , Y n = . .<br />

X l X n+l−1<br />

Sei D ⊂ {1, . . . , l} fest. Im Folgenden werden die Voraussetzungen H 1 bis H 4 aus<br />

Balacheff <strong>und</strong> Dupont [9] nachgeprüft, um Theorem 5 auf die Folge V n anwenden<br />

zu können.


60 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

H 1 : Die Randverteilungen der i-ten Komponente (1 ≤ i ≤ l) jedes Beobachtungsvektors<br />

(Y j<br />

i ) (j ɛ {1,...,n}) = (X i+j−1 ) (j ɛ {1,...,n}) s<strong>in</strong>d stetig nach Voraussetzung.<br />

H 2 : Seien p, q ɛ ∆ <strong>und</strong> s, t ɛ [0, 1] fest. Bezeichnet zur Abkürzung K p,q<br />

i,j : =<br />

Kov ( 1 [0,u w<br />

D (p)](Y i ), 1 [0,u w<br />

D (q)](Y j ) ) , so lässt sich die Folge der Kovarianzen<br />

(C n ) n ɛN schreiben als:<br />

C n (p, s; q, t) := Kov ( V n (u w D(p); s), V n (u w D(q); t) ) = 1 ⌊ns⌋ ⌊nt⌋<br />

∑ ∑<br />

K p,q<br />

i,j<br />

n<br />

.<br />

Da die Folge ( 1 [0,u w<br />

D (p)](X i , . . . , X i+l−1 ) T) i ɛN dieselben Mischungseigenschaften<br />

besitzt, wie die Folge ( I w (i; p) ) i ɛN , existiert analog zum Beweis von Lemma<br />

4.5 e<strong>in</strong>e Grenzfunktion C : (∆×[0, 1]) 2 → R, so dass C n −→ n→∞<br />

C punktweise<br />

konvergiert.<br />

H 3 : (Y j ) (j ɛ {1,...,n}) ist ϕ-mischend bezüglich ϕ ′ (k + l) : = ϕ(k), da (Y k , . . . , Y m )<br />

für<br />

∑<br />

alle 1 ≤ k ≤ m ≤ n e<strong>in</strong>e Funktion von X k , . . . , X m+l−1 ist. Es gilt:<br />

n ɛN n√ ϕ ′ (n) ≤ l + l ∑ √ ∑<br />

n ɛN ϕ(n) +<br />

n ɛN n√ ϕ(n) < ∞. Das entspricht<br />

Voraussetzung H 3 .<br />

ist die Verteilungsfunktion von Y q<br />

i be-<br />

= F Xi+q−1 unabhängig von i ɛ {1, . . . , l},<br />

H 4 : Wegen der Stationarität der X i<br />

ziehungsweise X i+q−1 F : = F Y<br />

q<br />

i<br />

i=1<br />

j=1<br />

q ɛ {1, . . . , n}. Mit den Bezeichnungen aus Balacheff <strong>und</strong> Dupont [9] ergibt<br />

sich daraus für das arithmetische Mittel der Verteilungsfunktionen der i-ten<br />

Komponente:<br />

¯F n,i = 1 n<br />

n∑<br />

F q n,i = 1 n<br />

q=1<br />

n∑<br />

q=1<br />

F Y<br />

q<br />

i<br />

= 1 n<br />

n∑<br />

F Xi+q−1 = F.<br />

Es folgt ¯F<br />

(<br />

n (x1 , . . . , x l ) T) := ( ¯F n,1 (x 1 ), . . . , ¯F n,l (x l )) T = (F (x 1 ), . . . , F (x l )) T<br />

( ) (<br />

<strong>und</strong> ϕ n (x<br />

q<br />

i )q=1,...,n i=1,...,l := ¯Fn (x 1 ), . . . , ¯F n (x n ) ) = ( F (x q i )) q=1,...,n<br />

. Def<strong>in</strong>iert man<br />

i=1,...,l<br />

das stetige Maß µ := P (F (X 1),...,F (X l )) T , so ergibt sich für die j–te Randverteilung<br />

von µ n := P ϕn(Y 1,...,Y n) , j ɛ {1, . . . , n}:<br />

µ j n(B) = P ( ¯Fn (Y j ) ɛ B )<br />

(( ) )<br />

F (Xj )<br />

= P . ɛ B<br />

F (X j+l−1 )<br />

q=1<br />

= µ(B) für alle Blöcke B ⊂ [0, 1] l .<br />

Insbesondere ist µ Majorante für jede Randverteilung µ j n, womit Voraussetzung<br />

H 4 erfüllt ist.<br />

Mit Balacheff <strong>und</strong> Dupont [9, Theorem 5] folgt die Straffheit von (V n ) n ɛN. Wegen<br />

der Stetigkeit von u w D : ∆ → [0, 1]l ergibt sich, dass auch (Z n ) n ɛN straff ist. ✷


4.4. Fehlerabschätzungen 61<br />

4.4 Fehlerabschätzungen<br />

In Anwendungen, <strong>in</strong> denen die Wahrsche<strong>in</strong>lichkeiten der e<strong>in</strong>zelnen Zeichen aus<br />

Beobachtungen geschätzt werden, kann die <strong>in</strong> Abschnitt 4.3 gezeigte Stetigkeit<br />

des Grenzprozesses Z dazu verwendet werden, aus e<strong>in</strong>er Konvergenz der Wahrsche<strong>in</strong>lichkeiten<br />

auf die Konvergenz des Prozesses zu schließen. Oft s<strong>in</strong>d <strong>in</strong> diesem<br />

Zusammenhang Fehlerabschätzungen von Interesse. Daher werden <strong>in</strong> diesem<br />

Abschnitt explizite Abschätzungen für den Fall unabhängiger (X i ) i ɛN <strong>und</strong> ohne<br />

Zeitparameter gezeigt. Des Weiteren seien die X i auf [0, 1] gleichverteilt, was<br />

ke<strong>in</strong>e E<strong>in</strong>schränkung ist, wie <strong>in</strong> der E<strong>in</strong>leitung zu Abschnitt 4.1 beschrieben.<br />

Betrachtet wird also <strong>in</strong> diesem Abschnitt:<br />

Z n (p) := 1 √ n<br />

n∑ ( )<br />

Iw (i; p) − πp<br />

w für alle p ɛ ∆.<br />

i=1<br />

Daher ist die folgende Abschätzung der Variation von Z n zwischen zwei Punkten<br />

e<strong>in</strong>e direkte Verallgeme<strong>in</strong>erung von Aki [1] beziehungsweise von Bill<strong>in</strong>gsley [17,<br />

Abschnitt 22] auf mehrere Veränderliche.<br />

Sei zur Abkürzung P := × ξ k=2 P(L k).<br />

Die nächste Proposition zeigt die Zerlegung der auftretenden Terme bezüglich der<br />

(L k ) k ɛ A , die das technische F<strong>und</strong>ament für handliche Formeln zur Berechnung<br />

von Momenten ist.<br />

Proposition 4.9<br />

Gilt 0 = p 0 ≤ p 1 ≤ · · · ≤ p ξ−1 ≤ 1, so ergibt sich für das Ereignis I w (i; p), dass<br />

das Wort w ab Position i <strong>in</strong> ˜X(p) vorkommt:<br />

I w (i; p) =<br />

I w (i; p) − π w p =<br />

∑<br />

(D 2 ,...,D ξ ) ɛ P<br />

∑<br />

(D 2 ,...,D ξ ) ɛ P<br />

(−1)<br />

(−1)<br />

ξP<br />

j=2<br />

|D j |<br />

Π(i; D2 , . . . , D ξ ; p),<br />

ξP<br />

|D j |(<br />

j=2<br />

Π(i; D 2 , . . . , D ξ ; p) − λ D 2,...,D ξ<br />

p<br />

wobei die Komplementbildung von D k bezüglich L k zu verstehen ist, das heißt<br />

Dk c = L k \ D k . Des Weiteren seien Π : {1, . . . , n} × P × ∆ → {0, 1} <strong>und</strong> λ D p ɛ R<br />

def<strong>in</strong>iert als:<br />

( )<br />

)<br />

ξ−1<br />

∏ ∏<br />

ξ−1<br />

∏<br />

Π(i; D; p) :=<br />

=<br />

(1 [0,pk ] |Dc k ∪D |(X k+1 Dk c ∪D ) ,<br />

k+1<br />

mit D 1 = ∅.<br />

k=1<br />

j ɛ D c k ∪D k+1<br />

1 {Xi+j−1 ≤p k }<br />

ξ−1<br />

λ D p := E Π(i; D ∏<br />

2, . . . , D ξ ; p) =<br />

k=1<br />

k=1<br />

p |Dc k ∪D k+1|<br />

k<br />

)<br />

,


62 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

Der Nutzen dieser Darstellung liegt dar<strong>in</strong>, dass die Faktoren <strong>in</strong> Π stochastisch<br />

unabhängig <strong>und</strong> nach Schwellen p 1 , . . . , p ξ−1 geordnet s<strong>in</strong>d.<br />

Beweis:<br />

Wegen ∏ (y j −x j ) = ∑ ∏<br />

(−1) |D| y j · ∏ x j für alle endlichen Indexmengen<br />

j ɛ M<br />

D ɛ P(M) j ɛ D c j ɛ D<br />

M <strong>und</strong> x k , y k ɛ R, k ɛ M ergibt sich mit p ξ = 1 aus der Def<strong>in</strong>ition von L k :<br />

I w (i; p) = ∏ ∏ ( )<br />

1{Xi+j−1 ≤p k } − 1 {Xi+j−1} ≤p k−1<br />

k ɛ A j ɛ L k<br />

= ∏ ∑ ∏<br />

(−1) |D k|<br />

1 {Xi+j−1 ≤p k } · ∏<br />

1 {Xi+j−1 ≤p k−1 }<br />

k ɛ A D k ɛ P(L k )<br />

j ɛ Dk<br />

c j ɛ D k<br />

} {{ }<br />

=:Z(p,k,D k )<br />

= ∑ ∑<br />

· · ·<br />

Z(p, k, D k )<br />

D 1 ɛ P(L 1 )<br />

= ∑<br />

D 2 ɛ P(L 2 )<br />

.<br />

D ξ ɛ P(L ξ )<br />

(−1)<br />

D ξ ɛ P(L ξ )(−1) |D 1|+···+|D ξ | ∏ k ɛ A<br />

ξP<br />

k=2<br />

|D k |( ∏<br />

j ɛ L 1 ∪D 2<br />

1 {Xi+j−1 ≤p 1 }<br />

·<br />

∏<br />

1 {Xi+j−1 ≤p 2 } · · ·<br />

∏<br />

1 {Xi+j−1 ≤p ξ−1 }<br />

)<br />

,<br />

j ɛ D c 2 ∪D 3<br />

j ɛ D c ξ−1 ∪D ξ<br />

wobei die letzte Gleichung aus Z(p, 1, D 1 ) = 0 für alle D 1 ≠ ∅ <strong>und</strong><br />

Z(p, k, D k )Z(p, k+1, D k+1 )<br />

= ∏<br />

∏<br />

j ɛ D k<br />

1 {Xi+j−1 ≤p k−1 }<br />

j ɛ D c k ∪D k+1<br />

1 {Xi+j−1 ≤p k }<br />

∏<br />

j ɛ D c k+1<br />

1 {Xi+j−1 ≤p k }<br />

folgt. Damit ergibt sich die erste Gleichung von Proposition 4.9. Die zweite folgt<br />

analog mit der Unabhängigkeit der (X i ), da die D k ⊂ L k für k = 1, . . . , ξ disjunkt<br />

s<strong>in</strong>d.<br />

✷<br />

Seien p, q ɛ ∆ so dass p ≤ q komponentenweise. Es bezeichne ‖ · ‖ die Maximumsnorm<br />

auf ∆, das heißt ‖q − p‖ := max 1≤k≤ξ−1 |q k − p k |.<br />

Proposition 4.10<br />

Sei D ɛ P. Dann lässt sich die Varianz der Variation von Π folgendermaßen<br />

abschätzen:<br />

Var ( Π(1; D; q) − Π(1; D; p) ) ≤ (2 l − 1)‖q − p‖.


4.4. Fehlerabschätzungen 63<br />

Beweis:<br />

Aus p ≤ q ergibt sich Π(1; D; p)Π(1; D; q) = Π(1; D; p) <strong>und</strong> somit:<br />

Var ( Π(1; D; q) − Π(1; D; p) )<br />

= E ( Π(1; D; q) − Π(1; D; p) ) 2<br />

−<br />

[<br />

E<br />

(<br />

Π(1; D; q) − Π(1; D; p)<br />

)] 2<br />

= E ( Π(1; D; q) 2) − E ( Π(1; D; p) 2) − [ λ D q − λ D p<br />

= λ D q − λ D p − (λ D q − λ D p ) 2 .<br />

Da λ D p monoton wachsend <strong>in</strong> p ist, folgt mit b := ‖q − p‖ <strong>und</strong> d k := |Dk c ∪ D k+1|<br />

wegen b ≤ 1 <strong>und</strong> ∑ ξ−1<br />

k=1 d k ≤ l:<br />

] 2<br />

Var ( Π(1; D; q) − Π(1; D; p) ) ≤ λ D p+b − λ D p<br />

(<br />

ξ−1<br />

∏ ∑ dk<br />

=<br />

=<br />

k=1<br />

∑<br />

m=1<br />

m 1 ,...,m ξ−1<br />

0≤m k ≤d k<br />

m 1 +...+m ξ−1 ≠0<br />

≤ (2 l − 1)b.<br />

(<br />

dk<br />

)<br />

m<br />

( ∏ξ−1<br />

k=1<br />

b m p d k−m<br />

k<br />

(<br />

dk<br />

)<br />

ξ−1<br />

∏<br />

−<br />

k=1<br />

) )<br />

p d k−m k<br />

k<br />

m k<br />

p d k<br />

k<br />

b P ξ−1<br />

k=1 m k<br />

✷<br />

Bemerkung:<br />

Im letzten Beweisschritt wird offensichtlich, dass man mit dieser Methode die<br />

Abschätzung<br />

Var ( Π(1; D; q) − Π(1; D; p) ) ≤ l‖q − p‖ + (2 l − l)‖q − p‖ 2<br />

zeigen kann. Da sich mit dieser Ungleichung jedoch nur die Konstante, nicht aber<br />

die Ordnung von ‖q − p‖ ändert, soll an dieser Stelle darauf verzichtet werden,<br />

um die weiteren Beweise nicht unübersichtlicher zu machen.<br />

Lemma 4.11<br />

Mit C 1 := 2 2 P ξ<br />

k=2 |L k| (2 l − 1) lässt sich die Varianz der Differenz des Vorkommens<br />

von w <strong>in</strong> ˜X(p) <strong>und</strong> ˜X(q) abschätzen:<br />

Var ( I w (1; q) − I w (1; p) ) ≤ C 1 ‖q − p‖.<br />

Beweis:<br />

Nach Proposition 4.9, der Cauchy–Schwarzschen Ungleichung für Summen reeller


64 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

Zahlen <strong>und</strong> Proposition 4.10 gilt:<br />

Var ( I w (1; q) − I w (1; p) )<br />

( ∑<br />

= E (−1)<br />

≤<br />

ξ∏<br />

D ɛ P<br />

k=2<br />

2 |L k| ∑ D ɛ P<br />

ξP<br />

j=2<br />

|D j |(<br />

Π(1; D; q) − λ<br />

D<br />

q − Π(1; D; p) + λ D p<br />

E ( Π(1; D; q) − λ D q<br />

≤ 2 2 P ξ<br />

k=2 |L k| (2 l − 1)‖q − p‖.<br />

Nach Def<strong>in</strong>ition von C 1 ist das die Behauptung.<br />

− Π(1; D; p) + λ D p<br />

) 2<br />

) ) 2<br />

✷<br />

Damit lässt sich nun die Differenz zweier Funktionswerte durch den Abstand der<br />

betrachteten Punkte abschätzen. Dabei wird zunächst noch vorausgesetzt, dass<br />

der Abstand der Punkte nicht zu kle<strong>in</strong> wird. Auf diese Bed<strong>in</strong>gung wird später <strong>in</strong><br />

Satz 4.14 e<strong>in</strong>gegangen.<br />

Lemma 4.12<br />

Seien n ɛ N <strong>und</strong> q, p ɛ ∆ so, dass ‖q − p‖ ≥ 1 . Dann gilt:<br />

n<br />

E ( Z n (q) − Z n (p) ) 4<br />

≤ C(l)(C1 + 1)C 1 ‖q − p‖ 2 ,<br />

wobei C : N → N def<strong>in</strong>iert ist als C(l) := 8 l 2 (l + 1) 2 (2l + 1) 2 <strong>und</strong> somit nur von<br />

der Wortlänge l abhängt. Insbesondere gilt für γ > 0:<br />

P (∣ ∣ Zn (q) − Z n (p) ∣ ∣ ≥ γ<br />

)<br />

≤<br />

C(l)(C 1 + 1)C 1<br />

γ 4 ‖q − p‖ 2 .<br />

Beweis:<br />

Die Folge ξ i := I w (i; q) − πq w − I w (i; p) + πp w ist (l-1)-abhängig, <strong>in</strong>sbesondere ϕ-<br />

mischend, mit ∑ ∞<br />

k=0 (k + 1)2 ϕ(k) 1 2 ≤ ∑ l<br />

k=1 k2 = 1 l(l + 1)(2l + 1). Mit Bill<strong>in</strong>gsley<br />

6<br />

[17, Lemma 22.1] <strong>und</strong> Lemma 4.11 ergibt sich:<br />

E ( Z n (q) − Z n (p) ) ( )<br />

4 1 ( n∑ ) 4<br />

=<br />

n E ξ 2 i<br />

i=1<br />

( (<br />

≤ 288 E(ξ<br />

2<br />

1 ) ) 2 1<br />

) ( ∑ ∞<br />

+<br />

n E(ξ2 1) (k + 1) 2 ϕ(k) 1 2<br />

k=0<br />

≤ 8 l 2 (l + 1) 2 (2l + 1) 2 (<br />

C 2 1‖q − p‖ 2 + C 1<br />

n ‖q − p‖ )<br />

≤ 8 l 2 (l + 1) 2 (2l + 1) 2 (C 1 + 1)C 1 ‖q − p‖ 2 ,<br />

) 2<br />

wobei die letzte Ungleichung aus der Voraussetzung 1 n<br />

≤ ‖q − p‖ folgt. ✷


4.4. Fehlerabschätzungen 65<br />

Im folgenden Lemma wird die Variation auf e<strong>in</strong>em Würfel abgeschätzt.<br />

Lemma 4.13<br />

Seien q ɛ ∆, γ > 0 <strong>und</strong> b ɛ R, n ɛ N so, dass B : = [q, q + b] ⊂ [0, 1] ξ−1 . Ist<br />

b ɛ [ 1<br />

, γ<br />

n<br />

)<br />

√<br />

2C 1 n , so gilt:<br />

(<br />

P<br />

sup<br />

p ɛ B<br />

∣ Zn (p) − Z n (q) ∣ ) ≥ γ ≤ C 2<br />

γ 4 b2<br />

mit C 2 := 128 · 2 4 P ξ<br />

k=2 |L k| l 2 (l + 1) 2 (2l + 1) 2 2 l (2 l − 1).<br />

Beweis:<br />

Zunächst wird die Variation zweier beliebiger Punkte <strong>in</strong> e<strong>in</strong>em Würfel durch die<br />

Variation der Endpunkte abgeschätzt. Man erhält mit Proposition 4.9 für alle<br />

p ɛ B:<br />

|Z n (p) − Z n (q)| = √ 1 ∣ ∣∣<br />

n∑ ( ) ∣<br />

Iw (i, p) − π w<br />

n<br />

p − I w (i, q) − πq<br />

w ∣<br />

Da Π(i; D; p) <strong>und</strong> λ D p<br />

die Summanden:<br />

i=1<br />

≤ √ 1 ∑<br />

∣ n<br />

D ɛ P<br />

n∑ ( ) ∣<br />

Π(i; D; p) − λ<br />

D<br />

p − Π(i; D; q) + λ D q ∣.<br />

i=1<br />

n∑<br />

∑<br />

• Π(i; D; p) ≤ n Π(i; D; q + b).<br />

i=1<br />

• − n ∑<br />

λ D p<br />

i=1<br />

<strong>in</strong> p monoton wachsend s<strong>in</strong>d, folgt aus q ≤ p ≤ q + b für<br />

i=1<br />

∑<br />

≤ n ( ∑<br />

λ<br />

D<br />

q+b − λ D q − λq+b) D ≤ n (2 l − 1)b − n λ D q+b ,<br />

i=1<br />

wie im Beweis zu Proposition 4.10.<br />

∑<br />

• − n ( )<br />

Π(i; D; p) − λ<br />

D<br />

p − Π(i; D; q) + λ D q<br />

i=1<br />

∑<br />

≤ n ( ) n∑ ( )<br />

Π(i; D; q) − Π(i; D; p) + λ<br />

D<br />

q+b − λ D q<br />

i=1<br />

≤ n (2 l − 1)b.<br />

Mit V i := Π(i; D; q + b) − λ D q+b − Π(i; D; q) + λD q ergibt sich daraus:<br />

( )<br />

sup |Z n (p) − Z n (q)| ≤ 1 ∑ ∣∣∣ n∑ ∣ ∣∣<br />

√ V i + n(2 l − 1)b<br />

p ɛ B<br />

n<br />

D ɛ P i=1<br />

= √ 1 ∑<br />

n∑ ∣ ∣∣ √ P ξ<br />

∣ V i + n 2 k=2 |Lk| (2 l − 1)b.<br />

n<br />

D ɛ P<br />

i=1<br />

i=1<br />

i=1


66 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

Da die Folge (V i ) i ɛN (l-1)-abhängig <strong>und</strong> somit auch ϕ-mischend ist, erhält man<br />

analog zum Beweis von Lemma 4.12 mit Lemma 22.1 aus Bill<strong>in</strong>gsley [17] <strong>und</strong><br />

Proposition 4.10:<br />

E<br />

( ∣∣∣ n∑<br />

i=1<br />

)<br />

∣ ∣∣<br />

4<br />

V i ≤ 8 l 2 (l + 1) 2 (2l + 1) [ 2 n 2( E(V1 2 ) ) 2<br />

+ n E(V<br />

2<br />

1 ) ]<br />

≤ C(l) [ n 2 (2 l − 1) 2 b 2 + n(2 l − 1) b ]<br />

≤ C(l) n 2 2 l (2 l − 1) b 2 ,<br />

wobei die letzte<br />

√<br />

Ungleichung aus der Voraussetzung 1 ≤ b folgt. Mit der Voraussetzung<br />

C 1 n b <<br />

n<br />

γ<br />

ergibt sich:<br />

2<br />

(<br />

P sup ∣ Zn (p) − Z n (q) ∣ )<br />

≥ γ<br />

p ɛ B<br />

( ( ) )<br />

1 ∑ ∣∣∣ n∑ ∣ ∣∣<br />

≤ P √ V i ≥ γ n 2<br />

D ɛ P i=1<br />

( )<br />

≤ 24 |P| 4 ∣∣∣ n∑ ∣ ∣∣<br />

γ 4 n E 4<br />

V 2<br />

i<br />

i=1<br />

≤ 16 · 24 P ξ<br />

k=2 |L k| C(l) 2 l (2 l − 1)<br />

γ 4 b 2 .<br />

(<br />

+ P<br />

C 1<br />

√ n b ≥<br />

γ<br />

2<br />

)<br />

Nach Def<strong>in</strong>ition von C 2 ist das die Behauptung.<br />

✷<br />

Damit lässt sich die Variation von Z n auf e<strong>in</strong>em beliebigen Würfel durch die<br />

Kantenlänge des Würfels abschätzen.<br />

Satz 4.14<br />

Seien q ɛ ∆ <strong>und</strong> ε, c > 0 so, dass [q, q + c] ⊂ [0, 1] ξ−1 . Ferner sei n ɛ N h<strong>in</strong>reichend<br />

groß, so dass der Schnitt ( 4c<br />

C 1 ε√ n, cn<br />

)<br />

∩ N nicht leer ist. Dann gilt:<br />

P<br />

(<br />

sup<br />

p ɛ [q,q+c]<br />

mit C 3 := 16 ( C 2 + C(l)(C 1 + 1)C 1<br />

)<br />

.<br />

∣ Zn (p) − Z n (q) ∣ ∣ ≥ ε<br />

)<br />

≤ C 3<br />

ε 4 ⌈<br />

4 √ ⌉ ξ−1<br />

nc<br />

c 2<br />

C 1 ε<br />

Diese obere Schranke ist zwar für Konvergenzaussagen unbrauchbar, da sie<br />

bezüglich n von der Größenordnung n ξ−1<br />

2 ist, sie ist jedoch für Fehlerabschätzungen<br />

von Vorteil, da sie bezüglich der Kantenlänge von der Ordnung c ξ+1 ist.


4.4. Fehlerabschätzungen 67<br />

Beweis:<br />

Mit m : = ⌈ 4√ nc<br />

⌉ ɛ C 1 ε N <strong>und</strong> b : = c ɛ [ 1<br />

, C 1ε<br />

m n 4 n) √ folgt aus Lemma 4.13 <strong>und</strong> Lemma<br />

4.12:<br />

(<br />

)<br />

∣<br />

P sup ∣Z n (p) − Z n (q) ∣ ≥ ε<br />

≤<br />

p ɛ [q,q+mb]<br />

[ (<br />

∑<br />

P<br />

r ɛ {0,...,m−1} ξ−1<br />

+ P<br />

sup<br />

p ɛ [q+br,q+b(r+1)]<br />

∣<br />

∣<br />

∣Z n (p) − Z n (q + br)<br />

( ∣∣Zn<br />

(q + br) − Z n (q) ∣ ε<br />

) ]<br />

≥<br />

2<br />

≤ m ξ−1 [<br />

2 4 C 2<br />

ε 4 b 2 + 24 C(l)(C 1 + 1)C 1<br />

ε 4 (<br />

(m − 1)b<br />

) 2<br />

]<br />

≤ 16( )<br />

C 2 + C(l)(C 1 + 1)C 1<br />

m ξ−1 (mb) 2 .<br />

ε 4<br />

Mit der Def<strong>in</strong>ition von b, c <strong>und</strong> C 3 folgt die Behauptung.<br />

∣ ≥ ε 2<br />

)<br />

✷<br />

Bemerkung:<br />

Im Vorangegangenen wurde die Variation von Z n auf e<strong>in</strong>em Würfel durch die<br />

Kantenlänge des Würfels abgeschätzt. Durch analoge Vorgehensweise lässt sich<br />

auch der Zuwachs von Z n auf e<strong>in</strong>em Quader R : = (p, q] ⊂ [0, 1] ξ−1 , wie etwa<br />

von Bickel <strong>und</strong> Wichura <strong>in</strong> [16] def<strong>in</strong>iert, durch das Lebesgue-Maß des Würfels<br />

abschätzen:<br />

1) Für den Quader R ⊂ [0, 1] ξ−1 mit den Eckpunkten {(p k +ε k (q k −p k )) k=1,...,ξ−1 |<br />

ε 1 , . . . , ε ξ−1 ɛ {0, 1}} <strong>und</strong> e<strong>in</strong>e Funktion g : [0, 1] ξ−1 → R ist der Zuwachs von<br />

g über dem Quader R def<strong>in</strong>iert als:<br />

g(R) :=<br />

1∑<br />

ε 1 ,...,ε ξ−1 =0<br />

(−1) ξ−P ξ−1<br />

i=1 ε i<br />

g ( p 1 +ε 1 (q 1 −p 1 ), . . . , p ξ−1 +ε ξ−1 (q ξ−1 −p ξ−1 ) ) .<br />

2) Durch Anwendung des Distributivgesetzes folgt für die <strong>in</strong> Proposition 4.9 def<strong>in</strong>ierte<br />

Funktion Π:<br />

(<br />

ξ−1<br />

∏ ∏<br />

Π(i; D 2 , . . . , D ξ ; R) =<br />

1 {Xi+j−1 ≤q k } − ∏<br />

)<br />

.<br />

k=1<br />

j ɛ D c k ∪D k+1<br />

j ɛ D c k ∪D k+1<br />

1 {Xi+j−1 ≤p k }<br />

3) Mit der Ungleichung von Cauchy–Schwarz ergibt sich analog zu Lemma 4.11:<br />

Var ( I w (1; R) ) ≤ C ′ 1λ \ (R),<br />

wobei C ′ 1 := 2P ξ<br />

k=2 |L k| max k ɛ {1,...,ξ−1}<br />

∣<br />

∣Lk+1 ∪ L k<br />

∣ ∣.


68 Kapitel 4. Der empirische <strong>Muster</strong>prozess<br />

4) Diese Abschätzung lässt sich auf Z n übertragen, wobei wie <strong>in</strong> Lemma 4.12<br />

gefordert wird, dass das Volumen des Quaders nicht zu kle<strong>in</strong> ist: Sei n ɛ N <strong>und</strong><br />

der Quader R ⊂ ∆ so groß, dass λ \ (R) ≥ 1 ist. Dann gilt:<br />

n<br />

E ( Z n (R) 4) ≤ C ′ 2λ \ (R) 2 ,<br />

mit C ′ 2 := C(l) C′ 1(C ′ 1 + 1) <strong>und</strong> C(l) := 8 l 2 (l + 1) 2 (2l + 1) 2 wie <strong>in</strong> Lemma 4.12.<br />

Somit lassen sich die <strong>in</strong> diesem Abschnitt für Z n (p) − Z n (q) gezeigten Ergebnisse<br />

auf Z n (Q) übertragen. Da die Argumentation hier analog obiger Abschätzungen<br />

erfolgt, wird an dieser Stelle auf e<strong>in</strong>e genauere Ausführung verzichtet.


69<br />

Kapitel 5<br />

Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“<br />

Modell<br />

Gegenstand dieses Kapitels ist e<strong>in</strong> funktionaler Zentraler Grenzwertsatz für die<br />

Häufigkeit des Auftretens mehrerer <strong>Muster</strong> <strong>in</strong> e<strong>in</strong>em zufälligen Text. Unter allgeme<strong>in</strong>en<br />

Voraussetzungen wird die Konvergenz des im Folgenden def<strong>in</strong>ierten<br />

mehrdimensionalen <strong>Muster</strong>prozesses Z n gegen e<strong>in</strong>e Brownsche Bewegung gezeigt.<br />

Seit Erdös <strong>und</strong> Rényi 1970 im Artikel [41] sogenannte Long Head Runs“, das<br />

”<br />

heißt das Auftreten von außergewöhnlich vielen aufe<strong>in</strong>ander folgenden 1“en <strong>in</strong> ”<br />

e<strong>in</strong>er Folge von unabhängigen Bernoulli-verteilten Zufallsvariablen, untersucht<br />

haben, wurde die <strong>Muster</strong>suche <strong>in</strong> zwei Richtungen verallgeme<strong>in</strong>ert:<br />

Zum e<strong>in</strong>en werden allgeme<strong>in</strong>ere <strong>Muster</strong> als Head Runs“ betrachtet, von sogenannten<br />

Hidden Patterns“ <strong>in</strong> Flajolet, Guivarc’h, Szpankowski <strong>und</strong> Vallée [42],<br />

”<br />

”<br />

wo das gesuchte <strong>Muster</strong> nicht an aufe<strong>in</strong>ander folgenden Positionen vorkommen<br />

muss, bis h<strong>in</strong> zu Regulären Ausdrücken“, wie sie <strong>in</strong> der theoretischen Informatik<br />

”<br />

zur Beschreibung formaler Sprachen verwendet werden (vergleiche Schön<strong>in</strong>g [82,<br />

Abschnitt 1.2.3]), die beispielsweise von Nicodème, Salvy <strong>und</strong> Flajolet <strong>in</strong> [62] als<br />

” Motif“ oder von Regnier <strong>in</strong> [71] als Language“ bezeichnet werden.<br />

”<br />

Zum anderen werden komplexe Abhängigkeitsstrukturen im zeichenerzeugenden<br />

Modell behandelt. Hierbei handelt es sich unter anderem um Markov-Ketten <strong>in</strong><br />

Régnier <strong>und</strong> Szpankowski [73], Rob<strong>in</strong> <strong>und</strong> Daud<strong>in</strong> [77], Kleffe <strong>und</strong> Borodovsky<br />

[55] oder Stefanov [88], um Hidden Markov“ Modelle oder um Dynamische<br />

” ”<br />

Quellen“. Für Literatur zu den letzten beiden Modellen sei auf Abschnitt 5.3 verwiesen,<br />

da diese dort ausführlicher behandelt <strong>und</strong> <strong>in</strong> e<strong>in</strong>en geme<strong>in</strong>samen Kontext<br />

e<strong>in</strong>geordnet werden.<br />

Hier soll die zeichenerzeugende Quelle weiter verallgeme<strong>in</strong>ert werden. In e<strong>in</strong>er<br />

von e<strong>in</strong>em verborgenen“ stochastischen Prozess erzeugten Zeichenkette sollen<br />

”<br />

<strong>Muster</strong> gesucht werden. Da dieser als ϕ- beziehungsweise ψ-mischende Folge vorausgesetzt<br />

wird, soll das Modell hier als Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell bezeich-<br />


70 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

net werden. Der nicht sichtbare Prozess erzeugt die Beobachtungen mittels e<strong>in</strong>es<br />

Übergangskerns. Dieser Übergang zur sichtbaren Zeichenkette wird als ”<br />

Emission“<br />

bezeichnet.<br />

5.1 Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen<br />

Sei X := (X i ) i ɛN e<strong>in</strong>e ϕ- oder ψ-mischende, nicht notwendig stationäre Folge von<br />

Zufallsvariablen mit Zustandsraum X , wobei X e<strong>in</strong> separabler metrischer Raum,<br />

versehen mit der Borelschen σ-Algebra B, sei.<br />

Die emittierten Beobachtungen Y := (Y i ) i ɛN s<strong>in</strong>d e<strong>in</strong>e Folge von Zufallsvariablen<br />

mit Werten im endlichen Alphabet A = {1, . . . , ξ}, so dass Y i für alle i ɛ N nur<br />

von X i <strong>und</strong> der Randomisierung abhängt. Formal bedeutet diese Bed<strong>in</strong>gung, die<br />

<strong>in</strong> der Def<strong>in</strong>ition des Hidden Markov Modells zentral ist:<br />

a) Die Y i gegeben (X i ) i ɛN s<strong>in</strong>d bed<strong>in</strong>gt unabhängig, das heißt, dass für alle endlichen<br />

Indexmengen K ⊂ N, k : = max K, alle x ɛ X k <strong>und</strong> alle messbaren<br />

Mengen (A i ) i ɛ K ⊂ A |K| gilt:<br />

( )<br />

⋂<br />

∣<br />

P {Y i ɛ A i } ∣(X i ) i ɛ {1,...,k} = x = ∏ P ( {Y i ɛ A i } ∣ ∣(X i ) i ɛ {1,...,k} = x ) .<br />

i ɛ M<br />

i ɛ K<br />

b) Für alle i, j ɛ N, i ≠ j ist Y i gegeben X i unabhängig von X j , das bedeutet für<br />

alle messbaren Mengen A ⊂ A, B, C ɛ B gilt:<br />

P (Y i ɛ A|X i ɛ B, X j ɛ C) = P (Y i ɛ A|X i ɛ B).<br />

Weiterh<strong>in</strong> sei die bed<strong>in</strong>gte Verteilung von Y i gegeben X i stationär, so dass die<br />

Emissionswahrsche<strong>in</strong>lichkeiten<br />

λ a,u := P (Y i = a|X i = u), für alle a ɛ A, u ɛ X ,<br />

unabhängig von i ɛ N s<strong>in</strong>d. Statt des durch Λ : X × P(A) → R + , Λ(u, A) : =<br />

∑<br />

a ɛ A λ a,u def<strong>in</strong>ierten Übergangskerns von (X , B) nach (A, P(A)) wird <strong>in</strong> der<br />

Def<strong>in</strong>ition des Hidden Markov Modells <strong>in</strong> der Literatur manchmal e<strong>in</strong>e determ<strong>in</strong>istische<br />

Abbildung verwendet. Auf diese zum Beispiel von Cover <strong>und</strong> Thomas<br />

<strong>in</strong> [28, Abschnitt 4.4] <strong>und</strong> von Szpankowski <strong>in</strong> [90, Abschnitt 2.1] angegebene Variante<br />

wird hier jedoch nicht weiter e<strong>in</strong>gegangen, da sich beide Varianten durch<br />

entsprechende Wahl des Zustandsraumes beziehungsweise des Übergangskerns<br />

<strong>in</strong>e<strong>in</strong>ander überführen lassen.


5.1. Voraussetzungen <strong>und</strong> Def<strong>in</strong>itionen 71<br />

Bemerkungen:<br />

a) Mit der Glättungsregel ergibt sich aus der bed<strong>in</strong>gten Unabhängigkeit für die<br />

Wahrsche<strong>in</strong>lichkeit, dass v ɛ A k ab Position i <strong>in</strong> Y vorkommt:<br />

E(I v (i)) = P (Y i . . . , Y i+k−1 = v)<br />

∫<br />

= P (Y i · · · Y i+k−1 =v|X i · · · X i+k−1 =u) dP (X i,...,X i+k−1 ) (u)<br />

X k<br />

∫<br />

=<br />

X k<br />

k∏<br />

r=1<br />

λ vr,u r<br />

dP (X i···X i+k−1 ) (u).<br />

b) Für die Wahrsche<strong>in</strong>lichkeit, dass v ɛ A k ab Position i <strong>und</strong> w ɛ A l ohne Überlappung,<br />

das heißt ab Position j ≥ i + k oder j ≤ i − l <strong>in</strong> Y vorkommt, gilt<br />

analog:<br />

E ( I v (i)I w (j) ) = P (Y i . . . , Y i+k−1 = v, Y j . . . , Y j+l−1 = w)<br />

∫ k∏ l∏<br />

=<br />

dP (X i...X i+k−1 ,X j ...X j+l−1 ) (t, u).<br />

X k ×X l<br />

r=1<br />

λ vr,t r<br />

r=1<br />

λ wr,u r<br />

In folgendem Lemma wird gezeigt, dass sich die Mischungseigenschaften von X<br />

im Wesentlichen auf Y übertragen. Dies ist e<strong>in</strong> elementarer Vorteil gegenüber<br />

dem Hidden Markov Modell, bei dem die emittierte Zeichenfolge im Allgeme<strong>in</strong>en<br />

ke<strong>in</strong>e Markov-Kette ist.<br />

Lemma 5.1<br />

Sei X ϕ- beziehungsweise ψ-mischend <strong>und</strong> Y die emittierte Zeichenfolge, wie<br />

oben def<strong>in</strong>iert. Dann ist auch Y ϕ- beziehungsweise ψ-mischend bezüglich der<br />

Funktion ˜ϕ = m<strong>in</strong>{1, 2ϕ} beziehungsweise ˜ψ = m<strong>in</strong>{1, 2ψ}.<br />

Beweis:<br />

Um die Mischungseigenschaft nachzuweisen, reicht es aus, beliebige endliche Indexmengen<br />

zu betrachten. Seien also i, s, K ɛ N mit K > i+s gegeben. Bezeichne<br />

zur Abkürzung I : = {1, . . . , i}, J : = {i + s, . . . , K} <strong>und</strong> M : = I ∪ J. Ist X ϕ- )<br />

mischend, so erhält man mittels algebraischer Induktion für alle f ɛ L+( 1 P<br />

X I<br />

( ) ,<br />

g ɛ L ∞ + P<br />

X J :<br />

∫<br />

∣ fg d ( )∣ ∫<br />

P X M<br />

− P X I<br />

⊗ P X J ∣∣ ≤ 2ϕ(s) ‖g‖L ∞ ∣ f dP X I∣<br />

∣. (5.1.1)<br />

Diese Folgerung aus der Hölderschen Ungleichung f<strong>in</strong>det man beispielsweise <strong>in</strong><br />

Philipp [66, Lemma 1] <strong>und</strong> <strong>in</strong> der Bemerkung zu Lemma 20.1 <strong>in</strong> Bill<strong>in</strong>gsley [17].<br />

Aus der bed<strong>in</strong>gten Unabhängigkeit folgt außerdem<br />

P (Y I ɛ E 1 , Y J ɛ E 2 |X M =x M ) = P (Y I ɛ E 1 |X I = x I )P (Y J ɛ E 2 |X J = x J )


72 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

für alle E I ɛ A |I| , E J ɛ A |J| <strong>und</strong> somit<br />

∣<br />

∣P (Y I ɛ E 1 , Y J ɛ E 2 ) − P (Y I ɛ E 1 )P (Y J ɛ E 2 ) ∣ ∫<br />

=<br />

P (Y I ɛ E 1 , Y J ɛ E 2 |X M =x M ) dP (X I,X J ) (x I , x J )<br />

∣<br />

X |M| ∫<br />

∫<br />

− P (Y I ɛ E 1 |X I =x I ) dP X I<br />

(x I ) P (Y J ɛ E 2 |X J =x J ) dP X J (x J )<br />

∣<br />

X |I| X |J| ∫<br />

=<br />

P (Y<br />

∣<br />

I ɛ E 1 |X I =x I )P (Y J ɛ E 2 |X J =x J ) d ( ) P (X I,X J ) − P X I<br />

⊗ P X J<br />

(xI , x J )<br />

∣<br />

X |M|<br />

∫<br />

≤ 2ϕ(s) P (Y I ɛ E 1 |X I =x I ) dP X I<br />

(x I )<br />

X |I|<br />

= 2ϕ(s)P (Y I ɛ E 1 ).<br />

Ist X ψ-mischend, so folgt ) analog zu ( Gleichung ) (5.1.1) mit Lemma 3 aus Philipp<br />

[66] für alle f ɛ L+( 2 P<br />

X I , g ɛ L<br />

2<br />

+ P<br />

X J :<br />

∫<br />

∣ fg d ( )∣ ∣ ∫ ∫<br />

P X M<br />

− P X I<br />

⊗ P X J ∣∣ ∣∣ ≤ 2ψ(s) f dP X I<br />

g dP X J<br />

∣<br />

<strong>und</strong> damit:<br />

∣ P (YI ɛ E 1 , Y J ɛ E 2 ) − P (Y I ɛ E 1 )P (Y J ɛ E 2 ) ∣ ∫<br />

∫<br />

≤ 2ψ(s) P (Y I ɛ E 1 |X I =x I ) dP X I<br />

(x I )<br />

X |I|<br />

= 2ψ(s)P (Y I ɛ E 1 )P (Y J ɛ E 2 ).<br />

X |J| P (Y J ɛ E 2 |X J =x J ) dP X J<br />

(x J )<br />

Das ergibt die Behauptung.<br />

✷<br />

Bemerkung:<br />

Mit dem soeben gezeigten spielt es ke<strong>in</strong>e Rolle, ob die Mischungsgeschw<strong>in</strong>digkeit<br />

der verborgenen oder die der emittierten Folge untersucht wird. Im Allgeme<strong>in</strong>en<br />

besteht jedoch e<strong>in</strong> erheblicher Unterschied ob die Verteilung von X oder die<br />

Verteilung von Y betrachtet wird.<br />

Der Versuch, die Verteilung der Beobachtungen oder e<strong>in</strong>e davon abhängige Größe<br />

zu schätzen, kann zu e<strong>in</strong>er unzureichenden Schätzung führen, wenn e<strong>in</strong>e verborgene<br />

Information die Verteilung der Emissionen bestimmt, da e<strong>in</strong>e nicht beobachtete<br />

Veränderung <strong>in</strong> der Folge X zu e<strong>in</strong>er deutlich anderen Verteilung von Y führen<br />

kann. Würde nun lediglich die Verteilung der Beobachtungen P Y betrachtet, so


5.2. Der allgeme<strong>in</strong>e Fall 73<br />

würden eventuell wichtige Informationen nicht berücksichtigt. Dies wird <strong>in</strong>sbesondere<br />

<strong>in</strong> Abschnitt 5.3.1 deutlich, <strong>in</strong> dem mit dem Hidden Markov Modell e<strong>in</strong><br />

<strong>in</strong> der Praxis verwendetes Modell zur Zeichenerzeugung näher betrachtet wird.<br />

5.2 Der allgeme<strong>in</strong>e Fall<br />

In diesem Abschnitt wird e<strong>in</strong> funktionaler Zentraler Grenzwertsatz für die Häufigkeit<br />

des Auftretens mehrerer <strong>Muster</strong> im Hidden ϕ-/ψ-Mix<strong>in</strong>g Modell bewiesen.<br />

Ferner soll auch aufgezeigt werden, wie auf die <strong>in</strong> der Literatur oft verwendete<br />

Voraussetzung, dass der verborgene Prozess X stationär ist, verzichtet werden<br />

kann. Sei X im Folgenden also ϕ- beziehungsweise ψ-mischend aber nicht notwendig<br />

stationär.<br />

Sei m ɛ N. Gesucht werden m <strong>Muster</strong> w = (w 1 , . . . , w m ) T über dem Alphabet<br />

A, wobei das Wort w i = w 1 · · · w li die Länge l i ɛ N habe. Sei N n =<br />

(Nn, 1 . . . , Nn m ) T analog Abschnitt 3.1 mit Nn k : = ∑ n<br />

( )<br />

j=1 Iwk (j) − π w k , Iwk (j) : =<br />

1 {Yj···Y j+lk −1=w 1···w lk } def<strong>in</strong>iert.<br />

Die folgende Proposition liefert das technische F<strong>und</strong>ament für die Abschätzung<br />

der auftretenden Kovarianzen <strong>und</strong> die Konvergenz der Kovarianzfolge:<br />

Proposition 5.2<br />

Seien i, s, k, l, n ɛ N so, dass i + k + s ≤ n, sowie v ɛ A k <strong>und</strong> w ɛ A l gegeben. Ist X<br />

ϕ-mischend mit ∑ ∞<br />

i=1<br />

ϕ(i) < ∞, so konvergiert die folgende Summe absolut, das<br />

heißt, es existiert C v,w ɛ R, so dass gilt:<br />

1 ∑n−k<br />

n<br />

i=1<br />

n−k−i<br />

∑<br />

s=0<br />

Kov ( I v (i), I w (i + k + s) ) −→ n→∞<br />

C v,w .<br />

Beweis:<br />

Mit Lemma 5.1 erhält man für die Kovarianz:<br />

∣ Kov<br />

(<br />

Iv (i), I w (i+k+s) )∣ ∣ =<br />

∣ ∣P (Yi · · · Y i+k−1 =v, Y i+k+s · · · Y i+k+s+l−1 =w)<br />

− P (Y i · · · Y i+k−1 =v)P (Y i+k+s · · · Y i+k+s+l−1 =w) ∣ ∣<br />

Summation liefert:<br />

1 ∑n−k<br />

n<br />

i=1<br />

n−k−i<br />

∑<br />

s=0<br />

≤ ϕ(s)P (Y i · · · Y i+k−1 =v)<br />

≤ ϕ(s).<br />

∣ Kov ( I v (i), I w (i + k + s) )∣ ∣ =<br />

≤<br />

n−k−1<br />

∑<br />

s=0<br />

n∑<br />

ϕ(s).<br />

s=0<br />

n − k − s<br />

ϕ(s)<br />

n


74 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

Die letzte Summe konvergiert nach Voraussetzung, somit folgt die Behauptung.<br />

✷<br />

Mithilfe dieser Proposition lassen sich nun die Kovarianzen untersuchen:<br />

Lemma 5.3<br />

S<strong>in</strong>d obige Voraussetzungen erfüllt <strong>und</strong> es konvergiert ∑ ∞<br />

i=1<br />

ϕ(i) < ∞, so konvergiert<br />

für Wörter v ɛ A k <strong>und</strong> w ɛ A l die Kovarianz, das heißt es existiert σ v,w ɛ R,<br />

so dass:<br />

1<br />

n Kov(N v n, N w n ) −→ n→∞<br />

σ v,w .<br />

Beweis:<br />

Für n ɛ N lässt sich die Kovarianz wie folgt zerlegen:<br />

[<br />

1<br />

n Kov(N n, v Nn w ) = 1 n∑ ∑i−l<br />

Kov(I v (i), I w (j)) +<br />

n<br />

i=1 j=1<br />

n∑<br />

+<br />

j=i+k<br />

i+k−1<br />

∑<br />

j=i−l+1<br />

Kov(I v (i), I w (j))<br />

Kov(I v (i), I w (j))<br />

Aus Proposition 5.2 folgt für den letzten Summanden aus Gleichung (5.2.2):<br />

1<br />

n<br />

n∑<br />

n∑<br />

i=1 j=i+k<br />

Kov ( I v (i), I w (j) ) = 1 n<br />

∑n−k<br />

i=1<br />

−→ n→∞<br />

C v,w .<br />

n−i−k<br />

∑<br />

s=0<br />

]<br />

Kov ( I v (i), I w (i + k + s) )<br />

.<br />

(5.2.2)<br />

Analog konvergiert aus Symmetriegründen auch der erste Summand <strong>in</strong> Gleichung<br />

(5.2.2) absolut:<br />

1<br />

n<br />

n∑ ∑i−l<br />

Kov(I v (i), I w (j)) = 1 n<br />

i=1<br />

j=1<br />

∑n−l<br />

j=1<br />

−→ n→∞<br />

C w,v .<br />

n−l−j<br />

∑<br />

s=0<br />

Kov ( I v (j + l + s), I w (j) )<br />

Die <strong>in</strong>nere Summe des zweiten Summanden ist jedoch endlich, so dass man für<br />

diesen<br />

1<br />

n∑<br />

i+k−1<br />

∑<br />

∣ Kov(Iv (i), I w (j)) ∣ 1<br />

n∑<br />

≤ (k + l − 1)<br />

n<br />

n<br />

i=1 j=i−l+1<br />

i=1<br />

= k + l − 1<br />

erhält <strong>und</strong> damit <strong>in</strong>sbesondere absolute Konvergenz. Somit ist die Konvergenz<br />

der auftretenden Reihen gesichert, durch Summation über diese folgt mit Gleichung<br />

(5.2.2) die Behauptung.<br />


5.2. Der allgeme<strong>in</strong>e Fall 75<br />

Satz 5.4<br />

Die verborgene Folge erfülle e<strong>in</strong>e der beiden Voraussetzungen:<br />

a) X ist ψ-mischend mit ∑ i ɛN ψ(i) 1 3 < ∞ oder<br />

b) X ist ϕ-mischend mit ∑ i ɛN ϕ(i) 1 5 < ∞.<br />

Seien weiterh<strong>in</strong> die Wörter w 1 , . . . , w m ɛ A ∗ , m ɛ N so, dass die Matrix Σ : =<br />

(σ wp,wq ) p,q=1,...,m mit σ v,w wie <strong>in</strong> Lemma 5.3 positiv def<strong>in</strong>it ist, <strong>und</strong><br />

⎛<br />

⎞<br />

Z n (t) := √ 1<br />

⌊nt⌋ I<br />

∑ w1 (i) − π w 1<br />

⎜<br />

⎟<br />

⎝ n<br />

. ⎠ für t ɛ [0, 1] <strong>und</strong> n ɛ N.<br />

i=1 I wm (i) − π wm<br />

Dann konvergiert Z n <strong>in</strong> Verteilung gegen e<strong>in</strong>e m-dimensionale Brownsche Bewegung<br />

mit Kovarianzmatrix Σ.<br />

Beweis:<br />

Da nach Voraussetzung <strong>in</strong>sbesondere ∑ ∞<br />

i=1 ψ(i) beziehungsweise ∑ ∞<br />

i=1<br />

ϕ(i) konvergieren,<br />

s<strong>in</strong>d die Voraussetzungen von Proposition 5.2 <strong>und</strong> Lemma 5.3 erfüllt.<br />

Somit lässt sich der Beweis <strong>in</strong> drei Schritte gliedern:<br />

1) Zunächst wird die Konvergenz e<strong>in</strong>es geeignet konstruierten e<strong>in</strong>dimensionalen<br />

Prozesses gezeigt:<br />

Sei α ɛ R m , mit ‖α‖ = √ 1<br />

m<br />

, wobei ‖·‖ hier die Euklidische Norm bezeichnet. Zuerst<br />

wird gezeigt, dass die Voraussetzungen von Philipp <strong>und</strong> Webb [67, Satz 2]<br />

im ψ-mischenden Fall beziehungsweise von [67, Satz 3] im ϕ-mischenden Fall<br />

für ξ i := α T( I w1 (i) − E I w1 (i), . . . , I wm (i) − E I wm (i) ) T<br />

erfüllt s<strong>in</strong>d:<br />

(i) Für s 2 n := E( ∑ n<br />

i=1 ξ 2<br />

i)<br />

gilt nach Lemma 5.3:<br />

m∑<br />

(<br />

s 2 n = α p α q E Iwp (i) − E I wp (i) ))( n∑ (<br />

Iwq (j) − E I wq (j) ))<br />

= n<br />

p,q=1<br />

m∑<br />

p,q=1<br />

−→ n→∞<br />

∞,<br />

( n∑<br />

i=1<br />

1<br />

α p α q<br />

n Kov( )<br />

Nn, p Nn<br />

q<br />

(<br />

da Σ = lim 1<br />

n→∞ Kov(N p n n, Nn) ) q positiv def<strong>in</strong>it ist.<br />

p,q=1,...,m<br />

(ii) Wegen |I wk (i) − E I wk (i)| ≤ 1 für alle k ɛ {1, . . . , m}, i ɛ N folgt mit der<br />

Hölderschen Ungleichung:<br />

E ( [ (<br />

) m<br />

) 2 (<br />

∑ ∑ m<br />

(<br />

ξi<br />

4 ≤ E αk<br />

2 Iwk (i) − E I wk (i) ) ) 2<br />

2<br />

≤ 1.<br />

k=1<br />

} {{ }<br />

=‖α‖ 4<br />

k=1<br />

j=1<br />

} {{ }<br />

≤m 2 ]


76 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

Somit ist die L 4 -Norm von ξ i durch 1 beschränkt.<br />

(iii) Seien M, H ɛ N. Dann ist wie <strong>in</strong> Teil (i):<br />

E<br />

( M+H ∑<br />

i=M+1<br />

ξ i<br />

) 2<br />

= H<br />

m∑<br />

p,q=1<br />

α p α q<br />

1<br />

H<br />

M+H<br />

∑<br />

i,j=M+1<br />

Kov ( I wp (i), I wq (j) ) .<br />

Ersetzt man <strong>in</strong> Gleichung (5.2.2) die Summation über 1 bis n durch<br />

Summation von M + 1 bis M + H, so folgt:<br />

C M,H<br />

p,q<br />

:= 1 H<br />

M+H<br />

∑<br />

i,j=M+1<br />

Kov ( I wp (i), I wq (j) ) −→<br />

H→∞<br />

σ wp,w q<br />

,<br />

so dass für h<strong>in</strong>reichend große H ɛ N auch Σ M,H := ( )<br />

Cp,q<br />

M,H positiv<br />

def<strong>in</strong>it ist. Damit ergibt sich aus Teil<br />

p,q=1,...,m<br />

(ii):<br />

M+H ∑<br />

i=M+1<br />

( M+H<br />

(<br />

E<br />

(<br />

E ( ) ) 1<br />

ξi<br />

4 4<br />

∑<br />

i=M+1<br />

ξ i<br />

) 2 ) 9<br />

4<br />

≤<br />

=<br />

(H m ∑<br />

p,q=1<br />

1<br />

H<br />

α p α q C M,H<br />

p,q<br />

H 5 4<br />

(<br />

αT Σ M,H α ) 9 4<br />

−→ 0,<br />

H→∞<br />

) 9<br />

4<br />

<strong>und</strong> somit:<br />

M+H<br />

∑<br />

i=M+1<br />

(<br />

E ( ) ) )<br />

1<br />

ξi<br />

4 4<br />

[ ( M+H<br />

∑ ) 2 ] 9<br />

4<br />

ɛ O(<br />

E ξ i<br />

i=M+1<br />

(H −→ ∞).<br />

(iv) Ebenso erhält man mit Teil (i) <strong>und</strong> (ii)<br />

M+H<br />

∑<br />

i=M+1<br />

M+H<br />

∑<br />

i=M+1<br />

E ( (<br />

) [ ( M+H<br />

∑<br />

ξi 4 ɛ O E<br />

i=M+1<br />

E ∣ (<br />

∣ [ ( M+H<br />

∑<br />

ξi ɛ O E<br />

i=M+1<br />

ξ i<br />

) 2 ] 3<br />

)<br />

)<br />

) 2 ] 3<br />

2<br />

ξ i<br />

(H −→ ∞) <strong>und</strong><br />

(H −→ ∞).<br />

Aus Satz 2 beziehungsweise Satz 3 <strong>in</strong> Philipp <strong>und</strong> Webb [67] folgt die Konvergenz<br />

Z n<br />

′ D<br />

−→ B <strong>in</strong> D[0, 1], wobei Z n<br />

′ folgendermaßen def<strong>in</strong>iert ist: Für<br />

n ɛ N, i ɛ {0, . . . , n} sei t n i : = ( s 2 i<br />

∧ 1 ) . Die zugehörige strikt geordnete Folge<br />

s 2 n


5.2. Der allgeme<strong>in</strong>e Fall 77<br />

(t n (i) ) i ɛ {0,...,n ′ } erhält man durch Sortieren <strong>und</strong> Streichen von doppelten E<strong>in</strong>trägen:<br />

0 = t n (0) < tn (1) < . . . < tn (n ′ ) = 1, mit n′ ≤ n. Die stückweise konstante<br />

Funktion Z ′ n ist damit gegeben durch:<br />

Z ′ n(0) := 0 <strong>und</strong> Z ′ n(t) := 1 s n<br />

i∑<br />

ξ j , falls t ɛ ( t n (i−1), t(i)] n .<br />

j=1<br />

2) Als Nächstes wird die Konvergenz von Zn α für beliebige α ɛ R m gezeigt, wobei<br />

⎛<br />

⎞<br />

Zn α (t) := √ 1<br />

⌊nt⌋ I<br />

∑ w1 (i) − π w 1<br />

α T ⎜<br />

⎟<br />

⎝<br />

nσ<br />

. ⎠ , σ 2 := α T Σα.<br />

i=1 I wm (i) − π wm<br />

Sei t ɛ (0, 1] <strong>und</strong> i n so, dass t ɛ ( ]<br />

t n i n−1, t n i n für alle n ɛ N. Dann gilt nach Lemma<br />

5.3:<br />

m∑<br />

1<br />

α p α q i n<br />

Kov ( )<br />

N p i n<br />

, N q i n<br />

s 2<br />

lim<br />

n→∞ tn i<br />

i n<br />

= lim n<br />

n→∞ s 2 n<br />

= lim<br />

n→∞<br />

i n<br />

n<br />

lim<br />

n→∞<br />

p,q=1<br />

m∑<br />

p,q=1<br />

1<br />

α p α q Kov( ) = lim<br />

N p n n, Nn<br />

q n→∞<br />

<strong>und</strong> ebenso lim n→∞ t n i<br />

i n−1 = lim n−1<br />

n→∞ . Somit folgt n<br />

tn i n<br />

−→ n→∞<br />

t, <strong>und</strong> analog zum<br />

Beweis von Theorem 4 <strong>in</strong> Philipp <strong>und</strong> Webb [67] erhält man für α wie <strong>in</strong> Teil 1<br />

mit Satz 4.1 aus Bill<strong>in</strong>gsley [17]:<br />

Zn α = √ 1<br />

⌊n·⌋<br />

∑<br />

nσ<br />

j=1<br />

ξ j<br />

D<br />

−→ B <strong>in</strong> D[0, 1], mit σ 2 := α T Σα.<br />

Für beliebige α ɛ R m \ {0} folgt die Behauptung mit α ′ : =<br />

α √ m‖α‖<br />

Skalierungs<strong>in</strong>varianz von Zn α (t) <strong>in</strong> α: Für alle C > 0 gilt Zn<br />

Cα (t) = Zn α (t).<br />

i n<br />

n<br />

aus der<br />

3) Mit Teil 2 folgt aus Satz 7.7 <strong>in</strong> Bill<strong>in</strong>gsley [17] unmittelbar die Konvergenz der<br />

mehrdimensionalen Randverteilungen. Zu zeigen bleibt die Straffheit. Sei also<br />

ε > 0 gegeben. Ist e i ɛ R m für i ɛ {1, . . . , m} der i-te E<strong>in</strong>heitsvektor, das heißt<br />

e i := (1 {i} (j)) j=1,...,m , so existiert wegen der Straffheit von Z e i<br />

n<br />

Teilmenge D i ⊂ D[0, 1], so dass P (Z e i<br />

n ɛ D i ) ≥ 1 − ε m<br />

die kompakte Menge D := × i ɛ {1,...,m} D i :<br />

P ( Z n ɛ D ) ( m<br />

)<br />

⋃<br />

= 1 − P {Z e i<br />

n ɛ (D i ) c } ≥ 1 −<br />

i=1<br />

m∑<br />

i=1<br />

e<strong>in</strong>e kompakte<br />

. Daraus ergibt sich für<br />

P ( Z e i<br />

n ɛ (D i ) c) ≥ 1 − ε.<br />

Das entspricht der Straffheit von Z n .<br />


78 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

Nicht zuletzt, weil Statistiken auf der Gr<strong>und</strong>lage von auffällig häufigen oder seltenen<br />

Vorkommen von <strong>Muster</strong>n <strong>in</strong> Sequenzen vielfach verwendet werden, erweitert<br />

obiger Satz zum e<strong>in</strong>en die Anwendungsmöglichkeiten, <strong>in</strong>dem er die Anwendung<br />

auf weitere Modelle ermöglicht. Zum anderen wird die Möglichkeit gegeben, ähnliche<br />

Probleme <strong>in</strong> diesen allgeme<strong>in</strong>eren Zusammenhang e<strong>in</strong>zubetten.<br />

5.3 Anwendungen<br />

Nachdem im obigen Abschnitt e<strong>in</strong> sehr allgeme<strong>in</strong>es Modell zur Erzeugung der<br />

durchsuchten Zeichenkette e<strong>in</strong>geführt wurde, sollen die Ergebnisse <strong>in</strong> diesem Abschnitt<br />

auf zwei spezielle Modelle angewendet <strong>und</strong> die Resultate verfe<strong>in</strong>ert werden.<br />

5.3.1 Das ”<br />

Hidden Markov“ Modell<br />

In diesem Abschnitt wird das sogenannte ”<br />

Hidden Markov“ Modell, das nach<br />

Wissen des Autors zum ersten Mal 1966 von Baum <strong>und</strong> Petrie <strong>in</strong> [14] untersucht<br />

wurde, als Spezialfall betrachtet, <strong>und</strong> mit obigen Methoden explizit Grenzwerte<br />

für die Kovarianz angegeben. Auf die Stationarität wird weiterh<strong>in</strong> verzichtet, um<br />

die größtmögliche Allgeme<strong>in</strong>heit zu erhalten.<br />

Das Hidden Markov Modell f<strong>in</strong>det zum Beispiel <strong>in</strong> der Analyse von Gensequenzen<br />

Anwendung. Ist etwa bei e<strong>in</strong>em vorliegenden Teil e<strong>in</strong>er DNS unbekannt, ob es<br />

sich dabei um Intergen, Exon oder Intron handelt, so lässt sich dieser verborgene<br />

Zustand zunächst ebenso wenig ablesen wie e<strong>in</strong> Wechsel dieses Zustands. Des<br />

Weiteren ist der sogenannte Leserahmen entscheidend, da <strong>in</strong> e<strong>in</strong>em Gen immer<br />

drei aufe<strong>in</strong>ander folgende Nukle<strong>in</strong>säurebauste<strong>in</strong>e zu e<strong>in</strong>em Am<strong>in</strong>osäurebauste<strong>in</strong><br />

transkribiert werden, so dass es durch Verschieben des Leserahmens drei verschiedene<br />

Möglichkeiten zur Transkription gibt. Für e<strong>in</strong>e ausführliche E<strong>in</strong>leitung<br />

<strong>in</strong> die biologischen Gr<strong>und</strong>lagen sei auf Abschnitt 1.3 bis 1.5 <strong>in</strong> Waterman [94],<br />

verwiesen.<br />

E<strong>in</strong> für die mathematische Modellierung der Nukle<strong>in</strong>säurekette gebräuchlicher<br />

Ansatz ist es, die Beobachtungen als Emission e<strong>in</strong>er verborgenen Markov-Kette<br />

aufzufassen, die als Zustandsraum das kartesische Produkt aus dem beobachteten<br />

Säurebauste<strong>in</strong> <strong>und</strong> dem verborgenen Zustand besitzt. Im obigen Beispiel wäre das<br />

etwa {T,G,A,C}×{Intergen,Intron1,Intron2,Intron3,Exon1,Exon2,Exon3}, andere<br />

Zustandsräume werden jedoch ebenfalls verwendet. Die Emission ist <strong>in</strong> diesem<br />

Fall gerade die Projektion auf die erste Komponente. Durch diesen determ<strong>in</strong>istischen<br />

Übergang von der verborgenen zur sichtbaren Zeichenkette vere<strong>in</strong>facht sich<br />

die Anwendung des Modells erheblich, da ke<strong>in</strong>e Emissionswahrsche<strong>in</strong>lichkeiten zu<br />

schätzen s<strong>in</strong>d.<br />

In der Literatur werden verschiedene Modelle verwendet, deren Parameter <strong>in</strong> der


5.3. Anwendungen 79<br />

Regel gerade die Übergangswahrsche<strong>in</strong>lichkeiten der verborgenen Markov-Kette<br />

s<strong>in</strong>d. Die Literatur zu Hidden Markov Modellen <strong>und</strong> der Schätzung der Parameter<br />

ist sehr umfangreich, siehe etwa Genon-Catalot et al. [46], [45] oder [44],<br />

Rab<strong>in</strong>er [70], Dorea <strong>und</strong> Zhao [38], Maxwell <strong>und</strong> Woodroofe [60] oder Ryden [79],<br />

um nur e<strong>in</strong>ige Beispiele zu nennen.<br />

Für die Anwendung <strong>in</strong> der genetischen Sequenzanalyse gibt es zumeist Software,<br />

die die Übergangswahrsche<strong>in</strong>lichkeiten schätzt, wie etwa R’HOM“, siehe Nicolas<br />

”<br />

<strong>und</strong> Muri-Majoube [63] oder EuGène“, siehe Schiex et al. [81], beziehungsweise<br />

”<br />

EuGène’Hom“, siehe Foissac et al. [43].<br />

”<br />

Die so gewonnene Information über die verborgene Markov-Kette X lässt sich<br />

nun verwenden, um die Wahrsche<strong>in</strong>lichkeit des Auftretens vorgegebener <strong>Muster</strong><br />

genauer zu schätzen. E<strong>in</strong>e Schätzung, die lediglich die beobachtete Zeichenfolge<br />

Y berücksichtigt, ist immer dann unzureichend, wenn sich die Übergangswahrsche<strong>in</strong>lichkeiten<br />

<strong>in</strong> der emittierten Kette durch e<strong>in</strong>e nicht sichtbare Änderung <strong>in</strong><br />

der verborgenen Kette ändert.<br />

Sei also (X i ) i ɛN e<strong>in</strong>e irreduzible aperiodische <strong>und</strong> homogene Markov-Kette mit<br />

endlichem Zustandsraum X = {1, . . . , ρ}, Übergangsmatrix Γ = (γ i,j ) i,j=1,...,ρ<br />

<strong>und</strong> Startverteilung (γ X i ) i ɛ X . Somit existiert die stationäre Verteilung π =<br />

(π 1 , . . . , π ρ ) T , derart dass Γ · π = π, vergleiche etwa Behrends [15] oder Bremaud<br />

[21].<br />

Wie üblich sei die s-Schritt-Übergangswahrsche<strong>in</strong>lichkeit γ (s)<br />

i,j<br />

def<strong>in</strong>iert durch γ (0)<br />

i,j := 1 {i}(j) <strong>und</strong>:<br />

(<br />

γ (s+1)<br />

i,j<br />

)<br />

i,j=1,...,ρ<br />

:= Γ s+1 :=<br />

( ρ∑<br />

q=1<br />

γ (s)<br />

i,q γ q,j<br />

)<br />

i,j=1,...,ρ<br />

für s ɛ N 0 <strong>in</strong>duktiv<br />

.<br />

Bemerkungen:<br />

1) In der Literatur wird <strong>in</strong> der Regel vorausgesetzt, dass die Markov-Kette stationär<br />

ist. Hier wird statt dessen die exponentiell schnelle Konvergenz der s-<br />

Schritt-Übergangswahrsche<strong>in</strong>lichkeit gegen die stationäre Verteilung verwendet:<br />

Es existieren Konstanten C 0 > 0 <strong>und</strong> δ < 1, so dass für alle i, j ɛ X <strong>und</strong><br />

s ɛ N gilt:<br />

|γ (s)<br />

i,j − π j| ≤ C 0 τ s .<br />

Diese Eigenschaft f<strong>in</strong>det man <strong>in</strong> der Standardliteratur zu Markov-Ketten, wie<br />

zum Beispiel <strong>in</strong> Doob [37, Abschnitt V.2], Behrends [15, Kapitel 10] oder<br />

Bremaud [21, Kapitel 4]. Meist f<strong>in</strong>det man dort auch explizite Schranken für<br />

C 0 <strong>und</strong> τ, die von den E<strong>in</strong>trägen oder den Eigenwerten der Übergangsmatrix<br />

abhängen.


80 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

2) Da somit jede irreduzible aperiodische <strong>und</strong> homogene Markov-Kette mit endlichem<br />

Zustandsraum ψ-mischend mit e<strong>in</strong>er Exponentialfunktion ψ(n) = C 0 τ n ,<br />

n ɛ N ist, lassen sich die Ergebnisse des vorangegangenen Abschnitts unmittelbar<br />

auf Hidden Markov Modelle übertragen. Zur kanonischen E<strong>in</strong>bettung<br />

e<strong>in</strong>er Markov-Kette mit endlichem Zustandsraum <strong>in</strong> e<strong>in</strong>en Markovprozess mit<br />

nicht diskretem Zustandsraum, vergleiche etwa Abschnitt 5.5, Example 1 <strong>in</strong><br />

Doob [37].<br />

Weiterh<strong>in</strong> sei im Folgenden Y die emittierte Zeichenfolge <strong>und</strong> erfülle die Voraussetzungen<br />

der bed<strong>in</strong>gten Unabhängigkeit, vergleiche Seite 70.<br />

Um die Konvergenz von N n zu untersuchen, wird zunächst Proposition 5.2 verfe<strong>in</strong>ert<br />

<strong>und</strong> die Wahrsche<strong>in</strong>lichkeit des Auftretens e<strong>in</strong>zelner Wörter genauer betrachtet:<br />

Proposition 5.5<br />

Seien i, s, k, l, n ɛ N mit i + k + s ≤ n, sowie v ɛ A k <strong>und</strong> w ɛ A l . Dann konvergiert:<br />

a) die Wahrsche<strong>in</strong>lichkeit, dass v ab Position i <strong>in</strong> Y vorkommt:<br />

E ( I v (i) ) −→<br />

i→∞<br />

π v ,<br />

b) die Wahrsche<strong>in</strong>lichkeit, dass v ab Position i <strong>und</strong> w ab Position i + k + s <strong>in</strong> Y<br />

vorkommt:<br />

E ( I v (i)I w (i + k + s) ) −→<br />

i→∞<br />

πs+1.<br />

v,w<br />

Die Grenzwerte s<strong>in</strong>d dabei durch die stationären Wahrsche<strong>in</strong>lichkeiten“ gegeben:<br />

”<br />

π v :=<br />

∑<br />

k∏<br />

π u1 λ v1 ,u 1<br />

γ ui−1 ,u i<br />

λ vi ,u i<br />

<strong>und</strong><br />

Beweis:<br />

u 1 ,...,u l ɛ X<br />

π v,w<br />

s<br />

:= ∑<br />

t 1 ,...,t k ɛ X<br />

u 1 ,...,u l ɛ X<br />

π t1 λ v1 ,t 1<br />

i=2<br />

k∏<br />

γ tq−1 ,t q<br />

λ vq,tq<br />

q=2<br />

γ (s)<br />

t k ,u 1<br />

λ w1 ,u 1<br />

l∏<br />

γ uq−1 ,u q<br />

λ wq,uq .<br />

a) Aus der Bemerkung zur Def<strong>in</strong>ition der bed<strong>in</strong>gten Unabhängigkeit auf Seite 71,<br />

ergibt sich für alle j ɛ N:<br />

E(I v (j)) =<br />

∑<br />

u 1 ,...,u l ɛ X<br />

( l∏<br />

i=1<br />

= ∑<br />

( l∏<br />

u 1 ,...,u l ɛ X i=1<br />

= ∑ ( ∑<br />

u 1 ,...,u l ɛ X<br />

u 0 ɛ X<br />

q=2<br />

γ vi ,u i<br />

)P (X j · · · X j+l−1 = u 1 · · · u l )<br />

γ vi ,u i<br />

)( ∑<br />

u 0 ɛ X<br />

)<br />

γ X u 0<br />

γ u (j−1)<br />

0 ,u 1<br />

λ v1 ,u 1<br />

γ X u 0<br />

γ (j−1)<br />

u 0 ,u 1<br />

)<br />

l∏<br />

γ ui−1 ,u i<br />

i=2<br />

l∏<br />

λ vi ,u i<br />

γ ui−1 ,u i<br />

.<br />

i=2


5.3. Anwendungen 81<br />

Hiermit überträgt sich die exponentiell schnelle Konvergenz der j-Schritt-<br />

Übergangswahrsche<strong>in</strong>lichkeit gegen die stationäre Verteilung auf E(I v (j)). Das<br />

bedeutet mit C 0 > 0 <strong>und</strong> τ < 1 wie <strong>in</strong> obiger Bemerkung gilt für alle w ɛ A ∗ ,<br />

j ɛ N:<br />

∣ E(Iw (j))−π w∣ ∑<br />

∣ ≤<br />

u 0 ,...,u l ɛ X<br />

γ X u 0<br />

|γ u (j−1)<br />

0 ,u 1<br />

−π u1 |λ w1 ,u 1<br />

l∏<br />

λ wi ,u i<br />

γ ui−1 ,u i<br />

i=2<br />

≤ C 0 τ i−1 −→<br />

i→∞<br />

0.<br />

(5.3.3)<br />

b) Die Behauptung folgt analog. ✷<br />

S<strong>in</strong>d das Overlap Bit β <strong>und</strong> der Wort-Rest R def<strong>in</strong>iert wie <strong>in</strong> Def<strong>in</strong>ition 3.6,<br />

so lassen sich durch die Spezialisierung auf das Hidden Markov Modell im folgenden<br />

Lemma Erwartungswert <strong>und</strong> Kovarianz von N n angeben beziehungsweise<br />

abschätzen:<br />

Lemma 5.6<br />

Seien v ɛ A k <strong>und</strong> w ɛ A l . Dann konvergiert:<br />

a) 1 n E N v n −→ n→∞<br />

π v ,<br />

b) 1 n Kov(N v n, N w n ) −→ n→∞<br />

σ v,w .<br />

Dabei ist π v wie <strong>in</strong> Proposition 5.5 <strong>und</strong> der Grenzwert der Kovarianz<br />

∑k−1<br />

(<br />

σ v,w := βv,w (s)π vRw(l−s) − π v π w) + C v,w<br />

s=0<br />

∑l−1<br />

(<br />

+ βw,v (s)π wRv(k−s) − π v π w) + C w,v ,<br />

s=1<br />

wobei sich C v,w im Gegensatz zu Proposition 5.2 hier explizit angeben <strong>und</strong><br />

abschätzen lässt:<br />

∞∑ (<br />

C v,w := π<br />

v,w<br />

s − π v π w) <strong>und</strong> ∣ ∣ C<br />

v,w C 0 ≤<br />

1 − τ .<br />

Beweis:<br />

s=1<br />

a) Aus Proposition 5.5 a) ergibt sich E ( I v (i) ) −→<br />

i→∞<br />

π v . Nach dem Lemma von<br />

Cesàro folgt daraus auch die Konvergenz des arithmetischen Mittels, das heißt:<br />

1<br />

n E N v n = 1 n<br />

n∑<br />

j=1<br />

E(I v (j)) −→ n→∞<br />

π v .


82 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

b) Die Konvergenz der Reihen ist nach Lemma 5.3 gesichert. Die Behauptung<br />

wird analog dem dort geführten Beweis mit folgender Zerlegung gezeigt:<br />

[<br />

1<br />

n Kov(N n, v Nn w ) = 1 n∑ ∑i−l<br />

∑i−1<br />

Kov(I v (i), I w (j)) + Kov(I v (i), I w (j))<br />

n<br />

i=1 j=1<br />

+<br />

i+k−1<br />

∑<br />

j=i<br />

Kov(I v (i), I w (j)) +<br />

j=i−l+1<br />

n∑<br />

j=i+k<br />

Kov(I v (i), I w (j))<br />

]<br />

.<br />

(5.3.4)<br />

Die Konvergenz des ersten <strong>und</strong> des letzten Summanden folgen aus Proposition<br />

5.5 <strong>und</strong> dem Lemma von Cesàro wie im Beweis zu Lemma 5.3. Die<br />

Abschätzung für C v,w folgt analog Gleichung (5.3.3) aus der geometrischen<br />

Reihe:<br />

∣ ∣ ∣<br />

C<br />

v,w ∣∣<br />

∑ ∞<br />

(<br />

= π<br />

v,w<br />

s − π v π w)∣ ∣ ≤<br />

s=1<br />

∑<br />

π t1 λ v1 ,t 1<br />

t 1 ,...,t k ɛ X<br />

u 1 ,...,u l ɛ X<br />

≤ C 0<br />

1 − τ .<br />

∣<br />

k∏<br />

∣∣∣∣ ∑ ∞<br />

γ tq−1 ,t q<br />

λ vq,tq<br />

q=2<br />

s=1<br />

γ (s)<br />

t k ,u 1<br />

− π u1<br />

∣ ∣∣∣∣<br />

λ w1 ,u 1<br />

l∏<br />

γ uq−1 ,u q<br />

λ wq,uq<br />

Für s ≤ k−1 ist E ( I v (i)I w (i+s) ) = β v,w (s) E ( ) I vRw(l−s)(i) . Daher konvergiert<br />

nach Proposition 5.5 die Kovarianz Kov ( I v (i), I w (i+s) ) −→<br />

i→∞<br />

β v,w (s)π vRw(l−s) −<br />

π v π w . Wie oben folgt mit dem Lemma von Cesàro:<br />

1<br />

n∑<br />

Kov ( I v (i), I w (i + s) ) −→<br />

n<br />

n→∞<br />

β v,w (s)π vRw(l−s) − π v π w .<br />

i=1<br />

Für den dritten Term <strong>in</strong> Gleichung (5.3.4) erhält man demnach:<br />

1<br />

n<br />

n∑<br />

i=1<br />

i+k−1<br />

∑<br />

j=i<br />

Kov ( I v (i), I w (j) ) = 1 n<br />

−→ n→∞<br />

q=2<br />

n∑ ∑k−1<br />

Kov ( I v (i), I w (i + s) )<br />

i=1<br />

s=0<br />

∑k−1<br />

(<br />

βv,w (s)π vRw(l−s) − π v π w) .<br />

Analog konvergiert der zweite Summand <strong>in</strong> Gleichung (5.3.4):<br />

1<br />

n<br />

n∑<br />

∑i−1<br />

i=1 j=i−l+1<br />

Kov ( I v (i), I w (j) ) −→ n→∞<br />

s=0<br />

∑l−1<br />

(<br />

βw,v (s)π wRv(k−s) − π v π w) .<br />

Durch Summation über diese vier Reihen erhält man die Behauptung.<br />

s=1<br />


5.3. Anwendungen 83<br />

Das folgende Korollar fasst die Ergebnisse dieses Abschnitts zusammen. Es ist<br />

als Verfe<strong>in</strong>erung zu Satz 5.4 anzusehen, <strong>in</strong> der die Markov-Eigenschaft des verborgenen<br />

Prozesses ausgenutzt wird.<br />

Korollar 5.7<br />

Sei X e<strong>in</strong>e irreduzible aperiodische <strong>und</strong> homogene Markov-Kette, <strong>und</strong> sei Y die<br />

Folge der emittierten Beobachtungen. S<strong>in</strong>d die Wörter w 1 , . . . , w m ɛ A ∗ so, dass<br />

die Matrix Σ : = (σ wp,w q<br />

) p,q=1,...,m mit σ v,w wie <strong>in</strong> Lemma 5.6 positiv def<strong>in</strong>it ist,<br />

so konvergiert der <strong>in</strong> Satz 5.4 def<strong>in</strong>ierte Prozess Z n <strong>in</strong> Verteilung gegen e<strong>in</strong>e m-<br />

dimensionale Brownsche Bewegung mit Kovarianzmatrix Σ.<br />

Beweis:<br />

Die Behauptung folgt unmittelbar aus Satz 5.4 <strong>und</strong> Lemma 5.6.<br />

✷<br />

5.3.2 Dynamische Quellen<br />

Probabilistische Dynamische Quellen wurden 2001 von Vallée im Artikel [92] e<strong>in</strong>geführt<br />

(Erratum siehe Chazal, Maume-Deschamps <strong>und</strong> Vallée [24]). Dabei wird<br />

e<strong>in</strong> zufälliger Startwert x ɛ (0, 1) gewählt, <strong>und</strong> iterativ e<strong>in</strong>e sogenannte ”<br />

Shift-<br />

Abbildung“ T : (0, 1) → (0, 1) angewandt. Jedes Element der Folge x, T x, T 2 x, . . .<br />

wird mithilfe e<strong>in</strong>er ”<br />

Encod<strong>in</strong>g-Abbildung“ σ : (0, 1) → A auf e<strong>in</strong> Zeichen des<br />

Alphabets abgebildet. Hierdurch entsteht die zu durchsuchende Zeichenkette<br />

σ(x), σ(T x), σ(T 2 x), . . .<br />

In weiteren Artikeln, wie etwa Bourdon <strong>und</strong> Vallée [20], wird das Vorkommen<br />

von sehr allgeme<strong>in</strong>en <strong>Muster</strong>n, die durch E<strong>in</strong>schübe unterbrochen se<strong>in</strong> können, <strong>in</strong><br />

den so erzeugten <strong>Zeichenketten</strong> untersucht. Wie auch <strong>in</strong> Regnier et al. [72], [73]<br />

oder Flajolet et al. [42], wo andere zeichenerzeugende Quellen behandelt werden,<br />

werden die <strong>Muster</strong> durch Reguläre Ausdrücke beschrieben, die <strong>in</strong> entsprechende<br />

Erzeugende Funktionen übersetzt werden.<br />

Hier soll nun aufgezeigt werden, wie sich Dynamische Quellen <strong>in</strong> das Hidden ϕ-<br />

/ψ-Mix<strong>in</strong>g Modell e<strong>in</strong>betten lassen <strong>und</strong> somit für e<strong>in</strong>fache <strong>Muster</strong>vektoren mit<br />

Satz 5.4 e<strong>in</strong> allgeme<strong>in</strong>er Grenzwertsatz zur Verfügung steht.<br />

Die folgende formale Def<strong>in</strong>ition von Dynamischen Quellen f<strong>in</strong>det man zum Beispiel<br />

<strong>in</strong> Abschnitt 3.1 <strong>in</strong> Bourdon <strong>und</strong> Vallée [20]:<br />

Def<strong>in</strong>ition 5.8<br />

E<strong>in</strong>e Dynamische Quelle S wird durch die folgenden vier Elemente def<strong>in</strong>iert:<br />

a) E<strong>in</strong> endliches oder abzählbares Alphabet A<br />

b) E<strong>in</strong>e ”<br />

topologische Partition des E<strong>in</strong>heits<strong>in</strong>tervalls“ <strong>in</strong> Intervalle, das heißt:<br />

Sei I a ⊂ I := (0, 1) für alle a ɛ A e<strong>in</strong> offenes Intervall, so dass I a ∩ I b = ∅ für<br />

alle Zeichen a ≠ b <strong>und</strong> ∪ a ɛ A I a = I.


84 Kapitel 5. Das ”<br />

Hidden ϕ-/ψ-Mix<strong>in</strong>g“ Modell<br />

c) E<strong>in</strong>e ”<br />

Encod<strong>in</strong>g-Abbildung“ σ : I → A, so dass σ| Ia = a für alle a ɛ A konstant<br />

ist.<br />

d) E<strong>in</strong>e ”<br />

Shift-Abbildung“ T : I → I, so dass T | Ia e<strong>in</strong> Diffeomorphismus ist, das<br />

heißt T | Ia ɛ C 1 (I a ; I) <strong>und</strong> (T | Ia ) −1 ɛ C 1 (I; I a ).<br />

In den erwähnten Artikeln zu Dynamischen Quellen werden des Weiteren analytische<br />

Eigenschaften der Shift-Abbildung T vorausgesetzt. In der Regel werden<br />

diese Voraussetzungen unmittelbar zu Teil d) obiger Def<strong>in</strong>ition h<strong>in</strong>zugefügt.<br />

Abweichend davon wird hier die Def<strong>in</strong>ition von ”<br />

expandierend <strong>und</strong> analytisch“<br />

von Bourdon <strong>und</strong> Vallée [20] beziehungsweise die um (d4) erweiterte Fassung<br />

von Chazal, Maume-Deschamps <strong>und</strong> Vallée [24] angegeben:<br />

Def<strong>in</strong>ition 5.9<br />

E<strong>in</strong>e Dynamische Quelle S ist expandierend <strong>und</strong> analytisch, falls für alle a ɛ A die<br />

Shift-Abbildung T | Ia e<strong>in</strong>e reelle analytische Bijektion ist <strong>und</strong> es e<strong>in</strong>e komplexe<br />

Umgebung des E<strong>in</strong>heits<strong>in</strong>tervalls I ⊂ V ⊂ C 2 gibt, so dass für alle h a := (T | Ia ) −1 ,<br />

a ɛ A gilt:<br />

(d1) Es existiert e<strong>in</strong>e holomorphe Fortsetzung von h a auf V , die der E<strong>in</strong>fachheit<br />

wegen wieder mit h a bezeichnet wird <strong>und</strong> für die gilt: h a (V ) ⊂ V .<br />

(d2) Es existiert e<strong>in</strong>e holomorphe Fortsetzung ˜h a von |h ′ a| auf V <strong>und</strong> α a > 0,<br />

δ a < 1, so dass α a < |˜h a (z)| ≤ δ a für alle z ɛ V .<br />

(d3) Die Reihe ∑ a ɛ A δ a konvergiert.<br />

(d4) Es gibt e<strong>in</strong>e Konstante A ɛ (0, ∞), so dass h′′<br />

< A für alle x, y ɛ V .<br />

(y)<br />

a(x)<br />

h ′ a<br />

E<strong>in</strong>e allgeme<strong>in</strong>ere Fassung von Def<strong>in</strong>ition 5.9 für positive Markovsche Dynamischen<br />

Quellen f<strong>in</strong>det man <strong>in</strong> Chazal <strong>und</strong> Maume-Deschamps [23, Def<strong>in</strong>ition 1].<br />

Mithilfe funktionalanalytischer Methoden wird <strong>in</strong> [20, Proposition 1] gezeigt, dass<br />

jede expandierende <strong>und</strong> analytische Dynamische Quelle ergodisch <strong>und</strong> exponentiell<br />

schnell mischend ist. Somit s<strong>in</strong>d die Voraussetzungen von Satz 5.4 erfüllt, so<br />

dass sich folgendes Korollar ergibt:<br />

Korollar 5.10<br />

Sei (A, (I a ) a ɛ A , σ, T ) e<strong>in</strong>e expandierende <strong>und</strong> analytische Dynamische Quelle mit<br />

emittierter Zeichenfolge Y. S<strong>in</strong>d die Wörter w 1 , . . . , w m ɛ A ∗ , m ɛ N so, dass die<br />

Matrix Σ : = (σ wp,w q<br />

) p,q=1,...,m mit σ v,w wie <strong>in</strong> Lemma 5.3 positiv def<strong>in</strong>it ist, so<br />

konvergiert der normierte Häufigkeitsprozess Z n (mit Z n wie <strong>in</strong> Satz 5.4) <strong>in</strong> Verteilung<br />

gegen e<strong>in</strong>e m-dimensionale Brownsche Bewegung mit Kovarianzmatrix<br />

Σ.


Literaturverzeichnis 85<br />

Literaturverzeichnis<br />

[1] Aki, Sigeo: Empirical processes for occurences of a {0, 1}-pattern. Prepr<strong>in</strong>t,<br />

2004. presented at 2nd International Workshop <strong>in</strong> Applied Probability<br />

(IWAP 2004), Athens, Greece.<br />

[2] Aldous, David: Probability Approximations via the Poisson Clump<strong>in</strong>g Heuristic.<br />

Applied Mathematical Sciences, Band 77. Spr<strong>in</strong>ger-Verlag, 1989.<br />

[3] Arratia, Richard; Goldste<strong>in</strong>, Larry <strong>und</strong> Gordon, Louis: Two moments<br />

suffice for Poisson approximations: The Chen–Ste<strong>in</strong> method. The<br />

Annals of Probability, Band 17, Seite 9–25, 1989.<br />

[4] Arratia, Richard; Goldste<strong>in</strong>, Larry <strong>und</strong> Gordon, Louis: Poisson<br />

approximation and the Chen–Ste<strong>in</strong> method. Statistical Science, Band 5, Seite<br />

403–434, 1990.<br />

[5] Arratia, Richard; Gordon, Louis <strong>und</strong> Waterman, Michael S.: The<br />

Erdös–Rényi law <strong>in</strong> distribution, for co<strong>in</strong> toss<strong>in</strong>g and sequence match<strong>in</strong>g. The<br />

Annals of Statistics, Band 18, Seite 539–570, 1990.<br />

[6] Arratia, Richard <strong>und</strong> Waterman, Michael S.: Critical phenomena <strong>in</strong><br />

sequence match<strong>in</strong>g. The Annals of Probability, Band 13, Seite 1236–1249,<br />

1985.<br />

[7] Arratia, Richard <strong>und</strong> Waterman, Michael S.: An Erdös–Rényi law<br />

with shifts. Advances <strong>in</strong> Mathematics, Band 55, Seite 13–23, 1985.<br />

[8] Arratia, Richard <strong>und</strong> Waterman, Michael S.: A phase transition for<br />

the score <strong>in</strong> match<strong>in</strong>g random sequences allow<strong>in</strong>g deletions. The Annals of<br />

Applied Probability, Band 4, Seite 200–225, 1994.<br />

[9] Balacheff, Serge <strong>und</strong> Dupont, Ghisla<strong>in</strong>: Normalité asymptotique des<br />

processus empirique tronqués et des processus de rang (cas multidimensionnel<br />

mélangeant). In: Dold, A. <strong>und</strong> Eckmann, B. (Herausgeber): Statistique<br />

non Paramétrique Asymptotique. Lecture Notes <strong>in</strong> Mathematics, Band 821,<br />

Seite 19–45, 1979.


86 Literaturverzeichnis<br />

[10] Balakrishnan, Narayanaswamy <strong>und</strong> Koutras, Markos V.: Runs<br />

and Scans with Applications. John Wiley & Sons, 2002.<br />

[11] Barbour, Andrew D.: Topics <strong>in</strong> Poisson approximation. http://<br />

www.math.unizh.ch/~adb/.<br />

[12] Barbour, Andrew D.; Holst, Lars <strong>und</strong> Janson, Svante: Poisson<br />

Approximation. Oxford University Press, 1992.<br />

[13] Barbour, Andrew D. <strong>und</strong> Månsson, Marianne: Compo<strong>und</strong> Poisson<br />

Process Approximation. The Annals of Probability, Band 30, Seite 1492–<br />

1537, 2002.<br />

[14] Baum, Leonard E. <strong>und</strong> Petrie, Ted: Statistical <strong>in</strong>ference for probabilistic<br />

functions of f<strong>in</strong>ite state Markov cha<strong>in</strong>s. Annals of Mathematical Statistics,<br />

Band 37, Seite 1554–1563, 1966.<br />

[15] Behrends, Ehrhard: Introduction to Markov Cha<strong>in</strong>s. With Special Emphasis<br />

on Rapid Mix<strong>in</strong>g. Vieweg & Sohn Verlagsgesellschaft, 2000.<br />

[16] Bickel, Peter J. <strong>und</strong> Wichura, Michael J.: Convergence criteria for<br />

multiparameter stochastic processes and some applications. Annals of Mathematical<br />

Statistics, Band 42, Seite 1656–1670, 1971.<br />

[17] Bill<strong>in</strong>gsley, Patrick: Convergence of Probability Measures. John Wiley<br />

& Sons, 1968.<br />

[18] Bishop, M. J. <strong>und</strong> Rawl<strong>in</strong>gs, C. J. (Herausgeber): DNA and Prote<strong>in</strong><br />

Sequence Analysis. Oxford University Press, 1997.<br />

[19] Borovkov, K. A.: A functional form of the Erdös–Rényi law of large numbers.<br />

Theory of Probability and its Applications, Band 35, Seite 762–766,<br />

1990.<br />

[20] Bourdon, Jérémie <strong>und</strong> Vallée, Brigitte: Generalized Pattern Match<strong>in</strong>g<br />

Statistics. In: Chauv<strong>in</strong>, Brigitte et al. (Herausgeber):<br />

Mathematics and Computer Science II. Algorithms, trees, comb<strong>in</strong>atorics<br />

and probabilities. Proceed<strong>in</strong>gs of the 2nd colloquium, Versailles–St.-<br />

Quent<strong>in</strong>, France, September 16–19. Basel, Seite 249–265. Birkhäuser, 2002.<br />

http://users.<strong>in</strong>fo.unicaen.fr/~bourdon/.<br />

[21] Brémaud, Pierre: Markov Cha<strong>in</strong>s. Gibbs Fields, Monte Carlo Simulation,<br />

and Queues. Spr<strong>in</strong>ger-Verlag, 1999.<br />

[22] Bucklew, James A.: Large Deviation Techniques <strong>in</strong> Decision, Simulation,<br />

and Estimation. Wiley & Sons, 1990.


Literaturverzeichnis 87<br />

[23] Chazal, Frédéric <strong>und</strong> Maume-Deschamps, Véronique: Statistical<br />

properties of Markov dynamical sources: applications to <strong>in</strong>formation<br />

theory. Discrete Mathematics & Theoretical Computer<br />

Science, Band 6, Seite 283–314, 2004. http://www.emis.de/<br />

journals/DMTCS/volumes/abstracts/dm060208.abs.html.<br />

[24] Chazal, Frédéric; Maume-Deschamps, Véronique <strong>und</strong> Vallée,<br />

Brigitte: Erratum to: Dynamical sources <strong>in</strong> <strong>in</strong>formation theory: F<strong>und</strong>amental<br />

<strong>in</strong>tervals and word prefixes. Algorithmica, Band 38, Seite 591–596,<br />

2004.<br />

[25] Chen, Ch<strong>in</strong>gfer <strong>und</strong> Karl<strong>in</strong>, Samuel: Poisson approximation for conditional<br />

r-scan lengths of multiple renewal processes and application to marker<br />

arrays <strong>in</strong> biomolecular sequences. Journal of Applied Probability, Band 37,<br />

Seite 865–880, 2000.<br />

[26] Chen, Louis H. Y.: Poisson approximation for dependent trials. The Annals<br />

of Probability, Band 3, Seite 534–545, 1975.<br />

[27] Chvátal, Vacláv <strong>und</strong> Sankoff, David: Longest common subsequences<br />

of two random sequences. Journal of Applied Probability, Band 12, Seite<br />

306–315, 1975.<br />

[28] Cover, Thomas M. <strong>und</strong> Thomas, Joy A.: Elements of Information<br />

Theory. John Wiley & Sons, 1991.<br />

[29] Csiszár, Imre <strong>und</strong> Körner, János: Information Theory. Academic Press,<br />

1981.<br />

[30] Czihak, Gerhard; Langer, Helmut <strong>und</strong> Ziegler, Hubert (Herausgeber):<br />

Biologie. Spr<strong>in</strong>ger-Verlag, Sechste Auflage, 1996.<br />

[31] Daley, D. J. <strong>und</strong> Vere-Jones, D.: An Introduction to the Theory of<br />

Po<strong>in</strong>t Processes. Spr<strong>in</strong>ger Series <strong>in</strong> Statistics. Spr<strong>in</strong>ger-Verlag, 1988.<br />

[32] Dembo, Amir <strong>und</strong> Karl<strong>in</strong>, Samuel: Poisson approximations for r-scan<br />

processes. The Annals of Applied Probability, Band 2, Seite 329–357, 1992.<br />

[33] Dembo, Amir; Karl<strong>in</strong>, Samuel <strong>und</strong> Zeitouni, Ofer: Critical phenomena<br />

for sequence match<strong>in</strong>g with scor<strong>in</strong>g. The Annals of Probability, Band 22,<br />

Seite 1993–2021, 1994.<br />

[34] Dembo, Amir; Karl<strong>in</strong>, Samuel <strong>und</strong> Zeitouni, Ofer: Limit distribution<br />

of maximal non-aligned two-sequence segmental score. The Annals of<br />

Probability, Band 22, Seite 2022–2039, 1994.


88 Literaturverzeichnis<br />

[35] Dembo, Amir <strong>und</strong> Zeitouni, Ofer: Large Deviations Techniques and Applications.<br />

Spr<strong>in</strong>ger-Verlag, 2. Auflage, 1998.<br />

[36] Deuschel, Jean-Dom<strong>in</strong>ique <strong>und</strong> Stroock, Daniel W.: Large Deviations.<br />

Academic Press Inc., 1989. Rev. ed.<br />

[37] Doob, Joseph L.: Stochastic Processes. John Wiley & Sons, Siebte Auflage,<br />

1967.<br />

[38] Dorea, Chang C. Y. <strong>und</strong> Zhao, L<strong>in</strong> Cheng: Nonparametric density<br />

estimation <strong>in</strong> hidden Markov models. Statistical Inference for Stochastic<br />

Processes, Band 5, Seite 55–64, 2002.<br />

[39] Doukhan, Paul: Mix<strong>in</strong>g: Properties and Examples. Lecture Notes <strong>in</strong> Statistics,<br />

Band 85. Spr<strong>in</strong>ger-Verlag, 1994.<br />

[40] Durb<strong>in</strong>, R.; Eddy, S.; Krogh, A. <strong>und</strong> Mitchison, G.: Biological Sequence<br />

Analysis. Cambridge University Press, 1998. Repr<strong>in</strong>ted 2000.<br />

[41] Erdös, Paul <strong>und</strong> Rényi, Alfred: On a new law of large numbers. Journal<br />

d’Analyse Mathematique, Band 23, Seite 103–111, 1970.<br />

[42] Flajolet, Philippe; Guivarc’h, Yves; Szpankowski, Wojciech <strong>und</strong><br />

Vallée, Brigitte: Hidden pattern statistics. In: Orejas, Fernando<br />

(Herausgeber): Automata, Languages and Programm<strong>in</strong>g, 28th <strong>in</strong>ternational<br />

Colloquium, ICALP 2001, Crete, Greece, Seite 152–165. Spr<strong>in</strong>ger, 2001.<br />

[43] Foissac, Sylva<strong>in</strong>; Bardou, Philippe; Moisan, Annick;<br />

Cros, Marie-Josée <strong>und</strong> Schiex, Thomas: EuGène’Hom: a generic<br />

similarity-based gene f<strong>in</strong>der us<strong>in</strong>g multiple homologous sequences.<br />

Nucleic Acids Research, Band 31, Seite 3742–3745, 2003.<br />

http://nar.oxfordjournals.org/cgi/content/full/31/13/3742.<br />

[44] Genon-Catalot, Valent<strong>in</strong>e; Jeantheau, Thierry <strong>und</strong> Laredo, Cather<strong>in</strong>e:<br />

Stochastic volatility models as hidden Markov models and statistical<br />

applications. Bernoulli, Band 6, Seite 1051–1079, 2000.<br />

[45] Genon-Catalot, Valent<strong>in</strong>e; Jeantheau, Thierry <strong>und</strong> Laredo, Cather<strong>in</strong>e:<br />

Conditional likelihood estimators for hidden Markov models and<br />

stochastic volatility models. Scand<strong>in</strong>avian Journal of Statistics, Band 30,<br />

Seite 297–316, 2003.<br />

[46] Genon-Catalot, Valent<strong>in</strong>e <strong>und</strong> Laredo, Cather<strong>in</strong>e: Leraux’s method<br />

for general hidden Markov models. Stochastic Processes and Their Applications,<br />

Band 116, Seite 222–243, 2006.


Literaturverzeichnis 89<br />

[47] Glaz, Joseph <strong>und</strong> Balakrishnan, Narayanaswamy (Herausgeber):<br />

Scan Statistics and Applications. Statistics for Industry and Technology.<br />

Birkhäuser, 1999.<br />

[48] Goldste<strong>in</strong>, Larry: Poisson approximation and DNA sequence match<strong>in</strong>g.<br />

Communications <strong>in</strong> Statistics - Theory and Methods, Band 19, Seite 4167–<br />

4179, 1990.<br />

[49] Greene, Daniel H. <strong>und</strong> Knuth, Donald E.: Mathematics for the Analysis<br />

of Algorithms. Progress <strong>in</strong> Computer Science. Birkhäuser, 1981.<br />

[50] Hansen, Niels Richard: Markov controlled excursions, local alignment<br />

and structure. Doktorarbeit, Department of Applied Mathematics and Statistics,<br />

University of Copenhagen, 2003. http://www.stat.ku.dk/˜richard/.<br />

[51] Jann<strong>in</strong>g, Wilfried <strong>und</strong> Knust, Elisabeth: Genetik. Georg Thieme<br />

Verlag, 2004.<br />

[52] Karatzas, Ioannis <strong>und</strong> Shreve, Steven E.: Brownian Motion and Stochastic<br />

Calculus. Spr<strong>in</strong>ger-Verlag, Zweite Auflage, 1991.<br />

[53] Karl<strong>in</strong>, Samuel <strong>und</strong> Chen, Ch<strong>in</strong>gfer: r-scan statistics of a marker array<br />

<strong>in</strong> multiple sequences derived from a common progenitor. The Annals of<br />

Applied Probability, Band 10, Seite 709–725, 2000.<br />

[54] Karl<strong>in</strong>, Samuel <strong>und</strong> Dembo, Amir: Limit distributions of maximal segmental<br />

score among Markov-dependent partial sums. Advances <strong>in</strong> Applied<br />

Probability, Band 24, Seite 113–140, 1992.<br />

[55] Kleffe, Jürgen <strong>und</strong> Borodovsky, Mark: First and second moment of<br />

counts of words <strong>in</strong> random texts generated by Markov cha<strong>in</strong>s. CABIOS –<br />

Computer Applications <strong>in</strong> the Bioscenes, Band 8, Seite 433–441, 1992.<br />

[56] Kullback, Solomon: Information theory and statistics. M<strong>in</strong>eola, NY:<br />

Dover Publications, Repr<strong>in</strong>t der zweiten Auflage, 1997.<br />

[57] Lauer, Christian: Sequence Match<strong>in</strong>g – Theorie <strong>und</strong> Methoden. Diplomarbeit,<br />

Albert-Ludwigs-Universität Freiburg i. Br., August 1999.<br />

[58] Leung, M<strong>in</strong>g-Y<strong>in</strong>g; Choi, Kwok Pui; Xia, Aihua <strong>und</strong> Chen,<br />

Louis H.Y.: Nonrandom clusters of pal<strong>in</strong>dromes <strong>in</strong> herpesvirus genomes.<br />

Journal of Computational Biology, Band 12, Seite 331–354, 2005.<br />

[59] Liu, J<strong>in</strong>gjun: Functional Erdös–Rényi laws for ϕ-mix<strong>in</strong>g random variables.<br />

Ch<strong>in</strong>ese Journal of Contemporary Mathematics, Band 21, Seite 15–22, 2000.


90 Literaturverzeichnis<br />

[60] Maxwell, Michael <strong>und</strong> Woodroofe, Michael: A local limit theorem<br />

for hidden Markov cha<strong>in</strong>s. Statistics & Probability Letters, Band 32, Seite<br />

125–131, 1997.<br />

[61] Neuhauser, Claudia: A Poisson approximation for sequence comparisons<br />

with <strong>in</strong>sertions and deletions. The Annals of Statistics, Band 22, Seite 1603–<br />

1629, 1994.<br />

[62] Nicodème, Pierre; Salvy, Bruno <strong>und</strong> Flajolet, Philippe: Motif statistics.<br />

Theoretical Computer Science, Band 287, Seite 593–617, 2002.<br />

[63] Nicolas, Pierre <strong>und</strong> Muri-Majoube, Florence: R’HOM – Programs<br />

to segment DNA sequences <strong>in</strong>to homogeneous regions. http://<br />

genome.jouy.<strong>in</strong>ra.fr/ssb/rhom/rhom doc/rhom doc.html, 2001. Software<br />

Research of HOMogeneous regions <strong>in</strong> DNA sequences“, http://<br />

”<br />

genome.jouy.<strong>in</strong>ra.fr/ssb/rhom/.<br />

[64] Novak, Serguei Yu.: Poisson approximation for the number of long match<br />

patterns <strong>in</strong> random sequences. Theory of Probability and Its Applications,<br />

Band 39, Seite 593–603, 1994.<br />

[65] Peligrad, Magda <strong>und</strong> Utev, Sergey: Central limit theorem for l<strong>in</strong>ear<br />

processes. The Annals of Probability, Band 25, Seite 443–456, 1997.<br />

[66] Philipp, Walter: The central limit problem for mix<strong>in</strong>g sequences of random<br />

variables. Zeitschrift für Wahrsche<strong>in</strong>lichkeitstheorie <strong>und</strong> verwandte Gebiete,<br />

Band 12, Seite 155–171, 1969.<br />

[67] Philipp, Walter <strong>und</strong> Webb, Geoffrey R.: An <strong>in</strong>variance pr<strong>in</strong>ciple for<br />

mix<strong>in</strong>g sequences of random variables. Zeitschrift für Wahrsche<strong>in</strong>lichkeitstheorie<br />

<strong>und</strong> verwandte Gebiete, Band 25, Seite 223–237, 1973.<br />

[68] Piterbarg, V.I.: Asymptotic methods <strong>in</strong> the theory of Gaussian processes<br />

and fields. Translations of Mathematical Monographs, 1996. Aus dem<br />

Russischen übersetzt von V. V. Piterbarg.<br />

[69] Pozdnyakov, V.; Glaz, Joseph; Kulldorff, M. <strong>und</strong> Steele, J. Michael:<br />

A mart<strong>in</strong>gale approach to scan statistics. Annals of the Institute of<br />

Statistical Mathematics, Band 57, Seite 21–37, 2005.<br />

[70] Rab<strong>in</strong>er, Lawrence R.: A tutorial on hidden Markov models and selected<br />

applications <strong>in</strong> speech recognition. Proceed<strong>in</strong>gs of the IEEE, Band 77,<br />

Seite 257–286, 1989. http://ieeexplore.ieee.org/xpl/abs free.jsp?<br />

arNumber=18626.<br />

[71] Régnier, Mireille: A unified approach to word statistics. In: RECOMB,<br />

Seite 207–213, 1998. http://doi.acm.org/10.1145/279069.279116.


Literaturverzeichnis 91<br />

[72] Régnier, Mireille <strong>und</strong> Szpankowski, Wojciech: On the approximate<br />

pattern occurrences <strong>in</strong> a text. In: Society, IEEE Computer (Herausgeber):<br />

Compression and Complexity of SEQUENCES, Positano, Italy, Seite<br />

253–264, 1997.<br />

[73] Régnier, Mireille <strong>und</strong> Szpankowski, Wojciech: On pattern frequency<br />

occurences <strong>in</strong> a Markovian sequence. Algorithmica, Band 22, Seite 631–649,<br />

1998. This paper was presented <strong>in</strong> part at the 1997 International Symposium<br />

on Information Theory, Ulm, Germany.<br />

[74] Reiss, Rolf-Dieter: A Course on Po<strong>in</strong>t Processes. Spr<strong>in</strong>ger Series <strong>in</strong><br />

Statistics. Spr<strong>in</strong>ger-Verlag, 1993.<br />

[75] Resnick, Sidney I.: Extreme Values, Regular Variation and Po<strong>in</strong>t Processes.<br />

Spr<strong>in</strong>ger-Verlag, 1987.<br />

[76] Revuz, Daniel <strong>und</strong> Yor, Marc: Cont<strong>in</strong>uous Mart<strong>in</strong>gales and Brownian<br />

Motion. Spr<strong>in</strong>ger-Verlag, Dritte Auflage, 1999.<br />

[77] Rob<strong>in</strong>, Stéphane <strong>und</strong> Daud<strong>in</strong>, Jean-Jacques: Exact distribution of<br />

word occurences <strong>in</strong> a random sequence of letters. Journal of Applied Probability,<br />

Band 36, Seite 179–193, 1999.<br />

[78] Roman, Steven: Introduction to cod<strong>in</strong>g and <strong>in</strong>formation theory. Spr<strong>in</strong>ger-<br />

Verlag, 1997.<br />

[79] Ryden, Tobias: Estimat<strong>in</strong>g the order of hidden Markov models. Statistics,<br />

Band 26, Seite 345–354, 1995.<br />

[80] Sanchis, Gabriela R.: A functional limit theorem for Erdös-Rényi’s law<br />

of large numbers. Probability Theory and Related Fields, Band 98, Seite<br />

1–5, 1994.<br />

[81] Schiex, Thomas; Moisan, Annick; Duret, Lucien <strong>und</strong> Rouzé, Pierre:<br />

EuGène: A simple yet effective gene f<strong>in</strong>der for eucaryotic organisms<br />

(Arabidopsis thaliana). In: Proc. of the Second Georgia Tech International<br />

Conference on Bio<strong>in</strong>formatics – In silico Biology, Atlanta, 1999. http://<br />

www.<strong>in</strong>ra.fr/mia/T/schiex/Doc/publis.shtml.<br />

[82] Schön<strong>in</strong>g, Uwe: Theoretische Informatik kurz gefasst. B.I.Wissenschaftsverlag,<br />

1992.<br />

[83] Shannon, Claude E. <strong>und</strong> Weaver, W.: The Mathematical Theory of<br />

Communication. University of Ill<strong>in</strong>ois Press, 1963.<br />

[84] Siegm<strong>und</strong>, David <strong>und</strong> Yakir, Benjam<strong>in</strong>: Approximate p-values for local<br />

sequence alignments. The Annals of Statistics, Band 28, Seite 657–680, 2000.


92 Literaturverzeichnis<br />

[85] Siegm<strong>und</strong>, David <strong>und</strong> Yakir, Benjam<strong>in</strong>: Correction: Approximate p-<br />

values for local sequence alignments. The Annals of Statistics, Band 31,<br />

Seite 1027–1031, 2003.<br />

[86] Spang, Ra<strong>in</strong>er <strong>und</strong> V<strong>in</strong>gron, Mart<strong>in</strong>: Limits of homology detection by<br />

pairwise sequence comparison. Bio<strong>in</strong>formatics, Band 17, Seite 338–342, 2001.<br />

[87] Steele, J. Michael: Long common subsequence and the proximity of two<br />

random str<strong>in</strong>gs. SIAM Journal of Applied Mathematics, Band 42, Seite<br />

731–736, 1982.<br />

[88] Stefanov, Valeri T.: The <strong>in</strong>tersite distances between pattern occurences<br />

<strong>in</strong> str<strong>in</strong>gs generated by general discrete- and cont<strong>in</strong>uous-time models: An<br />

algorithmic approach. Journal of Applied Probability, Band 40, Seite 881–<br />

892, 2003.<br />

[89] Ste<strong>in</strong>, Charles: A bo<strong>und</strong> for the error <strong>in</strong> the normal approximation to the<br />

distribution of a sum of dependent random variables. In: LeCam, Lucien<br />

M.; Neyman, Jerzy <strong>und</strong> Scott, Elizabeth L. (Herausgeber): Proceed<strong>in</strong>gs<br />

of the sixth Berkeley Symposium on Mathematical Statistics and<br />

Probability, Band II, Seite 583–602. University of California Press, 1970.<br />

[90] Szpankowski, Wojciech: Average Case Analysis of Algorithms on Sequences.<br />

John Wiley & Sons, 2000.<br />

[91] Szpankowski, Wojciech: New and old problems <strong>in</strong> pattern match<strong>in</strong>g: Limited<br />

(and personal) survey. Vortrag zum Seventh International Sem<strong>in</strong>ar on<br />

the Analysis of Algorithms, Tatihou, France, Juni 2001.<br />

[92] Vallée, Brigitte: Dynamical sources <strong>in</strong> <strong>in</strong>formation theory: f<strong>und</strong>amental<br />

<strong>in</strong>tervals and word prefixes. Algorithmica, Band 29, Seite 262–306, 2001.<br />

[93] Varadhan, S. R. Sr<strong>in</strong>ivasa: Large Deviations and Applications. SIAM,<br />

1984.<br />

[94] Waterman, Michael S.: Introduction to Computational Biology. Chapman<br />

& Hall, 1995. Repr<strong>in</strong>t 1996.<br />

[95] Watson, James D. <strong>und</strong> Crick, Francis H. C.: A structure for deoxyribose<br />

nucleic acid. Nature, Band 171, Seite 737–738, 1953.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!