Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Muster und Alignments 

in zufälligen Zeichenketten 

Dissertation 

zur Erlangung des Doktorgrades 

der Fakultät für Mathematik und Physik 

der Albert-Ludwigs-Universität 

Freiburg im Breisgau 

vorgelegt von 

Christian Lauer 

Mai 2006

Dekan: Prof. Dr. J. Honerkamp 

1. Referent: Prof. Dr. L. Rüschendorf 

2. Referent: Prof. Dr. D. Pfeifer, Oldenburg 

Datum der Promotion: 26. Juli 2006

i 

Einleitung 

Die Fortschritte der Molekularbiologie seit der Entdeckung der Doppelhelixstruktur 

im Jahr 1953 durch Watson und Crick [95] eröffneten völlig neuartige Möglichkeiten 

zur Diagnostik und Therapie in der Medizin, trugen zum vieldiskutierten 

Einsatz der Gentechnik in der Agrarwirtschaft beziehungsweise Nahrungsmittelindustrie 

bei, sind fester Bestandteil in der Kriminaltechnik sowie Grundlage für 

viele historische und anthropologische Studien und haben viele andere Lebensbereiche 

beeinflusst. Der Einsatz dieser neuen Erkenntnisse wäre zumeist nicht 

ohne die Methoden der Mathematik, insbesondere der mathematischen Statistik, 

möglich gewesen. Viele Ergebnisse beruhen auf neuen Methoden Daten auszuwerten, 

zu verarbeiten, zu klassifizieren und zu interpretieren. Insbesondere bei der 

Klassifikation und Interpretation ging die Forschung im Labor mit gravierenden 

Fortschritten in der Mathematik einher, die Relevanz der beobachteten Daten 

einschätzen zu können. 

Um die Forschung auf diesem Gebiet voranzubringen war und ist eine fächerübergreifende 

Zusammenarbeit verschiedener Disziplinen notwendig: 

• Das Erfassen der Problemstellung erfordert ein grundlegendes Verständnis 

der biologischen und chemischen Zusammenhänge. 

• Ohne den Einsatz immer effizienterer Algorithmen aus dem Gebiet der Informatik 

hätte wohl auch der rasante Fortschritt in der Computertechnik 

nicht ausgereicht, um die auftretenden Datenmengen zu verarbeiten. 

• Aus dem Bereich der mathematischen Statistik werden für die neuen 

Fragestellungen und den daraus entstehenden Verfahren präzise Formeln 

zur Berechnung beziehungsweise Approximation von Wahrscheinlichkeiten 

benötigt, um die Signifikanz der im Labor oder numerisch ermittelten Daten 

einschätzen zu können. 

Historisch sind die mathematischen Fragestellungen auf die Artikel von Erdös 

und Rényi [41], wo 1970 das Auftreten von außergewöhnlich vielen ” 

1“en in einer 

Folge von Bernoulli-verteilten Zufallsvariablen betrachtet wurde und von Chvátal 

und Sankoff [27], wo 1975 die Länge der längsten gemeinsamen Teilfolge zweier 

zufälliger Zeichenketten untersucht wurde, zurückzuführen.

ii 

In der vorliegenden Arbeit werden Fragestellungen, wie sie hauptsächlich in der 

Molekularbiologie aber auch in vielen anderen Bereichen, wie etwa der Spracherkennung, 

der Mustersuche oder der Fehlererkennung und -korrektur, auftreten, 

aus mathematischer Perspektive untersucht. Daher werden im ersten Kapitel 

nicht nur die verwendeten mathematischen Bezeichnungen eingeführt, sondern 

auch die biologischen Grundlagen skizziert. Die in der Molekularbiologie 

behandelten DNS- beziehungsweise Proteinsequenzen werden mathematisch als 

zufällige Zeichenketten über einem Alphabet mit vier beziehungsweise zwanzig 

Buchstaben aufgefasst. Daher stehen in dieser Arbeit Folgen von Zufallsvariablen 

über einem endlichen Alphabet im Vordergrund. Genauer wird das Grenzwertverhalten 

ausgewählter Funktionale, wie sie in obigen Anwendungen auftreten, 

untersucht, wenn die Länge der zufälligen Folgen gegen unendlich konvergiert. 

Im Gegensatz zu vielen anderen Anwendungen besteht die Schwierigkeit der Aufgabe 

hier nicht darin, aus wenigen Daten möglichst viele Informationen nutzbar 

zu machen oder ein robustes Verfahren zu entwickeln. Ziel der verwendeten mathematischen 

Methoden ist vielmehr, die relevante Information effizient aus der 

Fülle der Daten zu extrahieren. Mit der wachsenden Zahl und Größe der bekannten 

DNS- und Proteinsequenzen, werden immer ökonomischere Verfahren 

notwendig, um relevante Teile automatisch zu identifizieren oder Ähnlichkeiten 

festzustellen. 

Diese Verfahren müssen auf der einen Seite so sensitiv sein, dass keine funktionellen 

Segmente oder Ähnlichkeiten mit anderen Organismen übersehen werden, auf 

der anderen Seite jedoch auch möglichst selektiv sein, da weitere Untersuchungen 

im Labor meist mit erheblichem zeitlichem oder finanziellem Aufwand verbunden 

sind. 

Das zweite Kapitel behandelt den Vergleich zweier Zeichenketten mittels lokalem 

” 

Sequence Matching“. Mit dem Artikel von Siegmund und Yakir [84] kann 

die Frage nach dem maximalen Score beim lokalen Sequence Matching mit Gaps 

insofern als umfassend gelöst angesehen werden, als im Fall unabhängiger Zeichenketten 

eine Formel zur approximativen Berechnung von p-Werten angegeben 

wurde. Weitere Arbeiten von Hansen [50] und Liu [59] befassen sich mit Sequence 

Matching ohne Gaps von Markov-Ketten und ϕ-mischenden Folgen. 

Von Spang und Vingron [86] wurde jedoch das zusätzliche Problem aufgezeigt, 

dass viele Ähnlichkeiten von entfernt verwandten Gen- beziehungsweise Proteinsequenzen 

im statistischen Rauschen, das von der enormen Anzahl der in Datenbanken 

gespeicherten Sequenzen herrührt, übersehen werden. Dieses wird in den 

oben genannten Veröffentlichungen nicht behandelt. 

Um dem Problem, das aus den exponentiell schnell wachsenden Datenbankgrößen 

resultiert, entgegenzuwirken werden in dieser Arbeit die d größten Scores betrachtet. 

Dies bietet die Möglichkeit, mehr Information aus den Zeichenketten zu 

nutzen und dadurch die Selektivität der eingesetzten Algorithmen zu verbessern.

iii 

Mithilfe der Stein–Chen-Methode wird gezeigt, dass die d größten Scores im Limes 

unabhängigen Gumbel-Verteilungen folgen. Des Weiteren wird eine Formel zur 

effektiven Berechnung der approximativen Wahrscheinlichkeit, dass die d größten 

Scores bestimmte Schwellenwerte überschreiten, angegeben. Dieses Ergebnis kann 

als Grundlage für ein neues, selektiveres Verfahren zum Vergleichen zweier Zeichenketten 

dienen. 

log n 

log log n 

Im Weiteren wird das Auftreten von Mustern in einer Zeichenkette unter diversen 

mathematischen Fragestellungen untersucht. 

So steht im dritten Kapitel die Scan-Statistik im Mittelpunkt, bei der innerhalb 

eines sogenannten Scan-Fensters nach auffällig häufigem Auftreten eines Musters 

der Länge l in einer ϕ-mischenden Folge gesucht wird. In der Biologie wird mit 

dieser Methode meist nach speziellen funktionellen Gruppen wie beispielsweise 

einem Startpunkt der DNS-Replikation oder von Viren für die Infektion einer 

Wirtszelle genutzten Angriffspunkten gesucht. So wird in Leung, Choi, Xia und 

Chen [58] mittels der Scan-Statistik nach Regionen mit außergewöhnlich vielen 

Palindromen gesucht, weil diese mit der Replikation von Herpesviren in Verbindung 

gebracht werden. 

Die Literatur zu diesem Thema, das eng mit der Wartezeit auf den ersten Erfolg 

und dem Auftreten von Runs“ zusammenhängt, ist sehr umfangreich und 

” 

vielfältig, siehe etwa die Bücher von Glaz und Balakrishnan [47] und Balakrishnan 

und Koutras [10]. Des Weiteren wird die Scan-Statistik beispielsweise in Dembo 

und Karlin [32] untersucht, wo mittels der Stein–Chen-Methode eine Poisson- 

Approximation für das Über- beziehungsweise Unterschreiten von Schwellenwerten 

gezeigt und daraus eine asymptotische Extremwertverteilung der Scan- 

Statistik abgleitet wird. Ebenfalls mit der Stein–Chen-Methode wird in Chen und 

Karlin [25] das asymptotische Verhalten des bedingten Scan-Modells“, das die 

” 

parallele Suche nach mehreren Markern (vergleichbar mit den hier verwendeten 

Mustern) in einer Zeichenkette beschreibt, untersucht. In der praxisorientierten 

Veröffentlichung von Pozdnyakov, Glaz, Kulldorff und Steele [69] findet sich zum 

einen eine Schätzung der Parameter der Extremwertverteilung mittels Erzeugenden 

Funktionen sowie der Verwendung von Ergebnissen aus der Theorie der 

Martingale und zum anderen eine ausführliche Übersicht über weitere Literatur. 

In den genannten Artikeln ist die Anzahl der Zeichen im Scan-Fenster konstant, 

beziehungsweise in Dembo und Karlin [32] konstant oder höchstens von der Ordnung 

wachsend, wobei n die Länge der Zeichenkette bezeichnet. Es wird 

eine asymptotische Extremwertverteilung des Supremums des Scan-Prozesses hergeleitet. 

In dieser Arbeit wird demgegenüber der Scan-Prozess mit größerem Scan-Fenster 

mit nr n Zeichen betrachtet. Falls r n monoton fallend und asymptotisch konstant 

ist, r n ↘ r > 0, ergibt sich für den Scan-Prozess ein Limesresultat in D[0, 1] 

mit Gaußschem Prozess als Grenzwert. Dieses erlaubt insbesondere auch, die

iv 

maximale Scan-Statistik zu approximieren. Im Fall r n ↘ 0 erhält man lediglich 

die Konvergenz der endlichdimensionalen Randverteilungen. 

Im vierten Kapitel soll eine neue Sichtweise auf die Mustersuche eingenommen 

werden: Wie verändert sich der Prozess, der die Anzahl des Vorkommens eines 

Musters beschreibt, mit der Wahrscheinlichkeitsverteilung auf dem Alphabet? 

Diese Fragestellung wurde 2004 von Aki [1] für eine Zeichenkette, die von einer 

unabhängigen Zufallsfolge auf einem binären Alphabet erzeugt wird, untersucht. 

Zum Beweis der Konvergenz des dort konstruierten Musterprozesses mit einem 

Parameter gegen einen Gauß-Prozess wurden analoge Methoden, wie für den 

Nachweis der Konvergenz der empirischen Verteilungsfunktion in Billingsley [17, 

Abschnitt 22] verwendet. 

Dieses Ergebnis wird in der vorliegenden Arbeit in mehrere Richtungen verallgemeinert: 

So wird hier die zu durchsuchende Zeichenkette von einer ϕ-mischenden 

Folge von Zufallsvariablen erzeugt. Des Weiteren wird ein beliebiges endliches 

Alphabet mit ξ Zeichen betrachtet, so dass der Musterprozess von ξ-1 Parametern, 

die die Wahrscheinlichkeitsverteilung auf dem Alphabet angeben, abhängt. 

Außerdem wird ein zusätzlicher ” 

Zeitparameter“ eingeführt, der die Position innerhalb 

der Zeichenkette X 1 , . . . , X n angibt. 

Mithilfe eines Ergebnisses von Balacheff und Dupont [9] wird gezeigt, dass der 

empirische Musterprozess konvergiert und dass der Grenzprozess stetig von der 

Verteilung der Zeichen und dem Zeitparameter abhängt. Hierzu wird das Problem 

im Kontext der Theorie der empirischen Prozesse betrachtet. Da die Wahrscheinlichkeitsverteilung 

auf dem Alphabet in der Praxis zumeist aus den Beobachtungen 

geschätzt wird, rechtfertigt die bewiesene Stetigkeit die Annahme, dass eine 

hinreichend gute Schätzung der Zeichenwahrscheinlichkeiten eine gute Approximation 

des Musterprozesses ergibt. Konkrete Fehlerabschätzungen erhöhen den 

praktischen Nutzen der Ergebnisse. 

Um das Erzeugen der zufälligen Zeichenkette in einem möglichst allgemeinen 

Modell geht es im fünften Kapitel. Das schon 1966 von Baum und Petrie in [14] 

untersuchte Hidden-Markov“-Modell wird in der Praxis auch heute noch verwendet, 

da es viele konkrete Anpassungen des Modells an praktische Fragestellungen 

” 

und effiziente Methoden zur Bestimmung oder Schätzung der Parameter gibt. 

Vallée [92] lieferte 2001 mit den Dynamischen Quellen“ einen Ansatz, der durch 

” 

die Theorie der Dynamischen Systeme motiviert ist. Beiden Modellen ist gemein, 

dass die Zeichenkette durch einen verborgenen“ Prozess erzeugt wird, dessen Zustand 

nicht direkt beobachtet werden kann. Dieser wird in Baum und Petrie [14] 

” 

durch eine Markov-Kette und in Vallée [92] durch eine deterministische Iteration 

mit zufälligem Startwert gegeben. Eine nicht notwendigerweise deterministische 

Abbildung vom Zustandsraum in den Raum der Beobachtungen bestimmt die 

emittierten“ Zeichen, das heißt den sichtbaren Prozess, der nach den Mustern 

” 

durchsucht wird. Hidden-Markov-Modelle und Dynamische Quellen werden hier

v 

in ein neues allgemeineres Modell eingebettet, in dem der nicht beobachtbare 

Prozess durch eine ϕ- beziehungsweise ψ-mischende Zufallsfolge modelliert wird. 

Es wird gezeigt, dass der mehrdimensionale Musterprozess mehrerer fester Muster 

gegen eine mehrdimensionale Brownsche Bewegung konvergiert. Dies zeigt 

insbesondere, dass sich das neu vorgestellte Modell in der Praxis anwenden lässt. 

Modelle, in denen ein verborgener Prozess, bezüglich dessen die Abhängigkeiten 

kontrolliert werden, und ein sichtbarer Prozess, dessen Zustand gemessen wird, 

unterschieden werden, spiegeln die Anschauung wider, dass in vielen Experimenten 

nur ein Bruchteil des Mechanismus beobachtet werden kann, der den zufälligen 

Prozess bestimmt. Liegt eine solche Situation vor, so ist davon auszugehen, 

dass ein Modell, das nur den sichtbaren Prozess berücksichtigt, unzureichend ist, 

da sich dessen Parameter bei einer nicht beobachtbaren Zustandsänderung des 

verborgenen Prozesses sprunghaft ändern können. 

Mein Dank gilt all denen, die mich auf meinem Weg zu dieser Arbeit unterstützt 

haben. Jede Liste, die ich hier anführen könnte, wäre sicherlich unvollständig. 

Daher möchte ich hier diejenigen nennen, die unmittelbar mit dieser Arbeit in 

Verbindung stehen: 

Herrn Prof. Dr. L. Rüschendorf danke ich für die Anregung zu dieser Arbeit und 

die gute Betreuung; die hilfreichen Diskussionen und persönlichen Ermunterungen 

haben wesentlich zum Gelingen beigetragen. 

Ebenso bedanke ich mich bei Sarah Weiß für das sorgfältige Korrekturlesen des 

Manuskripts und bei Monika Hattenbach für die geduldige Hilfe bei allerlei L A TEX- 

Fragen. 

Ich danke meinen Kolleginnen und Kollegen und den Mitarbeitern der Abteilung 

für Mathematische Stochastik für die gute Arbeitsatmosphäre und allen, die 

mit kritischen und konstruktiven Verbesserungsvorschlägen zum Gelingen dieser 

Arbeit beigetragen haben. 

Besonders bedanken möchte ich mich bei meinen Freunden und meiner Familie 

für ihre Unterstützung. Nicht zuletzt danke ich Angelika für ihre Geduld und 

Hilfsbereitschaft.

Inhaltsverzeichnis 

vii 


1 Bezeichnungen und Grundlagen 1 

1.1 Biologische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.2 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2 Vergleich zweier Zeichenketten 9 

2.1 Voraussetzungen und Definitionen . . . . . . . . . . . . . . . . . . 11 

2.2 Starkes Gesetz großer Zahlen . . . . . . . . . . . . . . . . . . . . . 15 

2.3 Poisson Approximation . . . . . . . . . . . . . . . . . . . . . . . . 22 

2.3.1 Die Stein–Chen-Methode . . . . . . . . . . . . . . . . . . . 25 

2.3.2 Beweis von Satz 2.5 . . . . . . . . . . . . . . . . . . . . . . 27 

3 Scan-Statistiken mit variabler Fenstergröße 33 


3.2 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

3.3 Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

3.4 Endlichdimensionale Randverteilungen . . . . . . . . . . . . . . . 39 

3.4.1 Der Fall r n ↘ r, r > 0 . . . . . . . . . . . . . . . . . . . . 41 

3.4.2 Der Fall r n ↘ 0 . . . . . . . . . . . . . . . . . . . . . . . . 48 

4 Der empirische Musterprozess 51 


4.2 Endlichdimensionale Randverteilungen . . . . . . . . . . . . . . . 54 

4.3 Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

4.4 Fehlerabschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . 61

viii 


5 Das Hidden ϕ-/ψ-Mixing“ Modell ” 

69 


5.2 Der allgemeine Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

5.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

5.3.1 Das Hidden Markov“ Modell . . . . . . . . . . . . . . . . 78 

” 

5.3.2 Dynamische Quellen . . . . . . . . . . . . . . . . . . . . . 83 

Literatur 85

1 

Kapitel 1 

Bezeichnungen und Grundlagen 

1.1 Biologische Grundlagen 

Da die vorliegende Arbeit wesentlich durch Fragestellungen aus der Molekularbiologie 

motiviert wurde, soll in diesem Abschnitt eine kurze Einführung in die biologischen 

Grundlagen gegeben werden. Diese umfasst den grundsätzlichen Aufbau 

von DNS- und Protein-Sequenzen und die Transkription beziehungsweise Translation. 

Die geläufige Abkürzung DNS beziehungsweise DNA steht für Desoxyribonukleinsäure 

oder im Englischen Deoxyribonucleic acid. Die DNS besteht aus zwei 

langen Molekülketten, die schraubenförmig um eine gemeinsame, gedachte Achse 

gewunden sind. 

Für die Entdeckung dieser Struktur 1953 erhielten Watson und Crick [95] im Jahr 

1962 den Nobelpreis für Medizin. 

Die beiden Einzelstränge bestehen aus abwechselnd angeordneten Phosphorsäureresten 

und Desoxyribosemolekülen, wegen der fünf Kohlenstoffatome auch 

Pentose genannt. Diese bilden das sogenannte ” 

Desoxyribose-Phosphat-Rückgrat“. 

Die genetische Information wird von stickstoffhaltigen organischen Basen 

codiert, die sich auf der Innenseite der Helix an der Desoxyribose befinden. Die 

vier verschiedenen Nukleobasen, die in der DNS vorkommen, sind Adenin, Guanin, 

Cytosin und Thymin. Aus diesem Grund werden DNS In der Regel als ” 

Text“ 

über dem 4-nären Alphabet A = {A,G,C,T} angegeben. 

Die Stränge können theoretisch beliebig fortgesetzt werden, es gibt keinen Abschluss, 

der eine Helix terminiert. Wegen der in der organischen Chemie üblichen 

Nummerierung der Kohlenstoffatome sind die Enden durch die nicht abgeschlossenen 

Kohlenstoffe 3 ′ und 5 ′ eindeutig bezeichnet, so dass durch die Konvention 

5 ′ → 3 ′ eine ” 

Laufrichtung“ vorgegeben ist, wie die DNS-Sequenz angegeben 

wird. 

Zwischen den Nukleobasen A und T beziehungsweise zwischen G und C bil-

2 Kapitel 1. Bezeichnungen und Grundlagen 

den sich Wasserstoffbrückenbindungen aus. Diese halten die beiden antiparallelen 

Stränge zusammen und sorgen so für die die sogenannte Doppelhelix-Struktur der 

DNS. Da es somit zu jeder Base auf dem einen Strang eine komplementäre Base 

auf dem anderen Strang gibt, werden die Länge der Doppelhelix und Abstände 

darauf auch in der Einheit Basenpaare oder kurz bp angegeben. 

Die Replikation der DNS geschieht durch das Aufwinden der Doppelhelix und 

Trennen der beiden Stränge. Hierfür initiieren bestimmte Proteine, sogenannte 

Helikasen, an einem speziellen ” 

Replikations-Ursprung“ oder ” 

Startpunkt“ das 

Entwinden der beiden Stränge, so dass die Wasserstoffbrückenbindungen gelöst 

werden können. Jeder Einzelstrang dient dann als Vorlage für den entsprechenden 

komplementären Strang, so dass dieser durch die Polymerase synthetisiert wird. 

Dieser hier stark vereinfacht dargestellte Vorgang steht im Mittelpunkt vieler Forschungsarbeiten. 

So sind sowohl Veränderungen bei der Replikation von großem 

Interesse, als auch beispielsweise das Lokalisieren eines Replikations-Ursprungs. 

Die DNS fungiert daher als eine Art ” 

genetische Datenbank“, in der auf diese 

Weise Unmengen an Information ” 

gespeichert“ wird. So besteht das Genom 

des Escherichia coli, ein Colibakterium, das gerne als Modellorganismus herangezogen 

wird, weil es sehr gut erforscht ist, aus etwa 5 · 10 6 Basenpaaren, das der 

Drosophila, der allseits bekannten Fliege, aus etwa 2·10 8 und das menschliche Genom 

aus etwa 3 · 10 9 Basenpaaren. Hieraus wird offensichtlich, dass automatische 

Verfahren gebraucht werden, um diese enormen Datenmengen zu untersuchen. 

So müssen beispielsweise DNS-Sequenzen verglichen und signifikante Ähnlichkeiten 

ermittelt werden, um von bekannten Organismen auf zu erforschende schließen 

zu können oder es müssen Regionen mit speziellen Funktionen gefunden werden, 

um die Infektion einer Wirtszelle durch einen Virus zu untersuchen. Diese 

Verfahren benötigen zum einen immer ausgeklügeltere Algorithmen sowie mehr 

Rechenleistung und zum anderen immer bessere statistische Verfahren um die 

Signifikanz der ermittelten Ergebnisse einzuschätzen. 

Die Informationen sind in funktionellen Gruppen, den Genen, auf der DNS angeordnet. 

Diese machen nur einen Bruchteil der DNS aus. Dazwischen liegen große 

Teile, die oft als ” 

DNS-Müll“ beziehungsweise englisch ” 

junk DNA“ bezeichnet 

wurden. Man geht jedoch mittlerweile davon aus, dass diese Intergensequenzen 

regulatorische Aufgaben erfüllen. Da die Intergensequenzen jedoch keine direkte 

Bedeutung für die Struktur der Translationsprodukte besitzen, tendieren sie in 

höherem Maße zur Mutation, so dass sie sich bei verschiedenen Individuen in der 

Regel messbar unterscheiden. Sie werden daher für den sogenannten genetischen 

Fingerabdruck oder für Abstammungsgutachten, volkstümlich auch Vaterschaftstest 

genannt, benutzt. 

Zur Erforschung von Verwandschaften auf evolutionärer Ebene sind dagegen die 

Gene geeignet. Anhand der Ähnlichkeit der Sequenz von Genen mit vergleichbarer 

Funktion werden mithilfe des sogenannten ” 

Sequence Matching“ beispielsweise 

phylogenetische Bäume erstellt.

1.1. Biologische Grundlagen 3 

Der erste Schritt bei der Proteinsynthese ist das Auswerten von Informationen 

aus der ” 

Datenbank“ DNS. Hierzu wird ein Gen ” 

abgelesen“ und dient bei einem 

ähnlichen Vorgang wie der oben beschriebenen Replikation als Vorlage für die 

Synthese eines neuen Ribonukleinsäure-Strangs. Dieser Vorgang heißt Transkription. 

Die Ribonukleinsäure, im Folgenden als RNS abgekürzt, ähnelt im Aufbau dem 

der DNS. Die Struktur ist jedoch einzelsträngig und wird von einem Ribose- 

Phosphat-Rückgrat gegeben, bei dem an jede Pentose eine der Basen Adenin, 

Guanin, Cytosin oder Uracil angekoppelt ist. Daher wird hier in der Regel das Alphabet 

A = {A,G,C,U} zur Beschreibung verwendet. Uracil ist wie bei der DNS 

Thymin die komplementäre Base zu Adenin. Während die DNS ihrer Funktion 

gemäß eine sehr stabiles Molekül ist, ist die RNS reaktiv genug, um verschiedene 

Funktionen zu übernehmen. 

So dient beispielsweise die sogenannte messenger RNA, meist mRNA abgekürzt, 

als Vorlage für die Proteinsynthese im Cytoplasma. Hier wird in einem Zwischenschritt 

zunächst die prä-mRNA oder auch hnRNA aus der DNS transkribiert. 

Aus dieser werden dann die nicht codierenden Regionen, die sogenannten Introns, 

herausgespleißt. Die übrig bleibenden Exons bilden die mRNA. 

Bei der sogenannten Translation der mRNA werden jeweils drei Nukleinsäuren, 

die auch als Codon bezeichnet werden, zu einer Aminosäure übersetzt. Hier sind 

drei verschieden ” 

Leserahmen“ möglich, die in der Regel zu völlig unterschiedlichen 

Translationen führen. 

Die Zuordnungsvorschrift der 4 3 = 64 möglichen Codons zu einer der 20 direkt 

erzeugten Aminosäuren wird auch als ” 

genetischer Code“ bezeichnet, vergleiche 

Waterman [94, Tabelle 1.2]. Eine Sonderstellung nimmt die Aminosäure Selenocystein 

ein, da sie nicht direkt durch Translation entsteht, sondern durch sogenannte 

” 

Rekodierung“ eingebaut wird. Des Weiteren gibt es ein sogenanntes 

Startcodon, das die Translation initiiert und drei Stoppcodons, die die Translation 

terminieren. 

Die Proteine erfüllen vielfältige Aufgaben: So ermöglichen Enzyme viele chemische 

Reaktionen und steuern Abläufe in der Zelle, Strukturproteine bestimmen 

den Aufbau der Zelle, das Transportprotein Hämoglobin versorgt das Gewebe mit 

Sauerstoff, um nur einige Beispiele zu nennen. 

Die räumliche Struktur der Proteine ist wesentlich komplexer, als die der DNS: 

Die Primärstruktur ist durch die Abfolge der Aminosäuren gegeben und wird 

hier als Text über einem Alphabet mit 20 beziehungsweise 21 Zeichen modelliert, 

so dass sie aus mathematischer Sicht ähnlich wie DNS behandelt werden kann. 

Die sogenannte Sekundärstruktur beschreibt Sequenzabschnitte mit regelmäßiger 

lokaler Ordnung, wie etwa Helices, Bögen oder Faltungen, die durch Wasserstoffbrückenbindungen 

entstehen. Die vollständige räumliche Gestalt wird als 

Tertiärstruktur bezeichnet, die Kooperation mehrerer Tertiärstrukturen zu einem


Proteinkomplex als Quartärstruktur. Das Gebiet der Proteinfaltung wird zur Zeit 

erforscht, in diesem Bereich befindet sich die Molekularbiologie noch in ständiger 

Bewegung. Eine vollständige und zuverlässige Vorhersage der Sekundär- bis 

Quartärstruktur aus der Primärstruktur ist heute noch nicht möglich. 

Die Einführung der biologischen Grundlagen in diesem Abschnitt ließe sich noch 

beliebig erweitern. Alleine eine Erläuterung der RNA-Typen und ihrer Funktion 

würde ein ganzes Kapitel füllen. Weitere interessante Themen wie ” 

Alternatives 

Spleißen“, der Aufbau der Chromosomen oder eine grundlegende Unterscheidung 

von Proteinen werden hier nicht ausgeführt, da dies weit über den Rahmen einer 

mathematischen Arbeit hinausgehen würde. 

Eine weitere Disziplin, in der aktiv geforscht wird, ist die Genexpressionsanalyse. 

Hier wird mit sogenannten ” 

Micrarrays“ die Expression von Genen gemessen, das 

heißt es wird die Aktivität bestimmter Gene in speziellen Lebens-Zyklen beziehungsweise 

Stadien betrachtet. Die Methode wird hauptsächlich in der Krebsforschung 

angewendet. Da man hierbei in der Regel jedoch kleine Datensätze 

von hochdimensionalen Daten auswertet, sind die in dieser Arbeit beschriebenen 

Verfahren darauf nicht anwendbar. 

Weiterführende Literatur, die den Sachverhalt aus biologischer Perspektive beschreibt, 

sind die Bücher von Janning und Knust [51] oder Czihak, Langer und 

Ziegler [30]. In den Büchern von Durbin, Eddy, Krogh und Mitchison [40] sowie 

Bishop und Rawlings [18] wird die mathematische und algorithmische Seite 

beleuchtet. Empfehlenswert ist das fächerübergreifende Buch ” 

Introduction to 

Computational Biology“ von Waterman [94], der Professor für Biologie, Mathematik 

und Informatik an der University of Southern California ist. 

1.2 Notation 

In diesem Abschnitt werden einige Definitionen und Konventionen zusammengefasst. 

Viele sind in der Literatur allgemein gebräuchlich und werden daher hier 

zumeist ohne Quellenverweise aufgeführt. 

Es bezeichnet N die natürlichen Zahlen, N 0 := N ∪ {0}, Z die Menge der ganzen 

Zahlen, R die reellen Zahlen und C die komplexe Zahlenebene. Des Weiteren sei 

B die Borelsche σ-Algebra auf R und λ \ das Lebesgue-Maß auf (R, B). 

Ist M eine endliche Menge, so bezeichnet |M| die Mächtigkeit von M, P(M) := 

{A | A ⊂ M} die Potenzmenge von M und M ∗ := {m ɛ M n | n ɛ N} die Menge 

aller endlichen ” 

Wörter“ über M. 

Ist M ⊂ R und c ɛ R, so sei M + c := {a + c | a ɛ M}. 

Für zwei Zahlen x, y ɛ R sei zur Abkürzung definiert: x ∧ y : = min{x, y} und 

x ∨ y := max{x, y}, x + := max{x, 0} und x − := max{−x, 0}. ⌊x⌋ sei die größte 

ganze Zahl z ɛ Z mit z ≤ x. Analog sei ⌈x⌉ die kleinste ganze Zahl z ɛ Z mit z ≥ x.

1.2. Notation 5 

Um unnötige Fallunterscheidung zu vermeiden, sei ∏ ∅ 

:= 1, ∑ ∅ 

:= 0 und 1 ∅ := 1. 

Ist v ein Vektor beziehungsweise A eine Matrix, so bezeichnet v T den transponierten 

Vektor beziehungsweise A T die transponierte Matrix. Für einen n- 

dimensionalen Vektor v = (v 1 , . . . , v n ) T und eine Menge M ⊂ {1, . . . , n} bezeichne 

v M := (v i ) i ɛ M die Projektion von v auf die |M|-dimensionale Hyperebene. Für 

eine reelle Zahl c ɛ R ist v + c := (v 1 + c, . . . , v n + c) T die Translation um c. Ist 

w ɛ R n ein weiterer Vektor, so ist v ≤ w genau dann, wenn für alle Komponenten 

gilt v i ≤ w i . In diesem Fall ist das abgeschlossene n-dimensionale Intervall 

gegeben durch [v, w] : = × n i=1[v i , w i ]. n-dimensionale Intervalle werden auch als 

(achsenparallele) Quader bezeichnet. 

Ist (Ω, A) ein Messraum, so wird mit M(Ω, A) die Menge der Maße auf (Ω, A) bezeichnet 

und mit M 1 (Ω, A) die Menge aller Wahrscheinlichkeitsmaße auf (Ω, A). 

Ist die Menge Ω endlich oder abzählbar, so wird abkürzend auch M 1 (Ω) : = 

M 1 (Ω, P(Ω)) verwendet und mit der Menge aller Wahrscheinlichkeitsvektoren 

identifiziert: M 1 (Ω) = { (p ω ) ω ɛ Ω ɛ [0, 1] |Ω| | ∑ ω ɛ Ω p ω = 1 } . Ebenso bezeichnet 

M l := { β ɛ M 1 (Ω) | l · β ɛ N |Ω| } für l ɛ N die Menge aller empirischen Verteilungen, 

die ein Wort der Länge l haben kann. Für endliche Mengen Ω bezeichne | · | 

die Euklidische Norm auf M(Ω). 

Eine Zufallsvariable ist eine messbare Abbildung zwischen zwei Messräumen, das 

heißt X : (Ω 1 , A 1 ) → (Ω 2 , A 2 ). Ist (Ω 1 , A 1 , P ) ein Maßraum, so ist das Bildmaß 

von P unter X gegeben durch P X = P (X ɛ · ). 

Ist X eine reellwertige Zufallsvariable, so bezeichnet die rechtsseitig stetige Abbildung 

F X : R → [0, 1], definiert durch F X (x) := P (X ≤ x) die Verteilungsfunktion 

von X und E P X = ∫ XdP den Erwartungswert von X bezüglich P . Wenn keine 

Verwechslungsgefahr besteht, wird E X verwendet. 

Für Zufallsvariablen X, Y mit gleichem Wertebereich bedeutet X = d Y , dass die 

Zufallsvariablen identisch verteilt sind, das heißt P X = P Y . Diese Abkürung 

wird ebenso für Verteilungen beziehungsweise Wahrscheinlichkeitsmaße Q auf 

dem selben Grundraum verwendet, das heißt es gilt genau dann X = d Q, wenn 

P X = Q. 

Für einen Grundraum (Ω, A, P ) und p > 1 sei L p (P ) die Menge der 

p-integrierbaren Funktionen und L p +(P ) die Menge der nichtnegativen p- 

integrierbaren Funktionen. Für f ɛ L p (P ) ist die L p –Norm von f gegeben durch 

‖f‖ p := ( ∫ |f| p dP ) 1 p 

für p < ∞, beziehungsweise ‖f‖ ∞ := inf{sup x ɛ Ω\N |f(x)| : 

N ɛ A, P (N) = 0}. 

D[0, 1] sei der Raum der rechtsseitig stetigen, reellen Funktionen auf [0, 1] mit 

linkseitigem Grenzwert. Allgemeiner sei D d für d ɛ N der Raum der càdlàg- 

Funktionen auf [0, 1] d , wie beispielsweise von Bickel und Wichura [16, Abschnitt 3] 

definiert. Bezeichnen Q 1 (t), . . . , Q 2 d(t) für alle t ɛ [0, 1] d die achsenparallelen Quader, 

die t und einen Eckpunkt des Einheitsquaders [0, 1] d als Eckpunkte ha-


ben, so sind dies gerade die reellen Funktionen f für die lim s→t, s ɛ Qi (t) für alle 

i ɛ {1, . . . , 2 d } existiert und für die f(t) = lim s→t, s≥t f(s) gilt. 

Gegeben seien Wahrscheinlichkeitsmaße P n , P ɛ M 1 (Ω, A), n ɛ N auf dem Borel- 

Raum (Ω, A). Dann konvergiert P n genau dann in Verteilung gegen P , abkürzend 

P D 

n −→ P , wenn ∫ ∫ 

fdP n −→ n→∞ fdP für alle stetigen, beschränkten, reellwertigen 

Funktionen f auf Ω. Sind X n und X Zufallsvariablen, so konvergiert X D 

n −→ X 

genau dann, wenn P Xn −→ D 

P X . Sind X n , X ɛ D[0, 1], so wird die Konvergenz 

der endlichdimensionalen Randverteilungen, das heißt (X n,t1 , . . . , X n,tk ) 

D 

−→ 

D f 

(X t1 , . . . , X tk ) für alle k ɛ N, t 1 , . . . , t k ɛ [0, 1], mit X n −→ X abgekürzt. 

Eine Folge X : = (X i ) i ɛN von Zufallsvariablen mit Werten in einem endlichen 

Zustandsraum I ist eine Markov-Kette, wenn für alle n ɛ N, x 1 , . . . , x n ɛ I gilt: 

P (X n = x n | X 1 = x 1 , . . . , X n−1 = x n−1 ) = P (X n = x n | X n−1 = x n−1 ). 

X ist homogen, falls γ i,j = P (X n = j | X n−1 = i) für alle Zustände i, j ɛ I 

unabhängig von n ɛ N ist. Die Matrix Γ = (γ i,j ) i,j ɛ I heißt Übergangsmatrix. Die 

Markov-Kette X ist irreduzibel, wenn alle Zustände i, j ɛ I verbunden“ sind, das 

” 

heißt, wenn m, n ɛ N existieren, so dass P (X m = i | X 1 = j) > 0 und P (X n = 

j | X 1 = i) > 0. X heißt aperiodisch, wenn alle Zustände i ɛ I aperiodisch sind, 

das bedeutet, dass der größte gemeinsame Teiler der potentiellen Rückkehrzeiten 

ggT{n ɛ N | P (X n+1 = i | X 1 = i) > 0} = 1 ist. 

Für eine Indexmenge M und Zufallsvariablen (X i ) i ɛ M auf einem gemeinsamen 

Grundraum (Ω, A, P ), sei σ(X i ; i ɛ M) ⊂ A die von (X i ) i ɛ M erzeugte σ-Algebra. 

Sind die Funktionen ϕ, ψ : N → [0, 1] mit ϕ(i) −→ 

i→∞ 

0 und ψ(i) −→ 

i→∞ 

0 gegeben und 

X := (X i ) i ɛN eine Folge von Zufallsvariablen auf dem gemeinsamen Grundraum 

(Ω, A, P ), so heißt die Folge X ϕ-mischend, falls für alle i, j ɛ N, E 1 ɛ σ(X k ; k ≤ i), 

E 2 ɛ σ(X k ; k ≥ i + j) gilt: 

∣ P (E1 ∩ E 2 ) − P (E 1 )P (E 2 ) ∣ ≤ ϕ(j)P (E1 ) 

und ψ-mischend, falls für alle i, j ɛ N, E 1 ɛ σ(X k ; k ≤ i), E 2 ɛ σ(X k ; k ≥ i + j) gilt: 

∣ P (E1 ∩ E 2 ) − P (E 1 )P (E 2 ) ∣ ∣ ≤ ψ(j)P (E1 )P (E 2 ) 

Wie in Billingsley [17, Abschnitt 20] wird angenommen, dass die Folge ( ϕ(n) ) n ɛN 

monoton fallend ist und ϕ(n) ≤ 1, für alle n ɛ N. Dies ist keine Einschränkung, 

da die Mischungsbedingung bezüglich der Folge ( ϕ ′ (n) ) n ɛN , ϕ′ (n) := 

min{1, ϕ(1), . . . , ϕ(n)} erhalten bleibt. Anschaulich unterscheidet sich ein mischender 

Prozess von einem unabhängigen Prozess mit den selben Randverteilungen 

um ” 

höchstens ϕ“ beziehungsweise ψ. Die stärkere ψ-Mischungsbedingung 

berücksichtigt dabei ” 

Vergangenheit“ und ” 

Zukunft“ symmetrisch, während bei 

der ϕ-Mischungseigenschaft nur bezüglich der ” 

Vergangenheit“ gewichtet wird.

1.2. Notation 7 

Eine übersichtliche Zusammenfassung über weitere Mischungsbegriffe sowie weitere 

Eigenschaften findet man zum Beispiel in Doukhan [39]. 

(B t ) t ɛ [0,1] bezeichne eine Standard Brownsche Bewegung, das heißt B ist ein Wiener 

Prozess mit stetigen Pfaden. Standardwerke zu Stochastischen Prozessen sind 

zum Beispiel Revuz und Yor [76] oder Karatzas und Shreve [52]. 

Für eine Funktion f : R → R sind die Landauschen Symbole definiert durch 

O(f) : = {g : R → R | ∃C 1 , C 2 ɛ R ∀x ≥ C 2 : g(x) ≤ C 1 f(x)} und O(f) : = {g : 

R → R | lim x−→∞ 

g(x) 

f(x) = 0}. In der Literatur findet man für die oft ” O-Notation“ 

genannten Symbole auch eine Definition in der Form g = O(f), siehe etwa Greene 

und Knuth [49].

8 Kapitel 1. Bezeichnungen und Grundlagen

9 

Kapitel 2 

Vergleich zweier Zeichenketten 

Gegenstand dieses Kapitels ist der Vergleich zweier Zeichenketten, im Folgenden 

Sequence Matching“ genannt. Elementar für die Bewertung der Ähnlichkeit ist 

” 

der Algorithmus, der die Zeichen der beiden Zeichenketten einander zuordnet. Die 

Zuordnung wird gemeinhin als Alignment“ bezeichnet. An dieser Stelle wird das 

” 

Sequence Matching mit Scoring-Funktion behandelt. Diese ist in der Regel durch 

die Anwendung gegeben und bewertet die Ähnlichkeit zweier Zeichen. Der Score 

eines Alignments ist die Summe über den Score der Zeichenpaare, die einander 

durch das Alignment zugeordnet werden. 

Um die Ähnlichkeit zweier Zeichenfolgen zu messen, wird im hier betrachteten 

lokalen Sequence Matching ohne Gaps das Maximum des Scores über alle lokalen 

Alignments ohne Gaps gebildet. Das heißt, dass aus jeder Zeichenkette eine 

beliebige zusammenhängende Folge von Zeichen betrachtet wird. Hierfür müssen 

die beiden Segmente gleiche Länge haben. Das Alignment ergibt sich, indem der 

Reihe nach aus jedem Segment zwei Zeichen einander zugeordnet werden. 

Alternativen sind das globale Sequence Matching, wo jeweils die gesamte Zeichenfolge 

betrachtet wird, und Sequence Matching mit Gaps, wo die Segmente 

Lücken haben dürfen, sowie Kombinationen aus den vorgestellten Verfahren. 

Der Ursprung des Sequence Matching wird in der Literatur oft im 1970 erschienenen 

Artikel von Erdös und Rényi [41] gesehen, wo das Auftreten von außergewöhnlich 

vielen aufeinander folgenden Erfolgen in einer zufälligen Erfolgs-/ 

Misserfolgs-Folge untersucht wurde, was einen Spezialfall des globalen Sequence 

Matching ohne Gaps darstellt. Daher werden Verallgemeinerungen in Arratia und 

Waterman [7], Borovkov [19], Arratia, Gordon und Waterman [5], Sanchis [80] 

und vielen anderen Artikeln als Erdös–Rényi’s Law“ bezeichnet. 

” 

Dagegen werden in Steele [87], Arratia und Waterman [8, Gleichung (6)], Waterman 

[94, Abschnitt 11.6.1] und anderen Veröffentlichungen die sogenannten 

Chvátal–Sankoff-Konstanten“ eingeführt. Diese Bezeichnung liegt nahe, weil 

” 

Chvátal und Sankoff [27] im Jahr 1975 erstmals mit wahrscheinlichkeitstheoretischen 

Methoden die Länge der längsten gemeinsamen Teilfolge zweier zufälliger

10 Kapitel 2. Vergleich zweier Zeichenketten 

Zeichenketten untersucht haben. 

Der Artikel von Siegmund und Yakir [84], sowie dessen Korrektur [85], dürfte 

zu den wichtigsten Verallgemeinerungen auf diesem Gebiet zählen. Dort wird die 

Verteilung des maximalen Scores bei lokalem Sequence Matching mit Gaps approximiert. 

Weitere Veröffentlichungen sind etwa Goldstein [48], Arratia, Gordon 

und Waterman [5], Neuhauser [61] und Novak [64] um nur einige zu nennen. 

Da sich die genannten Veröffentlichungen mit unabhängigen Zeichenfolgen 

beschäftigen, besteht eine weitere Verallgemeinerung darin, abhängige Zeichenketten 

zu betrachten. So werden zum Beispiel in Hansen [50] Markov-Ketten und 

in Liu [59] ϕ-mischende Folgen untersucht. 

Die wohl wichtigste Anwendung des Sequence Matching liegt in der Genetik. 

Hier werden DNS- oder Proteinsequenzen verglichen, um entweder die Verwandschaft 

von verschiedenen Spezies auf evolutionärer Ebene zu untersuchen, oder 

funktionelle beziehungsweise strukturelle Ähnlichkeiten verschiedener Sequenzen 

feststellen zu können. Die Sequenzen werden für diesen Zweck in Datenbanken, 

wie beispielsweise Swiss-Prot, einer Datenbank für Proteinsequenzen, gespeichert. 

Für Details zu diesem Projekt, dessen zwanzigjähriges Bestehen im August 2006 

gefeiert wird, siehe http://www.expasy.org/sprot/. Zu untersuchende Proteinsequenzen 

werden mit den bestehenden Einträgen verglichen, um Ähnlichkeiten 

anhand eines außergewöhnlich großen Scores zu finden. 

Spang und Vingron haben 2001 in [86] den Einfluss der ständig wachsenden 

Zahl von Datenbankeinträgen auf die Wahrscheinlichkeit, zufällig einen 

großen Score zu erhalten, untersucht. Auf der Grundlage der Zahl von Einträgen 

in Swiss-Prot wurde festgestellt, dass schon 2001 die Ähnlichkeit 

vieler entfernt verwandter Proteine in diesem zufälligen Rauschen“ übersehen 

wird. In dieser Veröffentlichung wurde auch festgestellt, dass das 

” 

annähernd exponentielle Wachstum der Datenbankgröße im Verlauf der Zeit (siehe 

http://www.expasy.org/sprot/relnotes/relstat.html) eine näherungsweise 

lineare Zunahme des Rauschens bewirkt, vergleiche Spang und Vingron [86, 

Abbildung 1]. 

Als Lösung für die dargestellte Problematik wird hier ein neuer Ansatz vorgestellt, 

der mehr Informationen über die Zeichenketten verwendet: Durch das Betrachten 

weiterer Maxima soll im Folgenden die Selektivität erhöht werden. Das bedeutet, 

dass nicht nur der maximale Score gesucht wird, sondern danach die in diesem 

Alignment verwendeten Zeichenpaare nicht mehr verwendet werden und das Alignment 

mit maximalem Score in den verbleibenden Zeichenpaaren gesucht wird. 

Mit dieser Methode erhält man eine absteigende Folge von größten Scores“, wobei 

im nächsten Abschnitt mathematisch definiert wird, welche Zeichenpaare für 

” 

das Alignment des k-größten Scores noch berücksicht werden.

2.1. Voraussetzungen und Definitionen 11 

2.1 Voraussetzungen und Definitionen 

Betrachtet werden unabhängig identisch verteilte Zeichenketten X = (X i ) i ɛN und 

Y = (Y j ) j ɛN über dem endlichen Alphabet A = {1, . . . , ξ}. Zur Abkürzung sei 

X identisch X i und Y identisch Y i verteilt, i ɛ N. 

Eine der fruchtbarsten Methoden beim Sequence Matching ist die Large- 

Deviation-Theorie, in der das Grenzwertverhalten von Wahrscheinlichkeiten 

seltener Ereignisse durch exponentielle Schranken abgeschätzt wird. Für eine 

Einführung sowie eine Definition des sogenannten ” 

Large-Deviation-Prinzips“ 

und weitere Resultate gibt es umfangreiche Literatur, wie etwa Dembo und Zeitouni 

[35], Deuschel und Stroock [36], Bucklew [22] oder Varadhan [93], so dass 

im Folgenden nur die benötigten Ergebnisse zitiert werden. 

Ein in der Large-Deviation-Theorie wichtiger Begriff ist die Entropie, wie sie 

auch in der Informationstheorie verwendet wird. Weitere mathematische Grundlagen 

sowie informationstheoretische Anwendungen finden sich zum Beispiel in 

Roman [78], Shannon und Weaver [83], Csiszár und Körner [29] und Kullback [56]. 

Da die Definition und Verwendung insbesondere der relativen Entropie in der Literatur 

nicht konsistent ist, werden die verwendeten Begriffe hier folgendermaßen 

definiert: 

Definition 2.1 (Entropie) 

Sei A = {1, . . . , a} ein beliebiges endliches Alphabet. Für die Wahrscheinlichkeitsmaße 

π = (π 1 , . . . , π a ) und β = (β 1 , . . . , β a ) auf A ist die Entropie von π 

durch 

a∑ 

( ) 1 

H(π) := π k log 

π k 

k=1 

und die relative Entropie von π bezüglich β durch 

definiert. 

H(π|β) := 

a∑ 

k=1 

( ) 

πk 

π k log 

β k 

Die Scoring Funktion s : A×A → R sei symmetrisch, nehme mit positiver Wahrscheinlichkeit 

positive Werte an und habe negativen Erwartungswert bezüglich 

P (X,Y ) , das heißt es gelte: 

s(b, c) = s(c, b), P ( s(X, Y ) > 0 ) > 0 und E ( s(X, Y ) ) < 0 

für alle b, c ɛ A. Dem Vorzeichen von E ( s(X, Y ) ) kommt besondere Bedeutung 

zu: Wie in Arratia und Waterman [8] gezeigt wird, verhält sich der maximale 

Score für E ( s(X, Y ) ) < 0 asymptotisch logarithmisch und für E ( s(X, Y ) ) > 0 

wächst der maximale Score linear. Dieses Verhalten wird in der Literatur als


Phasenübergang bezeichnet. Bei positivem erwartetem Score werden durch das 

lokale Sequence Matching also nur vernachlässigbar viele Zeichen am Anfang und 

am Ende weggelassen. Weil es in der biologischen Anwendung in der Regel um das 

Auffinden von Ähnlichkeiten durch die Identifikation von Segmenten mit großem 

Score geht, wird zumeist eine Scoring-Funktion mit negativer Erwartung gewählt. 

Daher wird in diesem Kapitel Sequence Matching unter dieser Voraussetzung 

untersucht. 

Eine Zusammenstellung einiger Ergebnisse, die den Phasenübergang zwischen 

logarithmischem und linearem Wachstum zum Thema haben und die dieselbe 

Notation wie hier verwenden, findet man beispielsweise in Lauer [57, Kapitel 5]. 

Aus den Forderungen an s ergibt sich mit einfachen analytischen Methoden, dass 

genau ein Θ ∗ > 0 existiert, so dass: 

E ( e Θ∗ s(X,Y ) ) = 1. 

Es sei α ∗ ɛ M(A 2 ) das Maß mit Zähldichte e Θ∗s bezüglich P (X,Y ) , das heißt für 

alle b, c ɛ A ist: 

α ∗ b,c := eΘ∗ s(b,c) P ( (X, Y ) = (b, c) ) . 

Es gelte weiterhin 

H(α ∗ | P X × P Y ) > 2 max { H(α ∗ X|P X ), H(α ∗ Y |P Y ) } , 

wobei αX ∗ := α∗ (·, A) die Randverteilung von α ∗ bezüglich der ersten Komponente 

und αY ∗ analog die Randverteilung bezüglich der zweiten Komponente bezeichne. 

Betrachtet man, wie in der Literatur üblich, den maximalen Score beim Vergleich 

von (X i ) 1≤i≤n mit (Y j ) 1≤j≤n : 

M (1) 

n = M n := max 

l ɛ {0,...,n} 

i,j ɛ {0,...,n−l} 

{ l∑ 

k=1 

} 

s(X i+k , Y j+k ) , 

so ergibt sich aus Dembo, Karlin und Zeitouni [33, Theorem 3] ein starkes 

Gesetz großer Zahlen mit asymptotisch logarithmischem Wachstum, das heißt 

M n 

−→ 2 

. 

log n n→∞ Θ ∗ 

Für die Definition des zweitgrößten Scores M n 

(2) sollen nun die Zeichenpaare 

(X i+k , Y j+k ) k=1,...,l , die im Alignment des größten Scores benutzt wurden, ausgeschlossen 

werden. Hierfür wird eine Methode verwendet, die sich sowohl in 

der wahrscheinlichkeitstheoretischen Analyse der Maxima als auch in der Implementierung 

von Algorithmen zur Bestimmung des maximalen Scores bei der 

sogenannten Dynamischen Programmierung“ bewährt hat. Einige der folgenden 

Definitionen sowie weitere interessante Aussagen findet man beispielsweise 

” 

in Waterman [94, Kapitel 9] oder Hansen [50, Kapitel 2 und Abschnitt 5.2].


Für n ɛ N definiert man die Menge der Alignments als 

A n := { (i, j, l) ɛ (N 0 ) 3 | l ɛ {0, . . . , n}, i, j ɛ {0, . . . , n − l} } . 

Dann ist der Score des Alignments (i, j, l) ɛ A n gegeben durch S (i,j,l) : = 

∑ l 

k=1 s(X i+k, Y j+k ) und der maximale Score durch M n = max a ɛ An S a . Für 

i, j ɛ {0, . . . , n} sei 

T i,j := 

{ 0, falls i = 0 oder j = 0, 

( 

Ti−1,j−1 + s(X i , Y j ) ) + 

, sonst. 

Für eindimensionale Indexmengen {0, . . . , n} wird der analoge Prozess ˜T 0 : = 0, 

˜T i+1 := ( T i + ˜s(X i ) ) + 

anschaulich als Spiegelung an der 0 bezeichnet. Ebenso wie 

max 0≤i≤j≤n 

∑ j 

k=i+1 ˜s(X i) = max i ɛ {0,...,n} ˜Ti gilt, erhält man: 

M n = max S a = max T i,j . 

a ɛ A n i,j ɛ {0,...,n} 

Diese Darstellung bietet aus algorithmischer Sicht insbesondere bei Sequence 

Matching mit Gaps sehr große Vorteile, da die Rechenzeit durch Implementierung 

obiger Darstellung drastisch sinkt. Dies liegt darin begründet, dass über 

weniger Variablen maximiert wird, vergleiche hierzu etwa Waterman [94, Kapitel 

9] oder Szpankowski [91, Abschnitt 1.5]. Darauf soll hier jedoch ebenso 

wenig eingegangen werden, wie auf die Ableitung des in der Praxis verwendeten 

Smith–Waterman-Algorithmus aus dieser Darstellung. 

In Anlehnung an die Definition der Exkursionen in Karlin und Dembo [54, Gleichung 

(1.4)] oder Hansen [50, Definition 5.2.2] wird das Alignment (i, j, l) ɛ A n 

genau dann als relevantes Alignment“ bezeichnet, wenn es folgende Bedingungen 

” 

erfüllt: 

• S (i,j,l) ≥ S (i,j,k) für alle k ɛ {0, . . . , max{l ′ | S (i,j,l ′ ) > 0}} 

• T i,j = 0 oder es existieren s ɛ {0, . . . , min{i, j}}, l ′ ɛ {1, . . . , s}, so dass gilt: 

(i − s, j − s, l ′ ) ist relevantes Alignment und 

T i,j ≤ T i−k,j−k für alle k ɛ {1, . . . , s − l ′ } 

• S (i,j,k) > 0 für alle k ɛ {1, . . . , l − 1} 

Anschaulich bedeutet die erste Bedingung, dass der Score durch Verlängern oder 

Verkürzen des Alignments nicht vergrößert werden kann, die zweite, dass der 

Score durch Verschieben der Startposition (i, j) nicht vergrößert werden kann, 

und die letzte sichert, dass die relevanten Alignments möglichst kurz sind.


Bezeichnet E n = : E n 

(1) die zufällige Menge aller relevanten Alignments, so gilt 

analog zu obiger Argumentation: 

M n = M (1) 

n 

= max S a . 

a ɛ E (1) 

n 

Der zweitgrößte Score wird nun durch Herausnehmen“ des Alignments a (1) 

” 

n , das 

den maximalen Score ergibt, ermittelt. Dieses Verfahren wird d-mal iteriert: 

Seien M n 

(1) , . . . , M n (k) , E n 

(1) , . . . , E (k) 

schon definiert. Dann wählt man: 

E (k+1) 

n 

n und a (1) 

n 

:= E (k) 

n 

M (k+1) 

n 

:= max 

a (k+1) 

n 

a ɛ E (k+1) 

n 

\ {a (k) 

n }, 

S a , 

:= arg max S a . 

a ɛ E n 

(k+1) 

, . . . , a (k) 

n für k ɛ {1, . . . , d} 

Damit erhält man die d größten Scores M (1) 

n 

≥ . . . ≥ M (d) 

n . 

Alternativ wäre auch eine Formulierung möglich, bei der nicht das Alignment mit 

maximalem Score, sondern die ” 

Exkursion“, die das Alignment enthält, ausgeschlossen 

wird. Für eine mathematische Definition des Exkursions-Begriffes sowie 

weitere Eigenschaften, siehe Karlin und Dembo [54] oder Hansen [50]. Anschaulich 

ist eine Exkursion ein Alignment maximaler Länge mit strikt positivem Score. 

Auch hier gilt, dass sich der maximale Score als Maximum über alle Exkursionen 

berechnen lässt. 

Auf eine Formulierung mithilfe von Exkursionen wurde jedoch verzichtet, da 

ansonsten mehrere große Scores in einer Exkursion nur einmal berücksichtigt 

würden. Weil damit Alignments unnötig ausgeschlossen würden und eventuell 

wichtige Informationen ungenutzt blieben, entspricht dies nicht der zuvor beschriebenen 

Anwendung in der Genetik. 

Aus der Definition der M (k) 

n 

mithilfe der zufälligen Mengen E (k) 

n , k ɛ {1, . . . , d} 

wird offensichtlich, dass eine Untersuchung des maximalen Scores lediglich anhand 

der Position der auftretenden Abhängigkeiten wegen wenig erfolgversprechend 

ist. Daher wird in der folgenden Definition ein Hilfsmittel für die sogenannte 

Musteranalyse“ bereitgestellt. In der Large-Deviation-Theorie wird diese Methode 

auch als Method of Types“ bezeichnet, vergleiche Dembo und Zeitouni [35, 

” 

” 

Abschnitt 2.1.1]. Hierbei wird in beiden Zeichenketten nach Sequenz-Abschnitten 

gesucht, deren empirische Verteilung derjenigen der Alignments mit großem Score 

nahekommen. Wie in [6, Abschnitt 4] beziehungsweise in den nächsten Abschnitten 

offensichtlich wird, sind das die empirischen Verteilungen in einer kleinen 

Umgebung von α ∗ .

2.2. Starkes Gesetz großer Zahlen 15 

Definition 2.2 

Für die Länge l ɛ N und das Wort w = w 1 · · · w l ɛ A l ist die empirische Verteilung 

L l (w) = ( L l (w) 1 , . . . , L l (w) ξ 

) 

von w gegeben durch: 

L l (w) k := 1 l 

l∑ 

1 {wi }(k) für alle k ∈ {1, . . . , ξ}. 

i=1 

2.2 Starkes Gesetz großer Zahlen 

Gegenstand dieses Abschnitts ist ein starkes Gesetz großer Zahlen für die d 

größten Scores. Dies ist eine Verallgemeinerung von Dembo, Karlin und Zeitouni 

[33, Theorem 3 und 4]. 

Satz 2.3 

Es gelten die Voraussetzungen aus Abschnitt 2.1. Dann verhalten sich die d 

größten Scores asymptotisch logarithmisch, das heißt für alle k ɛ {1, . . . , d} gilt: 

M n 

(k) 

log n −→ 2 

n→∞ 

Θ . ∗ 

Insbesondere unterscheiden sich also die d größten Scores bei logarithmischer 

Normierung asymptotisch nicht. 

Beweis: 

Sei d ɛ N fest. Nach Definition der ( M n 

(k) )1≤k≤d gilt M n = M n 

(1) ≥ . . . ≥ M n (d) . 

In Dembo, Karlin und Zeitouni [33, Theorem 3 und 4] wurde für den maximalen 

M 

Score gezeigt, dass lim sup n 

≤ 2 

n→∞ ist. Somit reicht es zu zeigen, dass 

log n Θ ∗ 

lim inf 

n→∞ 

M (d) 

n 

log n ≥ 2 Θ ∗ 

gilt. Hierzu werden die Zeichenketten X und Y in Blöcke der Länge l ɛ N aufgeteilt 

und bewiesen, dass in den Diagonalen dieser Blöcke bereits ausreichend große 

Scores vorkommen. 

Seien also l, n ɛ N, l ≤ n, n ∗ := l⌊ n⌋ und γ ɛ M l l(A 2 ). Da M n 

(d) monoton wachsend 

in n ist, wird hier ohne Einschränkung von n = n ∗ ausgegangen. Zunächst wird 

die ( Wahrscheinlichkeit dafür abgeschätzt, dass weniger als d Blöcke der Form 

(Xil+1 , Y jl+1 ), . . . , (X (i+1)l , Y (j+1)l ) ) , i, j ɛ {0, . . . n −1} mit empirischer Verteilung 

l 

γ vorkommen.


in X bezie- 

Die Anzahl der Blöcke der Länge l mit empirischer Verteilung γ X 

hungsweise γ Y in Y ist gegeben durch: 

n 

l −1 

∑ 

M := M(γ X ) := 1 {L l (X il+1···X (i+1)l )=γ X } beziehungsweise 

i=0 

n 

l −1 

∑ 

N := M(γ Y ) := 1 {L l (Y jl+1···Y (j+1)l )=γ Y }. 

j=0 

Für den Fall M ≥ 1 und N ≥ 1 seien dies die Blöcke πX 1 , . . . , πM X 

πY 1 , . . . , πN Y , das heißt, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} ist: 

beziehungsweise 

L l( X π i 

X l+1 · · · X (π i 

X +1)l) 

= γX und L l( Y π 

j 

Y l+1 · · · Y (π j Y +1)l ) 

= γY . 

Das Ereignis, dass der i-te Block in X und der j-te Block in Y gemeinsame empirische 

Verteilung γ aufweisen, bezeichnet man für i ɛ {1, . . . , M}, j ɛ {1, . . . , N} 

mit: 

B i,j := B i,j (γ) := { L l( (X π i 

X l+1, Y π 

j 

Y l+1), . . . , (X (π i X +1)l , Y (π 

j 

Y +1)l)) = γ } . 

Für jeden Block X π i 

X l+1 · · · X (π i 

X +1)l beziehungsweise Y π 

j 

Y l+1 · · · Y (π j Y +1)l 

stimmt die 

empirische Verteilung mit γ X beziehungsweise γ Y überein. Somit hängt es nur von 

der Reihenfolge der einzelnen Buchstaben innerhalb eines solchen Blockpaares ab, 

ob (X π i 

X l+1, Y π 

j 

l+1), . . . , (X (π i Y X +1)l , Y (π 

j 

Y +1)l) 

gemeinsame empirische Verteilung γ 

hat. Dies bedeutet, für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N} gilt: 

P (B i,j ) = P (B 1,1 ) =: p 

unabhängig von i, j. Definiert man die Anzahl von Block-Paaren mit empirischer 

Verteilung γ als: 

M∑ N∑ 

W := W (γ) := 1 Bi,j , 

so erhält man für den bedingten Erwartungswert von W bei gegebenem M und 

N: E[W | M, N] = MNp und für alle i ɛ {1, . . . , M}, j ɛ {1, . . . , N}: 

E ( exp(p − 1 Bi,j ) ) = e p( 1 − p + p e 

i=1 

j=1 

) 

= e p (1 − cp), mit c = e − 1 

e 

ɛ (0, 1). 

Aufgrund der Unabhängigkeit der Zeichenketten sind B i,j und B i ′ ,j ′ für alle 

i, i ′ ɛ {1, . . . , M}, j, j ′ ɛ {1, . . . , N} mit (i, j) ≠ (i ′ , j ′ ) unabhängig. Mit einfachen 

analytischen Mitteln lässt sich zeigen, dass für alle a ɛ (0, 1), v > 0 gilt:


(1−a) v ≤ 1 . Somit folgt bei gegebenem M und N aus der Markov-Ungleichung: 

av 

P (W ≤ d − 1 | M, N) = P ( E[W |M, N] − W ≥ E[W |M, N] − d + 1 ∣ ) 

M, N 

≤ E( exp(E[W |M, N] − W ) ∣ ) 

M, N 

exp ( E[W |M, N] − d + 1 ) 

∑ N 

j=1 (p − 1 B i,j 

) ) ∣ ∣ M, N 

) 

= E ( exp ( ∑ M 

i=1 

exp(MN p − d + 1) 

∏ M ∏ N 

i=1 j=1 E ( exp(p − 1 Bi,j ) ) 

= 

(e p ) MN e −d+1 

( ) MN 

e p (1 − cp) 

= 

e d−1 

e p 

≤ 

ed−1 

MN cp 

= ed 

e − 1 · 1 

MNp . 

Da M und N unabhängig sind, folgt mit der Glättungsregel für die Wahrscheinlichkeit, 

dass höchstens d-1 Paare von Blöcken empirische Verteilung γ haben: 

P (W ≤ d − 1) ≤ E [ 1 {W ≤d−1} 1 {M≥1} 1 {N≥1} 

] 

+ P (M = 0) + P (N = 0) 

= E [ ] 

P (W ≤ d−1 | M, N)1 {M≥1} 1 {N≥1} + P (M =0) + P (N =0) 

e d [ 

≤ 

(e − 1)p E 1{M≥1} 

] [ 1{N≥1} 

] 

E + P (M = 0) + P (N = 0), 

M N 

mit der Konvention 0 := 0, um unnötige Fallunterscheidungen zu vermeiden. Für 

0 

alle n ≥ 0 gilt 1 {n≥1} (n + 1) ≤ 2n und somit 1 {n≥1} 

≤ 2 . M ist binomialverteilt 

n n+1 

mit Parameter ñ := n ɛ l N und ˜p := P( ) 

L l (X 1 · · · X l ) = γ X . Somit ergibt sich für 

den ersten Erwartungswert: 

[ 1{M≥1} 

] [ 

2 

] 

E ≤ E 

M M + 1 

en∑ 

(ñ ) 

1 

= 2 

˜p k (1 − ˜p) en−k 

k + 1 k 

k=0 

2 [ 

= 

] 

1 − (1 − ˜p) 

en+1 

(ñ + 1)˜p 

≤ 2 

˜p ñ 

= 

2l 

P ( L l (X 1 · · · X l ) = γ X 

) 

n 

.


Analog gilt für den zweiten Erwartungswert: 

Aus (1 − a) v ≤ 1 

av 

E 

[ 1{N≥1} 

N 

erhält man: 

] 

≤ 

2l 

P ( L l (Y 1 · · · Y l ) = γ Y 

) 

n 

. 

P (M = 0) = 

≤ 

P (N = 0) ≤ 

( 

1 − P ( L l (X 1 · · · X l ) = γ X 

) ) n l 

l 

n P ( ) 

L l (X 1 · · · X l ) = γ X 

l 

n P ( ) . 

L l (Y 1 · · · Y l ) = γ Y 

Für die Wahrscheinlichkeit P (W ≤ d − 1) folgt daraus: 

Wegen 

P (W ≤ d − 1) ≤ 

und ebenso 

4e d l 2 

(e−1) n 2 p P ( ) ( ) 

L l (X 1 · · · X l ) = γ X P Ll (Y 1 · · · Y l ) = γ Y 

l 

+ 

n P ( l 

) + 

L l (X 1 · · · X l ) = γ X n P ( ) . 

L l (Y 1 · · · Y l ) = γ Y 

p = P (B 1,1 ) 

= P ( L l( (X 1 ,Y 1 ), . . . , (X l ,Y l ) ) =γ ∣ ∣ L 

l ( X 1 · · · X l 

) 

=γX , L l( Y 1 · · · Y l 

) 

=γY 

) 

ergibt sich mit Dembo und Zeitouni [35, Lemma 2.1.9] für die Wahrscheinlichkeiten 

im Nenner des ersten Summanden: 

Ebenso folgt: 

p P ( L l (X 1 · · · X l )=γ X 

) 

P 

( 

L l (Y 1 · · · Y l )=γ Y 

) 

= P ( L l( (X 1 , Y 1 ), . . . , (X l , Y l ) ) =γ ) 

≥ ( l+1 ) −ξ 2 exp ( −lH(γ|P (X,Y ) ) ) . 

P ( L l (X 1 · · · X l ) = γ X 

) 

≥ (l + 1) −ξ exp ( − lH(γ X |P X ) ) und 

P ( L l (Y 1 · · · Y l ) = γ Y 

) 

≥ (l + 1) −ξ exp ( − lH(γ Y |P Y ) ) . 

Wählt man abkürzend ξ ′ : = ξ 2 − ξ + 1 ɛ N, so läßt sich damit P (W ≤ d − 1)


abschätzen: 

P (W ≤ d−1) ≤ 4ed l 2 

(e−1) n 2 (l+1)ξ2 exp ( lH(γ|P (X,Y ) ) ) 

+ l ( 

n (l+1)ξ exp ( lH(γ X |P X ) ) + exp ( lH(γ Y |P Y ) )) 

( 

≤ (l+1)ξ+1 4e d (l + 1) ξ′ 

exp ( lH(γ|P (X,Y ) ) ) 

n (e−1) n 

(2.2.1) 

+ exp ( lH(γ X |P X ) ) + exp ( lH(γ Y |P Y ) )) . 

Mit t := (1 − 2ε) 2 soll als nächstes gezeigt werden, dass D ɛ 

Θ ∗ 

R existiert, so dass 

für alle ε > 0 und hinreichend große n ɛ N gilt: 

P ( M (d) 

n ≤ t log n ) ≤ Dn − 1 2 ε2 . 

Entscheidend ist hierbei, dass Blöcke mit empirischer Verteilung α ∗ einen hinreichend 

großen Score ergeben. So ist nach Definition 2.1: 

H(α ∗ | P (X,Y ) ) = ∑ 

( 

) 

e Θ∗s(b,c) P (X,Y ) e Θ∗s(b,c) P (X,Y ) (b, c) 

(b, c) log 

P (X,Y ) (b, c) 

b,c ɛ A 

= Θ ∑ 

∗ s(b, c) α ∗ (b, c) 

b,c ɛ A 

= Θ ∗ E α ∗s. 

Für alle n ɛ N betrachtet man nun die Blocklänge l : = l n : = ⌈ (1−ε) log n 2 

H(α ∗ |P (X,Y ) )⌉ 

. Sei 

γ (n) ɛ M ln (A 2 ) gegeben durch: 

γ (n) 

b,c := 1 l n 

⌊l n α ∗ b,c⌋, für (b, c) ɛ A 2 \ {(ξ, ξ)} und γ (n) 

ξ,ξ := 1 − 

∑ 

γ (n) 

b,c . 

(b,c) ɛ A 2 \{(ξ,ξ)} 

Dann folgt: ∑ ∣ (n) 

b,c ɛ A γ 

b,c 

− α∗ ∣ 

b,c ≤ 2 

ξ 2 −1 

l n 

. Bezeichnet s M : = max b,c ɛ A s(b, c) das 

Maximum der Scoring-Funktion, so gilt: 

∑ 

l n E γ (n) s = l n s(b, c)γ (n) 

b,c 

b,c ɛ A 

= l n 

∑ 

b,c ɛ A 

s(b, c)α ∗ b,c − l n 

∑ 

b,c ɛ A 

s(b, c) ( αb,c ∗ − γ (n) ) 

b,c 

≥ l n E α ∗ s − 2s M ξ 2 

(1 − ε) 

≥ 

H(α ∗ | P (X,Y ) ) log n2 E α ∗ s − 2s M ξ 2 

= 2(1 − ε) log n 

Θ ∗ − 2s M ξ 2 .


Ist n ≥ N 1 := exp ( s Mε 

ξ 2 Θ ∗) und somit 2ε log n 

Θ ∗ 

≥ 2s M ξ 2 , so erhält man: 

l n E γ (n) s ≥ 2(1 − 2ε) log n 

Θ ∗ = t log n. 

Sei n ≥ N 1 und ω ɛ {W (γ (n) ) ≥ d}, das heißt für alle k ɛ {1, . . . , d} existieren 

paarweise verschiedene (π k X , πk Y ) ɛ {0, . . . , n l n 

} 2 mit 

L ln ( (Xπ 

k 

X l n+1(ω), Y π k 

Y l n+1(ω) ) , . . . , ( X (π k 

X +1)l n 

(ω), Y (π k 

Y +1)l n 

(ω) )) = γ (n) . 

Für M n 

(d) (ω) ergibt dies: 

{ 

∑ ln 

M n 

(d) (ω) ≥ min s ( X π k 

X l n+r(ω), Y ) ∣ } 

π k 

Y l n+r(ω) ∣ k ɛ {1, . . . , d} 

r=1 

= l n E γ (n) s 

≥ t log n. 

Daher ist {W (γ (n) ) ≥ d} ⊂ { M n 

(d) 

P ( M n (d) < t log n ) 

≤ P ( W (γ (n) ) ≤ d − 1 ) 

≤ (l n + 1) ξ+1 

n 

( 

4e d (l n + 1) ξ′ 

(e − 1)n 

≥ t log n } . Aus Gleichung (2.2.1) folgt: 

exp ( l n H(γ (n) |P (X,Y ) ) ) 

+ exp ( l n H(γ (n) 

X |P X ) ) + exp ( l n H(γ (n) 

Y |P Y ) )) . 

Wegen der Konvergenz γ (n) −→ n→∞ 

α ∗ und der Stetigkeit der Entropie gibt es N 2 ɛ N, 

so dass H(γ(n) |P (X,Y ) ) 

H(α ∗ |P (X,Y ) ) 

n ≥ N 2 und somit: 

P ( M n (d) < t log n ) 

≤ (l n + 1) ξ+1 

n 

≤ 1 + ε, H(γ(n) X |P X ) 

H(α ∗ X |P X ) 

( 

4e d (l n + 1) ξ′ 

(e − 1)n 

≤ 1 + ε und H(γ(n) Y |P Y ) 

H(α ∗ Y |P Y ) 

exp ( (1 + ε)l n H(α ∗ |P (X,Y ) ) ) 

≤ 1 + ε für alle 

+ exp ( (1 + ε)l n H(α ∗ X|P X ) ) + exp ( (1 + ε)l n H(α ∗ Y |P Y ) )) . 

Sei N 3 ɛ N so groß, dass für alle n ≥ N 3 gilt: 4ed (l n+1) ξ′ 

≤ n ε2 und damit wegen 

e−1 

l n := ⌈ (1−ε) log n 2 

H(α ∗ |P )⌉ 

auch: 

(X,Y ) 

4e d (l n + 1) ξ′ 

(e − 1)n 

exp ( (1 + ε)l n H(α ∗ |P (X,Y ) ) ) ( 

) 

1 

≤ exp 

2 (1 + ε)l nH(α ∗ |P (X,Y ) ) .


Nach Voraussetzung ist H(α ∗ | P (X,Y ) ) > 2 max { H(α ∗ X |P X ), H(α ∗ Y |P Y ) } , daher 

lässt sich der d-größte Score weiter abschätzen: 

P ( M (d) 

n ≤ t log n ) 

≤ (l n + 1) ξ+1 

n 

[ 

exp 

( 

1 

(1 + ε)l 2 nH ( α ∗ |P 

(X,Y ))) 

+ exp ( (1 + ε)l n H(αX|P ∗ X ) ) + exp ( (1 + ε)l n H(αY ∗ |P Y ) )] 

( 

≤ 3 (l n + 1) ξ+1 n −1 1 

exp (1 + ε)l 2 nH ( α ∗ (X,Y 

|P ))) 

( 

) 

1−ε 

ξ+1n 

≤ 3 

log H(α ∗ |P (X,Y ) ) n2 −1 

+ 2 

( ( 

1−ε 

· exp (1 + ε) 

log H(α ∗ |P (X,Y ) ) n2 + 1 

)H ( α ∗ (X,Y 

| P 

))) 

( 

) ξ+1 

1−ε 

≤ 3 

log n + 2 H(α ∗ |P (X,Y ) ) exp 

((1 + ε)H ( α ∗ | P (X,Y ))) n −ε2 . 

Sei D := 3 exp ( (1 + ε)H(α ∗ | P (X,Y ) ) ) und N 4 ɛ N hinreichend groß, so dass für 

alle n ≥ N 4 gilt: 

( 

) ξ+1 

1−ε 

log n + 2 1 

H(α ∗ |P (X,Y ) ) ≤ n 2 ε2 . 

Man erhält für alle n ≥ max{N 1 , N 2 , N 3 , N 4 } 

P ( M (d) 

n ≤ (1 − 2ε) 2 

Θ ∗ log n ) ≤ Dn − 1 2 ε2 . 

Die Behauptung wird nun mit dem Lemma von Borel–Cantelli zunächst für eine 

Teilfolge, in der Literatur üblicherweise n k -Gerüst genannt, bewiesen. Unter 

Zuhilfenahme der Monotonie von M n 

(d) wird diese Aussage schließlich für die verbleibenden 

Lücken gezeigt, das heißt, es wird bewiesen, dass die Abschätzungen 

im Wesentlichen auch außerhalb des n k -Gerüsts gelten. 

Mit n k := e k folgt für alle hinreichend großen k ɛ N: 

P ( M (d) 

n k 

≤ (1 − 2ε) 2 

Θ ∗ k ) ≤ D ( exp(− 1 2 ε2 ) ) k 

, 

so dass die Reihe ∑ ∞ 

k=1 P( M (d) 

n k 

≤ (1 − 2ε) 2 

Θ ∗ k ) konvergiert. Nach dem Lemma 

von Borel–Cantelli existiert eine messbare Menge M mit P (M) = 1, so dass auf 

M für hinreichend große k gilt: 

M (d) 

n k 

≥ (1 − 2ε) 2 

Θ ∗ k. 

Sei K ɛ N so groß, dass für alle k ≥ K gilt: 

(1 − 2ε)k ≥ (1 − 3ε)(k + 1).


Für alle n ≥ N 0 := max{N 1 , N 2 , N 3 , N 4 , e K } existiert genau ein k ≥ K, so dass 

n k ≤ n < n k+1 = e k+1 . Somit folgt auf M: 

M (d) 

n 

≥ M (d) 

n k 

≥ (1 − 2ε) 2 

Θ ∗ k 

≥ (1 − 3ε) 2 

Θ ∗ (k + 1) 

= (1 − 3ε) 2 

Θ ∗ log n k+1 

≥ (1 − 3ε) 2 

Θ ∗ log n. 

Wegen P (M) = 1 ergibt sich die Behauptung mit ε −→ 0. 

✷ 

Bemerkung: 

Die bewiesene Aussage lässt sich mit den in Arratia und Waterman [6] oder 

Dembo, Karlin und Zeitouni [33] vorgestellten Methoden auch auf die d größten 

Scores mit empirischer Verteilung in einer gegeben Teilmenge U ⊂ M 1 (A 2 ) verallgemeinern. 

Dies bringt keine neuen Erkenntnisse, erfordert aber stellenweise 

eine wesentlich aufwendigere Notation. Daher wurde hier darauf verzichtet, um 

den Beweis übersichtlich und die Struktur erkennbar zu halten. 

2.3 Poisson Approximation 

In diesem Abschnitt wird die gemeinsame Verteilung der Maxima gegen unabhängige 

Gumbel-Verteilungen gezeigt. In der Anwendung dürfte die asymptotische 

Unabhängikeit von Bedeutung sein, da diese Eigenschaft eine sehr einfache 

Berechnung der approximativen Wahrscheinlichkeiten ermöglicht. Anschaulich 

lässt sich diese Eigenschaft damit erklären, dass es sich beim Überschreiten 

eines großen Schwellenwerts um ein seltenes Ereignis handelt. Ist die Anzahl der 

betrachteten Zeichen hinreichend groß, so lässt sich die gegenseitige Beeinflussung 

dieser Ereignisse kontrollieren. 

Als geeignete Metrik hat sich für diese Fragestellung die sogenannte ” 

Totalvariation“ 

herausgestellt. In der Literatur sind zwei unterschiedliche Definitionen 

üblich, die sich um den Faktor 2 unterscheiden. Hier wird die Variante verwendet, 

wie sie von Arratia, Goldstein und Gordon in [3] und [4] in Zusammenhang mit 

der Stein–Chen-Methode definiert wird. 

Definition 2.4 (Totalvariation) 

Seien (Ω, A) ein Messraum und µ, ν ɛ M 1 (Ω, A) Wahrscheinlichkeitsmaße auf

2.3. Poisson Approximation 23 

(Ω, A). Dann ist die Totalvariation von µ und ν gegeben durch: 

∫ ∫ 

d TV (µ, ν) := sup ∣ fdµ − fdν∣ 

|f|≤1 

∣ 

= 2 sup ∣ µ(A) − ν(A) ∣. 

A ɛ A 

Bemerkungen: 

1. Die Totalvariation ist eine Metrik auf M 1 (Ω, A). Für Eigenschaften und Zusammenhänge 

zu anderen Metriken auf M 1 (Ω, A) siehe etwa Daley und Vere- 

Jones [31, Kapitel 9], Barbour, Holst und Janson [12, Appendix A.1] oder 

Reiss [74, Abschnitt 1.3 und 3.2]. 

2. Die Totalvariation ist für die folgende Untersuchung geeignet, weil sie einerseits 

stark genug ist, so dass zum Beispiel aus der Konvergenz d TV (µ n , µ) −→ n→∞ 

0 für 

µ n , µ ɛ M 1 (Ω, A) auch die Konvergenz in Verteilung µ D 

n −→ µ folgt. Andererseits 

ist sie nicht zu stark, so dass sich in vielen Anwendungen Abschätzungen 

der Totalvariation finden lassen. 

Ist I eine Indexmenge und (I i ) i ɛ I eine Familie von Bernoulli-verteilten Zufallsvariablen, 

so wird durch Ĩ(B) := ∑ i ɛ B I i, B ⊂ I in eindeutiger Weise ein Punktprozess 

mit Intensitätsmaß ν(B) = ∑ i ɛ B E I i, B ⊂ I definiert, vergleiche beispielsweise 

Resnick [75, Abschnitt 3.1] oder Reiss [74, Abschnitt 1.1]. Der Punktprozess 

Ĩ wird im Folgenden mit (I i ) i ɛ I identifiziert und auch mit (I i ) i ɛ I bezeichnet, da 

auf eine Unterscheidung hier verzichtet werden kann. 

Damit lässt sich nun das wichtigste Resultat dieses Kapitels formulieren. Im folgenden 

Satz wird die Wahrscheinlichkeit, dass die größten Scores große Schwellenwerte 

überschreiten, approximiert: 

Satz 2.5 

Seien d ɛ N und x (1) > · · · > x (d) > 0 gegeben. Definiert man die Schwellen 

t (k) 

n 

:= log n2 + x (k) 

, für alle k ɛ {1, . . . , d}, 

Θ ∗ 

so konvergiert die Anzahl der Überschreitungen dieser Schwellen 

N (k) 

n 

:= ∑ 1 (k) {t n


mit λ (k) := K ∗( ) 

e −x(k) −e −x(k−1) , wobei die Konstante K ∗ ɛ R nur von der Scoring- 

Funktion s und der Verteilung P (X,Y ) abhängt und ohne Einschränkung t (0) 

n := ∞ 

und e −x(0) := 0 zur Abkürzung verwendet wird. Insbesondere folgen die d größten 

Scores im Limes unabhängigen Gumbel-Verteilungen, so dass gilt: 

−→ n→∞ 

) 

> t (d) 

n 

P ( M n (1) > t (1) 

n ≥ M n 

(2) > · · · > t (d−1) 

n ≥ M n 

(d) 

{ ∏d−1 

( 

(K ∗ ) d−1 exp(−x (k) ) − exp(−x )) } 

(k−1) exp(−K ∗ e −x(d−1) ) 

k=1 

{ ( 

· 1 − exp − K ∗[ exp(−x (d) ) − exp(−x (d−1) ) ])} . 

Beweis: 

Mit den Bezeichnungen aus Abschnitt 2.3.2 und κ (k) 

n 

k ɛ {1, . . . , d} gilt: 

d TV 

( 

(N 

(1) 

n 

) 

, . . . , N n 

(d) ), P λ (1) ⊗ . . . ⊗ P λ (d) 

n ) ≠ (Ñ n 

(1) , . . . , Ñ n (d) ) ) 

≤ P ( (N n 

(1) , . . . , N (d) 

( 

+ d TV ( Ñ n 

(1) , . . . , Ñ (d) 

n ), (P κ 

(1) 

n 

, . . . , P κ (d) 

n )) 

: = ∑ q ɛ I E I∗U (q,k) 

( 

+ d TV (Pκ , . . . , P ), (P (1) 

n 

κ n (d) λ ⊗ . . . ⊗ P (1) λ (d))) . 

für alle 

Die Abschätzung dieser drei Summanden erfolgt nun mit den Ergebnissen aus 

Abschnitt 2.3.2: 

1. Nach Proposition 2.7 konvergiert P ( (N n 

(1) , . . . , N (d) 

n ) ≠ (Ñ n 

(1) 

, . . . , Ñ n 

(d) ) ) −→ n→∞ 

0. 

( 

2. Aus Lemma 2.8 folgt die Konvergenz d TV (I 

∗U 

(q,k) 

) (q,k) ɛ I ∗, (˜P ∗ (q,k) ) ) 

(q,k) ɛ I ∗ −→ n→∞ 

0. 

Wegen Ñ n 

(k) = ∑ q ɛ I I∗U (q,k) und P d 

= ∑ ˜P κ (k) 

n q ɛ I ∗ (q,k) 

für alle k ɛ {1, . . . , d} folgt 

die Behauptung. 

3. In ( Proposition 2.9 wird die Konvergenz der Poisson-Prozesse 

d TV (˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗) 

−→ 

n→∞ 

0 gezeigt. Wie in 2. ergibt sich die Aussage 

d 

aus P (k) κ 

= ∑ ˜P 

n q ɛ I ∗ (q,k) und P λ = d ∑ (k) q ɛ I P∗ (q,k) 

für alle k ɛ {1, . . . , d}. 

Die Unabhängigkeit ergibt sich explizit aus der Definition des Poisson-Prozesses 

und der Disjunktkeit der Schnitte (I×{k}) für k ɛ {1, . . . , d}, vergleiche etwa Resnick 

[75, Abschnitt 3.3.1], Daley und Vere-Jones [31, Abschnitt 2.1] oder Reiss [74, 

Abschnitt 1.2].


Die Konvergenz der Verteilung der d größten Scores erhält man hieraus wie folgt: 

P ( ) 

M n (1) > t (1) 

n ≥ M n 

(2) > · · · > t (d−1) 

n ≥ M n 

(d) > t (d) 

n 

= P ( N n 

(1) = 1, . . . , N n 

(d−1) = 1, N n (d) ≠ 0 ) 

−→ n→∞ 

P λ (1)({1}) · · · P λ (d−1)({1})P λ (d)({0} c ) 

∏d−1 

( ∑d−1 

) (1 

= λ (k) exp − λ (k) − exp(−λ (d) ) ) . 

k=1 

k=1 

Durch Einsetzen von λ (k) := K ∗( ) 

e −x(k) − e −x(k−1) folgt auch die zweite Behauptung. 

✷ 

Bemerkung: 

Die Berechnung der Doppel-Exponentialterme in obigen Formeln ist numerisch 

problemlos. Um die Approximation anwenden zu können, muss man jedoch auch 

die Konstante K ∗ bestimmen beziehungsweise numerisch approximieren. Für den 

hier untersuchten Fall wird die Konstante in Karlin und Dembo [54, Theorem A] 

angegeben mit: 

K ∗ = 

( 

exp − 2 ∑ ∞ 

k=1 

{ 

1 

k E[exp(Θ ∗ S k )1 {Sk


können. Um die Abhängigkeiten zu kontrollieren, gibt es im Wesentlichen zwei 

Ansätze: Den Kopplungsansatz, wie er beispielsweise in dem Standardwerk von 

Barbour, Holst und Janson [12] verfolgt wird, und den lokalen Ansatz, der hier 

verwendet werden soll. Für eine tiefer gehende Behandlung dieser beiden Ansätze 

siehe beispielsweise Barbour [11, Abschnitt 2]. 

Hier wird nun ein Spezialfall des lokalen Ansatzes, der im Weiteren verwendet 

wird, zitiert. Besondere Bedeutung kommt beim lokalen Ansatz den sogenannten 

Nachbarschaftsmengen zu, die die abhängigen Zufallsvariablen zusammenfassen: 

Satz 2.6 (Stein–Chen-Methode) 

Gegeben sei eine endliche Indexmenge I und eine Familie von Bernoulli-verteilten 

Zufallsvariablen (I α ) α ɛ I . Des Weiteren existiere für alle α ɛ I eine ” 

Nachbarschaftsmenge“ 

B α ⊂ I, so dass α ɛ B α ist und I α und I β für alle β ɛ I α c unabhängig 

sind. Ist (P α ) α ɛ I ein Poisson-Prozess auf I mit Intensitätsmaß ν ɛ M(I), 

ν(B) := ∑ α ɛ B E I α für alle B ⊂ I, so gilt: 

d TV 

( 

(Iα ) α ɛ I , (P α ) α ɛ I 

) 

≤ 4(b1 + b 2 ) 

mit 

b 1 := ∑ α ɛ I 

b 2 := ∑ α ɛ I 

∑ 

E I α E I β und 

β ɛ I α 

∑ 

E I α I β . 

(2.3.2) 

β ɛ I α\{α} 

Beweis: 

Die Behauptung folgt unmittelbar aus Arratia, Goldstein und Gordon [3, Theorem 

2] wegen der Unabhängigkeit von I α und I β , falls β ɛ I c α ist. 

✷ 

Bemerkung: 

Die Bedeutung der Konstanten wird in dem vielzitierten Artikel von Arratia, 

Goldstein und Gordon [3, Abschnitt 2] wie folgt erklärt: 

1) b 1 misst die Größe der Nachbarschaftsmengen B α . 

2) b 2 misst die Korrelation der Bernoulli-Zufallsvariablen innerhalb einer Nachbarschaftsmenge. 

3) In Arratia, Goldstein und Gordon [3] wird nicht gefordert, dass I α und I β 

für alle β ɛ I c 

α unabhängig sind. Statt dessen wird eine weitere Konstante 

b 3 eingeführt, die die schwache Abhängigkeit“ von I ” α und (I β ) β ɛ Iα 

c misst. 

Dies wird hier nicht weiter ausgeführt, da in der folgenden Anwendung B α so 

gewählt werden kann, dass die Unabhängigkeit gegeben ist.


2.3.2 Beweis von Satz 2.5 

Analog zu Dembo, Karlin und Zeitouni [34] und Hansen [50, Kapitel 5] wird 

die Stein–Chen-Methode zur Poisson Approximation angewandt. Um die Unabhängigkeit 

der verschiedenen Maxima zu erhalten, wird jedoch die Prozessversion, 

wie sie in Abschnitt 2.3.1 vorgestellt wurde, benutzt. 

Dafür wird zunächst der Punktprozess J ∗ definiert, der die Überschreitungen der 

Schwellen (t (k) 

n ) 1≤k≤d beschreibt. Für alle a ɛ E n , k ɛ {1, . . . , d} sei: 

J ∗ (a,k) := 1 . 

{t (k) 

n t (k) 

n = J ∗ (a,k) ≥ k , 

a ɛ E n i=1 a ɛ E n 

so dass im Folgenden (J ∗ (a,k) ) a ɛ E n,k ɛ {1,...,d} untersucht wird. 

Wie in Dembo, Karlin und Zeitouni [33, Lemma 1] gezeigt wird, leisten lange Segmente 

einen vernachlässigbaren Beitrag zu positiven Scores, das heißt, es existiert 

eine Konstante c 0 > 0, so dass für alle n ɛ N gilt: 

( 

) 

l∑ 

P sup s(X i+k , Y j+k ) ≥ 0 ≤ 1 n . 2 

l≥c 0 log n 

i,j ɛ {0,...,n−l} 

k=1 

Aufgrund dieser Eigenschaft genügt es, kurze Segmente zu betrachten. Diese Beschränkung 

der zu untersuchenden Alignments geht in die folgenden Definitionen 

ein und wird verwendet, um die Abhängigkeiten kontrollieren zu können. 

Wie bisher werden die Zeichenketten wieder in unabhängige Blöcke aufgeteilt. 

Die Länge der Blöcke ist hier l n : = (log n 2 ) 3 , die Anzahl der Blöcke m n : = n l n 

. 

Ohne Einschränkung sei n ɛ N hinreichend groß, so dass c 0 log n ≤ l n . 

Um lokales Sequence Matching zu untersuchen, müssen Verschiebungen der Zeichenketten 

gegeneinander betrachtet werden. Analog Dembo, Karlin und Zeitouni 

[34] werden hier die Zeichen in den Blöcken der Folge Y zyklisch verschoben, 

um eine gesonderte Untersuchung von sogenannten Randeffekten zu umgehen. 

Für ζ ɛ {0, . . . , l n −1} werden diese sogenannten ζ-zyklisch-verschobenen Blöcke“ 

” 

X i := (Xh i ) h=1,...,m n 

und Y j,ζ := (Y j,ζ 

h ) h=1,...,m n 

definiert durch: 

Xh i := X il n+h, für alle i ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}, 

Y j,ζ 

h 

:= Y jln+(ζ+h) mod l n 

, für alle j ɛ {0, . . . , m n − 1}, h ɛ {1, . . . , l n − 1}. 

Hansen [50, Abschnitt 5.4] nimmt statt dessen eine Unterteilung in Streifen vor 

und betrachtet dann ” 

diagonals-within-a-strip“. Hier sollen jedoch die ζ-zyklischverschobenen 

Blöcke verwendet werden, um die Resultate aus Dembo, Karlin und 

Zeitouni [34] direkt anwenden zu können.


Es seien I := {0, . . . , m n −1} 2 ×{0, . . . , l n } und I ∗ := I×{1, . . . , d}. Für (i, j, ζ) ɛ I 

und U ɛ M 1 (A 2 ) bezeichne 

{ r+l−1 ∑ ∣ 

Mi,j,ζ U := max s(Xh, i Y j,ζ ∣∣ 

h ) 0 ≤ l ≤ c0 log n, 1 ≤ r ≤ l n − l, } 

h=r 

L l( (Xh, i Y j,ζ 

h 

) ) 

h=r,...,r+l−1 ɛ U 

den maximalen Score mit empirischer Verteilung in U auf der Diagonalen des 

Blocks (X i , Y j,ζ ). Definiert man für alle (i, j, ζ, k) ɛ I ∗ : 

I ∗U 

so kann ( ) 

I ∗U 

i,j,ζ,k (i,j,ζ,k) ɛ I ∗ 

n } 

i,j,ζ,k := { 

1{M U 

i,j,ζ >t (1) 

1 {t 

(k) 

n 

t(d n ) } 

wie in Barbour und Månsson [13] oder Aldous [2] beschrieben, betrachtet werden. 

Eine Formulierung, in der durchgängig Prozessversionen betrachtet werden, wäre 

zwar wünschenswert, scheitert aber an der Abschätzung des Abstands zwischen 

(J ∗ (a,k) ) e ɛ E n, k ɛ {1,...,d} und (I ∗U 

(e,k) ) e ɛ I, k ɛ {1,...,d}. Weil beide auf verschiedenen Indexmengen 

definiert sind, ist es nicht möglich, den Abstand mit der Totalvariationsmetrik 

zu messen. Daher wird in der nächsten Proposition die Aussage für die 

Schnitte (I × {k}), k ɛ {1, . . . , d} gezeigt. 

Proposition 2.7 

Seien (J ∗ (a,k) ) a ɛ E n, k ɛ {1,...,d} und (I ∗U 

(e,k) ) e ɛ I, k ɛ {1,...,d} wie oben. Dann gilt für N n 

(k) wie 

in Satz 2.5 und Ñ n 

(k) := ∑ q ɛ I I∗U , k ɛ {1, . . . , d}: 

( (N 

(1) 

P 

n 

(q,k) 

, . . . , N (d) 

n 

) 

≠ 

(Ñ 

(1) 

n 

, . . . , Ñ (d) 

n 

) ) −→ 

n→∞ 

0. 

Beweis: 

Die Behauptung wird auf den Beweis von Dembo, Karlin und Zeitouni [34, Seite 

2027–2029] zurückgeführt. Es gilt: 

( (N 

(1) 

P 

n 

( d⋃ 

= P 

= 

≤ 

, . . . , N (d) 

n 

k=1 

{ 

N 

(k) 

n 

( 

d∑ {N 

(k) 

P 

k=1 

n 

) 

≠ 

(Ñ 

(1) 

n 

≠ Ñ } ) 

n 

(k) 

≠ Ñ (k) 

n 

, . . . , Ñ (d) 

n 

k−1 

} ⋂ 

∩ 

i=1 

) ) 

{ 

N 

(i) 

n 

= Ñ } ) 

n 

(i) 

( 

d∑ ∑ 

P 

1 ≠ ∑ ) 

{maxq ɛ {1,...,l} S (i,j,q) >t (k) 1 

n } {M U . 

a >t (k) 

n } 

(i,j,l) ɛ A n a ɛ I 

k=1


Es entspricht jedoch ∑ a ɛ I 1 gerade W aus [34, Gleichung (2.3)]. Ferner 

{Ma U >t n 

(k) } t (k) 

n 

ist ∑ (i,j,l) ɛ A n 

1 in den Bezeichnungen von [34] W . Die 

{maxq ɛ {1,...,l} S (i,j,q) >t (k) 

n } t (k) 

n 

Aussage ergibt sich daher aus der Zerlegung von {W y ≠ W y } in [34, Seite 2029]. 

✷ 

Der Beweis verläuft analog zum Beweis von Gleichung (5.40) in Hansen [50, 

Abschnitt 5.5.6], wo die Aussage für Markov-Ketten statt für unabhängig Zeichen 

und die Betrachtung von diagonals-within-a-strip statt ζ-verschobenen Blöcken 

gezeigt wird. 

Im folgenden Lemma wird die Prozessversion der Stein–Chen-Methode aus 

Satz 2.6 auf ( ) 

I ∗U 

i,j,ζ,k angewendet: 

(i,j,ζ,k) ɛ I ∗ 

Lemma 2.8 

Es seien ( ) 

I ∗U 

i,j,ζ,k (i,j,ζ,k) ɛ I ∗ 

und ( ) 

I U i,j,ζ 

(i,j,ζ) ɛ I 

wie oben und die Poisson-Prozesse 

(˜P ∗ (a,k) ) (a,k) ɛ I ∗ und (˜P a ) a ɛ I durch die Intensitätsmaße ˜Q ∗ und ˜Q wie folgt gegeben: 

˜Q ∗ (A ∗ ) := ∑ E I ∗U 

a , für alle A ∗ ⊂ I ∗ und 

a ɛ A ∗ 

˜Q(A) := ∑ a ɛ A 

E I U a , für alle A ⊂ I. 

Dann gilt 

d TV 

(( 

I 

∗U 

i,j,ζ,k 

)(i,j,ζ,k) ɛ I ∗ , (˜P ∗ (a,k)) (a,k) ɛ I ∗) 

−→ 

n→∞ 

d TV 

(( 

I 

U 

i,j,ζ 

)(i,j,ζ) ɛ I , (˜P a ) a ɛ I 

) 

−→ 

n→∞ 

0. 

0 und 

Beweis: 

Um Satz 2.6 anwenden zu können, müssen zunächst die Nachbarschaftsmengen 

definiert werden. Sei also (i, j, ζ, k) ɛ I ∗ . Dann wählt man B (i,j,ζ) wie in Dembo, 

Karlin und Zeitouni [34] und B(i,j,ζ,k) ∗ in Anlehnung an Arratia, Goldstein und 

Gordon [4, Abschnitt 3.1]: 

B (i,j,ζ) := {(i ′ , j ′ , ζ ′ ) | i = i ′ oder j = j ′ } 

:= B (i,j,ζ) × {1, . . . , d}. 

B ∗ (i,j,ζ,k) 

Sei im Folgenden U : = Uδ 

α∗ : = {α ɛ M(A 2 ) | d TV (α, α ∗ ) < δ} die δ-Umgebung 

von α ∗ für ein noch zu wählendes δ > 0 und seien b ∗ 1 und b ∗ 2 die Konstanten 

aus Gleichung (2.3.2) bezüglich ( ) 

I ∗U 

beziehungsweise b 1 und b 2 die 

Konstanten für ( ) 

I U i,j,ζ 

und b 1 −→ n→∞ 

0, b 2 −→ n→∞ 

0. 

i,j,ζ,k 

(i,j,ζ,k) ɛ I ∗ 

(i,j,ζ) ɛ I . Nach Satz 2.6 ist zu zeigen, dass b∗ 1 −→ n→∞ 

0, b ∗ 2 −→ n→∞ 

0


Wegen der Wahl von (Ba) ∗ a ɛ I ∗ folgt mit Arratia, Goldstein und Gordon [4, Abschnitt 

3.1] b ∗ 1 = b 1 und b ∗ 2 = b 2 , so dass im Folgenden die Konstanten b 1 und b 2 

bezüglich ( ) 

I U i,j,ζ betrachtet werden: 

(i,j,ζ) ɛ I 

b 1 = ∑ a ɛ I 

b 2 = ∑ a ɛ I 

∑ 

P (I U a = 1) P (I U b = 1) und 

b ɛ B a 

∑ 

P (I U a = 1, I U b = 1). 

b ɛ B a\{a} 

Diese stimmen jedoch mit den Konstanten aus Dembo, Karlin und Zeitouni [34, 

Seite 2031] überein, so dass man aus [34, Gleichung (2.11)] erhält, dass b 1 −→ n→∞ 

0 

und aus [34, Lemma 2], dass b 2 −→ n→∞ 

0 für hinreichend kleine δ > 0. 

Hieraus folgt mit Satz 2.6: 

d TV 

(( 

I 

∗U 

(a,k) 

) 

(a,k) ɛ I ∗ , (˜P∗ (a,k) 

)(a,k) ɛ I ∗ ) 

≤ 4(b1 + b 2 ) −→ n→∞ 

0. 

Das ist die Behauptung. 

✷ 

In der folgenden technischen Proposition wird die Konvergenz zweier Poisson- 

Prozesse auf die Konvergenz der Intensitätsmaße zurückgeführt: 


Ist (˜P∗ a der Poisson-Prozess mit Intensitätsmaß 

)a ˜Q ∗ (A ∗ ) = ∑ ɛ I ∗ a ɛ A 

E ∗ I ∗U 

a , für 

alle A ∗ ⊂ I ∗ aus Lemma 2.8 und ( ) 

P ∗ a der Poisson-Prozess mit Intensitätsmaß 

a ɛ I ∗ 

Q ∗ , gegeben durch: 

Q ∗ (A ∗ ) := ∑ a ɛ A ∗ λ ∗ a, für alle A ∗ ⊂ I ∗ , 

λ ∗ (q,k) 

:= 

K∗ 

m 2 nl n 

[ 

exp ( − x (k)) − exp ( − x (k−1))] , für alle (q, k) ɛ I ∗ . 

Dann konvergiert d TV 

( 

(˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗) 

−→ 

n→∞ 

0. 

Beweis: 

Die Totalvariation der beiden Poisson-Prozesse wird mit Reiss [74, Theorem 3.2.2] 

abgeschätzt. Sei ν 0 ɛ M(I ∗ ) das Zählmaß ν 0 (B) = |B| für alle B ⊂ I ∗ . Wegen 

|I ∗ | = m 2 nl n d ist ν 0 endlich. Des Weiteren ist E I ∗U 

· 

Dichte von ˜Q ∗ bezüglich ν 0 

und λ ∗· Dichte von Q∗ bezüglich ν 0 . 

Um unnötige Fallunterscheidungen zu vermeiden, sei t (0) 

n 

= x (0) : = ∞. Da die


(M U a ) a ɛ I identisch verteilt sind, folgt aus Reiss [74, Theorem 3.2.2]: 

( ) 

d TV (˜P∗ a ) a ɛ I ∗, (P ∗ a) a ɛ I ∗ 

≤ 3 ∑ ∣ E I 

∗U 

2 

a − λ ∗ ∣ 

a 

a ɛ I ∗ 

∣ 

= 3 ∑ ∣∣∣∣ 

P (Mq 

U > t (k) 

n ) − K∗ e −x(k) 

− P (M 

2 

m 2 q U > t (k−1) 

n 

(q,k) ɛ I 

nl n ∗ ≤ 3m 2 ∣ 

nl n d max ∣P ( ) 

M(0,0,0) U > t (k) K ∗ 

n − exp ( − x (k))∣ ∣ k ɛ {1,...,d} 

m 2 nl n 

∣ 

= 3d max ∣m 2 nl n P ( ) 

M(0,0,0) U > t (k) − K ∗ exp ( − x (k))∣ ∣ ∣. 

k ɛ {1,...,d} 

n 

∣ 

) + K∗ e ∣∣∣∣ −x(k−1) 

m 2 nl n 

Der Term im Betrag entspricht aber gerade dem in Dembo, Karlin und Zeitouni 

[34, Gleichung (2.11)] abgeschätzten. Da d ɛ N fest ist, folgt daraus die Behauptung. 

✷ 

Aus den in diesem Abschnitt gezeigten Aussagen ergibt sich Satz 2.5 und somit 

die Konvergenz der d größten Scores gegen unabhängige Gumbel-Verteilungen.

32 Kapitel 2. Vergleich zweier Zeichenketten

33 

Kapitel 3 

Scan-Statistiken mit variabler 

Fenstergröße 

In diesem Kapitel wird die Häufigkeit des Vorkommens eines gegebenen Musters 

in einer zufälligen Zeichenfolge untersucht. Hierbei wird ein sogenanntes Scan- 

Fenster auf die zu durchsuchende Zeichenkette gelegt und verschoben und gezählt, 

wie oft das Muster innerhalb des Scan-Fensters, auftritt. Daraus leitet sich der 

Name ” 

Scan-Statistik“ ab. Die Position des Fensters wird als Zeitparameter interpretiert, 

so dass man einen zeitabhängigen stochastischen Prozess erhält. 

Die Literatur ist sehr umfangreich und vielfältig, siehe etwa die Bücher von Balakrishnan 

und Koutras [10] oder Glaz und Balakrishnan [47], sowie die Artikel 

von Pozdnyakov, Glaz, Kulldorff und Steele [69] oder Karlin und Chen [53], um 

nur einige Beispiele zu nennen. Eine interessante Anwendung in der genetischen 

Sequenzanalyse ist zum Beispiel in Leung, Choi, Xia und Chen [58] gegeben, 

wo das Vorkommen von Clustern von Palindromen im Genom von Herpesviren 

untersucht wird. 

Hier wird die Abhängigkeit des Grenzprozesses vom asymptotischen Verhalten der 

Fenstergröße betrachtet. Konvergiert die Fenstergröße gegen einen echt positiven 

Wert, so erhält man einen stetigen Grenzprozess und die Scan-Statistik lässt sich 

durch ein einfaches Funktional einer Brownschen Bewegung B approximieren. 

Konvergiert die Fenstergröße gegen 0, so ist die Stetigkeit des Grenzprozesses 

nicht mehr gegeben. 


Betrachtet wird eine Zeichenkette X : = (X i ) i ɛN über dem endlichen Alphabet 

A : = {1, . . . , ξ}. Im Folgenden sei die Folge X 

∑ 

stationär und ϕ-mischend mit 

∞ 

√ 

n=1 ϕ(n) < ∞. 

Gegeben sei ein Muster w = w 1 · · · w l ɛ A l der Länge l ɛ N. Es bezeichne I w (i) :=

34 Kapitel 3. Scan-Statistiken mit variabler Fenstergröße 

1 {Xi···X i+l−1 =w 1···w l } := 1 {Xi =w 1 ,...,X i+l−1 =w l }. Aus der Definition folgt unmittelbar, 

dass auch die Folge ( I w (i) ) i ɛN ϕ-mischend mit einer um l verschobenen Funktion 

ist. Um die Bezeichnung nicht unnötig kompliziert zu machen, wird diese 

verschobene Funktion wieder mit ϕ bezeichnet. 

Ebenso überträgt sich die Stationarität, so dass gilt: 

π w := E ( I w (i) ) = P (X 1 · · · X l−1 = w 1 · · · w l ) 

ist unabhängig von i ɛ N. Des Weiteren konvergiert unter diesen Voraussetzungen 

nach Theorem 20.1 in Billingsley [17] die Summe 

σ 2 0 := Var( I w (1) ) + 2 

∞∑ 

Kov ( I w (1), I w (1 + j) ) . (3.1.1) 

j=1 

Im Folgenden sei π w > 0, das heißt das Wort w kommt mit positiver Wahrscheinlichkeit 

vor und σ0 2 > 0. 

Zur Abkürzung bezeichne N n : = ∑ n 

( 

i=1 Iw (i) − π w) die zentrierte Anzahl des 

Vorkommens von w in X 1 , . . . , X n . Damit lässt sich nun die Scan-Statistik zur 

Fenstergröße r ɛ (0, 1) definieren durch 

D n (t) := N ⌊(t+r)n⌋ − N ⌊tn⌋ = 

⌊(t+r)n⌋ 

∑ 

i=⌊tn⌋+1 

( 

Iw (i) − π w) , für alle t > 0. 

Zur Veranschaulichung sei darauf hingewiesen, dass es sich hierbei bis auf den 

Rundungsfehler ε := ⌊(t + r)n⌋ − ⌊tn⌋ − ⌊rn⌋ ɛ {0, 1} um die Scan-Statistik mit 

s := ⌊rn⌋ ɛ N Zeichen handelt: 

D n (t) = N ⌊tn⌋+s+ε − N ⌊tn⌋ = 

⌊tn⌋+s+ε 

∑ 

i=⌊tn⌋+1 

( 

Iw (i) − π w) . 

Die hier untersuchte Frage ist die, für welche Fenstergrößen die Scan-Statistik 

einen funktionalen Grenzwertsatz erfüllt, das heißt, für welche Folgen (r n ) n ɛN 

existiert eine Normierung (M n ) n ɛN und ein Grenzprozess (D t ) t ɛ [0,1] , so dass 

M − 1 2 

n D D 

n −→ D in D[0, 1]? Des Weiteren wird die Stetigkeit des Grenzprozesses 

D untersucht. 

3.2 Ergebnisse 

Da das Grenzverhalten von D n wesentlich von der Fenstergröße r = r n abhängt, 

werden die folgenden Fälle unterschieden:

3.2. Ergebnisse 35 

1) r n ↘ r > 0: Als Grenzprozess erhält man (B·+r −B·), insbesondere also einen 

stetigen Grenzprozess. Ein Spezialfall hiervon ist durch r n = r für alle n ɛ N 

gegeben, was auch mit dem Invarianzprinzip für mischende Folgen gezeigt 

werden kann. 

2) r n ↘ 0, nr n −→ ∞: In diesem Fall bleibt die Stetigkeit nicht erhalten. Man 

erhält, dass die endlichdimensionalen Randverteilungen des Grenzprozesses 

unabhängig normalverteilt sind. Dieses Ergebnis ist wenig überraschend, da 

r n −→ 0 nicht nur bedeutet, dass sich zwei beliebige unterschiedliche Fenster 

im Limes nicht überlappen, sondern auch, dass der Abstand zwischen den 

Fenstern mindestens linear wächst, was mit der Mischungseigenschaft der X i 

zu unabhängigen Randverteilungen führt. 

3) nr n → R: Für den Fall, dass die Anzahl der Zeichen im Scan-Fenster asymptotisch 

konstant ist, gibt es umfangreiche Literatur, siehe beispielsweise die 

Bücher von Glaz und Balakrishnan [47] beziehungsweise Balakrishnan und 

Koutras [10] oder die Artikel von Dembo und Karlin [32], Chen und Karlin 

[25] beziehungsweise Pozdnyakov, Glaz, Kulldorff und Steele [69]. Daher 

wird dieser Fall im Folgenden nicht weiter behandelt. 

Der folgende Satz fasst die wichtigsten Resultate dieses Kapitels zusammen. Unter 

allgemeinen Voraussetzungen an die Fenstergröße wird ein funktionaler Zentraler 

Grenzwertsatz für die Scan-Statistik bei geeigneter Normierung gezeigt: 

Satz 3.1 

Seien die Voraussetzungen aus Abschnitt 3.1 erfüllt und die Folge (r n ) n ɛN ⊂ (0, 1) 

sei monoton fallend. 

−→ D 

B·+r − B· 

1 

1) Gilt r n −→ n→∞ 

r > 0, so folgt: √ 

σ 0 n 

D n 

in D[0, 1]. 

Der Grenzprozess X t = B t+r − B t , t ɛ [0, 1] ist ein stationärer Gauß-Prozess 

mit Kovarianz E X s X t = s + r − min{t, s + r} für alle 0 ≤ s ≤ t ≤ 1. 

1 

2) Gilt r n −→ n→∞ 

0 und nr n −→ n→∞ 

∞, so folgt: √ D D f 

σ 0 rnn n −→ D, wobei D ein Prozess 

mit unabhängigen normalverteilten Randverteilungen ist. 

Aus Teil 1 dieses Satzes ergibt sich für die maximale Scan-Statistik 

1 

T n := sup √ D n (t) 

t ɛ [0,1] σ 0 n 

unmittelbar die folgende Aussage: 

Korollar 3.2 

Es gelten die Voraussetzungen aus Abschnitt 3.1. Weiterhin konvergiere r n von 

oben gegen einen echt positiven Grenzwert r > 0. Dann folgt: 

T n 

D 

−→ sup 

t ɛ [0,1] 

( 

Bt+r − B t 

) 

.


Einige Ergebnisse zur Verteilung von sup t ɛ [0,1] (B t+r − B t ) findet man in Piterbarg 

[68]. 

In Korollar 3.2 wird das asymptotische Verhalten der maximalen Scan-Statistik 

im Fall r n ↘ r > 0 untersucht. Dies ist vergleichbar zu den Resultaten in der 

Literatur, wo für den Fall, dass die Anzahl der Zeichen im Scan-Fenster konstant 

oder nur schwach wachsend ist, die maximale Scan-Statistik betrachtet wird. 

Beweis von Satz 3.1: 

Wegen der Skalierungseigenschaft 

(B s ) s ɛ [0,2] d = (√ 2B s 

)s ɛ [0,1] 

der Brownschen Bewegung lässt sich der Randeffekt, der dadurch entsteht, dass 

das Suchfenster rechts über die 1 hinausgeschoben wird, vernachlässigen: Es 

genügt, die Behauptung auf D[0, 1] zu zeigen. Mit obiger Umskalierung folgt dann 

die Aussage auf D[0, 1 + r]. Auf diesen Randeffekt wird daher im Beweis der Teilbehauptungen 

in den folgenden beiden Abschnitten nicht weiter eingegangen. 

1) Die Verteilungskonvergenz in Teil 1 folgt aus Korollar 3.4 und Satz 3.8. Die 

Stationarität folgt aus B t+r − B t d = N (0, r). Weiterhin gilt für 0 ≤ s ≤ t ≤ 1: 

E X s X t = E B s+r B t+r −E B s+r B t −E B s B t+r +E B s B t = s+r−min{s + r, t}. 

2) Teil 2 wird in Satz 3.9 gezeigt. ✷ 

3.3 Straffheit 

In diesem Abschnitt wird gezeigt, dass n − 1 2 D n gegen einen stetigen Grenzprozess 

konvergiert, falls r n einen echt positiven Grenzwert hat. Im folgenden Satz werden 

die technischen Details hierfür bereitgestellt: 

Satz 3.3 

Es gelten die Voraussetzungen aus Abschnitt 3.1, r n sei monoton fallend und 

r n −→ r > 0. Dann gilt: Für alle ε, η > 0 existiert δ ɛ (0, 1) und n 0 ɛ N, so dass 

für alle n ≥ n 0 gilt: 

P 

( 

sup 

|s−t|≤δ 

D n (s) 

∣ √ n 

− D ∣ ) 

√ 

n(t) ∣∣∣ 

≥ ε ≤ η. 

n 

Beweis: 

Für ε, η > 0 und C ɛ R + 

definiert man δ ′ : = ηε4 

C 

> 0, n 0 : = ⌈ 1 δ ′ ⌉ ɛ N und

3.3. Straffheit 37 

δ : = 

1 n 0 

ɛ (0, δ ′ ]. Nach der Bemerkung in Billingsley [17, S. 128], gilt das Korollar 

zu Theorem 8.3 auch in D[0,1], so dass mit der Zerlegung t j := jδ für alle 

j ɛ {0, . . . , n 0 } gilt: 

( 

P sup 

D n (s) 

∣ √ − D ∣ ) ( 

√ 

n(t) ∣∣∣ 

n 0 −1 

∣ 

∑ 

∣∣∣ D n (s) 

≥ ε ≤ P sup √ − D ∣ ) 

n(t j ) ∣∣∣ 

√ ≥ ε . 

n n t j ≤s≤t j+1 n n 3 

|s−t|≤δ 

j=0 

(3.3.2) 

Analog zum Beweis von Theorem 12.3 in Billingsley [17] werden zunächst die 

Summanden abgeschätzt. Seien also n ≥ n 0 und j ɛ {0, . . . , n 0 − 1} fest. Nach 

Definition ist D n (t) = ∑ ⌊tn+r nn⌋ 

i=⌊tn⌋+1 (I w(i) − π w ) stückweise konstant und wegen 

D n (t+ 1 )−D n n(t) = I w (⌊tn+r n n+1⌋)−I w (⌊tn+1⌋) können zwischen t und t+ 1 n 

höchstens zwei Sprungstellen von D n liegen. Insbesondere hat D n zwischen t j = jδ 

und t j+1 = jδ + δ höchstens 2nδ Sprungstellen. Seien also 0 ≤ s 0 < · · · < s m ≤ δ 

mit m ≤ 2nδ so, dass (t j + s i ) i=0,...,m die Unstetigkeitsstellen von D n im Intervall 

[t j , t j+1 ] sind. 

Sei ξ i : = D n (jδ + s i ) − D n (jδ + s i −) die Sprunghöhe von D n in jδ + s i , wobei 

zur Abkürzung D n (jδ + s i −) : = lim h↗jδ+si D n (h) den linksseitigen Grenzwert 

bezeichnet. Dann gilt ξ i = ξ 1,i − ξ 2,i mit 

ξ 1,i := 1N ( (t j + r n + s i )n ) · (I 

w (⌊(t j + r n + s i )n⌋) − π w) , 

ξ 2,i := 1N ( (t j + s i )n ) · (I 

w (⌊(t j + s i )n⌋ − 1) − π w) . 

Hierbei ist ξ 1,i = ( I w (⌊(t j + r n + s i )n⌋) − π w) , falls der Sprung dadurch zustande 

kommt, dass ⌊(t j +r n +s i )n−⌋ < ⌊(t j +r n +s i )n⌋, das heißt, falls beim Übergang 

von (t j + r n + s i )n− nach (t j + r n + s i )n ein neuer Summand hinzukommt und 0 

sonst. Analog ist ξ 2,i der Sprung, der auftritt, wenn beim Übergang von (t j +s i )n− 

nach (t j + s i )n der Summand I w (⌊(t j + s i )n⌋ − 1) − π w wegfällt. 

Diese Zerlegung der Sprunghöhen ist notwendig, weil (ξ i ) i=0,...,m im Allgemeinen 

selbst nicht mischend ist, die Folgen (ξ 1,i ) i=0,...,m und (ξ 2,i ) i=0,...,m jedoch dieselbe 

Mischungseigenschaft erfüllen wie (I w (i)) i=0,...,m selbst. 

Mit S k := ∑ k 

i=1 ξ k = D n (t j +s k ) − D n (t j ) lässt sich der j-te Summand in Gleichung 

(3.3.2) schreiben als: 

( ∣ ∣∣∣ D n (s) 

P sup √ − D ∣ ) 

n(t j ) ∣∣∣ 

√ ≥ ε 

t j ≤s≤t j+1 n n 3 

( 

= P max |D n(t j +s k ) − D n (t j )| ≥ ε ) 

√ n 

k∈{1,...,m} 3 

( 

= P max |S k| ≥ ε ) 

√ n . 

k∈{1,...,m} 3 

Dies wird mit Hilfe von Billingsley [17, Theorem 12.2] abgeschätzt, das heißt, es 

wird gezeigt, dass U ∈ R + existiert, so dass mit α = 2 und γ = 4 für alle λ > 0


und k, l ∈ N gilt: P (|S k − S l | ≥ λ) ≤ U |k − l| α . Sei ohne Einschränkung im 

λ γ 

Folgenden 1 ≤ l < k < ∞. Da die Folgen (ξ 1,i ) i=0,...,m und (ξ 2,i ) i=0,...,m stationär 

sind, folgt mit der Markov-Ungleichung: 

(∣ ∣ ) 

∣∣∣∣ k∑ 

k∑ ∣∣∣∣ 

P (|S k − S l | ≥ λ) = P ξ 1,i − ξ 2,i ≥ λ 

i=l+1 

i=l+1 

( ) ( ) 

∣∣∣ ∑k−l 

∣ ∣∣ λ ∣∣∣ ∑k−l 

∣ ∣∣ λ 

≤ P ξ 1,i ≥ + P ξ 2,i ≥ 

2 

2 

i=1 

i=1 

[ 

] 

≤ 24 

∑k−l 

∣ ∣∣ 

4 ∣ ∣∣ 

∑k−l 

∣ ∣∣ 

4 

E ∣ ξ 

λ 4 1,i + E ξ 2,i . 

i=1 

Des Weiteren gilt |ξ u,i | ≤ 1 und E ξ u,i = 0 für alle i = 0, . . . , m, u = 1, 2. 

Da die Folgen (ξ u,i ) i=0,...,m für u = 1, 2 außerdem dieselbe Mischungseigenschaft 

wie (I w (i)) i∈N besitzen, lassen sich obige Momente mit Hilfe von Billingsley [17, 

Lemma 20.4] abschätzen durch: E ∣ ∑ k−l 

i=1 ξ ∣ 4 q,i ≤ K ϕ (k − l) 2 für q ɛ {1, 2}, wobei 

K ϕ > 0 nur von ϕ abhängt. Mit U := √ 32K ϕ erhält man: 

( ) 2. 

P (|S k − S l | ≥ λ) ≤ 24 2K 

λ 4 ϕ (k − l) 2 = 1 λ U(k − l) 4 

Nach Billingsley [17, Theorem 12.2] existiert somit K γ,α ′ ɛ R + , unabhängig von 

k, ε und n, so dass gilt: 

( ∣ ∣∣∣ D n (s) 

P sup √ − D ∣ ) 

n(t j ) ∣∣∣ 

√ ≥ ε ( 

= P max |S k | ≥ ε ) 

√ n 

t j ≤s≤t j+1 n n 3 

k∈{1,...,m} 3 

( ε √ ) −4 

≤ K γ,α 

′ n (mU) 

2 

3 

= 3 4 K γ,αU ′ 2 m2 

ε 4 n . 2 

Da für die Anzahl m der Sprungstellen m ≤ 2nδ gilt, erhält man: 

P 

( 

∣ ∣∣∣ D n (s) 

sup √ − D ∣ 

n(t j ) ∣∣∣ 

√ ≥ ε 

t j ≤s≤t j+1 n n 3 

i=1 

) 

≤ C δ2 

ε 4 , 

wobei C := 162K γ,αU ′ 2 nur von ϕ abhängt. Summation über j liefert wegen δ = 1 n 0 

und n 0 ≥ C 

ηε 4 

( 

P sup 

D n (s) 

∣ √ − D ∣ ) ( 

√ 

n(t) ∣∣∣ 

n 0 −1 

∣ 

∑ 

∣∣∣ D n (s) 

≥ ε ≤ P sup √ − D ∣ ) 

n(t j ) ∣∣∣ 

√ ≥ ε n n t j ≤s≤t j+1 n n 3 

|s−t|≤δ 

Das ist die Behauptung. 

j=0 

≤ n 0 C δ2 

ε 4 = C 

n 0 ε 4 ≤ η. 

✷

3.4. Endlichdimensionale Randverteilungen 39 

Korollar 3.4 

Sind die Voraussetzungen aus Abschnitt 3.1 erfüllt und konvergiert r n von oben 

gegen einen echt positiven Grenzwert r > 0, so ist √ Dn 

n 

straff und falls D ɛ D[0, 1] 

Grenzwert einer Teilfolge ist, so ist D fast-sicher stetig. 

Beweis: 

Es wird Theorem 15.5 aus Billingsley [17] angewendet. Nach Satz 3.3 ist nur noch 

zu zeigen, dass ( n − 1 2 D n (0) ) n∈N 

straff ist: 

Es ist D n (0) = ∑ ⌊r nn⌋ 

( 

i=1 Iw (i) − π w) . Wegen r n n −→ n→∞ 

∞ konvergiert nach dem 

Zentralen Grenzwertsatz für mischende Folgen (siehe etwa Billingsley [17, Abschnitt 

20], Doukhan [39, Abschnitt 1.5.1] oder Philipp [66]) n − 1 2 D n (0) gegen 

eine Normalverteilung. Insbesondere ist ( n − 1 2 D n (0) ) n∈N 

straff. Somit sind die 

Voraussetzungen von Theorem 15.5 aus Billingsley [17] erfüllt, es folgt die Behauptung. 

✷ 

3.4 Endlichdimensionale Randverteilungen 

In diesem Abschnitt werden die endlichdimensionalen Randverteilungen untersucht. 

Wie in Abschnitt 3.2 erläutert, müssen hierbei die Fälle r n ↘ r > 0 und 

r n ↘ 0 unterschieden werden. Die beiden Fälle werden in den Abschnitten 3.4.1 

und 3.4.2 untersucht. 

Folgende technische Proposition wird später benötigt, um die Varianz mit Hilfe 

der Mischungseigenschaft abzuschätzen: 


Seien ϕ i ɛ [0, 1] monoton fallend und ∑ ∞ √ 

i=1 ϕi konvergiere. Dann konvergiert 

auch die Summe ∑ ∞ 

i=1 iϕ i. 

Beweis: 

Zunächst wird indirekt gezeigt, dass j √ ϕ j , j ɛ N beschränkt ist: Angenommen 

für alle n ɛ N existiert j n ≥ n, so dass j n 

√ 

ϕjn > n. Sei ohne Einschränkung auch 

j n > j n−1 und zur Abkürzung j 0 := 1. Definiert man nun die Folge (b j ) j ɛN durch 

b j := ϕ jn ≤ ϕ j , für j n−1 < j ≤ j n , so folgt: 

∞ > 

∞∑ √ 

ϕj ≥ 

j=1 

∞∑ √ 

bj = 

j=1 

∞∑ 

n=1 

j n 

∑ 

j=j n−1 

√ 

bj = 

∞∑ 

(j n − j n−1 ) √ ϕ jn . 

n=1 

Aus der Annahme ergibt sich ∑ ∞ 

n=1 (j n − j n−1 ) √ ϕ jn > ∑ ∞ 

konvergiert n(1 − j n−1 

j n 

n=1 (j n − j n−1 ) n j n 

, somit 

) = (j n − j n−1 ) n j n 

−→ n→∞ 

0. Daher gilt für hinreichend große 

n ɛ N: 0 ≤ 1− j n−1 

j n 

≤ 1 n , woraus auch j n ≤ n 

n−1 j n−1 ≤ . . . ≤ C 1 ( n 

n−1 )n −→ 

n→∞ 

C 1 · e,


mit C 1 ɛ R + folgt. Dies ist aber ein Widerspruch, da die Indexfolge (j n ) n ɛN nicht 

beschränkt sein kann. 

Ist also C 2 ɛ R + so dass i √ ϕ i ≤ C 2 , für alle i ɛ N, so ergibt sich die Behauptung 

aus 

∞∑ ∞∑ 

iϕ i = i √ √ ∑ ∞ 

√ 

ϕ i ϕi ≤ C 2 ϕi < ∞. 

✷ 

i=1 

i=1 

i=1 

Mit folgender Definition wird im Weiteren die sogenannte ” Überlappung“ zweier 

Wörter beziehungsweise die ” 

Selbstüberlappung“ innerhalb eines Wortes beschrieben. 

Die verwendeten Bezeichnungen sind in der Literatur gebräuchlich, 

vergleiche etwa Waterman [94, Abschnitt 12.1]. 


Seien j, l, m ɛ N und w ɛ A l , v ɛ A m Wörter der Länge l beziehungsweise m über 

dem Alphabet A. Sei R w (j) der Rest des Wortes w ab dem Zeichen j + 1, das 

heißt: 

{ 

wj+1 . . . w 

R w (j) := 

l , falls j < l, 

das leere Wort, sonst. 

Das Overlap Bit β w,v : {0, . . . , l} → {0, 1} wird definiert durch: 

β w,v (j) := 1 {wj+1 =v 1 ,...,w M =v M−j }, M = min{l, m + j}. 

Zur Abkürzung sei β w := β w,w der Self Overlap. 

Damit lassen sich nun die Abhängigkeiten innerhalb der Zeichenfolge (X i ) i ɛN 

untersuchen: 

Lemma 3.7 

Mit den Voraussetzungen aus Abschnitt 3.1 konvergieren unabhängig von i ɛ N 

folgende Summen absolut: 

(i) ∑ ∞ 

j=1 Kov( I w (i), I w (i + j) ) = C 1 w,ϕ 

(ii) ∑ ∞ 

j=1 j Kov( I w (i), I w (i + j) ) = C 2 w,ϕ 

Beweis: 

(i) folgt aus (ii).


(ii) Aus der Stationarität der Folge ( I w (i) ) i ɛN 

erhält man: 

∞∑ 

( 

∣ j Kov Iw (i), I w (i + j) )∣ ∣ 

j=1 

= 

∑l−1 

j ∣ βw (j)π wRw(l−j) − (π w ) 2∣ ∣ 

j=1 

} {{ } 

=:C w 

∑ ∞ 

+ π w j ∣ P (Xj+1 . . . X j+l = w|X 1 . . . X l = w) − π w∣ ∣ . 

} {{ } 

j=l 

≤ϕ(j−l+1) 

Die Behauptung ergibt sich mit Proposition 3.5 aus der Mischungseigenschaft 

der Folge ( I w (i) ) i ɛN . 

✷ 

3.4.1 Der Fall r n ↘ r, r > 0 

In diesem Abschnitt wird die Konvergenz der endlichdimensionalen Randverteilungen 

untersucht, falls r n gegen einen positiven Grenzwert konvergiert. 

Satz 3.8 

Konvergiert die Fenstergröße von oben gegen einen positiven Grenzwert, r n ↘ r, 

r > 0, so konvergieren die endlichdimensionalen Randverteilungen gegen die entsprechenden 

Zuwächse einer Brownschen Bewegung, das heißt für alle d ɛ N und 

Zeitpunkte t 1 , . . . , t d ɛ [0, 1] gilt 

⎞ ⎛ 

⎛ 

D n (t 1 ) 

1 ⎜ ⎟ 

√ ⎝ 

σ 0 n 

. ⎠ 

D n (t d ) 

mit σ 2 0 > 0 wie in Gleichung (3.1.1). 

D 

−→ 

⎞ 

B t1 +r − B t1 

⎜ 

⎟ 

⎝ . ⎠ , 

B td +r − B td 

Beweis: 

Bezeichne zur Abkürzung X n : = ( D n (t 1 ), . . . , D n (t d ) ) T 

für alle n ɛ N und X : = 

( ) T. 

Bt1 +r − B t1 , . . . , B td +r − B td Nach Billingsley [17, Theorem 7.7] reicht es, für 

alle α ɛ R d 1 

zu zeigen, dass √ 

σ 0 n 

α T X D 

n −→ α T X gilt. Sei σn 2 : = Var(αT X n ) = 

Var ( ∑ d 

i=1 α iD n (t i ) ) . Gezeigt wird: 

a) σ2 n 

n 

−→ Var(α T X)σ 2 0 

1 

b) 

σ n 

α T X D 

n −→ N (0, 1).


Sei ohne Beschränkung der Allgemeinheit α ≠ 0 und 0 ≤ t 1 < · · · < t d ≤ 1. 

Dies ist keine Einschränkung, da sich das Problem mit d − 1 Dimensionen und 

˜α i := α i + α i+1 formulieren lässt, falls t i = t i+1 für ein i ɛ {1, . . . , d − 1}. 

Definiert man die Koeffizienten βi n := ∑ d 

j=1 α j1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i), so lässt sich 

α T X n schreiben als: 

α T X n = 

= 

= 

= 

d∑ 

α j D n (t j ) 

j=1 

d∑ 

j=1 

n∑ 

i=1 

n∑ 

i=1 

⌊(t j +r 

∑ n)n⌋ 

α j 

i=⌊t j n⌋+1 

( 

Iw (i) − π w) 

d∑ 

α ( j 1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i) I w (i) − π w) 

j=1 

β n i 

( 

Iw (i) − π w) . 

a) Da die Koeffizienten β n i stückweise konstant sind und Sprungstellen nur an 

den Intervallgrenzen {⌊t j n⌋ + 1, ⌊(t j + r n )n⌋ | j = 1, . . . , d} auftreten können, 

werden die Intervalle (t j , t j + r n ] in D n disjunkte Intervalle (A n i , E n i ] i=1,...,D n 

zerlegt: Ein solches Intervall kann nur an einem t k oder t k +r n beginnen beziehungsweise 

enden. Daher gibt es, unabhängig von n, höchstens 2d Intervalle, 

D n ≤ 2d. Es ergibt sich folgendes Bild: 

✛ 

✛ 

t k 

t k−1 +r n t k +r n t k+1 t k+2 t k+1 +r n 

✲ 

✲ 

E n i−2 =An i−1 E n i−1 =An i E n i 

A n i+1 E n i+1 =An i+2 E n i+2 =An i+3 

Nach Definition gilt ∪ d j=1[t j , t j + r n ] = ∪ Dn 

u=1[A n u, Eu] n und βn· ist konstant auf 

{⌊A n un⌋ + 1, . . . , ⌊Eun⌋}, n 1 ≤ u ≤ D n . Definiert man für alle u ɛ {1, . . . , D n } 

γ n u 

:= βn i , falls i ɛ {⌊A n un⌋ + 1, . . . , ⌊Eun⌋} 

n 

d∑ 

= 

j=1 

α j 1 {⌊A n u n⌋+1,...,⌊E n u n⌋}⊂{⌊t j n⌋+1,...,⌊(t j +r n)n⌋}, 

als den Wert, den β n· auf {⌊An un⌋+1, . . . , ⌊E n un⌋} annimmt, so lässt sich α T X n


weiter umformen: 

α T X n = 

n∑ 

i=1 

∑D n 

= 

β n i 

( 

Iw (i) − π w) 

⌊E 

∑u nn⌋ 

γu 

n 

u=1 i=⌊A n un⌋+1 

( 

Iw (i) − π w) . 

Sei analog D ≤ 2d, (A i , E i ] i ɛ {1,...,D} die disjunkte Zerlegung der Intervalle 

(t j , t j + r] j ɛ {1,...,d} und γ u : = ∑ d 

j=1 α j1 (Au,Eu]⊂(t j ,t j +r], so dass α T X = 

∑ D 

u=1 γ u(B Eu − B Au ). Gilt t j = t i + r für 1 ≤ i < j ≤ d, so wird ohne 

Einschränkung an dieser Stelle ein Intervall der Länge 0 eingeschoben, das 

heißt E u := A u := t j , um unnötige Fallunterscheidungen zu vermeiden. 

Als Nächstes wird gezeigt, dass D n −→ n→∞ 

D, A n u −→ n→∞ 

A u und Eu n −→ n→∞ 

E u für alle 

u ɛ {1, . . . , D}: Hierfür ist jedoch nur noch für 1 ≤ i < j ≤ d der Fall 

(t i , t i + r 1 ] ∩ (t j , t j + r 1 ] ≠ ∅ und (t i , t i + r] ∩ (t j , t j + r] = ∅ 

zu untersuchen. Die Konvergenz der anderen Intervallgrenzen ergibt sich 

unmittelbar aus der Definition. Existieren also 1 ≤ i < j ≤ d so, dass 

t i + r < t j < t i + r 1 , dann wählt man ohne Einschränkung n ɛ N so groß, 

dass gilt: 

r n − r + 1 n < m := min{t j − (t i + r) | 1 ≤ i < j ≤ d, t j − (t i + r) > 0}. 

Damit ist für alle 1 ≤ i < j ≤ d mit t j > t i + r auch t j n > (t i + r n )n + 1, so 

dass D n = D und weiterhin (t i , t i + r n ] ∩ (t j , t j + r n ] ≠ ∅ genau dann, wenn 

(t i , t i + r] ∩ (t j , t j + r] ≠ ∅. Wegen r n −→ n→∞ 

r folgt A n u −→ n→∞ 

A u und Eu n −→ n→∞ 

E u für 

alle u ɛ {1, . . . , D}. 

Da nun über disjunkte Intervalle summiert wird, lässt sich die Varianz von 

α T X n mit Hilfe der Stationarität darstellen als: 

( 

σn 

2 

n = 1 D n 

n Var ∑ 

[ 

∑D n 

( ) 

= γ 

n 2 1 

u 

n 

u=1 

∑D n 

+ 2 

⌊E 

∑u nn⌋ 

γu 

n 

u=1 i=⌊A n un⌋+1 

∑D n 

u=1 v=u+1 

⌊E 

∑u nn⌋ 

( 

Iw (i) − π w)) 

i=⌊A n u n⌋+1 Var ( I w (i) ) + 2 n 

γ n uγ n v 

1 

n 

⌊Eu n n⌋ 

∑ 

i=⌊A n u n⌋+1 

⌊Ev n n⌋ 

∑ 

⌊E 

∑u nn⌋ 

⌊E 

∑u nn⌋ 

i=⌊A n u n⌋+1 j=i+1 

j=⌊A n v n⌋+1 Kov ( I w (i), I w (j) ) . 

Kov ( I w (i), I w (j) )] 

(3.4.3)


Die Konvergenz dieser Summanden für n −→ ∞ wird nun für alle 

u ɛ {1, . . . , D n } untersucht. Bezeichne hierfür ε n u := ⌊En un⌋ − ⌊A n un⌋ − n(E n u − 

A n u) ɛ (−1, 1) den Rundungsfehler. 

1) Wegen der Stationarität ist 

1 

n 

⌊E 

∑u nn⌋ 

i=⌊A n un⌋+1 

Var ( I w (i) ) = 1 n 

( 

⌊E 

n 

u n⌋ − ⌊A n un⌋ ) Var ( I w (1) ) 

= ( ) 

Eu n − A n u π w (1 − π w ) + εn u 

n πw (1 − π w ) 

( ) 

−→ n→∞ Eu − A u π w (1 − π w ). 

2) Wiederum wegen der Stationarität ist K w (j) := Kov ( I w (i), I w (i + j) ) unabhängig 

von i ɛ N. Somit gilt: 

1 

n 

⌊Eu n n⌋ ⌊E 

∑ 

u n n⌋ 

∑ 

i=⌊A n u n⌋+1 j=i+1 

= 1 n 

= 1 n 

⌊E∑ 

u nn⌋−1 

i=⌊A n un⌋+1 

∑ 

Kov ( I w (i), I w (j) ) 

⌊Eu n n⌋−i 

∑ 

j=1 

⌊E n u n⌋−⌊An u n⌋−1 

j=1 

= ( E n u − A n u 

) Ln u 

K w (j) 

( 

⌊E 

n 

u n⌋ − ⌊A n un⌋ − j ) K w (j) 

∑ 

K w (j) − 1 L 

∑ 

n u 

jK w (j) + εn u 

n 

n 

j=1 

j=1 

L 

∑ 

n u 

j=1 

K w (j), 

wobei L n u := ⌊En un⌋ − ⌊A n un⌋ − 1 = n(Eu n − A n u) + ε n u − 1 −→ n→∞ 

∞. Nach Lemma 

3.7 konvergieren die Summen ∑ L n u 

j=1 K w(j) und ∑ L n u 

j=1 jK w(j) absolut, 

so dass man erhält: 

1 

n 

⌊E 

∑u nn⌋ 

i=⌊A n un⌋+1 

⌊E 

∑u nn⌋ 

j=i+1 

Kov ( I w (i), I w (j) ) −→ n→∞ 

(E u − A u )C 1 w,ϕ. 

3) Der dritte Term aus Gleichung (3.4.3) wird getrennt für A n v = E n u und 

A n v ≠ E n u untersucht. Ist etwa v > u + 1, so ist A n v ≠ E n u, nach Definition 

der Intervalle [A n i , E n i ) i ɛ {1,...,Dn} . In diesem Fall wird die dritte Summe in


die folgenden Terme aufgeteilt: 

1 

n 

⌊Eu n n⌋ 

∑ 

i=⌊A n u n⌋+1 

= 1 n 

− 1 n 

− 1 n 

⌊E 

∑u nn⌋ 

i=⌊A n un⌋+1 

⌊Ev n n⌋ 

∑ 

j=⌊A n v n⌋+1 Kov ( I w (i), I w (j) ) 

⌊Eu n n⌋−1 

∑ 

i=⌊A n u n⌋+1 

⌊Eu n n⌋ 

∑ 

⌊Ev nn⌋−⌊An ∑u n⌋−1 

j=⌊A n v n⌋−⌊E n u n⌋+1 

⌊A n v n⌋−i 

∑ 

K w (j) 

j=⌊A n v n⌋−⌊En u n⌋+1 K w (j) 

∑ 

⌊Ev n n⌋−⌊A n un⌋−1 

i=⌊A n u n⌋+2 j=⌊Ev nn⌋−i+1 

K w (j). 

(3.4.4) 

Mit Hilfe des Cauchy-Kriteriums für Reihen ergibt sich die Konvergenz 

dieser drei Terme aus Lemma 3.7, wenn gezeigt wird, dass die unteren 

Summationsgrenzen unbeschränkt sind: 

(i) Mit A n v ≠ E n u folgt wegen ⌊A n v n⌋ − ⌊E n un⌋ + 1 ≥ n(A n v − E n u) −→ n→∞ 

∞: 

(ii) Ebenso gilt: 

1 

n 

⌊Eu n n⌋ 

∑ 

i=⌊A n u n⌋+1 

= 

( 

−→ n→∞ 

0. 

⌊Ev n n⌋−⌊A 

∑ 

n un⌋−1 

j=⌊A n v n⌋−⌊En u n⌋+1 K w (j) 

E n u − A n u + εn u 

n 

) ⌊En v n⌋−⌊An ∑u n⌋−1 

j=⌊A n v n⌋−⌊E n u n⌋+1 

K w (j) 

1 

n 

⌊E∑ 

u nn⌋−1 

i=⌊A n un⌋+1 

⌊A∑ 

n v n⌋−i 

j=⌊A n v n⌋−⌊E n u n⌋+1 

⌊A n v n⌋−⌊A 

∑ 

n un⌋−1 

K w (j) 

= 1 ( 

⌊A 

n 

n 

v n⌋−⌊A n un⌋−j ) K w (j) 

j=⌊A n v n⌋−⌊En u n⌋+1 

≤ (E n u − A n u) 

−→ n→∞ 

0. 

⌊A∑ 

n v n⌋−i 

j=⌊A n v n⌋−⌊E n u n⌋+1 

|K w (j)|


(iii) Mit ⌊E n v n⌋ − ⌊E n un⌋ + 1 ≥ n(E n v − E n u) −→ n→∞ 

∞ ergibt sich: 

1 

n 

⌊Eu n n⌋ 

∑ 

∑ 

⌊Ev n n⌋−⌊A n un⌋−1 

i=⌊A n u n⌋+2 j=⌊Ev nn⌋−i+1 

= 1 n 


j=⌊E n v n⌋−⌊E n u n⌋+1 

≤ (E n u − A n u) 

−→ n→∞ 

0. 

K w (j) 

( 

⌊E 

n 

u n⌋−⌊E n v n⌋+j ) K w (j) 


j=⌊E n v n⌋−⌊En u n⌋+1 |K w (j)| 

Ist A n v = Eu, n das heißt v = u + 1 und die Intervalle schließen direkt 

aneinander an, so erhält man: 

1 

n 

⌊Eu n n⌋ 

∑ 

i=⌊A n u n⌋+1 

= 1 n 

≤ 

mit Lemma 3.7(ii). 

1 n 

= 1 n 

−→ n→∞ 

0, 

⌊Ev n n⌋ 

∑ 

j=⌊A n v n⌋+1 | Kov ( I w (i), I w (j) ) | 

⌊A n v n⌋−⌊An ∑ 

u n⌋ 

i=1 

⌊A n v n⌋−⌊An ∑ 

u n⌋ 

i=1 

⌊Ev n n⌋−⌊A 

∑ 

n un⌋ 

j=1 

⌊Ev nn⌋−⌊An ∑v n⌋+i−1 

j=i 

⌊Ev nn⌋−⌊An ∑ 

u n⌋ 

j=i 

j|K w (j)| 

|K w (j)| 

Zusammenfassend ergibt sich für die Varianz von α T X n : 

1 

n σ2 n −→ 

= 

|K w (j)| 

D∑ 

(γ u ) 2[ ] 

(E u − A u )π w (1 − π w ) + 2(E u − A u )Cw,ϕ 

1 

u=1 

( ∑ D )( 

) 

(γ u ) 2 (E u − A u ) π w (1 − π w ) + 2Cw,ϕ 

1 

u=1 

( ∑ D ) 

= σ0 

2 (γ u ) 2 (E u − A u ) , 

u=1 

wobei die letzte Gleichung aus der Definition von C 1 w,ϕ in Lemma 3.7 und σ 2 0 

in Gleichung (3.1.1) folgt.


Da die Intervalle (A u , E u ] für u ɛ {1, . . . , D} disjunkt sind und die Brownsche 

Bewegung unabhängige normalverteilte Zuwächse hat, erhält man für die rechte 

Seite von Behauptung a) 

( ∑ D ) 

Var(α T X) = Var γ u (B Eu − B Au ) 

= 

= 

u=1 

D∑ 

(γ u ) 2 Var(B Eu − B Au ) 

u=1 

D∑ 

(γ u ) 2 (E u − A u ). 

u=1 

Dies ergibt 1 n σ2 n −→ n→∞ 

Var(α T X)σ 2 0 und somit Behauptung a). 

b) Definiert man a n,i := βn i 

σ n 

= ( Var(α T X n ) ) − 1 ∑ 2 d 

j=1 α j1 {⌊tj n⌋+1,...,⌊(t j +r n)n⌋}(i), so 

ist ∑ n 

k=1 a ( 

n,k Iw (k) − π w) = 1 

σ n 

α T X n . Daher wird als Nächstes gezeigt, dass 

(a n,k ) 1≤k≤n und ( I w (k) ) k ɛN die Voraussetzungen von Peligrad und Utev [65, 

Theorem 2.2(a)] erfüllen: 

1) sup n ɛN ∑ n 

k=1 a2 n,k 

ist beschränkt: Für alle n ɛ N ergibt sich wie in a) 

n∑ 

∑D n 

⌊E 

∑u nn⌋ 

a 2 n,k = 1 (γ 

σ 

u) n 2 

2 

k=1 n u=1 k=⌊A n u 

∑ n⌋+1 D n 

u=1 

≤ 

(γn u) 2 (Eu n − A n u + εn u 

n 

) 

1 

n σ2 n 

1 

−→ n→∞ 

ɛ R. 

σ0 

2 

2) max k ɛ {1,...,n} |a n,k | −→ n→∞ 

0: Nach a) ist 1 n σ2 n −→ n→∞ 

Var(α T X)σ0 2 > 0, daher gilt 

für hinreichend große n ɛ N: 

|a n,k | = 

≤ 

∣ ∣ βn k ∣∣ 

σ n 

2 ∑ d 

j=1 |α j| 

√ 

n Var(αT X)σ0 

2 

−→ n→∞ 

0. 

3) Die Folge ( I w (k) − π w) k ɛN ist gleichgradig integrierbar, da I w(k)−π w 

ɛ {−π w , 1 − π w }.


4) Var ( ∑ n 

k=1 a n,kI w (k) ) = 1, nach Definition der a n,k . 

Damit lässt sich Theorem 2.2(a) aus Peligrad und Utev [65] anwenden. Es 

folgt Behauptung b): 

1 

σ n 

α T X n = 

n∑ ( 

a n,k Iw (k) − π w) −→ D 

N (0, 1). 

k=1 

Aus den Eigenschaften der Brownschen Bewegung folgt, dass α T X normalverteilt 

ist, da es sich um eine gewichtete Summe von Zuwächsen von B handelt. Somit 

wurde gezeigt, dass: 

1 

σ 0 

√ n 

α T X n = 

σ n 

σ 0 

√ n · 

1 

σ n 

α T X n 

D 

−→ √ Var(α T X)N (0, 1) d = α T X. 

−→ X und damit die Behaup- 

✷ 

1 

Mit Theorem 7.7 in Billingsley [17] folgt 

tung. 

σ 0 

√ n 

X n 

D 

Damit wurde die Konvergenz der endlichdimensionalen Randverteilungen gezeigt, 

falls r n von oben gegen einen positiven Grenzwert konvergiert. In Verbindung mit 

der in Abschnitt 3.3 bewiesenen Straffheit erhält man den ersten Teil von Satz 3.1. 

3.4.2 Der Fall r n ↘ 0 

In diesem Abschnitt werden die endlichdimensionalen Randverteilungen des 

Grenzprozesses untersucht, wenn die Fenstergröße gegen 0 konvergiert. Wie erwartet, 

erhält man in diesem Fall im Allgemeinen keinen stetigen Grenzprozess 

mehr. 

Satz 3.9 

Sei X eine stationäre, ϕ-mischende Zeichenfolge und für die Fenstergröße r n gelte 

r n ↘ 0 und r n n −→ ∞. Dann konvergieren die endlichdimensionalen Randverteilungen 

der Scan-Statistik (r n n) − 1 2 D n gegen unabhängige Normalverteilungen, 

das heißt für d ɛ N und Zeitpunkte t 1 , . . . , t d ɛ [0, 1] gilt: 

1 

√ 

rn n 

⎛ ⎞ 

D n (t 1 ) 

⎜ ⎟ 

⎝ . ⎠ 

D n (t d ) 

D 

−→ N (0, σ 2 0 I d ). 

Dabei bezeichnet I d ɛ R d×d die d-dimensionale Einheitsmatrix.


Beweis: 

Sei zur Abkürzung X n : = 

( D n (t 1 ), . . . , D n (t d ) ) T 

. Analog zum Beweis von 

Satz 3.8 wird gezeigt, dass für alle α ɛ R d 1 

gilt: √ αT rnn 

X D 

n −→ α T N ( ) 

0, σ0 2 I d = 

N ( 0, σ0 2 ‖α‖ 2) . Die Behauptung folgt hieraus mit Theorem 7.7 in Billingsley [17]. 

Seien ohne Einschränkung α ≠ 0 und 0 = : t 0 ≤ t 1 < · · · < t d ≤ 1. Dann ist 

m := min{t i − t i−1 |i ɛ {1, . . . , d}} > 0. Da r n −→ n→∞ 

0 ist r n + 1 < m für hinreichend 

n 

große n ɛ N, das heißt, die Intervalle (t i , t i + r n ] i ɛ {1,...,d} sind disjunkt. Teilt man 

σn 2 := Var(αT X n ) wie in Gleichung (3.4.3) auf, und bezeichnet ε n u := ⌊(t u+r n )n⌋− 

⌊t u n⌋ − r n n ɛ (−1, 1) den Rundungsfehler, so ergibt sich: 

[ 

σn 

2 d∑ 

r n n = αu 

2 r n n + ε n u 

Var ( I w (i) ) + 2 

⌊(t u+r n)n⌋ ⌊(t 

∑ u+r n)n⌋−i 

] 

∑ 

K w (j) 

r 

u=1 

n n 

r n n 

i=⌊t un⌋+1 j=1 

⌊(t d∑ d∑ 

u+r n)n⌋ ⌊(t 

1 ∑ v+r 

∑ n)n⌋ 

+ 2 α u α v Kov ( I w (i), I w (j) ) . 

r 

u=1 v=u+1 n n 

i=⌊t un⌋+1 j=⌊t vn⌋+1 

Wegen r n n −→ n→∞ 

∞ konvergieren die Summanden wie folgt: 

1) rnn+εn u 

r nn 

Var ( I w (i) ) −→ n→∞ 

( 

π w (1 − π w ) ) . 

2) Nach Lemma 3.7 ergibt sich: 

1 

r n n 

⌊(t u+r 

∑ n)n⌋ 

i=⌊t un⌋+1 

∑ 

⌊(t u+r n)n⌋−i 

j=1 

K w (j) = r nn + ε n u 

r n n 

−→ C 1 w,ϕ. 

r nn+ε 

∑ 

n u 

j=1 

K w (j) − 1 

r nn+ε 

∑ 

n u 

jK w (j) 

r n n 

j=1 

3) Für 1 ≤ u < v ≤ d gilt ∆ v u := ⌊t vn⌋ − ⌊t u n⌋ −→ n→∞ 

∞. Damit lässt sich der dritte 

Summand analog Gleichung (3.4.4) abschätzen: 

1 

r n n 

⌊(t u+r 

∑ n)n⌋ 

⌊(t v+r 

∑ n)n⌋ 

i=⌊t un⌋+1 j=⌊t vn⌋+1 

≤ r nn + ε n u 

r n n 

+ r nn + ε n u 

r n n 

+ r nn + ε n u 

r n n 

∆ v u+r nn+ε n v −1 

∑ 

( 

∣ Kov Iw (i), I w (j) )∣ ∣ 

j=∆ v u −rnn−εn u +1 |K w (j)| 

∆∑ 

v u−1 

j=∆ v u−r nn−ε n u+1 

∆ v u+r nn+ε n v −1 

∑ 

j=∆ v u+ε n v −ε n u+1 

|K w (j)| 

|K w (j)|. 

Alle 3 Terme konvergieren nach dem Cauchy-Kriterium für Reihen gegen 0, 

da die Reihen nach Lemma 3.7 absolut konvergieren.


Man erhält für die Varianz von α T X n : 

σ 2 n 

r n n −→ 

d∑ (π 

αu[ 2 w (1 − π w ) ) ] 

+ 2Cw,ϕ 

1 = ‖α‖ 2 σ0. 

2 

u=1 

Wie im Beweis von Satz 3.8, Teil (ii) folgt aus Theorem 2.2(a) in Peligrad und 

Utev [65] 

1 

√ 

rn n σ n ‖α‖ αT X n 

D 

−→ N (0, 1) 

und mit Theorem 7.7 in Billingsley [17] die Behauptung. 

✷ 

Damit wurde die Konvergenz der endlichdimensionalen Randverteilungen auch 

für den Fall, dass r n gegen 0 konvergiert, bewiesen. Somit erhält man den zweiten 

Teil von Satz 3.1.

51 

Kapitel 4 

Der empirische Musterprozess 

Dieses Kapitel hat die Häufigkeit des Auftretens eines Musters zum Thema. Untersucht 

wird das überlappende Vorkommen eines gegebenen Musters, wobei die 

durchsuchte Zeichenfolge von den Parametern abhängt. Ausgehend von einer stationären 

ϕ-mischenden Folge bestimmen die Veränderlichen des Prozesses die 

Wahrscheinlichkeitsverteilung der Buchstaben. 

Es wird die Konvergenz des empirischen Musterprozesses gegen einen stetigen 

Grenzprozess gezeigt und für den Fall unabhängiger Zufallsvariablen werden explizite 

Abschätzungen angegeben. 

Durch die Erweiterung auf mehr als zwei Dimensionen, die Betrachtung des Zeitparameters 

und die Einbettung in die Theorie der empirischen Prozesse stellt 

dieses Kapitel eine Verallgemeinerung des Ergebnisses von Aki [1] dar. 


Gegeben sei das Wort w = w 1 · · · w l ɛ A l der Länge l ɛ N über dem endlichen 

Alphabet A = {1, . . . , ξ} und eine stationäre ϕ-mischende Folge (X i ) i ɛN auf 

(R, B). Die endlichdimensionalen Randverteilungen von (X i+j ) j ɛ {1,...,n} seien für 

alle n ɛ N und i ɛ {1, . . . , l} Lebesgue-stetig. 

Analog zu Remark 2.1 in Aki [1] wird ohne Beschränkung der Allgemeinheit 

angenommen, dass X i auf [0, 1] gleichverteilt ist für alle i ɛ N. Dies ist keine 

Einschränkung, da F i (X i ) gleichverteilt auf [0, 1] ist, wenn F i : = P (X i ≤ ·) 

die Verteilungsfunktion von X i bezeichnet. Wird die Behauptung nun für F (X i ) 

gezeigt, so folgt der allgemeine Fall mit Theorem 5.1 aus Billingsley [17], da 

F nach obiger Voraussetzung stetig ist und sich die Mischungseigenschaft auf 

(F (X i )) i ɛN überträgt. 

Für Parameter p ɛ ∆ := {(q 1 , . . . , q ξ−1 ) ɛ [0, 1] ξ−1 | 0 ≤ q 1 ≤ . . . ≤ q ξ−1 ≤ 1} ist die

52 Kapitel 4. Der empirische Musterprozess 

durchsuchte Zeichenkette ˜X(p) := ( ) 

˜X(p) i i ɛN definiert durch: 

⎧ 

1, X i ɛ [0, p 1 ] 

˜X (p) 

i 

:= 

ξ∑ 

c=1 

c1 {pc−1 p c} = 

⎪⎨ 

2, X i ɛ (p 1 , p 2 ] 

. . ⎪⎩ 

ξ, X i ɛ (p ξ−1 , 1]. 

0 p 1 p 2 · · · p ξ−1 1 ( 

[0, 1], B[0,1] , P i) 

X 

˜X (p) 

i 

❄ ❄ ❄ ❄ 

( 

e 

1 2 · · · ξ A, P(A), P Xi 

) 

Im Gegensatz zu Kapitel 3 soll in diesem Kapitel der empirische Musterprozess 

von w in Abhängigkeit von den Schwellen p = (p 1 , . . . , p ξ−1 ) untersucht werden. 

Die Parameter p 1 , . . . , p ξ−1 bestimmen folglich die Wahrscheinlichkeiten für das 

Auftreten der Zeichen in der Folge ˜X. Die im Folgenden untersuchte Stetigkeit 

in diesen Parametern ergibt daher eine Rechtfertigung für die Anschauung, dass 

eine geringfügige Veränderung der Wahrscheinlichkeiten den empirischen Musterprozess 

nur wenig verändert. 

In der Schätztheorie ergibt sich eine interessante Anwendung von Satz 4.2, da sich 

die Konsistenz einer Folge von Schätzern der einzelnen Zeichenwahrscheinlichkeiten 

auf den empirischen Musterprozess überträgt. Oftmals werden beispielsweise 

die relativen Häufigkeiten als Schätzer für die Zeichenwahrscheinlichkeiten verwendet. 

Daher genügt es, die Konvergenz der relativen Häufigkeiten gegen die 

Zeichenwahrscheinlichkeiten zu beweisen, um die Konsistenz eines stetigen Funktionals 

des Musterprozesses zu zeigen. 

Bemerkungen: 

1) Um den Prozess später auf dem Einheitsquader betrachten zu können, sei 

I w (i; p) : = 0 für alle p ɛ ∆ c , insbesondere falls ein k ɛ {1, . . . , ξ} existiert, so 

dass p k−1 > p k . 

2) Für (p 1 , . . . , p ξ−1 ) ɛ ∆ sei im Folgenden zur Abkürzung p 0 : = 0 und p ξ : = 1. 

Damit lassen sich unnötige Fallunterscheidungen in Summen und Produkten 

vermeiden. 

Weiterhin bezeichne L k := {i ɛ {1, . . . , l} | w i = k} die Positionen im Muster w, 

die mit dem Zeichen k ɛ A besetzt sind. Der Nutzen dieser Bezeichnung wird bei 

der Definition des Ereignisses, dass das Wort w ab Position i ɛ N in ˜X(p), p ɛ ∆


vorkommt, offensichtlich: 

I w (i; p 1 , . . . , p ξ−1 ) := 1 { X e(p) 

(p) 

i ··· eX = 

i+l−1 =w 1···w l } 

l∏ 

1 (pwj −1,p wj ](X i+j−1 ) 

j=1 

= ∏ k ɛ A 

1 (pk−1 ,p k ] |L k |(X L k +i−1). 

Bezeichnet zur Abkürzung π w p die Wahrscheinlichkeit, dass das Wort w vorkommt, 

π w p := E I w(1; p), 

so ist der zentrierte empirische Musterprozess von w in Abhängigkeit von p ɛ ∆ 

zum Zeitpunkt s ɛ [0, 1] gegeben durch: 

Z n (p; s) := √ 1 

⌊ns⌋ 

∑ ( ) 

Iw (i; p) − π w 

n 

p . 

i=1 

Um die Kovarianzen im Fall unabhängiger (X i ) i ɛN explizit angeben zu können, 

wird folgende Definition benötigt, in der analog zum Overlap Bit in Definition 3.6 

eine Funktion definiert wird, die die Möglichkeit, dass das Wort w selbstüberlappend 

vorkommt, misst: 


Für das Wort w ɛ A l sei das verallgemeinerte ” 

Overlap Polynom“ G w : ∆ × ∆ → 

[0, 1] gegeben durch: 

G w (p, q) := 

∑l−1 

u=1 

[ ∏ 

k ɛ A 

( 

(p k − p k−1 ) |L k∩{1,...,u}| · (q k − q k−1 ) |L k∩{l−u+1,...,l}| 

· ∏ ( 

(pk ∧ q c − p k−1 ∨ q c−1 ) +) )] |L k ∩(L c+u)∩{u+1,...,l}| 

. 

c ɛ A 

Weiterhin sei G w (p, q) := 0 falls p ɛ ∆ c oder q ɛ ∆ c . 

Bemerkung: 

Obige Definition stellt eine Verallgemeinerung des in der Literatur gebräuchlichen 

Overlap Polynoms dar. Dieses wird zum Beispiel in Waterman [94, Abschnitt 12.1] 

als Potenzreihe definiert. Mithilfe der für Erzeugende Funktionen üblichen Ableitungen 

werden dort beim Übergang zu nicht überlappenden Vorkommen des 

Musters w Erwartungswert und Varianz berechnet. Diese Methode bringt hier 

keine Vorteile, weshalb an dieser Stelle darauf verzichtet wird. 

Damit lassen sich die Resultate der nächsten beiden Abschnitte in folgendem Satz 

zusammenfassen:


Satz 4.2 

Seien obige Voraussetzungen erfüllt und sei außerdem die Folge (X i ) i ɛN ϕ-mischend 

mit ∑ ∞ 

i=1 i√ ϕ(i) < ∞. Dann existiert ein stochastischer Prozess Z mit 

stetigen Pfaden und normalverteilten Randverteilungen, so dass gilt: 

Z n 

D 

−→ Z in D ξ . 

Für alle p, q ɛ ∆ existiert eine Konstante C ϕ p,q ɛ R, so dass die Kovarianz für alle 

s, t ɛ [0, 1] gegeben ist durch: 

Kov ( Z (p,s) , Z (q,t) 

) 

= (s ∧ t)C 

ϕ 

p,q . 

Ist die Folge (X i ) i ɛN zusätzlich stochastisch unabhängig, so lässt sich die Konstante 

explizit angeben: 

C ϕ p,q = G w (p, q) + G w (q, p) + ∏ k ɛ A 

( 

(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k | 

. 

Beweis: 

Die Straffheit von (Z n ) n ɛN folgt aus Satz 4.8. Die Konvergenz der endlichdimensionalen 

Randverteilungen sowie die explizite Darstellung ergibt sich aus Satz 4.6. 

✷ 

4.2 Endlichdimensionale Randverteilungen 

Zunächst werden die Kovarianzen für den Fall unabhängiger (X i ) i ɛN untersucht. 

Hierfür wird in der folgenden Proposition die Wahrscheinlichkeit berechnet, dass 

das Wort w in ˜X(p) und in ˜X(q) überlappend vorkommt: 


Seien p, q ɛ ∆ und der Shift u ɛ {0, . . . , l − 1} gegeben. Dann lässt sich für den Fall 

unabhängiger (X i ) i ɛN die Wahrscheinlichkeit, dass w um u Zeichen versetzt in 

˜X(p) und in ˜X(q) vorkommt, schreiben als: 

( 

E ( I w (1; p)I w (u + 1; q) ) = ∏ k ɛ A 

(p k − p k−1 ) |L k∩{1,...,u}| · (q k − q k−1 ) |L k∩{l−u+1,...,l}| 

) 

( 

·∏ 

(pk ∧q c − p k−1 ∨q c−1 ) +) |L k ∩(L c+u)∩{u+1,...,l}| 

. 

c ɛ A 

Insbesondere ist die Wahrscheinlichkeit, dass w in ˜X(p) und in ˜X(q) an derselben 

Position vorkommt: 

E ( I w (1; p)I w (1; q) ) = ∏ k ɛ A 

( 

(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k | 

.


Beweis: 

Wegen der Unabhängigkeit der (X i ) i ɛN gilt: 

E ( I w (1; p)I w (u + 1; q) ) ( u∏ 

= E 1 (pwj −1,p wj ](X j ) 

j=1 

= 

· 

l∏ 

j=u+1 

u∏ 

(p wj − p wj −1) 

j=1 

· 

l∏ 

j=u+1 

∏l+u 

j=l+1 

1 (qwj−u −1,q wj−u ](X j ) 

1 (pwj −1,p wj ]∩(q wj−u −1,q wj−u ](X j ) 

l∏ 

j=l−u+1 

(q wj − q wj −1) 

(p wj ∧ q wj−u − p wj −1 ∨ q wj−u −1) + . 

Die Darstellung der ersten beiden Produkte erhält man aus der Definition der 

(L k ) k ɛ A . Für das dritte Produkt folgt mit L c +u = {j ɛ {u+1, . . . , u+l}|w j−u = c}: 

l∏ 

j=u+1 

(p wj ∧ q wj−u − p wj −1 ∨ q wj−u −1) + = ∏ 

k,c ɛ A 

∏ 

j ɛ {u+1,...,l} 

w j =k,w j−u =c 

) 

(p k ∧ q c − p k−1 ∨ q c−1 ) + . 

Daraus ergibt sich die erste Gleichung. Die zweite folgt hieraus unmittelbar mit 

u = 0. 

✷ 

Damit lässt sich die Konvergenz der Kovarianzfolge des empirischen Musterprozesses 

für den unabhängigen Fall folgendermaßen formulieren: 

Lemma 4.4 

Seien die (X i ) i ɛN unabhängig, p, q ɛ ∆ und s, t ɛ [0, 1]. Dann konvergiert die Kovarianzfolge 

des empirischen Musterprozesses in Abhängigkeit von (p; s) beziehungsweise 

(q; t): 

Kov ( Z n (p; s), Z n (q; t) ) 

( 

−→ n→∞ 

(s ∧ t) 

G w (p, q) + G w (q, p) + ∏ k ɛ A 

( 

(pk ∧ q k − p k−1 ∨ q k−1 ) +) |L k | 

) 

. 

Beweis: 

Wegen der Symmetrie der Kovarianz kann ohne Einschränkung angenommen 

werden, dass s ≤ t gilt. Zur Abkürzung bezeichne K i,j := Kov ( I w (i; p), I w (j; q) ) . 

Da I w (i; p) und I w (j; q) für i, j ɛ N mit |i − j| ≥ l unabhängig sind, erhält man


mit der Stationarität: 

Kov ( Z n (p; s), Z n (q; t) ) = 1 n 

⌊ns⌋ 

∑ 

i=1 

= ⌊ns⌋ 

n 

⌊nt⌋∧i+l−1 

∑ 

j=1∨i−l+1 

[ 

K 1,1 + 

∑l−1 

u=1 

K i,j 

( 

K1,1+u + K 1+u,1 

) ] − R n 

n , 

mit R n := ∑ ⌊ns⌋−⌊nt⌋+l−1 

j=1 

jK 1,⌊nt⌋−⌊ns⌋+j+1 + ∑ l−1 

j=1 jK j+1,1. Wegen |R n | ≤ (l − 1) 2 

und ⌊ns⌋ 

n 

−→ n→∞ 

s = s∧t folgt die Behauptung aus Proposition 4.3 und Definition 4.1. 

✷ 

Folgendes Lemma ist eine Verallgemeinerung von Lemma 4.4 auf ϕ-mischende 

Folgen. Erwartungsgemäß hängt der Grenzwert in diesem Fall von der Konvergenzgeschwindigkeit 

der Folge (ϕ(i)) i ɛN ab: 

Lemma 4.5 

Ist die Folge (X i ) i ɛN stationär und ϕ-mischend mit ∑ ∞ 

i=1 i√ ϕ(i) < ∞, so existiert 

für alle p, q ɛ ∆ eine Konstante Cp,q ϕ ɛ R, so dass für alle s, t ɛ [0, 1] gilt: 

Kov ( Z n (p; s), Z n (q; t) ) −→ n→∞ 

C ϕ p,q(s ∧ t). 

Beweis: 

Ohne Einschränkung kann s ≤ t angenommen werden. Sei zur Abkürzung 

K i,j : = Kov ( I w (i; p), I w (j; q) ) . Aus Billingsley [17, Lemma 20.1] ergibt sich mit 

der Stationarität |K i,j | ≤ 2 √ ϕ(|i − j|) √ πp w πq w . Aus der Voraussetzung folgt 

die absolute Konvergenz ∑ m 

i=1 K i,1 m→∞ 

−→ C 1 , ∑ m 

i=2 K 1,i m→∞ 

−→ C 2 mit C 1 , C 2 ɛ R 

∑ 

und 

∞ 

i=1 iK i,1 < ∞, ∑ ∞ 

i=1 iK 1,i < ∞ und somit: 

Kov ( Z n (p; s), Z n (q; t) ) 

= 1 n 

= 1 n 

∑ ∑ 

⌊ns⌋ ⌊nt⌋ 

K i,j 

i=1 

⌊ns⌋ 

∑ 

j=1 

i=1 

( i∑ 

j=1 

K i−j+1,1 + 

⌊nt⌋ 

∑ 

j=i+1 

= 1 ⌊ns⌋ 

∑ 

(⌊ns⌋ − j + 1)K j,1 + 1 n 

n 

j=1 

−→ n→∞ 

sC 1 + sC 2 . 

K 1,j−i+1 

) 

⌊nt⌋−1 

∑ 

j=i+1 

Mit C ϕ p,q := C 1 + C 2 folgt die Behauptung. 

( 

⌊ns⌋ ∧ ⌊nt⌋ − j 

) 

K1,j+1 

(4.2.1) 

✷


Damit lassen sich nun die bei der Berechnung der endlichdimensionalen Randverteilungen 

auftretenden Kovarianzen explizit als Funktion des Overlap Polynoms 

darstellen. 

Satz 4.6 

Die endlichdimensionalen Randverteilungen von (Z n ) n ɛN sind konvergent. Es 

existiert ein Prozess (Z (p,s) ) (p,s) ɛ ∆×[0,1] , so dass für alle Dimensionen d ɛ N, Schwellenwerte 

p 1 , . . . , p d ɛ ∆ und Zeitpunkte s 1 , . . . , s d ɛ [0, 1] gilt: 

⎛ ⎞ ⎛ 

Z n (p 1 ; s 1 ) 

⎜ ⎟ 

⎝ . ⎠ 

D ⎜ 

−→ ⎝ 

Z n (p d ; s d ) 

Z (p 1 ,s 1 ) 

. 

Z (p d ,s d ) 

Dabei ist die Kovarianzmatrix von Z gegeben durch: 

⎞ 

⎟ 

⎠ . 

Kov ( Z (p i ,s i ), Z (p j ,s j )) 

= (s i ∧ s j )C ϕ p i ,p j für alle i, j ɛ {1, . . . , l} 

mit Konstanten C ϕ p i ,p j ɛ R. Ist die Folge (X i ) i ɛN unabhängig, so ist für die C ϕ p,p 

durch Lemma 4.4 eine explizite Darstellung gegeben. 

Beweis: 

Bezeichne zur Abkürzung Z n := ( Z n (p 1 ; s 1 ), . . . , Z n (p d ; s d ) ) T 

die linke und Z := 

( ) T 

Z(p 1 ,s 1 ), . . . , Z (p d ,s d ) die rechte Seite. Wie in Abschnitt 3.4 wird gezeigt, dass 

α T Z n 

D 

−→ α T Z für alle α ɛ R d . Es gilt: 

α T Z n = 1 √ n 

n∑ 

i=1 

d∑ 

α j 1 {1,...,⌊ns j ⌋}(i) ( ) 

I w (i; p j ) − π w p j 

j=1 

} {{ } 

=:ξ i 

. 

Da (ξ i ) i ɛN im Allgemeinen nicht stationär ist, lassen sich die Standardergebnisse, 

wie etwa Theorem 20.1 von Billingsley [17], nicht direkt verwenden. Mit 

Lemma 4.5 für ϕ-mischende beziehungsweise Lemma 4.4 für unabhängige Folgen 

erhält man jedoch: 

σn 2 := Var(αT Z n ) 

= 

d∑ 

α j α r Kov ( Z n (p j ; s j ), Z n (p r ; s r ) ) 

−→ n→∞ 

j,r=1 

d∑ 

α j α r (s j ∧ s r ) C ϕ p j ,p r 

j,r=1 

=: σ 2 0,


wobei die Konstanten C ϕ im Fall unabhängiger X 

p j ,p r 

i durch Lemma 4.4 explizit 

gegeben sind. Ist σ0 2 = 0, so ist nichts zu zeigen. Sei also im Folgenden σ0 2 > 0 

und n 0 ɛ N so groß, dass σn 2 ≥ 1 2 σ2 0 für alle n ≥ n 0 . Mit a n,k := √ 1 

nσn 

gilt für alle 

n ≥ n 0 : 

1) ∑ n 

k=1 a2 n,k = 1 

σ 2 n 

ist beschränkt. 

2) Wegen σ n −→ n→∞ 

σ 0 gilt: max 1≤k≤n |a n,k | = √ 1 

nσn 

−→ n→∞ 

0. 

3) Die Folge (ξ i ) i ɛN ist gleichgradig integrierbar, da |ξ i | ≤ ∑ d 

j=1 |α j| für alle i ɛ N. 

4) Nach Definition ist Var ( ∑ n 

k=1 a ) 

n,kξ k = 

1 

Var ( ∑ 

1 n √n 

σn 

2 k=1 ξ k) 

= 1. 

Damit sind die Voraussetzungen von Peligrad und Utev [65, Theorem 2.2] erfüllt. 

Es folgt die Konvergenz: 

1 1 √n 

σ n 

n∑ 

ξ k = 

k=1 

n∑ 

a n,k ξ k 

k=1 

D 

−→ N (0, 1). 

Wegen σ 2 n −→ n→∞ 

σ 2 0 = α T Σα mit Σ := ( (s j ∧ s r )C ϕ p j ,p r )j,r=1,...,d ɛ Rd×d ergibt sich: 

α T Z n = 1 √ n 

n∑ 

k=1 

ξ k 

D 

−→ N (0, σ 2 0) = α T N (0, Σ T Σ). 

Mit Theorem 7.7 aus Billingsley [17] folgt die Behauptung. 

✷ 

4.3 Straffheit 

Folgende technische Proposition liefert eine Summendarstellung für I w (i; p), die 

Ausgangspunkt für weitere Folgerungen ist. 


Ist p ɛ ∆, so ergibt sich für das Ereignis, dass das Wort w ab Position i in ˜X(p) 

vorkommt: 

∑ 

) 

I w (i; p) = (−1) |D| 1 [0,u w 

D (p)] 

((X i , . . . , X i+l−1 ) T , 

D ɛ P({1,...,l}) 

wobei die stetige Abbildung u w D : ∆ → [0, 1]l gegeben ist durch: 

für alle k ɛ {1, . . . , l}. 

( 

u 

w 

D (p) ) k := { 

pwk , falls k ɛ {1, . . . , l} \ D 

p wk −1, falls k ɛ D,

4.3. Straffheit 59 

Beweis: 

l∏ 

Wegen (y i − x i ) = 

i=1 

y 1 , . . . , y l ɛ R, ergibt sich: 

∑ 

(−1) |D| 

D ɛ P({1,...,l}) 

∏ 

k ɛ D c y k · 

∏ 

k ɛ D 

x k für alle x 1 , . . . , x l , 

I w (i; p) = 

= 

= 

= 

l∏ 

j=1 

( 

) 

1 [0,pwj ](X i+j−1 ) − 1 [0,pwj −1](X i+j−1 ) 

∑ 

D ɛ P({1,...,l}) 

∑ 

D ɛ P({1,...,l}) 

∑ 

D ɛ P({1,...,l}) 

(−1) |D| ∏ 

1 [0,pwj ](X i+j−1 ) ∏ 

j ɛ D c j ɛ D 

l∏ 

(−1) |D| 1 [0,u w 

D (p) j ](X i+j−1 ) 

j=1 

(−1) |D| 1 [0,u w 

D (p)] 

1 [0,pwj −1](X i+j−1 ) 

((X i , . . . , X i+l−1 ) T ) 

. ✷ 

Damit kann der zentrierte empirische Musterprozess dargestellt werden als: 

Z n (p; s) = 

∑ 

D ɛ P({1,...,l}) 

V n( u; s ) = √ 1 

⌊ns⌋ 

∑ 

n 

i=1 

( 

(−1) |D| V n( u w D(p); s ) 

mit 

( ) 

Xi 

( ) ) 

1 [0,u] . − P (X 1,...,X l ) T [0, u] . 

X i+l−1 

Ausgehend von dieser Darstellung lässt sich nun die Straffheit von (Z n ) n ɛN zeigen: 

Satz 4.8 

Sei die Folge X ϕ-mischend mit ∑ ∞ 

n=1 n√ ϕ(n) < ∞. Dann ist der zentrierte 

empirische Musterprozess (Z n ) n ɛN straff. 

Beweis: 

Man betrachtet für alle i ɛ {1, . . . , l} und j ɛ {1, . . . , n} die Beobachtungen Y j 

i , 

gegeben durch Y j 

i 

: = X i+j−1 , so dass folgendes Schema aus n l-dimensionalen 

Beobachtungsvektoren entsteht: 

( ) ( ) 

X1 

Xn 

Y 1 = . , . . . , Y n = . . 

X l X n+l−1 

Sei D ⊂ {1, . . . , l} fest. Im Folgenden werden die Voraussetzungen H 1 bis H 4 aus 

Balacheff und Dupont [9] nachgeprüft, um Theorem 5 auf die Folge V n anwenden 

zu können.


H 1 : Die Randverteilungen der i-ten Komponente (1 ≤ i ≤ l) jedes Beobachtungsvektors 

(Y j 

i ) (j ɛ {1,...,n}) = (X i+j−1 ) (j ɛ {1,...,n}) sind stetig nach Voraussetzung. 

H 2 : Seien p, q ɛ ∆ und s, t ɛ [0, 1] fest. Bezeichnet zur Abkürzung K p,q 

i,j : = 

Kov ( 1 [0,u w 

D (p)](Y i ), 1 [0,u w 

D (q)](Y j ) ) , so lässt sich die Folge der Kovarianzen 

(C n ) n ɛN schreiben als: 

C n (p, s; q, t) := Kov ( V n (u w D(p); s), V n (u w D(q); t) ) = 1 ⌊ns⌋ ⌊nt⌋ 

∑ ∑ 

K p,q 

i,j 

n 

. 

Da die Folge ( 1 [0,u w 

D (p)](X i , . . . , X i+l−1 ) T) i ɛN dieselben Mischungseigenschaften 

besitzt, wie die Folge ( I w (i; p) ) i ɛN , existiert analog zum Beweis von Lemma 

4.5 eine Grenzfunktion C : (∆×[0, 1]) 2 → R, so dass C n −→ n→∞ 

C punktweise 

konvergiert. 

H 3 : (Y j ) (j ɛ {1,...,n}) ist ϕ-mischend bezüglich ϕ ′ (k + l) : = ϕ(k), da (Y k , . . . , Y m ) 

für 

∑ 

alle 1 ≤ k ≤ m ≤ n eine Funktion von X k , . . . , X m+l−1 ist. Es gilt: 

n ɛN n√ ϕ ′ (n) ≤ l + l ∑ √ ∑ 

n ɛN ϕ(n) + 

n ɛN n√ ϕ(n) < ∞. Das entspricht 

Voraussetzung H 3 . 

ist die Verteilungsfunktion von Y q 

i be- 

= F Xi+q−1 unabhängig von i ɛ {1, . . . , l}, 

H 4 : Wegen der Stationarität der X i 

ziehungsweise X i+q−1 F : = F Y 

q 

i 

i=1 

j=1 

q ɛ {1, . . . , n}. Mit den Bezeichnungen aus Balacheff und Dupont [9] ergibt 

sich daraus für das arithmetische Mittel der Verteilungsfunktionen der i-ten 

Komponente: 

¯F n,i = 1 n 

n∑ 

F q n,i = 1 n 

q=1 

n∑ 

q=1 

F Y 

q 

i 

= 1 n 

n∑ 

F Xi+q−1 = F. 

Es folgt ¯F 

( 

n (x1 , . . . , x l ) T) := ( ¯F n,1 (x 1 ), . . . , ¯F n,l (x l )) T = (F (x 1 ), . . . , F (x l )) T 

( ) ( 

und ϕ n (x 

q 

i )q=1,...,n i=1,...,l := ¯Fn (x 1 ), . . . , ¯F n (x n ) ) = ( F (x q i )) q=1,...,n 

. Definiert man 

i=1,...,l 

das stetige Maß µ := P (F (X 1),...,F (X l )) T , so ergibt sich für die j–te Randverteilung 

von µ n := P ϕn(Y 1,...,Y n) , j ɛ {1, . . . , n}: 

µ j n(B) = P ( ¯Fn (Y j ) ɛ B ) 

(( ) ) 

F (Xj ) 

= P . ɛ B 

F (X j+l−1 ) 

q=1 

= µ(B) für alle Blöcke B ⊂ [0, 1] l . 

Insbesondere ist µ Majorante für jede Randverteilung µ j n, womit Voraussetzung 

H 4 erfüllt ist. 

Mit Balacheff und Dupont [9, Theorem 5] folgt die Straffheit von (V n ) n ɛN. Wegen 

der Stetigkeit von u w D : ∆ → [0, 1]l ergibt sich, dass auch (Z n ) n ɛN straff ist. ✷

4.4. Fehlerabschätzungen 61 

4.4 Fehlerabschätzungen 

In Anwendungen, in denen die Wahrscheinlichkeiten der einzelnen Zeichen aus 

Beobachtungen geschätzt werden, kann die in Abschnitt 4.3 gezeigte Stetigkeit 

des Grenzprozesses Z dazu verwendet werden, aus einer Konvergenz der Wahrscheinlichkeiten 

auf die Konvergenz des Prozesses zu schließen. Oft sind in diesem 

Zusammenhang Fehlerabschätzungen von Interesse. Daher werden in diesem 

Abschnitt explizite Abschätzungen für den Fall unabhängiger (X i ) i ɛN und ohne 

Zeitparameter gezeigt. Des Weiteren seien die X i auf [0, 1] gleichverteilt, was 

keine Einschränkung ist, wie in der Einleitung zu Abschnitt 4.1 beschrieben. 

Betrachtet wird also in diesem Abschnitt: 

Z n (p) := 1 √ n 

n∑ ( ) 

Iw (i; p) − πp 

w für alle p ɛ ∆. 

i=1 

Daher ist die folgende Abschätzung der Variation von Z n zwischen zwei Punkten 

eine direkte Verallgemeinerung von Aki [1] beziehungsweise von Billingsley [17, 

Abschnitt 22] auf mehrere Veränderliche. 

Sei zur Abkürzung P := × ξ k=2 P(L k). 

Die nächste Proposition zeigt die Zerlegung der auftretenden Terme bezüglich der 

(L k ) k ɛ A , die das technische Fundament für handliche Formeln zur Berechnung 

von Momenten ist. 


Gilt 0 = p 0 ≤ p 1 ≤ · · · ≤ p ξ−1 ≤ 1, so ergibt sich für das Ereignis I w (i; p), dass 

das Wort w ab Position i in ˜X(p) vorkommt: 

I w (i; p) = 

I w (i; p) − π w p = 

∑ 

(D 2 ,...,D ξ ) ɛ P 

∑ 

(D 2 ,...,D ξ ) ɛ P 

(−1) 

(−1) 

ξP 

j=2 

|D j | 

Π(i; D2 , . . . , D ξ ; p), 

ξP 

|D j |( 

j=2 

Π(i; D 2 , . . . , D ξ ; p) − λ D 2,...,D ξ 

p 

wobei die Komplementbildung von D k bezüglich L k zu verstehen ist, das heißt 

Dk c = L k \ D k . Des Weiteren seien Π : {1, . . . , n} × P × ∆ → {0, 1} und λ D p ɛ R 

definiert als: 

( ) 

) 

ξ−1 

∏ ∏ 

ξ−1 

∏ 

Π(i; D; p) := 

= 

(1 [0,pk ] |Dc k ∪D |(X k+1 Dk c ∪D ) , 

k+1 

mit D 1 = ∅. 

k=1 

j ɛ D c k ∪D k+1 

1 {Xi+j−1 ≤p k } 

ξ−1 

λ D p := E Π(i; D ∏ 

2, . . . , D ξ ; p) = 

k=1 

k=1 

p |Dc k ∪D k+1| 

k 

) 

,


Der Nutzen dieser Darstellung liegt darin, dass die Faktoren in Π stochastisch 

unabhängig und nach Schwellen p 1 , . . . , p ξ−1 geordnet sind. 

Beweis: 

Wegen ∏ (y j −x j ) = ∑ ∏ 

(−1) |D| y j · ∏ x j für alle endlichen Indexmengen 

j ɛ M 

D ɛ P(M) j ɛ D c j ɛ D 

M und x k , y k ɛ R, k ɛ M ergibt sich mit p ξ = 1 aus der Definition von L k : 

I w (i; p) = ∏ ∏ ( ) 

1{Xi+j−1 ≤p k } − 1 {Xi+j−1} ≤p k−1 

k ɛ A j ɛ L k 

= ∏ ∑ ∏ 

(−1) |D k| 

1 {Xi+j−1 ≤p k } · ∏ 

1 {Xi+j−1 ≤p k−1 } 

k ɛ A D k ɛ P(L k ) 

j ɛ Dk 

c j ɛ D k 

} {{ } 

=:Z(p,k,D k ) 

= ∑ ∑ 

· · · 

Z(p, k, D k ) 

D 1 ɛ P(L 1 ) 

= ∑ 

D 2 ɛ P(L 2 ) 

. 

D ξ ɛ P(L ξ ) 

(−1) 

D ξ ɛ P(L ξ )(−1) |D 1|+···+|D ξ | ∏ k ɛ A 

ξP 

k=2 

|D k |( ∏ 

j ɛ L 1 ∪D 2 

1 {Xi+j−1 ≤p 1 } 

· 

∏ 

1 {Xi+j−1 ≤p 2 } · · · 

∏ 

1 {Xi+j−1 ≤p ξ−1 } 

) 

, 

j ɛ D c 2 ∪D 3 

j ɛ D c ξ−1 ∪D ξ 

wobei die letzte Gleichung aus Z(p, 1, D 1 ) = 0 für alle D 1 ≠ ∅ und 

Z(p, k, D k )Z(p, k+1, D k+1 ) 

= ∏ 

∏ 

j ɛ D k 

1 {Xi+j−1 ≤p k−1 } 


1 {Xi+j−1 ≤p k } 

∏ 

j ɛ D c k+1 

1 {Xi+j−1 ≤p k } 

folgt. Damit ergibt sich die erste Gleichung von Proposition 4.9. Die zweite folgt 

analog mit der Unabhängigkeit der (X i ), da die D k ⊂ L k für k = 1, . . . , ξ disjunkt 

sind. 

✷ 

Seien p, q ɛ ∆ so dass p ≤ q komponentenweise. Es bezeichne ‖ · ‖ die Maximumsnorm 

auf ∆, das heißt ‖q − p‖ := max 1≤k≤ξ−1 |q k − p k |. 


Sei D ɛ P. Dann lässt sich die Varianz der Variation von Π folgendermaßen 

abschätzen: 

Var ( Π(1; D; q) − Π(1; D; p) ) ≤ (2 l − 1)‖q − p‖.


Beweis: 

Aus p ≤ q ergibt sich Π(1; D; p)Π(1; D; q) = Π(1; D; p) und somit: 

Var ( Π(1; D; q) − Π(1; D; p) ) 

= E ( Π(1; D; q) − Π(1; D; p) ) 2 

− 

[ 

E 

( 

Π(1; D; q) − Π(1; D; p) 

)] 2 

= E ( Π(1; D; q) 2) − E ( Π(1; D; p) 2) − [ λ D q − λ D p 

= λ D q − λ D p − (λ D q − λ D p ) 2 . 

Da λ D p monoton wachsend in p ist, folgt mit b := ‖q − p‖ und d k := |Dk c ∪ D k+1| 

wegen b ≤ 1 und ∑ ξ−1 

k=1 d k ≤ l: 

] 2 

Var ( Π(1; D; q) − Π(1; D; p) ) ≤ λ D p+b − λ D p 

( 

ξ−1 

∏ ∑ dk 

= 

= 

k=1 

∑ 

m=1 

m 1 ,...,m ξ−1 

0≤m k ≤d k 

m 1 +...+m ξ−1 ≠0 

≤ (2 l − 1)b. 

( 

dk 

) 

m 

( ∏ξ−1 

k=1 

b m p d k−m 

k 

( 

dk 

) 

ξ−1 

∏ 

− 

k=1 

) ) 

p d k−m k 

k 

m k 

p d k 

k 

b P ξ−1 

k=1 m k 

✷ 

Bemerkung: 

Im letzten Beweisschritt wird offensichtlich, dass man mit dieser Methode die 

Abschätzung 

Var ( Π(1; D; q) − Π(1; D; p) ) ≤ l‖q − p‖ + (2 l − l)‖q − p‖ 2 

zeigen kann. Da sich mit dieser Ungleichung jedoch nur die Konstante, nicht aber 

die Ordnung von ‖q − p‖ ändert, soll an dieser Stelle darauf verzichtet werden, 

um die weiteren Beweise nicht unübersichtlicher zu machen. 

Lemma 4.11 

Mit C 1 := 2 2 P ξ 

k=2 |L k| (2 l − 1) lässt sich die Varianz der Differenz des Vorkommens 

von w in ˜X(p) und ˜X(q) abschätzen: 

Var ( I w (1; q) − I w (1; p) ) ≤ C 1 ‖q − p‖. 

Beweis: 

Nach Proposition 4.9, der Cauchy–Schwarzschen Ungleichung für Summen reeller


Zahlen und Proposition 4.10 gilt: 

Var ( I w (1; q) − I w (1; p) ) 

( ∑ 

= E (−1) 

≤ 

ξ∏ 

D ɛ P 

k=2 

2 |L k| ∑ D ɛ P 

ξP 

j=2 

|D j |( 

Π(1; D; q) − λ 

D 

q − Π(1; D; p) + λ D p 

E ( Π(1; D; q) − λ D q 

≤ 2 2 P ξ 

k=2 |L k| (2 l − 1)‖q − p‖. 

Nach Definition von C 1 ist das die Behauptung. 

− Π(1; D; p) + λ D p 

) 2 

) ) 2 

✷ 

Damit lässt sich nun die Differenz zweier Funktionswerte durch den Abstand der 

betrachteten Punkte abschätzen. Dabei wird zunächst noch vorausgesetzt, dass 

der Abstand der Punkte nicht zu klein wird. Auf diese Bedingung wird später in 

Satz 4.14 eingegangen. 

Lemma 4.12 

Seien n ɛ N und q, p ɛ ∆ so, dass ‖q − p‖ ≥ 1 . Dann gilt: 

n 

E ( Z n (q) − Z n (p) ) 4 

≤ C(l)(C1 + 1)C 1 ‖q − p‖ 2 , 

wobei C : N → N definiert ist als C(l) := 8 l 2 (l + 1) 2 (2l + 1) 2 und somit nur von 

der Wortlänge l abhängt. Insbesondere gilt für γ > 0: 

P (∣ ∣ Zn (q) − Z n (p) ∣ ∣ ≥ γ 

) 

≤ 

C(l)(C 1 + 1)C 1 

γ 4 ‖q − p‖ 2 . 

Beweis: 

Die Folge ξ i := I w (i; q) − πq w − I w (i; p) + πp w ist (l-1)-abhängig, insbesondere ϕ- 

mischend, mit ∑ ∞ 

k=0 (k + 1)2 ϕ(k) 1 2 ≤ ∑ l 

k=1 k2 = 1 l(l + 1)(2l + 1). Mit Billingsley 

6 

[17, Lemma 22.1] und Lemma 4.11 ergibt sich: 

E ( Z n (q) − Z n (p) ) ( ) 

4 1 ( n∑ ) 4 

= 

n E ξ 2 i 

i=1 

( ( 

≤ 288 E(ξ 

2 

1 ) ) 2 1 

) ( ∑ ∞ 

+ 

n E(ξ2 1) (k + 1) 2 ϕ(k) 1 2 

k=0 

≤ 8 l 2 (l + 1) 2 (2l + 1) 2 ( 

C 2 1‖q − p‖ 2 + C 1 

n ‖q − p‖ ) 

≤ 8 l 2 (l + 1) 2 (2l + 1) 2 (C 1 + 1)C 1 ‖q − p‖ 2 , 

) 2 

wobei die letzte Ungleichung aus der Voraussetzung 1 n 

≤ ‖q − p‖ folgt. ✷


Im folgenden Lemma wird die Variation auf einem Würfel abgeschätzt. 

Lemma 4.13 

Seien q ɛ ∆, γ > 0 und b ɛ R, n ɛ N so, dass B : = [q, q + b] ⊂ [0, 1] ξ−1 . Ist 

b ɛ [ 1 

, γ 

n 

) 

√ 

2C 1 n , so gilt: 

( 

P 

sup 

p ɛ B 

∣ Zn (p) − Z n (q) ∣ ) ≥ γ ≤ C 2 

γ 4 b2 

mit C 2 := 128 · 2 4 P ξ 

k=2 |L k| l 2 (l + 1) 2 (2l + 1) 2 2 l (2 l − 1). 

Beweis: 

Zunächst wird die Variation zweier beliebiger Punkte in einem Würfel durch die 

Variation der Endpunkte abgeschätzt. Man erhält mit Proposition 4.9 für alle 

p ɛ B: 

|Z n (p) − Z n (q)| = √ 1 ∣ ∣∣ 

n∑ ( ) ∣ 

Iw (i, p) − π w 

n 

p − I w (i, q) − πq 

w ∣ 

Da Π(i; D; p) und λ D p 

die Summanden: 

i=1 

≤ √ 1 ∑ 

∣ n 

D ɛ P 

n∑ ( ) ∣ 

Π(i; D; p) − λ 

D 

p − Π(i; D; q) + λ D q ∣. 

i=1 

n∑ 

∑ 

• Π(i; D; p) ≤ n Π(i; D; q + b). 

i=1 

• − n ∑ 

λ D p 

i=1 

in p monoton wachsend sind, folgt aus q ≤ p ≤ q + b für 

i=1 

∑ 

≤ n ( ∑ 

λ 

D 

q+b − λ D q − λq+b) D ≤ n (2 l − 1)b − n λ D q+b , 

i=1 

wie im Beweis zu Proposition 4.10. 

∑ 

• − n ( ) 

Π(i; D; p) − λ 

D 

p − Π(i; D; q) + λ D q 

i=1 

∑ 

≤ n ( ) n∑ ( ) 

Π(i; D; q) − Π(i; D; p) + λ 

D 

q+b − λ D q 

i=1 

≤ n (2 l − 1)b. 

Mit V i := Π(i; D; q + b) − λ D q+b − Π(i; D; q) + λD q ergibt sich daraus: 

( ) 

sup |Z n (p) − Z n (q)| ≤ 1 ∑ ∣∣∣ n∑ ∣ ∣∣ 

√ V i + n(2 l − 1)b 

p ɛ B 

n 

D ɛ P i=1 

= √ 1 ∑ 

n∑ ∣ ∣∣ √ P ξ 

∣ V i + n 2 k=2 |Lk| (2 l − 1)b. 

n 

D ɛ P 

i=1 

i=1 

i=1


Da die Folge (V i ) i ɛN (l-1)-abhängig und somit auch ϕ-mischend ist, erhält man 

analog zum Beweis von Lemma 4.12 mit Lemma 22.1 aus Billingsley [17] und 

Proposition 4.10: 

E 

( ∣∣∣ n∑ 

i=1 

) 

∣ ∣∣ 

4 

V i ≤ 8 l 2 (l + 1) 2 (2l + 1) [ 2 n 2( E(V1 2 ) ) 2 

+ n E(V 

2 

1 ) ] 

≤ C(l) [ n 2 (2 l − 1) 2 b 2 + n(2 l − 1) b ] 

≤ C(l) n 2 2 l (2 l − 1) b 2 , 

wobei die letzte 

√ 

Ungleichung aus der Voraussetzung 1 ≤ b folgt. Mit der Voraussetzung 

C 1 n b < 

n 

γ 

ergibt sich: 

2 

( 

P sup ∣ Zn (p) − Z n (q) ∣ ) 

≥ γ 

p ɛ B 

( ( ) ) 

1 ∑ ∣∣∣ n∑ ∣ ∣∣ 

≤ P √ V i ≥ γ n 2 

D ɛ P i=1 

( ) 

≤ 24 |P| 4 ∣∣∣ n∑ ∣ ∣∣ 

γ 4 n E 4 

V 2 

i 

i=1 

≤ 16 · 24 P ξ 

k=2 |L k| C(l) 2 l (2 l − 1) 

γ 4 b 2 . 

( 

+ P 

C 1 

√ n b ≥ 

γ 

2 

) 

Nach Definition von C 2 ist das die Behauptung. 

✷ 

Damit lässt sich die Variation von Z n auf einem beliebigen Würfel durch die 

Kantenlänge des Würfels abschätzen. 

Satz 4.14 

Seien q ɛ ∆ und ε, c > 0 so, dass [q, q + c] ⊂ [0, 1] ξ−1 . Ferner sei n ɛ N hinreichend 

groß, so dass der Schnitt ( 4c 

C 1 ε√ n, cn 

) 

∩ N nicht leer ist. Dann gilt: 

P 

( 

sup 

p ɛ [q,q+c] 

mit C 3 := 16 ( C 2 + C(l)(C 1 + 1)C 1 

) 

. 

∣ Zn (p) − Z n (q) ∣ ∣ ≥ ε 

) 

≤ C 3 

ε 4 ⌈ 

4 √ ⌉ ξ−1 

nc 

c 2 

C 1 ε 

Diese obere Schranke ist zwar für Konvergenzaussagen unbrauchbar, da sie 

bezüglich n von der Größenordnung n ξ−1 

2 ist, sie ist jedoch für Fehlerabschätzungen 

von Vorteil, da sie bezüglich der Kantenlänge von der Ordnung c ξ+1 ist.


Beweis: 

Mit m : = ⌈ 4√ nc 

⌉ ɛ C 1 ε N und b : = c ɛ [ 1 

, C 1ε 

m n 4 n) √ folgt aus Lemma 4.13 und Lemma 

4.12: 

( 

) 

∣ 

P sup ∣Z n (p) − Z n (q) ∣ ≥ ε 

≤ 

p ɛ [q,q+mb] 

[ ( 

∑ 

P 

r ɛ {0,...,m−1} ξ−1 

+ P 

sup 

p ɛ [q+br,q+b(r+1)] 

∣ 

∣ 

∣Z n (p) − Z n (q + br) 

( ∣∣Zn 

(q + br) − Z n (q) ∣ ε 

) ] 

≥ 

2 

≤ m ξ−1 [ 

2 4 C 2 

ε 4 b 2 + 24 C(l)(C 1 + 1)C 1 

ε 4 ( 

(m − 1)b 

) 2 

] 

≤ 16( ) 

C 2 + C(l)(C 1 + 1)C 1 

m ξ−1 (mb) 2 . 

ε 4 

Mit der Definition von b, c und C 3 folgt die Behauptung. 

∣ ≥ ε 2 

) 

✷ 

Bemerkung: 

Im Vorangegangenen wurde die Variation von Z n auf einem Würfel durch die 

Kantenlänge des Würfels abgeschätzt. Durch analoge Vorgehensweise lässt sich 

auch der Zuwachs von Z n auf einem Quader R : = (p, q] ⊂ [0, 1] ξ−1 , wie etwa 

von Bickel und Wichura in [16] definiert, durch das Lebesgue-Maß des Würfels 

abschätzen: 

1) Für den Quader R ⊂ [0, 1] ξ−1 mit den Eckpunkten {(p k +ε k (q k −p k )) k=1,...,ξ−1 | 

ε 1 , . . . , ε ξ−1 ɛ {0, 1}} und eine Funktion g : [0, 1] ξ−1 → R ist der Zuwachs von 

g über dem Quader R definiert als: 

g(R) := 

1∑ 

ε 1 ,...,ε ξ−1 =0 

(−1) ξ−P ξ−1 

i=1 ε i 

g ( p 1 +ε 1 (q 1 −p 1 ), . . . , p ξ−1 +ε ξ−1 (q ξ−1 −p ξ−1 ) ) . 

2) Durch Anwendung des Distributivgesetzes folgt für die in Proposition 4.9 definierte 

Funktion Π: 

( 

ξ−1 

∏ ∏ 

Π(i; D 2 , . . . , D ξ ; R) = 

1 {Xi+j−1 ≤q k } − ∏ 

) 

. 

k=1 



1 {Xi+j−1 ≤p k } 

3) Mit der Ungleichung von Cauchy–Schwarz ergibt sich analog zu Lemma 4.11: 

Var ( I w (1; R) ) ≤ C ′ 1λ \ (R), 

wobei C ′ 1 := 2P ξ 

k=2 |L k| max k ɛ {1,...,ξ−1} 

∣ 

∣Lk+1 ∪ L k 

∣ ∣.


4) Diese Abschätzung lässt sich auf Z n übertragen, wobei wie in Lemma 4.12 

gefordert wird, dass das Volumen des Quaders nicht zu klein ist: Sei n ɛ N und 

der Quader R ⊂ ∆ so groß, dass λ \ (R) ≥ 1 ist. Dann gilt: 

n 

E ( Z n (R) 4) ≤ C ′ 2λ \ (R) 2 , 

mit C ′ 2 := C(l) C′ 1(C ′ 1 + 1) und C(l) := 8 l 2 (l + 1) 2 (2l + 1) 2 wie in Lemma 4.12. 

Somit lassen sich die in diesem Abschnitt für Z n (p) − Z n (q) gezeigten Ergebnisse 

auf Z n (Q) übertragen. Da die Argumentation hier analog obiger Abschätzungen 

erfolgt, wird an dieser Stelle auf eine genauere Ausführung verzichtet.

69 

Kapitel 5 

Das ” 

Hidden ϕ-/ψ-Mixing“ 

Modell 

Gegenstand dieses Kapitels ist ein funktionaler Zentraler Grenzwertsatz für die 

Häufigkeit des Auftretens mehrerer Muster in einem zufälligen Text. Unter allgemeinen 

Voraussetzungen wird die Konvergenz des im Folgenden definierten 

mehrdimensionalen Musterprozesses Z n gegen eine Brownsche Bewegung gezeigt. 

Seit Erdös und Rényi 1970 im Artikel [41] sogenannte Long Head Runs“, das 

” 

heißt das Auftreten von außergewöhnlich vielen aufeinander folgenden 1“en in ” 

einer Folge von unabhängigen Bernoulli-verteilten Zufallsvariablen, untersucht 

haben, wurde die Mustersuche in zwei Richtungen verallgemeinert: 

Zum einen werden allgemeinere Muster als Head Runs“ betrachtet, von sogenannten 

Hidden Patterns“ in Flajolet, Guivarc’h, Szpankowski und Vallée [42], 

” 

” 

wo das gesuchte Muster nicht an aufeinander folgenden Positionen vorkommen 

muss, bis hin zu Regulären Ausdrücken“, wie sie in der theoretischen Informatik 

” 

zur Beschreibung formaler Sprachen verwendet werden (vergleiche Schöning [82, 

Abschnitt 1.2.3]), die beispielsweise von Nicodème, Salvy und Flajolet in [62] als 

” Motif“ oder von Regnier in [71] als Language“ bezeichnet werden. 

” 

Zum anderen werden komplexe Abhängigkeitsstrukturen im zeichenerzeugenden 

Modell behandelt. Hierbei handelt es sich unter anderem um Markov-Ketten in 

Régnier und Szpankowski [73], Robin und Daudin [77], Kleffe und Borodovsky 

[55] oder Stefanov [88], um Hidden Markov“ Modelle oder um Dynamische 

” ” 

Quellen“. Für Literatur zu den letzten beiden Modellen sei auf Abschnitt 5.3 verwiesen, 

da diese dort ausführlicher behandelt und in einen gemeinsamen Kontext 

eingeordnet werden. 

Hier soll die zeichenerzeugende Quelle weiter verallgemeinert werden. In einer 

von einem verborgenen“ stochastischen Prozess erzeugten Zeichenkette sollen 

” 

Muster gesucht werden. Da dieser als ϕ- beziehungsweise ψ-mischende Folge vorausgesetzt 

wird, soll das Modell hier als Hidden ϕ-/ψ-Mixing“ Modell bezeich- 

”

70 Kapitel 5. Das ” 

Hidden ϕ-/ψ-Mixing“ Modell 

net werden. Der nicht sichtbare Prozess erzeugt die Beobachtungen mittels eines 

Übergangskerns. Dieser Übergang zur sichtbaren Zeichenkette wird als ” 

Emission“ 

bezeichnet. 


Sei X := (X i ) i ɛN eine ϕ- oder ψ-mischende, nicht notwendig stationäre Folge von 

Zufallsvariablen mit Zustandsraum X , wobei X ein separabler metrischer Raum, 

versehen mit der Borelschen σ-Algebra B, sei. 

Die emittierten Beobachtungen Y := (Y i ) i ɛN sind eine Folge von Zufallsvariablen 

mit Werten im endlichen Alphabet A = {1, . . . , ξ}, so dass Y i für alle i ɛ N nur 

von X i und der Randomisierung abhängt. Formal bedeutet diese Bedingung, die 

in der Definition des Hidden Markov Modells zentral ist: 

a) Die Y i gegeben (X i ) i ɛN sind bedingt unabhängig, das heißt, dass für alle endlichen 

Indexmengen K ⊂ N, k : = max K, alle x ɛ X k und alle messbaren 

Mengen (A i ) i ɛ K ⊂ A |K| gilt: 

( ) 

⋂ 

∣ 

P {Y i ɛ A i } ∣(X i ) i ɛ {1,...,k} = x = ∏ P ( {Y i ɛ A i } ∣ ∣(X i ) i ɛ {1,...,k} = x ) . 

i ɛ M 

i ɛ K 

b) Für alle i, j ɛ N, i ≠ j ist Y i gegeben X i unabhängig von X j , das bedeutet für 

alle messbaren Mengen A ⊂ A, B, C ɛ B gilt: 

P (Y i ɛ A|X i ɛ B, X j ɛ C) = P (Y i ɛ A|X i ɛ B). 

Weiterhin sei die bedingte Verteilung von Y i gegeben X i stationär, so dass die 

Emissionswahrscheinlichkeiten 

λ a,u := P (Y i = a|X i = u), für alle a ɛ A, u ɛ X , 

unabhängig von i ɛ N sind. Statt des durch Λ : X × P(A) → R + , Λ(u, A) : = 

∑ 

a ɛ A λ a,u definierten Übergangskerns von (X , B) nach (A, P(A)) wird in der 

Definition des Hidden Markov Modells in der Literatur manchmal eine deterministische 

Abbildung verwendet. Auf diese zum Beispiel von Cover und Thomas 

in [28, Abschnitt 4.4] und von Szpankowski in [90, Abschnitt 2.1] angegebene Variante 

wird hier jedoch nicht weiter eingegangen, da sich beide Varianten durch 

entsprechende Wahl des Zustandsraumes beziehungsweise des Übergangskerns 

ineinander überführen lassen.


Bemerkungen: 

a) Mit der Glättungsregel ergibt sich aus der bedingten Unabhängigkeit für die 

Wahrscheinlichkeit, dass v ɛ A k ab Position i in Y vorkommt: 

E(I v (i)) = P (Y i . . . , Y i+k−1 = v) 

∫ 

= P (Y i · · · Y i+k−1 =v|X i · · · X i+k−1 =u) dP (X i,...,X i+k−1 ) (u) 

X k 

∫ 

= 

X k 

k∏ 

r=1 

λ vr,u r 

dP (X i···X i+k−1 ) (u). 

b) Für die Wahrscheinlichkeit, dass v ɛ A k ab Position i und w ɛ A l ohne Überlappung, 

das heißt ab Position j ≥ i + k oder j ≤ i − l in Y vorkommt, gilt 

analog: 

E ( I v (i)I w (j) ) = P (Y i . . . , Y i+k−1 = v, Y j . . . , Y j+l−1 = w) 

∫ k∏ l∏ 

= 

dP (X i...X i+k−1 ,X j ...X j+l−1 ) (t, u). 

X k ×X l 

r=1 

λ vr,t r 

r=1 

λ wr,u r 

In folgendem Lemma wird gezeigt, dass sich die Mischungseigenschaften von X 

im Wesentlichen auf Y übertragen. Dies ist ein elementarer Vorteil gegenüber 

dem Hidden Markov Modell, bei dem die emittierte Zeichenfolge im Allgemeinen 

keine Markov-Kette ist. 

Lemma 5.1 

Sei X ϕ- beziehungsweise ψ-mischend und Y die emittierte Zeichenfolge, wie 

oben definiert. Dann ist auch Y ϕ- beziehungsweise ψ-mischend bezüglich der 

Funktion ˜ϕ = min{1, 2ϕ} beziehungsweise ˜ψ = min{1, 2ψ}. 

Beweis: 

Um die Mischungseigenschaft nachzuweisen, reicht es aus, beliebige endliche Indexmengen 

zu betrachten. Seien also i, s, K ɛ N mit K > i+s gegeben. Bezeichne 

zur Abkürzung I : = {1, . . . , i}, J : = {i + s, . . . , K} und M : = I ∪ J. Ist X ϕ- ) 

mischend, so erhält man mittels algebraischer Induktion für alle f ɛ L+( 1 P 

X I 

( ) , 

g ɛ L ∞ + P 

X J : 

∫ 

∣ fg d ( )∣ ∫ 

P X M 

− P X I 

⊗ P X J ∣∣ ≤ 2ϕ(s) ‖g‖L ∞ ∣ f dP X I∣ 

∣. (5.1.1) 

Diese Folgerung aus der Hölderschen Ungleichung findet man beispielsweise in 

Philipp [66, Lemma 1] und in der Bemerkung zu Lemma 20.1 in Billingsley [17]. 

Aus der bedingten Unabhängigkeit folgt außerdem 

P (Y I ɛ E 1 , Y J ɛ E 2 |X M =x M ) = P (Y I ɛ E 1 |X I = x I )P (Y J ɛ E 2 |X J = x J )



für alle E I ɛ A |I| , E J ɛ A |J| und somit 

∣ 

∣P (Y I ɛ E 1 , Y J ɛ E 2 ) − P (Y I ɛ E 1 )P (Y J ɛ E 2 ) ∣ ∫ 

= 

P (Y I ɛ E 1 , Y J ɛ E 2 |X M =x M ) dP (X I,X J ) (x I , x J ) 

∣ 

X |M| ∫ 

∫ 

− P (Y I ɛ E 1 |X I =x I ) dP X I 

(x I ) P (Y J ɛ E 2 |X J =x J ) dP X J (x J ) 

∣ 

X |I| X |J| ∫ 

= 

P (Y 

∣ 

I ɛ E 1 |X I =x I )P (Y J ɛ E 2 |X J =x J ) d ( ) P (X I,X J ) − P X I 

⊗ P X J 

(xI , x J ) 

∣ 

X |M| 

∫ 

≤ 2ϕ(s) P (Y I ɛ E 1 |X I =x I ) dP X I 

(x I ) 

X |I| 

= 2ϕ(s)P (Y I ɛ E 1 ). 

Ist X ψ-mischend, so folgt ) analog zu ( Gleichung ) (5.1.1) mit Lemma 3 aus Philipp 

[66] für alle f ɛ L+( 2 P 

X I , g ɛ L 

2 

+ P 

X J : 

∫ 

∣ fg d ( )∣ ∣ ∫ ∫ 

P X M 

− P X I 

⊗ P X J ∣∣ ∣∣ ≤ 2ψ(s) f dP X I 

g dP X J 

∣ 

und damit: 

∣ P (YI ɛ E 1 , Y J ɛ E 2 ) − P (Y I ɛ E 1 )P (Y J ɛ E 2 ) ∣ ∫ 

∫ 

≤ 2ψ(s) P (Y I ɛ E 1 |X I =x I ) dP X I 

(x I ) 

X |I| 

= 2ψ(s)P (Y I ɛ E 1 )P (Y J ɛ E 2 ). 

X |J| P (Y J ɛ E 2 |X J =x J ) dP X J 

(x J ) 

Das ergibt die Behauptung. 

✷ 

Bemerkung: 

Mit dem soeben gezeigten spielt es keine Rolle, ob die Mischungsgeschwindigkeit 

der verborgenen oder die der emittierten Folge untersucht wird. Im Allgemeinen 

besteht jedoch ein erheblicher Unterschied ob die Verteilung von X oder die 

Verteilung von Y betrachtet wird. 

Der Versuch, die Verteilung der Beobachtungen oder eine davon abhängige Größe 

zu schätzen, kann zu einer unzureichenden Schätzung führen, wenn eine verborgene 

Information die Verteilung der Emissionen bestimmt, da eine nicht beobachtete 

Veränderung in der Folge X zu einer deutlich anderen Verteilung von Y führen 

kann. Würde nun lediglich die Verteilung der Beobachtungen P Y betrachtet, so

5.2. Der allgemeine Fall 73 

würden eventuell wichtige Informationen nicht berücksichtigt. Dies wird insbesondere 

in Abschnitt 5.3.1 deutlich, in dem mit dem Hidden Markov Modell ein 

in der Praxis verwendetes Modell zur Zeichenerzeugung näher betrachtet wird. 

5.2 Der allgemeine Fall 

In diesem Abschnitt wird ein funktionaler Zentraler Grenzwertsatz für die Häufigkeit 

des Auftretens mehrerer Muster im Hidden ϕ-/ψ-Mixing Modell bewiesen. 

Ferner soll auch aufgezeigt werden, wie auf die in der Literatur oft verwendete 

Voraussetzung, dass der verborgene Prozess X stationär ist, verzichtet werden 

kann. Sei X im Folgenden also ϕ- beziehungsweise ψ-mischend aber nicht notwendig 

stationär. 

Sei m ɛ N. Gesucht werden m Muster w = (w 1 , . . . , w m ) T über dem Alphabet 

A, wobei das Wort w i = w 1 · · · w li die Länge l i ɛ N habe. Sei N n = 

(Nn, 1 . . . , Nn m ) T analog Abschnitt 3.1 mit Nn k : = ∑ n 

( ) 

j=1 Iwk (j) − π w k , Iwk (j) : = 

1 {Yj···Y j+lk −1=w 1···w lk } definiert. 

Die folgende Proposition liefert das technische Fundament für die Abschätzung 

der auftretenden Kovarianzen und die Konvergenz der Kovarianzfolge: 


Seien i, s, k, l, n ɛ N so, dass i + k + s ≤ n, sowie v ɛ A k und w ɛ A l gegeben. Ist X 

ϕ-mischend mit ∑ ∞ 

i=1 

ϕ(i) < ∞, so konvergiert die folgende Summe absolut, das 

heißt, es existiert C v,w ɛ R, so dass gilt: 

1 ∑n−k 

n 

i=1 

n−k−i 

∑ 

s=0 

Kov ( I v (i), I w (i + k + s) ) −→ n→∞ 

C v,w . 

Beweis: 

Mit Lemma 5.1 erhält man für die Kovarianz: 

∣ Kov 

( 

Iv (i), I w (i+k+s) )∣ ∣ = 

∣ ∣P (Yi · · · Y i+k−1 =v, Y i+k+s · · · Y i+k+s+l−1 =w) 

− P (Y i · · · Y i+k−1 =v)P (Y i+k+s · · · Y i+k+s+l−1 =w) ∣ ∣ 

Summation liefert: 

1 ∑n−k 

n 

i=1 

n−k−i 

∑ 

s=0 

≤ ϕ(s)P (Y i · · · Y i+k−1 =v) 

≤ ϕ(s). 

∣ Kov ( I v (i), I w (i + k + s) )∣ ∣ = 

≤ 

n−k−1 

∑ 

s=0 

n∑ 

ϕ(s). 

s=0 

n − k − s 

ϕ(s) 

n



Die letzte Summe konvergiert nach Voraussetzung, somit folgt die Behauptung. 

✷ 

Mithilfe dieser Proposition lassen sich nun die Kovarianzen untersuchen: 

Lemma 5.3 

Sind obige Voraussetzungen erfüllt und es konvergiert ∑ ∞ 

i=1 

ϕ(i) < ∞, so konvergiert 

für Wörter v ɛ A k und w ɛ A l die Kovarianz, das heißt es existiert σ v,w ɛ R, 

so dass: 

1 

n Kov(N v n, N w n ) −→ n→∞ 

σ v,w . 

Beweis: 

Für n ɛ N lässt sich die Kovarianz wie folgt zerlegen: 

[ 

1 

n Kov(N n, v Nn w ) = 1 n∑ ∑i−l 

Kov(I v (i), I w (j)) + 

n 

i=1 j=1 

n∑ 

+ 

j=i+k 

i+k−1 

∑ 

j=i−l+1 

Kov(I v (i), I w (j)) 


Aus Proposition 5.2 folgt für den letzten Summanden aus Gleichung (5.2.2): 

1 

n 

n∑ 

n∑ 

i=1 j=i+k 

Kov ( I v (i), I w (j) ) = 1 n 

∑n−k 

i=1 

−→ n→∞ 

C v,w . 

n−i−k 

∑ 

s=0 

] 

Kov ( I v (i), I w (i + k + s) ) 

. 

(5.2.2) 

Analog konvergiert aus Symmetriegründen auch der erste Summand in Gleichung 

(5.2.2) absolut: 

1 

n 

n∑ ∑i−l 

Kov(I v (i), I w (j)) = 1 n 

i=1 

j=1 

∑n−l 

j=1 

−→ n→∞ 

C w,v . 

n−l−j 

∑ 

s=0 

Kov ( I v (j + l + s), I w (j) ) 

Die innere Summe des zweiten Summanden ist jedoch endlich, so dass man für 

diesen 

1 

n∑ 

i+k−1 

∑ 

∣ Kov(Iv (i), I w (j)) ∣ 1 

n∑ 

≤ (k + l − 1) 

n 

n 

i=1 j=i−l+1 

i=1 

= k + l − 1 

erhält und damit insbesondere absolute Konvergenz. Somit ist die Konvergenz 

der auftretenden Reihen gesichert, durch Summation über diese folgt mit Gleichung 

(5.2.2) die Behauptung. 

✷


Satz 5.4 

Die verborgene Folge erfülle eine der beiden Voraussetzungen: 

a) X ist ψ-mischend mit ∑ i ɛN ψ(i) 1 3 < ∞ oder 

b) X ist ϕ-mischend mit ∑ i ɛN ϕ(i) 1 5 < ∞. 

Seien weiterhin die Wörter w 1 , . . . , w m ɛ A ∗ , m ɛ N so, dass die Matrix Σ : = 

(σ wp,wq ) p,q=1,...,m mit σ v,w wie in Lemma 5.3 positiv definit ist, und 

⎛ 

⎞ 

Z n (t) := √ 1 

⌊nt⌋ I 

∑ w1 (i) − π w 1 

⎜ 

⎟ 

⎝ n 

. ⎠ für t ɛ [0, 1] und n ɛ N. 

i=1 I wm (i) − π wm 

Dann konvergiert Z n in Verteilung gegen eine m-dimensionale Brownsche Bewegung 

mit Kovarianzmatrix Σ. 

Beweis: 

Da nach Voraussetzung insbesondere ∑ ∞ 

i=1 ψ(i) beziehungsweise ∑ ∞ 

i=1 

ϕ(i) konvergieren, 

sind die Voraussetzungen von Proposition 5.2 und Lemma 5.3 erfüllt. 

Somit lässt sich der Beweis in drei Schritte gliedern: 

1) Zunächst wird die Konvergenz eines geeignet konstruierten eindimensionalen 

Prozesses gezeigt: 

Sei α ɛ R m , mit ‖α‖ = √ 1 

m 

, wobei ‖·‖ hier die Euklidische Norm bezeichnet. Zuerst 

wird gezeigt, dass die Voraussetzungen von Philipp und Webb [67, Satz 2] 

im ψ-mischenden Fall beziehungsweise von [67, Satz 3] im ϕ-mischenden Fall 

für ξ i := α T( I w1 (i) − E I w1 (i), . . . , I wm (i) − E I wm (i) ) T 

erfüllt sind: 

(i) Für s 2 n := E( ∑ n 

i=1 ξ 2 

i) 

gilt nach Lemma 5.3: 

m∑ 

( 

s 2 n = α p α q E Iwp (i) − E I wp (i) ))( n∑ ( 

Iwq (j) − E I wq (j) )) 

= n 

p,q=1 

m∑ 

p,q=1 

−→ n→∞ 

∞, 

( n∑ 

i=1 

1 

α p α q 

n Kov( ) 

Nn, p Nn 

q 

( 

da Σ = lim 1 

n→∞ Kov(N p n n, Nn) ) q positiv definit ist. 

p,q=1,...,m 

(ii) Wegen |I wk (i) − E I wk (i)| ≤ 1 für alle k ɛ {1, . . . , m}, i ɛ N folgt mit der 

Hölderschen Ungleichung: 

E ( [ ( 

) m 

) 2 ( 

∑ ∑ m 

( 

ξi 

4 ≤ E αk 

2 Iwk (i) − E I wk (i) ) ) 2 

2 

≤ 1. 

k=1 

} {{ } 

=‖α‖ 4 

k=1 

j=1 

} {{ } 

≤m 2 ]



Somit ist die L 4 -Norm von ξ i durch 1 beschränkt. 

(iii) Seien M, H ɛ N. Dann ist wie in Teil (i): 

E 

( M+H ∑ 

i=M+1 

ξ i 

) 2 

= H 

m∑ 

p,q=1 

α p α q 

1 

H 

M+H 

∑ 

i,j=M+1 

Kov ( I wp (i), I wq (j) ) . 

Ersetzt man in Gleichung (5.2.2) die Summation über 1 bis n durch 

Summation von M + 1 bis M + H, so folgt: 

C M,H 

p,q 

:= 1 H 

M+H 

∑ 

i,j=M+1 

Kov ( I wp (i), I wq (j) ) −→ 

H→∞ 

σ wp,w q 

, 

so dass für hinreichend große H ɛ N auch Σ M,H := ( ) 

Cp,q 

M,H positiv 

definit ist. Damit ergibt sich aus Teil 

p,q=1,...,m 

(ii): 

M+H ∑ 

i=M+1 

( M+H 

( 

E 

( 

E ( ) ) 1 

ξi 

4 4 

∑ 

i=M+1 

ξ i 

) 2 ) 9 

4 

≤ 

= 

(H m ∑ 

p,q=1 

1 

H 

α p α q C M,H 

p,q 

H 5 4 

( 

αT Σ M,H α ) 9 4 

−→ 0, 

H→∞ 

) 9 

4 

und somit: 

M+H 

∑ 

i=M+1 

( 

E ( ) ) ) 

1 

ξi 

4 4 

[ ( M+H 

∑ ) 2 ] 9 

4 

ɛ O( 

E ξ i 

i=M+1 

(H −→ ∞). 

(iv) Ebenso erhält man mit Teil (i) und (ii) 

M+H 

∑ 

i=M+1 

M+H 

∑ 

i=M+1 

E ( ( 

) [ ( M+H 

∑ 

ξi 4 ɛ O E 

i=M+1 

E ∣ ( 

∣ [ ( M+H 

∑ 

ξi ɛ O E 

i=M+1 

ξ i 

) 2 ] 3 

) 

) 

) 2 ] 3 

2 

ξ i 

(H −→ ∞) und 

(H −→ ∞). 

Aus Satz 2 beziehungsweise Satz 3 in Philipp und Webb [67] folgt die Konvergenz 

Z n 

′ D 

−→ B in D[0, 1], wobei Z n 

′ folgendermaßen definiert ist: Für 

n ɛ N, i ɛ {0, . . . , n} sei t n i : = ( s 2 i 

∧ 1 ) . Die zugehörige strikt geordnete Folge 

s 2 n


(t n (i) ) i ɛ {0,...,n ′ } erhält man durch Sortieren und Streichen von doppelten Einträgen: 

0 = t n (0) < tn (1) < . . . < tn (n ′ ) = 1, mit n′ ≤ n. Die stückweise konstante 

Funktion Z ′ n ist damit gegeben durch: 

Z ′ n(0) := 0 und Z ′ n(t) := 1 s n 

i∑ 

ξ j , falls t ɛ ( t n (i−1), t(i)] n . 

j=1 

2) Als Nächstes wird die Konvergenz von Zn α für beliebige α ɛ R m gezeigt, wobei 

⎛ 

⎞ 

Zn α (t) := √ 1 

⌊nt⌋ I 

∑ w1 (i) − π w 1 

α T ⎜ 

⎟ 

⎝ 

nσ 

. ⎠ , σ 2 := α T Σα. 

i=1 I wm (i) − π wm 

Sei t ɛ (0, 1] und i n so, dass t ɛ ( ] 

t n i n−1, t n i n für alle n ɛ N. Dann gilt nach Lemma 

5.3: 

m∑ 

1 

α p α q i n 

Kov ( ) 

N p i n 

, N q i n 

s 2 

lim 

n→∞ tn i 

i n 

= lim n 

n→∞ s 2 n 

= lim 

n→∞ 

i n 

n 

lim 

n→∞ 

p,q=1 

m∑ 

p,q=1 

1 

α p α q Kov( ) = lim 

N p n n, Nn 

q n→∞ 

und ebenso lim n→∞ t n i 

i n−1 = lim n−1 

n→∞ . Somit folgt n 

tn i n 

−→ n→∞ 

t, und analog zum 

Beweis von Theorem 4 in Philipp und Webb [67] erhält man für α wie in Teil 1 

mit Satz 4.1 aus Billingsley [17]: 

Zn α = √ 1 

⌊n·⌋ 

∑ 

nσ 

j=1 

ξ j 

D 

−→ B in D[0, 1], mit σ 2 := α T Σα. 

Für beliebige α ɛ R m \ {0} folgt die Behauptung mit α ′ : = 

α √ m‖α‖ 

Skalierungsinvarianz von Zn α (t) in α: Für alle C > 0 gilt Zn 

Cα (t) = Zn α (t). 

i n 

n 

aus der 

3) Mit Teil 2 folgt aus Satz 7.7 in Billingsley [17] unmittelbar die Konvergenz der 

mehrdimensionalen Randverteilungen. Zu zeigen bleibt die Straffheit. Sei also 

ε > 0 gegeben. Ist e i ɛ R m für i ɛ {1, . . . , m} der i-te Einheitsvektor, das heißt 

e i := (1 {i} (j)) j=1,...,m , so existiert wegen der Straffheit von Z e i 

n 

Teilmenge D i ⊂ D[0, 1], so dass P (Z e i 

n ɛ D i ) ≥ 1 − ε m 

die kompakte Menge D := × i ɛ {1,...,m} D i : 

P ( Z n ɛ D ) ( m 

) 

⋃ 

= 1 − P {Z e i 

n ɛ (D i ) c } ≥ 1 − 

i=1 

m∑ 

i=1 

eine kompakte 

. Daraus ergibt sich für 

P ( Z e i 

n ɛ (D i ) c) ≥ 1 − ε. 

Das entspricht der Straffheit von Z n . 

✷



Nicht zuletzt, weil Statistiken auf der Grundlage von auffällig häufigen oder seltenen 

Vorkommen von Mustern in Sequenzen vielfach verwendet werden, erweitert 

obiger Satz zum einen die Anwendungsmöglichkeiten, indem er die Anwendung 

auf weitere Modelle ermöglicht. Zum anderen wird die Möglichkeit gegeben, ähnliche 

Probleme in diesen allgemeineren Zusammenhang einzubetten. 

5.3 Anwendungen 

Nachdem im obigen Abschnitt ein sehr allgemeines Modell zur Erzeugung der 

durchsuchten Zeichenkette eingeführt wurde, sollen die Ergebnisse in diesem Abschnitt 

auf zwei spezielle Modelle angewendet und die Resultate verfeinert werden. 

5.3.1 Das ” 

Hidden Markov“ Modell 

In diesem Abschnitt wird das sogenannte ” 

Hidden Markov“ Modell, das nach 

Wissen des Autors zum ersten Mal 1966 von Baum und Petrie in [14] untersucht 

wurde, als Spezialfall betrachtet, und mit obigen Methoden explizit Grenzwerte 

für die Kovarianz angegeben. Auf die Stationarität wird weiterhin verzichtet, um 

die größtmögliche Allgemeinheit zu erhalten. 

Das Hidden Markov Modell findet zum Beispiel in der Analyse von Gensequenzen 

Anwendung. Ist etwa bei einem vorliegenden Teil einer DNS unbekannt, ob es 

sich dabei um Intergen, Exon oder Intron handelt, so lässt sich dieser verborgene 

Zustand zunächst ebenso wenig ablesen wie ein Wechsel dieses Zustands. Des 

Weiteren ist der sogenannte Leserahmen entscheidend, da in einem Gen immer 

drei aufeinander folgende Nukleinsäurebausteine zu einem Aminosäurebaustein 

transkribiert werden, so dass es durch Verschieben des Leserahmens drei verschiedene 

Möglichkeiten zur Transkription gibt. Für eine ausführliche Einleitung 

in die biologischen Grundlagen sei auf Abschnitt 1.3 bis 1.5 in Waterman [94], 

verwiesen. 

Ein für die mathematische Modellierung der Nukleinsäurekette gebräuchlicher 

Ansatz ist es, die Beobachtungen als Emission einer verborgenen Markov-Kette 

aufzufassen, die als Zustandsraum das kartesische Produkt aus dem beobachteten 

Säurebaustein und dem verborgenen Zustand besitzt. Im obigen Beispiel wäre das 

etwa {T,G,A,C}×{Intergen,Intron1,Intron2,Intron3,Exon1,Exon2,Exon3}, andere 

Zustandsräume werden jedoch ebenfalls verwendet. Die Emission ist in diesem 

Fall gerade die Projektion auf die erste Komponente. Durch diesen deterministischen 

Übergang von der verborgenen zur sichtbaren Zeichenkette vereinfacht sich 

die Anwendung des Modells erheblich, da keine Emissionswahrscheinlichkeiten zu 

schätzen sind. 

In der Literatur werden verschiedene Modelle verwendet, deren Parameter in der

5.3. Anwendungen 79 

Regel gerade die Übergangswahrscheinlichkeiten der verborgenen Markov-Kette 

sind. Die Literatur zu Hidden Markov Modellen und der Schätzung der Parameter 

ist sehr umfangreich, siehe etwa Genon-Catalot et al. [46], [45] oder [44], 

Rabiner [70], Dorea und Zhao [38], Maxwell und Woodroofe [60] oder Ryden [79], 

um nur einige Beispiele zu nennen. 

Für die Anwendung in der genetischen Sequenzanalyse gibt es zumeist Software, 

die die Übergangswahrscheinlichkeiten schätzt, wie etwa R’HOM“, siehe Nicolas 

” 

und Muri-Majoube [63] oder EuGène“, siehe Schiex et al. [81], beziehungsweise 

” 

EuGène’Hom“, siehe Foissac et al. [43]. 

” 

Die so gewonnene Information über die verborgene Markov-Kette X lässt sich 

nun verwenden, um die Wahrscheinlichkeit des Auftretens vorgegebener Muster 

genauer zu schätzen. Eine Schätzung, die lediglich die beobachtete Zeichenfolge 

Y berücksichtigt, ist immer dann unzureichend, wenn sich die Übergangswahrscheinlichkeiten 

in der emittierten Kette durch eine nicht sichtbare Änderung in 

der verborgenen Kette ändert. 

Sei also (X i ) i ɛN eine irreduzible aperiodische und homogene Markov-Kette mit 

endlichem Zustandsraum X = {1, . . . , ρ}, Übergangsmatrix Γ = (γ i,j ) i,j=1,...,ρ 

und Startverteilung (γ X i ) i ɛ X . Somit existiert die stationäre Verteilung π = 

(π 1 , . . . , π ρ ) T , derart dass Γ · π = π, vergleiche etwa Behrends [15] oder Bremaud 

[21]. 

Wie üblich sei die s-Schritt-Übergangswahrscheinlichkeit γ (s) 

i,j 

definiert durch γ (0) 

i,j := 1 {i}(j) und: 

( 

γ (s+1) 

i,j 

) 

i,j=1,...,ρ 

:= Γ s+1 := 

( ρ∑ 

q=1 

γ (s) 

i,q γ q,j 

) 

i,j=1,...,ρ 

für s ɛ N 0 induktiv 

. 

Bemerkungen: 

1) In der Literatur wird in der Regel vorausgesetzt, dass die Markov-Kette stationär 

ist. Hier wird statt dessen die exponentiell schnelle Konvergenz der s- 

Schritt-Übergangswahrscheinlichkeit gegen die stationäre Verteilung verwendet: 

Es existieren Konstanten C 0 > 0 und δ < 1, so dass für alle i, j ɛ X und 

s ɛ N gilt: 

|γ (s) 

i,j − π j| ≤ C 0 τ s . 

Diese Eigenschaft findet man in der Standardliteratur zu Markov-Ketten, wie 

zum Beispiel in Doob [37, Abschnitt V.2], Behrends [15, Kapitel 10] oder 

Bremaud [21, Kapitel 4]. Meist findet man dort auch explizite Schranken für 

C 0 und τ, die von den Einträgen oder den Eigenwerten der Übergangsmatrix 

abhängen.



2) Da somit jede irreduzible aperiodische und homogene Markov-Kette mit endlichem 

Zustandsraum ψ-mischend mit einer Exponentialfunktion ψ(n) = C 0 τ n , 

n ɛ N ist, lassen sich die Ergebnisse des vorangegangenen Abschnitts unmittelbar 

auf Hidden Markov Modelle übertragen. Zur kanonischen Einbettung 

einer Markov-Kette mit endlichem Zustandsraum in einen Markovprozess mit 

nicht diskretem Zustandsraum, vergleiche etwa Abschnitt 5.5, Example 1 in 

Doob [37]. 

Weiterhin sei im Folgenden Y die emittierte Zeichenfolge und erfülle die Voraussetzungen 

der bedingten Unabhängigkeit, vergleiche Seite 70. 

Um die Konvergenz von N n zu untersuchen, wird zunächst Proposition 5.2 verfeinert 

und die Wahrscheinlichkeit des Auftretens einzelner Wörter genauer betrachtet: 


Seien i, s, k, l, n ɛ N mit i + k + s ≤ n, sowie v ɛ A k und w ɛ A l . Dann konvergiert: 

a) die Wahrscheinlichkeit, dass v ab Position i in Y vorkommt: 

E ( I v (i) ) −→ 

i→∞ 

π v , 

b) die Wahrscheinlichkeit, dass v ab Position i und w ab Position i + k + s in Y 

vorkommt: 

E ( I v (i)I w (i + k + s) ) −→ 

i→∞ 

πs+1. 

v,w 

Die Grenzwerte sind dabei durch die stationären Wahrscheinlichkeiten“ gegeben: 

” 

π v := 

∑ 

k∏ 

π u1 λ v1 ,u 1 

γ ui−1 ,u i 

λ vi ,u i 

und 

Beweis: 

u 1 ,...,u l ɛ X 

π v,w 

s 

:= ∑ 

t 1 ,...,t k ɛ X 

u 1 ,...,u l ɛ X 

π t1 λ v1 ,t 1 

i=2 

k∏ 

γ tq−1 ,t q 

λ vq,tq 

q=2 

γ (s) 

t k ,u 1 

λ w1 ,u 1 

l∏ 

γ uq−1 ,u q 

λ wq,uq . 

a) Aus der Bemerkung zur Definition der bedingten Unabhängigkeit auf Seite 71, 

ergibt sich für alle j ɛ N: 

E(I v (j)) = 

∑ 

u 1 ,...,u l ɛ X 

( l∏ 

i=1 

= ∑ 

( l∏ 

u 1 ,...,u l ɛ X i=1 

= ∑ ( ∑ 

u 1 ,...,u l ɛ X 

u 0 ɛ X 

q=2 

γ vi ,u i 

)P (X j · · · X j+l−1 = u 1 · · · u l ) 

γ vi ,u i 

)( ∑ 

u 0 ɛ X 

) 

γ X u 0 

γ u (j−1) 

0 ,u 1 

λ v1 ,u 1 

γ X u 0 

γ (j−1) 

u 0 ,u 1 

) 

l∏ 


i=2 

l∏ 

λ vi ,u i 


. 

i=2


Hiermit überträgt sich die exponentiell schnelle Konvergenz der j-Schritt- 

Übergangswahrscheinlichkeit gegen die stationäre Verteilung auf E(I v (j)). Das 

bedeutet mit C 0 > 0 und τ < 1 wie in obiger Bemerkung gilt für alle w ɛ A ∗ , 

j ɛ N: 

∣ E(Iw (j))−π w∣ ∑ 

∣ ≤ 

u 0 ,...,u l ɛ X 

γ X u 0 

|γ u (j−1) 

0 ,u 1 

−π u1 |λ w1 ,u 1 

l∏ 

λ wi ,u i 


i=2 

≤ C 0 τ i−1 −→ 

i→∞ 

0. 

(5.3.3) 

b) Die Behauptung folgt analog. ✷ 

Sind das Overlap Bit β und der Wort-Rest R definiert wie in Definition 3.6, 

so lassen sich durch die Spezialisierung auf das Hidden Markov Modell im folgenden 

Lemma Erwartungswert und Kovarianz von N n angeben beziehungsweise 

abschätzen: 

Lemma 5.6 

Seien v ɛ A k und w ɛ A l . Dann konvergiert: 

a) 1 n E N v n −→ n→∞ 

π v , 

b) 1 n Kov(N v n, N w n ) −→ n→∞ 

σ v,w . 

Dabei ist π v wie in Proposition 5.5 und der Grenzwert der Kovarianz 

∑k−1 

( 

σ v,w := βv,w (s)π vRw(l−s) − π v π w) + C v,w 

s=0 

∑l−1 

( 

+ βw,v (s)π wRv(k−s) − π v π w) + C w,v , 

s=1 

wobei sich C v,w im Gegensatz zu Proposition 5.2 hier explizit angeben und 

abschätzen lässt: 

∞∑ ( 

C v,w := π 

v,w 

s − π v π w) und ∣ ∣ C 

v,w C 0 ≤ 

1 − τ . 

Beweis: 

s=1 

a) Aus Proposition 5.5 a) ergibt sich E ( I v (i) ) −→ 

i→∞ 

π v . Nach dem Lemma von 

Cesàro folgt daraus auch die Konvergenz des arithmetischen Mittels, das heißt: 

1 

n E N v n = 1 n 

n∑ 

j=1 

E(I v (j)) −→ n→∞ 

π v .



b) Die Konvergenz der Reihen ist nach Lemma 5.3 gesichert. Die Behauptung 

wird analog dem dort geführten Beweis mit folgender Zerlegung gezeigt: 

[ 

1 

n Kov(N n, v Nn w ) = 1 n∑ ∑i−l 

∑i−1 

Kov(I v (i), I w (j)) + Kov(I v (i), I w (j)) 

n 

i=1 j=1 

+ 

i+k−1 

∑ 

j=i 

Kov(I v (i), I w (j)) + 

j=i−l+1 

n∑ 

j=i+k 


] 

. 

(5.3.4) 

Die Konvergenz des ersten und des letzten Summanden folgen aus Proposition 

5.5 und dem Lemma von Cesàro wie im Beweis zu Lemma 5.3. Die 

Abschätzung für C v,w folgt analog Gleichung (5.3.3) aus der geometrischen 

Reihe: 

∣ ∣ ∣ 

C 

v,w ∣∣ 

∑ ∞ 

( 

= π 

v,w 

s − π v π w)∣ ∣ ≤ 

s=1 

∑ 

π t1 λ v1 ,t 1 

t 1 ,...,t k ɛ X 

u 1 ,...,u l ɛ X 

≤ C 0 

1 − τ . 

∣ 

k∏ 

∣∣∣∣ ∑ ∞ 

γ tq−1 ,t q 

λ vq,tq 

q=2 

s=1 

γ (s) 

t k ,u 1 

− π u1 

∣ ∣∣∣∣ 

λ w1 ,u 1 

l∏ 

γ uq−1 ,u q 

λ wq,uq 

Für s ≤ k−1 ist E ( I v (i)I w (i+s) ) = β v,w (s) E ( ) I vRw(l−s)(i) . Daher konvergiert 

nach Proposition 5.5 die Kovarianz Kov ( I v (i), I w (i+s) ) −→ 

i→∞ 

β v,w (s)π vRw(l−s) − 

π v π w . Wie oben folgt mit dem Lemma von Cesàro: 

1 

n∑ 

Kov ( I v (i), I w (i + s) ) −→ 

n 

n→∞ 

β v,w (s)π vRw(l−s) − π v π w . 

i=1 

Für den dritten Term in Gleichung (5.3.4) erhält man demnach: 

1 

n 

n∑ 

i=1 

i+k−1 

∑ 

j=i 

Kov ( I v (i), I w (j) ) = 1 n 

−→ n→∞ 

q=2 

n∑ ∑k−1 

Kov ( I v (i), I w (i + s) ) 

i=1 

s=0 

∑k−1 

( 

βv,w (s)π vRw(l−s) − π v π w) . 

Analog konvergiert der zweite Summand in Gleichung (5.3.4): 

1 

n 

n∑ 

∑i−1 

i=1 j=i−l+1 

Kov ( I v (i), I w (j) ) −→ n→∞ 

s=0 

∑l−1 

( 

βw,v (s)π wRv(k−s) − π v π w) . 

Durch Summation über diese vier Reihen erhält man die Behauptung. 

s=1 

✷


Das folgende Korollar fasst die Ergebnisse dieses Abschnitts zusammen. Es ist 

als Verfeinerung zu Satz 5.4 anzusehen, in der die Markov-Eigenschaft des verborgenen 

Prozesses ausgenutzt wird. 

Korollar 5.7 

Sei X eine irreduzible aperiodische und homogene Markov-Kette, und sei Y die 

Folge der emittierten Beobachtungen. Sind die Wörter w 1 , . . . , w m ɛ A ∗ so, dass 

die Matrix Σ : = (σ wp,w q 

) p,q=1,...,m mit σ v,w wie in Lemma 5.6 positiv definit ist, 

so konvergiert der in Satz 5.4 definierte Prozess Z n in Verteilung gegen eine m- 

dimensionale Brownsche Bewegung mit Kovarianzmatrix Σ. 

Beweis: 

Die Behauptung folgt unmittelbar aus Satz 5.4 und Lemma 5.6. 

✷ 

5.3.2 Dynamische Quellen 

Probabilistische Dynamische Quellen wurden 2001 von Vallée im Artikel [92] eingeführt 

(Erratum siehe Chazal, Maume-Deschamps und Vallée [24]). Dabei wird 

ein zufälliger Startwert x ɛ (0, 1) gewählt, und iterativ eine sogenannte ” 

Shift- 

Abbildung“ T : (0, 1) → (0, 1) angewandt. Jedes Element der Folge x, T x, T 2 x, . . . 

wird mithilfe einer ” 

Encoding-Abbildung“ σ : (0, 1) → A auf ein Zeichen des 

Alphabets abgebildet. Hierdurch entsteht die zu durchsuchende Zeichenkette 

σ(x), σ(T x), σ(T 2 x), . . . 

In weiteren Artikeln, wie etwa Bourdon und Vallée [20], wird das Vorkommen 

von sehr allgemeinen Mustern, die durch Einschübe unterbrochen sein können, in 

den so erzeugten Zeichenketten untersucht. Wie auch in Regnier et al. [72], [73] 

oder Flajolet et al. [42], wo andere zeichenerzeugende Quellen behandelt werden, 

werden die Muster durch Reguläre Ausdrücke beschrieben, die in entsprechende 

Erzeugende Funktionen übersetzt werden. 

Hier soll nun aufgezeigt werden, wie sich Dynamische Quellen in das Hidden ϕ- 

/ψ-Mixing Modell einbetten lassen und somit für einfache Mustervektoren mit 

Satz 5.4 ein allgemeiner Grenzwertsatz zur Verfügung steht. 

Die folgende formale Definition von Dynamischen Quellen findet man zum Beispiel 

in Abschnitt 3.1 in Bourdon und Vallée [20]: 


Eine Dynamische Quelle S wird durch die folgenden vier Elemente definiert: 

a) Ein endliches oder abzählbares Alphabet A 

b) Eine ” 

topologische Partition des Einheitsintervalls“ in Intervalle, das heißt: 

Sei I a ⊂ I := (0, 1) für alle a ɛ A ein offenes Intervall, so dass I a ∩ I b = ∅ für 

alle Zeichen a ≠ b und ∪ a ɛ A I a = I.



c) Eine ” 

Encoding-Abbildung“ σ : I → A, so dass σ| Ia = a für alle a ɛ A konstant 

ist. 

d) Eine ” 

Shift-Abbildung“ T : I → I, so dass T | Ia ein Diffeomorphismus ist, das 

heißt T | Ia ɛ C 1 (I a ; I) und (T | Ia ) −1 ɛ C 1 (I; I a ). 

In den erwähnten Artikeln zu Dynamischen Quellen werden des Weiteren analytische 

Eigenschaften der Shift-Abbildung T vorausgesetzt. In der Regel werden 

diese Voraussetzungen unmittelbar zu Teil d) obiger Definition hinzugefügt. 

Abweichend davon wird hier die Definition von ” 

expandierend und analytisch“ 

von Bourdon und Vallée [20] beziehungsweise die um (d4) erweiterte Fassung 

von Chazal, Maume-Deschamps und Vallée [24] angegeben: 


Eine Dynamische Quelle S ist expandierend und analytisch, falls für alle a ɛ A die 

Shift-Abbildung T | Ia eine reelle analytische Bijektion ist und es eine komplexe 

Umgebung des Einheitsintervalls I ⊂ V ⊂ C 2 gibt, so dass für alle h a := (T | Ia ) −1 , 

a ɛ A gilt: 

(d1) Es existiert eine holomorphe Fortsetzung von h a auf V , die der Einfachheit 

wegen wieder mit h a bezeichnet wird und für die gilt: h a (V ) ⊂ V . 

(d2) Es existiert eine holomorphe Fortsetzung ˜h a von |h ′ a| auf V und α a > 0, 

δ a < 1, so dass α a < |˜h a (z)| ≤ δ a für alle z ɛ V . 

(d3) Die Reihe ∑ a ɛ A δ a konvergiert. 

(d4) Es gibt eine Konstante A ɛ (0, ∞), so dass h′′ 

< A für alle x, y ɛ V . 

(y) 

a(x) 

h ′ a 

Eine allgemeinere Fassung von Definition 5.9 für positive Markovsche Dynamischen 

Quellen findet man in Chazal und Maume-Deschamps [23, Definition 1]. 

Mithilfe funktionalanalytischer Methoden wird in [20, Proposition 1] gezeigt, dass 

jede expandierende und analytische Dynamische Quelle ergodisch und exponentiell 

schnell mischend ist. Somit sind die Voraussetzungen von Satz 5.4 erfüllt, so 

dass sich folgendes Korollar ergibt: 

Korollar 5.10 

Sei (A, (I a ) a ɛ A , σ, T ) eine expandierende und analytische Dynamische Quelle mit 

emittierter Zeichenfolge Y. Sind die Wörter w 1 , . . . , w m ɛ A ∗ , m ɛ N so, dass die 

Matrix Σ : = (σ wp,w q 

) p,q=1,...,m mit σ v,w wie in Lemma 5.3 positiv definit ist, so 

konvergiert der normierte Häufigkeitsprozess Z n (mit Z n wie in Satz 5.4) in Verteilung 

gegen eine m-dimensionale Brownsche Bewegung mit Kovarianzmatrix 

Σ.

Literaturverzeichnis 85 

Literaturverzeichnis 

[1] Aki, Sigeo: Empirical processes for occurences of a {0, 1}-pattern. Preprint, 

2004. presented at 2nd International Workshop in Applied Probability 

(IWAP 2004), Athens, Greece. 

[2] Aldous, David: Probability Approximations via the Poisson Clumping Heuristic. 

Applied Mathematical Sciences, Band 77. Springer-Verlag, 1989. 

[3] Arratia, Richard; Goldstein, Larry und Gordon, Louis: Two moments 

suffice for Poisson approximations: The Chen–Stein method. The 

Annals of Probability, Band 17, Seite 9–25, 1989. 

[4] Arratia, Richard; Goldstein, Larry und Gordon, Louis: Poisson 

approximation and the Chen–Stein method. Statistical Science, Band 5, Seite 

403–434, 1990. 

[5] Arratia, Richard; Gordon, Louis und Waterman, Michael S.: The 

Erdös–Rényi law in distribution, for coin tossing and sequence matching. The 

Annals of Statistics, Band 18, Seite 539–570, 1990. 

[6] Arratia, Richard und Waterman, Michael S.: Critical phenomena in 

sequence matching. The Annals of Probability, Band 13, Seite 1236–1249, 

1985. 

[7] Arratia, Richard und Waterman, Michael S.: An Erdös–Rényi law 

with shifts. Advances in Mathematics, Band 55, Seite 13–23, 1985. 

[8] Arratia, Richard und Waterman, Michael S.: A phase transition for 

the score in matching random sequences allowing deletions. The Annals of 

Applied Probability, Band 4, Seite 200–225, 1994. 

[9] Balacheff, Serge und Dupont, Ghislain: Normalité asymptotique des 

processus empirique tronqués et des processus de rang (cas multidimensionnel 

mélangeant). In: Dold, A. und Eckmann, B. (Herausgeber): Statistique 

non Paramétrique Asymptotique. Lecture Notes in Mathematics, Band 821, 

Seite 19–45, 1979.

86 Literaturverzeichnis 

[10] Balakrishnan, Narayanaswamy und Koutras, Markos V.: Runs 

and Scans with Applications. John Wiley & Sons, 2002. 

[11] Barbour, Andrew D.: Topics in Poisson approximation. http:// 

www.math.unizh.ch/~adb/. 

[12] Barbour, Andrew D.; Holst, Lars und Janson, Svante: Poisson 

Approximation. Oxford University Press, 1992. 

[13] Barbour, Andrew D. und Månsson, Marianne: Compound Poisson 

Process Approximation. The Annals of Probability, Band 30, Seite 1492– 

1537, 2002. 

[14] Baum, Leonard E. und Petrie, Ted: Statistical inference for probabilistic 

functions of finite state Markov chains. Annals of Mathematical Statistics, 

Band 37, Seite 1554–1563, 1966. 

[15] Behrends, Ehrhard: Introduction to Markov Chains. With Special Emphasis 

on Rapid Mixing. Vieweg & Sohn Verlagsgesellschaft, 2000. 

[16] Bickel, Peter J. und Wichura, Michael J.: Convergence criteria for 

multiparameter stochastic processes and some applications. Annals of Mathematical 

Statistics, Band 42, Seite 1656–1670, 1971. 

[17] Billingsley, Patrick: Convergence of Probability Measures. John Wiley 

& Sons, 1968. 

[18] Bishop, M. J. und Rawlings, C. J. (Herausgeber): DNA and Protein 

Sequence Analysis. Oxford University Press, 1997. 

[19] Borovkov, K. A.: A functional form of the Erdös–Rényi law of large numbers. 

Theory of Probability and its Applications, Band 35, Seite 762–766, 

1990. 

[20] Bourdon, Jérémie und Vallée, Brigitte: Generalized Pattern Matching 

Statistics. In: Chauvin, Brigitte et al. (Herausgeber): 

Mathematics and Computer Science II. Algorithms, trees, combinatorics 

and probabilities. Proceedings of the 2nd colloquium, Versailles–St.- 

Quentin, France, September 16–19. Basel, Seite 249–265. Birkhäuser, 2002. 

http://users.info.unicaen.fr/~bourdon/. 

[21] Brémaud, Pierre: Markov Chains. Gibbs Fields, Monte Carlo Simulation, 

and Queues. Springer-Verlag, 1999. 

[22] Bucklew, James A.: Large Deviation Techniques in Decision, Simulation, 

and Estimation. Wiley & Sons, 1990.


[23] Chazal, Frédéric und Maume-Deschamps, Véronique: Statistical 

properties of Markov dynamical sources: applications to information 

theory. Discrete Mathematics & Theoretical Computer 

Science, Band 6, Seite 283–314, 2004. http://www.emis.de/ 

journals/DMTCS/volumes/abstracts/dm060208.abs.html. 

[24] Chazal, Frédéric; Maume-Deschamps, Véronique und Vallée, 

Brigitte: Erratum to: Dynamical sources in information theory: Fundamental 

intervals and word prefixes. Algorithmica, Band 38, Seite 591–596, 

2004. 

[25] Chen, Chingfer und Karlin, Samuel: Poisson approximation for conditional 

r-scan lengths of multiple renewal processes and application to marker 

arrays in biomolecular sequences. Journal of Applied Probability, Band 37, 

Seite 865–880, 2000. 

[26] Chen, Louis H. Y.: Poisson approximation for dependent trials. The Annals 

of Probability, Band 3, Seite 534–545, 1975. 

[27] Chvátal, Vacláv und Sankoff, David: Longest common subsequences 

of two random sequences. Journal of Applied Probability, Band 12, Seite 

306–315, 1975. 

[28] Cover, Thomas M. und Thomas, Joy A.: Elements of Information 

Theory. John Wiley & Sons, 1991. 

[29] Csiszár, Imre und Körner, János: Information Theory. Academic Press, 

1981. 

[30] Czihak, Gerhard; Langer, Helmut und Ziegler, Hubert (Herausgeber): 

Biologie. Springer-Verlag, Sechste Auflage, 1996. 

[31] Daley, D. J. und Vere-Jones, D.: An Introduction to the Theory of 

Point Processes. Springer Series in Statistics. Springer-Verlag, 1988. 

[32] Dembo, Amir und Karlin, Samuel: Poisson approximations for r-scan 

processes. The Annals of Applied Probability, Band 2, Seite 329–357, 1992. 

[33] Dembo, Amir; Karlin, Samuel und Zeitouni, Ofer: Critical phenomena 

for sequence matching with scoring. The Annals of Probability, Band 22, 

Seite 1993–2021, 1994. 

[34] Dembo, Amir; Karlin, Samuel und Zeitouni, Ofer: Limit distribution 

of maximal non-aligned two-sequence segmental score. The Annals of 

Probability, Band 22, Seite 2022–2039, 1994.


[35] Dembo, Amir und Zeitouni, Ofer: Large Deviations Techniques and Applications. 

Springer-Verlag, 2. Auflage, 1998. 

[36] Deuschel, Jean-Dominique und Stroock, Daniel W.: Large Deviations. 

Academic Press Inc., 1989. Rev. ed. 

[37] Doob, Joseph L.: Stochastic Processes. John Wiley & Sons, Siebte Auflage, 

1967. 

[38] Dorea, Chang C. Y. und Zhao, Lin Cheng: Nonparametric density 

estimation in hidden Markov models. Statistical Inference for Stochastic 

Processes, Band 5, Seite 55–64, 2002. 

[39] Doukhan, Paul: Mixing: Properties and Examples. Lecture Notes in Statistics, 

Band 85. Springer-Verlag, 1994. 

[40] Durbin, R.; Eddy, S.; Krogh, A. und Mitchison, G.: Biological Sequence 

Analysis. Cambridge University Press, 1998. Reprinted 2000. 

[41] Erdös, Paul und Rényi, Alfred: On a new law of large numbers. Journal 

d’Analyse Mathematique, Band 23, Seite 103–111, 1970. 

[42] Flajolet, Philippe; Guivarc’h, Yves; Szpankowski, Wojciech und 

Vallée, Brigitte: Hidden pattern statistics. In: Orejas, Fernando 

(Herausgeber): Automata, Languages and Programming, 28th international 

Colloquium, ICALP 2001, Crete, Greece, Seite 152–165. Springer, 2001. 

[43] Foissac, Sylvain; Bardou, Philippe; Moisan, Annick; 

Cros, Marie-Josée und Schiex, Thomas: EuGène’Hom: a generic 

similarity-based gene finder using multiple homologous sequences. 

Nucleic Acids Research, Band 31, Seite 3742–3745, 2003. 

http://nar.oxfordjournals.org/cgi/content/full/31/13/3742. 

[44] Genon-Catalot, Valentine; Jeantheau, Thierry und Laredo, Catherine: 

Stochastic volatility models as hidden Markov models and statistical 

applications. Bernoulli, Band 6, Seite 1051–1079, 2000. 

[45] Genon-Catalot, Valentine; Jeantheau, Thierry und Laredo, Catherine: 

Conditional likelihood estimators for hidden Markov models and 

stochastic volatility models. Scandinavian Journal of Statistics, Band 30, 

Seite 297–316, 2003. 

[46] Genon-Catalot, Valentine und Laredo, Catherine: Leraux’s method 

for general hidden Markov models. Stochastic Processes and Their Applications, 

Band 116, Seite 222–243, 2006.


[47] Glaz, Joseph und Balakrishnan, Narayanaswamy (Herausgeber): 

Scan Statistics and Applications. Statistics for Industry and Technology. 

Birkhäuser, 1999. 

[48] Goldstein, Larry: Poisson approximation and DNA sequence matching. 

Communications in Statistics - Theory and Methods, Band 19, Seite 4167– 

4179, 1990. 

[49] Greene, Daniel H. und Knuth, Donald E.: Mathematics for the Analysis 

of Algorithms. Progress in Computer Science. Birkhäuser, 1981. 

[50] Hansen, Niels Richard: Markov controlled excursions, local alignment 

and structure. Doktorarbeit, Department of Applied Mathematics and Statistics, 

University of Copenhagen, 2003. http://www.stat.ku.dk/˜richard/. 

[51] Janning, Wilfried und Knust, Elisabeth: Genetik. Georg Thieme 

Verlag, 2004. 

[52] Karatzas, Ioannis und Shreve, Steven E.: Brownian Motion and Stochastic 

Calculus. Springer-Verlag, Zweite Auflage, 1991. 

[53] Karlin, Samuel und Chen, Chingfer: r-scan statistics of a marker array 

in multiple sequences derived from a common progenitor. The Annals of 

Applied Probability, Band 10, Seite 709–725, 2000. 

[54] Karlin, Samuel und Dembo, Amir: Limit distributions of maximal segmental 

score among Markov-dependent partial sums. Advances in Applied 

Probability, Band 24, Seite 113–140, 1992. 

[55] Kleffe, Jürgen und Borodovsky, Mark: First and second moment of 

counts of words in random texts generated by Markov chains. CABIOS – 

Computer Applications in the Bioscenes, Band 8, Seite 433–441, 1992. 

[56] Kullback, Solomon: Information theory and statistics. Mineola, NY: 

Dover Publications, Reprint der zweiten Auflage, 1997. 

[57] Lauer, Christian: Sequence Matching – Theorie und Methoden. Diplomarbeit, 

Albert-Ludwigs-Universität Freiburg i. Br., August 1999. 

[58] Leung, Ming-Ying; Choi, Kwok Pui; Xia, Aihua und Chen, 

Louis H.Y.: Nonrandom clusters of palindromes in herpesvirus genomes. 

Journal of Computational Biology, Band 12, Seite 331–354, 2005. 

[59] Liu, Jingjun: Functional Erdös–Rényi laws for ϕ-mixing random variables. 

Chinese Journal of Contemporary Mathematics, Band 21, Seite 15–22, 2000.


[60] Maxwell, Michael und Woodroofe, Michael: A local limit theorem 

for hidden Markov chains. Statistics & Probability Letters, Band 32, Seite 

125–131, 1997. 

[61] Neuhauser, Claudia: A Poisson approximation for sequence comparisons 

with insertions and deletions. The Annals of Statistics, Band 22, Seite 1603– 

1629, 1994. 

[62] Nicodème, Pierre; Salvy, Bruno und Flajolet, Philippe: Motif statistics. 

Theoretical Computer Science, Band 287, Seite 593–617, 2002. 

[63] Nicolas, Pierre und Muri-Majoube, Florence: R’HOM – Programs 

to segment DNA sequences into homogeneous regions. http:// 

genome.jouy.inra.fr/ssb/rhom/rhom doc/rhom doc.html, 2001. Software 

Research of HOMogeneous regions in DNA sequences“, http:// 

” 

genome.jouy.inra.fr/ssb/rhom/. 

[64] Novak, Serguei Yu.: Poisson approximation for the number of long match 

patterns in random sequences. Theory of Probability and Its Applications, 

Band 39, Seite 593–603, 1994. 

[65] Peligrad, Magda und Utev, Sergey: Central limit theorem for linear 

processes. The Annals of Probability, Band 25, Seite 443–456, 1997. 

[66] Philipp, Walter: The central limit problem for mixing sequences of random 

variables. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete, 

Band 12, Seite 155–171, 1969. 

[67] Philipp, Walter und Webb, Geoffrey R.: An invariance principle for 

mixing sequences of random variables. Zeitschrift für Wahrscheinlichkeitstheorie 

und verwandte Gebiete, Band 25, Seite 223–237, 1973. 

[68] Piterbarg, V.I.: Asymptotic methods in the theory of Gaussian processes 

and fields. Translations of Mathematical Monographs, 1996. Aus dem 

Russischen übersetzt von V. V. Piterbarg. 

[69] Pozdnyakov, V.; Glaz, Joseph; Kulldorff, M. und Steele, J. Michael: 

A martingale approach to scan statistics. Annals of the Institute of 

Statistical Mathematics, Band 57, Seite 21–37, 2005. 

[70] Rabiner, Lawrence R.: A tutorial on hidden Markov models and selected 

applications in speech recognition. Proceedings of the IEEE, Band 77, 

Seite 257–286, 1989. http://ieeexplore.ieee.org/xpl/abs free.jsp? 

arNumber=18626. 

[71] Régnier, Mireille: A unified approach to word statistics. In: RECOMB, 

Seite 207–213, 1998. http://doi.acm.org/10.1145/279069.279116.


[72] Régnier, Mireille und Szpankowski, Wojciech: On the approximate 

pattern occurrences in a text. In: Society, IEEE Computer (Herausgeber): 

Compression and Complexity of SEQUENCES, Positano, Italy, Seite 

253–264, 1997. 

[73] Régnier, Mireille und Szpankowski, Wojciech: On pattern frequency 

occurences in a Markovian sequence. Algorithmica, Band 22, Seite 631–649, 

1998. This paper was presented in part at the 1997 International Symposium 

on Information Theory, Ulm, Germany. 

[74] Reiss, Rolf-Dieter: A Course on Point Processes. Springer Series in 

Statistics. Springer-Verlag, 1993. 

[75] Resnick, Sidney I.: Extreme Values, Regular Variation and Point Processes. 

Springer-Verlag, 1987. 

[76] Revuz, Daniel und Yor, Marc: Continuous Martingales and Brownian 

Motion. Springer-Verlag, Dritte Auflage, 1999. 

[77] Robin, Stéphane und Daudin, Jean-Jacques: Exact distribution of 

word occurences in a random sequence of letters. Journal of Applied Probability, 

Band 36, Seite 179–193, 1999. 

[78] Roman, Steven: Introduction to coding and information theory. Springer- 

Verlag, 1997. 

[79] Ryden, Tobias: Estimating the order of hidden Markov models. Statistics, 

Band 26, Seite 345–354, 1995. 

[80] Sanchis, Gabriela R.: A functional limit theorem for Erdös-Rényi’s law 

of large numbers. Probability Theory and Related Fields, Band 98, Seite 

1–5, 1994. 

[81] Schiex, Thomas; Moisan, Annick; Duret, Lucien und Rouzé, Pierre: 

EuGène: A simple yet effective gene finder for eucaryotic organisms 

(Arabidopsis thaliana). In: Proc. of the Second Georgia Tech International 

Conference on Bioinformatics – In silico Biology, Atlanta, 1999. http:// 

www.inra.fr/mia/T/schiex/Doc/publis.shtml. 

[82] Schöning, Uwe: Theoretische Informatik kurz gefasst. B.I.Wissenschaftsverlag, 

1992. 

[83] Shannon, Claude E. und Weaver, W.: The Mathematical Theory of 

Communication. University of Illinois Press, 1963. 

[84] Siegmund, David und Yakir, Benjamin: Approximate p-values for local 

sequence alignments. The Annals of Statistics, Band 28, Seite 657–680, 2000.


[85] Siegmund, David und Yakir, Benjamin: Correction: Approximate p- 

values for local sequence alignments. The Annals of Statistics, Band 31, 

Seite 1027–1031, 2003. 

[86] Spang, Rainer und Vingron, Martin: Limits of homology detection by 

pairwise sequence comparison. Bioinformatics, Band 17, Seite 338–342, 2001. 

[87] Steele, J. Michael: Long common subsequence and the proximity of two 

random strings. SIAM Journal of Applied Mathematics, Band 42, Seite 

731–736, 1982. 

[88] Stefanov, Valeri T.: The intersite distances between pattern occurences 

in strings generated by general discrete- and continuous-time models: An 

algorithmic approach. Journal of Applied Probability, Band 40, Seite 881– 

892, 2003. 

[89] Stein, Charles: A bound for the error in the normal approximation to the 

distribution of a sum of dependent random variables. In: LeCam, Lucien 

M.; Neyman, Jerzy und Scott, Elizabeth L. (Herausgeber): Proceedings 

of the sixth Berkeley Symposium on Mathematical Statistics and 

Probability, Band II, Seite 583–602. University of California Press, 1970. 

[90] Szpankowski, Wojciech: Average Case Analysis of Algorithms on Sequences. 

John Wiley & Sons, 2000. 

[91] Szpankowski, Wojciech: New and old problems in pattern matching: Limited 

(and personal) survey. Vortrag zum Seventh International Seminar on 

the Analysis of Algorithms, Tatihou, France, Juni 2001. 

[92] Vallée, Brigitte: Dynamical sources in information theory: fundamental 

intervals and word prefixes. Algorithmica, Band 29, Seite 262–306, 2001. 

[93] Varadhan, S. R. Srinivasa: Large Deviations and Applications. SIAM, 

1984. 

[94] Waterman, Michael S.: Introduction to Computational Biology. Chapman 

& Hall, 1995. Reprint 1996. 

[95] Watson, James D. und Crick, Francis H. C.: A structure for deoxyribose 

nucleic acid. Nature, Band 171, Seite 737–738, 1953.

Muster und Alignments in zufÃ¤lligen Zeichenketten - Abteilung fÃ¼r ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?