Klenke Wahrscheinlichkeitstheorie

Klenke 

Wahrscheinlichkeitstheorie

Achim Klenke 

Wahrscheinlichkeitstheorie 

Mit 34 Abbildungen 

123

Prof. Dr. Achim Klenke 

Institut für Mathematik 

Johannes Gutenberg-Universität Mainz 

Staudingerweg 9 

55099 Mainz, Deutschland 

e-mail: math@aklenke.de 

Bibliografische Information der Deutschen Bibliothek 

Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; 

detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. 

Mathematics Subject Classification (2000): 60-01, 28-01, 60G05, 60J10, 60H05 

ISBN-10 3-540-25545-1 Springer Berlin Heidelberg New York 

ISBN-13 978-3-540-25545-1 Springer Berlin Heidelberg New York 

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der 

Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, 

der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in 

Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung 

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen 

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 

9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. 

Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. 

Springer ist ein Unternehmen von Springer Science+Business Media 

springer.de 

© Springer-Verlag Berlin Heidelberg 2006 

Printed in Germany 

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk 

berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne 

der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von 

jedermann benutzt werden dürften. Text und Abbildungen wurden mit größter Sorgfalt erarbeitet. 

Verlag und Autor können jedoch für eventuell verbliebene fehlerhafte Angaben und deren Folgen 

weder eine juristische Verantwortung noch irgendeine Haftung übernehmen. 

Umschlaggestaltung: design & production GmbH, Heidelberg 

Herstellung: LE-TEXJelonek,Schmidt&VöcklerGbR,Leipzig 

Satz: Datenerstellung durch den Autor unter Verwendung eines Springer TEX-Makropakets 

Gedruckt auf säurefreiem Papier 44/3100YL - 543210

Vorwort 

Das vorliegende Buch basiert auf den vierstündigen Vorlesungen Stochastik I und 

Stochastik II, die ich in den vergangenen Jahren an der Universität zu Köln und 

an der Johannes Gutenberg-Universität in Mainz gehalten habe, und die an eine 

Vorlesung über elementare Stochastik anschließen. Eine gewisse Vertrautheit mit 

den Ideen der elementaren Stochastik wird zwar nicht formal vorausgesetzt, dem 

Leser jedoch empfohlen. 

Ziel dieses Buches ist es, die zentralen Objekte und Konzepte der Wahrscheinlichkeitstheorie 

vorzustellen: Zufallsvariablen, Unabhängigkeit, Gesetze der großen 

Zahl und zentrale Grenzwertsätze, Martingale, Austauschbarkeit und unbegrenzte 

Teilbarkeit, Markovketten und -prozesse sowie den Zusammenhang mit der diskreten 

Potentialtheorie, Kopplung, Ergodentheorie, die Brown’sche Bewegung und 

das Itô-Integral (nebst stochastischen Differentialgleichungen), den Poisson’schen 

Punktprozess, Perkolation und die Theorie der großen Abweichungen, sowie stochastische 

Differentialgleichungen. 

Die Maß- und Integrationstheorie wird entwickelt, soweit sie für das Verständnis 

und die Formulierung der Wahrscheinlichkeitstheorie notwendig ist: Konstruktion 

von Maßen und Integralen, Satz von Radon-Nikodym und reguläre bedingte Verteilungen, 

Konvergenzsätze für Funktionen (Lebesgue) und Maße (Prohorov) und 

Konstruktion von Maßen in Produkträumen. Die einzelnen maßtheoretischen Kapitel 

kommen nicht als Block am Anfang des Buches, obwohl sie so geschrieben sind, 

dass das möglich wäre, nämlich unabhängig von den wahrscheinlichkeitstheoretischen 

Kapiteln, sondern abwechselnd mit wahrscheinlichkeitstheoretischen Kapiteln, 

die so gebaut sind, dass sie mit den gerade zur Verfügung stehenden Begriffen 

auskommen (beispielsweise kann man Perkolation studieren, ohne einen Integralbegriff 

an der Hand zu haben). Als einzige Ausnahme wird die systematische Konstruktion 

von unabhängigen Zufallsvariablen erst im 14ten Kapitel nachgeliefert. 

Ich verspreche mir von diesem Vorgehen eine Auflockerung des maßtheoretischen 

Stoffes, der von manchen als etwas trocken empfunden wird. Letztlich ist dieses 

genauso eine Geschmacksfrage wie diejenige, welches der beiden Themen als linke 

und welches als rechte Hand anzusehen ist. 

Wer eine maßtheoretische Grundbildung hat, kann insbesondere das erste Kapitel 

beim ersten Lesen zunächst überspringen und braucht eventuell nur Einzelnes darin 

nachzuschlagen. Das Gleiche gilt für das vierte Kapitel (Integrationstheorie).

VI Vorwort 

In den ersten acht Kapiteln wird das Fundament gelegt, das in allen weiteren Kapiteln 

benötigt wird. Danach können die sieben inhaltlichen Einheiten von Kapitel 

9–12, 13, 14, 15–16, 17–19, 20, und 23 einigermaßen unabhängig voneinander gelesen 

werden. Das Kapitel zur Brown’schen Bewegung (21) greift auf die Kapitel 

9–15 zurück. Danach sind unabhängig voneinander die Blöcke 22, 24 und 25–26 

lesbar. 

Ich danke all denjenigen, die das Manuskript gelesen und zahlreiche Verbesserungsvorschläge 

und Korrekturen angebracht haben: Den Mitarbeitern und Studenten Roland 

Alkemper, Dirk Brüggemann, Anne Eisenbürger, Ortwin Lorenz, Mario Oeler, 

Marcus Schölpen, den Kollegen Wolfgang Bühler und Wolfgang König sowie besonders 

dem Münchener Kollegen Hans-Otto Georgii. Für weitere Hinweise auf 

Fehler unter math@aklenke.de wäre ich dankbar. 

Außerdem möchte ich mich beim Springer-Verlag für die gute Zusammenarbeit bedanken. 

Mainz, Achim Klenke 

November 2005

Inhaltsverzeichnis 

1 Grundlagen der Maßtheorie .................................. 1 

1.1 Mengensysteme . . . . ........................................ 1 

1.2 Mengenfunktionen . ........................................ 11 

1.3 FortsetzungvonMaßen ..................................... 17 

1.4 Messbare Abbildungen . . .................................... 33 

1.5 Zufallsvariablen . . . . ........................................ 42 

2 Unabhängigkeit ............................................. 47 

2.1 UnabhängigkeitvonEreignissen.............................. 47 

2.2 Unabhängigkeit von Zufallsvariablen . . . . ...................... 54 

2.3 Kolmogorov’sches 0-1 Gesetz . . . ............................. 61 

2.4 Beispiel: Perkolation . . . . .................................... 64 

3 Erzeugendenfunktion ........................................ 75 

3.1 Definition und Beispiele . .................................... 75 

3.2 Poisson-Approximation . .................................... 78 

3.3 Verzweigungsprozesse . . .................................... 80 

4 Das Integral ................................................ 83 

4.1 KonstruktionundeinfacheEigenschaften ...................... 83 

4.2 Monotone Konvergenz und Lemma von Fatou .................. 91 

4.3 Lebesgue-Integral versus Riemann-Integral . . . .................. 93 

5 Momente und Gesetze der Großen Zahl ......................... 97 

5.1 Momente ................................................. 97 

5.2 Schwaches Gesetz der Großen Zahl . . . . . ......................104

VIII Inhaltsverzeichnis 

5.3 Starkes Gesetz der Großen Zahl . .............................107 

5.4 KonvergenzrateimstarkenGGZ..............................115 

5.5 Der Poissonprozess . ........................................118 

6 Konvergenzsätze ............................................ 125 

6.1 Fast-überall- und stochastische Konvergenz . . . ..................125 

6.2 Gleichgradige Integrierbarkeit . . . .............................130 

6.3 Vertauschung von Integral und Ableitung. ......................136 

7 Lp-Räume und Satz von Radon-Nikodym ....................... 139 

7.1 Definitionen...............................................139 

7.2 Ungleichungen und Satz von Fischer-Riesz . . . ..................141 

7.3 Hilberträume ..............................................147 

7.4 Lebesgue’scher Zerlegungssatz . . .............................150 

7.5 Ergänzung: Signierte Maße . . . . . .............................154 

7.6 Ergänzung: Dualräume......................................160 

8 Bedingte Erwartungen ....................................... 165 

8.1 Elementare bedingte Wahrscheinlichkeiten . . . ..................165 

8.2 Bedingte Erwartungen . . ....................................168 

8.3 Reguläre Version der bedingten Verteilung . . . ..................175 

9 Martingale ................................................. 183 

9.1 Prozesse, Filtrationen, Stoppzeiten . . . . . . ......................183 

9.2 Martingale ................................................188 

9.3 Diskretes stochastisches Integral . .............................192 

9.4 Diskreter Martingaldarstellungssatz und CRR Modell . ...........194 

10 Optional Sampling Sätze ..................................... 199 

10.1 Doob-Zerlegung und quadratische Variation . . ..................199 

10.2 Optional Sampling und Optional Stopping . . . . ..................203 

10.3 Gleichgradige Integrierbarkeit und Optional Sampling . ...........207 

11 Martingalkonvergenzsätze und Anwendungen ................... 209

Inhaltsverzeichnis IX 

11.1 Die Doob’sche Ungleichung . . . . .............................209 

11.2 Martingalkonvergenzsätze . . . . . . .............................211 

11.3 Beispiel: Verzweigungsprozess . . .............................219 

12 Rückwärtsmartingale und Austauschbarkeit..................... 221 

12.1 Austauschbare Familien von Zufallsvariablen . ..................221 

12.2 Rückwärtsmartingale .......................................226 

12.3 Satz von de Finetti . . ........................................228 

13 Konvergenz von Maßen ...................................... 233 

13.1 Wiederholung Topologie ....................................233 

13.2 Schwache und vage Konvergenz . .............................240 

13.3 Der Satz von Prohorov . . ....................................248 

13.4 Anwendung: Satz von de Finetti – anders angeschaut . . ...........257 

14 W-Maße auf Produkträumen ................................. 259 

14.1 Produkträume..............................................260 

14.2 Endliche Produkte und Übergangskerne........................263 

14.3 Satz von Ionescu-Tulcea und Projektive Familien . . . . . ...........272 

14.4 Markov’sche Halbgruppen . . . ................................276 

15 Charakteristische Funktion und Zentraler Grenzwertsatz ......... 281 

15.1 Trennende Funktionenklassen . . . .............................281 

15.2 Charakteristische Funktionen: Beispiele . . ......................288 

15.3 Der Lévy’sche Stetigkeitssatz . . . .............................294 

15.4 Charakteristische Funktion und Momente ......................299 

15.5 Der Zentrale Grenzwertsatz . . . . . .............................304 

15.6 Mehrdimensionaler Zentraler Grenzwertsatz . . ..................312 

16 Unbegrenzt teilbare Verteilungen .............................. 315 

16.1 Die Lévy-Khinchin Formel . . . . . .............................315 

16.2 Stabile Verteilungen ........................................327 

17 Markovketten .............................................. 333

X Inhaltsverzeichnis 

17.1 Begriffsbildung und Konstruktion . . . . . . . ......................333 

17.2 Diskrete Markovketten, Beispiele .............................340 

17.3 Diskrete Markovprozesse in stetiger Zeit . ......................344 

17.4 Diskrete Markovketten, Rekurrenz und Transienz . . . . . ...........349 

17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten . ...........353 

17.6 Invariante Verteilungen . . ....................................360 

18 Konvergenz von Markovketten ................................ 365 

18.1 Periodizität von Markovketten . . . .............................365 

18.2 Kopplung und Konvergenzsatz . . .............................369 

18.3 Markovketten Monte Carlo Methode . . . . ......................376 

18.4 Konvergenzgeschwindigkeit. . . . . .............................383 

19 Markovketten und elektrische Netzwerke ....................... 389 

19.1 Harmonische Funktionen ....................................389 

19.2 Reversible Markovketten ....................................392 

19.3 Elektrische Netzwerke . . ....................................393 

19.4 Rekurrenz und Transienz ....................................399 

19.5 Netzwerkreduktion . ........................................405 

19.6 Irrfahrt in zufälliger Umgebung . . .............................412 

20 Ergodentheorie ............................................. 415 

20.1 Begriffsbildung . . . . ........................................415 

20.2 Ergodensätze . . . . . . ........................................418 

20.3 Beispiele . . . ...............................................421 

20.4 Anwendung: Rekurrenz von Irrfahrten . . . ......................423 

20.5 Mischung . . ...............................................426 

21 Die Brown’sche Bewegung .................................... 429 

21.1 Stetige Modifikationen ......................................429 

21.2 Konstruktion und Pfadeigenschaften . . . . . ......................436 

21.3 Starke Markoveigenschaft . . . . . . .............................441 

21.4 Ergänzung: Feller Prozesse . . . . . .............................444

Inhaltsverzeichnis XI 

21.5 Konstruktion durch L2-Approximation ........................447 

21.6 Der Raum C([0, ∞)) .......................................451 

21.7 Konvergenz von W-Maßen auf C([0, ∞)) ......................453 

21.8 Satz von Donsker. ..........................................456 

21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗ .............460 

21.10Quadratische Variation und lokale Martingale . ..................465 

22 Gesetz vom iterierten Logarithmus ............................. 477 

22.1 Iterierter Logarithmus für die Brown’sche Bewegung . . ...........477 

22.2 Skorohod’scher Einbettungssatz . .............................480 

22.3 Satz von Hartman-Wintner . . . . . . .............................486 

23 Große Abweichungen ........................................ 489 

23.1 Satz von Cramér ...........................................490 

23.2 Prinzip der großen Abweichungen . . . . . . ......................494 

23.3 Satz von Sanov . . . . ........................................498 

23.4 Varadhan’sches Lemma und Freie Energie . . . . ..................502 

24 Der Poisson’sche Punktprozess ................................ 509 

24.1 Zufällige Maße . . . . ........................................509 

24.2 Eigenschaften des Poisson’schen Punktprozesses . . . . . ...........513 

24.3 Die Poisson-Dirichlet-Verteilung∗ .............................519 

25 Das Itô-Integral ............................................. 527 

25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung ...........527 

25.2 Itô-Integral bezüglich Diffusionen . . . . . . . ......................535 

25.3 Die Itô-Formel.............................................538 

25.4 Dirichlet-Problem und Brown’sche Bewegung ..................546 

25.5 Rekurrenz und Transienz der Brown’schen Bewegung . ...........548 

26 Stochastische Differentialgleichungen .......................... 551 

26.1 Starke Lösungen . . . ........................................551 

26.2 Schwache Lösungen und Martingalproblem . . ..................560 

26.3 Eindeutigkeit schwacher Lösungen via Dualität .................567

XII Inhaltsverzeichnis 

Literatur....................................................... 575 

Notation ....................................................... 583 

Glossar englischer Ausdrücke ..................................... 587 

Namensregister ................................................. 589 

Sachregister .................................................... 593

1 Grundlagen der Maßtheorie 

In diesem Kapitel führen wir die Mengensysteme ein, die eine systematische Betrachtung 

von Ereignissen und zufälligen Beobachtungen in der Wahrscheinlichkeitstheorie 

erlauben. Ferner sollen Maße, insbesondere Wahrscheinlichkeitsmaße, 

auf solchen Mengensystemen konstruiert werden. Schließlich werden wir Zufallsvariablen 

als messbare Abbildungen definieren. 

1.1 Mengensysteme 

Im Folgenden ist stets Ω �= ∅ eine Menge und A⊂2 Ω (Potenzmenge von Ω) 

eine Familie von Teilmengen. Später wird die Menge Ω als Raum von Elementarereignissen 

interpretiert werden und A als ein System von beobachtbaren Ereignissen. 

Wir wollen in diesem Abschnitt Mengensysteme, die abgeschlossen sind unter 

einfachen mengentheoretischen Verknüpfungen, mit Namen versehen und einfache 

Beziehungen zwischen solchen Systemen herstellen. 

Definition 1.1. Das Mengensystem A heißt 

– ∩-stabil (sprich: schnittstabil) oder ein π-System, falls für je zwei Mengen 

A, B ∈Agilt, dass auch A ∩ B ∈A, 

– σ-∩-stabil (sigma-schnittstabil), falls für je abzählbar unendlich viele Mengen 

A1,A2,...∈Agilt, dass auch ∞� 

An ∈A, 

n=1 

– ∪-stabil (vereinigungsstabil), falls für je zwei Mengen A, B ∈Agilt, dass auch 

A ∪ B ∈A, 

– σ-∪-stabil (sigma-vereinigungsstabil), falls für je abzählbar unendlich viele Mengen 

A1,A2,...∈Agilt, dass auch ∞� 

An ∈A, 

n=1 

– \-stabil (differenzmengenstabil), falls für je zwei Mengen A, B ∈Agilt, dass 

auch A \ B ∈A, 

– komplementstabil, falls mit jeder Menge A ∈Aauch Ac := Ω \ A ∈Agilt.

2 1 Grundlagen der Maßtheorie 

Definition 1.2 (σ-Algebra). Ein Mengensystem A⊂2 Ω heißt σ-Algebra, falls 

die folgenden drei Bedingungen erfüllt sind. 

(i) Ω ∈A, 

(ii) A ist komplementstabil, 

(iii) A ist σ-∪-stabil. 

σ-Algebren sind die natürlichen Mengensysteme für zufällige Ereignisse, denn wie 

wir sehen werden, können wir diesen Ereignissen in konsistenter Weise Wahrscheinlichkeiten 

zuordnen. 

Satz 1.3. Ist A komplementstabil, so gelten die beiden folgenden Äquivalenzen. 

A ist ∩ -stabil ⇐⇒ A ist ∪ -stabil, 

A ist σ- ∩ -stabil ⇐⇒ A ist σ- ∪ -stabil. 

Beweis. Dies folgt direkt aus den de Morgan’schen Regeln (Erinnerung: ( � Ai) c = 

� A c i ). Ist beispielsweise A σ-∩-stabil und sind A1,A2,...∈A, so ist auch 

∞� 

n=1 

An = 

� ∞� 

n=1 

A c n 

� c 

∈A. 

Also ist A auch σ-∪-stabil. Die anderen Fälle folgen analog. ✷ 

Satz 1.4. Ist A\-stabil, so gelten die folgenden Aussagen. 

(i) A ist ∩-stabil. 

(ii) Falls A σ-∪-stabil ist, dann ist A auch σ-∩-stabil. 

(iii) Jede abzählbare (beziehungsweise endliche) Vereinigung von Mengen aus A 

lässt sich als abzählbare (beziehungsweise endliche), disjunkte Vereinigung 

von Mengen in A schreiben. 

Beweis. (i) Seien A, B ∈A. Dann ist auch A ∩ B = A \ (A \ B) ∈A. 

(ii) Seien A1,A2,...∈A.Dannist 

∞� 

n=1 

An = 

∞� 

∞� 

∞� 

(A1 ∩ An) = A1 \ (A1 \ An) =A1 \ (A1 \ An) ∈A. 

n=2 

n=2 

(iii) Seien A1,A2,... ∈A.Dannist ∞� 

An als abzählbare, disjunkte Vereinigung 

in A darstellbar durch 

n=1 

n=2

1.1 Mengensysteme 3 

∞� 

An = A1 ⊎ (A2 \ A1) ⊎ ((A3 \ A1) \ A2) ⊎ (((A4 \ A1) \ A2) \ A3) ⊎ ... ✷ 

n=1 

Bemerkung 1.5. Manchmal bezeichnen wir, wie im obigen Beweis, die Vereinigung 

paarweise disjunkter Mengen mit dem Symbol � . Dies soll lediglich der optischen 

Verdeutlichung dienen und ist keine neue Verknüpfung. ✸ 

Definition 1.6. Ein Mengensystem A⊂2 Ω heißt Algebra, falls gilt: 

(i) Ω ∈A, 

(ii) A ist \-stabil, 

(iii) A ist ∪-stabil. 

Offenbar ist in einer Algebra stets ∅ = Ω \ Ω enthalten. Diese Eigenschaft ist im 

Allgemeinen jedoch schwächer als (i) in Definition 1.6. 

Satz 1.7. Ein Mengensystem A⊂2 Ω ist genau dann eine Algebra, wenn es folgende 

drei Eigenschaften hat: 

(i) Ω ∈A, 

(ii) A ist komplementstabil, 

(iii) A ist ∩-stabil. 

Beweis. Übung! ✷ 

Definition 1.8. Ein Mengensystem A⊂2 Ω heißt Ring, falls gilt: 

(i) ∅∈A, 

(ii) A ist \-stabil, 

(iii) A ist ∪-stabil. 

Ein Ring heißt σ-Ring, falls er σ-∪-stabil ist. 

Definition 1.9. Ein Mengensystem A⊂2 Ω heißt Semiring (oder Halbring), falls 

gilt: 

(i) ∅∈A, 

(ii) für je zwei Mengen A, B ∈Aist B \ A endliche Vereinigung von paarweise 

disjunkten Mengen aus A, 

(iii) A ist ∩-stabil.


Definition 1.10. Ein Mengensystem A ⊂ 2 Ω heißt Dynkin-System (oder λ-System), 

falls gilt: 

(i) Ω ∈A, 

(ii) für je zwei Mengen A, B ∈Amit A ⊂ B ist B \ A ∈A, 

(iii) für 

� 

je abzählbar viele, paarweise disjunkte Mengen A1,A2,... ∈ A gilt 

∞ 

n=1 An ∈A. 

Beispiele 1.11. (i) Ist Ω eine beliebige nichtleere Menge, so sind A = {∅,Ω} und 

A = 2 Ω die trivialen Beispiele für Algebren, σ-Algebren und Dynkin-Systeme. 

Hingegen sind A = {∅} und A =2 Ω die trivialen Beispiele für Semiringe, Ringe 

und σ-Ringe. 

(ii) Sei Ω = R. DannistA = {A ⊂ R : A ist abzählbar} ein σ-Ring. 

(iii) A = {(a, b] : a, b ∈ R, a≤ b} ist ein Semiring über Ω = R (aber kein 

Ring). 

(iv) Die Menge endlicher Vereinigungen von beschränkten Intervallen ist ein Ring 

über Ω = R (aber keine Algebra). 

(v) Die Menge endlicher Vereinigungen beliebiger (auch unbeschränkter) Intervalle 

ist eine Algebra über Ω = R (aber keine σ-Algebra). 

(vi) Sei E eine endliche, nichtleere Menge und Ω := E N die Menge aller Folgen 

ω =(ωn)n∈N mit Werten in E.Für ω1,...,ωn ∈ E sei 

[ω1,...,ωn] :={ω ′ ∈ Ω : ω ′ i = ωi für jedes i =1,...,n} 

die Menge aller Folgen, die mit den Werten ω1,...,ωn beginnen. Sei A0 = {∅}. 

Für n ∈ N setze 

An := {[ω1,...,ωn] : ω1,...,ωn ∈ E}. (1.1) 

Dann ist A := �∞ n=0 An ein Semiring, aber kein Ring (falls #E >1). 

(vii) Sei Ω eine beliebige nichtleere Menge. Dann ist 

A := {A ⊂ Ω : A oder A c ist endlich} 

eine Algebra. Ist #Ω = ∞, soistAjedoch keine σ-Algebra. 

(viii) Sei Ω eine beliebige nichtleere Menge. Dann ist 

A := {A ⊂ Ω : A oder A c ist abzählbar} 

eine σ-Algebra. 

(ix) Jede σ-Algebra ist auch ein Dynkin-System. 

(x) Sei Ω = {1, 2, 3, 4} und A = � ∅, {1, 2}, {1, 4}, {2, 3}, {3, 4}, {1, 2, 3, 4} � . 

Dann ist A ein Dynkin-System, aber keine Algebra. ✸

Satz 1.12 (Inklusionen zwischen Mengensystemen). 


(i) Jede σ-Algebra ist ein Dynkin-System, eine Algebra und ein σ-Ring. 

(ii) Jeder σ-Ring ist ein Ring, jeder Ring ein Semiring. 

(iii) Jede Algebra ist auch ein Ring. Eine Algebra auf einer endlichen Menge Ω ist 

auch eine σ-Algebra. 

Beweis. (i) Das ist klar. 

(ii) Sei A ein Ring. Nach Satz 1.4 ist A schnittstabil und damit ein Semiring. 

(iii) Sei A eine Algebra, und seien A, B ∈A.DannistA \ B =(A c ∪ B) c ∈A, 

also ist A ein Ring. Ist zudem Ω endlich, so ist A endlich und damit jede abzählbare 

Vereinigung in A schon eine endliche Vereinigung. ✷ 

Definition 1.13 (liminf und limsup). Es seien A1,A2,...Teilmengen von Ω. Dann 

heißen 

lim inf 

n→∞ An 

∞� ∞� 

∞� ∞� 

:= Am und lim sup An := Am 

n→∞ 

n=1 m=n 

n=1 m=n 

Limes inferior beziehungsweise Limes superior der Folge (An)n∈N. 

Bemerkung 1.14. (i) Es gilt 

lim inf 

n→∞ An = � ω ∈ Ω :#{n ∈ N : ω �∈ An} < ∞ � , 

lim sup An = 

n→∞ 

� ω ∈ Ω :#{n ∈ N : ω ∈ An} = ∞ � . 

Der Limes inferior ist also das Ereignis, dass schließlich alle der An eintreten, der 

Limes superior hingegen das Ereignis, dass unendlich viele der An eintreten. Insbesondere 

ist A∗ := lim infn→∞ An ⊂ A ∗ := lim sup n→∞ An. 

(ii) Bezeichnen wir mit 

A(x) := 

� 1, falls x ∈ A, 

0, falls x �∈ A, 

die Indikatorfunktion auf der Menge A,sogilt 

A∗ 

= lim inf 

n→∞ An, A∗ = lim sup 

n→∞ 

An. 

(1.2) 

(iii) Ist A⊂2 Ω eine σ-Algebra und An ∈Afür jedes n ∈ N, soistA∗ ∈Aund 

A ∗ ∈A. ✸ 

Beweis. Übung! ✷


Satz 1.15 (Schnitt von Mengensystemen). Ist I eine beliebige Indexmenge und Ai 

eine σ-Algebra für jedes i ∈ I,soist 

AI := � A ⊂ Ω : A ∈Ai für jedes i ∈ I � = � 

eine σ-Algebra. Dies gilt analog für: Ringe, σ-Ringe, Algebren und Dynkin-Systeme; 

nicht aber für Semiringe. 

Beweis. Wir führen den Beweis hier nur für σ-Algebren durch. Wir prüfen für A 

die Punkte (i)-(iii) aus Definition 1.2. 

(i) Für jedes i ∈ I ist Ω ∈Ai.AlsoistΩ ∈A. 

(ii) Sei A ∈A.DannistA ∈Ai für jedes i ∈ I. Also ist auch A c ∈Ai für jedes 

i ∈ I. Mithin ist A c ∈A. 

(iii) Seien A1,A2,...∈A.DannistAn ∈Ai für jedes n ∈ N und jedes i ∈ I.Also 

ist auch A := � ∞ 

n=1 An ∈Ai für jedes i ∈ I und damit A ∈A. 

Gegenbeispiel für Semiringe: Seien Ω = {1, 2, 3, 4}, A1 = {∅,Ω,{1}, {2, 3}, {4}} 

und A2 = {∅,Ω,{1}, {2}, {3, 4}}. Dann sind A1 und A2 Semiringe, aber A1 ∩ 

A2 = {∅,Ω,{1}} ist keiner. ✷ 

Satz 1.16 (Erzeugte σ-Algebra). Sei E ⊂ 2Ω Algebra σ(E) mit E⊂σ(E): 

. Dann existiert eine kleinste σ- 

� 

σ(E) := 

A. 

A⊂2 Ω ist σ-Algebra 

A⊃E 

σ(E) heißt die von E erzeugte σ-Algebra. E heißt Erzeuger von σ(E). Analog wird 

das von E erzeugte Dynkin-System δ(E) definiert. 

Beweis. A =2 Ω ist eine σ-Algebra mit E⊂A. Also ist der Schnitt nicht leer. Nach 

Satz 1.15 ist σ(E) eine σ-Algebra, und dies ist offenbar die kleinste σ-Algebra, die 

E enthält. Für Dynkin-Systeme geht der Beweis genauso. ✷ 

Bemerkung 1.17. Es gelten die folgenden einfachen Aussagen. 

(i) E⊂σ(E). 

(ii) Gilt E1 ⊂E2,soistσ(E1) ⊂ σ(E2). 

(iii) A ist genau dann σ-Algebra, wenn σ(A) =A. 

Die analogen Aussagen gelten für Dynkin-Systeme. Ferner ist stets δ(E) ⊂ σ(E).✸ 

i∈I 

Ai


Satz 1.18 (Schnittstabiles Dynkin-System). Ist D⊂2 Ω ein Dynkin-System, so gilt 

Beweis. ” ⇐= “ Dies ist klar. 

D ist ∩-stabil ⇐⇒ D ist eine σ-Algebra. 

” =⇒ “ Wir prüfen die Eigenschaften (i)-(iii) aus Definition 1.2. 

(i) Offensichtlich ist Ω ∈D. 

(ii) (Komplementstabilität) Sei A ∈D.DaΩ ∈Dgilt, und nach Eigenschaft (ii) 

des Dynkin-Systems, ist Ac = Ω \ A ∈D. 

(iii) (σ-∪-Stabilität) Seien A, B ∈D. Nach Voraussetzung ist A ∩ B ∈D, und es 

gilt trivialerweise A ∩ B ⊂ A. AlsoistA \ B = A \ (A ∩ B) ∈D. Mithin ist 

D\-stabil. Seien nun A1,A2,... ∈D. Nach Satz 1.4(iii) existieren paarweise 

disjunkte Mengen B1,B2,...∈Dmit ∞� 

An = ∞� 

Bn ∈D. ✷ 

Satz 1.19 (Dynkin’scher π–λ–Satz). Sei E⊂2 Ω ein ∩-stabiles Mengensystem. 

Dann gilt 

σ(E) =δ(E). 

n=1 

Beweis. ” ⊃“ Dies ist klar nach Bemerkung 1.17. 

” ⊂“ Zu zeigen ist: δ(E) ist eine σ-Algebra. Nach Satz 1.18 reicht es zu zeigen, 

dass δ(E) ∩-stabil ist. Für B ∈ δ(E) sei 

n=1 

DB := {A ∈ δ(E) :A ∩ B ∈ δ(E)}. 

Für die Schnittstabilität von δ(E) reicht es zu zeigen, dass 

δ(E) ⊂DB für jedes B ∈ δ(E). (1.3) 

Wir zeigen, dass DE für jedes E ∈ δ(E) ein Dynkin-System ist, indem wir (i)-(iii) 

aus Definition 1.10) prüfen: 

(i) Offenbar ist Ω ∩ E = E ∈ δ(E), also ist Ω ∈DE. 

(ii) Für A, B ∈DE mit A ⊂ B ist (B \ A) ∩ E =(B∩ E) \ (A ∩ E) ∈ δ(E). 

(iii) Seien A1,A2,...∈DE paarweise disjunkt. Dann ist 

� 

∞� 

� 

∞� 

∩ E = (An ∩ E) ∈ δ(E). 

An 

n=1 

n=1


Nach Voraussetzung ist für A ∈Eauch A ∩ E ∈E, also ist E⊂DE, falls E ∈E 

gilt. Nach Bemerkung 1.17(ii) ist daher auch δ(E) ⊂DE für E ∈E.Für B ∈ δ(E) 

und E ∈Eist also B ∩ E ∈ δ(E). Mithin gilt E ∈DB für jedes B ∈ δ(E), also 

E⊂DB für jedes B ∈ δ(E), und damit gilt (1.3). ✷ 

Von besonderer Bedeutung sind σ-Algebren, die von Topologien erzeugt werden. 

Hier wiederum spielt natürlich der euklidische Raum R n die prominenteste Rolle, 

aber wir wollen auch den (unendlichdimensionalen) Raum C([0, 1]) der stetigen 

Funktionen [0, 1] → R im Blick haben. Auf diesem Raum wird durch die Norm 

�f�∞ =sup x∈[0,1] |f(x)| eine Topologie erzeugt. Zur Erinnerung bringen wir hier 

das Axiomensystem der Topologie. 

Definition 1.20 (Topologie). Sei Ω �= ∅ eine beliebige Menge. Ein Mengensystem 

τ ⊂ Ω heißt Topologie auf Ω, falls folgende drei Eigenschaften gelten. 

(i) ∅,Ω ∈ τ. 

(ii) Sind A, B ∈ τ,soistauchA∩B∈τ. (iii) Ist F⊂τ eine beliebige Familie, so ist auch �� 

A∈F A� ∈ τ. 

Das Paar (Ω,τ) heißt dann topologischer Raum. Die Mengen A ∈ τ heißen offen, 

die Mengen A ⊂ Ω mit A c ∈ τ heißen abgeschlossen. 

Anders als bei σ-Algebren sind bei Topologien nur endliche Schnitte, jedoch auch 

überabzählbare Vereinigungen erlaubt. Ist d eine Metrik auf Ω, und bezeichnet 

Br(x) ={y ∈ Ω : d(x, y) 0, so wird eine Topologie erzeugt durch 

� � 

τ = 

(x,r)∈F Br(x) 

� 

: F ⊂ Ω × (0, ∞) . 

Dies ist das gewöhnliche System offener Mengen, das man in den meisten Analysisbüchern 

findet. 

Definition 1.21 (Borel’sche σ-Algebra). Sei (Ω,τ) ein topologischer Raum. Die 

von den offenen Mengen erzeugte σ-Algebra 

B(Ω) :=B(Ω,τ) :=σ(τ) 

heißt Borel’sche σ-Algebra auf Ω. Die Elemente A ∈B(Ω,τ) heißen Borel’sche 

Mengen oder Borel-messbare Mengen. 

Bemerkung 1.22. Wir sind meistens an B(R n ) interessiert, wobei wir auf R n den 

euklidischen Abstand annehmen:


� 

� 

� 

d(x, y) =�x − y�2 = � n � 

(xi − yi) 2 . 

(i) Es gibt Teilmengen von R n , die keine Borel’schen Mengen sind. Diese sind 

kompliziert herzustellen, wie beispielsweise die Vitali-Mengen, die man in Analysisbüchern 

findet (siehe etwa [7]). Wir wollen hier auf diesen Aspekt nicht näher 

eingehen, sondern lediglich die - mathematisch unpräzise - Feststellung treffen, dass 

jede Menge, die man sich konstruktiv herstellen kann, auch Borel’sch ist. 

(ii) Jede abgeschlossene Menge C ⊂ R n ist in B(R n ),dennesistC c ∈ τ, also ist 

C =(C c ) c ∈ σ(τ). Speziell ist {x} ∈B(R n ) für jedes x ∈ R n . 

(iii) B(R n ) ist keine Topologie. Sei nämlich V ⊂ R n , V �∈ B(R n ).Wäre B(R n ) 

eine Topologie, so wären beliebige Vereinigungen Borel’scher Mengen wieder Borel’sch, 

also auch V = � 

x∈V {x} ∈B(Rn ). ✸ 

Das Mengensystem der offenen Mengen, das die Borel’sche σ-Algebra erzeugt, ist 

in vielen Fällen unhandlich groß. Wir wollen daher andere Mengensysteme als Erzeuger 

von B(Rn ) identifizieren, mit denen wir in der Praxis besser arbeiten können. 

Hierzu wollen wir einerseits Mengen von einfacher Struktur, Quader etwa, betrachten, 

andererseits aber auch die Größe des Systems einschränken, indem wir 

abzählbare Mengensysteme betrachten. Wir führen folgende Notationen ein. Mit 

Q bezeichnen wir die Menge der rationalen Zahlen, mit Q + die Menge der strikt 

positiven rationalen Zahlen. Für a, b ∈ Rn schreiben wir 

a


Beweis. Wir zeigen nur exemplarisch ein paar der Identitäten. 

(1) B(Rn )=σ(E1) gilt per Definition. 

(2) Sei A ∈E1. DannistA c ∈E2, also A =(A c ) c ∈ σ(E2). Daher gilt E1 ⊂ 

σ(E2) und dann (wegen Bemerkung 1.17) auch σ(E1) ⊂ σ(E2). Analog folgt aber 

σ(E2) ⊂ σ(E1) und damit die Gleichheit. 

(3) Jede kompakte Menge ist abgeschlossen. Also gilt σ(E3) ⊂ σ(E2). Sei nun 

A ∈E2. Dann sind die Mengen AK := A ∩ [−K, K] n , K ∈ N, kompakt, also ist 

die abzählbare Vereinigung A = �∞ K=1 AK in σ(E3). Es gilt also E2 ⊂ σ(E3) und 

damit σ(E2) =σ(E3). 

(4) Offenbar ist E4 ⊂E1, also σ(E4) ⊂ σ(E1). Sei nun A ⊂ Rn offen. Für x ∈ A 

sei R(x) =min(1, sup{r >0: Br(x) ⊂ A}). DaA offen ist, folgt R(x) > 0. 

Sei r(x) ∈ (R(x)/2,R(x)) ∩ Q. Für jedes y ∈ A und x ∈ BR(y)/3 ∩ Qn ist nun 

R(x) ≥ R(y) −�x− y�2 > 2 

1 

3R(y), also r(x) > 3R(y), also y ∈ Br(x)(x). Also 

ist A = � 

x∈A∩Qn Br(x)(x) eine abzählbare Vereinigung von Mengen aus E4 und 

damit in σ(E3). Es gilt also auch σ(E1) ⊂ σ(E4). 

(5-12) Ähnliche Ausschöpfungsargumente wie in (4) funktionieren auch für die 

Quader. In (4) können statt der offenen Kugeln Br(x) offene Quader genommen 

werden. So folgt die Gleichheit mit σ(E5). Man bemerke beispielsweise, dass 

n 

× [ai,bi) = 

i=1 

∞� 

n 

× k=1 i=1 

� 

ai − 1 

k ,bi 

� 

∈ σ(E5). 

Die anderen Inklusionen Ei ⊂ σ(Ej) zeigt man analog. ✷ 

Bemerkung 1.24. Jedes der Mengensystem E1, E2, E3, E5,...,E12 (nicht aber E4) 

ist schnittstabil, mithin ist die Borel’sche σ-Algebra jeweils gleich dem erzeugten 

Dynkin-System: B(R n ) = δ(Ei) für i = 1,...,12. Die Mengensysteme 

E4,...,E12 sind zudem abzählbar. Dies ist eine Eigenschaft, die wir an späterer 

Stelle wieder benötigen werden. ✸ 

Definition 1.25 (Spur eines Mengensystems). Es sei A⊂2 Ω ein beliebiges System 

von Teilmengen von Ω und A ∈ 2 Ω \ {∅}. Das Mengensystem 

A � � := {A ∩ B : B ∈A}⊂2 

A 

A 

heißt Spur von A auf A, oder Einschränkung von A auf A. 

(1.6) 

Satz 1.26. Ist A eine σ-Algebra, oder eines der Mengensysteme aus den Definitionen 

1.6 – 1.10 auf Ω, soistA � � ein Mengensystem vom selben Typ, allerdings auf 

A 

A statt Ω. 

Beweis. Übung! ✷

1.2 Mengenfunktionen 11 

Übung 1.1.1. Sei A ein Semiring. Man zeige: Jede abzählbare (beziehungsweise 

endliche) Vereinigung von Mengen aus A lässt sich als abzählbare (beziehungsweise 

endliche), disjunkte Vereinigung von Mengen in A schreiben. ♣ 

Übung 1.1.2. Man zeige durch ein Gegenbeispiel, dass im die Allgemeinen die Vereinigung 

A∪A ′ zweier σ-Algebren keine σ-Algebra ist. ♣ 

Übung 1.1.3. Seien (Ω1,d1) und (Ω2,d2) metrische Räume, f : Ω1 → Ω2 eine 

beliebige Abbildung und Uf = � x ∈ Ω1 : f ist unstetig in x � die Menge der 

Unstetigkeitsstellen. Man zeige: Uf ∈B(Ω1). 

Hinweis: Man zeige zunächst, dass für ε>0 und δ>0 die Menge 

U δ,ε 

f := � x ∈ Ω1 : es gibt y, z ∈ Bε(x) mit d2(f(y),f(z)) >δ � 

(wobei Bε(x) ={y ∈ Ω1 : d1(x, y)


(v) σ-subadditiv, falls für je abzählbar viele A, A1,A2,... ∈Amit A ⊂ ∞� 

gilt, dass μ(A) ≤ ∞� 

μ(Ai). 

i=1 

Ai 

i=1 

Definition 1.28. Sei A ein Semiring und μ : A→[0, ∞] eine Mengenfunktion mit 

μ(∅) =0. μ heißt 

– Inhalt, falls μ additiv ist, 

– Prämaß, falls μσ-additiv ist, 

– Maß, falls μ ein Prämaß ist und A eine σ-Algebra, 

– Wahrscheinlichkeitsmaß (kurz W-Maß), falls μ ein Maß ist und μ(Ω) =1. 

Definition 1.29. Sei A ein Semiring. Ein Inhalt μ auf A heißt 

(i) endlich, falls μ(A) < ∞ für jedes A ∈A, 

(ii) σ-endlich, falls es Mengen Ω1,Ω2,... ∈ A gibt mit Ω = ∞� 

μ(Ωn) < ∞ für jedes n ∈ N. 

n=1 

Ωn und 

Beispiel 1.30 (Inhalte, Maße). (i) Sei ω ∈ Ω und δω(A) = A(ω) (siehe (1.2)). 

Dann ist δω ein Wahrscheinlichkeitsmaß auf jeder σ-Algebra A⊂2 Ω und heißt 

Dirac-Maß im Punkt ω, oder Einheitsmasse. 

(ii) Sei Ω eine endliche, nichtleere Menge. Durch 

μ(A) := #A 

#Ω 

für A ⊂ Ω, 

wird ein Wahrscheinlichkeitsmaß auf A =2 Ω definiert. μ heißt Gleichverteilung 

oder uniforme Verteilung auf Ω. Wirführen hierfür das Symbol UΩ := μ ein. 

Dersodefinierte Wahrscheinlichkeitsraum (Ω,A, UΩ) wird auch Laplace-Raum 

genannt. 

(iii) Sei Ω abzählbar unendlich und 

A := {A ⊂ Ω :#A


(iv) Sei (μn)n∈N eine Folge von Maßen (Prämaßen, Inhalten) und (αn)n∈N ei- 

ne Folge von nichtnegativen Zahlen. Dann ist auch μ := � ∞ 

n=1 αnμn ein Maß 

(Prämaß, Inhalt). 

(v) Sei Ω eine (höchstens) abzählbare, nichtleere Menge und A =2Ω . Ferner 

seien (pω)ω∈Ω nichtnegative Zahlen. Dann wird durch μ(A) := � 

ω∈A pω für jedes 

A ⊂ Ω, ein σ-endliches Maß auf 2Ω definiert. Wir nennen p =(pω)ω∈Ω die 

Gewichtsfunktion von μ. 

(vi) Ist in (v) speziell � 

ω∈Ω pω =1,soistμein Wahrscheinlichkeitsmaß. Wir interpretieren 

dann pω als Wahrscheinlichkeit des Elementarereignisses ω und nennen 

p =(pω)ω∈Ω auch einen Wahrscheinlichkeitsvektor. 

(vii) Ist in (v) speziell pω =1für jedes ω ∈ Ω, so heißt μ das Zählmaß auf Ω. 

Ist Ω endlich, so ist auch μ endlich. 

(viii) Sei A der Ring endlicher Vereinigungen von Intervallen (a, b] ⊂ R. Für 

a1


Beweis. (i) Es ist A∪B = A⊎(B \A) und B =(A∩B)⊎(B \A).Daμ additiv 

ist, folgt 

μ(A ∪ B) =μ(A)+μ(B \ A) und μ(B) =μ(A ∩ B)+μ(B \ A). 

Hieraus folgt sofort (i). 

(ii) Sei A ⊂ B. WegenA ∩ B = A folgt μ(B) =μ(A ⊎ (B \ A)) = μ(A) + 

μ(B \ A), falls B \ A ∈Aist, insbesondere also, falls A ein Ring ist. Ist nun A nur 

ein Semiring, so ist B \ A = � n 

i=1 Ci für gewisses n ∈ N und paarweise disjunkte 

Mengen C1,...,Cn ∈A. In diesem Fall ist μ(B) =μ(A)+ � n 

i=1 μ(Ci) ≥ μ(A), 

also ist μ monoton. 

(iii) Seien n ∈ N und A, A1,...,An ∈Amit A ⊂ � n 

i=1 Ai. Setze B1 = A1 und 

� 

k−1 

Bk = Ak \ Ai = 

i=1 

k−1 � 

(Ak \ (Ak ∩ Ai)) für k =2,...,n. 

i=1 

Per Definition des Semirings ist jedes Ak \(Ak ∩Ai) disjunkte Vereinigung endlich 

vieler Mengen in A, also existiert ein ck ∈ N und Mengen Ck,1,...,Ck,ck ∈Amit 

� ck 

i=1 Ck,i = Bk ⊂ Ak. Analog existieren dk ∈ N und Dk,1,...,Dk,dk ∈Amit 

Ak \ Bk = � dk 

i=1 Dk,i.Daμ additiv ist, gilt 

μ(Ak) = 

ck� 

i=1 

μ(Ck,i)+ 

dk� 

i=1 

μ(Dk,i) ≥ 

ck� 

i=1 

μ(Ck,i). 

Wiederum aufgrund von Additivität und Monotonie gilt 

� 

n� ck� 

� 

n� ck� 

μ(A) =μ (Ck,i ∩ A) = μ(Ck,i ∩ A) 

≤ 

n� 

k=1 i=1 

ck� 

k=1 i=1 

μ(Ck,i) ≤ 

n� 

μ(Ak). 

k=1 

k=1 i=1 

Also ist μ subadditiv. Die σ-Subadditivität folgt aus der σ-Additivität in analoger 

Weise. 

(iv) Sei A ein Ring und A = ∞� 

An ∈A.Daμadditiv (und damit monoton) ist, 

gilt nach (ii) 

n=1 

m� 

� 

m� 

μ(An) =μ 

� 

≤ μ(A) für jedes m ∈ N. 

Also ist 

n=1 

n=1 

An 

∞� 

μ(An) ≤ μ(A). ✷ 

n=1


Bemerkung 1.32. In (iv) kann strikte Ungleichheit herrschen (siehe etwa Beispiel 

1.30(iii)). Mit anderen Worten: Es gibt Inhalte, die keine Prämaße sind. ✸ 

Satz 1.33 (Einschluss- Ausschlussformel). Sei A ein Ring und μ ein Inhalt. Dann 

gelten für n ∈ N und A1,...,An ∈Adie Einschluss- Ausschlussformeln 

μ(A1 ∪ ...∪ An) = 

μ(A1 ∩ ...∩ An) = 

n� 

(−1) k−1 

k=1 

n� 

(−1) k−1 

k=1 

� 

{i1,...,ik}⊂{1,...,n} 

� 

{i1,...,ik}⊂{1,...,n} 

μ(Ai1 ∩ ...∩ Aik ), 

μ(Ai1 ∪ ...∪ Aik ), 

wobei sich die Summen über alle k-elementigen Teilmengen von {1,...,n} erstrecken. 

Beweis. Übung! Hinweis: Man verwende vollständige Induktion über n. ✷ 

Wir wollen die σ-Subadditivität durch eine Stetigkeitseigenschaft charakterisieren 

(Satz 1.36). Hierzu verabreden wir die folgende Sprechweise und Notation. 

Definition 1.34. Sind A, A1,A2,...Mengen, so schreiben wir 

– An ↑ A, falls A1 ⊂ A2 ⊂ ... und �∞ n=1 An = A, 

– An ↓ A, falls A1 ⊃ A2 ⊃ A3 ⊃ ... und �∞ n=1 An = A. 

Wir sagen dann, dass (An)n∈N gegen A aufsteigt beziehungsweise absteigt. 

Definition 1.35 (Stetigkeit von Inhalten). Sei μ ein Inhalt auf dem Ring A. 

(i) μ heißt stetig von unten, falls für jedes A ∈Aund jede Folge (An)n∈N in A 

mit An ↑ A gilt: μ(An) n→∞ 

−→ μ(A). 

(ii) μ heißt stetig von oben, falls für jedes A ∈Aund jede Folge (An)n∈N in A 

mit An ↓ A sowie μ(An) < ∞ für jedes n ∈ N gilt: μ(An) n→∞ 

−→ μ(A). 

(iii) μ heißt ∅-stetig, falls (ii) für A = ∅ gilt. 

Bei der Stetigkeit von oben wurde die Endlichkeitsbedingung eingeführt, weil sogar 

für das Zählmaß μ auf (N, 2 N ) und An := {n, n+1,...}↓∅sonst keine Gleichheit 

gelten kann.


Satz 1.36 (Stetigkeit und Prämaß). Sei μ ein Inhalt auf einem Ring A. Betrachte 

die folgenden fünf Eigenschaften. 

(i) μ ist σ-additiv (also ein Prämaß). 

(ii) μ ist σ-subadditiv. 

(iii) μ ist stetig von unten. 

(iv) μ ist ∅-stetig. 

(v) μ ist stetig von oben. 

Dann gelten die Implikationen (i) ⇐⇒ (ii) ⇐⇒ (iii)=⇒ (iv) ⇐⇒ (v). 

Ist μ endlich, so gilt auch (iv) =⇒ (iii). 

Beweis. (i) =⇒ (ii)“ Seien A, A1,A2,... ∈Amit A ⊂ 

” �∞ i=1 Ai. Setze B1 = 

A1 und Bn = An \ �n−1 i=1 Ai ∈Afür n =2, 3,...Dann ist A = �∞ n=1 (A ∩ Bn), 

also wegen der Monotonie von μ und der σ-Additivität von μ 

∞� 

∞� 

μ(A) = μ(A ∩ Bn) ≤ μ(An). 

n=1 

Damit ist μ als σ-subadditiv erkannt. 

” (ii) =⇒ (i)“ Dies folgt aus Lemma 1.31(iv). 

” (i) =⇒ (iii)“ Sei μ ein Prämaß und A ∈Asowie (An)n∈N eine Folge in A mit 

An ↑ A sowie A0 = ∅. Dann gilt 

μ(A) = 

∞� 

μ(Ai \ Ai−1) = lim 

i=1 

n� 

n→∞ 

i=1 

n=1 

μ(Ai \ Ai−1) = lim 

n→∞ μ(An). 

” (iii) =⇒ (i)“ Gelte nun (iii). Seien B1,B2,... ∈Apaarweise disjunkt, und 

gelte B = ∞� 

Bn ∈A. Setze An = n� 

Bi für jedes n ∈ N. Dann folgt aus (iii) 

n=1 

i=1 

μ(B) = lim 

n→∞ μ(An) = 

Also ist μσ-additiv und damit ein Prämaß. 

∞� 

μ(Bi). 

” (iv) =⇒ (v)“ Seien A, A1,A2,... ∈Amit An ↓ A und μ(A1) < ∞. Setze 

Bn = An \ A ∈Afür jedes n ∈ N. Dann gilt Bn ↓∅. Es gilt also μ(An) − μ(A) = 

μ(Bn) n→∞ 

−→ 0. 

” (v) =⇒ (iv)“ Dies ist trivial. 

i=1

1.3 Fortsetzung von Maßen 17 

” (iii) =⇒ (iv)“ Seien A1,A2,... ∈Amit An ↓∅und μ(A1) < ∞. Dann gilt 

A1 \ An ∈Afür jedes n ∈ N und A1 \ An ↑ A1, also 

μ(A1) = lim 

n→∞ μ(A1 \ An) =μ(A1) − lim 

n→∞ μ(An). 

Wegen μ(A1) < ∞ ist lim 

n→∞ μ(An) =0. 

” (iv) =⇒ (iii)“ (für den Fall μ endlich) Es gelte nun μ(A) < ∞ für jedes A ∈A, 

und μ sei ∅-stetig. Seien A, A1,A2,...∈Amit An ↑ A. Dann gilt A \ An ↓∅und 

μ(A) − μ(An) =μ(A \ An) n→∞ 

−→ 0. 

Also gilt (iii). ✷ 

Beispiel 1.37. (Vergleiche Beispiel 1.30(iii).) Sei Ω abzählbar und 

A = {A ⊂ Ω :#A


Beispiel 1.39 (Lebesgue-Maß). Sei n ∈ N und 

A = {(a, b] : a, b ∈ R n ,a

d(ω, ω ′ )= 


� 2 − inf{n∈N: ωn�=ω ′ 

n } , falls ω �= ω ′ , 

0, falls ω = ω ′ . 

Dann ist (Ω,d) ein kompakter, metrischer Raum. Offenbar ist 

[ω1,...,ωn] =B 2 −n(ω) ={ω ′ ∈ Ω : d(ω, ω ′ ) < 2 −n }. 

(1.9) 

Das Komplement von [ω1,...,ωn] ist die Vereinigung von (#E) n − 1 offenen 

Kugeln 

[ω1,...,ωn] c = 

� 

[ω ′ 1,...,ω ′ n], 

(ω ′ 1 ,...,ω′ n )�=(ω1,...,ωn) 

also offen. Damit ist [ω1,...,ωn] abgeschlossen und kompakt, weil Ω kompakt ist. 

Ähnlich wie in Satz 1.23 kann man zeigen, dass σ(A) =B(Ω,d). 

Übung: Man zeige die obigen Aussagen. ✸ 

Das Hauptergebnis dieses Kapitels ist der Fortsetzungssatz für Maße, den wir hier 

in der Form von Carathéodory formulieren. 

Satz 1.41 (Carathéodory). Sei A⊂2 Ω ein Ring und μ ein σ-endliches Prämaß 

auf A. Dann kann μ auf genau eine Weise zu einem Maß �μ auf σ(A) fortgesetzt 

werden, und ˜μ ist σ-endlich. 

Den Beweis dieses Satzes müssen wir mit einigen Lemmata vorbereiten. Wir zeigen 

dann in Satz 1.53 eine etwas stärkere Aussage. Dort wird auch die griffige Formulierung 

” kann fortgesetzt werden“ präzisiert. 

Lemma 1.42 (Eindeutigkeit durch schnittstabilen Erzeuger). Sei (Ω,A,μ) ein 

σ-endlicher Maßraum und E ⊂ A ein schnittstabiler Erzeuger von A. Esgebe 

E1,E2,... ∈Emit En ↑ Ω und μ(En) < ∞ für jedes n ∈ N. Dann ist μ durch 

die Werte μ(E), E ∈E, eindeutig festgelegt. 

Ist μ ein W-Maß, so gilt die Folgerung auch ohne die Existenz der Folge (En)n∈N. 

Beweis. Sei ν ein weiteres σ-endliches Maß auf (Ω,A) mit der Eigenschaft 

μ(E) =ν(E) für jedes E ∈E. 

Sei E ∈Emit μ(E) < ∞. Betrachte das Mengensystem 

DE = {A ∈A: μ(A ∩ E) =ν(A ∩ E)}. 

Um zu zeigen, dass DE ein Dynkin-System ist, prüfen wir die Eigenschaften aus 

Definition 1.10: 

(i) Offensichtlich ist Ω ∈DE.


(ii) Seien A, B ∈DE mit A ⊃ B.Dannist 

μ ((A \ B) ∩ E) =μ(A ∩ E) − μ(B ∩ E) 

= ν(A ∩ E) − ν(B ∩ E) =ν ((A \ B) ∩ E) . 

Also ist A \ B ∈DE. 

(iii) Seien A1,A2,...∈DE paarweise disjunkt sowie A = ∞� 

An. Dannist 

also A ∈DE. 

n=1 

n=1 

∞� 

∞� 

μ(A ∩ E) = μ(An ∩ E) = ν(An ∩ E) =ν(A ∩ E), 

Offenbar ist E⊂DE, also δ(E) ⊂DE.DaE schnittstabil ist, ist nach Satz 1.19 

n=1 

A⊃DE ⊃ δ(E) =σ(E) =A. 

Also ist DE = A. 

Für jedes A ∈Aund E ∈Emit μ(E) < ∞ gilt also μ(A ∩ E) =ν(A ∩ E). Seien 

nun E1,E2,...∈Emit En ↑ Ω und μ(En) < ∞ für jedes n ∈ N.Daμund ν von 

unten stetig sind, gilt für A ∈A 

μ(A) = lim 

n→∞ μ(A ∩ En) = lim 

n→∞ ν(A ∩ En) =ν(A). 

Der Zusatz ist trivial, denn ˜ E := E∪{Ω} ist ebenfalls ein schnittstabiler Erzeuger 

von A, und der Wert μ(Ω) =1ist bekannt. Es kann also die konstante Folge En = 

Ω, n ∈ N,gewählt werden. Man beachte jedoch, dass es nicht reicht zu fordern, dass 

μ endlich ist, weil dann im Allgemeinen die Gesamtmasse μ(Ω) nicht eindeutig 

festgelegt ist (siehe Beispiel 1.45(ii)). ✷ 

Beispiel 1.43. Sei Ω = Z und E = � En : n ∈ Z � , wobei En =(−∞,n] ∩ Z. E 

ist schnittstabil und σ(E) =2 Ω . Also ist ein endliches Maß μ auf (Ω,2 Ω ) eindeutig 

festgelegt durch die Werte μ(En), n ∈ N. 

Ein σ-endliches Maß auf Z ist jedoch durch die Werte auf E noch nicht eindeutig 

bestimmt: Sei μ das Zählmaß auf Z und ν =2μ. Dannistμ(E) =∞ = ν(E) für 

jedes E ∈E.Umμ und ν zu unterscheiden, brauchen wir also einen Erzeuger, der 

Mengen endlichen Maßes (für μ) enthält. Tun es die Mengen ˜ Fn =[−n, n] ∩ Z, 

n ∈ N? InderTatistfür jedes σ-endliche Maß μ jetzt μ( ˜ Fn) < ∞ für jedes 

n ∈ N. Allerdings erzeugen die ˜ Fn nicht 2 Ω (sondern welche σ-Algebra?). Wir 

können aber die Definition so modifizieren: Fn =[−n/2, (n +1)/2] ∩ Z.Dannist 

σ({Fn, n∈ N}) =2 Ω , also E = {Fn, n∈ N} ein schnittstabiler Erzeuger von 2 Ω 

und μ(Fn) < ∞ für jedes n ∈ N. WegenFn ↑ Ω sind die Bedingungen des Satzes 

erfüllt. ✸


Beispiel 1.44 (Verteilungsfunktion). Ein W-Maß μ auf dem Raum (R n , B(R n )) ist 

durch Angabe der Werte μ((−∞,b]) auf den Mengen (−∞,b]=× n 

i=1(−∞,bi], 

b ∈ R n , eindeutig festgelegt, da diese Mengen einen schnittstabilen Erzeuger bilden 

(Satz 1.23). Speziell ist ein W-Maß μ auf R durch Angabe der Verteilungsfunktion 

F : R → [0, 1], x ↦→ μ((−∞,x]) eindeutig bestimmt. ✸ 

Beispiel 1.45. (i) Sei Ω = {1, 2, 3, 4} und E = { � 1, 2}, {2, 3} � . Offenbar gilt 

σ(E) =2Ω , jedoch ist E nicht schnittstabil. Tatsächlich ist hier ein W-Maß μ durch 

Angabe der Werte μ({1, 2}) =μ({2, 3}) = 1 

2 nicht eindeutig festgelegt. Es gibt 

beispielsweise die Möglichkeiten μ = 1 

2δ1 + 1 

2δ3 oder μ ′ = 1 

2δ2 + 1 

2δ4. (ii) Sei Ω = {1, 2} und E = {{1}}. DannistEein schnittstabiler Erzeuger von 

2Ω , und ein W-Maß μ ist durch Angabe von μ({1}) eindeutig festgelegt. Allerdings 

gilt dies nicht für endliche Maße im Allgemeinen, denn μ =0und ν = δ2 sind zwei 

endliche Maße, die auf E übereinstimmen. ✸ 

Definition 1.46 (Äußeres Maß). Eine Mengenfunktion μ ∗ : 2 Ω → [0, ∞] heißt 

äußeres Maß, falls gilt: 

(i) μ∗ (∅) =0, 

(ii) μ∗ ist monoton, 

(iii) μ∗ ist σ-subadditiv. 

Lemma 1.47. Sei A⊂2Ω ein beliebiges Mengensystem mit ∅∈Aund μ eine 

monotone Mengenfunktion auf A mit μ(∅) =0.Für A ⊂ Ω sei 

� 

U(A) = F⊂A: F ist höchstens abzählbar und A ⊂ � 

� 

F 

F ∈F 

die Menge der abzählbaren Überdeckungen F von A mit Mengen F aus A. Setze 

μ ∗ � � 

� 

(A) :=inf μ(F ): F∈U(A) , 

F ∈F 

wobei inf ∅ = ∞. Dann ist μ ∗ (A) =μ(A) für jedes A ∈A, und μ ∗ ist ein äußeres 

Maß. 

Beweis. Wir weisen die Eigenschaften (i)-(iii) des äußeren Maßes nach. 

(i) Wegen ∅∈Aist {∅} ∈ U(∅), also ist μ ∗ (∅) =0. 

(ii) Ist A ⊂ B,soistU(A) ⊃U(B), also ist μ ∗ (A) ≤ μ ∗ (B). 

(iii) Sei An ⊂ Ω für jedes n ∈ N und A ⊂ � ∞ 

n=1 An. Wirmüssen zeigen, dass 

μ ∗ (A) ≤ � ∞ 

n=1 μ∗ (An). Ohne Einschränkung sei μ ∗ (An) < ∞ und damit


U(An) �= ∅ für jedes n ∈ N. Wähle ε > 0 und zu jedem n ∈ N eine 

Überdeckung Fn ∈U(An) mit 

� 

F ∈Fn 

Dann ist F := � ∞ 

n=1 Fn ∈U(A) und 

F ∈F 

μ(F ) ≤ μ ∗ (An)+ε 2 −n . 

μ ∗ (A) ≤ � 

∞� � 

∞� 

μ(F ) ≤ μ(F ) ≤ μ ∗ (An)+ε. ✷ 

n=1 F ∈Fn 

Definition 1.48 (μ ∗ -messbare Mengen). Sei μ ∗ ein äußeres Maß. Eine Menge A ∈ 

2 Ω heißt μ ∗ -messbar, falls 

n=1 

μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) =μ ∗ (E) für jedes E ∈ 2 Ω . (1.10) 

Wir schreiben M(μ ∗ )={A ∈ 2 Ω : A ist μ ∗ -messbar}. 

Lemma 1.49. Es ist A ∈M(μ ∗ ) genau dann, wenn 

μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) ≤ μ ∗ (E) für jedes E ∈ 2 Ω . 

Beweis. Da μ ∗ subadditiv ist, gilt stets die andere Ungleichung. ✷ 

Lemma 1.50. M(μ ∗ ) ist eine Algebra. 

Beweis. Wir prüfen die Eigenschaften (i)-(iii) der Algebra aus Satz 1.7. 

(i) Ω ∈M(μ∗ ) ist klar. 

(ii) (Komplementstabilität) Per Definition ist A ∈M(μ∗ ) ⇐⇒ Ac ∈M(μ∗ ). 

(iii) (Schnittstabilität) Seien A, B ∈M(μ∗ ) und E ∈ 2Ω .Dannist 

μ ∗ ((A ∩ B) ∩ E)+μ ∗ ((A ∩ B) c ∩ E) 

= μ ∗ (A ∩ B ∩ E)+μ ∗� (A c ∩ B ∩ E) ∪ (A c ∩ B c ∩ E) ∪ (A ∩ B c ∩ E) � 

≤ μ ∗ (A ∩ B ∩ E)+μ ∗ (A c ∩ B ∩ E) 

+ μ ∗ (A c ∩ B c ∩ E)+μ ∗ (A ∩ B c ∩ E) 

= μ ∗ (B ∩ E)+μ ∗ (B c ∩ E) 

= μ ∗ (E). 

Dabei haben wir in der vorletzten Gleichung A ∈M(μ ∗ ) benutzt und in der letzten 

B ∈M(μ ∗ ). ✷ 

Lemma 1.51. Ein äußeres Maß μ ∗ ist σ-additiv auf M(μ ∗ ).

Beweis. Seien A, B ∈M(μ ∗ ) mit A ∩ B = ∅. Dannist 


μ ∗ (A ∪ B) =μ ∗ (A ∩ (A ∪ B)) + μ ∗ (A c ∩ (A ∪ B)) = μ ∗ (A)+μ ∗ (B). 

Induktiv folgt die (endliche) Additivität. Da μ ∗ per Definition σ-subadditiv ist, folgt 

nach Satz 1.36, dass μ ∗ auch σ-additiv ist. ✷ 

Lemma 1.52. Ist μ ∗ ein äußeres Maß, so ist M(μ ∗ ) eine σ-Algebra. Speziell ist μ ∗ 

ein Maß auf M(μ ∗ ). 

Beweis. Nach Lemma 1.50 ist M(μ ∗ ) eine Algebra, also insbesondere schnittstabil. 

Nach Satz 1.18 reicht es zu zeigen, dass M(μ ∗ ) ein Dynkin-System ist. 

Seien also A1,A2,... ∈M(μ ∗ ) paarweise disjunkt und A := ∞� 

ist A ∈M(μ ∗ ), also 

n=1 

An. Zu zeigen 

μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) ≤ μ ∗ (E) für jedes E ∈ 2 Ω . (1.11) 

Setze Bn = n� 

Ai für jedes n ∈ N. Es gilt für jedes n ∈ N 

i=1 

μ ∗ (E ∩ Bn+1) =μ ∗� (E ∩ Bn+1) ∩ Bn 

= μ ∗ (E ∩ Bn)+μ ∗ (E ∩ An+1), 

� ∗ 

+ μ � (E ∩ Bn+1) ∩ B c � 

n 

und induktiv μ∗ (E ∩ Bn) = �n i=1 μ∗ (E ∩ Ai). Wegen der Monotonie von μ∗ folgt 

μ ∗ (E) =μ ∗ (E ∩ Bn)+μ ∗ (E ∩ B c n) ≥ μ ∗ (E ∩ Bn)+μ ∗ (E ∩ A c ) 

n� 

= 

μ 

i=1 

∗ (E ∩ Ai)+μ ∗ (E ∩ A c ). 

Indem wir n →∞gehen lassen, folgt mit der σ-Subadditivität von μ ∗ 

μ ∗ (E) ≥ 

∞� 

i=1 

μ ∗ (E ∩ Ai)+μ ∗ (E ∩ A c ) ≥ μ ∗ (E ∩ A)+μ ∗ (E ∩ A c ). 

Also gilt (1.11), und der Beweis ist komplett. ✷ 

Wir zeigen nun einen Satz, der mit schwächeren Voraussetzungen auskommt als der 

Satz von Carathéodory (Satz 1.41) und diesen impliziert. 

Satz 1.53 (Fortsetzungssatz für Maße). Sei A ein Semiring und μ : A→[0, ∞] 

eine additive, σ-subadditive, σ-endliche Mengenfunktion mit μ(∅) =0. 

Dann existiert ein eindeutig bestimmtes, σ-endliches Maß �μ : σ(A) → [0, ∞] mit 

�μ(A) =μ(A) für jedes A ∈A.


Beweis. Da A schnittstabil ist, folgt die Eindeutigkeit aus Lemma 1.42. 

Um die Existenz zu zeigen, definieren wir wie in Lemma 1.47 

μ ∗ � � 

� 

(A) :=inf μ(F ): F∈U(A) für jedes A ∈ 2 Ω . 

F ∈F 

Nach Lemma 1.31(ii) ist μ monoton, also ist μ∗ nach Lemma 1.47 ein äußeres Maß 

und μ∗ (A) =μ(A) für jedes A ∈A.Wirmüssen zeigen, dass M(μ∗ ) ⊃ σ(A) gilt. 

Da M(μ∗ ) eine σ-Algebra ist (Lemma 1.52), reicht es, A⊂M(μ∗ ) zu zeigen. 

Seien also A ∈ A und E ∈ 2Ω mit μ∗ (E) < ∞. Seiε > 0. Dann gibt es 

E1,E2,...∈Amit 

E ⊂ 

∞� 

En und 

n=1 

∞� 

μ(En) ≤ μ ∗ (E)+ε. 

n=1 

Setze Bn := En ∩ A ∈A.DaA ein Semiring ist, gibt es zu jedem n ∈ N ein 

mn ∈ N sowie C1 n,...,Cmn n ∈Amit En \ A = En \ Bn = mn � 

Ck n.Alsoist 

∞� 

E ∩ A ⊂ Bn, E ∩ A c ∞� 

⊂ 

n=1 

n=1 

mn � 

k=1 

k=1 

C k n und En = Bn ⊎ 

μ∗ ist σ-subadditiv, und nach Voraussetzung ist μ additiv. Wegen μ∗� �A ≤ μ (es gilt 

sogar Gleichheit, wie wir gleich sehen) folgt 

μ ∗ (E ∩ A)+μ ∗ (E ∩ A c ) ≤ 

n=1 

n=1 

k=1 

mn � 

k=1 

∞� 

μ ∗ ∞� 

(Bn)+ μ ∗� mn � 

μ(C k � 

n) 

∞� 

∞� mn � 

≤ μ(Bn)+ μ(C k n) 

= 

= 

n=1 

n=1 k=1 

∞� 

� 

mn � 

μ(Bn)+ μ(C k � 

n) 

n=1 

k=1 

∞� 

μ(En) ≤ μ ∗ (E)+ε. 

n=1 

Daher ist μ ∗ (E ∩ A) +μ ∗ (E ∩ A c ) ≤ μ ∗ (E) und damit A ∈M(μ ∗ ), also ist 

A⊂M(μ ∗ ). Setze nun �μ : σ(A) → [0, ∞], A ↦→ μ ∗ (A). Nach Lemma 1.51 ist �μ 

ein Maß und �μ ist σ-endlich, weil μσ-endlich ist. ✷ 

Beispiel 1.54 (Lebesgue-Maß, Fortsetzung von Beispiel 1.39). Wir wollen das auf 

den Quadern A = {(a, b] : a, b ∈ R n ,a


� n 

i=1 (bi − ai) zu einem Maß auf der Borel’schen σ-Algebra B(R n ) fortsetzen. Um 

die Voraussetzungen von Satz 1.53 zu prüfen, müssen wir nur noch zeigen, dass μ 

σ-subadditiv ist. Seien also (a, b], (a(1),b(1)], (a(2),b(2)],...∈Amit 

Wir müssen zeigen, dass 

(a, b] ⊂ 

μ((a, b]) ≤ 

∞� 

(a(k),b(k)]. 

k=1 

∞� 

μ((a(k),b(k)]). (1.12) 

k=1 

Hierzu benutzen wir ein Kompaktheitsargument, um (1.12) auf die endliche Additivität 

zurück zu führen. Sei also ε>0, und sei für jedes k ∈ N ein bε(k) >b(k) so 

gewählt, dass 

μ((a(k),bε(k)]) ≤ μ((a(k),b(k)]) + ε 2 −k−1 . 

Ferner sei aε ∈ (a, b) so gewählt, dass μ((aε,b]) ≥ μ((a, b]) − ε 

2 . Nun ist [aε,b] 

kompakt und 

∞� 

∞� 

(a(k),bε(k)) ⊃ (a(k),b(k)] ⊃ (a, b] ⊃ [aε,b]. 

k=1 

k=1 

Also existiert ein K0 mit � K0 

k=1 (a(k),bε(k)) ⊃ (aε,b]. Daμ (endlich) subadditiv 

ist (Lemma 1.31(iii)), folgt 

μ((a, b]) ≤ ε 

2 + μ((aε,b]) ≤ ε 

2 + 

K0 � 

μ((a(k),bε(k)]) 

k=1 

k=1 

≤ ε 

2 + 

K0 � � � 

∞� 

−k−1 

ε 2 + μ((a(k),b(k)]) ≤ ε + μ((a(k),b(k)]). 

Da ε>0 beliebig war, folgt (1.12) und damit die σ-Subadditivität von μ. ✸ 

k=1 

Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt. 

Satz 1.55 (Lebesgue-Maß). Es existiert ein eindeutig bestimmtes Maß λ n auf 

(R n , B(R n )) mit der Eigenschaft 

λ n ((a, b]) = 

n� 

(bi − ai) für alle a, b ∈ R n mit a


Beispiel 1.56 (Lebesgue-Stieltjes-Maß). Sei Ω = R und A = {(a, b] : a, b ∈ 

R, a ≤ b}. A ist ein Semiring und σ(A) = B(R), woB(R) die Borel’sche σ- 

Algebra auf R ist. Ferner sei F : R → R monoton wachsend und rechtsseitig stetig. 

Wir definieren eine Mengenfunktion 

˜μF : A→[0, ∞), (a, b] ↦→ F (b) − F (a). 

Offensichtlich ist ˜μF (∅) =0, und ˜μF ist additiv. 

Seien (a, b], (a(1),b(1)], (a(2),b(2)],... ∈Amit (a, b] ⊂ �∞ n=1 (a(n),b(n)]. Sei 

ε>0, und sei aε ∈ (a, b) so gewählt, dass F (aε) − F (a) b(k) 

so gewählt, dass F (bε(k)) − F (b(k)) 0, 

also hat (xn)n∈N keinen Häufungspunkt. 

(v) Gilt lim 

x→∞ F (x) − F (−x) =1,soistμF ein W-Maß. ✸ 

� x 

Den Fall, wo μF ein W-Maß ist, wollen wir noch weiter untersuchen.


Definition 1.59 (Verteilungsfunktion). Eine rechtsseitig stetige, monoton wachsende 

Funktion F : R → [0, 1] mit F (−∞) := lim F (x) =0und F (∞) := 

x→−∞ 

lim F (x) =1heißt Verteilungsfunktion. Gilt statt F (∞) =1lediglich F (∞) ≤ 

x→∞ 

1, soheißtFuneigentliche Verteilungsfunktion. 

Ist μ ein (Sub-)W-Maß auf (R, B(R)), so heißt Fμ : x ↦→ μ((−∞,x]) die Verteilungsfunktion 

von μ. 

Offenbar ist Fμ rechtsseitig stetig und F (−∞) =0, weil μ stetig von oben und 

endlich ist (Satz 1.36). Auf Grund der Stetigkeit von unten ist F (∞) =μ(R), also 

ist Fμ tatsächlich eine (uneigentliche) Verteilungsfunktion, wenn μ ein (Sub-)W- 

Maß ist. 

Die Argumentation aus Beispiel 1.56 liefert nun den folgenden Satz. 

Satz 1.60. Die Abbildung μ ↦→ Fμ ist eine Bijektion von der Menge der W-Maße 

auf (R, B(R)) auf die Menge der Verteilungsfunktionen, beziehungsweise von der 

Menge der Sub-W-Maße auf die der uneigentlichen Verteilungsfunktionen. 

Wir sehen also, dass jedes endliche Maß auf (R, B(R)) ein Lebesgue-Stieltjes-Maß 

für eine gewisse Funktion F ist. Für σ-endliche Maße ist dies im Allgemeinen 

falsch, wie wir in Beispiel 1.58(iv) gesehen haben. 

Wir kommen nun zu einem Satz, der Satz 1.55 mit dem Lebesgue-Stieltjes-Maß 

kombiniert. Später werden wir sehen, dass dieser Satz in größerer Allgemeinheit 

gültig ist. Speziell kann man auf die Bedingung verzichten, dass die einzelnen Faktoren 

vom Lebesgue-Stieltjes-Typ sind. 

Satz 1.61 (Endliche Produkte von Maßen). Sei n ∈ N, und seien μ1,...,μn 

endliche Maße oder, allgemeiner, Lebesgue-Stieltjes-Maße auf (R, B(R)). Dann 

existiert ein eindeutig bestimmtes, σ-endliches Maß μ auf (R n , B(R n )) mit 

μ((a, b]) = 

Wir nennen μ =: 

n� 

μi((ai,bi]) für alle a, b ∈ R n mit a


Messräumen gilt. Wir können auch unendliche (sogar überabzählbare) Produkte betrachten, 

wenn wir voraussetzen, dass alle Faktoren Wahrscheinlichkeitsräume sind 

(Satz 14.36). ✸ 

Beispiel 1.63 (Unendliches Produktmaß, Fortsetzung von Beispiel 1.40). Sei E 

eine endliche Menge und Ω = E N der Raum der Folgen mit Werten in E. Ferner sei 

(pe)e∈E ein Wahrscheinlichkeitsvektor. Der auf A = {[ω1,...,ωn] : ω1,...,ωn ∈ 

E, n ∈ N} definierte Inhalt 

μ([ω1,...,ωn]) = 

soll nun zu einem Maß auf σ(A) fortgesetzt werden. Um die Voraussetzungen von 

Satz 1.53 zu prüfen, müssen wir zeigen, dass μσ-subadditiv ist. Wie im vorangehenden 

Beispiel geht dies mit Hilfe eines Kompaktheitsarguments. 

Seien also A, A1,A2,... ∈Aund A ⊂ �∞ n=1 An. Es reicht zu zeigen, dass es ein 

N ∈ N gibt mit der Eigenschaft 

A ⊂ 

n� 

i=1 

pωi 

N� 

An. (1.13) 

n=1 

Dann ist nämlich aufgrund der endlichen Subadditivität von μ (Lemma 1.31(iii)) 

schon μ(A) ≤ N� 

μ(An) ≤ ∞� 

μ(An), also ist μσ-subadditiv. 

n=1 

n=1 

Wir geben nun zwei Beweise für (1.13) an. 

1. Beweis Wie in Beispiel 1.40 angemerkt, ist Ω mit der von der Metrik d in 

(1.9) erzeugten Produkttopologie kompakt, und jedes A ∈ A ist abgeschlossen 

und damit auch kompakt. Da jedes der An zugleich offen ist, gibt es eine endliche 

Teilüberdeckung von A, mithin gilt (1.13). 

2. Beweis Wir zeigen nun auf elementare Weise die Gültigkeit von (1.13). 

Das Vorgehen imitiert den Beweis dafür, dass Ω kompakt ist. Wir setzen Bn := 

A \ �n i=1 Ai, nehmen an, dass Bn �= ∅ für jedes n ∈ N und führen dies zum Widerspruch. 

Nach dem Dirichlet’schen Schubfachprinzip (E ist endlich) können wir 

ein ω1 ∈ E auswählen, sodass [ω1] ∩ Bn �= ∅ für unendlich viele n ∈ N. Wegen 

B1 ⊃ B2 ⊃ ...folgt 

[ω1] ∩ Bn �= ∅ für jedes n ∈ N. 

Wähle nun sukzessive ω2,ω3,...∈ E so aus, dass 

[ω1,...,ωk] ∩ Bn �= ∅ für alle k, n ∈ N. 

Bn ist disjunkte Vereinigung von gewissen Mengen Cn,1,...,Cn,mn ∈A.Daher 

existiert zu jedem n ∈ N ein in ∈{1,...,mn} mit [ω1,...,ωk] ∩ Cn,in �= ∅ für 

unendlich viele k ∈ N.Wegen[ω1] ⊃ [ω1,ω2] ⊃ ...folgt


[ω1,...,ωk] ∩ Cn,in �= ∅ für alle k, n ∈ N. 

Für festes n ∈ N und großes k ist [ω1,...,ωk] ⊂ Cn,in , also ist ω =(ω1,ω2,...) ∈ 

Cn,in ⊂ Bn. Es folgt im Widerspruch zur Annahme, dass �∞ n=1 Bn �= ∅. ✸ 

Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt. 

Satz 1.64 (Produktmaß, Bernoulli-Maß). Sei E eine endliche, nichtleere Menge 

und Ω = E N sowie (pe)e∈E ein Wahrscheinlichkeitsvektor. Dann gibt es ein 

eindeutig bestimmtes W-Maß μ auf σ(A) =B(Ω) mit 

μ([ω1,...,ωn]) = 

n� 

i=1 

pωi für alle ω1,...,ωn ∈ E und n ∈ N. 

Wir nennen μ das Produktmaß oder Bernoulli-Maß auf Ω mit Gewichten (pe)e∈E. 

Wir schreiben auch �� ⊗N := μ. 

e∈E peδe 

Ferner nennen wir (2E ) ⊗N := σ(A) die Produkt-σ-Algebra auf Ω. 

Auf Produktmaße gehen wir systematisch noch einmal in Kapitel 14 ein. 

Der Fortsetzungssatz liefert uns einen abstrakten Existenz- und Eindeutigkeitssatz 

für Maße, die wir zuvor nur auf einem Semiring A definiert hatten. Der folgende 

Satz zeigt, wie gut wir das Maß von σ(A)-messbaren Mengen durch endliche, 

beziehungsweise abzählbare Operationen mit Mengen aus A annähern können. 

Wir schreiben 

A △ B := (A \ B) ∪ (B \ A), für A, B ⊂ Ω, (1.14) 

für die symmetrische Differenz zweier Mengen A und B. 

Satz 1.65 (Approximationssatz für Maße). Sei A⊂2 Ω ein Semiring und μ ein 

Maß auf σ(A), das σ-endlich auf A ist. 

(i) Zu A ∈ σ(A) und ε>0 gibt es paarweise disjunkte Mengen A1,A2,...∈A 

mit A ⊂ ∞� 

� 

∞� 

� 

An und μ 

0 � gibt es n ∈ N und paarweise 

disjunkte Mengen A1,...,An ∈Amit μ A △ n� 

� 


Beweis. (ii) Da μ auf σ(A) mit dem äußeren Maß μ ∗ übereinstimmt und μ(A) 

endlich ist, gibt es nach Definition von μ ∗ (siehe Lemma 1.47) eine Überdeckung 

B1,B2,...∈Avon A mit 

Sei n ∈ N mit ∞� 

i=n+1 

Mengen C, D, E gilt 

μ(A) ≥ 

μ(Bi) < ε 

2 

∞� 

μ(Bi) − ε/2. 

i=1 

(dies existiert, weil μ(A) < ∞). Für je drei 

C △D =(D \C)∪(C \D) ⊂ (D \C)∪(C \(D ∪E))∪E ⊂ (C △(D ∪E))∪E. 

Mit C = A, D = �n i=1 Bi und E = �∞ i=n+1 Bi erhalten wir 

� 

n� 

� � 

∞� 

� � 

∞� 

� 

μ A △ ≤ μ A △ + μ 

Schreibe nun 

i=1 

i=1 

Bi 

≤ μ 

� ∞� 

i=1 

Bi 

i=2 j=1 

i=1 

Bi 

i=n+1 

Bi 

� 

− μ(A)+ ε 

≤ ε. 

2 

n� 

n� i−1 � 

Bi = B1 ⊎ (Bi \ Bj) =: 

für ein gewisses k ∈ N und gewisse A1,...,Ak ∈A(Semiring-Eigenschaft). 

(i) Sei A ∈ σ(A) und En ↑ Ω, En ∈ σ(A) mit μ(En) < ∞ für jedes n ∈ N. 

Wähle zu n ∈ N eine Überdeckung (Bn,m)m∈N von A ∩ En mit 

∞� 

μ(A ∩ En) ≥ μ(Bn,m) − 2 −n ε. 

m=1 

(Dies ist möglich nach Definition des äußeren Maßes μ∗ , das auf A mit μ übereinstimmt.) 

Schreibe ∞� 

Bn,m = ∞� 

An für gewisse An ∈ A, n ∈ N 

m,n=1 

(Übung 1.1.1). Dann ist 

� 

∞� 

� � 

∞� 

μ An \ A = μ 

n=1 

≤ μ 

≤ 

∞� 

n=1 

n=1 m=1 

� ∞� 

∞� 

n=1 m=1 

∞� 

�� 

∞� 

n=1 

m=1 

Bn,m \ A 

� 

k� 

i=1 

Ai 

� Bn,m \ (A ∩ En) �� 

μ(Bn,m) 

� 

� 

− μ(A ∩ En) ≤ ε.


(iii) Sei A ∈M(μ ∗ ) und (En)n∈N wie oben. Wähle zu m, n ∈ N ein An,m ∈ 

σ(A) mit An,m ⊃ A ∩ En und μ ∗ (An,m) ≤ μ ∗ (A ∩ En)+ 2−n 

m . 

Setze Am := ∞� 

A+ := ∞� 

m=1 

n=1 

An,m ∈ σ(A). DannistAm⊃ A und μ∗ (Am \ A) ≤ 1 

m . Setze 

Am. Dannistσ(A) ∋ A+ ⊃ A und μ ∗ (A+ \ A) =0.Wähle analog 

(A−) c ∈ σ(A) mit (A−) c ⊃ A c und μ ∗ ((A−) c \A c )=0.DannistA+ ⊃ A ⊃ A− 

und μ(A+ \ A−) =μ ∗ (A+ \ A−) =μ ∗ (A+ \ A)+μ ∗ (A \ A−) =0. ✷ 

Bemerkung 1.67. (Regularität von Maßen) (Vergleiche auch Satz 13.6 auf Seite 

236.) Sei λ n das Lebesgue-Maß auf (R n , B(R n )). SeiA der Semiring der Quader 

der Form [a, b) ⊂ R n . Nach Satz 1.23 ist B(R n )=σ(A). Nach dem Approximationssatz 

gibt es zu A ∈B(R n ) und ε>0 abzählbar viele A1,A2,... ∈A 

mit 

λ n� ∞ � 

� 

Ai \ A


Definition 1.69. Ein Maßraum (Ω,A,μ) heißt vollständig, falls Nμ ⊂A. 

Bemerkung 1.70 (Vervollständigung eines Maßraums). Sei (Ω,A,μ) ein Maßraum. 

Es gibt genau eine kleinste σ-Algebra A ∗ ⊃ A und eine Fortsetzung 

μ ∗ von μ auf A ∗ , sodass (Ω,A ∗ ,μ ∗ ) vollständig ist. (Ω,A ∗ ,μ ∗ ) heißt die Ver- 

vollständigung von (Ω,A,μ). In der Notation des Beweises von Satz 1.53 ist 

� 

Ω,M(μ ∗ ),μ ∗� � 

� ∗ 

M(μ ) 

diese Vervollständigung. 

Ferner ist M(μ ∗ )=σ(A∪Nμ) ={A ∪ N : A ∈A,N∈Nμ} und μ ∗ (A ∪ N) = 

μ(A) für jedes A ∈Aund N ∈Nμ. 

Da wir diese Aussagen im Folgenden nicht benötigen werden, verzichten wir auf 

den Beweis und verweisen auf die gängigen Maßtheoriebücher, etwa [43]. 

Beispiel 1.71. Ist λ das Lebesgue-Maß (genauer: das Lebesgue-Borel-Maß) auf 

(Rn , B(Rn )), solässt sich λ eindeutig fortsetzen zu einem Maß λ∗ auf 

B ∗ (R n )=σ(B(R n ) ∪N), 

wo N die Menge der Teilmengen der Lebesgue-Borel’schen Nullmengen bezeichnet. 

B ∗ (R n ) heißt σ-Algebra der Lebesgue-messbaren Mengen. Zur Unterscheidung 

wird manchmal λ das Lebesgue-Borel-Maß genannt und λ ∗ das Lebesgue- 

Maß. Wir werden diese Unterscheidung im Folgenden aber nicht benötigen. ✸ 

Beispiel 1.72. Sei μ = δω auf einem Messraum (Ω,A). Ist{ω} ∈A, so ist die 

Vervollständigung A ∗ = 2 Ω , μ ∗ = δω. Im Extremfall der trivialen σ-Algebra 

A = {∅,Ω} hingegen ist Nμ = {∅}, also die Vervollständigung A ∗ = {∅,Ω}, 

μ ∗ = δω. Man beachte, dass man auf dieser trivialen σ-Algebra die Dirac-Maße zu 

verschiedenen Punkten aus Ω nicht unterscheiden kann. ✸ 

Definition 1.73. Sei (Ω,A,μ) ein Messraum und Ω ′ ∈A. Dann wird durch 

μ � � (A) :=μ(A) für A ∈A mit A ⊂ Ω′ 

′ 

Ω 

ein Maß auf der Spur-σ-Algebra A � � definiert. Dieses Maß nennen wir die Ein- 

′ 

Ω 

schränkung von μ auf Ω ′ . 

Beispiel 1.74. Die Einschränkung des Lebesgue-Borel-Maßes λ von (R, B(R)) auf 

[0, 1] ist ein W-Maß auf ([0, 1], B(R) � � ). Allgemeiner nennen wir für messbares 

[0,1] 

A ∈B(R) die Einschränkung λ � � das Lebesgue-Maß auf A. Oftmals wird als Sym- 

A 

bol wieder λ verwendet, weil wir nicht zu viele kleinliche Unterscheidungen treffen 

wollen. 

Wir sehen später (Korollar 1.84), dass B(R) � � = B(A), wobei B(A) die Borel’sche 

A 

σ-Algebra auf A ist, die von den in A (relativ) offenen Mengen erzeugt wird. ✸

1.4 Messbare Abbildungen 33 

Beispiel 1.75 (Gleichverteilung). Ist A ∈B(Rn ) mit n-dimensionalem Lebesgue- 

Maß λn (A) ∈ (0, ∞), so wird durch 

μ(B) := λn (B) 

λn für B ∈B(R 

(A) 

n ),B⊂ A, 

ein W-Maß auf B(Rn ) � � definiert. Wir nennen μ die uniforme Verteilung oder 

A 

Gleichverteilung auf A und schreiben UA := μ. ✸ 

Übung 1.3.1. Man zeige die folgende Verallgemeinerung von Beispiel 1.58(iv): Ein 

Maß �∞ αnδxn n=1 ist genau dann ein Lebesgue-Stieltjes Maß zu einer geeigneten 

Funktion F ,wenn � 

n: |xn|≤K αn < ∞ für jedes K>0 gilt. ♣ 

Übung 1.3.2. Sei Ω eine überabzählbare Menge und ω0 ∈ Ω ein beliebiges Element. 

Sei A = σ({ω} : ω ∈{ω0}). 

(i) Charakterisiere A ähnlich wie in Übung 1.1.4 (Seite 11). 

(ii) Zeige, dass (Ω,A,δω0 ) vollständig ist. ♣ 

Übung 1.3.3. Sei (μn)n∈N eine Folge von endlichen Maßen auf dem Messraum 

(Ω,A). Für jedes A ∈Aexistiere der Grenzwert μ(A) := lim 

n→∞ μn(A). 

Man zeige: μ ist ein Maß auf (Ω,A). 

Hinweis: Zu zeigen ist insbesondere die ∅-Stetigkeit von μ. ♣ 

1.4 Messbare Abbildungen 

Eine Zwangshandlung in der Mathematik ist es, Homomorphismen zwischen Objekten 

anzugeben, also strukturerhaltende Abbildungen. Für topologische Räume 

sind dies die stetigen Abbildungen, für Messräume die messbaren Abbildungen. 

Seien im Folgenden stets (Ω,A) und (Ω ′ , A ′ ) Messräume. 

Definition 1.76 (Messbare Abbildungen). 

(i) Eine Abbildung X : Ω → Ω ′ heißt A – A ′ -messbar (oder kurz: messbar), 

falls X −1 (A ′ ):={X −1 (A ′ ):A ′ ∈A ′ }⊂Aist, falls also 

X −1 (A ′ ) ∈A für jedes A ′ ∈A ′ . 

Ist X messbar, so schreiben wir auch X :(Ω,A) → (Ω ′ , A ′ ). 

(ii) Ist Ω ′ = R und A ′ = B(R) die Borel’sche σ-Algebra auf R, soheißtX : 

(Ω,A) → (R, B(R)) kurz eine reelle A-messbare Abbildung.


Beispiel 1.77. (i) Die Identität id : Ω → Ω ist A – A-messbar. 

(ii) Ist A =2 Ω oder A ′ = {∅,Ω ′ }, so ist jede Abbildung X : Ω → Ω ′ schon A 

– A ′ -messbar. 

(iii) Sei A ⊂ Ω. Die Indikatorfunktion A : Ω →{0, 1} ist genau dann A – 

2 {0,1} -messbar, wenn A ∈A. ✸ 

Satz 1.78 (Erzeugte σ-Algebra). Sei (Ω ′ , A ′ ) ein Messraum und Ω eine nichtleere 

Menge sowie X : Ω → Ω ′ eine Abbildung. Das Urbild 

X −1 (A ′ ):={X −1 (A ′ ): A ′ ∈A ′ } (1.15) 

ist die kleinste σ-Algebra, bezüglich der X messbar ist. Wir nennen σ(X) := 

X −1 (A ′ ) die von X erzeugte σ-Algebra auf Ω. 


Wir wollen nun σ-Algebren betrachten, die von mehreren Abbildungen erzeugt werden. 

Definition 1.79 (Erzeugte σ-Algebra). Sei Ω eine nichtleere Menge. Sei I eine 

beliebige Indexmenge, und für jedes i ∈ I sei (Ωi, Ai) ein Messraum sowie Xi : 

Ω → Ωi eine beliebige Abbildung. Dann heißt 

� � � � 

� 

� 

σ(Xi, i∈ I) :=σ σ(Xi) = σ 

i∈I 

i∈I 

X −1 

i (Ai) 

die von (Xi, i∈ I) erzeugte σ-Algebra auf Ω. Dies ist die kleinste σ-Algebra, 

bezüglich der jedes Xi messbar ist. 

Wie bei stetigen oder linearen Abbildungen gibt es eine Verknüpfungseigenschaft. 

Satz 1.80 (Verknüpfung von Abbildungen). Sind (Ω,A), (Ω ′ , A ′ ) und (Ω ′′ , A ′′ ) 

Messräume sowie X : Ω → Ω ′ messbar und X ′ : Ω ′ → Ω ′′ messbar, so ist die 

Abbildung Y := X ′ ◦ X : Ω → Ω ′′ , ω ↦→ X ′ (X(ω)) messbar bezüglich A – A ′′ . 

Beweis. Es ist Y −1 (A ′′ )=X −1 ((X ′ ) −1 (A ′′ )) ⊂ X −1 (A ′ ) ⊂A. ✷ 

Praktisch kann man die Messbarkeit einer Abbildung X kaum prüfen, indem man 

sämtliche Urbilder X −1 (A ′ ), A ′ ∈A ′ auf Messbarkeit hin untersucht. Dafür sind 

die meisten σ-Algebren A ′ einfach zu groß. Glücklicherweise reicht hier die Betrachtung 

eines Erzeugers von A ′ aus:


Satz 1.81 (Messbarkeit auf einem Erzeuger). Für jedes System E ′ ⊂A ′ von 

A ′ -messbaren Mengen gilt σ(X −1 (E ′ )) = X −1 (σ(E ′ )) und damit 

X ist A – σ(E ′ )-messbar ⇐⇒ X −1 (E ′ ) ∈A für jedes E ′ ∈E ′ . 

Ist speziell σ(E ′ )=A ′ , dann gilt 

X ist A – A ′ -messbar ⇐⇒ X −1 (E ′ ) ⊂A. 

Beweis. Offenbar ist X −1 (E ′ ) ⊂ X −1 (σ(E ′ )) = σ(X −1 (σ(E ′ ))). Also ist auch 

σ(X −1 (E ′ )) ⊂ X −1 (σ(E ′ )). 

Für die andere Inklusion betrachten wir das Mengensystem 

A ′ 0 := � A ′ ∈ σ(E ′ ):X −1 (A ′ ) ∈ σ(X −1 (E ′ )) � 

und zeigen zunächst, dass A ′ 0 eine σ-Algebra ist, indem wir die Punkte (i)-(iii) aus 

Definition 1.2 prüfen: 

(i) Offensichtlich ist Ω ′ ∈A ′ 0. 

(ii) (Komplementstabilität) Ist A ′ ∈A ′ 0,soist 

X −1 ((A ′ ) c )=(X −1 (A ′ )) c ∈ σ(X −1 (E ′ )), 

also (A ′ ) c ∈A ′ 0. 

(iii) (σ-∪-Stabilität) Seien A ′ 1,A ′ 2,...∈A ′ 0.Dannist 

X −1 

� 

∞� 

n=1 

also ist � ∞ 

n=1 A′ n ∈A ′ 0. 

A ′ n 

� 

∞� 

= X −1 (A ′ n) ∈ σ(X −1 (E ′ )), 

n=1 

Wegen E ′ ⊂A ′ 0 ist A ′ 0 = σ(E ′ ), also X −1 (A ′ ) ∈ σ(X −1 (E ′ )) für jedes A ′ ∈ σ(E ′ ) 

und damit X −1 (σ(E ′ )) ⊂ σ(X −1 (E ′ )). ✷ 

Korollar 1.82 (Messbarkeit von verknüpften Abbildungen). Sei I eine nichtleere 

Indexmenge sowie (Ω,A), (Ω ′ , A ′ ) und (Ωi, Ai) Messräume, i ∈ I. Sei ferner 

(Xi : i ∈ I) eine Familie messbarer Abbildungen Xi : Ω ′ → Ωi mit der Eigenschaft 

A ′ = σ(Xi : i ∈ I). Dann gilt: Eine Abbildung Y : Ω → Ω ′ ist genau dann 

A-A ′ messbar, wenn Xi ◦ Y messbar ist bezüglich A-Ai für jedes i ∈ I. 

Beweis. Ist Y messbar, so ist nach Satz 1.80 jedes Xi ◦ Y messbar. Sei nun jede 

der zusammengesetzten Abbildungen Xi ◦ Y messbar bezüglich A-Ai. Die Menge 

E ′ := {X −1 

i (A ′′ ): A ′′ ∈Ai, i∈ I} ist nach Voraussetzung ein Erzeuger von A ′ , 

und es gilt Y −1 (A ′ ) ∈Afür jedes A ′ ∈E ′ wegen der Messbarkeit aller Xi ◦ Y . 

Nach Satz 1.81 ist also Y messbar. ✷


Wir erinnern an den Begriff der Spur eines Mengensystems aus Definition 1.25. 

Korollar 1.83 (Spur der erzeugten σ-Algebra). Ist E⊂2Ω und A ⊂ Ω nichtleer, 

so gilt σ � E � � � 

� = σ(E) �A 

A 

Beweis. Sei X : A↩→ Ω, ω ↦→ ω die Inklusionsabbildung. Dann ist X−1 (B) = 

A ∩ B für jedes B ∈ Ω. Nach Satz 1.81 ist 

σ � E � � 

� = σ({E ∩ A : E ∈E}) 

A 

= σ({X −1 (E) : E ∈E})=σ(X −1 (E)) 

= X −1 (σ(E)) = {A ∩ B : B ∈ σ(E)} = σ(E) � � A . ✷ 

Zur Erinnerung: Für eine Teilmenge A ⊂ Ω eines topologischen Raums (Ω,τ) ist 

τ � � die Topologie der in A relativ offenen Mengen. Mit B(Ω,τ) =σ(τ) bezeichnen 

A 

wir die Borel’sche σ-Algebra auf (Ω,τ). 

Korollar 1.84 (Spur der Borel’schen σ-Algebra). Sei (Ω,τ) ein topologischer 

Raum und A ⊂ Ω eine beliebige Teilmenge von Ω. Dann gilt 

B(Ω,τ) � � = B 

A 

� A, τ � � 

� . 

A 

Beispiel 1.85. (i) Ist Ω ′ abzählbar, so ist X : Ω → Ω ′ genau dann A – 2Ω′ - 

messbar, wenn X−1 ({ω ′ }) ∈Afür jedes ω ′ ∈ Ω ′ .Für überabzählbare Ω ′ ist dies 

im Allgemeinen falsch. (Man betrachte etwa Ω = Ω ′ = R, A = B(R), X(ω) =ω 

für jedes ω ∈ Ω. Offenbar ist X−1 (ω) ={ω} ∈B(R). Ist andererseits A ⊂ R 

nicht in B(R), soistA∈ 2R , jedoch X−1 (A) �∈ B(R).) 

(ii) Für x ∈ R verabreden wir folgende Schreibweisen für das Ab- und Aufrunden 

⌊x⌋ := max{k ∈ Z : k ≤ x} und ⌈x⌉ :== min{k ∈ Z : k ≥ x}. (1.16) 

Die Abbildungen R → Z, x ↦→ ⌊x⌋ und x ↦→ ⌈x⌉ sind messbar bezüglich B(R) 

– 2 Z ,dennfür jedes k ∈ Z sind die Urbilder {x ∈ R : ⌊x⌋ = k} =[k, k +1) 

und {x ∈ R : ⌈x⌉ = k} = (k − 1,k] in B(R). Nach dem Verknüpfungssatz 

(Satz 1.80) sind dann für jede messbare Abbildung f :(Ω,A) → (R, B(R)) auch 

die Abbildungen ⌊f⌋ und ⌈f⌉ messbar bezüglich A – 2 Z . 

(iii) Eine Abbildung X : Ω → R d ist genau dann A – B(R d )-messbar, wenn 

X −1 ((−∞,a]) ∈A für jedes a ∈ R d , 

denn σ((−∞,a], a∈ R d )=B(R d ) nach Satz 1.23. Analog gilt dies auch für die 

anderen Mengensysteme E1,...,E12 aus Satz 1.23. ✸


Beispiel 1.86. Sei d(x, y) =�x − y�2 der gewöhnliche euklidische Abstand auf Rn und B(Rn ,d)=B(Rn ) die Borel’sche σ-Algebra zu der von d erzeugten Topologie. 

Für jede Teilmenge A von Rn ist dann B(A, d) =B(Rn ,d) � � . ✸ 

A 

Wir wollen die reellen Zahlen um die Punkte −∞ und +∞ erweitern und definieren 

R := R ∪{−∞, +∞}. 

Topologisch wollen wir R als die so genannte Zweipunktkompaktifizierung ansehen, 

indem wir R als topologisch isomorph zu [−1, 1] betrachten, beispielsweise 

vermöge der Abbildung 

⎧ 

⎪⎨ tan(πx/2), falls x ∈ (−1, 1), 

ϕ :[−1, 1] → R, x ↦→ 

⎪⎩ 

−∞, 

∞, 

falls x = −1, 

falls x =+1. 

In der Tat wird durch ¯ d(x, y) = � �ϕ −1 (x)−ϕ −1 (y) � � für x, y ∈ R eine Metrik auf R 

definiert, sodass ϕ und ϕ −1 stetig sind (also ist ϕ ein topologischer Isomorphismus). 

Mit ¯τ bezeichnen wir die induzierte Topologie auf R, mit τ die gewöhnliche 

Topologie auf R. 

Korollar 1.87. Es gilt ¯τ � � R = τ, und daher gilt B(R) � � R = B(R). 

Ist speziell X :(Ω,A) → (R, B(R)) messbar, so ist X in kanonischer Weise auch 

eine R-wertige messbare Abbildung. 

Mit R haben wir also eine echte Erweiterung der reellen Zahlen geschaffen, und die 

Inklusion R ↩→ R ist messbar. 

Satz 1.88 (Messbarkeit stetiger Abbildungen). Sind (Ω,τ) und (Ω ′ ,τ ′ ) topologische 

Räume und f : Ω → Ω ′ stetig, dann ist f auch B(Ω) – B(Ω ′ )-messbar. 

Beweis. Wegen B(Ω ′ )=σ(τ ′ ) reicht es nach Satz 1.81 zu zeigen, dass f −1 (A ′ ) ∈ 

σ(τ) für jedes A ′ ∈ τ ′ .Daf stetig ist, gilt aber sogar f −1 (A ′ ) ∈ τ für jedes 

A ′ ∈ τ ′ . ✷ 

Für x, y ∈ R verabreden wir folgende Notationen 

x ∨ y =max(x, y) (Maximum), 

x ∧ y =min(x, y) (Minimum), 

x + =max(x, 0) (Positivteil), 

x − =max(−x, 0) (Negativteil), 

|x| =max(x, −x) =x − + x + (Absolutbetrag), 

sign(x) = {x>0} − {x


Analog bezeichnen wir für reelle messbare Abbildungen beispielsweise X + = 

max(X, 0). Die Abbildungen x ↦→ x + , x ↦→ x − und x ↦→ |x| sind stetig (und 

damit nach dem vorangehenden Satz messbar), die Abbildung x ↦→ sign(x) ist offenbar 

auch stetig. Wir erhalten also (zusammen mit Korollar 1.82): 

Korollar 1.89. Ist X eine reelle oder R-wertige messbare Abbildung, so sind auch 

die Abbildungen X − , X + , |X| und sign(X) messbar. 

Satz 1.90 (Koordinatenabbildungen sind messbar). Sei (Ω,A) ein Messraum 

und f1,...,fn : Ω → R Abbildungen, sowie f := (f1,...,fn) :Ω → R n . Dann 

gilt 

f ist A – B(R n )-messbar ⇐⇒ jedes fi ist A – B(R)-messbar. 

Die Aussage gilt analog für fi : Ω → R := R ∪{±∞}. 

Beweis. Für b ∈ R n ist f −1 ((−∞,b)) = n� 

i=1 

f −1 

i ((−∞,bi)). Ist jedes fi messbar, 

so ist also f −1 ((−∞,b)) ∈A. Die Quader (−∞,b), b ∈ R n , erzeugen aber B(R n ), 

und daher ist dann f messbar. Sei nun f messbar. Für i =1,...,nsei πi : R n → R, 

x ↦→ xi die i-te Projektion. Offenbar ist πi stetig also B(R n ) – B(R)-messbar. Nach 

Satz 1.80 ist auch fi = πi ◦ f messbar. ✷ 

Für den folgenden Satz vereinbaren wir die Konvention x 

0 := 0 für jedes x ∈ R. 

Satz 1.91. Sei (Ω,A) ein Messraum und f,g : (Ω,A) → (R n , B(R n )) sowie 

h :(Ω,A) → (R, B(R)) messbar. Dann sind auch die Abbildungen f + g, f − g, 

f · h und f/h messbar. 

Beweis. Die Abbildung π : Rn × R → Rn , (x, α) ↦→ α · x ist stetig, also messbar. 

Nach Satz 1.90 ist (f,h) :Ω → Rn × R messbar, also auch die zusammengesetzte 

Abbildung f · h = π ◦ (f,h). Analog folgt die Messbarkeit von f + g und f − g. 

Um die Messbarkeit von f/h zu zeigen, definieren wir H : R → R, x ↦→ 1/x. 

Nach unserer Konvention ist H(0) = 0. Dannistf/h = f · H ◦ h. Es reicht also 

zu zeigen, dass H messbar ist. Offenbar ist H � � stetig. Für offenes U ⊂ R ist 

R\{0} 

auch U \{0} offen und damit H−1 (U \{0}) ∈B(R).FerneristH−1 ({0}) ={0}. 

Also ist schließlich H−1 (U) =H−1 (U \{0}) ∪ (U ∩{0}) ∈B(R). ✷ 

Satz 1.92. Sind X1,X2,... messbare Abbildungen (Ω,A) → (R, B(Rq)), dann 

sind auch die folgenden Abbildungen messbar: 

inf 

n∈N Xn, sup Xn, lim inf 

n→∞ Xn, lim sup Xn. 

n∈N 

n→∞

Beweis. Für jedes a ∈ R gilt 

� 

inf 

n∈N Xn 

�−1 ([−∞,a)) = 

∞� 

n=1 


X −1 

n ([−∞,a)) ∈A. 

Nach Satz 1.81 folgt hieraus die Messbarkeit von inf 

n∈N Xn. Analog geht der Beweis 

für sup Xn. 

n∈N 

Für n ∈ N setzen wir Yn := inf 

m≥n Xm. DannistYnmessbar, und damit auch 

lim inf Yn. Analog folgt der Beweis für den Limes superior. ✷ 

n→∞ Xn := sup 

n∈N 

Ein wichtiges Beispiel für messbare Abbildungen (Ω,A) → (R, B(R)) sind Elementarfunktionen. 

Definition 1.93 (Elementarfunktion). Sei (Ω,A) ein Messraum. Eine Abbildung 

f : Ω → R heißt Elementarfunktion, wenn es ein n ∈ N und paarweise disjunkte, 

messbare Mengen A1,...,An ∈A, sowie Zahlen α1,...,αn ∈ R gibt mit 

n� 

f = αi Ai . 

i=1 

Bemerkung 1.94. Eine messbare Abbildung, die nur endlich viele Werte annimmt 

ist eine Elementarfunktion. (Übung!) ✸ 

Definition 1.95. Sind f,f1,f2,...Abbildungen Ω → R mit 

f1(ω) ≤ f2(ω) ≤ ... und lim 

n→∞ fn(ω) =f(ω) für jedes ω ∈ Ω, 

so schreiben wir fn ↑ f und sagen, dass (fn)n∈N punktweise monoton aufsteigend 

gegen f konvergiert. Analog schreiben wir fn ↓ f, falls (−fn) ↑ (−f). 

Satz 1.96. Sei (Ω,A) ein Messraum und f : Ω → [0, ∞] messbar. Dann gelten 

die folgenden Aussagen. 

(i) Es gibt eine Folge nichtnegativer Elementarfunktionen (fn)n∈N mit fn ↑ f. 

∞� 

(ii) Es gibt A1,A2,...∈Aund α1,α2,...≥ 0 mit f = αn An . 

Beweis. (i) Für n ∈ N0 definiere fn =(2 −n ⌊2 n f⌋) ∧ n. Dannistfn messbar 

(nach Satz 1.92 und Beispiel 1.85(ii)) und nimmt höchstens n2 n +1Werte an, ist 

also eine Elementarfunktion. Offenbar gilt fn ↑ f. 

n=1


(ii) Seien fn wie oben, Bn,i := {ω : fn(ω)−fn−1(ω) =i 2 −n } und βn,i = i 2 −n 

für n ∈ N und i =1,...,2n .Manüberlege sich, dass �2 n 

i=1 Bn,i = Ω. Dannist 

fn − fn−1 = 2n � 

βn,i Bn,i . Nach Umnummerierung (n, i) ↦→ m erhalten wir 

i=1 

(αm)m∈N und (Am)m∈N, sodass 

f = f0 + 

∞� 

(fn − fn−1) = 

n=1 

∞� 

m=1 

αm Am . ✷ 

Als Korollar zu dieser Strukturaussage für messbare [0, ∞]-wertige Abbildungen 

zeigen wir das Faktorisierungslemma. 

Korollar 1.97 (Faktorisierungslemma). Seien (Ω ′ , A ′ ) ein Messraum und Ω eine 

nichtleere Menge. Sei f : Ω → Ω ′ eine Abbildung. Eine Abbildung g : Ω → R 

ist genau dann messbar bezüglich σ(f) – B(R), wenn es eine messbare Abbildung 

ϕ :(Ω ′ , A ′ ) → (R, B(R)) gibt mit g = ϕ ◦ f. 

Beweis. ” ⇐= “ Ist ϕ messbar und g = ϕ ◦ f, soistg messbar nach Satz 1.80. 

” =⇒ “ Sei nun g messbar bezüglich σ(f) – B(R). Wir betrachten zunächst den 

Fall, wo g nichtnegativ ist. Dann existieren messbare Mengen A1,A2 ... ∈ σ(f) 

sowie Zahlen α1,α2,...,∈ [0, ∞) mit g = �∞ n=1 αn An .NachderDefinition 

von σ(f) gibt es für jedes n ∈ N eine Menge Bn ∈A ′ mit f −1 (Bn) =An, also 

mit An = Bn ◦ f.Wirdefinieren nun ϕ : Ω′ → R durch 

ϕ = 

∞� 

αn Bn 

n=1 

. 

Offenbar ist ϕ messbar bezüglich A ′ – B(R), und es gilt g = ϕ ◦ f. 

Sei nun der allgemeine Fall betrachtet, wo g auch negative Werte annehmen kann. 

Dann existieren messbare Abbildungen ϕ − und ϕ + mit g − = ϕ − ◦ f und g + = 

ϕ + ◦ f. Daher leistet ϕ := ϕ + − ϕ − das Gewünschte. ✷ 

Mit einer messbaren Abbildung wird auch ein Maß von einem Raum auf einen anderen 

transportiert. 

Definition 1.98 (Bildmaß). Seien (Ω,A) und (Ω ′ , A ′ ) Messräume und μ ein Maß 

auf (Ω,A). Ferner sei X :(Ω,A) → (Ω ′ , A ′ ) messbar. Das durch 

μ ◦ X −1 : A ′ → [0, ∞], A ′ ↦→ μ(X −1 (A ′ )) 

definierte Maß auf (Ω ′ , A ′ ) heißt Bildmaß von μ unter X.


Beispiel 1.99. Sei μ ein Maß auf Z2 und X : Z2 → Z, (x, y) ↦→ x + y. Dannist 

μ ◦ X −1 ({x}) = � 

μ({x − y, y}). ✸ 

y∈Z 

Beispiel 1.100. Ist L : R n → R n eine bijektive lineare Abbildung und λ das 

Lebesgue-Maß auf (R n , B(R n )), soistλ ◦ L −1 = | det(L)| −1 λ. Dies ist klar, weil 

für a, b ∈ R n mit a


(i) Zeige: A = σ(Xn : n ∈ N). 

(ii) Zeige: U ist A–B([0, 1]) messbar. 

(iii) Bestimme das Bildmaß μ ◦ U −1 auf ([0, 1], B([0, 1])). 

(iv) Man gebe ein Ω0 ∈Aan, sodass Ũ := U�� bijektiv ist. 

Ω0 

(v) Man zeige, dass Ũ −1 messbar ist bezüglich B([0, 1])–A � � . 

Ω0 

(vi) Welche Interpretation hat die Abbildung Xn ◦ Ũ −1 ? ♣ 

1.5 Zufallsvariablen 

In diesem Abschnitt werden wir messbare Abbildungen als Zufallsvariablen auffassen, 

die zufällige Beobachtungen beschreiben. Wir definieren den Begriff der 

Verteilung von Zufallsvariablen. 

Im Folgenden sei stets (Ω,A, P) ein Wahrscheinlichkeitsraum. Die Mengen A ∈A 

heißen Ereignisse. P[A] wird als die Wahrscheinlichkeit interpretiert, dass A eintritt. 

Oft ist allerdings nicht der Wahrscheinlichkeitsraum selbst betrachtbar, sondern 

nur gewisse Beobachtungsgrößen. Wir wollen also Wahrscheinlichkeiten dafür definieren, 

dass Zufallsgrößen bestimmte Werte annehmen und einen Kalkül für, zum 

Beispiel, Summen von Zufallsgrößen entwickeln. 

Definition 1.102 (Zufallsvariablen). Sei (Ω ′ , A ′ ) ein Messraum und X : Ω → 

Ω ′ messbar. 

(i) X heißt Zufallsvariable mit Werten in (Ω ′ , A ′ ).Ist(Ω ′ , A ′ )=(R, B(R)),so 

nennen wir X eine reelle Zufallsvariable oder schlicht Zufallsvariable. 

(ii) Ist A ′ ∈A ′ , so schreiben wir {X ∈ A ′ } := X−1 (A ′ ) und P[X ∈ A ′ ]:= 

P[X−1 (A ′ )]. Speziell schreiben wir {X ≥ 0} := X−1 ([0, ∞)) und analog 

{X ≤ b} und so weiter. 

Definition 1.103 (Verteilungen). Sei X eine Zufallsvariable. 

(i) Das W-Maß PX := P ◦ X−1 heißt Verteilung von X. 

(ii) Ist X eine reelle Zufallsvariable, so heißt die Abbildung FX : x ↦→ P[X ≤ x] 

die Verteilungsfunktion von X (eigentlich von PX). Ist μ = PX, soschreiben 

wir auch X ∼ μ und sagen, dass X nach μ verteilt ist. 

(iii) Eine Familie (Xi)i∈I heißt identisch verteilt, falls PXi = PXj für alle 

i, j ∈ I. Wir schreiben X D = Y , falls PX = PY (D für distribution).

1.5 Zufallsvariablen 43 

Satz 1.104. Zu jeder Verteilungsfunktion F existiert eine reelle Zufallsvariable X 

mit FX = F . 

Beweis. Wir müssen explizit einen Wahrscheinlichkeitsraum (Ω,A, P) und eine 

Zufallsvariable X : Ω → R angeben mit FX = F . 

Die einfachste Möglichkeit ist, (Ω,A) =(R, B(R)) zu wählen, X : R → R die 

identische Abbildung und P das Lebesgue-Stieltjes Maß mit Verteilungsfunktion F 

(siehe Beispiel 1.56). 

Eine andere Möglichkeit, die zudem etwas lehrreicher ist, beruht darauf, zunächst 

unabhängig vom konkreten F eine Art Standard-Wahrscheinlichkeitsraum zu definieren, 

auf dem eine uniform auf (0, 1) verteilte Zufallsvariable definiert ist, die 

dann vermöge der Umkehrabbildung F −1 zu einer Zufallsvariablen X mit Verteilungsfunktion 

F transformiert wird: Wir wählen Ω := (0, 1), A := B(R) � � und 

Ω 

P das Lebesgue-Maß auf (Ω,A) (siehe Beispiel 1.74). Definiere die (linkssstetige) 

Inverse von F 

Dann ist 

F −1 (t) :=inf{x ∈ R : F (x) ≥ t} für t ∈ (0, 1). 

F −1 (t) ≤ x ⇐⇒ t ≤ F (x). 

Speziell ist {t : F −1 (t) ≤ x} =(0,F(x)] ∩ (0, 1), also ist F −1 :(Ω,A) → 

(R, B(R)) messbar und 

P[{t : F −1 (t) ≤ x}] =F (x). 

Mithin ist X := F −1 die gewünschte Zufallsvariable. ✷ 

Beispiel 1.105. Wir geben zu verschiedenen Wahrscheinlichkeitsverteilungen auf R 

reelle Zufallsvariablen X mit ebendieser Verteilung an. (Der konkrete Ort in diesem 

Buch dient lediglich als Vorwand, um ein paar der wichtigsten Verteilungen 

einzuführen, auf die wir bei späteren Gelegenheiten immer wieder zurückkommen.) 

(i) Ist p ∈ [0, 1] und P[X =1]=p, P[X =0]=1−p,soheißtPX =: Berp die 

Bernoulli-Verteilung mit Parameter p. Formal ist 

Berp =(1− p) δ0 + pδ1, 

und die Verteilungsfunktion ist 

⎧ 

⎨ 0, falls x


so heißt PX =: bn,p die Binomialverteilung mit Parametern n und p. Formal ist 

bn,p = 

n� 

k=0 

(iii) Ist p ∈ (0, 1] und X : Ω → N0 mit 

P[X = n] =p (1 − p) n 

� � 

n 

p 

k 

k (1 − p) n−k δk. 

für jedes n ∈ N0, 

so heißt γp := b − 1,p := PX die geometrische Verteilung 1 mit Parameter p. Formal 

können wir schreiben: 

Die Verteilungsfunktion ist 

γp = 

n=0 

∞� 

p (1 − p) n δn. 

F (x) =1− (1 − p) ⌊x⌋∨0 

für x ∈ R. 

Wir können X +1als die Wartezeit auf den ersten Erfolg bei unabhängigen“ 

” 

Zufallsexperimenten auffassen, die jeweils mit Wahrscheinlichkeit p zum Erfolg 

führen. In der Tat: Sei Ω = {0, 1} N und P das Produktmaß � �⊗N (1 − p)δ0 + pδ1 

(Satz 1.64), sowie A = σ([ω1,...,ωn] : ω1,...,ωn ∈{0, 1}, n∈ N). Wir setzen 

X(ω) :=inf{n ∈ N : ωn =1}−1, 

mit der Konvention inf ∅ = ∞. Offenbar ist jede der Abbildungen 

Xn : Ω → R, 

� 

n − 1, 

ω ↦→ 

∞, 

falls ωn =1, 

falls ωn =0, 

A – B(R)-messbar und X = infn∈N Xn. AlsoistX auch A – B(R)-messbar, 

also eine Zufallsvariable. Sei ω 0 := (0, 0,...) ∈ Ω. DannistP[X ≥ n] = 

P[[ω 0 1,...,ω 0 n]] = (1 − p) n .Alsoist 

P[X = n] =P[X ≥ n] − P[X ≥ n +1]=(1− p) n − (1 − p) n+1 = p (1 − p) n . 

(iv) Seien r>0 (nicht notwendigerweise ganzzahlig) und p ∈ (0, 1]. Mit 

b − r,p := 

∞� 

k=0 

� � 

−r 

(−1) 

k 

k p r (1 − p) k δk 

(1.17) 

bezeichnen wir die negative Binomialverteilung oder Pascal-Verteilung mit Parametern 

r und p. (Hierbei ist � � x x(x−1)···(x−k+1) 

k = für x ∈ R und k ∈ N der 

1 

Obacht: Manche Autoren nennen die um Eins verschobene Verteilung auf N die geometrische 

Verteilung. 

k!

1.5 Zufallsvariablen 45 

verallgemeinerte Binomialkoeffizient.) Für r ∈ N ist b − r,p, ähnlich wie im vorangehenden 

Beispiel, die Verteilung der Wartezeit auf den r-ten Erfolg bei unabhängigen 

Versuchen. Wir werden hierauf in Beispiel 3.4(iv) zurückkommen. 

(v) Ist λ ∈ [0, ∞) und X : Ω → N0 mit 

−λ λn 

P[X = n] =e 

n! 

für jedes n ∈ N0, 

so heißt PX =: Poiλ die Poisson-Verteilung mit Parameter λ. 

(vi) Die hypergeometrische Verteilung mit Parametern S, W, n ∈ N 

� �� S W � 

HypS,W,n({s}) = 

s n−s 

� , s ∈{0,...,n}, (1.18) 

� S+W 

n 

gibt die Wahrscheinlichkeit an, aus einer Urne mit S schwarzen und W weißen Kugeln 

bei n-maligen Ziehen ohne Zurücklegen genau s schwarze Kugeln zu ziehen. 

(vii) Seien μ ∈ R, σ 2 > 0 und X reell mit 

P[X ≤ x] = 

1 

√ 2πσ 2 

� x 

−∞ 

(t−μ)2 

− 

e 2σ2 dt für x ∈ R, 

Dann heißt PX =: N μ,σ 2 Gauß’sche Normalverteilung mit Parametern μ und σ 2 . 

(viii) Ist X ≥ 0 reell und θ>0,sowie 

P[X ≤ x] =P[X ∈ [0,x]] = 

� x 

0 

θe −θt dt für x ≥ 0, 

so heißt PX Exponentialverteilung mit Parameter θ (kurz: exp θ). 

(ix) Ist X Rd-wertig, μ ∈ Rd , Σ eine positiv definite d × d Matrix und 

P[X ≤ x] = det(2πΣ) −1/2 

� � 

exp − 1 

� 

t − μ, Σ 

2 

−1 �� 

(t − μ) λ d (dt) 

(−∞,x] 

für x ∈ R d (wobei 〈 · , · 〉 das Skalarprodukt im R d bezeichnet), so heißt PX =: 

Nμ,Σ die d-dimensionale Normalverteilung mit Parametern μ und Σ. ✸ 

Definition 1.106. Hat die Verteilungsfunktion F : R n → [0, 1] die Gestalt 

F (x) = 

� x1 

dt1 ··· 

−∞ 

� xn 

dtn f(t1,...,tn) für x =(x1,...,xn) ∈ R 

−∞ 

n , 

für eine integrierbare Funktion f : R n → [0, ∞), so heißt f die Dichte der Verteilung.


Beispiel 1.107. (i) Für θ, r > 0 heißt die Verteilung Γθ,r auf [0, ∞) mit Dichte 

x ↦→ θr 

Γ (r) xr−1 e −θx 

(wo Γ die Gamma-Funktion bezeichnet) Gamma-Verteilung mit Größenparameter 

θ und Formparameter r. 

(ii) Für r, s > 0 heißt die Verteilung βr,s auf [0, 1] mit Dichte 

x ↦→ 

Γ (r + s) 

Γ (r)Γ (s) xr−1 (1 − x) s−1 

Beta-Verteilung mit Parametern r und s. 

(iii) Für a>0 heißt die Verteilung Caua auf R mit Dichte 

x ↦→ 1 1 

aπ 1+(x/a) 2 

Cauchy-Verteilung mit Parameter a. ✸ 

Übung 1.5.1. Man leite (1.17) nach der Interpretation als Wartezeit kombinatorisch 

her unter Benutzung der Identität � � � � −n k n+k−1 

k (−1) = k . ♣ 

Übung 1.5.2. Man gebe ein Beispiel an für zwei normalverteilte X und Y , sodass 

(X, Y ) nicht (zweidimensional) normalverteilt ist. ♣ 

Übung 1.5.3. Man zeige mit Hilfe von Satz 1.101 (Transformationsformel für Dichten): 

(i) Ist X ∼N μ,σ 2 und sind a ∈ R\{0} und b ∈ R,soist(aX +b) ∼N aμ+b,a 2 σ 2. 

(ii) Ist X ∼ exp θ und a>0,soistaX ∼ exp θ/a. ♣

2 Unabhängigkeit 

Die Maßtheorie aus dem vorigen Kapitel ist eine lineare Theorie, die keine Abhängigkeitsstrukturen 

zwischen Ereignissen oder Zufallsvariablen kennt. Wir betreten 

das Gebiet der Wahrscheinlichkeitstheorie genau an dieser Stelle mit der Definition 

der Unabhängigkeit von Ereignissen und schließlich von Zufallsvariablen. Die 

Unabhängigkeit ist ein zentraler Begriff der Wahrscheinlichkeitstheorie, die Quantifizierung 

von Abhängigkeiten eines ihrer wichtigen Anliegen. 

Fortan ist stets (Ω,A, P) ein Wahrscheinlichkeitsraum, und die Mengen A ∈A 

sind die Ereignisse. Sobald wir die Phase hinter uns gelassen haben, in der wir W- 

Räume explizit konstruieren, wird der konkrete W-Raum in den Hintergrund treten, 

und die beobachtbaren Größen, also Zufallsvariablen, werden an Bedeutung gewinnen. 

Das fett gedruckte P steht dann für das universelle Objekt des W-Maßes, und 

Wahrscheinlichkeiten P[ · ] bezüglich P werden stets mit eckigen Klammern geschrieben. 

2.1 Unabhängigkeit von Ereignissen 

Wir wollen zwei Ereignisse A und B als (stochastisch) unabhängig betrachten, wenn 

das Eintreten von A nicht die Wahrscheinlichkeit beeinflusst, dass zudem B eintritt. 

Etwas formaler können wir diesen intuitiven Begriff fassen, indem wir A und B als 

unabhängig betrachten, wenn 

P[A ∩ B] =P[A] · P[B]. (2.1) 

Beispiel 2.1 (Zweifacher Würfelwurf). Wir betrachten das Zufallsexperiment des 

zweifachen Würfelwurfes. Es ist also Ω = {1,...,6} 2 mit der σ-Algebra A =2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)). 

(i) Zwei Ereignisse A und B sollten unabhängig sein, wenn A nur vom Ergebnis 

des ersten Wurfes abhängt, B hingegen nur vom Ergebnis des zweiten Wurfes. 

Formal beschreiben wir diese Situation, indem wir annehmen, dass es Mengen 

Ã, ˜ B ⊂{1,...,6} gibt mit 

A = Ã ×{1,...,6} und B = {1,...,6}× ˜ B.

48 2 Unabhängigkeit 

Wir prüfen jetzt, dass A und B tatsächlich (2.1) erfüllen. Dazu berechnen wir 

P[A] = #A #Ã 

#B 

36 = 6 und P[B] = 36 = # ˜ B 

6 . Ferner ist 

P[A ∩ B] = #(Ã × ˜ B) 

= 

36 

#Ã 

6 · # ˜ B 

= P[A] · P[B]. 

6 

(ii) Stochastische Unabhängigkeit kann auch in weniger augenfälligen Situationen 

auftreten. Sei hierzu A das Ereignis, dass die Augensumme ungerade ist, 

A = � (ω1,ω2) ∈ Ω : ω1 + ω2 ∈ {3, 5, 7, 9, 11} � , und B das Ereignis, dass 

der erste Wurf höchstens eine Drei bringt, B = {(ω1,ω2) ∈ Ω : ω1 ∈{1, 2, 3} � . 

Obwohl beide Ereignisse anscheinend etwas miteinander zu tun haben, sind sie stochastisch 

unabhängig, denn es gilt, wie man leicht prüft, P[A] =P[B] = 1 

2 und 

P[A ∩ B] = 1 

4 . ✸ 

Wann sind nun drei Ereignisse A1,A2,A3 unabhängig? Hierzu muss natürlich jedes 

der Paare (A1,A2), (A1,A3) und (A2,A3) unabhängig sein. Jedoch wollen 

wir auch sicherstellen, dass beispielsweise das Eintreten von A1 und A2 nicht die 

Wahrscheinlichkeit für das zusätzliche Eintreten von A3 beeinflusst. Wir müssen 

also mehr als nur Paare betrachten. 

Formal nennen wir daher drei Ereignisse A1,A2 und A3 (stochastisch) unabhängig, 

falls 

P[Ai ∩ Aj] =P[Ai] · P[Aj] für alle i, j ∈{1, 2, 3}, i�= j, (2.2) 

und 

P[A1 ∩ A2 ∩ A3] =P[A1] · P[A2] · P[A3]. (2.3) 

Man beachte, dass (2.3) nicht aus (2.2) folgt (und (2.2) nicht aus (2.3)). 

Beispiel 2.2 (Dreifacher Würfelwurf). Wir betrachten den dreifachen Wurf eines 

Würfels. Sei also Ω = {1,...,6} 3 ausgestattet mit der diskreten σ-Algebra A = 

2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)). 

(i) Hängt für i =1, 2, 3 das Ereignis Ai nur vom i-ten Wurf ab, so sind die Ereignisse 

A1, A2 und A3 unabhängig. In der Tat können wir sie wie im vorangehenden 

Beispiel für gewisse Mengen Ã1, Ã2, Ã3 ⊂{1,...6} schreiben als 

A1 = Ã1 ×{1,...,6} 2 , 

A2 = {1,...,6}× Ã2 ×{1,...,6}, 

A3 = {1,...,6} 2 × Ã3. 

Die Gültigkeit von (2.2) folgt wie in Beispiel 2.1(i). Um (2.3) zu zeigen, berechnen 

wir 

P[A1 ∩ A2 ∩ A3] = #(Ã1 × Ã2 × Ã3) 

216 

(ii) Wir betrachten nun die folgenden drei Ereignisse 

= 

3� 

i=1 

# Ãi 

6 = 

3� 

P[Ai]. 

i=1

2.1 Unabhängigkeit von Ereignissen 49 

A1 := {ω ∈ Ω : ω1 = ω2}, 

A2 := {ω ∈ Ω : ω2 = ω3}, 

A3 := {ω ∈ Ω : ω1 = ω3}. 

Dann ist #A1 =#A2 =#A3 =36, also P[A1] =P[A2] =P[A3] = 1 

6 . Ferner 

ist #(Ai ∩ Aj) =6, falls i �= j, also P[Ai ∩ Aj] = 1 

36 . Daher gilt (2.2). Jedoch ist 

#(A1 ∩ A2 ∩ A3) =6, also P[A1 ∩ A2 ∩ A3] = 1 1 1 1 

36 �= 6 · 6 · 6 , mithin ist (2.3) 

verletzt, und die Ereignisse A1,A2,A3 sind nicht unabhängig. ✸ 

Um für größere Familien von Ereignissen Unabhängigkeit zu definieren, müssen 

wir die Gültigkeit von Produktformeln wie (2.2) und (2.3) nunmehr nicht nur für 

Paare und Tripel fordern, sondern für alle endlichen Teilfamilien. Wir treffen daher 

die folgende Definition. 

Definition 2.3 (Unabhängigkeit von Ereignissen). Sei I eine beliebige Indexmenge, 

und sei (Ai)i∈I eine beliebige Familie von Ereignissen. Die Familie 

(Ai)i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊂ I gilt, dass 

� � � 

P = � 

P[Aj]. 

j∈J 

Aj 

Das wichtigste Beispiel für eine unendlich große, unabhängige Familie von Ereignissen 

wird durch die unendliche (unabhängige) Wiederholung eines Zufallsexperiments 

gegeben. 

Beispiel 2.4. Sei E eine endliche Menge (die möglichen Ausgänge des einzelnen 

Experiments) und (pe)e∈E ein Wahrscheinlichkeitsvektor auf E. Sei (wie in 

Satz 1.64) der Wahrscheinlichkeitsraum Ω = EN ausgestattet mit der σ-Algebra 

A = σ({[ω1,...,ωn] :ω1,...,ωn ∈ E, n ∈ N}) und P = �� 

e∈E peδe 

�⊗N das 

Produktmaß (oder Bernoulli-Maß) auf (Ω,A), also P � [ω1,...,ωn] � n� 

= pωi .Sei 

Ãi ⊂ E für jedes i ∈ N, und Ai das Ereignis, dass Ãi im i-ten Durchgang des 

Experiments auftritt, also 

Ai = � ω ∈ Ω : ωi ∈ Ãi 

� � 

= 

[ω1,...,ωi]. 

j∈J 

(ω1,...,ωi)∈E i−1 × Ãi 

Nach unserer Intuition sollte die Familie (Ai)i∈N unabhängig sein, wenn die Definition 

der Unabhängigkeit sinnvoll sein soll. Wir weisen jetzt nach, dass dies in der 

Tat richtig ist. Sei J ⊂ N endlich mit k := #J und n := max J. Wir setzen formal 

Bj = Aj und ˜ Bj = Ãj für j ∈ J und Bj = Ω und ˜ Bj = E für j ∈{1,...,n}\J. 

Dann ist 

i=1


� 

� 

P 

j∈J 

Aj 

� 

� 

� 

= P 

= � 

j∈J 

e1∈ ˜ B1 

Bj 

� 

··· � 

� 

�n 

= P 

n� 

en∈ ˜ Bn 

j=1 

j=1 

Bj 

pej = 

� 

n� 

� 

� 

j=1 

e∈ ˜ Bj 

pe 

� 

= � 

� 

� 

j∈J 

e∈ Ãj 

Dies gilt speziell natürlich für #J =1, also ist P[Ai] = � 

e∈Ãi pe für jedes i ∈ N. 

Es folgt 

� 

� 

� 

P = � 

P[Aj]. (2.4) 

j∈J 

Aj 

Da dies für alle endlichen J ⊂ N gilt, ist die Familie (Ai)i∈N unabhängig. ✸ 

Sind A und B unabhängig, so sind auch A c und B unabhängig, denn P[A c ∩ B] = 

P[B] − P[A ∩ B] =P[B] − P[A]P[B] =(1− P[A])P[B] =P[A c ]P[B]. Wir 

wollen diese Beobachtung etwas verallgemeinern und als Satz festhalten. 

Satz 2.5. Sei I eine beliebige Indexmenge, und sei (Ai)i∈I eine Familie von Ereignissen. 

Setze B0 i = Ai und B1 i = Aci für i ∈ I. Dann sind folgende drei Aussagen 

äquivalent. 

(i) Die Familie (Ai)i∈I ist unabhängig. 

(ii) Es gibt ein α ∈{0, 1} I , sodass die Familie (B αi 

i )i∈I unabhängig ist. 

(iii) Für jedes α ∈{0, 1} I ist die Familie (B αi 

i )i∈I unabhängig. 

Beweis Übung! 

Beispiel 2.6 (Euler’sche Primzahlformel). Die Riemann’sche Zetafunktion ist 

definiert durch die Dirichlet-Reihe 

∞� 

ζ(s) := n −s 

für s ∈ (1, ∞). 

n=1 

Die Euler’sche Primzahlformel ist die Produktdarstellung 

ζ(s) = � � −s 

1 − p �−1 , (2.5) 

p∈P 

wobei P := {p ∈ N : p ist Primzahl} ist. 

Wir beweisen die Produktdarstellung probabilistisch. Sei Ω = N und (für festes s) 

P definiert durch 

P[{n}] =ζ(s) −1 n −s 

für n ∈ N. 

Sei pN = {pn : n ∈ N} und Pn = {p ∈P: p ≤ n}. Wir fassen pN ⊂ Ω als 

Ereignis auf und bemerken, dass (pN, p∈P) unabhängig ist. In der Tat: Für k ∈ N 

und unterschiedliche p1,...,pk ∈P ist � k 

i=1 piN =(p1 ···pk)N, also 

j∈J 

pe 

� 

.


� 

k� 

� 

∞� 

P (piN) = P � {p1 ···pkn} � 

i=1 

n=1 

= ζ(s) −1 (p1 ···pk) −s 

=(p1 ···pk) −s = 

∞� 

n −s 

n=1 

k� 

P[ piN ]. 

Nach Satz 2.5 ist nun auch ((pN) c ,p∈P) unabhängig. Deshalb gilt 

ζ(s) −1 � 

� 

= P[{1}] =P (pN) c 

� 

= lim 

n→∞ P 

� � 

= lim 

� 

n→∞ 

p∈Pn 

p∈Pn 

p∈P 

(pN) c� 

i=1 

� � � � −s 

1 − P[ pN ] = 1 − p � . 

Damit ist (2.5) gezeigt. ✸ 

Wenn wir einen Würfel unendlich oft werfen, wie groß ist die Wahrscheinlichkeit, 

dass unendlich oft (also: immer wieder mal) eine Sechs geworfen wird? Diese Wahrscheinlichkeit 

sollte Eins sein, denn sonst gäbe es einen letzten Zeitpunkt, zu dem 

eine Sechs fällt und danach nicht wieder. Dies wäre zumindest nicht sehr plausibel. 

Man erinnere sich daran, wie wir mit Hilfe des Limes superior (Definition 1.13) 

formalisiert hatten, dass unendlich viele Ereignisse aus einer Familie von Ereignissen 

eintreten. Der folgende Satz bestätigt nun unsere oben geäußerte Vermutung 

und gibt zudem Auskunft darüber, unter welchen Bedingungen wir nicht erwarten 

können, dass unendlich viele der Ereignisse eintreten. 

Satz 2.7 (Lemma von Borel-Cantelli). Seien A1,A2,...Ereignisse, und sei A∗ = 

lim sup An. 

n→∞ 

(i) Ist �∞ n=1 P[An] < ∞, soistP[A∗ ]=0. (Hier kann P ein beliebiges Maß 

auf (Ω,A) sein.) 

(ii) Ist (An)n∈N unabhängig und �∞ n=1 P[An] =∞,soistP[A∗ ]=1. 

Beweis. (i) Da P stetig von oben und σ-subadditiv ist, ist nach Voraussetzung 

P[A ∗ ] = lim 

n→∞ P 

� 

∞� 

� 

∞� 

Am ≤ lim P[Am] =0. 

n→∞ 

m=n 

p∈P 

m=n


(ii) Offensichtlich ist log(1 − x) ≤−xfür x ∈ [0, 1]. Nach den de Morgan’schen 

Regeln und der Stetigkeit von P von unten gilt daher 

P � (A ∗ ) c� � 

∞� 

= P 

∞� 

A c � 

n = lim 

m→∞ P 

� 

∞� 

A c � 

n . 

m=1 n=m 

Nun ist aber für jedes m ∈ N 

� 

�∞ 

P 

� 

= 

∞� � 

1 − P[An] � 

n=m 

A c n 

n=m 

� 

�∞ 

=exp 

n=m 

log � 1 − P[An] �� 

� 

≤ exp − 

n=m 

∞� 

n=m 

� 

P[An] =0. ✷ 

Beispiel 2.8. Wir betrachten den unendlich oft wiederholten Würfelwurf und fragen 

nach der Wahrscheinlichkeit, dass unendlich oft die Sechs auftritt. Es ist 

also Ω = {1,...,6} N , A = (2 {1,...,6} ) ⊗N die Produkt-σ-Algebra und P = 

� � 

e∈{1,...,6} 

1 

6 δe 

� ⊗N das Bernoulli-Maß (vergleiche Satz 1.64). Ferner sei An = 

{ω ∈ Ω : ωn = 6} das Ereignis, dass beim n-ten Wurf eine Sechs auftritt. 

Dann ist A∗ = lim sup An das Ereignis, dass unendlich oft eine Sechs auftritt (sie- 

n→∞ 

he Beispiel 1.14). Ferner ist (An)n∈N eine unabhängige Familie mit ∞� 

P[An] = 

∞� 

n=1 

1 

6 = ∞ und deshalb nach dem Lemma von Borel-Cantelli P[A∗ ]=1. ✸ 

Beispiel 2.9. Wir werfen einen Würfel nur einmal und definieren An für jedes n ∈ 

N als das Ereignis, dass bei diesem (einen) Wurf eine Sechs geworfen wurde. Man 

bemerke, dass A1 = A2 = A3 = ... Dann ist � 

n∈N P[An] =∞, jedoch P[A∗ ]= 

P[A1] = 1 

6 . Dies zeigt, dass in Teil (ii) des Lemmas von Borel-Cantelli nicht ohne 

weiteres auf die Unabhängigkeit verzichtet werden kann. ✸ 

Beispiel 2.10. Sei Λ ∈ (0, ∞) und 0 ≤ λn ≤ Λ für n ∈ N. Ferner seien Xn, n ∈ N, 

Poisson-verteilte Zufallsvariablen mit Parametern λn. Dann gilt 

Es ist nämlich 

∞� 

P[Xn ≥ n] = 

n=1 

P � Xn ≥ n für unendlich viele n � =0. 

= 

∞� 

n=1 m=n 

∞� 

∞� 

P[Xn = m] = 

m� 

e 

m=1 n=1 

−λn λmn m! ≤ 

∞� 

m=1 n=1 

∞� 

m=1 

n=1 

m� 

P[Xn = m] 

m Λm 

m! = ΛeΛ < ∞. ✸


Da im obigen Satz, zumindest im Falle unabhängiger Ereignisse, nur die Wahrscheinlichkeiten 

P[A∗ ]=0und P[A∗ ]=1auftreten können, zählt das Lemma 

von Borel-Cantelli zu den so genannten 0-1 Gesetzen. Wir werden später weitere 

0-1 Gesetze kennen lernen (siehe beispielsweise Satz 2.37). 

Wir wollen jetzt den Begriff der Unabhängigkeit von Familien von Ereignissen auf 

Familien von Ereignissystemen ausdehnen. 

Definition 2.11 (Unabhängigkeit von Mengensystemen). Sei I eine beliebige 

Indexmenge und Ei ⊂A für jedes i ∈ I. Die Familie (Ei)i∈I heißt unabhängig, 

falls für jede endliche Teilmenge J ⊂ I und für jede Wahl von Ej ∈Ej, j ∈ J, 

gilt, dass 

� 

� 

� 

P = � 

P[Ej]. (2.6) 

j∈J 

Ej 

Beispiel 2.12. Sei (Ω,A, P) wie in Beispiel 2.4 der Produktraum der unendlichen 

Wiederholung des Experiments mit Ausgängen in der endlichen Menge E mit 

Wahrscheinlichkeitsvektor p =(pe)e∈E. Setze für i ∈ N 

j∈J 

Ei = � {ω ∈ Ω : ωi ∈ A} : A ⊂ E � . 

Dann ist für jede Wahl von Ai ∈Ei, i ∈ N, die Familie (Ai)i∈N unabhängig, also 

ist (Ei)i∈N unabhängig. ✸ 

Satz 2.13. (i) Sei I endlich, und für jedes i ∈ I sei Ei ⊂Amit Ω ∈Ei. Dann 

gilt 

(Ei)i∈I ist unabhängig ⇐⇒ (2.6) gilt für J = I. 

(ii) (Ei)i∈I ist unabh. ⇐⇒ � (Ej)j∈J ist unabh. für alle endlichen J ⊂ I � . 

(iii) Ist (Ei ∪ {∅}) ∩-stabil, dann gilt 

(Ei)i∈I ist unabhängig ⇐⇒ (σ(Ei))i∈I ist unabhängig. 

(iv) Sei K eine beliebige Menge und (Ik)k∈K paarweise � � 

disjunkte Teilmengen 

von I.Ist(Ei)i∈Iunabhängig, dann ist auch i∈Ik Ei 

� 

k∈K unabhängig. 

Beweis. (i) ” =⇒ “ Dies ist trivial. 

(i) ” ⇐= “ Für J ⊂ I und j ∈ I \ J wähle Ej = Ω. 

(ii) Dies ist trivial. 

(iii) ” ⇐= “ Dies ist trivial.


(iii) ” =⇒ “ Sei J ⊂ I endlich. Wir zeigen: Für je zwei endliche Mengen J und 

J ′ mit J ⊂ J ′ ⊂ I gilt 

� 

� 

P 

i∈J ′ 

Ei 

� 

= � 

� 

Ei ∈ σ(Ei), falls i ∈ J, 

P[Ei] für jede Wahl 

Ei ∈Ei, falls i ∈ J ′ \ J. 

i∈J ′ 

(2.7) 

Mit J ′ = J ist dies genau die zu zeigende Aussage. 

Wir führen den Beweis von (2.7) durch vollständige Induktion nach #J.Für #J = 

0 gilt (2.7) nach Voraussetzung des Satzes. 

Es gelte nun (2.7) für jedes J mit #J = n und jedes endliche J ′ ⊃ J. Sei solch ein 

J gewählt und j ∈ I \ J.SeiJ ′ ⊃ ˜ J := J ∪{j}. Wir zeigen nun die Gültigkeit von 

(2.7) mit ˜ J statt mit J.Wegen# ˜ J = n +1ist damit der Induktionsschritt gezeigt. 

Sei Ei ∈ σ(Ei) für jedes i ∈ J und Ei ∈Eifür jedes i ∈ J ′ \ (J ∪{j}). Wir 

definieren Maße μ und ν auf (Ω,A) durch 

� 

� 

� 

μ : Ej ↦→ P 

und ν : Ej ↦→ � 

P[Ei]. 

i∈J ′ 

Ei 

Nach Induktionsvoraussetzung (2.7) gilt μ(Ej) =ν(Ej) für jedes Ej ∈Ej∪{∅,Ω}. 

Da Ej ∪ {∅} schnittstabil ist, gilt nach Lemma 1.42 auch μ(Ej) =ν(Ej) für jedes 

Ej ∈ σ(Ej), das heißt, es gilt (2.7) mit J ∪{j} statt J. 

(iv) Dies ist trivial, weil (2.6) nur für J ⊂ I mit 

i∈J ′ 

#(J ∩ Ik) ≤ 1 für jedes k ∈ K, 

nachgewiesen werden muss. ✷ 

2.2 Unabhängigkeit von Zufallsvariablen 

Nachdem wir Unabhängigkeit von Ereignissen behandelt haben, wollen wir auch 

Unabhängigkeit von Zufallsvariablen betrachten. Auch hier läuft die Definition 

auf eine Produktformel hinaus. Formal können wir jedoch die Unabhängigkeit der 

von Zufallsvariablen erzeugten σ-Algebren als Definition heranziehen. Wir können 

dann Verteilungen von Summen unabhängiger Zufallsvariablen vermittels Faltung 

ausrechnen. Da wir an dieser Stelle noch keinen allgemeinen Integralbegriff zur 

Verfügung haben, bringen wir die Faltung zunächst nur für Zufallsvariablen mit 

ganzzahligen Werten. 

Sei I eine beliebige Indexmenge, und für jedes i ∈ I sei (Ωi, Ai) ein Messraum 

sowie Xi :(Ω,A) → (Ωi, Ai) eine Zufallsvariable mit erzeugter σ-Algebra 

σ(Xi) =X −1 

i (Ai).

2.2 Unabhängigkeit von Zufallsvariablen 55 

Definition 2.14 (Unabhängigkeit von Zufallsvariablen). Die Familie (Xi)i∈I 

von Zufallsvariablen heißt unabhängig, falls die Familie (σ(Xi))i∈I von σ- 

Algebren unabhängig ist. 

Wir schreiben, dass (Xi)i∈I ” u.i.v.“ ist, für ” unabhängig und identisch verteilt“ 

(englisch: i.i.d.“ für independent and identically distributed“), falls (Xi)i∈I un- 

” ” 

abhängig ist und PXi = PXj für alle i, j ∈ I gilt. 

Bemerkung 2.15. (i) Ist ( Ãi)i∈I eine unabhängige Familie von σ-Algebren und 

ist jedes Xi messbar bezüglich Ãi – Ai, soist(Xi)i∈I unabhängig. Dies ist 

klar, weil σ(Xi) ⊂ Ãi, also die Bedingung an die Unabhängigkeit von (Xi)i∈I 

schwächer ist als die Bedingung an die Unabhängigkeit von ( Ãi)i∈I. 

(ii) Für jedes i ∈ I sei (Ω ′ i , A′ i ) ein weiterer Messraum, sowie fi :(Ωi, Ai) → 

(Ω ′ i , A′ i ) eine messbare Abbildung. Ist (Xi)i∈I unabhängig, so ist (fi ◦ Xi)i∈I un- 

abhängig. Diese Aussage ist ein Spezialfall von (i), weil fi◦Xi messbar ist bezüglich 

σ(Xi) – A ′ i (siehe Satz 1.80). ✸ 

Satz 2.16 (Unabhängigkeit von Erzeugern). Für jedes i ∈ I sei Ei ⊂Ai ein 

schnittstabiler Erzeuger von Ai.Ist(X −1 

i (Ei))i∈I unabhängig, so ist (Xi)i∈I unabhängig. 

Beweis. Nach Satz 1.81(iii) ist X −1 

i (Ei) ist ein schnittstabiler Erzeuger der σ- 

Algebra X −1 

i (Ai) =σ(Xi). Mit Satz 2.13 folgt die Aussage. ✷ 

Beispiel 2.17. Sei E eine höchstens abzählbare Menge, und seien (Xi)i∈I Zufallsvariablen 

mit Werten in (E,2E ). In diesem Falle ist (Xi)i∈I genau dann unabhängig, 

wenn für jede endliche Teilmenge J ⊂ I und jede Wahl von xj ∈ E, 

j ∈ J, gilt, dass 

P � Xj = xj für jedes j ∈ J � = � 

P[Xj = xj]. 

Dies ist klar, weil � {x} : x ∈ E � ∪ {∅} ein schnittstabiler Erzeuger von 2E ist, 

also � X −1 

i ({xi}) : xi ∈ E � ∪ {∅} ein schnittstabiler Erzeuger von σ(Xi) ist 

(Satz 1.81). ✸ 

Beispiel 2.18. Sei E eine endliche Menge und p =(pe)e∈E ein Wahrscheinlichkeitsvektor. 

Wir wollen das zu E und p gehörige Zufallsexperiment unendlich oft 

unabhängig wiederholen (siehe Beispiel 1.40 und Satz 1.64). Sei Ω = EN der unendliche 

Produktraum und A die von den endlichen Zylindermengen (siehe (1.8)) 

erzeugte σ-Algebra, sowie P = �� 

e∈E peδe 

�⊗N das Bernoulli-Maß. Ferner sei für 

jedes n ∈ N 

j∈J


Xn : Ω → E, (ωm)m∈N ↦→ ωn, 

die Projektion auf die n-te Koordinate. Mit anderen Worten: Zu jedem Elementarereignis 

ω ∈ Ω liefert Xn(ω) das Ergebnis des n-ten Experiments. Dann gilt nach 

(2.4) (in Beispiel 2.4) für n ∈ N und x ∈ En P � Xj = xj für jedes j =1,...,n � = P � [x1,...,xn] � � 

�n 

= P X −1 

� 

j ({xj}) 

= 

n� 

j=1 

P � X −1 

j ({xj}) � = 

j=1 

n� 

P[Xj = xj], 

sowie P[Xj = xj] =pxj . Nach Satz 2.13(i) sind also (X1,...,Xn) unabhängig 

und nach Satz 2.13(ii) auch (Xn)n∈N. ✸ 

Speziell haben wir den folgenden Satz gezeigt. 

Satz 2.19. Sei E eine endliche Menge und (pe)e∈E ein Wahrscheinlichkeitsvektor 

auf E. Dann existiert ein Wahrscheinlichkeitsraum (Ω,A, P) und eine unabhängige 

Familie (Xn)n∈N von E-wertigen Zufallsvariablen auf (Ω,A, P) mit 

P[Xn = e] =pe für jedes e ∈ E. 

Wir werden später sehen, dass wir auf die Endlichkeit von E verzichten können 

und auch unterschiedliche Verteilungen zulassen können. Für den Moment gibt uns 

dieser Satz aber genügend Beispiele für abzählbare Familien von unabhängigen Zufallsvariablen 

an die Hand. 

Wir wollen nun einfache Kriterien zur Prüfung der Unabhängigkeit von Zufallsvariablen 

herleiten, die sich mit Hilfe von Verteilungsfunktionen beziehungsweise 

Dichten ausdrücken lassen. 

Definition 2.20. Für jedes i ∈ I sei Xi eine reelle Zufallsvariable. Für jede endliche 

Teilmenge J ⊂ I sei 

FJ := F (Xj)j∈J : R J → [0, 1], 

x ↦→ P � Xj ≤ xj für jedes j ∈ J � � 

� 

= P 

j∈J 

j=1 

X −1� 

j (−∞,xj] �� 

. 

Dann heißt FJ die gemeinsame Verteilungsfunktion von (Xj)j∈J. Das W-Maß 

P (Xj)j∈J auf R J heißt gemeinsame Verteilung von (Xj)j∈J. 

Satz 2.21. Eine Familie (Xi)i∈I reeller Zufallsvariablen ist genau dann unabhängig, 

wenn für jedes endliche J ⊂ I und jedes x =(xj)j∈J ∈ RJ gilt, dass 

FJ(x) = � 

F {j}(xj). (2.8) 

j∈J


Beweis. Das Mengensystem {(−∞,b], b∈ R} ist ein schnittstabiler Erzeuger der 

Borel’schen σ-Algebra B(R) (siehe Satz 1.23). Die Gleichung (2.8) besagt nun aber, 

dass für jede Wahl von reellen Zahlen (xi)i∈I die Ereignisse (X −1 ((−∞,xi]))i∈I 

unabhängig sind. Nach Satz 2.16 folgt daher die Aussage dieses Satzes. ✷ 

Korollar 2.22. Zusätzlich zur Situation von Satz 2.21 nehmen wir an, dass jedes FJ 

eine stetige Dichte fJ 

fJ : R 

= f (Xj)j∈J hat, das heißt, es gibt eine stetige Abbildung 

J → [0, ∞) mit 

� xj1 � xjn 

FJ(x) = dt1 ··· dtn fJ(t1,...,tn) für jedes x ∈ R 

−∞ 

−∞ 

J , 

(wobei J = {j1,...,jn}). Dann ist die Familie (Xi)i∈I genau dann unabhängig, 

wenn für jedes endliche J ⊂ I gilt 

fJ(x) = � 

fj(xj) für jedes x ∈ R J . (2.9) 

j∈J 

Korollar 2.23. Seien n ∈ N und μ1,...,μn W-Maße auf (R, B(R)). Dann existiert 

ein W-Raum (Ω,A, P) und eine unabhängige Familie von Zufallsvariablen 

(Xi)i=1,...,n auf (Ω,A, P) mit PXi = μi für jedes i =1,...,n. 

Beweis. Sei Ω = Rn und A = B(Rn ) sowie P = �n i=1 μi das Produktmaß der μi 

(siehe Satz 1.61). Ferner sei Xi : Rn → R, (x1,...,xn) ↦→ xi die Projektion auf 

die i-te Koordinate für jedes i =1,...,n.Dannistfür jedes i =1,...,n 

F {i}(x) = P[Xi ≤ x] = P � R i−1 × (−∞,x] × R n−i−1� 

� � � 

� � 

= μi (−∞,x] · μj(R) = μi (−∞,x] . 

j�=i 

Also gilt tatsächlich PXi = μi. Ferner ist für x1,...,xn ∈ R 

� n � 

F {1,...,n}(x1,...,xn) =P × (−∞,xi] = 

i=1 

n� 

i=1 

� 

μi (−∞,xi] � = 

n� 

F {i}(xi). 

Nach Satz 2.21 (und Satz 2.13(i)) folgt die Unabhängigkeit von (Xi)i=1,...,n. ✷ 

Beispiel 2.24. Seien X1,...,Xn unabhängige, exponentialverteilte Zufallsvariablen 

mit Parametern θ1,...,θn ∈ (0, ∞). DannistF {i}(x) = � x 

0 θi exp(−θit) dt = 

1 − exp(−θix) für x ≥ 0 und daher 

� 

F {1,...,n} (x1,...,xn) � = 

n� � −θixi 1 − e � . 

Betrachte nun die Zufallsvariable Y =max(X1,...,Xn). Dannist 

i=1 

i=1


FY (x) =P � Xi ≤ x für jedes i =1,...,n � 

� � 

= F {1,...,n} (x,...,x) = 

n� � −θix 

1 − e � . 

Für die Zufallsvariable Z := min(X1,...,Xn) hat die Verteilungsfunktion eine 

schöne geschlossene Form 

i=1 

FZ(x) =1− P[Z >x] 

=1− P � Xi >x für jedes i =1,...,n � 

n� 

=1− e −θix =1− exp � − (θ1 + ...+ θn) x � . 

i=1 

Mit anderen Worten: Z ist exponentialverteilt mit Parameter θ1 + ...+ θn. ✸ 

Beispiel 2.25. Seien μi ∈ R und σ2 i > 0, i ∈ I, sowie(Xi)i∈Ireell mit gemeinsamen 

Dichtefunktionen (für endliches J ⊂ I) 

fJ(x) = � 

� 

− � (xj − μj) 2 � 

für x ∈ R J . 

j∈J 

� � 1 

2 − 2 2πσj exp 

Dann sind die (Xi)i∈I unabhängig und normalverteilt mit Parametern (μi,σ2 i ). 

Für jedes endliche I = {i1,...,in} (mit paarweise unterschiedlichen i1,...,in) 

ist der Vektor Y =(Xi1 ,...,Xin ) n-dimensional normalverteilt mit μ = μI := 

(μi1 ,...,μin ) und Σ = ΣI die Diagonalmatrix mit Einträgen σ2 i1 ,...,σ2 in (vergleiche 

Beispiel 1.105(ix)). ✸ 

Satz 2.26. Sei K eine beliebige Menge und Ik, k ∈ K, beliebige paarweise disjunkte 

Indexmengen sowie I = � 

Ik. 

k∈K 

Ist die Familie (Xi)i∈I unabhängig, dann sind auch die σ-Algebren (σ(Xj,j ∈ 

Ik))k∈K unabhängig. 

Beweis. Sei für k ∈ K 

� 

� 

Zk = 

j∈Ik 

j∈J 

2σ 2 j 

� 

Aj : Aj ∈ σ(Xj), #{j ∈ Ik : Aj �= Ω} < ∞ 

der Ring der endlichdimensionalen Zylinder. Offenbar ist Zk schnittstabil und 

σ(Zk) =σ(Xj,j ∈ Ik). Also reicht es nach Satz 2.13(iii) zu zeigen, dass (Zk)k∈K 

unabhängig ist. Nach Satz 2.13(ii) können wir sogar annehmen, dass K endlich ist. 

Für k ∈ K seien nun Bk ∈Zk und Jk ⊂ Ik endlich mit Bk = � 

gewisse Aj ∈ σ(Xj). Setze J = � 

k∈K Jk.Dannist 

j∈Jk Aj für

� 

� 

P 

k∈K 

Bk 

� 


� 

� 

� 

= P Aj = � 

P[Aj] = � � 

P[Aj] = � 

P[Bk]. ✷ 

j∈J 

j∈J 

k∈K j∈Jk 

Beispiel 2.27. Sind (Xn)n∈N unabhängige, reelle Zufallsvariablen, dann sind auch 

(Yn)n∈N =(X2n − X2n−1)n∈N unabhängig. In der Tat ist für jedes n ∈ N die 

Zufallsvariable Yn schon messbar bezüglich σ(X2n,X2n−1) nach Satz 1.91, und 

(σ(X2n,X2n−1))n∈N ist unabhängig nach Satz 2.26. ✸ 

Beispiel 2.28. Seien (Xm,n) (m,n)∈N 2 unabhängige Bernoulli-Zufallsvariablen mit 

Parameter p ∈ (0, 1). Sei 

Ym := inf � n ∈ N : Xm,n =1 � − 1 

die Wartezeit auf den ersten ” Erfolg“ in der m-ten Zeile der Matrix (Xm,n)m,n. 

Dann sind (Ym)m∈N unabhängige, geometrisch verteilte Zufallsvariablen mit Parameter 

p (siehe Beispiel 1.105(iii)). Denn: 

k+1 � 

{Ym ≤ k} = 

l=1 

k∈K 

{Xm,l =1}∈σ(Xm,l, l=1,...,k+1)⊂ σ(Xm,l, l∈ N). 

Also ist Ym messbar bezüglich σ(Xm,l,l ∈ N), und damit ist (Ym)m∈N unabhängig. 

Ferner ist 

P[Ym >k]=P[Xm,l =0,l=1,...,k+1]= 

k+1 � 

l=1 

P[Xm,l =0]=(1− p) k+1 . 

Es folgt P[Ym = k] =P[Ym >k− 1] − P[Ym >k]=p(1 − p) k . ✸ 

Definition 2.29 (Faltung). Seien μ und ν W-Maße auf (Z, 2 Z ).Wirdefinieren die 

Faltung μ ∗ ν als das W-Maß auf (Z, 2 Z ) mit 

(μ ∗ ν)({n}) = 

∞� 

m=−∞ 

μ({m}) ν({n − m}). 

Wir definieren die n-te Faltungspotenz rekursiv durch μ ∗1 = μ und 

μ ∗(n+1) = μ ∗n ∗ μ. 

Bemerkung 2.30. Es gilt μ ∗ ν = ν ∗ μ ✸ 

Satz 2.31. Sind X und Y unabhängige Z-wertige Zufallsvariablen, so gilt 

PX+Y = PX ∗ PY .


Beweis. Für jedes n ∈ Z gilt 

PX+Y ({n}) =P[X + Y = n] 

� 

� 

= P 

m∈Z 

� 

� 

{X = m}∩{Y = n − m} 

� 

= � 

P � {X = m}∩{Y = n − m} � 

m∈Z 

= � 

PX[{m}] PY [{n − m}] = (PX∗PY )[{n}]. ✷ 

m∈Z 

Auf Grund dieses Satzes liegt es nahe, die Faltung von zwei Wahrscheinlichkeitsmaßen 

auf R n (oder allgemeiner: auf abelschen Gruppen) als die Verteilung der 

Summe zweier unabhängiger Zufallsvariablen mit den entsprechenden Verteilungen 

zu definieren. Wir werden später eine andere Definition kennen lernen, die natürlich 

zu dieser äquivalent ist, jedoch auf den Integralbegriff zurückgreift, der hier noch 

nicht verfügbar ist (siehe Definition 14.17). 

Definition 2.32 (Faltung von Maßen). Seien μ und ν W-Maße auf R n , und seien 

X und Y unabhängige Zufallsvariablen mit PX = μ und PY = ν. Dann definieren 

wir die Faltung von μ und ν durch μ ∗ ν = PX+Y . 

Iterativ definieren wir die Faltungspotenzen μ ∗k für k ∈ N, sowie μ ∗0 = δ0. 

Beispiel 2.33. Seien X und Y unabhängig und Poisson-verteilt mit Parametern 

μ, λ ≥ 0. Dann gilt 

P[X + Y = n] =e −μ e −λ 

n� 

m=0 

−(μ+λ) 1 

= e 

n! 

μm λ 

m! 

n−m 

(n − m)! 

n� 

� � 

n 

μ 

m 

m λ n−m −(μ+λ) (μ + λ)n 

= e . 

n! 

m=0 

Also ist Poiμ ∗ Poiλ =Poiμ+λ. ✸ 

Übung 2.2.1. Seien X und Y unabhängige Zufallsvariablen mit X ∼ exp θ und 

Y ∼ exp ρ für gewisse θ, ρ > 0. Man zeige: 

P[X

2.3 Kolmogorov’sches 0-1 Gesetz 61 

X := � −2log(U) cos(2πV ) und Y := � −2log(U) sin(2πV ). 

Man zeige: X und Y sind unabhängig und N0,1-verteilt. 

Hinweis: Man berechne zunächst die Verteilung von � −2log(U) und benutze die 

Transformationsformel für Dichten (Satz 1.101) sowie Polarkoordinatentransformation. 

♣ 

2.3 Kolmogorov’sches 0-1 Gesetz 

Mit dem Lemma von Borel-Cantelli haben wir bereits ein 0-1 Gesetz für unabhängige 

Ereignisse kennen gelernt. Wir kommen jetzt zu einem weiteren 0-1 Gesetz 

für unabhängige Ereignisse, beziehungsweise σ-Algebren. Um dies zu formulieren, 

müssen wir zunächst den Begriff der terminalen σ-Algebra einführen. 

Definition 2.34 (Terminale σ-Algebra). Sei I eine abzählbar unendliche Indexmenge 

und (Ai)i∈I eine Familie von σ-Algebren. Dann heißt 

T � � � 

� � � 

(Ai)i∈I := σ Aj 

J⊂I 

#J


Beweis. ” ⊂“ Dies ist klar. 

” ⊃“ Sei Jn ↑ I mit endlichen Mengen Jn ⊂ I, n ∈ N, und sei J ⊂ I endlich. 

Dann existiert ein N ∈ N mit J ⊂ JN , und es ist 

∞� 

N� 

n=1 

� � � 

σ 

Am 

m∈I\Jn 

⊂ 

n=1 

� � � 

σ 

Am 

m∈I\Jn 

� � � � � 

= σ 

Am ⊂ σ 

m∈I\JN 

m∈I\J Am 

� 

. 

Die linke Seite hängt nicht von J ab, also können wir den Schnitt über alle endlichen 

J bilden und erhalten 

∞� � � � 

σ 

Am ⊂T 

m∈I\Jn 

� � 

(Ai)i∈I . ✷ 

n=1 

Es ist vielleicht nicht so ohne weiteres klar, dass es überhaupt noch interessante Ereignisse 

in der terminalen σ-Algebra gibt. Vielleicht ist nicht einmal a priori klar, 

dass nicht etwa T = {∅,Ω} gilt. Daher geben wir jetzt erst einmal einfache Beispiele 

für terminale Ereignisse beziehungsweise terminal messbare Zufallsvariablen 

an. In Abschnitt 2.4 werden wir ein weiteres Beispiel kennen lernen. 

Beispiel 2.36. (i) Seien A1,A2,... Ereignisse. Dann sind die Ereignisse A∗ := 

lim inf 

n→∞ An und A∗ := lim sup An in T ((An)n∈N). Setzen wir nämlich Bn := 

n→∞ 

∞� 

Am für n ∈ N, dann gilt Bn ↑ A∗ und Bn ∈ σ((Am)m≥N ) für jedes n ≥ N. 

m=n 

Also ist A∗ ∈ σ((Am)m≥N) für jedes N ∈ N und damit A∗ ∈T((An)n∈N). Für 

A∗ geht dies analog. 

(ii) Ist (Xn)n∈N eine Familie R-wertiger Zufallsvariablen, so sind auch die Abbildungen 

X∗ := lim infn→∞ Xn und X∗ := lim supn→∞ Xn messbar bezüglich 

T ((Xn)n∈N). In der Tat: Setzen wir Yn := supm≥n Xm, soistfür jedes N ∈ N 

die Zufallsvariable X∗ = infn≥1Yn = infn≥NYnmessbar bezüglich TN := 

σ(Xn, n≥ N), also auch bezüglich T ((Xn)n∈N) = �∞ n=1 Tn. 

Für X∗ geht dies analog. 

(iii) Seien (Xn)n∈N reellwertige Zufallsvariablen. Dann sind die Cesàro-Limiten 

lim inf 

n→∞ 

1 

n 

n� 

i=1 

Xi und lim sup 

n→∞ 

messbar bezüglich T ((Xn)n∈N). Um dies zu zeigen, wählen wir ein N ∈ N und 

beachten, dass 

n� 

n� 

1 

1 

X∗ := lim inf Xi = lim inf Xi 

n→∞ n 

n→∞ n 

i=1 

1 

n 

n� 

i=1 

i=N 

Xi

2.3 Kolmogorov’sches 0-1 Gesetz 63 

σ((Xn)n≥N )-messbar ist. Da dies für jedes N gilt, ist X∗ auch T ((Xn)n∈N)messbar. 

Für den Limes superior geht das analog. ✸ 

Satz 2.37 (Kolmogorov’sches 0-1 Gesetz). Sei I eine abzählbar unendliche Indexmenge, 

und sei (Ai)i∈I eine unabhängige Familie von σ-Algebren. Dann ist 

die terminale σ-Algebra P-trivial, das heißt, es gilt 

P[A] ∈{0, 1} für jedes A ∈T((Ai)i∈I). 

Beweis. Es reicht, den Fall I = N zu betrachten. Sei A ∈T := T � � 

(An)n∈N .Für 

n ∈ N sei 

� 

�n 

� 

Fn := Ak : A1 ∈A1,...,An ∈An . 

k=1 

Dann ist F := �∞ n=1 Fn ein Semiring und σ(F) =σ( � 

n∈N An). InderTatistfür 

jedes n ∈ N und An ∈An auch An ∈F, also σ( � 

n∈N An) ⊂ σ(F). Andererseits 

ist Fm ⊂ σ( �m n=1 An) ⊂ σ( � 

n∈N An) für jedes m ∈ N, also F⊂σ( � 

n∈N An). 

Sei A ∈T((An)n∈N), und sei ε>0. Nach dem Approximationssatz für Maße 

(Satz 1.65) existiert ein n ∈ N und ein Fn = ˜ F1 ⊎ ...⊎ ˜ FN mit ˜ F1,..., ˜ FN ∈Fn 

und mit P[A △ Fn] P[A \ Fn] =P[A ∩ (Ω \ Fn)] = P[A](1 − P[Fn]) ≥ P[A](1 − P[A] − ε). 

Da ε>0 beliebig war, folgt 0=P[A](1 − P[A]). ✷ 

Korollar 2.38. Sei (An)n∈N eine Folge unabhängiger Ereignisse. Dann gilt 

� � 

� � 

P 

∈{0, 1} und P 

∈{0, 1}. 

lim sup An 

n→∞ 

lim inf 

n→∞ An 

Beweis. Dies ist im Grunde eine Schlussfolgerung aus dem Lemma von Borel- 

Cantelli. Allerdings folgt es auch direkt aus dem Kolmogorov’schen 0-1 Gesetz, 

da Limes superior und Limes inferior in der terminalen σ-Algebra liegen. ✷ 

Korollar 2.39. Sei (Xn)n∈N eine unabhängige Familie von R-wertigen Zufallsvariablen. 

Dann sind X∗ := lim infn→∞ Xn und X∗ := lim supn→∞ Xn fast sicher 

konstant, das heißt, es gibt x∗,x∗ ∈ R mit P[X∗ = x∗] =1und P[X∗ = x∗ ]=1. 

Falls alle Xi sogar reellwertig sind, so sind auch die Cesàro-Limiten 

fast sicher konstant. 

lim inf 

n→∞ 

1 

n 

n� 

i=1 

Xi und lim sup 

n→∞ 

1 

n 

n� 

i=1 

Xi


Beweis. Sei X∗ := lim inf 

n→∞ Xn. Für jedes x ∈ R ist {X∗ ≤ x} ∈T((Xn)n∈N), 

also P[X∗ ≤ x] ∈{0, 1}. Setze 

Ist x∗ = ∞, so ist offenbar 

x∗ := inf{x ∈ R : P[X∗ ≤ x] =1}∈R. 

P[X∗ < ∞] = lim 

n→∞ P[X∗ ≤ n] =0. 

Ist x∗ ∈ R, soist 

P[X∗ ≤ x∗] = lim 

n→∞ P 

� 

X∗ ≤ x∗ + 1 

� 

=1 

n 

und 

P[X∗ −∞] = lim 

n→∞ P[X∗ > −n] =0. 

Für den Limes superior sowie für die Cesàro-Limiten geht dies analog. ✷ 

Übung 2.3.1. Man zeige: Ist (Xn)n∈N eine unabhängige Familie von Zufallsvariablen 

mit P[Xn = −1] = P[Xn = +1] = 1 

2 , und ist Sn = X1 + ...+ Xn für jedes 

n ∈ N, soistlim supn→∞ Sn = ∞ fast sicher. ♣ 

2.4 Beispiel: Perkolation 

Wir betrachten das d-dimensionale Gitter Z d , wobei jeder Punkt durch je eine Kante 

mit seinen 2d nächsten Nachbarpunkten verbunden ist. Sind x, y ∈ Z d nächste 

Nachbarn, das heißt �x − y�2 = 1, so schreiben wir k = 〈x, y〉 = 〈y, x〉 für 

die Kante, die x und y verbindet. Formal ist die Kantenmenge eine Teilmenge der 

zweielementigen Teilmengen von Z d : 

K = � {x, y} : x, y ∈ Z d mit�x − y�2 =1 � . 

Etwas allgemeiner ist ein (ungerichteter) Graph G ein Paar G =(V,K), wobei 

V eine Menge ist (die Menge der Knoten oder Punkte des Graphen) und K ⊂ 

{{x, y} : x, y ∈ V, x �= y} eine Teilmenge aller zweielementigen Teilmengen von 

V (die Menge der Kanten). 

Da wir unter einer Kante intuitiv eine Verbindung zwischen zwei Punkten x und 

y verstehen (und nicht das ungeordnete Paar {x, y}), verwenden wir ein anderes 

Symbol als die Mengenklammern und schreiben 〈x, y〉 statt {x, y}.

2.4 Beispiel: Perkolation 65 

Dieses Gitter ist für uns der Ausgangspunkt für ein stochastisches Modell eines 

porösen Mediums. Wir stellen uns die Kanten als Röhren vor, entlang derer Wasser 

fließen kann. Nun soll das Medium allerdings nicht völlig homogen wasserdurchlässig 

sein, sondern eine amorphe Struktur besitzen, etwa wie Bimsstein. Zu 

diesem Zweck wollen wir zufällig einen gewissen Anteil 1 − p (wobei p ∈ [0, 1] ein 

Parameter ist) der Kanten zerstören, sodass das Wasser nur durch die verbliebenen 

Kanten fließen kann. Die Frage, die sich stellt, ist, bei welchen Werten von p die intakten 

Röhren unendlich große verbundene Systeme bilden und bei welchen Werten 

alle verbundenen Systeme nur endliche Größe haben. 

Wir kommen jetzt zur formalen Beschreibung des Modells. Wir wählen einen Parameter 

p ∈ [0, 1] und eine unabhängige Familie identisch verteilter Zufallsvariablen 

(X p 

k )k∈K mit X p 

k =Berp, also P[X p 

k =1]=1−P[Xp k =0]=p für jedes k ∈ K. 

Dann definieren wir 

K p := {k ∈ K : X p 

k =1} (2.10) 

als die Menge der intakten (oder offenen) Kanten. Entsprechend nennen wir die Kanten 

K \ Kp defekt (oder geschlossen). Auf diese Weise haben wir einen (zufälligen) 

Teilgraphen (Zd ,Kp ) von (Zd ,K) hergestellt. Wir nennen (Zd ,K) auch ein Perkolationsmodell 

(genauer: ein Modell für Kantenperkolation, im Gegensatz zu 

Punktperkolation, wo die einzelnen Punkte geschlossen oder offen sind). Ein (offener) 

Pfad (der Länge n) in diesem Teilgraphen ist eine Folge π =(x0,x1,...,xn) 

von Punkten in Zd mit 〈xi−1,xi〉 ∈Kp für jedes i =1,...,n. Wir sagen, dass zwei 

Punkte x, y ∈ Zd durch einen offenen Pfad verbunden werden können, wenn es ein 

n ∈ N und einen offenen Pfad (x0,x1,...,xn) mit x0 = x und xn = y gibt. In diesem 

Fall schreiben wir x ←→p y. Offenbar ist ←→p“ eine Äquivalenzrelation, je- 

” 

doch eine zufällige, weil sie von den Werten der Zufallsvariablen (X p 

k )k∈K abhängt. 

Für x ∈ Zd nennen wir 

C p (x) :={y ∈ Z d : x ←→p y} (2.11) 

den (zufälligen) offenen Cluster von x, also die Zusammenhangskomponente von x 

in dem Graphen (Z d ,K p ). 

Lemma 2.40. Für je zwei Punkte x, y ∈ Z d ist {x←→ py} eine Zufallsvariable. 

Insbesondere ist #C p (x) eine Zufallsvariable für jedes x ∈ Z d . 

Beweis. Ohne Einschränkung können wir annehmen, dass x =0ist. Wir setzen 

fn(y) =1, falls es einen offenen Pfad von 0 nach y der Länge höchstens n gibt, und 

fn(y) =0sonst. Offenbar ist fn(y) ↑ {0←→ py}, also reicht es, die Messbarkeit 

von fn zu zeigen. Sei Bn := {−n, −n +1,...,n − 1,n} d und Kn := {k ∈ 

K : k ∩ Bn �= ∅}. DannistYn := (X p 

k : k ∈ Kn) :Ω →{0, 1} Kn messbar 

(bezüglich 2 ({0,1}Kn )) nach Satz 1.90. Nun ist aber fn eine Funktion von Yn, sagen 

wir fn = gn◦Yn für gewisses gn : {0, 1} Kn →{0, 1}. Nach dem Verknüpfungssatz 

(Satz 1.80) ist daher fn messbar. 

Der Zusatz folgt, weil #C p (x) = � 

y∈Z d {x←→ py}. ✷


� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � 

Abb. 2.1. Perkolation auf einem 15 × 15 Gitter, p =0.42 

Definition 2.41. Wir sagen, dass Perkolation eintritt, falls es (wenigstens) einen unendlich 

großen, offenen Cluster gibt und nennen 

ψ(p) :=P[es gibt einen unendlich großen, offenen Cluster] 

� � 

= P {#C p � 

(x) =∞} 

x∈Z d 

die Perkolationswahrscheinlichkeit. Wir definieren weiterhin die Funktion 

θ(p) :=P[#C p (0) = ∞] 

als die Wahrscheinlichkeit, dass der Ursprung in einem unendlich großen, offenen 

Cluster liegt. 

Auf Grund der Translationsinvarianz des Gitters ist 

θ(p) =P[#C p (y) =∞] für jedes y ∈ Z d . (2.12)


Die Grundfrage lautet: Wie groß sind θ(p) und ψ(p) in Abhängigkeit von p? 

Wir machen die folgende, intuitiv leicht einsehbare Beobachtung. 

Satz 2.42. Die Abbildung [0, 1] → [0, 1], p ↦→ θ(p) ist monoton wachsend. 

Beweis. Obwohl die Aussage offensichtlich erscheint, wollen wir einen formalen 

Beweis geben, weil er ein wichtiges Beweisprinzip, das der Kopplung, verwendet. 

Seien p, p ′ ∈ [0, 1] mit p 0. 

Beweis. Ist θ(p) =0, so ist nach (2.12) 

ψ(p) ≤ � 

P[#C p (y) =∞] = � 

θ(p) =0. 

y∈Z d 

y∈Z d 

Sei nun A = � 

y∈Zd{#Cp (y) = ∞}. Offenbar ändert es nichts am Eintreten 

von A, wenn endlich viele Kanten ihren Zustand verändern. Das heißt A ∈ 

σ((X p 

k ) k∈K\Kn 

) für jedes n ∈ N. Nach Satz 2.35 ist A also in der terminalen σ- 

Algebra T ((X p 

k )k∈K). Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) gilt 

also ψ(p) =P[A] ∈{0, 1}. Ist nun θ(p) > 0, so folgt wegen ψ(p) ≥ θ(p) schon 

ψ(p) =1. ✷


Aufgrund der Monotonie können wir nun die folgende Definition treffen. 

Definition 2.44. Der kritische Wert pc für das Auftreten von Perkolation wird definiert 

als 

pc = inf{p ∈ [0, 1] : θ(p) > 0} = sup{p ∈ [0, 1] : θ(p) =0} 

= inf{p ∈ [0, 1] : ψ(p) =1} = sup{p∈ [0, 1] : ψ(p) =0}. 

Wir kommen zu einem Hauptsatz dieses Abschnitts. 

Satz 2.45. Für d =1 ist pc =1.Für d ≥ 2 ist pc(d) ∈ � 

1 

2d−1 

� 

2 , 3 . 

Beweis. Sei zunächst d =1und p


Es reicht also, den Fall d =2zu betrachten. Hier zeigen wir pc ≤ 2 

3 . Wir geben ein 

Konturargument an, das von Peierls für ein Magnetismusmodell (das Ising Modell, 

siehe Beispiel 18.21 und speziell (18.13)) entwickelt wurde (siehe [119]). 

Für N ∈ N schreiben wir (vergleiche (2.11) mit x =(i, 0)) 

CN := 

N� 

C p� (i, 0) � 

i=0 

für die Menge der Punkte, die eine offene Verbindung in die Menge {0,...,N}× 

{0} haben. Dann ist wegen der Subadditivität der Wahrscheinlichkeit (und wegen 

P[#C p� (i, 0) � = ∞] =θ(p) für jedes i ∈ Z) 

θ(p) = 

1 

N +1 

N� 

P � #C p� (i, 0) � = ∞ � ≥ 

i=0 

1 

N +1 P� #CN = ∞ � . 

Wir betrachten nun Konturen im dualen Graphen ( ˜ Z 2 , ˜ K), dieCN umschließen, 

falls #CN < ∞. Der duale Graph ist dabei definiert durch 

˜Z 2 � 

1 1 

� 

= , + Z 

2 2 

2 , 

� 

˜K = {x, y} : x, y ∈ ˜ Z 2 � 

, �x − y�2 =1 . 

Eine Kante ˜ k im dualen Graphen ( ˜ Z2 , ˜ K) kreuzt also genau eine Kante k in 

(Z2 ,K). Wir nennen ˜ k offen, falls k offen ist, und sonst geschlossen. Ein Kreis 

γ ist ein selbstüberschneidungsfreier Pfad in ( ˜ Z2 , ˜ K), bei dem Anfangs- und Endpunkt 

übereinstimmen. Eine Kontur der Menge CN ist ein minimaler Kreis, der CN 

umschließt. Minimal heißt dabei, dass die umschlossene Fläche minimal ist (siehe 

Abb. 2.2). Für n ≥ 2N sei 

� 

� 

Γn = γ : γ ist ein Kreis der Länge n und umschließt {0,...,N}×{0} . 

Wir wollen eine obere Abschätzung für #Γn angeben. Dafür wählen wir für γ ∈ 

Γn � einen Punkt � aus γ willkürlich als Startpunkt aus, nämlich den oberen Punkt 

1 1 m + 2 , 2 des rechtesten x-Achsendurchgangs von γ (in Abb. 2.2 ist dies der 

Punkt � 5+ 1 

� 

1 

2 , 2 ). Offenbar ist m ≥ N und m ≤ n weil der Ursprung von Γn 

umschlossen wird. Ausgehend von � m + 1 

� 

1 

2 , 2 gibt es für jede weitere Kante von γ 

jeweils höchstens drei Möglichkeiten. Also ist 

#Γn ≤ n · 3 n . 

Der Kreis γ heißt geschlossen, wenn er nur (in ˜ K) geschlossene Kanten benutzt. 

Eine Kontur von CN muss automatisch geschlossen sein und eine Länge größer als 

2N haben. Daher gilt für p> 2 

3


1 

0 

−1 

� � � � � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � � � � 

� � � � � � � � � � � � � � � � � � 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� � � � � � � 

❜ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 

❜ ❜ ❜ ❜ ♣ 

� � � � � � � 

❜ ♣♣♣♣♣♣♣♣♣♣❜ 

❜ ♣♣♣♣♣♣♣♣♣❜ 

♣ 

� � � � � � � 

❜ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 

❜ ❜ ❜ ❜ ♣ ❜ 

� � � � � � � 

❜ ❜ 

� � � � � � � 

❜ ❜ ♣♣♣♣♣♣♣♣♣❜ 

♣ 

� � � � � � � 

❜ ❜ ♣♣♣♣♣♣♣♣♣♣❜ 

♣ ❜ 

� � � � � � � 

❜ ♣♣♣♣♣♣♣♣♣❜ 

❜ ❜ 

� � � � � � � 

♣♣♣♣♣♣♣♣♣ ❜ ❜ 

� � � � � � � 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

� 

−1 0 1 5 

P[#CN < ∞] = 

≤ 

Abb. 2.2. Kontur des Clusters C5 

∞� 

n=2N 

∞� 

n=2N 

P � � 

es gibt einen geschlossenen Kreis γ ∈ Γn 

n · � 3(1 − p) � n N→∞ 

−→ 0. 

Es folgt pc ≤ 2 

3 . ✷ 

Im Allgemeinen ist der Wert von pc nicht bekannt und extrem schwer zu bestimmen. 

Im Fall der Kantenperkolation in Z 2 ist allerdings ein genaues Ergebnis bekannt, 

da man hier das starke Hilfsmittel der Selbstdualität des Graphen (Z 2 ,K) 

zur Verfügung hat. (Ist G =(V,K) ein planarer Graph, also einer, den man mit 

überschneidungsfreien Kanten in den R 2 einbetten kann, so hat der duale Graph als 

Punktmenge die Menge der Flächen von G und als Kante zwischen zwei solchen 

Punkten, diejenige Kante aus K, die die beiden Flächenstücke trennt. Offenbar ist 

das zweidimensionale Gitter als Graph isomorph zu seinem dualen Graphen. Man 

beachte, dass man die Kontur in Abb. 2.2 als geschlossenen Pfad im dualen Graphen 

auffassen kann.) Wir zitieren hier den Satz von Kesten [93]. 

Satz 2.46 (Kesten (1980)). Für Kantenperkolation in Z 2 ist die kritische Wahrscheinlichkeit 

pc = 1 

2 , und es gilt θ(pc) =0. 

Beweis. Siehe etwa das Buch von Grimmett [62, Seite 287ff]. ✷


Es wird vermutet, dass θ(pc) =0in jeder Dimension d ≥ 2 gilt. Rigoros bewiesen 

ist dies allerdings nur für d =2und d ≥ 19 (siehe [66]). 

Eindeutigkeit des unendlichen Clusters ∗ 

Es sei p so gewählt, dass θ(p) > 0 ist. Wir haben gesehen, dass es mit Wahrscheinlichkeit 

1 mindestens einen unendlich großen, offenen Cluster gibt. Wir wollen nun 

zeigen, dass es genau einen gibt. 

Sei also N ∈{0, 1,...,∞} die (zufällige) Anzahl von unendlich großen Clustern. 

Satz 2.47 (Eindeutigkeit des unendlichen großen Clusters). Für jedes p ∈ [0, 1] 

gilt Pp[N ≤ 1] = 1. 

Beweis. Diese Aussage wurde erstmals von Aizenman, Kesten und Newman gezeigt 

[1, 2]. Wir folgen der einfacheren Beweisidee von Burton und Keane [25], wie 

sie etwa in [62, Abschnitt 8.2] beschrieben wird. 

In den Fällen p =1und θ(p) =0(speziell also im Fall p =0) ist die Aussage 

trivial. Seien nun also p ∈ (0, 1) und θ(p) > 0. 

1. Schritt Wir zeigen zunächst: 

Pp[N = m] =1 für ein m =0, 1,...,∞. (2.13) 

Wir benötigen ein 0-1 Gesetz, ähnlich dem Kolmogorov’schen. Allerdings ist N 

nicht messbar bezüglich der terminalen σ-Algebra, wir müssen also etwas subtiler 

vorgehen. Sei e1 =(1, 0,...,0) der erste Einheitsvektor in Zd . Auf der Kantenmenge 

K definieren wir die Translation τ : K → K durch τ(〈x, y〉) =〈x + e1,y+ e1〉. 

Sei 

K0 := � 〈(x1,...,xd), (y1,...,yd)〉 ∈K : x1 =0,y1≥ 0 � 

die Menge aller Kanten in Zd , die zwei Punkte in {0}×Zd−1 verbinden oder einen 

Punkt aus {0}×Zd−1 mit einem aus {1}×Zd−1 verbinden. Offenbar sind die Men- 

gen (τ n (K0), n∈ Z) disjunkt und K = � 

n∈Z τ n (K0). Daher sind die Zufallsva- 

riablen Yn := (X p 

τ n )k∈K0 (k) , n ∈ Z, unabhängig und identisch verteilt (mit Werten 

in {0, 1} K0 ). Setze Y =(Yn)n∈Zund τ(Y )=(Yn+1)n∈Z. SeiAm∈{0, 1} K 

definiert durch 

{Y ∈ Am} = {N = m}. 

Offenbar ändert sich der Wert von N nicht, wenn wir alle Kanten gleichzeitig verschieben. 

Es gilt also {Y ∈ Am} = {τ(Y ) ∈ Am}. Ein Ereignis mit dieser 

Eigenschaft nennen wir invariant. Mit einem Argument ähnlich dem für das Kolmogorov’sche 

0-1 Gesetz kann man zeigen, dass invariante Ereignisse (die durch 

u.i.v. Zufallsvariablen definiert werden) nur die Wahrscheinlichkeiten 0 oder 1 haben 

können (für einen formalen Beweis siehe Beispiel 20.26).


2. Schritt Wir zeigen: 

Pp[N = m] =0 für jedes m ∈ N \{1}. (2.14) 

Sei also m =2, 3,... Wir nehmen an, dass P[N = m] =1gilt und führen dies 

zum Widerspruch. 

Für L ∈ N setzen wir BL := {−L,...,L} d und bezeichnen mit KL = {k = 

〈x, y〉 ∈K : x, y ∈ BL} die Menge der Kanten, deren beide Endpunkte in BL 

liegen. Für i =0, 1 sei Di L := {Xp k = i für alle k ∈ KL}. SeiN1 L die Anzahl der 

unendlichen Cluster, wenn wir (unabhängig vom Wert von X p 

k ) jede Kante k in KL 

als offen betrachten. Analog definieren wir N 0 L , wobei wir hier die Kanten in KL 

als geschlossen betrachten. Wegen Pp[Di L ] > 0, und wegen N = m fast sicher, gilt 

N i L = m fast sicher für i =0, 1. 

Sei 

A 2 � � � � p 1 p 2 p 1 

L:= 

C (x ) ∩ C (x )=∅ ∩ #C (x )=#Cp(x 2 )=∞ � 

x 1 ,x 2 ∈BL\BL−1 

das Ereignis, dass es zwei Punkte auf dem Rand von BL gibt, die in unterschiedlichen, 

unendlich großen, offenen Clustern sitzen. Offenbar gilt A2 L ↑{N ≥ 2} für 

L →∞. 

Sei A2 L,0 ähnlich wie A2L definiert, jedoch wollen wir alle Kanten k ∈ KL als 

geschlossen betrachten, egal ob X p 

k =1oder Xp 

k =0ist. Tritt A2L ein, so gibt es 

zwei Punkte x1 ,x2 auf dem Rand von BL und zu jedem i =1, 2 einen unendlich 

langen selbstüberschneidungsfreien, offenen Pfad πxi, der in xi startet und x3−i vermeidet. Es gilt also A2 L ⊂ A2L,0 .Wähle nun L so groß, dass P[A2L,0 ] > 0 ist. 

Tritt A 2 L,0 ein und werden alle Kanten in BL geöffnet, so werden mindestens zwei 

der unendlich großen, offenen Cluster durch Kanten in BL verbunden, die Gesamt- 

zahl der unendlich großen, offenen Cluster also um mindestens Eins verringert. Es 

folgt Pp[N 1 L ≤ N 0 L − 1] ≥ Pp[A2 L,0 ] > 0, was einen Widerspruch bedeutet. 

3. Schritt Da wir im zweiten Schritt bereits gezeigt haben, dass N fast sicher 

keinen endlichen Wert größer als 1 annimmt, brauchen wir nun nur noch zu zeigen, 

dass N fast sicher nicht den Wert ∞ annimmt. Wir zeigen hier, dass in der Tat gilt: 

Pp[N ≥ 3] = 0. (2.15) 

Dieses ist der schwierigste Teil. Wir nehmen an, dass Pp[N ≥ 3] > 0 gilt und 

führen dies zum Widerspruch. 

Wir nennen einen Punkt x ∈ Z d einen Trifurkationspunkt, falls x in einem unendlich 

großen, offenen Cluster C p (x) liegt, genau drei offene Kanten zu x führen und 

die Wegnahme dieser drei Kanten C p (x) in drei unendlich große, disjunkte Cluster 

zerteilt. Mit T bezeichnen wir die Menge der Trifurkationspunkte und schreiben 

TL := T ∩ BL. Seir := Pp[0 ∈ T ]. Aufgrund der Translationsinvarianz gilt 

(#BL) −1 Ep[#TL] =r für jedes L.

Sei 

A 3 L:= 

� 

x 1 ,x 2 ,x 3 ∈BL\BL−1 

� � 

i�=j 


{C p (x i ) ∩ C p (x j � � 

�3 

)=∅} ∩ {#C p (x i � 

)=∞} 

das Ereignis, dass es drei Punkte auf dem Rand von BL gibt, die in unterschiedlichen, 

unendlich großen, offenen Clustern sitzen. Offenbar gilt A3 L ↑{N ≥ 3} für 

L →∞. 

Analog zu A2 L,0 definieren wir A3 L,0 

Rand von BL gibt, die in unterschiedlichen unendlich großen, offenen Clustern sitzen, 

wenn wir alle Kanten in KL als geschlossen ansehen. Wie oben ist A3 L ⊂ A3L,0 . 

i=1 

als das Ereignis, dass es drei Punkte auf dem 

Für drei unterschiedliche Punkte x 1 ,x 2 ,x 3 ∈ BL \BL−1 sei F x 1 ,x 2 ,x 3 das Ereignis, 

dass es zu jedem i =1, 2, 3 einen unendlich langen selbstüberschneidungsfreien, 

offenen Pfad π x i gibt, der in x i startet, nur Kanten aus K p \ KL benutzt und die 

anderen xj , j �= i, vermeidet. Dann gilt 

A 3 � 

L,0 ⊂ 

x 1 ,x 2 ,x 3 ∈BL\BL−1 

paarweise unterschiedlich 

F x 1 ,x 2 ,x 3. 

Sei L so groß, dass Pp[A 3 L,0 ] ≥ Pp[N ≥ 3]/2 > 0 gilt. Wähle drei unterschiedliche 

Punkte x 1 ,x 2 ,x 3 ∈ BL \ BL−1 mit Pp[F x 1 ,x 2 ,x 3] > 0. 

Tritt F x 1 ,x 2 ,x 3 ein,sokönnen wir einen Punkt y ∈ BL finden, von dem aus drei 

disjunkte (nicht notwendigerweise offene) Pfade π1, π2 und π3 zu den Punkten x 1 , 

x 2 und x 3 führen. Sei G y,x 1 ,x 2 ,x 3 das Ereignis, dass in KL genau diejenigen Kanten 

offen sind, die zu diesen Pfaden gehören, und alle anderen geschlossen. Die Ereignisse 

F x 1 ,x 2 ,x 3 und G y,x 1 ,x 2 ,x 3 sind unabhängig, und y ist ein Trifurkationspunkt, 

falls beide eintreten. Daher ist 

r = Pp[y ∈ T ] ≥ Pp[Fx1 ,x2 ,x3] · � p ∧ (1 − p) � #KL 

> 0. 

Wir zeigen nun, dass r =0sein muss, was die Annahme Pp[N ≥ 3] > 0 ad absurdum 

führt. Wir machen die Menge TL zu einem Graphen, indem wir zwei Punkte 

x, y ∈ TL als benachbart betrachten, falls es einen offenen Pfad von x nach y gibt, 

der keinen anderen Punkt in T trifft. Wir schreiben dann x ∼ y. Eine Schleife ist ein 

selbstüberschneidungsfreier, endlicher Pfad, der zu seinem Startpunkt zurückkehrt. 

Der Graph (TL, ∼) ist schleifenfrei. In der Tat: gäbe es einen in x ∈ TL startenden 

selbstüberschneidungsfreien Pfad, der, sagen wir, die beiden Punkte y, z ∈ TL trifft, 

so entstünden durch die Wegnahme der drei Kanten k ∈ Kp , die an x angrenzen, 

höchstens zwei Cluster - wobei einer y und z enthält. 

Wir schreiben degTL (x) für die Anzahl der Nachbarn von x in TL.DaTL schleifenfrei 

ist, ist #TL− 1 � 

2 x∈TL degTL (x) die Anzahl der Zusammenhangskomponenten 

von TL, also insbesondere nichtnegativ. Andererseits ist 3 − degTL (x) die Anzahl


von Kanten k ∈ Kp , die an x angrenzen und deren Wegnahme einen unendlich 

großen, offenen Cluster erzeugt, in dem kein weiterer Punkt von TL liegt. Sei ML 

die Anzahl der unendlich großen, offenen Cluster, die entstehen, wenn wir von allen 

Punkten in TL die drei benachbarten offenen Kanten wegnehmen. Es ist dann 

ML = � 

(3 − degTL (x)) ≥ #TL. 

x∈TL 

Zu jedem dieser Cluster gehört aber (mindestens) ein Punkt auf BL \BL−1. Es folgt 

#TL 

#BL 

≤ #(BL \ BL−1) 

#BL 

≤ d 

L 

L→∞ 

−→ 0. 

Wegen r =(#BL) −1 E[#TL] ≤ d/L folgt r =0. (Man beachte, dass wir hier im 

Vorgriff auf Kapitel 5 den Erwartungswert E[#TL] benutzt haben.) ✷

3 Erzeugendenfunktion 

Ein wichtiges Prinzip in der Mathematik ist es, eine Klasse von Objekten, die man 

betrachten möchte, in eine andere Klasse von Objekten, mit denen man besser rechnen 

kann, hinein abzubilden. Diese Abbildung kann eineindeutig sein, etwa bei der 

Zuordnung von Matrizen zu linearen Abbildungen, oder auch nur manche Eigenschaften 

eindeutig abbilden, etwa bei Determinanten. 

Zu der zweiten Kategorie gehören in der Wahrscheinlichkeitstheorie die Kenngrößen 

wie Median, Erwartungswert und Varianz von Zufallsvariablen. Zur ersten 

Kategorie hingegen charakteristische Funktionen, Laplace-Transformierte und Erzeugendenfunktionen, 

die enge Verwandte sind und ihre Nützlichkeit daraus ziehen, 

dass Addition von unabhängigen Zufallsvariablen in Multiplikation übergeht. Bevor 

wirinspäteren Kapiteln insbesondere die charakteristischen Funktionen ausgiebig 

behandeln, wollen wir wichtige Grundideen in der einfacheren Situation der Erzeugendenfunktionen, 

deren Anwendung auf N0-wertige Zufallsvariablen beschränkt 

ist, kennen lernen. 

3.1 Definition und Beispiele 

Definition 3.1 (Erzeugendenfunktion). Sei X eine N0-wertige Zufallsvariable. 

Die Abbildung ψPX = ψX, die erklärt wird durch 

ψX :[0, 1] → [0, 1], z ↦→ 

∞� 

P[X = n] z n , (3.1) 

n=0 

heißt Erzeugendenfunktion von PX (oder etwas lax: von X). 

Satz 3.2. (i) ψX ist stetig und in (0, 1) unendlich oft stetig differenzierbar. Es 

gilt für n ∈ N und die n-te Ableitung ψ (n) 

X 

lim ψ 

z↑1 (n) 

X 

(z) = 

∞� 

P[X = k] · k(k − 1) ···(k − n +1), (3.2) 

k=n 

wobei beide Seiten =+∞ sein können.

76 3 Erzeugendenfunktion 

(ii) Die Verteilung PX von X ist durch ψX eindeutig charakterisiert. 

(iii) ψX ist durch die Angabe von abzählbar vielen Werten ψX(xi), xi ∈ [0, 1], 

i ∈ N, eindeutig festgelegt. Konvergiert die Reihe in (3.1) auch für ein z>1, 

so gilt 

lim X (z) =ψ(n) 

X (1) < ∞ für n ∈ N, 

z↑1 ψ (n) 

und ψX ist durch Angabe von ψ (n) 

X (1), n ∈ N, eindeutig charakterisiert. 

Beweis. Das folgt aus der elementaren Theorie der Potenzreihen. ✷ 

Satz 3.3 (Multiplikativität der Erzeugendenfunktion). Sind X1,...,Xn unabhängig 

und N0-wertig, so ist 

n� 

ψX1+...+Xn = 

i=1 

ψXi . 

Beweis. Für z ∈ [0, 1) können wir ψX1 (z) ψX2 (z) als Cauchy-Produkt schreiben 

� 

∞� 

ψX1 (z) ψX2 (z) = P[X1 = n] z n 

�� 

∞� 

P[X2 = n] z n 

� 

= 

= 

= 

n=0 

n=0 

∞� 

z n 

� 

n� 

� 

P[X1 = m] P[X2 = n − m] 

n=0 

∞� 

z n 

n=0 

∞� 

n=0 

m=0 

n� 

P[X1 = m, X2 = n − m] 

m=0 

P[X1 + X2 = n] z n = ψX1+X2 (z). 

Induktiv folgt die Aussage für jedes n ≥ 2. ✷ 

Beispiel 3.4. (i) Sei Xbn,p-verteilt für gewisse n ∈ N und p ∈ [0, 1]. Dannist 

ψX(z) = 

n� 

m=0 

� � 

n 

p 

m 

m (1 − p) n−m z m = � pz +(1−p) �n . (3.3) 

(ii) Sind X, Y unabhängig und bm,p beziehungsweise bn,p-verteilt, so ist nach 

Satz 3.3 

ψX+Y (z) = � pz +(1−p) �m � �n pz +(1−p) � �m+n. = pz +(1−p) Also ist nach Satz 3.2(ii) X + Ybm+n,p-verteilt und damit (nach Satz 2.31)

m,p ∗ bn,p = bm+n,p. 

3.1 Definition und Beispiele 77 

(iii) Seien X und Y unabhängig und Poisson-verteilt mit Parametern λ ≥ 0 und 

μ ≥ 0, also P[X = n] =e −λ λ n /n! für n ∈ N0. Dannist 

ψPoiλ (z) = 

∞� 

n=0 

Also hat X + Y die Erzeugendenfunktion 

−λ (λz)n 

e 

n! = eλ(z−1) . (3.4) 

ψPoiλ (z) · ψPoiμ (z) =eλ(z−1) e μ(z−1) = ψPoiλ+μ (z), 

und daher ist X + Y ∼ Poiλ+μ. Es folgt 

Poiλ ∗ Poiμ =Poiλ+μ. (3.5) 

(iv) Seien X1,...,Xn ∼ γp unabhängig und geometrisch verteilt mit Parameter 

p ∈ (0, 1). Wir setzen Y = X1 + ...+ Xn.Esistfür z ∈ [0, 1] 

ψX1 (z) = 

∞� 

k=0 

p(1 − p) k z k = 

p 

. (3.6) 

1 − (1 − p)z 

Nach der verallgemeinerten binomischen Formel (siehe Lemma 3.5 mit α = −n), 

Satz 3.3 und (3.6) ist 

ψY (z) =ψX1 (z)n p 

= 

n 

(1 − (1 − p)z) n 

∞� 

= p n 

� � 

−n 

(−1) 

k 

k (1 − p) k z k 

= 

k=0 

∞� 

b − n,p({k}) z k , 

k=0 

wobei für beliebiges r ∈ (0, ∞) und p ∈ (0, 1] 

b − r,p = 

∞� 

k=0 

� � 

−r 

(−1) 

k 

k p r (1 − p) k δk 

(3.7) 

die negative Binomialverteilung mit Parametern r und p ist. Nach dem Eindeutigkeitssatz 

für Erzeugendenfunktionen ist damit Y ∼ b− n,p, also (siehe Definition 2.29 

für die n-te Faltungspotenz) b− n,p = γ∗n p . ✸ 

Lemma 3.5 (Verallgemeinerter binomischer Lehrsatz). Für α ∈ R und k ∈ N0 

definieren wir den Binomialkoeffizienten


� � 

α 

:= 

k 

Es gilt die erweiterte binomische Formel: 

Speziell gilt 

(1 + x) α = 

1 

√ 1 − x = 

∞� 

n=0 

∞� 

k=0 

α · (α − 1) ···(α − k +1) 

. (3.8) 

k! 

� � 

α 

x 

k 

k 

� � 

2n 

4 

n 

−n x n 

für jedes x ∈ C mit |x| < 1. (3.9) 

für jedes x ∈ C mit |x| < 1. (3.10) 

Beweis. Die Abbildung f : x ↦→ (1 + x) α ist holomorph bis auf eventuell eine 

Singularität bei x = −1, ist also um 0 in eine Potenzreihe entwickelbar mit Radius 

mindestens 1: 

f(x) = 

∞� 

k=0 

f (k) (0) 

k! 

x k 

für |x| < 1. 

Für k ∈ N0 ist die k-te Ableitung f (k) (0) = α(α − 1) ···(α − k +1), also folgt 

(3.9). 

Der Zusatz folgt, weil für α = −1/2 gilt, dass � � � � −1/2 2n −n 

n = n (−4) . ✷ 

Übung 3.1.1. Man zeige b − r,p ∗ b − s,p = b − r+s,p für r, s ∈ (0, ∞) und p ∈ (0, 1]. ♣ 

3.2 Poisson-Approximation 

Lemma 3.6. Seien μ und (μn)n∈N W-Maße auf (N0, 2N0 ) mit Erzeugendenfunktionen 

ψμ und ψμn ,n∈ N. Dann sind äquivalent 

(i) μn({k}) n→∞ 

−→ μ({k}) für jedes k ∈ N0, 

(ii) μn(A) n→∞ 

−→ μ(A) für jedes A ⊂ N0, 

(iii) ψn(z) n→∞ 

−→ ψ(z) für jedes z ∈ [0, 1], 

(iv) ψn(z) n→∞ 

−→ ψ(z) für jedes z ∈ [0,η) für ein η>0. 

Gilt eine der vier Bedingungen, so schreiben wir μn 

konvergiere schwach gegen μ. 

n→∞ 

−→ μ und sagen (μn)n∈N 

Beweis. (i) =⇒ (ii) Sei ε>0 und N ∈ N so gewählt, dass μ({N +1,N + 

2,...}) < ε 

4 .Für hinreichend großes n0 ∈ N ist ferner

N� � 

�μn({k}) − μ({k}) � � 

ε 

< 

4 

k=0 

3.2 Poisson-Approximation 79 

für jedes n ≥ n0. 

Speziell ist für n ≥ n0 auch μn({N +1,N +2,...}) < ε 

2 .Alsoistfür n ≥ n0 

� 

�μn(A) − μ(A) � � ≤ μn({N +1,N +2,...})+μ({N +1,N +2,...}) 

n). Für jedes n ∈ N sei (Xn,k)k∈N eine unabhängige 

Familie von Zufallsvariablen mit Xn,k ∼ Berpn,k . Setze 

S n := 

∞� 

l=1 

Xn,l und S n k := 

k� 

Xn,l für k ∈ N. 

Satz 3.7 (Poisson-Approximation). Unter den obigen Annahmen konvergieren 

die Verteilungen (PS n)n∈N schwach gegen die Poisson-Verteilung Poiλ. 

Beweis. Die Poisson-Verteilung hat die Erzeugendenfunktion ψ(z) =eλ(z−1) (siehe 

(3.4)). Andererseits sind Sn − Sn k und Sn k unabhängig für jedes k ∈ N, also 

.Nunistfür jedes z ∈ [0, 1] 

ψS n = ψS n k · ψS n −S n k 

1 ≥ 

ψS n(z) 

l=1 

ψS n k (z) = ψS n −S n k (z) ≥ 1 − P[Sn − S n k ≥ 1] ≥ 1 − 

∞� 

l=k+1 

pn,l 

k→∞ 

−→ 1,


also 

ψSn(z) = lim 

k→∞ ψSn(z) = 

k 

∞� 

l=1 

=exp 

(pn,lz +(1− pn,l)) 

� ∞� 

l=1 

log � 1+pn,l(z − 1) �� 

. 

Für |x| < 1 

2 ist | log(1 + x) − x| ≤x2 . Nach Voraussetzung gilt max 

l∈N pn,l → 0 für 

n →∞, also ist für hinreichend großes n 

�� 

� �∞ 

� 

� log 

l=1 

� 1+pn,l(z − 1) �� 

� ∞� 

�� 

�� 

− (z − 1) pn,l 

l=1 

∞� 

≤ p 2 � 

∞� 

� 

n→∞ 

n,l ≤ 

−→ 0. 

Zusammen mit (3.11) folgt 

lim ψSn(z) = lim 

n→∞ n→∞ exp 

3.3 Verzweigungsprozesse 

l=1 

l=1 

� 

∞� 

(z − 1) 

l=1 

pn,l 

pn,l 

max 

l∈N pn,l 

� 

= e λ(z−1) . ✷ 

Seien T,X1,X2,...unabhängige, N0-wertige Zufallsvariablen. Wie sieht die Verteilung 

von S := �T n=1 Xn aus? Zunächst bemerken wir, dass S messbar ist, denn 

∞� 

{S = k} = {T = n}∩{X1 + ...+ Xn = k}. 

n=0 

Satz 3.8. Sind die X1,X2,...zusätzlich identisch verteilt, so ist die Erzeugendenfunktion 

von S gegeben durch ψS(z) =ψT (ψX1 (z)). 

Beweis. 

ψS(z) = 

= 

= 

∞� 

P[S = k] z k 

k=0 

∞� 

k=0 n=0 

∞� 

n=0 

∞� 

P[T = n] P[X1 + ...+ Xn = k] z k 

P[T = n] ψX1 (z)n � 

= ψT ψX1 (z)� . ✷

3.3 Verzweigungsprozesse 81 

Wir nehmen jetzt an, dass p0,p1,p2,... ∈ [0, 1] sind mit � ∞ 

k=0 pk = 1.Sei 

(Xn,i)n,i∈N0 eine unabhängige Familie von Zufallsvariablen mit P[Xn,i = k] =pk 

für jedes k ∈ N0 und jedes i ∈ N. 

Setze Z0 =1und 

Zn = 

Zn−1 � 

i=1 

Xn−1,i für n ∈ N. 

Wir geben die folgende Interpretation an: Zn ist die Anzahl von Individuen in der 

n-ten Generation einer sich zufällig entwickelnden Population. Das i-te Individuum 

aus der n-ten Generation hat Xn,i Nachkommen (in der (n +1)-ten Generation). 

Definition 3.9. (Zn)n∈N0 heißt Galton-Watson-Prozess oder Verzweigungsprozess 

mit Nachkommenverteilung (pk)k∈N0 . 

Ein wichtiges Hilfsmittel bei der Untersuchung von Verzweigungsprozessen sind 

Erzeugendenfunktionen. Sei also 

ψ(z) = 

∞� 

k=0 

pk z k 

die Erzeugendenfunktion der Nachkommenverteilung und ψ ′ deren Ableitung. Wir 

definieren die n-te Iterierte von ψ durch 

ψ1 := ψ, ψn := ψ ◦ ψn−1 für n =2, 3,... 

Sei schließlich ψZn die Erzeugendenfunktion von Zn. 

Lemma 3.10. Es gilt ψn = ψZn 

für jedes n ∈ N. 

Beweis. Für n =1ist dies per Definition richtig. Für n ∈ N folgt mit Satz 3.8 

induktiv ψZn+1 = ψ ◦ ψZn = ψ ◦ ψn = ψn+1. ✷ 

Offenbar ist die Wahrscheinlichkeit qn := P[Zn =0],dassZ zur Zeit n schon 

ausgestorben ist, wachsend in n. Wir bezeichnen mit 

q := lim 

n→∞ P[Zn =0] 

die Aussterbewahrscheinlichkeit. 

Unter welchen Bedingungen ist q =0, q =1, oder q ∈ (0, 1)? Offenbar ist q ≥ p0. 

Ist andererseits p0 =0,soistZn wachsend in n, also q =0.


Satz 3.11 (Aussterbewahrscheinlichkeit des Galton-Watson-Prozesses). 

Sei p1 �= 1. 

(i) Es gilt {r ∈ [0, 1] : ψ(r) =r} = {q, 1}. 

(ii) Es gelten die Äquivalenzen 

q 1 ⇐⇒ 

∞� 

kpk > 1. 

Beweis. ψ ist strikt konvex und monoton wachsend und ψ(1) = 1. Istlim ψ 

z↑1 ′ (z) ≤ 

1, soistψ(z) >zfür jedes z ∈ [0, 1). Istlim ψ 

z↑1 ′ (z) > 1, so gibt es genau ein 

r ∈ [0, 1) mit ψ(r) =r. Offenbar ist 

q =0 ⇐⇒ p0 =0 ⇐⇒ ψ(0) = 0 ⇐⇒ ψ(z) 0 angenommen. Offenbar gilt 

qn = ψn(0) = ψ(qn−1). 

Wir wissen, dass qn ↑ q. Daψ stetig ist, gilt 

k=1 

ψ(q) =ψ( lim 

n→∞ qn) = lim 

n→∞ ψ(qn) = lim 

n→∞ qn+1 = q. 

Also ist q ein Fixpunkt von ψ, und wir müssen im Fall ψ ′ (1) > 1 noch ausschließen, 

dass q =1ist. Ist r = ψ(r), soistr≥ ψ(0) = q0, also r = ψ(r) ≥ ψ(q0) =q1 

und induktiv r ≥ qn für jedes n ∈ N0, also r ≥ q. Mithin ist q die kleinste Lösung 

in [0, 1] von ψ(r) =r. 

Die zweite Äquivalenz in (ii) folgt aus (3.2). ✷

4 Das Integral 

Nach dem Begriff des Maßraums und der messbaren Abbildung ist das Integral 

messbarer reeller Abbildungen bezüglich allgemeiner Maße, nicht nur des 

Lebesgue-Maßes, wie es in den meisten Analysis-Vorlesungen behandelt wird, ein 

Eckstein der systematischen Wahrscheinlichkeitstheorie, der es uns beispielsweise 

erlaubt, Erwartungswerte und höhere Momente zu definieren. 

In diesem Kapitel definieren wir das Integral durch Approximation mit Elementarfunktionen 

und leiten einfache Eigenschaften her wie das Lemma von Fatou. Die 

anderen Konvergenzsätze für Integrale folgen in den Kapiteln 6 und 7. 

4.1 Konstruktion und einfache Eigenschaften 

Sei im Folgenden stets (Ω,A,μ) ein Maßraum. Wir bezeichnen mit E den Vektorraum 

der Elementarfunktionen (siehe Definition 1.93) auf (Ω,A) und mit E + := 

{f ∈ E : f ≥ 0} den Kegel (woher der Name?) der nichtnegativen Elementarfunktionen. 

Gilt 

m� 

f = αi Ai (4.1) 

i=1 

für gewisses m ∈ N und für α1,...,αm ∈ (0, ∞) sowie paarweise disjunkte Mengen 

A1,...,Am ∈A, so sagen wir, dass (4.1) eine Normaldarstellung der Elementarfunktion 

f ist. 

Lemma 4.1. Sind f = �m i=1 αi Ai und f = �n j=1 βj Bj 

lungen von f ∈ E + , so gilt 

m� 

αi μ(Ai) = 

i=1 

n� 

βj μ(Bj). 

j=1 

zwei Normaldarstel- 

Beweis. Ist μ(Ai ∩ Bj) > 0 für gewisse i und j, soistAi∩Bj �= ∅, und für jedes 

ω ∈ Ai ∩ Bj ist f(ω) =αi = βj. Außerdem ist offenbar Ai ⊂ �n j=1 Bj, falls 

αi �= 0und Bj ⊂ �m i=1 Ai, falls βj �= 0. Es folgt

84 4 Das Integral 

m� 

m� n� 

αi μ(Ai) = αi μ(Ai ∩ Bj) 

i=1 

= 

i=1 j=1 

m� 

i=1 j=1 

n� 

βj μ(Ai ∩ Bj) = 

n� 

βj μ(Bj). ✷ 

Dieses Lemma erlaubt uns, die folgende Definition zu treffen (weil der definierte 

Wert I(f) von der gewählten Normaldarstellung nicht abhängt). 

Definition 4.2. Wir definieren eine Abbildung I : E + → [0, ∞] durch 

I(f) = 

m� 

i=1 

αi μ(Ai), 

falls f die Normaldarstellung f = � m 

i=1 αi Ai hat. 

Lemma 4.3. Die Abbildung I ist positiv linear und monoton: Seien f,g ∈ E + und 

α ≥ 0. Dann gelten die folgenden Aussagen. 

(i) I(αf) =αI(f). 

(ii) I(f + g) =I(f)+I(g). 

(iii) Ist f ≤ g,soistI(f) ≤ I(g). 

Beweis. Übung. ✷ 

Definition 4.4 (Integral). Ist f : Ω → [0, ∞] messbar, so definieren wir das Integral 

von f bezüglich μ durch 

� 

fdμ:= sup � I(g) : g ∈ E + ,g≤ f � . 

Bemerkung 4.5. Nach Lemma 4.3(iii) ist I(f) = � fdμfür jedes f ∈ E + .Also 

ist das Integral eine Fortsetzung der Abbildung I von E + auf die Menge der nichtnegativen 

messbaren Funktionen. ✸ 

Sind f,g : Ω → R Abbildungen, so schreiben wir f ≤ g, falls f(ω) ≤ g(ω) 

für jedes ω ∈ Ω gilt. Analog verwenden wir die Schreibweise f ≥ 0 und so fort. 

Hingegen schreiben wir ” f ≤ g fast überall“, falls die schwächere Bedingung gilt, 

dass eine μ-Nullmenge N existiert mit f(ω) ≤ g(ω) für jedes ω ∈ N c . 

j=1

4.1 Konstruktion und einfache Eigenschaften 85 

Lemma 4.6. Seien f,g,f1,f2,...messbare Abbildungen Ω → [0, ∞]. Dann gilt 

(i) (Monotonie) Ist f ≤ g, dann ist � fdμ≤ � gdμ. 

(ii) (Monotone Konvergenz) Gilt fn ↑ f, dann konvergieren auch die Integrale 

� fn dμ ↑ � fdμ. 

(iii) (Linearität) Sind α, β ∈ [0, ∞], so gilt 

� 

� 

(αf + βg) dμ = α 

wobei wir die Konvention ∞·0:=0benutzen. 

� 

fdμ+ β 

Beweis. (i) Dies folgt direkt aus der Definition des Integrals. 

(ii) Nach (i) gilt 

� 

lim 

n→∞ 

� 

fn dμ =sup 

n∈N 

gdμ, 

� 

fn dμ ≤ fdμ. 

Wir müssen also nur noch � � 

fdμ≤ sup fn dμ zeigen. 

n∈N 

Sei g ∈ E + mit g ≤ f. Es reicht zu zeigen, dass 

� � 

sup 

n∈N 

fn dμ ≥ gdμ. (4.2) 

Die Elementarfunktion g habe die Normaldarstellung g = �N i=1 αi Ai , wobei 

α1,...,αN ∈ (0, ∞) sind und A1,...,AN ∈Apaarweise disjunkt sind. Für jedes 

ε>0 und n ∈ N definieren wir die Menge 

B ε n = {fn ≥ (1 − ε) g}. 

Wegen fn ↑ f ≥ g gilt Bε n ↑ Ω für jedes ε>0. Also gilt nach (i) für ε>0 

� � 

�(1 

fn dμ ≥ − ε) g Bε � 

dμ n 

= 

N� 

(1 − ε) αi μ(Ai ∩ B 

i=1 

ε n) 

n→∞ 

−→ 

N� 

� 

(1 − ε) αi μ(Ai) = (1−ε) gdμ. 

i=1 

Da ε>0 beliebig war, folgt (4.2) und damit die Aussage (ii). 

(iii) Nach Satz 1.96 ist jede nichtnegative messbare Abbildung monotoner Limes 

von Elementarfunktionen. Es gibt also Folgen (fn)n∈N und (gn)n∈N in E + mit


fn ↑ f und gn ↑ g. Es gilt dann aber auch (αfn + βgn) ↑ αf + βg. Nach (ii) 

und Lemma 4.3 gilt daher 

� 

� 

(αf + βg) dμ = lim 

n→∞ 

(αfn + βgn) dμ 

� 

� 

� � 

= α lim 

n→∞ 

fn dμ + β lim 

n→∞ 

gn dμ = α fdμ+ β gdμ. ✷ 

Für messbares f : Ω → R ist f + ≤|f| und f − ≤|f|, also gilt auch � f ± dμ ≤ 

� |f| dμ. Ist speziell � |f| dμ < ∞, so ist auch � f − dμ < ∞ und � f + dμ < ∞. 

Daher können wir die folgende Definition treffen, die abschließend das Integral für 

messbare Funktionen erklärt. 

Definition 4.7 (Integral für messbare Funktionen). Eine messbare Funktion 

f : Ω → R heißt μ-integrierbar, falls � |f| dμ < ∞. Wir schreiben 

L 1 (μ) :=L 1 � 

(Ω,A,μ):= f : Ω → R : f ist messbar und � � 

|f| dμ < ∞ . 

Für f ∈L1 (μ) definieren wir das Integral von f bezüglich μ durch 

� 

� � 

f(ω) μ(dω) := fdμ:= f + � 

dμ − f − dμ. (4.3) 

Ist lediglich � f − dμ < ∞ oder � f + dμ < ∞,sodefinieren wir ebenfalls � fdμ 

durch (4.3), wobei wir dann die Werte +∞ beziehungsweise −∞ zulassen. 

� � 

Ist A ∈A, so schreiben wir fdμ:= (f A) dμ. 

Satz 4.8. Sei f : Ω → [0, ∞] messbar. 

A 

(i) Es ist f =0 fast überall genau dann, wenn � fdμ=0gilt. 

(ii) Ist � fdμ


(ii) Sei A = {ω : f(ω) =∞}. Für n ∈ N ist 1 

n f {f≥n} ≥ {f≥n}, also nach 

Lemma 4.6(i) 

� � 

μ(A) = A dμ ≤ 

{f≥n} dμ ≤ 1 

� 

n 

f {f≥n} dμ ≤ 1 

� 

n 

Satz 4.9 (Eigenschaften des Integrals). Seien f,g ∈L 1 (μ). 

(i) (Monotonie) Ist f ≤ g fast überall, so ist � fdμ≤ � gdμ. 

Ist speziell f = g fast überall, so ist � fdμ= � gdμ. 

(ii) (Dreiecksungleichung) Es gilt stets � � � fdμ � � ≤ � |f| dμ. 

(iii) (Linearität) Sind α, β ∈ R, dann ist αf + βg ∈L1 (μ) und 

� 

� � 

(αf + βg) dμ = α fdμ+ β gdμ. 

fdμ n→∞ 

−→ 0. ✷ 

Diese Gleichung gilt auch, wenn höchstens eines der Integrale � fdμund 

� gdμeinen der Werte ±∞ annimmt. 

Beweis. (i) Es gilt f + ≤ g + und f − ≥ g − f.ü., also ist nach Lemma 4.6(i) 

� 

Es folgt 

� 

fdμ = 

f + dμ ≤ 

� 

� 

f + � 

dμ − 

g + dμ und 

f − dμ ≤ 

� 

� 

f − dμ ≥ 

g + � 

dμ − 

� 

g − dμ. 

g − dμ = 

(ii) Wegen f + + f − = |f| ist nach Lemma 4.6(iii) 

� � 

� 

� 

� � � 

� � 

fdμ� 

= � f + � 

dμ − f − � � 

� 

dμ� 

≤ f + � 

dμ + f − dμ 

� 

gdμ. 

� 

�f + − 

= + f � � 

dμ = |f| dμ. 

(iii) Wegen |αf + βg| ≤ |α| ·|f| + |β| ·|g| ist nach Lemma 4.6(i) und (iii) 

auch αf + βg ∈L 1 (μ). Um die Linearität zu zeigen, reicht es die drei folgenden 

Eigenschaften zu prüfen. 

(a) � (f + g) dμ = � fdμ+ � gdμ. 

(b) Für α ≥ 0 ist � αf dμ = α � fdμ. 

(c) � (−f) dμ = − � fdμ.


Zu (a): Es ist (f + g) + − (f + g) − = f + g = f + − f − + g + − g− , also ist 

(f + g) + + f − + g− =(f + g) − + f + + g + . Nach Lemma 4.6(iii) gilt 

� 

(f + g) + � 

dμ + f − � 

dμ + g − � 

dμ = (f + g) − � 

dμ + f + � 

dμ + g + dμ, 

also ist 

� 

� 

(f + g) dμ = 

� 

= 

� 

= 

Zu (b): 

� 

Für α ≥ 0 ist 

� 

αf dμ = αf + � 

dμ − 

Zu (c): Es ist 

� 

� 

(−f) dμ = 

� 

= 

(f + g) + � 

dμ − (f + g) − dμ 

f + � 

dμ − f − � 

dμ + g + � 

dμ − 

fdμ+ gdμ. 

αf − � 

dμ = α 

f + � 

dμ − α 

(−f) + � 

dμ − (−f) − dμ 

f − � 

dμ − f + � 

dμ = − 

� 

g − dμ 

f − � 

dμ = α 

fdμ. 

fdμ. 

Der Zusatz ist simpel und verbleibt zur Übung. ✷ 

Satz 4.10 (Bildmaß). Seien (Ω,A) und (Ω ′ , A ′ ) Messräume, μ ein Maß auf (Ω,A) 

und X : Ω → Ω ′ messbar. Sei μ ′ = μ ◦ X −1 das Bildmaß von μ unter X und 

f : Ω ′ → R integrierbar bezüglich μ ′ . Dann ist f ◦ X ∈L1 (μ) und 

� 

� 

(f ◦ X) dμ = fd(μ◦ X −1 ). 

Ist speziell X eine Zufallsvariable auf (Ω,A, P),soist 

� 

� 

� � 

f(x) P[X ∈ dx] := f(x) PX[dx] = fdPX = f(X(ω)) P[dω]. 


Beispiel 

� 

4.11 (Diskreter Maßraum). Sei (Ω,A) ein diskreter Messraum und μ = 

αωδω für gewisse Zahlen αω ≥ 0, ω ∈ Ω. Eine Abbildung f : Ω → R ist 

ω∈Ω 

genau dann integrierbar, wenn � 

|f(ω)| αω < ∞ ist. In diesem Fall gilt 

ω∈Ω 

� 

fdμ= � 

f(ω) αω. ✸ 

ω∈Ω


Definition 4.12 (Lebesgue-Integral). Sei λ das Lebesgue-Maß auf R n und f : 

R n → R messbar bezüglich B ∗ (R n ) – B(R) (wobei B ∗ (R n ) die Lebesgue’sche 

σ-Algebra ist, siehe Beispiel 1.71) und λ-integrierbar. Dann nennen wir 

� 

fdλ 

das Lebesgue-Integral von f. IstA∈B(Rn ) und f : Rn → R messbar (oder 

f : A → R messbar bezüglich B∗ (Rn ) � � – B(R) und damit f A messbar bezüglich 

A 

B ∗ (R n ) – B(R)), so schreiben wir 

� 

A 

� 

fdλ:= f A dλ. 

Definition 4.13. Sei μ ein Maß auf (Ω,A) und f : Ω → [0, ∞) messbar. Wir sagen, 

dass das durch 

� 

ν(A) := ( A f) dμ für A ∈A 

definierte Maß fμ := ν die Dichte f bezüglich μ hat. 

Bemerkung 4.14. Wir müssen noch zeigen, dass ν ein Maß ist und prüfen hierzu 

die Bedingung von Satz 1.36 nach. Offenbar ist ν(∅) =0. Endliche Additivität folgt 

aus der Additivität des Integrals (Lemma 4.6(iii)) und Stetigkeit von unten aus dem 

Satz von der monotonen Konvergenz (Satz 4.20). ✸ 

Satz 4.15. Es ist g ∈L1 (fμ) genau dann, wenn (gf) ∈L1 (μ). In diesem Fall gilt 

� 

� 

gd(fμ)= (gf) dμ. 

Beweis. Die Aussage gilt zunächst für Indikatorfunktionen und wird dann mit den 

üblichen Argumenten auf Elementarfunktionen, nichtnegative Funktionen sowie 

schließlich auf messbare Funktionen fortgesetzt. ✷ 

Definition 4.16. Für messbares f : Ω → R definieren wir 

�� 

�f�p := |f| p �1/p dμ , falls p ∈ [1, ∞), 

und 

�f�∞ := inf � K ≥ 0:μ({|f| >K}) =0 � . 

Ferner definieren wir für jedes p ∈ [1, ∞] den Vektorraum 

L p � 

� 

(μ) := f : Ω → R ist messbar und �f�p < ∞ .


Satz 4.17. Die Abbildung � · �1 ist eine Pseudonorm auf L 1 (μ), das heißt, es gilt 

für f,g ∈L 1 (μ) und α ∈ R 

�αf�1 = |α|·�f�1 

�f + g�1 ≤�f�1 + �g�1 

�f�1 ≥ 0 für alle f und �f�1 =0, falls f =0 f.ü. 

(4.4) 

Beweis. Die erste und dritte Aussage folgen aus Satz 4.9(iii) und Satz 4.8(i). Die 

zweite folgt aus Satz 4.9(i), denn es ist |f + g| ≤|f| + |g|, also 

� 

� � 

�f + g�1 = |f + g| dμ ≤ |f| dμ + |g| dμ = �f�1 + �g�1. ✷ 

Bemerkung 4.18. Tatsächlich ist � · �p für jedes p ∈ [1, ∞] eine Pseudonorm auf 

L p (μ). Linearität und Positivität sind klar, und die Dreiecksungleichung ist die Minkowski’sche 

Ungleichung, die wir in Satz 7.17 zeigen werden. ✸ 

Satz 4.19. Seien μ(Ω) < ∞ und 1 ≤ p ′ ≤ p ≤∞. Dann ist Lp (μ) ⊂Lp′ (μ), und 

die kanonische Inklusion i : Lp (μ) ↩→ Lp′ (μ), f ↦→ f ist stetig. 

Beweis. Sei f ∈L∞ (μ) und p ′ ∈ [1, ∞). Dannist|f| p′ 

� 

|f| p′ 

� 

dμ ≤ 

�f� p′ 

∞ dμ = �f� p′ 

∞ · μ(Ω) < ∞. 

≤�f� p′ 

∞ fast überall, also 

Für f,g ∈L∞ (μ) ist also �f − g�p ′ ≤ μ(Ω)1/p′ �f − g�∞ und damit ist i stetig. 

Seien nun p, p ′ ∈ [1, ∞) mit p ′ 0 ist 

|f − g| p′ 

= |f − g| p′ 

{|f−g|≤c} + |f − g| p′ 

Speziell erhalten wir mit c = �f − g�p 

{|f−g|>c} ≤ c p′ 

+ c p′ −p p 

|f − g| . 

� 

�f − g�p ′ ≤ c p′ 

μ(Ω)+c p′ � ′ 

1/p 

−p p 

�f − g�p =(1+μ(Ω)) 1/p′ 

�f − g�p. 

Also ist i auch in diesem Falle stetig. ✷ 

Übung 4.1.1 (Folgenräume). Wir nehmen jetzt nicht mehr an, dass μ(Ω) < ∞ ist. 

Man zeige: Gibt es ein a>0, sodass für jedes A ∈Aentweder μ(A) =0oder 

μ(A) ≥ a gilt, so gilt die zu Satz 4.19 umgekehrte Inklusion 

L p′ 

(μ) ⊂L p (μ), falls 1 ≤ p ′ ≤ p ≤∞. (4.5) 

♣

4.2 Monotone Konvergenz und Lemma von Fatou 91 

Übung 4.1.2. Sei 1 ≤ p ′


Beispiel 4.22 (Petersburger Spiel). Wir wollen durch ein Beispiel zeigen, dass auf 

die Voraussetzung der Existenz einer integrierbaren Minorante im Lemma von Fatou 

nicht verzichtet werden kann. Wir betrachten ein Glücksspiel in einem Casino, 

bei dem in jeder Runde ein vom Spieler gewählter Einsatz entweder verdoppelt 

zurückgezahlt wird oder verloren geht. Dies ist etwa beim Roulette der Fall, wo der 

Spieler zum Beispiel auf Rot“ setzen kann. Kommt eine rote Zahl, so gewinnt der 

” 

Spieler seinen Einsatz verdoppelt zurück, ansonsten verliert er ihn. Es gibt 37 Felder, 

von denen 18 rot sind und 18 schwarz, sowie die Null, die grün ist. Die Gewinnchance 

sollte also p = 18 1 

37 < 2 betragen. Dieses Glücksspiel werde unendlich oft unabhängig 

hintereinander ausgeführt. Wir können es also auf einem Wahrscheinlichkeitsraum 

(Ω,A, P) realisieren, wobei (Ω = {−1, 1} N , A =(2 {−1,1} ) ⊗N die von 

den Zylindern [ω1,...,ωn] erzeugte σ-Algebra ist und P =((1−p)δ−1 + pδ1) ⊗N 

das Produktmaß. Wir bezeichnen mit Dn : Ω →{−1, 1}, ω ↦→ ωn das Ergebnis der 

n-ten Runde für jedes n ∈ N. Macht der Spieler in der n-ten Runde den (zufälligen) 

Einsatz Hn, so beträgt die Summe der Gewinne nach der n-ten Runde 

n� 

Sn = HnDn. 

i=1 

Wir nehmen nun an, dass der Spieler die folgende Strategie verfolgt: In der ersten 

Runde ist der Einsatz H1 =1. Gewinnt er, so setzt er in den folgenden Spielen gar 

nicht mehr, also ist Hn =0für jedes n ≥ 2, falls D1 =1. Verliert er hingegen, so 

setzt er in der zweiten Runde den doppelten Einsatz, also ist H2 =2, falls D1 = −1. 

Gibt die zweite Runde einen Gewinn, so setzt er ab der dritten Runde gar nicht 

mehr, andernfalls verdoppelt er wiederum seinen Einsatz in der dritten Runde und 

so weiter. Wir erhalten also als Strategie 

� 

0, falls es ein i ∈{1,...,n− 1} gibt mit Di =1, 

Hn = 

2n−1 , sonst. 

Man beachte, dass Hn nur von D1,...,Dn−1 abhängt, also messbar ist bezüglich 

σ(D1,...,Dn−1). Dies ist offenbar ein wichtige Forderung an jede Spielstrategie, 

da man die Entscheidung über den Einsatz aufgrund der vorhandenen Kenntnis zum 

jeweiligen Zeitpunkt treffen muss und nicht in die Zukunft blicken kann. 

Die Wahrscheinlichkeit, dass bis zum Zeitpunkt n kein Spiel gewonnen wurde ist 

(1 − p) n , also ist P[Sn =1−2n ]=(1−p) n und P[Sn =1]=1− (1 − p) n .Man 

erwartet also im Mittel einen Gewinn von 

� 

Sn dP =(1−p) n (1 − 2 n )+(1− (1 − p) n )=1− � 2(1− p) �n ≤ 0, 

da p ≤ 1 

2 ist (in den profitablen Spielbanken). Wir setzen nun 

� 

−∞, falls − 1=D1 = D2 = ..., 

S = 

1, sonst.

4.3 Lebesgue-Integral versus Riemann-Integral 93 

n→∞ 

� 

Dann gilt Sn −→ S f.s., jedoch ist limn→∞ Sn dP < � SdP =1, weil S =1 

fast sicher gilt. Nach dem Lemma von Fatou ist dies nur möglich, wenn es keine 

integrierbare Minorante zur Folge (Sn)n∈N gibt. Setzen wir ˜ S := inf{Sn : n ∈ N}, 

so gilt in der Tat P[ ˜ S =1−2n−1 ]=P[D1 = ...= Dn−1 = −1 undDn =1}] = 

p(1 − p) n−1 , also � SdP ˜ 

�∞ = n=1 (1 − 2n−1 ) p(1 − p) n−1 = −∞, weil p ≤ 1 

2 .✸ 

Übung 4.2.1. Sei (Ω,A,μ) ein Maßraum und f ∈L 1 (μ). Man zeige: Zu jedem 

ε>0 gibt es ein A ∈Amit μ(A) < ∞ und � � � 

A fdμ− � fdμ � �


Satz 4.23 (Riemann-Integral und Lebesgue-Integral). Sei f : I → R Riemannintegrierbar 

auf I =[a, b]. Dann ist f Lebesgue-integrierbar auf I mit Integral 

� 

I 

fdλ= 

� b 

a 

f(x) dx. 

Beweis. Sei t so gewählt, dass (4.6) gilt. Nach Voraussetzung gibt es ein n ∈ N 

mit |U t n(f)| < ∞ und |O t n(f)| < ∞. Alsoistf beschränkt. Indem wir f durch 

f + �f�∞ ersetzen, können wir annehmen, dass f ≥ 0 gilt. Setze 

gn := f(b) {b} + 

hn := f(b) {b} + 

n� 

i=1 

n� 

i1 

(inf f([t n i−1,t n i ))) [t n i−1 ,t n i ), 

(sup f([t n i−1,t n i ))) [t n i−1 ,t n i ). 

Da t n+1 eine Verfeinerung von t n ist, gilt gn ≤ gn+1 ≤ hn+1 ≤ hn. Also existieren 

g und h mit gn ↑ g und hn ↓ h. Nach Konstruktion gilt g ≤ h und 

� 

� 

gdλ= lim 

I 

n→∞ 

gn dλ = lim 

I 

n→∞ U t n(f) 

� � 

hn dλ = hdλ. 

= lim 

n→∞ Ot n(f) = lim 

n→∞ 

Also ist λ-fast überall h = g. Nach Konstruktion ist g ≤ f ≤ h, und g und h sind als 

Limiten von Elementarfunktionen messbar bezüglich B(I) – B(R). Es folgt, dass 

für jedes α ∈ R 

{f ≤ α} = � {g ≤ α}∩{g = h} � ⊎ � {f ≤ α}∩{g �= h} � 

die Vereinigung einer B(I)-Menge mit einer Teilmenge einer Nullmenge ist, also in 

B(I) ∗ (der Lebesgue’schen Vervollständigung von B(I)) liegt. Mithin ist f messbar 

bezüglich B(I) ∗ . Nach dem Satz über monotone Konvergenz (Satz 4.20) ist 

� 

I 

� 

fdλ= lim gn dλ = 

n→∞ 

I 

� b 

a 

I 

f(x) dx. ✷ 

Beispiel 4.24. Sei f :[0, 1] → R, x ↦→ Q. Dannistfoffenbar nicht Riemannintegrierbar, 

weil Un(f) =0und On(f) =1für jedes n ∈ N. Andererseits ist f 

Lebesgue-integrierbar mit Integral � 

fdλ=0,dennQ∩ [0, 1] ist eine Nullmen- 

[0,1] 

ge. ✸ 

I

4.3 Lebesgue-Integral versus Riemann-Integral 95 

Bemerkung 4.25. Eine uneigentlich Riemann-integrierbare Funktion f auf einem 

halboffenen Intervall I =(a, b] oder I =[0, ∞) ist nicht notwendigerweise auch 

Lebesgue-integrierbar. Hier wird nämlich das uneigentliche Integral � ∞ 

f(x) dx := 

� 0 

n 

limn→∞ f(x) dx durch eine Grenzwertprozedur definiert, die Rücksicht auf die 

0 

Geometrie von R nimmt. Dies tut das Lebesgue-Integral nicht. So ist die Funktion 

f :[0, ∞) → R, x ↦→ 1 

1+x sin(x) (uneigentlich) Riemann-integrierbar, jedoch nicht 

Lebesgue-integrierbar, weil � 

|f| dλ = ∞ ist. ✸ 

[0,∞) 

Wir haben schon gesehen, dass uneigentlich Riemann-integrierbare Funktionen 

nicht notwendigerweise auch Lebesgue-integrierbar sind. Andererseits gibt es Lebesgue-integrierbare 

Funktionen, die nicht Riemann-integrierbar sind (wie etwa 

Q). Geometrisch lässt sich dies so interpretieren, dass das Riemann-Integral die 

Geometrie des Integrationsbereiches respektiert, indem es als Grenzwert von Flächen 

schmaler senkrechter Streifen entsteht, während das Lebesgue-Integral als Grenzwert 

mit flachen waagerechten Streifen gedacht werden kann. Insbesondere macht 

dieses Integral gar keine Annahmen an den Definitionsbereich des Integranden, weshalb 

es eben universeller einsetzbar ist. Um dies zu unterstreichen, bringen wir einen 

Satz, der uns auch ansonsten noch nützlich sein wird. 

Satz 4.26. Sei f : Ω → R messbar und f ≥ 0 fast überall. Dann gelten 

∞� 

μ({f ≥ n}) ≤ 

� 

fdμ ≤ 

∞� 

μ({f >n}) (4.7) 

n=1 

und � 

fdμ = 

� ∞ 

0 

n=0 

μ({f ≥ t}) dt. (4.8) 

Beweis. Setze f ′ = ⌊f⌋ und f ′′ = ⌈f⌉. Dannistf ′ ≤ f ≤ f ′′ und deshalb 

� f ′ dμ ≤ � fdμ≤ � f ′′ dμ. Nun ist 

� 

Analog ist 

f ′ dμ = 

� 

∞� 

μ({f ′ = k}) · k = 

k=1 

f ′′ dμ = 

= 

= 

∞� 

k=1 n=1 

∞� 

n=1 k=n 

k� 

μ({f ′ = k}) 

∞� 

μ({f ′ = k}) 

∞� 

μ({f ′ ≥ n}) = 

n=1 

∞� 

μ({f ′′ ≥ n}) = 

n=1 

∞� 

μ({f ≥ n}). 

n=1 

∞� 

μ({f >n−1}). n=1


Hieraus folgt (4.7). 

Gilt g(t) :=μ({f ≥ t}) =∞ für ein t>0, so sind beide Seiten in (4.8) gleich ∞. 

Sei im Folgenden also g(t) < ∞ für alle t>0. 

Für ε>0 und k ∈ N setze f ε := f {f≥ε} sowie f ε k =2kfε und 

Dann gilt α ε k 

α ε k =2 −k 

≤ 2 −k 

∞� 

α ε k := 2 −k 

μ({f 

n=1 

ε ≥ n2 −k }). 

k→∞ 

−→ � ∞ 

ε g(t) dt. Ferner gilt nach (4.7) (mit f ε k statt f) 

∞� 

μ({f ε � 

k ≥ n}) ≤ f ε dμ 

n=1 

∞� 

Wegen 2 −k g(ε) k→∞ 

∞� 

μ({f 

n=0 

ε k >n}) =2 −k 

μ({f 

n=0 

ε >n2 −k }) ≤ α ε k +2 −k g(ε). 

−→ 0 folgt � ∞ 

ε g(t) dt = � f ε dμ. Wegenfε↑f für ε ↓ 0 folgt 

(4.8) aus dem Satz über monotone Konvergenz. ✷ 

Übung 4.3.1. Sei f :[0, 1] → R beschränkt. Zeige: f ist genau dann (eigentlich) 

Riemann-integrierbar, wenn fλ-f.ü. stetig ist. ♣ 

Übung 4.3.2. Ist f :[0, 1] → R Riemann-integrierbar, so ist f Lebesgue-messbar. 

Man zeige durch ein Beispiel, dass f nicht Borel-messbar sein muss. (Hinweis: Man 

verwende ohne Beweis die Existenz einer Teilmenge von [0, 1], die nicht Borelmessbar 

ist und konstruiere hieraus eine nicht-Borel’sche Menge, deren Abschluss 

eine Nullmenge ist.) ♣

5 Momente und Gesetze der Großen Zahl 

Die wichtigsten Kenngrößen für Zufallsvariablen sind Median, Erwartungswert und 

Varianz. Der Erwartungswert beschreibt für großes n den typischen ungefähren 

Wert des arithmetischen Mittels (X1 + ... + Xn)/n von u.i.v. Zufallsvariablen 

(Gesetz der Großen Zahl). In Kapitel 15 werden wir sehen, wie die Varianz hingegen 

die typischen Abweichungen des arithmetischen Mittels vom Erwartungswert 

determiniert. 

5.1 Momente 

Im Folgenden sei (Ω,A, P) ein Wahrscheinlichkeitsraum. 

Definition 5.1. Sei X eine Zufallsvariable. 

(i) Ist X ∈L1 (P),soheißtXintegrierbar, und wir nennen 

� 

E[X] := XdP 

den Erwartungswert von X. IstE[X] =0,soheißtXzentriert. Etwas allgemeiner 

schreiben wir auch E[X] = � XdP, falls nur X− oder X + integrierbar 

ist. 

(ii) Ist n ∈ N und X ∈Ln (P), so heißen die Größen 

mk := E � X k� , Mk := E � |X| k� 

für jedes k =1,...,n, 

die k-ten Momente beziehungsweise absoluten Momente von X. 

(iii) Ist X ∈L2 (P),soheißtXquadratintegrierbar, und wir nennen 

Var[X] :=E � X 2� − E[X] 2 

die Varianz von X. Die Zahl σ := √ Var[X] heißt die Streuung oder Standardabweichung 

von X. Formal setzen wir manchmal Var[X] = ∞, falls 

E[X 2 ]=∞ ist.

98 5 Momente und Gesetze der Großen Zahl 

(iv) Sind X, Y ∈L 2 (P), sodefinieren wir die Kovarianz von X und Y durch 

Cov[X, Y ]:=E �� X − E[X] �� Y − E[Y ] �� . 

X und Y heißen unkorreliert, falls Cov[X, Y ]=0ist. 

Bemerkung 5.2. (i) Die Definition in (ii) ist sinnvoll, denn für X ∈L n (P) ist 

nach Satz 4.19 Mk < ∞ für jedes k =1,...,n. 

(ii) Sind X, Y ∈L 2 (P), soistwegen|XY |≤X 2 + Y 2 auch XY ∈L 1 (P). 

Deshalb ist die Definition in (iv) sinnvoll, und es gilt 

Cov[X, Y ]=E[XY ] − E[X] E[Y ]. 

Speziell ist Var[X] =Cov[X, X]. ✸ 

Wir fassen die wichtigsten Rechenregeln für Erwartungswerte als Satz zusammen. 

Alle aufgeführten Eigenschaften folgen direkt aus den Eigenschaften des Integrals. 

Satz 5.3 (Rechenregeln für den Erwartungswert). Seien X, Y, Xn,Yn, n ∈ N, 

reelle integrierbare Zufallsvariablen auf (Ω,A, P). Dann gilt 

(i) Ist PX = PY ,soistE[X] =E[Y ]. 

(ii) (Linearität) Sei c ∈ R. Dann gelten cX ∈L 1 (P) und X + Y ∈L 1 (P) sowie 

E[cX] =cE[X] und E[X + Y ]=E[X]+E[Y ]. 

(iii) Ist X ≥ 0 fast sicher, so gilt 

E[X] =0 ⇐⇒ X =0 fast sicher. 

(iv) (Monotonie) Gilt X ≤ Y fast sicher, so gilt E[X] ≤ E[Y ] mit Gleichheit 

genau dann, wenn X = Y fast sicher. 

(v) (Dreiecksungleichung) Es ist � � � � 

�E[X] � ≤ E |X| . 

� 

� ∞� 

(vi) Ist Xn ≥ 0 fast sicher für jedes n ∈ N, soistE (vii) Gilt Yn ↑ Y , so gilt E[Y ] = limn→∞ E[Yn]. 

Xn 

n=1 

= ∞� 

E[Xn]. 

Die Wahrscheinlichkeitstheorie beginnt wieder an der Stelle, wo die Unabhängigkeit 

ins Spiel kommt, wir also den Bereich der linearen Integrationstheorie verlassen. 

Satz 5.4 (Unabhängige Zufallsvariablen sind unkorreliert). 

Seien X, Y ∈ L 1 (P) unabhängig. Dann ist (XY) ∈ L 1 (P) und E[XY ] = 

E[X] E[Y ]. Speziell sind unabhängige Zufallsvariablen unkorreliert. 

n=1

5.1 Momente 99 

Beweis. Wir nehmen zunächst an, dass X und Y nur endlich viele Werte annehmen. 

Dann nimmt auch XY nur endlich viele Werte an, speziell ist offenbar 

XY ∈L1 (P). Es folgt 

E[XY ]= � 

z P[XY = z] 

z∈R\{0} 

= � 

� 

z∈R\{0} x∈R\{0} 

= � 

� 

y∈R\{0} x∈R\{0} 

x∈R 

x z 

P[X = x, Y = z/x] 

x 

xy P[X = x] P[Y = y] 

� 

� 

�� 

� 

� 

= x P[X = x] y P[Y = y] 

= E[X] E[Y ]. 

Für N ∈ N sind auch die Zufallsvariablen XN := � 2 −N � 2 N |X| �� ∧ N und YN := 

� 2 −N � 2 N |Y | �� ∧ N, die nur endlich viele Werte annehmen, unabhängig, und es 

gilt XN ↑|X| sowie YN ↑|Y |. Nach dem Satz von der monotonen Konvergenz 

(Satz 4.20) ist daher 

y∈R 

E[|XY |] = lim 

N→∞ E[XN YN ] = lim 

N→∞ E[XN ] E[YN ] 

� 

= lim 

N→∞ E[XN 

�� 

] lim 

N→∞ E[YN 

� 

] = E[|X|] E[|Y |] < ∞. 

Also ist XY ∈L 1 (P). Außerdem haben wir damit den Satz gezeigt für den Fall, 

wo X und Y nichtnegativ sind. Daher (und weil jede der Familien {X + ,Y + }, 

{X − ,Y + }, {X + ,Y − } und {X − ,Y − } unabhängig ist) gilt 

E[XY ]=E[(X + − X − )(Y + − Y − )] 

= E[X + Y + ] − E[X − Y + ] − E[X + Y − ]+E[X − Y − ] 

= E[X + ] E[Y + ] − E[X − ] E[Y + ] − E[X + ] E[Y − ]+E[X − ] E[Y − ] 

= E[X + − X − ] E[Y + − Y − ]=E[X] E[Y ]. ✷ 

Satz 5.5 (Wald’sche Identität). Seien T,X1,X2,... unabhängige, reelle Zufallsvariablen 

in L1 (P). EsseiP[T ∈ N0] =1, und es seien X1,X2,... identisch 

verteilt. Wir setzen 

T� 

ST := Xi. 

i=1 

Dann ist ST ∈L 1 (P) und E[ST ]=E[T ] E[X1]. 

Beweis. Setze Sn = �n i=1 Xi für n ∈ N0. DannistST = �∞ n=1 Sn {T =n}. 

Nach Bemerkung 2.15 sind Sn und {T =n} unabhängig für jedes n ∈ N und damit 

unkorreliert. Es folgt (mit Hilfe der Dreiecksungleichung, siehe Satz 5.3(v))


E � |ST | � = 

≤ 

∞� 

n=1 

E � � 

|Sn| {T =n} = 

∞� 

n=1 

E � |Sn| � E � � 

{T =n} 

∞� 

E � |X1| � n P[T = n] =E[|X1|] E[T ]. 

n=1 

Die selbe Rechnung ohne Betragstriche liefert den Rest der Behauptung. ✷ 

Wir stellen hier ein paar einfache Eigenschaften der Varianz zusammen. 

Satz 5.6. Sei X ∈L 2 (P). Dann gilt: 

(i) Var[X] =E � (X − E[X]) 2� ≥ 0, 

(ii) Var[X] =0 ⇐⇒ X = E[X] fast sicher, 

(iii) Die Abbildung f : R → R, x ↦→ E � (X −x) 2� ist minimal genau in x0 = E[X] 

mit f(E[X]) = Var[X]. 

Beweis. (i) Klar nach Bemerkung 5.2(ii). 

(ii) Nach Satz 5.3(iii) ist E � (X − E[X]) 2� =0 ⇐⇒ (X − E[X]) 2 =0f.s. 

(iii) Es ist f(x) =E[X 2 ] − 2x E[X]+x 2 = Var[X]+(x − E[X]) 2 . ✷ 

Satz 5.7. Die Abbildung Cov : L2 (P) ×L2 (P) → R ist eine positiv semidefinite 

symmetrische Bilinearform, und es gilt Cov[X, Y ]=0, falls Y fast sicher konstant 

ist. Ausgeschrieben heißt dies: Für X1,..., Xm, Y1,..., Yn ∈L2 (P) und 

α1,...,αm, β1,...,βn ∈ R, sowie d, e ∈ R gilt 

⎡ 

⎤ 

m� 

n� 

Cov ⎣d + αiXi,e+ ⎦ = � 

αiβj Cov[Xi,Yj]. (5.1) 

i=1 

βjYj 

j=1 

Speziell gilt die Bienaymé-Gleichung 

� 

m� 

� 

m� 

Var = Var[Xi]+ 

Xi 

i=1 

i=1 

i,j 

m� 

i,j=1 

i�=j 

Cov[Xi,Xj]. (5.2) 

Für unkorrelierte X1,...,Xm gilt Var [ � m 

i=1 Xi] = � m 

i=1 Var[Xi].

Beweis. 

� m� 

Cov d + αi Xi, e+ 

i=1 

n� 

j=1 

�� 

�m 

= E 

= 

= 

m� 

i=1 

i=1 j=1 

m� 

i=1 j=1 

βj Yj 

� 

�� 

�n 

αi(Xi − E[Xi]) 

j=1 


�� 

βj(Yj − E[Yj]) 

n� 

αiβj E � (Xi − E[Xi])(Yj − E[Yj]) � 

n� 

αiβj Cov[Xi,Yj]. ✷ 

Satz 5.8 (Cauchy-Schwarz’sche Ungleichung). Sind X, Y ∈L2 (P), sogilt 

� �2 Cov[X, Y ] ≤ Var[X] Var[Y ]. 

Es gilt genau dann Gleichheit, wenn es a, b, c ∈ R gibt aX + bY + c =0 f.s. 

Beweis. Die Cauchy-Schwarz’sche Ungleichung gilt für jede positiv semidefinite 

Bilinearform 〈 · , · 〉 auf einem Vektorraum V . Es gilt jeweils genau dann Gleichheit 

〈x, y〉 2 = 〈x, x〉〈y, y〉, wenn es Zahlen a, b ∈ R gibt mit 〈ax − by, ax − by〉 =0. 

Wenden wir dies auf die positiv semidefinite Bilinearform Cov[ · , · ] auf L2 (P) 

an, so erhalten wir die Cauchy-Schwarz’sche Ungleichung für X, Y ∈L2 (P) mit 

Gleichheit genau dann, wenn Var[aX + bY ]=0, also genau dann, wenn (vergleiche 

Satz 5.6(ii)) aX + bY = c := E[aX + bY ] fast sicher. 

Zeigen wir nun also die Aussage für die allgemeine positiv semidefinite Bilinearform 

auf R. Ohne Einschränkung gilt 〈y, y〉 > 0 (sonst ist die Aussage trivial). Es 

gilt dann mit θ = − 〈x,y〉 

〈y,y〉 

0 ≤ � x + θy, x + θy � � 

〈y, y〉 = 〈x, x〉 +2θ〈x, y〉 + θ 2 � 

〈y, y〉 〈y, y〉 

= 〈x, x〉〈y, y〉−〈x, y〉 2 . ✷ 

Beispiel 5.9. (i) Es sei p ∈ [0, 1] und X ∼ Berp. DannistE[X 2 ]=E[X] = 

P[X =1]=p und damit Var[X] =p(1 − p). 

(ii) Seien n ∈ N und p ∈ [0, 1] sowie X binomialverteilt X ∼ bn,p. Dannist


Ferner ist 

E[X] = 

n� 

kP[X = k] = 

k=0 

= np · 

E[X(X − 1)] = 

= 

n� 

k=1 

n� 

� � 

n 

k p 

k 

k (1 − p) n−k 

k=0 

� � 

n − 1 

p 

k − 1 

k−1 (1 − p) (n−1)−(k−1) = np. 

n� 

k(k − 1) P[X = k] 

k=0 

n� 

� � 

n 

k(k − 1) p 

k 

k (1 − p) n−k 

k=0 

= np · 

n� 

� � 

n − 1 

(k − 1) p 

k − 1 

k−1 (1 − p) (n−1)−(k−1) 

k=1 

= n(n − 1)p 2 · 

= n(n − 1)p 2 . 

n� 

k=2 

� � 

n − 2 

p 

k − 2 

k−2 (1 − p) (n−2)−(k−2) 

Also ist E[X 2 ]=E[X(X − 1)] + E[X] =n 2 p 2 + np(1 − p) und damit Var[X] = 

np(1 − p). 

Etwas einfacher als durch die direkte Berechnung sehen wir dies ein, indem wir 

bemerken (siehe nach Beispiel 3.4(ii)), dass bn,p = b ∗n 

1,p. Das heißt, es gilt (siehe 

Satz 2.31) PX = PY1+...+Yn ,woY1,...,Yn unabhängig sind und Yi ∼ Berp für 

jedes i =1,...,n. Es folgt 

E[X] = nE[Y1] = np 

Var[X] = nVar[Y1] = np(1 − p). 

(iii) Seien μ ∈ R und σ 2 > 0 sowie X normalverteilt X ∼N μ,σ 2.Dannist 

E[X] = 

= 

1 

√ 2πσ 2 

1 

√ 2πσ 2 

= μ + 

� ∞ 

−∞ 

� ∞ 

1 

√ 2πσ 2 

−∞ 

� ∞ 

xe −(x−μ)2 /(2σ 2 ) dx 

(x + μ) e −x2 /(2σ 2 ) dx 

−∞ 

Ähnlich folgt Var[X] =E[X 2 ] − μ 2 = ...= σ 2 . 

xe −x2 /(2σ 2 ) dx = μ 

(5.3) 

(5.4)

(iv) Sei θ>0 und X exponentialverteilt X ∼ exp θ.Dannist 

E[X] =θ 

� ∞ 

Var[X] =−θ −2 + θ 

0 

xe −θx dx = 1 

θ , 

� ∞ 

x 

0 

2 e −θx dx = θ −2 

� 

−1+ 

� ∞ 

0 


x 2 e −x � 

dx = θ −2 . ✸ 

Satz 5.10 (Blackwell-Girshick). Seien T,X1,X2,...unabhängige, reelle Zufallsvariablen 

in L2 (P). EsseiP[T ∈ N0] =1, und es seien X1,X2,... identisch 

verteilt. Wir setzen 

T� 

ST := Xi. 

Dann ist ST ∈L 2 (P) und 

i=1 

Var[ST ]=E[X1] 2 Var[T ]+E[T ] Var[X1]. 

Beweis. Wir setzen Sn = � n 

i=1 Xi für n ∈ N. Dann sind (wie beim Beweis der 

Wald’schen Identität) Sn und {T =n} unabhängig, also S 2 n und {T =n} unkorreliert 

und damit 

E � S 2 � 

T = 

= 

= 

= 

∞� 

n=0 

∞� 

n=0 

E � {T =n} S 2� n 

E[ {T =n}] E � S 2� n 

∞� 

P[T = n] � Var[Sn]+E[Sn] 2� 

n=0 

∞� 

n=0 

� 

P[T = n] n Var[X1]+n 2 E[X1] 2� 

= E[T ] Var[X1]+E � T 2� E[X1] 2 . 

Nach der Wald’schen Identität (Satz 5.5) ist E[ST ]=E[T ] E[X1], also ist 

Var[ST ]=E � S 2 � 

T − E[ST ] 2 = E[T ] Var[X1]+ � E � T 2� − E[T ] 2� E[X1] 2 . 

Dies ist aber die Behauptung. ✷ 

Übung 5.1.1. Man zeige (mit Satz 4.15): Ist X eine integrierbare reelle Zufallsvariable, 

deren Verteilung PX die Dichte f (bezüglich des Lebesgue-Maßes λ) besitzt, 

so gilt 

� 

E[X] = xf(x) λ(dx). ♣ 

R


Übung 5.1.2. Sei X ∼ βr,s eine Beta-verteilte Zufallsvariable mit Parametern 

r, s > 0 (vergleiche Beispiel 1.107(ii)). Man zeige 

E[X n ]= 

n−1 � 

k=0 

r + k 

r + s + k 

für jedes n ∈ N. ♣ 

Übung 5.1.3. Es seien X1,X2,...u.i.v. nichtnegative Zufallsvariablen. Man zeige 

mit Hilfe des Lemmas von Borel-Cantelli: 

1 

lim sup 

n→∞ n Xn 

� 

0 f.s., falls E[X1] < ∞, 

= 

♣ 

∞ f.s., falls E[X1] =∞. 

Übung 5.1.4. Es seien X1,X2,... u.i.v. nichtnegative Zufallsvariablen Man zeige 

mit Hilfe des Lemmas von Borel-Cantelli: Für jedes c ∈ (0, 1) gilt 

∞� 

lim sup e 

n→∞ 

Xn c n 

� 

< ∞ f.s., falls E[X1] < ∞, 

♣ 

= ∞ f.s., falls E[X1] =∞. 

n=1 

5.2 Schwaches Gesetz der Großen Zahl 

Satz 5.11 (Markov’sche Ungleichung, Chebyshev’sche Ungleichung). 

Sei X eine Zufallsvariable und f :[0, ∞) → [0, ∞) monoton wachsend. Dann 

gilt für jedes ε>0 mit f(ε) > 0 die Markov’sche Ungleichung 

P � |X| ≥ε � ≤ E[f(|X|)] 

. 

f(ε) 

Im Spezialfall f(x) =x 2 erhalten wir P � |X| ≥ε � ≤ ε −2 E � X 2� und, falls 

X ∈L 2 (P), insbesondere die Chebyshev’sche Ungleichung 

Beweis. Es gilt 

P � |X − E[X]| ≥ε � ≤ ε −2 Var[X]. 

E[f(|X|)] ≥ E � � 

f(|X|) {f(|X|)≥f(ε)} 

≥ E � � 

f(ε) {f(|X|)≥f(ε)} 

≥ f(ε) P � |X| ≥ε � . ✷

5.2 Schwaches Gesetz der Großen Zahl 105 

Definition 5.12. Sei (Xn)n∈N eine Folge reeller Zufallsvariablen in L 1 (P) und 

�Sn = � n 

i=1 (Xi − E[Xi]). 

(i) Wir sagen, (Xn)n∈N genüge dem schwachen Gesetz der großen Zahl, falls 

lim 

n→∞ P 

�� 

�� 1 

n � � 

� 

Sn� 

� >ε 

� 

=0 für jedes ε>0. 

(ii) Wir sagen, (Xn)n∈N genüge dem starken Gesetz der großen Zahl, falls 

� � 

� 

P lim sup � 

1 

� 

n→∞ n � � 

� 

Sn� 

� =0 

� 

=1. 

Bemerkung 5.13. Das starke Gesetz der großen Zahl impliziert das schwache. Ist 

nämlich Aε �� 1 

n := n � � � � � 

Sn� 

>ε und A = lim sup � 1 

n 

n→∞ 

� � � 

Sn� 

> 0 , so gilt offenbar 

A = � 

lim sup A 

n→∞ 

m∈N 

1/m 

n , 

� 

also P lim sup A 

n→∞ 

ε � 

n =0für ε>0. Nach dem Lemma von Fatou (Satz 4.21) ist 

� 

lim sup P [A 

n→∞ 

ε n]=1− lim inf 

n→∞ E � (Aε n )c 

� 

≤ 1 − E lim inf 

n→∞ 

(Aε n )c 

� 

� 

= E lim sup 

n→∞ 

Aε n 

� 

= 0. ✷ 

Satz 5.14. Seien X1,X2,... unkorrelierte Zufallsvariablen in L2 (P) mit V := 

supn∈N Var[Xn] < ∞. Dann genügt (Xn)n∈N dem schwachen Gesetz der großen 

Zahl. Es gilt sogar für jedes ε>0 

�� 

�� 1 

P 

n � � � 

� 

Sn� 

� ≥ ε 

≤ V 

ε 2 n 

für jedes n ∈ N. (5.5) 

Beweis. Ohne Einschränkung sei E[Xi] = 0 für jedes i ∈ N und damit Sn = 

X1 + ···+ Xn. Nach der Formel von Bienaymé (Satz 5.7) ist 

Var 

� 1 

n � Sn 

� 

= n −2 

n� 

i=1 

Var [Xi] ≤ V 

n . 

Nach der Chebyshev’schen Ungleichung (Satz 5.11) gilt für ε>0 

P � | � Sn/n| >ε � ≤ V 

ε 2 n 

n→∞ 

−→ 0. ✷


Beispiel 5.15 (Weierstraß’scher Approximationssatz). Sei f :[0, 1] → R eine 

stetige Abbildung. Nach dem Weierstraß’schen Approximationssatz existieren Polynome 

fn vom Grad höchstens n, sodass 

�fn − f�∞ 

n→∞ 

−→ 0, 

wobei �f�∞ := sup{|f(x)| : x ∈ [0, 1]} die Supremumsnorm von f ∈ C([0, 1]) 

bezeichnet. 

Wir führen hier einen probabilistischen Beweis dieser Aussage vor. Für n ∈ N sei 

das Polynom fn definiert durch 

n� 

� � 

n 

fn(x) := f(k/n) x 

k 

k (1 − x) n−k 

für x ∈ [0, 1]. 

k=0 

Dieses Polynom heißt Bernstein-Polynom der Ordnung n. 

Sei ε>0 fest gewählt. Da f auf [0, 1] stetig ist, ist f sogar gleichmäßig stetig. Es 

existiert also ein δ>0, sodass 

|f(x) − f(y)|

5.3 Starkes Gesetz der Großen Zahl 107 

P � Sn ≥ (1 + δ)m � � 

e 

≤ 

δ 

(1 + δ) 1+δ 

�m 

und 

P � Sn ≤ (1 − δ)m � � 

≤ exp − δ2 � 

m 

. 

2 

Hinweis: Verwende für Sn die Markov’sche Ungleichung mit f(x) =eλx für gewisses 

λ>0 und finde dasjenige λ, das die Abschätzung optimiert. ♣ 

5.3 Starkes Gesetz der Großen Zahl 

Wir kommen nun zu einem starken Gesetz der großen Zahl, nämlich dem in der 

Form von Etemadi für identisch verteilte, paarweise unabhängige Zufallsvariablen. 

Es gibt viele verschiedene Formen von starken Gesetzen der großen Zahl, die unterschiedliche 

Voraussetzungen machen. So kann man darauf verzichten, dass die 

Zufallsvariablen identisch verteilt sind, wenn man stärkere Annahmen, etwa beschränkte 

Varianzen, macht und so weiter. Wir werden hier nicht bis in alle Tiefen 

gehen, sondern nur exemplarisch ein paar Aussagen vorstellen. Um die Methode für 

den Beweis des Satzes von Etemadi zu illustrieren, stellen wir zunächst ein Starkes 

Gesetz der großen Zahl unter stärkeren Annahmen vor. 

Satz 5.16. Sind X1,X2,... ∈L 2 (P) paarweise unabhängig (das heißt, Xi und 

Xj sind unabhängig für alle i, j ∈ N mit i �= j) und identisch verteilt, so genügt 

(Xn)n∈N dem starken Gesetz der großen Zahl. 

Beweis. Es sind (X + n )n∈N und (X− n )n∈N wieder paarweise unabhängige Familien 

quadratintegrierbarer Zufallsvariablen (vergleiche Bemerkung 2.15(ii)). Es reicht 

daher, (X + n )n∈N zu betrachten. Wir nehmen also im Folgenden an, dass Xn ≥ 0 ist 

fast sicher für jedes n ∈ N. 

Sei Sn = X1 + ...+ Xn für n ∈ N. Wähle ε>0. Für jedes n ∈ N setzen wir 

kn = ⌊(1 + ε) n⌋≥ 1 

2 (1 + ε)n . Dann ist nach der Chebyshev’schen Ungleichung 

(Satz 5.11) 

∞� 

n=1 

�� 

�� Skn 

P 

kn 

� 

� 

� 

∞� 

− E[X1] � 

� ≥ (1 + ε)−n/4 ≤ (1 + ε) n/2 Var � k −1 

= 

n=1 

∞� 

n Skn 

(1 + ε) 

n=1 

n/2 k −1 

n Var[X1] 

≤ 2 Var[X1] 

∞� 

(1 + ε) −n/2 < ∞. 

n=1 

� 

(5.6)


Nach dem Lemma von Borel-Cantelli gibt es daher für P-f.a. ω ein n0 = n0(ω) mit 

� 

� 

�Skn 

� 

� 

� − E[X1] � 

� < (1 + ε)−n/4 für jedes n ≥ n0. 

kn 

Also gilt 

� 

� 

lim sup �k 

n→∞ 

−1 

� 

� 

n Skn − E[X1] � =0 fast sicher. 

Für hinreichend großes n ∈ N ist kn+1 ≤ (1 + 2ε)kn. Für l ∈{kn,...,kn+1} ist 

dann 

1 

1+2ε k−1 

n Skn 

≤ k−1 

n+1 Skn ≤ l−1 Sl ≤ k −1 

n Skn+1 

≤ (1 + 2ε) k−1 Skn+1 n+1 . 

Wegen 1 − (1 + 2ε) −1 ≤ 2ε folgt 

� 

� 

lim sup �l 

l→∞ 

−1 � 

� 

� 

� 

Sl − E[X1] � ≤ lim sup �k 

n→∞ 

−1 

� 

� 

n Skn − E[X1] � +2ε lim sup 

n→∞ 

≤ 2ε E[X1] fast sicher, 

k −1 

n Skn 

und damit gilt das starke Gesetz der großen Zahl. ✷ 

Die Ähnlichkeit der Varianzabschätzungen im schwachen Gesetz der großen Zahl 

und in (5.6) legen nahe, dass im vorangehenden Satz auf die Bedingung verzichtet 

werden kann, dass die Zufallsvariablen X1,X2,... identisch verteilt sind, wenn 

man nur fordert, dass die Varianzen beschränkt sind (siehe Übung 5.3.1). 

Wir können die Bedingung in Satz 5.16 in anderer Weise abschwächen, indem wir 

nur Integrierbarkeit statt Quadratintegrierbarkeit der Zufallsvariablen fordern. 

Satz 5.17 (Starkes Gesetz der großen Zahl von Etemadi (1981)). Es seien 

X1,X2,... ∈L 1 (P) paarweise unabhängig und identisch verteilt. Dann genügt 

(Xn)n∈N dem starken Gesetz der großen Zahl. 

Wir folgen dem Beweis in [38]. Setze im Folgenden μ = E[X1]. Zur Vorbereitung 

des Beweises stellen wir ein paar Lemmata bereit. 

Lemma 5.18. Für n ∈ N seien Yn := Xn {|Xn|≤n} und Tn = Y1 + ···+ Yn. Die 

Folge (Xn)n∈N erfüllt das starke Gesetz der großen Zahl, falls Tn/n n→∞ 

−→ μ f.s. 

Beweis. Nach Satz 4.26 ist ∞� 

P 

n=1 

� |Xn| >n � ≤ E � |X1| � < ∞. Nach dem Lemma 

von Borel-Cantelli ist daher 

P � Xn �= Yn für unendlich viele n � =0. 

Es gibt also ein n0 = n0(ω) mit Xn = Yn für jedes n ≥ n0. Daher gilt für n ≥ n0 

Tn − Sn 

n 

= Tn0 − Sn0 

n 

n→∞ 

−→ 0. ✷


Lemma 5.19. Für jedes x ≥ 0 ist 2x � 

n −2 ≤ 4. 

n>x 

Beweis. Für m ∈ N ist nach dem Integralvergleichskriterium 

Lemma 5.20. Es gilt 

∞� 

n 

n=m 

−2 ≤ m −2 � ∞ 

+ 

m 

∞� 

n=1 

E � Y 2 � 

n 

n2 ≤ 4 E[|X1|]. 

t −2 dt = m −2 + m −1 ≤ 2 

. ✷ 

m 

Beweis. Nach Satz 4.26 ist E � Y 2 � � ∞ 

n = 0 P�Y 2 n > t � dt. Mit der Substitution 

x = √ t erhalten wir 

E � Y 2� n = 

� ∞ 

0 

2x P[|Yn| >x] dx ≤ 

� n 

0 

2x P[|X1| >x] dx. 

Nach dem Satz über monotone Konvergenz und Lemma 5.19 gilt für m →∞ 

� 

m� 

� 

fm(x) = 

2x P[|X1| >x] ↑ f(x) ≤ 4 P[|X1| >x]. 

n=1 

n −2 {xx] dx =4E[|X1|]. ✷ 

Beweis von Satz 5.17 Wie im Beweis von Satz 5.16 reicht es, Xn ≥ 0 zu betrachten. 

Wähle ε>0 und setze α =1+ε.Für n ∈ N setzen wir kn = ⌊α n ⌋ und haben 

speziell kn ≥ α n /2. Es ist also (mit n0 = ⌈log m/ log α⌉) 

� 

n: kn≥m 

k −2 

n ≤ 4 

∞� 

n=n0 

α −2n =4α −2n0 (1 − α −2 ) −1 ≤ 4(1 − α −2 ) −1 m −2 . (5.7) 

Unser Ziel ist es, mit Hilfe von Lemma 5.20 die Abschätzung (5.6) für (Yn)n∈N 

und (Tn)n∈N zu verfeinern. Die Chebyshev’sche Ungleichung liefert (zusammen 

mit (5.7)) wiederum für δ>0


∞� 

P �� Tkn − E� �� 

Tkn 

� −2 

>δkn ≤ δ 

n=1 

= δ −2 

∞� 

n=1 

k −2 

n 

∞� 

n=1 

Var [Tkn ] 

k 2 n 

kn� 

Var[Ym] =δ −2 

m=1 

≤ 4(1 − α −2 ) −1 δ −2 

∞� 

m=1 

∞� 

Var[Ym] � 

m=1 

n: kn≥m 

k −2 

n 

m −2 E � Y 2 � 

m < ∞ nach Lemma 5.20. 

(Im dritten Schritt durften wir die Summationsreihenfolge vertauschen, weil alle 

Summanden nichtnegativ sind.) Da δ>0 beliebig war, folgt (mit dem Lemma von 

Borel-Cantelli) 

Tkn − E [Tkn ] 

lim 

=0 

n→∞ kn 

fast sicher. (5.8) 

Nach dem Satz über monotone Konvergenz (Satz 4.20) gilt 

E[Yn] =E � X1 

� n→∞ 

{|X1|≤n} −→ E[X1]. 

n→∞ 

Also gilt E[Tkn ]/kn −→ E[X1] und wegen (5.8) auch Tkn /kn 

Wie im Beweis von Satz 5.16 gilt jetzt auch (weil Yn ≥ 0) 

Tl 

lim 

l→∞ l = E[X1] fast sicher. 

n→∞ 

−→ E[X1] f.s. 

Nach Lemma 5.18 folgt hieraus die Behauptung von Satz 5.17. ✷ 

Beispiel 5.21 (Monte Carlo Integration). Betrachte eine Funktion f :[0, 1] → R, 

deren Integral I := � 1 

f(x) dx numerisch bestimmt werden soll. Wir nehmen an, 

0 

dass uns der Computer Zahlen X1,X2,... generiert, die wir als unabhängige Zufallszahlen 

auffassen können, die auf [0, 1] gleichverteilt sind. Für n ∈ N definieren 

wir den Schätzwert 

�In := 1 

n� 

f(Xi). 

n 

i=1 

Unter der Annahme, dass f ∈L1 ([0, 1]) ist, liefert das starke Gesetz der großen 

Zahl � n→∞ 

In −→ I fast sicher. 

Allerdings haben wir im letzten Satz keine Aussage zur Geschwindigkeit der Konvergenz, 

also zur Größe P[| � In − I| >ε] bekommen. Um genauere Schätzungen für 

das Integral zu bekommen, benötigen wir zusätzliche Information, etwa den Wert 

V1 := � f 2 (x) dx − I2 , falls f ∈L2 ([0, 1]) ist. (Für beschränktes f etwa lässt sich 

V1 leicht nach oben abschätzen.) Dann ist nämlich Var[ � In] =V1/n, also ist nach 

der Chebyshev’schen Ungleichung 

� 

P | � In − I| >εn −1/2� 

≤ V1/ε 2 .


Der Fehler ist mithin maximal von der Größenordnung n−1/2 . Der Zentrale Grenzwertsatz 

wird uns zeigen, dass der Fehler exakt von dieser Ordnung ist. 

Wenn über f minimale Glattheitseigenschaften bekannt sind, so liefern die gängigen 

numerischen Verfahren sehr viel bessere Konvergenzordnungen. Die hier beschriebene 

Monte Carlo Simulation sollte also nur angewandt werden, wenn alle anderen 

Verfahren ungeeignet sind. Speziell ist dies der Fall, wenn statt [0, 1] ein Gebiet 

G ⊂ Rd für sehr großes d betrachtet wird. ✸ 

Definition 5.22 (Empirische Verteilungsfunktion). Seien X1,X2,... reelle Zufallsvariablen. 

Dann heißt die Abbildung F : R → [0, 1], x ↦→ 1 

n� 

n 

i=1 (−∞,x](Xi) 

die empirische Verteilungsfunktion von X1,...,Xn. 

Satz 5.23 (Glivenko-Cantelli). Seien X1,X2,...u.i.v. reelle Zufallsvariablen mit 

Verteilungsfunktion F , und seien Fn, n ∈ N, die empirischen Verteilungsfunktionen. 

Dann gilt 

lim sup 

n→∞ 

� 

sup �Fn(x) − F (x) 

x∈R 

� � =0 fast sicher. 

Beweis. Wähle ein x ∈ R und setze Yn(x) = (−∞,x](Xn) und Zn(x) = 

(−∞,x)(Xn) für n ∈ N. Wirdefinieren außerdem die linksseitigen Limiten 

F (x−) = limy↑x F (y) und analog für Fn. Dann sind (Yn(x))n∈N und (Zn(x))n∈N 

jeweils unabhängige Familien und E[Yn(x)] = P[Xn ≤ x] = F (x) sowie 

E[Zn(x)] = P[Xn


und 

Also gilt 

Fn(x) ≥ Fn(xj−1) ≥ F (xj−1) − Rn ≥ F (x) − Rn − 1 

N . 

lim sup 

n→∞ 

� 

sup �Fn(x) − F (x) 

x∈R 

� � 

1 

≤ 

N 

+ lim sup Rn = 

n→∞ 

1 

N . 

Indem wir N →∞gehen lassen, folgt die Behauptung. ✷ 

Beispiel 5.24 (Satz von Shannon). Wir betrachten eine Informationsquelle, die 

zufällig (und unabhängig) hintereinander Zeichen X1,X2,... eines endlichen Alphabets 

E (also einer beliebigen endlichen Menge) ausgibt. Dabei soll pe die 

Wahrscheinlichkeit für das Auftreten des Zeichens e ∈ E sein. Formal sind also 

X1,X2,...u.i.v. E-wertige Zufallsvariablen mit P[Xi = e] =pe für e ∈ E. 

Sei für jedes ω ∈ Ω und n ∈ N 

πn(ω) := 

n� 

pXi(ω) die Wahrscheinlichkeit, dass die beobachtete Sequenz X1(ω),...,Xn(ω) auftritt. 

Wir setzen Yn := − log(pXn(ω)). Dannist(Yn)n∈Nu.i.v. und E[Yn] = H(p), 

wobei 

H(p) :=− � 

pe log(pe) 

i=1 

e∈E 

die Entropie der Verteilung p =(pe)e∈E ist. Aus dem starken Gesetz der großen 

Zahl folgt der Satz von Shannon: 

− 1 

n log πn = 1 

n 

n� 

i=1 

Yi 

Entropie und Quellenkodierungssatz ∗ 

n→∞ 

−→ H(p) fast sicher. ✸ 

Wir wollen kurz auf die Bedeutung von πn und der Entropie eingehen. Wie groß ist 

die ” Information“, die in einer Nachricht X1(ω),...,Xn(ω) steckt? Diese Information 

kann man messen durch die Länge der kürzesten Folge von Nullen und Einsen, 

mit der man die Nachricht kodieren kann. Wir wollen jetzt natürlich nicht für jede 

Nachricht eine eigene Kodierung erfinden, und auch nicht für jede mögliche Nachrichtenlänge. 

Stattdessen ordnen wir jedem einzelnen Zeichen e ∈ E eine Folge 

von Nullen und Einsen zu, die dann aneinander gereiht die Nachricht ergeben. Die 

Länge l(e) der Folge, die das Zeichen e kodiert, darf dabei von e abhängen. So geben 

wir Zeichen, die häufiger auftreten, einen kürzeren Code als den selteneren Zeichen, 

um einen möglichst effizienten Code zu bekommen. Beim Morse-Alphabet ist dies


so ähnlich eingerichtet ( e“ und t“, die im Englischen häufig vorkommen, haben 

” ” 

die Codes kurz“ und lang“, der seltenere Buchstabe q“ hat den Code lang-lang- 

” ” ” ” 

kurz-lang“), allerdings besteht der Morse-Code nicht nur aus kurzen und langen 

Signalen, sondern auch noch aus Pausenzeichen, die das Ende eines Buchstabens 

signalisieren. Wenn wir nur Nullen und Einsen verwenden dürfen, haben wir keine 

solchen Pausenzeichen und müssen den Code so anlegen, dass der Code eines 

Zeichens nicht gleichzeitig der Anfang eines Codes eines anderen Zeichens ist. Wir 

dürfen also nicht etwa ein Zeichen mit 0110 kodieren und ein anderes mit 011011. 

Ein Code, der diese Bedingung erfüllt, heißt ein binärer Präfixcode. Wir bezeichnen 

mit c(e) ∈{0, 1} l(e) den Code von e, wobei l(e) die Länge ist. Wir können die 

Codes aller Zeichen in einem Baum darstellen. 

Wir wollen nun einen Code C =(c(e), e∈ E) herstellen, der effizient ist in dem 

Sinne, dass die erwartete Länge des Codes (für ein zufälliges Zeichen) 

Lp(C) := � 

e∈E 

pe l(e) 

möglichst klein ist. 

Wir konstruieren zunächst einen Code und zeigen dann, dass dieser fast optimal ist. 

Als ersten Schritt nummerieren wir E = {e1,...,eN } so, dass pe1 ≥ pe2 ≥ ... ≥ 

gilt. Wir definieren ℓ(e) ∈ N für jedes e ∈ E durch 

peN 

2 −ℓ(e) ≤ pe < 2 −ℓ(e)+1 . 

Setze ˜pe =2−ℓ(e) für jedes e ∈ E und ˜qk = � 

˜pel lk, also ist 

� c1(ek),...,c ℓ(ek)(ek) � �= � c1(el),...,c ℓ(ek)(el) � 

für alle l ≥ k. 

Daher ist C =(c(e) : e ∈ E) ein Präfixcode. 

Wir schreiben für jedes b>0 und x>0logb(x) := log(x) 

log(b) für den Logarithmus 

von x zur Basis b. Nach Konstruktion ist − log2(pe) ≤ l(e) ≤ 1 − log2(pe). Also 

ist die erwartete Länge 

− � 

pe log2(pe) ≤ Lp(C) ≤ 1 − � 

pe log2(pe). e∈E 

e∈E


Die Länge dieses Codes für die ersten n Zeichen unserer zufälligen Quelle ist also 

ungefähr �n k=1 log2(pXk(ω)) = log2 πn(ω), womit wir den Anknüpfungspunkt 

zum Satz von Shannon haben. Dieser trifft also eine Aussage über die Länge eines 

Binärcodes, der zur Übertragung einer langen Nachricht gebraucht wird. 

Ist nun der oben angegebene Code optimal, oder gibt es Codes mit geringerer erwarteter 

Länge? Antwort gibt der Quellenkodierungssatz, den wir hier mit einer 

Definition und einem Lemma vorbereiten. 

Definition 5.25 (Entropie). Sei p = (pe)e∈E eine Wahrscheinlichkeitsverteilung 

auf einer höchstens abzählbaren Menge E.Für b>0 definieren wir 

Hb(p) :=− � 

pe logb(pe), e∈E 

wobei wir 0log b(0) := 0 festlegen. Wir nennen H(p) :=He(p) (e die Euler’sche 

Zahl) die Entropie und H2(p) die binäre Entropie von p. 

Man beachte, dass nur für endliches E die Entropie stets endlich ist. 

Lemma 5.26 (Entropie-Ungleichung). Seien b und p wie oben. Ferner sei q eine 

Sub-Wahrscheinlichkeitsverteilung, also qe ≥ 0 für jedes e ∈ E und � 

e∈E qe ≤ 1. 

Dann gilt 

Hb(p) ≤− � 

pe logb(qe) (5.9) 

e∈E 

mit Gleichheit genau dann, wenn Hb(p) =∞ oder q = p. 

Beweis. Ohne Einschränkung können wir mit b = e, also mit dem natürlichen Logarithmus 

rechnen. Es gilt log(1 + x) ≤ x für x>−1 mit Gleichheit genau dann, 

wenn x =0ist. Ist in (5.9) die linke oder die rechte Seite endlich, so können wir 

die rechte von der linken Seite abziehen und erhalten 

H(p)+ � 

pe log(qe) = � 

pe log(qe/pe) 

e∈E 

e: pe>0 

= � 

e: pe>0 

≤ � 

� 

pe log 1+ qe 

� 

− pe 

pe 

qe − pe 

pe 

pe 

e: pe>0 

= � 

e∈E 

� � 

qe − pe ≤ 0. 

Ist q �= p, soistqe �= pe für ein e ∈ E mit pe > 0. Ist dies nun der Fall, so gilt 

strikte Ungleichheit, falls H(p) < ∞. ✷ 

Satz 5.27 (Quellenkodierungssatz). Sei p =(pe)e∈E eine Wahrscheinlichkeitsverteilung 

auf dem endlichen Alphabet E. Für jeden binären Präfixcode C = 

(c(e), e ∈ E) gilt Lp(C) ≥ H2(p), und es gibt einen solchen Code C mit 

Lp(C) ≤ H2(p)+1.

5.4 Konvergenzrate im starken GGZ 115 

Beweis. Der zweite Teil des Satzes wurde durch die obige Konstruktion schon gezeigt. 

Sei nun also ein Präfixcode gegeben. Sei L =maxe∈E l(e). Für e ∈ E sei 

CL(e) ={c ∈{0, 1} L : ck = ck(e) für k ≤ l(e)} die Menge aller Binärfolgen 

der Länge L, diewiec(e) beginnen. Da wir einen Präfixcode vorliegen haben, sind 

die CL(e), e ∈ E, paarweise disjunkt und � 

e∈E CL(e) ⊂{0, 1} L . Setzen wir also 

qe := 2−l(e) , so ist (beachte: #CL(e) =2L−l(e) ) 

� � 

−L 

qe =2 #CL(e) ≤ 1. 

e∈E 

e∈E 

Nach Lemma 5.26 gilt Lp(C) = � 

pe l(e) =− � 

pe log2(qe) ≥ H2(p). ✷ 

e∈E 

Übung 5.3.1. Man zeige die folgende Verbesserung von Satz 5.16: Sind X1,X2,... 

∈L 2 (P) paarweise unabhängig mit beschränkten Varianzen, so genügt (Xn)n∈N 

dem starken Gesetz der großen Zahl. ♣ 

Übung 5.3.2. Man zeige: Ist (Xn)n∈N eine unabhängige Folge identisch verteilter 

Zufallsvariablen mit 1 

n (X1 + ...+ Xn) n→∞ 

−→ Y fast sicher für eine Zufallsvariable 

Y ,soistX1∈L1 (P) und Y = E[X1] fast sicher. 

Hinweis: Man zeige zunächst 

P � |Xn| >n für unendlich viele n � =0 ⇐⇒ X1 ∈L 1 (P). ♣ 

Übung 5.3.3. Sei E endlich und p ein Wahrscheinlichkeitsvektor auf E. Man zeige, 

dass die Entropie H(p) minimal ist (nämlich Null), falls p = δe für ein e ∈ E und 

maximal (nämlich log(#E)), falls p die Gleichverteilung auf E ist. ♣ 

Übung 5.3.4. Sei b ∈{2, 3, 4,...}. Ein b-adischer Präfixcode ist ähnlich definiert 

wie ein binärer Präfixcode, jedoch sind jetzt als Zeichen die Zahlen 0, 1,...,b− 1 

zugelassen. Man zeige, dass die Aussage des Quellenkodierungssatzes sinngemäß 

für b-adische Präfixcodes gilt, mit Hb(p) statt H2(p). ♣ 

5.4 Konvergenzrate im starken GGZ 

Im schwachen Gesetz der großen Zahl hatten wir auch eine Aussage über die Konvergenzgeschwindigkeit 

gemacht (Satz 5.14), im starken Gesetz der großen Zahl 

hingegen nicht. Da wir hier nur erste Momente der Zufallsvariablen gefordert hatten, 

können wir auch keine brauchbaren allgemein gültigen Aussagen erwarten. Nehmen 

wir hingegen höhere Momente an, so bekommen wir nützliche Aussagen zur Konvergenzgeschwindigkeit. 

Das Herzstück des schwachen Gesetzes der großen Zahl ist die Chebyshev’sche 

Ungleichung. Hier geben wir eine schärfere Ungleichung an, die mit der gleichen 

e∈E


oberen Schranke nun das Maximum über alle Partialsummen bis zu einer bestimmten 

Grenze abschätzt. 

Satz 5.28 (Kolmogorov’sche Ungleichung). Seien n ∈ N und X1,X2,...,Xn 

unabhängige Zufallsvariablen mit E[Xi] =0und Var[Xi] 0 

P � max{Sk : k =1,...,n}≥t � ≤ 

sowie die Kolmogorov’sche Ungleichung 

Var[Sn] 

t 2 + Var[Sn] 

(5.10) 

P � max{|Sk| : k =1,...,n}≥t � ≤ t −2 Var[Sn]. (5.11) 

In Satz 11.2 werden wir mit der Doob’schen Ungleichung eine Verallgemeinerung 

der Kolmogorov’schen Ungleichung kennen lernen. 

Beweis. Wir führen eine Zerlegung durch nach dem ersten Zeitpunkt τ, zu dem die 

Partialsummen t überschreiten. Sei also 

τ := min � k ∈{1,...,n} : Sk ≥ t � 

und Ak = {τ = k} für k =1,...,nsowie 

n� 

A = Ak = � max{Sk : k =1,...,n}≥t � . 

k=1 

Sei c ≥ 0. Die Zufallsvariable (Sk + c) Ak ist messbar bezüglich σ(X1,...,Xk), 

und Sn − Sk ist messbar bezüglich σ(Xk+1,...,Xn). Nach Satz 2.26 sind die 

beiden Zufallsvariablen unabhängig, und es gilt 

E � (Sk + c) Ak (Sn − Sk) � = E � � � � 

(Sk + c) Ak E Sn − Sk =0. 

Offenbar sind die Ereignisse A1,...,An paarweise disjunkt, also �n k=1 Ak = 

A ≤ 1. Wir erhalten so 

Var[Sn]+c 2 = E � (Sn + c) 2� 

� 

n� 

≥ E (Sn + c) 2 � 

n� 

Ak = E � (Sn + c) 2 � 

Ak 

= 

= 

≥ 

k=1 

k=1 

k=1 

n� 

E � (Sk + c) 2 � 

Ak . 

k=1 

k=1 

n� 

E �� (Sk + c) 2 +2(Sk + c)(Sn − Sk)+(Sn − Sk) 2� � 

Ak 

n� 

E � (Sk + c) 2 � 

n� 

Ak + E � (Sn − Sk) 2 (5.12) 

� 

Ak 

k=1

5.4 Konvergenzrate im starken GGZ 117 

Wegen c ≥ 0 ist (Sk + c) 2 Ak ≥ (t + c)2 Ak , also können wir (5.12) fortsetzen 

durch 

≥ 

n� 

E � (t + c) 2 � 2 

Ak =(t + c) P[A]. 

k=1 

Für c = Var[Sn]/t ≥ 0 erhalten wir 

P[A] ≤ 

Var[Sn]+c 2 

(t + c) 2 

= c(t + c) 

tc 

= 

(t + c) 2 t2 Var[Sn] 

= 

+ tc t2 + Var[Sn] . 

Damit ist (5.10) gezeigt. Um (5.11) zu zeigen, wähle ¯τ := min � k ∈{1,...,n} : 

|Sk| ≥t � und Āk = {¯τ = k} sowie Ā = {¯τ ≤ n}. Die obige Fortsetzung von 

(5.12) mit c>0 ist jetzt nicht zulässig. Wenn wir aber c =0wählen, gilt S2 k ≥ 

t2 Āk . Mit der selben Rechnung wie in (5.12) erhalten wir P[Ā] ≤ t−2Var[Sn].✷ Wir folgern aus der Kolmogorov’schen Ungleichung eine erste Verschärfung des 

starken Gesetzes der großen Zahl. 

Satz 5.29. Seien X1,X2,...unabhängige Zufallsvariablen mit E[Xn] =0für jedes 

n ∈ N und V := sup{Var[Xn] : n ∈ N} < ∞. Dann gilt für jedes ε>0 

lim sup 

n→∞ 

|Sn| 

n1/2 =0 fast sicher. 

(log(n)) (1/2)+ε 

Beweis. Setze kn =2 n und l(n) =n 1/2 (log(n)) (1/2)+ε für n ∈ N. Für k ∈ N mit 

kn ≤ k ≤ kn+1 ist |Sk|/k ≤ 2|Sk|/kn+1. Also reicht es, für δ>0 zu zeigen, dass 

lim sup l(kn) 

n→∞ 

−1 max{|Sk| : k ≤ kn} ≤δ fast sicher. (5.13) 

Für δ > 0 und n ∈ N setze Aδ n := � max{|Sk| : k ≤ kn} > δl(kn) � .Die 

Kolmogorov’sche Ungleichung liefert 

∞� 

n=1 

P � A δ � 

n ≤ 

∞� 

n=1 

δ −2 (l(kn)) −2 Vkn = 

V 

δ 2 (log 2) 1+2ε 

∞� 

n −1−2ε < ∞. 

Das Borel Cantelli Lemma liefert nun P � lim supn→∞ Aδ � 

n =0, also (5.13). ✷ 

Wir werden in Kapitel 22 sehen, dass für unabhängige, identisch verteilte, quadratintegrierbare, 

zentrierte Zufallsvariablen X1,X2,...die folgende Verschärfung gilt 

lim sup 

n→∞ 

n=1 

|Sn| 

� =1 fast sicher. 

2n Var[X1] log(log(n)) 

Die Konvergenzrate ist also in diesem Fall genau bekannt. Sind die X1,X2,...nicht 

unabhängig, sondern nur paarweise unabhängig, so verschlechtert sich die Konvergenzrate, 

wenngleich nicht drastisch: Wir geben hier ohne Beweis einen Satz an, 

den Rademacher 1922 [134] und Menshov 1923 [111] unabhängig voneinander gefunden 

haben.


Satz 5.30 (Rademacher–Menshov). Seien X1,X2,... unkorrelierte quadratintegrierbare 

zentrierte Zufallsvariablen und (an)n∈N eine wachsende Folge nichtnegativer 

Zahlen mit 

∞� 

(log n) 2 a −2 

n Var[Xn] < ∞. (5.14) 

Dann gilt lim sup 

n→∞ 

� 

� 

� 

� 

n=1 

n� 

� a−1 n Xk 

k=1 

� 

� 

� 

� =0 fast sicher. 

� 

Beweis. Siehe etwa [120]. ✷ 

Bemerkung 5.31. Die Bedingung (5.14) ist scharf in dem Sinne, dass es für jede 

wachsende Folge (an)n∈N mit �∞ n=1 a−2 n (log n) 2 = ∞ eine Folge paarweise 

unabhängiger, quadratintegrierbarer, zentrierter Zufallsvariablen X1,X2,...mit 

Var[Xn] =1für jedes n ∈ N gibt, sodass 

� 

� 

� 

lim sup � 

n→∞ � a−1 

n� 

� 

� 

� 

n Xk� 

= ∞ fast sicher. 

� 

k=1 

Siehe [24]. Dort wird ein Beispiel von Tandori [151] für so genannte orthogonale 

Reihen weiter entwickelt. Siehe auch [114]. ✸ 

Für Zufallsvariablen mit unendlicher Varianz werden Aussagen über die Konvergenzgeschwindigkeit 

naturgemäß schwächer. Es gilt beispielsweise (siehe [11]): 

Satz 5.32 (Baum und Katz (1965)). Sei γ>1, und seien X1,X2,... u.i.v. sowie 

Sn = X1 + ...+ Xn für n ∈ N. Dann gilt 

∞� 

n γ−2 P[|Sn|/n>ε] < ∞ für jedes ε>0 ⇐⇒ E[|X1| γ ]0 die Ungleichung 

von Etemadi gilt: 

� 

P max 

k=1,...,n |Sk| 

� 

≥t 

5.5 Der Poissonprozess 

≤ 3 max 

k=1,...,n P� |Sk| ≥t/3 � . ♣ 

Wir wollen ein Modell für die Anzahl der Klicks entwickeln, die ein Geigerzähler 

in einem (Zeit-)Intervall I =(a, b] macht. Die Anzahl der Klicks soll dabei

5.5 Der Poissonprozess 119 

– zufällig sein und unabhängig für disjunkte Intervalle, 

– zeitlich homogen in dem Sinne, dass die Anzahl der Klicks in I =(a, b] die selbe 

Verteilung hat, wie die Anzahl der Klicks in c + I =(a + c, b + c], 

– einen Erwartungswert besitzen, 

– keine Doppelpunkte aufweisen: der Zähler macht zu jedem Zeitpunkt nur einen 

Klick. 

Wir formalisieren diese Forderungen, indem wir die Notation einführen: 

I := {(a, b] : a, b ∈ [0, ∞), a≤ b}. 

ℓ((a, b]) := b − a (die Länge des Intervalls I =(a, b]). 

Für I ∈Isei NI die Anzahl der Klicks nach Zeitpunkt a und nicht später als b. 

Speziell setzen wir Nt := N (0,t] für die Gesamtzahl aller Klicks bis zur Zeit t. Die 

obigen Forderungen lassen sich nun übersetzen zu: (NI, I ∈I) ist eine Familie 

von Zufallsvariablen mit Werten in N0 mit den Eigenschaften 

(P1) NI∪J = NI + NJ, falls I ∩ J = ∅ und I ∪ J ∈Iist. 

(P2) Die Verteilung von NI hängt nur von der Länge von I ab: PNI = PNJ für 

alle I,J ∈Imit ℓ(I) =ℓ(J). 

(P3) Ist J ⊂ I mit I ∩ J = ∅ für alle I,J ∈Jmit I �= J, soist(NJ, J∈J) 

eine unabhängige Familie. 

(P4) Für jedes I ∈Igilt E[NI] < ∞. 

(P5) Es gilt lim supε↓0 ε−1 P[Nε ≥ 2] = 0. 

Die Bedeutung von (P5) erklärt sich durch die folgende Rechnung: Setzen wir λ := 

lim supε↓0 ε−1 k k→∞ 

P[Nε ≥ 2],soist(wegen(1 − ak/k) −→ e−a , falls ak 

P � es gibt einen Doppelklick in (0, 1] � = lim 

n→∞ P 

=1− lim 

n→∞ P 

2 

=1− lim 

n→∞ 

n −1 

k=0 

=1− lim 

n→∞ 

=1− e −λ . 

� 2 n �−1 

k→∞ 

−→ a) 

� N(k 2 −n ,(k+1)2 −n ] ≥ 2 �� 

k=0 

� 2 n �−1 

� 

N(k 2−n ,(k+1)2−n ] ≤ 1 �� 

� 

k=0 

P � N (k 2 −n ,(k+1)2 −n ] ≤ 1 � 

� 1 − P[N2 −n ≥ 2] � 2 n 

Wir müssen also λ =0fordern; dies ist aber gerade (P5).


Der nächste Satz zeigt, dass die Bedingungen (P1) – (P5) die Zufallsvariablen 

(NI, I∈I) eindeutig charakterisieren und zwar als Poissonprozess. 

Definition 5.33 (Poissonprozess). Eine Familie (Nt, t≥ 0) von N0–wertigen Zufallsvariablen 

heißt Poissonprozess mit Intensität α ≥ 0, falls N0 =0und: 

(i) Für jedes n ∈ N und je n +1Zahlen 0=t0 s≥ 0 ist Nt − Ns Poisson-verteilt mit Parameter α(t − s), also 

−α(t−s) (α(t − s))k 

P[Nt − Ns = k] =e 

k! 

für jedes k ∈ N0. 

Die Existenz eines Poissonprozesses ist an dieser Stelle noch nicht gesichert. Darauf 

kommen wir in Satz 5.35 zurück. 

Satz 5.34. Erfüllt (NI, I∈I) die Bedingungen (P1) – (P5), so ist (N (0,t], t≥ 0) 

ein Poissonprozess mit Intensität α := E[N (0,1]]. Ist umgekehrt (Nt, t≥ 0) ein 

Poissonprozess, so erfüllt (Nt − Ns, (s, t] ∈I) die Bedingungen (P1)–(P5). 

Beweis. Sei zunächst (Nt, t≥ 0) ein Poissonprozess mit Intensität α ≥ 0. Dann 

ist für I =(a, b] offenbar PNI =Poi α(b−a) =Poi αℓ(I). Also gilt (P2). Wegen (i) 

gilt (P3). Offenbar ist E[NI] =αℓ(I) < ∞, also gilt (P4). Schließlich ist P[Nε ≥ 

2] = 1 − e −αε − αεe −αε = f(0) − f(αε), wobei f(x) :=e −x + xe −x . Wir bilden 

die Ableitung f ′ (x) =−xe −x . Dann ist offenbar 

lim ε 

ε↓0 −1 P[Nε ≥ 2] = −αf ′ (0) = 0. 

Also gilt auch (P5). 

Erfülle nun (NI, I∈I) die Bedingungen (P1) – (P5). Setze α(t) :=E[Nt]. Dann 

ist (wegen (P2)) 

α(s + t) =E � � � � � � 

N (0,s] + N (s,s+t] = E N(0,s] + E N(0,t] = α(s)+α(t). 

Da t ↦→ α(t) monoton wachsend ist, folgt hieraus sogar α(t) =tα(1) für jedes t ≥ 

0. Wir setzen α := α(1) und erhalten E[NI] =αℓ(I).Wirmüssen nur noch zeigen, 

dass PNt =Poiαt gilt. Um den Satz über die Poissonapproximation (Satz 3.7) zu 

verwenden, zerlegen wir für festes n ∈ N, das Intervall (0,t] in 2 n disjunkte gleich 

lange Intervalle 

I n (k) := � (k − 1)2 −n t, k2 −n t � , k =1,...,2 n , 

und setzen Xn (k) :=NIn (k) sowie 

X n � 

n 1, falls X (k) ≥ 1, 

(k) := 

0, sonst.

5.5 Der Poissonprozess 121 

Nach den Annahmen (P2) und (P3) sind (X n (k), k=1,...,2 n ) unabhängig und 

identisch verteilt. Daher ist auch (X n (k), k=1,...,2 n ) unabhängig und identisch 

verteilt, nämlich X n (k) ∼ Berpn , wobei pn = P[N 2 −n t ≥ 1]. 

Schließlich setzen wir N n t := �2 n 

k=1 Xn (k). DannistNn t ∼ b2n ,pn . Offenbar ist 

N n+1 

t − N n t ≥ 0. Nun gilt nach (P5) 

P [Nt �= N n � 

t ] ≤ P [X n (k) ≥ 2] = 2 n P [N2−nt ≥ 2] n→∞ 

−→ 0. (5.15) 

2 n 

k=1 

� 

Also ist P Nt = lim 

n→∞ N n t 

� 

=1. Nach dem Satz über monotone Konvergenz gilt 

αt= E [Nt] = lim 

n→∞ E [N n t ] = lim 

n→∞ pn 2 n . 

Nach dem Satz über Poisson-Approximation (Satz 3.7) gilt daher für jedes l ∈ N0 

P[Nt = l] = lim 

n→∞ P [N n t = l] =Poiαt({l}). 

Also ist PNt =Poiαt. ✷ 

Bislang steht noch der Nachweis aus, dass es überhaupt Poissonprozesse gibt. In Kapitel 

24 werden wir ein allgemeines Konstruktionsprinzip kennen lernen, das auch 

für allgemeinere Räume als [0, ∞) funktioniert (siehe auch Übung 5.5.1). 

Eine weitere, instruktive Konstruktion basiert auf den Wartezeiten zwischen den 

Klicks, oder formal zwischen den Unstetigkeitsstellen der Abbildung t ↦→ Nt(ω). 

Wie groß ist die Wahrscheinlichkeit, dass wir zur Zeit s auf den nächsten Klick des 

Zählers länger als t Zeiteinheiten warten müssen? Wenn wir die Klicks als Poissonprozess 

mit Intensität α modellieren, ist diese Wahrscheinlichkeit 

P � N (s,s+t] =0 � = e −αt . 

Mithin ist die Wartezeit auf den nächsten Klick exponentialverteilt mit Parameter 

α. Außerdem sollten die Wartezeiten unabhängig voneinander sein. Wir nehmen 

nun die Wartezeiten als Startpunkt der Betrachtung und konstruieren hieraus den 

Poissonprozess. 

Sei W1,W2,...eine unabhängige Familie von exponentialverteilten Zufallsvariablen 

mit Parameter α>0, also P[Wn >x]=e−αx . Wir setzen 

n� 

Tn := Wk 

k=1 

und interpretieren Wn als die Wartezeit zwischen dem (n − 1)-ten und dem nten 

Klick. Tn ist der Zeitpunkt des n-ten Klicks. In Anlehnung an diese Intuition 

definieren wir


Nt := #{n ∈ N0 : Tn ≤ t} 

als die Anzahl der Klicks bis zur Zeit t. Es ist dann 

Speziell ist also Nt eine Zufallsvariable. 

{Nt = k} = {Tk ≤ t

� ∞ 

0 

··· 

� ∞ 

dxk+1 ··· dxk+l {s

6 Konvergenzsätze 

Im starken und schwachen Gesetz der großen Zahl hatten wir implizit schon die 

Begriffe von fast sicherer und stochastischer Konvergenz von Folgen von Zufallsvariablen 

kennen gelernt und gesehen, dass die fast sichere die stochastische Konvergenz 

impliziert. In diesem Kapitel definieren wir die Begriffe von fast sicherer 

und stochastischer Konvergenz sowie Konvergenz im Mittel von Folgen messbarer 

Abbildungen und setzen sie in Beziehung zueinander. Eine Schlüsselrolle kommt 

dabei dem Konzept der gleichgradigen Integrierbarkeit zu. 

6.1 Fast-überall- und stochastische Konvergenz 

Im Folgenden ist (Ω,A,μ) stets ein σ-endlicher Maßraum. Wir definieren zunächst 

Fast-überall-Konvergenz und stochastische Konvergenz in metrischen Räumen und 

vergleichen dann beide Konzepte miteinander. Hierfür benötigen wir zunächst zwei 

Lemmata, die sicher stellen, dass die Abstandsfunktion zweier messbarer Abbildungen 

wieder messbar ist. Sei im Folgenden (E,d) ein separabler, metrischer Raum 

mit Borel’scher σ-Algebra B(E). ” Separabel“ heißt dabei bekanntlich, dass es eine 

abzählbare, dichte Teilmenge gibt. Für x ∈ E und r>0 bezeichnen wir mit 

Br(x) ={y ∈ E : d(x, y)

126 6 Konvergenzsätze 

Seien f,f1,f2,... : Ω → E messbar bezüglich A – B(E). 

Definition 6.2. Wir sagen: (fn)n∈N konvergiert gegen f 

stoch 

(i) μ-stochastisch (oder dem Maße nach), in Formeln fn −→ f,wennfür jedes 

A ∈Amit μ(A) < ∞ und für jedes ε>0 gilt, dass 

μ({d(f,fn) >ε}∩A) n→∞ 

−→ 0. 

f.ü. 

(ii) μ-fast überall, in Formeln fn −→ f, wenn es eine μ-Nullmenge N ∈Agibt, 

sodass für jedes ω ∈ Ω \ N gilt, dass 

d(f(ω),fn(ω)) n→∞ 

−→ 0. 

Ist μ ein W-Maß, so sagen wir in diesem Fall auch, dass (fn)n∈N fast sicher 

f.s. 

konvergiert und schreiben fn −→ f. Gelegentlich werden die Hinweise fast 

” 

überall“ und fast sicher“ auch weglassen. 

” 

Bemerkung 6.3. Fast-überall-Konvergenz ist äquivalent zur Fast-überall-Konvergenz 

auf allen Mengen endlichen Maßes. ✸ 

Bemerkung 6.4. Fast-überall-Konvergenz impliziert die stochastische: Sei zu ε>0 

Dn(ε) ={d(f,fm) >ε für ein m ≥ n}. 

Dann gilt D(ε) := �∞ n=1 Dn(ε) ⊂ N, wobei N die Nullmenge aus der Definition 

der F.ü.-Konvergenz ist. Die σ-Stetigkeit von oben von μ impliziert μ(Dn(ε) ∩ 

A) n→∞ 

−→ μ(D(ε) ∩ A) =0für jedes A ∈Amit μ(A) < ∞. ✸ 

Bemerkung 6.5. Stochastische oder Fast-überall-Konvergenz legen den Grenzwert 

stoch 

stoch 

eindeutig fest bis auf Gleichheit fast überall. In der Tat: Sei fn −→ f und fn −→ g. 

Seien A1,A2,... ∈Amit An ↑ Ω und μ(An) < ∞ für jedes n ∈ N. Dannist 

(wegen d(f,g) ≤ d(f,fn)+d(g, fn)) für jedes m ∈ N und ε>0 

μ � Am ∩{d(f,g) >ε} � 

≤ μ � Am ∩{d(f,fn) >ε/2} � + μ � Am ∩{d(g, fn) >ε/2} � n→∞ 

−→ 0. 

Also ist μ � {d(f,g) > 0} � =0. ✸ 

Bemerkung 6.6. Im Allgemeinen impliziert stochastische Konvergenz nicht F.ü.- 

Konvergenz. In der Tat: Sei (Xn)n∈N eine unabhängige Familie von Zufallsvari- 

stoch 

ablen mit Xn ∼ Ber1/n. Dann gilt Xn −→ 0, jedoch ist nach dem Lemma von 

Borel-Cantelli lim supn→∞ Xn =1fast sicher. ✸

6.1 Fast-überall- und stochastische Konvergenz 127 

Satz 6.7. Seien A1,A2,... ∈Amit AN ↑ Ω und μ(AN ) < ∞ für jedes N ∈ N. 

Für messbare f,g : Ω → E setze 

˜d(f,g) := 

∞� 

N=1 

2 −N 

1+μ(AN ) 

� 

AN 

� 1 ∧ d(f(ω),g(ω)) � μ(dω). (6.1) 

Dann ist ˜ d eine Metrik, die die stochastische Konvergenz erzeugt: Sind f,f1,f2,... 

messbar, so gilt 

fn 

Beweis. Für N ∈ N setze 

� 

˜dN (f,g) := 

stoch 

−→ f ⇐⇒ ˜ d(f,fn) n→∞ 

−→ 0. 

AN 

� 1 ∧ d(f(ω),g(ω)) � μ(dω). 

Genau dann gilt ˜ d(f,fn) n→∞ 

−→ 0,wenn˜ dN(f,fn) n→∞ 

−→ 0 für jedes N ∈ N. 

” =⇒ “ Es gelte fn 

stoch 

−→ f. Dannistfür jedes ε ∈ (0, 1) 

˜dN (f,fn) ≤ μ � AN ∩{d(f,fn) >ε} � + εμ(AN ) n→∞ 

−→ εμ(AN ). 

Da ε ∈ (0, 1) beliebig war, gilt ˜ dN (f,fn) n→∞ 

−→ 0. 

” ⇐= “ Es gelte ˜ d(f,fn) n→∞ 

−→ 0. SeiB ∈Amit μ(B) < ∞. Wähle δ>0 und 

N ∈ N so groß, dass μ(B \ AN ) ε} � ≤ δ + μ � AN ∩{d(f,fn) >ε} � 

≤ δ + ε −1 ˜ dN (f,fn) n→∞ 

−→ δ. 

Da δ>0 beliebig war, folgt μ � B ∩{d(f,fn) >ε} � n→∞ 

stoch 

−→ 0, also fn −→ f. ✷ 

Wir betrachten nun den wichtigen Fall E = R mit der euklidischen Metrik. Hier 

haben wir durch das Integral einen weiteren Konvergenzbegriff zur Verfügung. 

Definition 6.8 (Konvergenz im Mittel). Seien f,f1,f2,... ∈L 1 (μ). Wir sagen 

(fn)n∈N konvergiere im Mittel gegen f, in Formeln 

falls �fn − f�1 

n→∞ 

−→ 0. 

Bemerkung 6.9. Gilt fn 

fn 

L 1 

−→ f, 

L 1 

−→ f, so gilt insbesondere � fn dμ n→∞ 

−→ � fdμ. ✸


L 1 

Bemerkung 6.10. Gilt fn −→ f und fn −→ g, soistf = g fast überall. In der Tat 

n→∞ 

ist nach der Dreiecksungleichung �f − g�1 ≤�fn− f�1 + �fn − g�1 −→ 0. ✸ 

Bemerkung 6.11. L 1 -Konvergenz und F.ü.-Konvergenz implizieren jeweils stochastische 

Konvergenz. Alle anderen Implikationen sind im Allgemeinen falsch. ✸ 

Satz 6.12 (Schnelle Konvergenz). Sei (E,d) ein separabler, metrischer Raum. 

Damit die Folge (fn)n∈N messbarer Abbildungen Ω → E fast überall konvergiert, 

ist hinreichend, dass eine der folgenden Bedingungen gilt. 

L 1 

(i) Es gilt E = R, es gibt ein p ∈ [1, ∞) mit fn ∈Lp (μ) für jedes n ∈ N, und 

es gibt ein f ∈Lp ∞� 

(μ) mit �fn − f�p < ∞. 

(ii) Es gibt ein messbares f mit 

n=1 

∞� 

μ(A ∩{d(f,fn) >ε}) < ∞ für jedes ε>0 

n=1 

und für jedes A ∈Amit μ(A) < ∞. 

In beiden Fällen gilt fn 

n→∞ 

−→ f fast überall. 

(iii) E ist vollständig, und es gibt eine summierbare Folge (εn)n∈N, sodass 

∞� 

μ(A ∩{d(fn,fn+1) >εn}) < ∞ für jedes A ∈A mit μ(A) < ∞. 

n=1 

Beweis. Offenbar impliziert (i) schon (ii), denn nach der Markov’schen Ungleichung 

ist μ({|f − fn| >ε}) ≤ ε−p�f − fn�p p. 

Nach Bemerkung 6.3 reicht es, den Fall μ(Ω) < ∞ zu betrachten. 

Gelte nun (ii). Sei Bn(ε) = {d(f,fn) > ε} und B(ε) = lim sup Bn(ε). Das 

n→∞ 

Lemma von Borel-Cantelli liefert μ(B(ε)) = 0.SeiN = �∞ n=1 B (1/n). Dann gilt 

μ(N) =0und fn(ω) n→∞ 

−→ f(ω) für jedes ω ∈ Ω \ N. 

Gelte (iii). Sei Bn = {d(fn+1,fn) >εn} und B = lim sup Bn. Dannistμ(B) = 

n→∞ 

0, und für jedes ω ∈ Ω\B ist (fn(ω))n∈N eine Cauchy-Folge in E.DaE vollständig 

ist, existiert der Limes f(ω) := limn→∞ fn(ω). Für ω ∈ B setze f(ω) =0. ✷ 

Korollar 6.13. Sei (E,d) vollständig und separabel. Seien f,f1,f2,... messbare 

Abbildungen Ω → E. Dann sind die beiden folgenden Aussagen äquivalent. 

(i) fn 

n→∞ 

−→ f stochastisch, 

(ii) Zu jeder Teilfolge von (fn)n∈N existiert eine gegen f fast überall konvergente 

Teilfolge.

6.1 Fast-überall- und stochastische Konvergenz 129 

Beweis. ” (ii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Dann gibt es ein ε>0 

und eine Teilfolge (fnk )k∈N mit ˜ d(fn,k,f) >εfür jedes k ∈ N. Offenbar konvergiert 

keine Teilfolge von (fnk )k∈N stochastisch gegen f, also auch nicht f.ü. 

” (i) =⇒ (ii)“ Gelte nun (i). Nach Bemerkung 6.3 können wir ohne Einschrän- 

stoch 

kung annehmen, dass μ(Ω) < ∞ gilt. Sei nk ↑∞beliebig. Wegen fnk −→ f für 

k →∞,können wir eine Teilfolge (fnk )l∈N wählen, sodass 

l 

∞� 

l=1 

� 

μ 

|f − fnk l | > 1 

l 

� 

< ∞. 

Nach Satz 6.12(ii) konvergiert (fnk l )l∈N fast überall gegen f. ✷ 

Korollar 6.14. Ist (Ω,A,μ) ein Maßraum, bei dem stochastische und F.ü.-Konvergenz 

nicht zusammenfallen, so gibt es keine Topologie auf der Menge der messbaren 

Abbildungen Ω → E, die die F.ü.-Konvergenz erzeugt. 

Beweis. Wir nehmen an, dass es eine Topologie gibt, die die F.ü.-Konvergenz er- 

stoch 

zeugt. Seien f,f1,f2,...messbare Abbildungen mit der Eigenschaft, dass fn −→ 

n→∞ 

f, jedoch nicht fn −→ f fast überall. Sei nun U eine offene Menge, die f enthält, 

für die jedoch fn �∈ U für unendlich viele n ∈ N gilt. Sei also (fnk )k∈N eine Teil- 

k→∞ 

folge mit fnk �∈ U für jedes k ∈ N. Wegenfnk−→ 

f stochastisch, gibt es nach 

Korollar 6.13 wiederum eine Teilfolge (fnk )l∈N von (fnk l )k∈N 

l→∞ 

mit fnk −→ f 

l 

fast überall. Es ist dann aber fnk ∈ U für alle bis auf endlich viele l, was einen 

l 

Widerspruch darstellt. ✷ 

Korollar 6.15. Sei (E,d) ein separabler, vollständiger metrischer Raum. Es sei 

(fn)n∈N eine stochastische Cauchy-Folge in E, das heißt, für jedes A ∈ A mit 

μ(A) < ∞ und jedes ε>0 gilt 

μ � A ∩{d(fn,fm) >ε} � −→ 0 für m, n →∞. 

Dann konvergiert (fn)n∈N stochastisch. 

Beweis. Ohne Einschränkung kann μ(Ω) < ∞ angenommen werden. Wähle eine 

Teilfolge (fnk )k∈N, sodass 

μ �� d(fn,fnk ) > 2−k�� < 2 −k 

für jedes n ≥ nk. 

k→∞ 

Nach Satz 6.12(iii) gibt es ein f mit fnk −→ f fast überall, also insbesondere 

k→∞ 

μ({d(fnk ,f) >ε/2}) −→ 0 für jedes ε>0. Nun ist aber 

μ({d(fn,f) >ε}) ≤ μ({d(fnk ,fn) >ε/2})+μ({d(fnk ,f) >ε/2}). 

Ist k so groß, dass 2−k ε}) n→∞ 

−→ 0, das heißt, es gilt fn 

stoch 

−→ f. ✷


Übung 6.1.1. Man zeige: Ist Ω höchstens abzählbar, so folgt aus stochastischer 

Konvergenz schon F.ü.-Konvergenz. ♣ 

Übung 6.1.2. Man gebe jeweils ein Beispiel an für eine Folge, die 

(i) in L1 konvergiert, aber nicht fast überall, 

(ii) fast überall konvergiert, aber nicht in L1 . ♣ 

Übung 6.1.3. (Satz von Egorov (1911)) Sei (Ω,A,μ) ein endlicher Maßraum, 

und seien f1,f2,...messbare Funktionen, die fast überall gegen ein f konvergieren. 

Man zeige: Zu jedem ε>0 gibt es eine Menge A ∈Amit μ(Ω \ A) �g} 

Ist μ(Ω) < ∞, so ist die gleichgradige Integrierbarkeit äquivalent zu jeder der 

beiden folgenden Bedingungen 

(i) inf 

a∈[0,∞) sup 

� 

(|f|−a) 

f∈F 

+ dμ =0, 

(ii) inf 

a∈[0,∞) sup 

� 

|f| dμ =0. 

f∈F 

{|f|>a}

6.2 Gleichgradige Integrierbarkeit 131 

Beweis. Offenbar gilt (|f|−g) + ≤|f|· 

gradige Integrierbarkeit. 

{|f|>g}, also impliziert (6.3) die gleich- 

Gelte nun (6.2). Für jedes ε>0 sei gε ∈L1 (μ) so gewählt, dass 

� 

sup 

f∈F 

(|f|−gε) + dμ ≤ ε. (6.4) 

Setze �gε =2gε/2. Dannistfür f ∈F 

� 

� 

|f| dμ ≤ (|f|−gε/2) + dμ + 

{|f|> �gε} 

{|f|> �gε} 

� 

{|f|> �gε} 

g ε/2 dμ. 

Per Konstruktion ist � 

{|f|> �gε} (|f|−gε/2) + dμ ≤ ε/2 und gε/2 {|f|> �gε} ≤ (|f|− 

gε/2) + {|f|> �gε}, also auch � 

{|f|> �gε} gε/2 dμ ≤ � 

|f|> �gε (|f| −gε/2) + dμ ≤ ε/2. 

Insgesamt haben wir also 

� 

sup |f| dμ ≤ ε. (6.5) 

f∈F 

{|f|> �gε} 

Offenbar impliziert (ii) schon (i), und (i) impliziert die gleichgradige Integrierbarkeit 

von F, denn das Infimum wird hier ja über die kleinere Menge der konstanten 

Funktionen gebildet. Wir müssen noch zeigen, dass gleichgradige Integrierbarkeit 

(ii) impliziert. Sei also F gleichgradig integrierbar und μ(Ω) < ∞. Zu gegebenem 

ε>0 (und gε und ˜gε wie oben) wählen wir aε so, dass � 

{�g ε/2>aε} �g ε/2 dμ < ε 

2 . 

Dann ist 

� 

{|f|>aε} 

� 

|f| dμ ≤ 

{|f|>�g ε/2} 

� 

|f| dμ + �g ε/2 dμ < ε. ✷ 

{�g ε/2>aε} 

Satz 6.18. (i) Ist F ⊂ L 1 (μ) eine endliche Menge, so ist F gleichgradig integrierbar. 

(ii) Sind F, G⊂L 1 (μ) gleichgradig integrierbar, dann sind auch (f + g : f ∈ 

F, g∈G) und (f − g : f ∈F,g∈G) sowie {|f| : f ∈F}gleichgradig 

integrierbar. 

(iii) Ist F gleichgradig integrierbar und existiert zu jedem g ∈Gein f ∈Fmit 

|g| ≤|f|, soistauchG gleichgradig integrierbar. 

Beweis. Der einfache Beweis verbleibt zur Übung. ✷ 

Der folgende Satz beschreibt ein sehr gut anwendbares Kriterium für gleichgradige 

Integrierbarkeit. Wir werden diesen Satz an vielen Stellen einsetzen.


Satz 6.19. Für endliches μ ist F⊂L1 (μ) genau dann gleichgradig integrierbar, 

wenn es eine Funktion H :[0, ∞) → [0, ∞) gibt mit limx→∞ H(x)/x = ∞ und 

� 

sup H(|f|) dμ < ∞. 

f∈F 

H kann sogar monoton wachsend und konvex gewählt werden. 

Beweis. ⇐= “ Es existiere H mit den angegebenen Eigenschaften. Dann gilt 

” 

Ka := infx≥a H(x) 

x ↑∞,wenna↑∞.Alsoistfür a>0 

sup 

f∈F 

� 

|f| dμ ≤ 

{|f|≥a} 

1 

Ka 

sup 

f∈F 

� 

H(|f|) dμ 

{|f|≥a} 

� 

H (|f|) dμ a→∞ 

−→ 0. 

≤ 1 

Ka 

sup 

f∈F 

” =⇒ “ Sei F gleichgradig integrierbar. Da μ(Ω) < ∞ gilt, gibt es (nach 

Satz 6.17) eine Folge an ↑∞mit 

� 

sup (|f|−an) 

f∈F 

+ dμ < 2 −n . 

Wir setzen 

H(x) = 

∞� 

(x − an) + 

n=1 

für jedes x ≥ 0. 

Dann ist H als Summe konvexer Funktionen konvex. Ferner gilt für jedes n ∈ N 

und x ≥ 2an, dassH(x)/x ≥ �n k=1 (1 − ak/x) + ≥ n/2, also gilt H(x)/x ↑∞. 

Schließlich ist nach dem Satz über monotone Konvergenz für jedes f ∈F 

� 

∞� 

� 

H(|f(ω)|) μ(dω) = (|f|−an) + ∞� 

dμ ≤ 2 −n =1. ✸ 

n=1 

Zur Notation � · �p erinnere man sich an Definition 4.16. 

Definition 6.20. Sei p ∈ [1, ∞]. Eine Familie F ⊂ L p (μ) heißt beschränkt in 

L p (μ), falls sup{�f�p : f ∈F}< ∞ gilt. 

Korollar 6.21. Ist μ(Ω) < ∞ und p>1 sowie F beschränkt in L p (μ), dann ist F 

gleichgradig integrierbar. 

Beweis. Wende Satz 6.19 an mit der konvexen Abbildung H(x) =x p . ✷ 

n=1


Korollar 6.22. Ist (Xi)i∈I eine Familie von Zufallsvariablen mit sup{|E[Xi]| : i ∈ 

I} < ∞ und sup{Var[Xi] : i ∈ I} < ∞, dann ist (Xi)i∈I gleichgradig integrierbar. 

Beweis. Dies folgt aus Korollar 6.21 mit p =2,dennE[X 2 i ]=E[Xi] 2 + Var[Xi] 

ist in i ∈ I beschränkt. ✷ 

Lemma 6.23. Es existiert eine Abbildung h ∈L 1 (μ) mit h>0 fast überall. 

Beweis. Seien A1,A2,...,∈Amit An ↑ Ω und μ(An) < ∞ für n ∈ N. Setze 

∞� 

h = 2 −n� 1+μ(An)) −1 An . 

n=1 

Dann ist h>0 fast überall und � hdμ≤ ∞� 

n=1 

2−n μ(An) 

1+μ(An) ≤ 1. ✷ 

Satz 6.24. Eine Familie F⊂L1 (μ) ist genau dann gleichgradig integrierbar, wenn 

die beiden folgenden Bedingungen erfüllt sind. 

� 

(i) C := sup 

f∈F 

|f| dμ < ∞. 

(ii) Es gibt eine Funktion 0 ≤ h ∈L1 (μ), sodass für jedes ε>0 ein δ(ε) > 0 

existiert mit 

� 

� 

sup 

f∈F 

|f| dμ ≤ ε für jedes A ∈A mit hdμ0 gibt es ein δ(ε) > 0, sodass 

� 

sup 

f∈F 

|f| dμ ≤ ε für jedes A ∈A mit μ(A) 0 

fast überall. Sei ε>0 und �g ε/3 eine ε/3–Schranke für F (wie in (6.5)). Wegen 

� �gε/3 ≥ αh � ↓∅für α →∞, gilt für hinreichend großes α = α(ε) 

� 

�g ε/3≥αh 

�g ε/3 dμ < ε 

3 . 

Mit δ(ε) := ε 

� 

3α(ε) gilt dann für jedes A ∈Amit hdμ


� 

|f| dμ ≤ 

A 

� 

{|f|>�g ε/3} 

≤ ε 

3 

A 

� 

|f| dμ + 

� 

+ α hdμ + 

A 

�g ε/3 dμ 

� 

�g ε/3≥αh 

�g ε/3 dμ ≤ ε. 

Damit ist (ii) gezeigt. Setzen wir in die Rechnung A = Ω ein, so erhalten wir 

� 

|f| dμ ≤ 2ε 

Damit ist auch (i) gezeigt. 

� 

+ α 

3 

hdμ0. Wähle h und δ(ε) > 0 wie in (ii) und C 

wie in (i). Setze �h = C 

δ(ε) h. Dann ist 

� 

hdμ= δ(ε) 

C 

� 

� 

� 

δ(ε) 

hdμ≤ 

C 

|f| dμ ≤ δ(ε), 

{|f|> � h} 

also nach Voraussetzung 

� 

{|f|> � h} 

{|f|> � h} 

|f| dμ < ε. 

” (ii) =⇒ (iii)“ Es gelte (ii). Sei ε>0 und δ = δ(ε) wie in (ii) gewählt. Sei 

K

Beweis. ” (i) =⇒ (ii)“ Dies ist klar. 


” (ii) =⇒ (iii)“ Für jedes ε>0 gibt es ein nε ∈ N, sodass �fn − fnε�1 ε}) ≤ ε −1 �fm − fn�1 −→ 0 für m, n →∞. 

Deshalb ist (fn)n∈N auch eine stochastische Cauchy-Folge, also stochastisch konvergent 

nach Korollar 6.15. 

” (iii) =⇒ (i)“ Sei f der stochastische Grenzwert der Folge (fn)n∈N. Wir nehmen 

an, dass (fn)n∈N nicht in L1 gegen f konvergiert. Dann gibt es ein ε>0 und eine 

Teilfolge (fnk )k∈N mit 

�f − fnk�1 > 2ε für jedes k ∈ N, (6.6) 

wobei wir �f − fnk�1 = ∞ setzen, falls f �∈ L1 (μ) ist. Nach Korollar 6.13 gibt 

es eine Teilfolge (fn ′ k )k∈N von (fnk )k∈N mit fn ′ k→∞ 

−→ f fast überall. Nach dem 

k 

Lemma von Fatou (Satz 4.21) mit 0 als Minorante gilt daher 

� 

� 

|f| dμ ≤ lim inf 

k→∞ 

|fn ′ | dμ < ∞. 

k 

Also ist f ∈L 1 (μ). Nach Satz 6.18(ii) (mit G = {f})ist(f −fn ′ k )n∈N gleichgradig 

integrierbar, also gibt es ein 0 ≤ g ∈L 1 (μ), sodass � (|f − fn ′ k |−g)+ dμ < ε. 

Setze 

k→∞ 

gk = |fn ′ k 

− f|∧g für jedes k ∈ N. 

Dann gilt gk −→ 0 fast überall und g − gk ≥ 0. Nach dem Lemma von Fatou ist 

� � 

� 

lim sup 

k→∞ 

gk dμ = 

� 

gdμ− lim inf 

k→∞ 

� � 

(g − gk) dμ 

� 

≤ gdμ− lim (g − gk) 

k→∞ 

dμ = 0. 

Wegen {|f − fn ′ k | >gk} = {|f − fn ′ k 

lim sup �f − fn 

k→∞ 

′ k �1 ≤ lim sup 

k→∞ 

{|f−fn ′ |>g} 

k 

| >g} ist also 

� 

|f − fn ′ � 

| dμ + lim sup 

k 

k→∞ 

gk dμ ≤ ε, 

im Widerspruch zu (6.6). ✷ 

Korollar 6.26 (Lebesgue’scher Konvergenzsatz, majorisierte Konvergenz). Sei 

f messbar und (fn)n∈N eine Folge in L1 (μ) mit fn 

n→∞ 

−→ f stochastisch. Es existiere 

eine integrierbare Majorante 0 ≤ g ∈L1 (μ) mit |fn| ≤g fast überall für 

jedes n ∈ N. Dann gilt f ∈L1 (μ) und fn 

n→∞ 

−→ f in L1 � 

fn dμ 

, also insbesondere 

n→∞ 

−→ � fdμ.


Beweis. Das folgt aus Satz 6.25, weil die Majorante die gleichgradige Integrierbarkeit 

der Folge (fn)n∈N sichert. ✷ 

Übung 6.2.1. Sei H ∈L 1 (μ) mit H>0 μ-f.ü. (siehe Lemma 6.23) und (E,d) ein 

separabler metrischer Raum. Man zeige: 

(i) Durch 

� 

�1 � 

dH(f,g) := ∧ d(f(ω),g(ω)) H(ω) μ(dω) 

wird eine Metrik definiert, die die stochastische Konvergenz erzeugt. 

(ii) Ist (E,d) vollständig, so ist dH vollständig. ♣ 

6.3 Vertauschung von Integral und Ableitung 

Wir wollen untersuchen, wie sich Eigenschaften wie Stetigkeit und Differenzierbarkeit 

von Zweiparameterfunktionen unter Integration nach einer Variablen erhalten. 

Satz 6.27 (Stetigkeitslemma). Sei (E,d) ein metrischer Raum, x0 ∈ E und f : 

Ω × E → R eine Abbildung mit den Eigenschaften 

(i) für jedes x ∈ E ist die Abbildung ω ↦→ f(ω, x) in L1 (μ), 

(ii) für fast alle ω ∈ Ω ist die Abbildung x ↦→ f(ω, x) stetig im Punkte x0, 

(iii) die Abbildung h : ω ↦→ supx∈E |f(ω, x)| ist in L1 (μ). 

� 

Dann ist die Abbildung F : E → R, x ↦→ f(ω, x) μ(dω) stetig in x0. 

Beweis. Sei (xn)n∈N eine Folge in E mit lim 

n→∞ xn = x0. Setze fn = f( · ,xn). 

n→∞ 

Nach Voraussetzung ist |fn| ≤h und fn −→ f( · ,x0) fast überall. Nach dem 

Satz von der majorisierten Konvergenz (Korollar 6.26) ist 

� 

F (xn) = fn dμ n→∞ 

� 

−→ f( · ,x0) dμ = F (x0). 

Also ist F stetig in x0. ✷

6.3 Vertauschung von Integral und Ableitung 137 

Satz 6.28 (Differentiationslemma). Sei I ⊂ R ein nichttriviales, offenes Intervall 

und f : Ω × I eine Abbildung mit den Eigenschaften 

(i) für jedes x ∈ I ist (ω ↦→ f(ω, x)) ∈L1 (μ), 

(ii) für fast alle ω ∈ Ω ist I → R, x ↦→ f(ω, x) differenzierbar, wobei wir die 

Ableitung mit f ′ bezeichnen, 

(iii) h := supx∈I |f ′ ( · ,x)| ∈L1 (μ). 

Dann gilt: Für jedes x ∈ I ist f ′ ( · ,x) ∈ L1 � (μ). Die Funktion F : x ↦→ 

f(ω, x) μ(dω) ist differenzierbar mit Ableitung 

F ′ � 

(x) = f ′ (ω, x) μ(dω). 

Beweis. Sei x0 ∈ I und (xn)n∈N eine Folge in I mit xn �= x0 für jedes n ∈ N, 

sowie lim 

n→∞ xn = x0. Wir zeigen, dass entlang der Folge (xn)n∈N die Differenzenquotienten 

konvergieren. Setze 

gn(ω) = f(ω, xn) − f(ω, x0) 

xn − x0 

Nach Voraussetzung (ii) gilt 

gn 

für jedes ω ∈ Ω. 

n→∞ 

−→ f ′ ( · ,x0) μ − fast überall. 

Nach dem Zwischenwertsatz der Differentialrechnung existiert zu jedem n ∈ N und 

fast jedem ω ∈ Ω ein yn(ω) ∈ I mit gn(ω) =f ′ (ω, yn(ω)). Speziell ist |gn| ≤h 

für jedes n ∈ N. Nach dem Satz von der majorisierten Konvergenz (Korollar 6.26) 

ist also die Grenzfunktion f ′ ( · ,x0) in L1 (μ) und 

F (xn) − F (x0) 

lim 

= lim 

n→∞ xn − x0 n→∞ 

� 

� 

gn(ω) μ(dω) = f ′ (ω, x0) μ(dω). ✷ 

Beispiel 6.29. (Laplace-Transformation) Sei X eine nichtnegative Zufallsvariable 

auf (Ω,A, P), I =[0, ∞) und f(x, λ) =e−λx für λ ∈ I. Dannist 

F (λ) =E � e −λX� 

in (0, ∞) unendlich oft differenzierbar. Die ersten Ableitungen sind F ′ (λ) = 

−E[Xe −λX ] und F ′′ (λ) =E[(X 2 )e −λX ]. Sukzessive erhalten wir die n-te Ableitung 

F (n) (λ) =E[(−X) n e −λX ]. Es gilt (monotone Konvergenz) 

E[X] =− lim 

λ↓0 F ′ (λ) (6.7)


und 

E[X n ]=(−1) n lim 

λ↓0 F (n) (λ) für jedes n ∈ N. (6.8) 

In der Tat: Für ε>0 und I =(ε, ∞) ist sup 

x≥0,λ∈I 

� 

� d 

dλ f(x, λ)� � = sup 

x≥0,λ∈I 

xe −λx = 

ε −1 e −1 < ∞. Damit gelten die Voraussetzungen des Satzes für F . Iterativ erhalten 

wir die Aussage für F (n) ,denn � � d n 

dλ n f(x, λ) � � ≤ (n/ε) n e −n < ∞ für x ≥ 0 und 

λ ≥ ε. ✸ 

Übung 6.3.1. Sei X eine Zufallsvariable auf (Ω,A, P) und 

Λ(t) :=log � E � e tX�� 

für jedes t ∈ R. 

Man zeige, dass D := {t ∈ R : Λ(t) < ∞} ein nichtleeres Intervall ist, und dass Λ 

im Inneren von D unendlich oft differenzierbar ist. ♣

7 L p -Räume und Satz von Radon-Nikodym 

In diesem Kapitel wollen wir die Räume der Funktionen untersuchen, deren p-te 

Potenz integrierbar ist. Wir leiten in Abschnitt 7.2 zunächst wichtige Ungleichungen 

her (Hölder, Minkowski, Jensen) und untersuchen dann in Abschnitt 7.3 den 

Fall p =2, wo wir Hilberträume vorliegen haben, im Detail. Neben den genannten 

Ungleichungen sind die wichtigsten Ergebnisse für die Stochastik der Zerlegungssatz 

von Lebesgue sowie der Satz von Radon-Nikodym in Abschnitt 7.4. Der Leser 

mag beim ersten Lesen die anderen, eher analytisch als stochastisch ausgerichteten, 

Teile dieses Kapitels überschlagen. 

7.1 Definitionen 

In Definition 4.16 hatten wir für messbares f : Ω → R definiert 

�� 

�f�p := |f| p �1/p dμ für p ∈ [1, ∞), 

und 

�f�∞ := inf � K ≥ 0: μ(|f| >K)=0 � . 

Ferner hatten wir die Räume definiert, wo diese Ausdrücke endlich sind 

L p (Ω,A,μ)=L p (A,μ)=L p (μ) ={f : Ω → R ist messbar und �f�p < ∞}. 

Wir hatten gesehen, dass � · �1 eine Pseudonorm auf L 1 (μ) ist. Unser erstes Ziel 

ist es hier, � · �p zu einer echten Norm zu machen, und zwar für jedes p ∈ [1, ∞]. 

Abgesehen davon, dass die Dreiecksungleichung noch zu zeigen ist, müssen wir zu 

diesem Zwecke auch den Raum verändern, denn es gilt nur 

�f − g�p =0 ⇐⇒ f = g μ-f.ü. 

Bei einer echten (also nicht nur Pseudo-)Norm muss aus der linken Seite schon 

Gleichheit (nicht nur f.ü.) von f und g gelten. Wir sehen daher f und g als äquivalent 

an, falls f = g fast überall. Sei also 

N = {f ist messbar und f =0 μ-f.ü.}.

140 7 L p -Räume und Satz von Radon-Nikodym 

Für jedes p ∈ [1, ∞] ist N ein Untervektorraum von L p (μ).Wirkönnen also formal 

den Quotientenraum bilden. Dies ist das Standardverfahren, um aus einer Pseudonorm, 

eine Norm zu machen. 

Definition 7.1 (Quotientenraum). Für jedes p ∈ [1, ∞] definieren wir 

L p (Ω,A,μ):=L p (Ω,A,μ)/N = { ¯ f := f + N : f ∈L p (μ)}. 

Für ¯ f ∈ L p (μ) setzen wir � � ¯ f � �p = �f�p für ein f ∈ ¯ f und � ¯ fdμ= � fdμ, falls 

dieser Ausdruck für f definiert ist. 

Man beachte, dass � � ¯ f � �p nicht von der Wahl des Repräsentanten f ∈ ¯ f abhängt. 

Wir wollen jetzt zunächst die Konvergenz bezüglich � · �p untersuchen und erweitern 

dazu den entsprechenden Satz (Satz 6.25) über die Konvergenz bezüglich 

� · �1. 

Definition 7.2. Seien p ∈ [1, ∞] und f,f1,f2,... ∈Lp n→∞ 

(μ). Falls �fn − f�p −→ 

0 gilt, so sagen wir, dass (fn)n∈N im p-ten Mittel gegen f konvergiere und schreiben 

L p 

−→ f. 

fn 

Satz 7.3. Seien p ∈ [1, ∞] und f1,f2,...∈L p (μ). Dann sind äquivalent: 

(i) Es gibt ein f ∈Lp L 

(μ) mit fn 

p 

−→ f. 

(ii) (fn)n∈N ist eine Cauchy-Folge in Lp (μ). 

Ist p

7.2 Ungleichungen und Satz von Fischer-Riesz 141 

stochastisch, und (gn)n∈N ist gleichgradig integrierbar, da gn ≤ 2p (|fn| p + |f| p ). 

Also gilt (nach Satz 6.25) �fn − f�p p = �gn�1 

n→∞ 

−→ 0. ✷ 

Übung 7.1.1. Seien (Xi)i∈N unabhängige, quadratintegrierbare Zufallsvariablen mit 

E[Xi] =0für jedes i ∈ N. 

(i) Man zeige: Gilt �∞ i=1 Var[Xi] < ∞, so existiert eine reelle Zufallsvariable 

X mit �n i=1 Xi 

n→∞ 

−→ X fast sicher. 

(ii) Gilt in (i) auch die Umkehrung? ♣ 

Übung 7.1.2. Sei f : Ω → R messbar. Zeige: 

(i) Gilt � |f| p dμ < ∞ für ein p ∈ (0, ∞), so gilt �f�p 

p→∞ 

−→ �f�∞. 

(ii) Auf die Integrierbarkeitsbedingung in (i) kann nicht verzichtet werden. ♣ 

Übung 7.1.3. Sei p ∈ (1, ∞), f ∈L p (λ), wobei λ das Lebesgue-Maß auf R ist, 

und T : R → R, x ↦→ x +1. Man zeige: 

n−1 

1 � 

n 

k=0 

f ◦ T k n→∞ 

−→ 0 in L p (λ). ♣ 

7.2 Ungleichungen und Satz von Fischer-Riesz 

Wir wollen eine der wichtigsten Ungleichungen der Wahrscheinlichkeitstheorie, die 

Jensen’sche Ungleichung für konvexe Funktionen, herleiten. Aus dieser kann man 

die Hölder’sche Ungleichung und die Minkowski’sche Ungleichung folgern, die uns 

die Dreiecksungleichung für � · �p liefern sowie den Dualraum zu bestimmen helfen. 

Allerdings geben wir hier direkte (und einfachere) Beweise für die beiden letztgenannten 

Ungleichungen. 

Bevor wir zur Jensen’schen Ungleichung kommen, wiederholen wir kurz Grundsätzliches 

zur Konvexität von Mengen und Funktionen. 

Definition 7.4. Eine Teilmenge G eines Vektorraums (beziehungsweise eines affinlinearen 

Raums) heißt konvex, falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] 

auch λx +(1− λ)y ∈ G ist. 

Beispiele 7.5. (i) Die konvexen Teilmengen von R sind die Intervalle. 

(ii) Ein linearer Unterraum eines Vektorraums ist konvex. 

(iii) Die Menge aller W-Maße auf einem Messraum ist eine konvexe Menge ✸


Definition 7.6. Sei G eine konvexe Menge. Eine Abbildung ϕ : G → R heißt konvex, 

falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] gilt 

f heißt konkav, falls −f konvex ist. 

ϕ(λx +(1− λ)y) ≤ λϕ(x)+(1− λ)ϕ(y). 

Ist I ⊂ R ein Intervall und ϕ : I → R stetig und im Inneren I ◦ zweimal stetig differenzierbar 

mit zweiter Ableitung ϕ ′′ ,soistϕ genau dann konvex, wenn ϕ ′′ (x) ≥ 0 

ist für alle x ∈ I ◦ . Anders ausgedrückt: Die erste Ableitung ϕ ′ einer konvexen 

Funktion ist eine monoton wachsende Funktion. Wir werden im nächsten Satz sehen, 

dass dies auch dann noch gilt, wenn ϕ nicht zweimal stetig differenzierbar ist, 

wenn wir zur rechtsseitigen Ableitung D + ϕ übergehen (oder zur linksseitigen), von 

der wir zeigen, dass sie immer existiert. 

Satz 7.7. Sei I ⊂ R ein Intervall mit Innerem I ◦ , sowie ϕ : I → R eine konvexe 

Abbildung. Dann gilt: 

(i) ϕ ist stetig in I◦ und insbesondere messbar bezüglich B(I). 

(ii) Für x ∈ I◦ definiere die Funktion der Differenzenquotienten 

ϕ(y) − ϕ(x) 

gx(y) := für y ∈ I \{x}. 

y − x 

Dann ist gx monoton wachsend, und es existieren die links- und rechtsseitigen 

Ableitungen 

und 

D − ϕ(x) := lim 

y↑x gx(y) =sup{gx(y) : yx}. 

(iii) Für x ∈ I ◦ gilt D − ϕ(x) ≤ D + ϕ(x) und 

ϕ(x)+(y − x)t ≤ ϕ(y) für jedes y ∈ I ⇐⇒ t ∈ [D − ϕ(x),D + ϕ(x)]. 

D−ϕ(x) und D + ϕ(x) sind also die minimale und die maximale Tangentensteigung 

in x. 

(iv) Die Abbildungen x ↦→ D−ϕ(x) und x ↦→ D + ϕ(x) sind monoton wachsend. 

x ↦→ D−ϕ(x) ist linksstetig und x ↦→ D + ϕ(x) ist rechtsstetig. Es gilt 

D−ϕ(x) =D + ϕ(x) in allen Stetigkeitspunkten von D−ϕ und D + ϕ. 

(v) ϕ ist genau dann in x differenzierbar, wenn D−ϕ(x) =D + ϕ(x) ist. In diesem 

Fall ist die Ableitung ϕ ′ (x) =D + ϕ(x). 

(vi) ϕ ist fast überall differenzierbar, und es gilt ϕ(b) − ϕ(a) = � b 

a D+ ϕ(x) dx für 

a, b ∈ I ◦ .


Beweis. (i) Sei x ∈ I ◦ . Wir nehmen an, dass lim infn→∞ ϕ(x−1/n) ≤ ϕ(x)−ε 

für ein ε>0 gilt. Da ϕ konvex ist, gilt 

ϕ(y) ≥ ϕ(x)+n(y − x)(ϕ(x) − ϕ(x − 1/n)) für jedes y>x und n ∈ N. 

Zusammen mit der obigen Annahme folgt ϕ(y) = ∞ für jedes y > x. Mithin 

war die Annahme falsch. Die analoge Überlegung für die rechte Seite liefert die 

Stetigkeit von ϕ in x. 

(ii) Die Monotonie folgt aus der Konvexität. Die anderen Aussagen sind klar. 

(iii) Aufgrund der Monotonie von gx gilt D−ϕ(x) ≤ D + ϕ(x). Per Konstruktion 

ist ϕ(x)+(y − x)t ≤ ϕ(y) für alle yxgenau dann, wenn t ≤ D + ϕ(x) ist. 

(iv) Für ε>0 ist aufgrund der Konvexität x ↦→ gx(x + ε) monoton wachsend 

und nach (i) stetig. Als Infimum monotoner, stetiger Funktionen ist x ↦→ D + ϕ(x) 

monoton wachsend und rechtsstetig. Analog folgt die Aussage für D−ϕ.Dax ↦→ 

gx(y) monoton ist, folgt D + ϕ(x ′ ) ≥ D−ϕ(x ′ ) ≥ D + ϕ(x) für x ′ >x.IstD + ϕ 

stetig in x,soistD−ϕ(x) =D + ϕ(x). 

(v) Dies ist klar, da D−ϕ und D + ϕ die Limiten der linksseitigen und rechtsseitigen 

Sekantensteigungsfolgen sind. 

(vi) Für ε>0 sei Aε = {x ∈ I : D + ϕ(x) ≥ ε + limy↑x D + ϕ(y)} die Menge 

der Unstetigkeitsstellen der Höhe mindestens ε. Für je zwei Punkte a, b ∈ I mit 

a


Beweis. ” (ii) =⇒ (iii) ⇐⇒ (iv)“ Dies ist klar. 

” (iii) =⇒ (i)“ Das Supremum konvexer Funktionen ist konvex, und jede affin 

lineare Funktion ist konvex. Also ist sup L(ϕ) konvex, falls L(ϕ) �= ∅. 

” (i) =⇒ (ii)“ Nach Satz 7.7(iii) ist für jedes x0 ∈ I die Abbildung x ↦→ ϕ(x0)+ 

(x − x0)D + ϕ(x0) in L(ϕ). ✷ 

Satz 7.9 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall und X eine Zufallsvariable 

mit Werten in I und E[|X|] < ∞.Istϕ konvex, dann gilt E[ϕ(X) − ] < ∞ 

und 

E[ϕ(X)] ≥ ϕ(E[X]). 

Beweis. Da nach Korollar 7.8(iii) L(ϕ) �= ∅ ist, können wir a, b ∈ R so wählen, 

dass ax + b ≤ ϕ(x) gilt für alle x ∈ I. Es ist dann 

E[ϕ(X) − ] ≤ E[(aX + b) − ] ≤|b| + |a|·E[|X|] < ∞. 

Wir unterscheiden die Fälle, wo E[X] im Inneren I◦ oder am Rand ∂I liegt. 

1. Fall Ist E[X] ∈ I◦ ,soseit + := D + ϕ(E[X]) die maximale Tangentensteigung 

von ϕ in E[X]. Dannistϕ(x) ≥ t + · (x − E[X]) + ϕ(E[X]) für jedes x ∈ I, also 

E[ϕ(X)] ≥ t + E[X − E[X]] + E[ϕ(E[X])] = ϕ(E[X]). 

2. Fall Ist E[X] ∈ ∂I, soistX = E[X] f.s., also E[ϕ(X)] = E[ϕ(E[X])] = 

ϕ(E[X]). ✷ 

Die Jensen’sche Ungleichung lässt sich auf den R n ausweiten. Hierfür benötigen 

wir eine Darstellung konvexer Funktionen mehrerer Veränderlicher als Supremum 

von affin linearen Funktionen. Dabei heißt eine Funktion g : R n → R affin linear, 

wenn es ein a ∈ R n und ein b ∈ R gibt mit g(x) =〈a, x〉 + b für jedes x. Hierbei 

bezeichnet 〈 · , · 〉 das gewöhnliche Skalarprodukt auf R n . 

Satz 7.10. Sei G ⊂ R n offen und konvex und ϕ : G → R eine Abbildung. Dann gilt 

Korollar 7.8 sinngemäß mit I = G. Istϕ konvex, so ist ϕ stetig und insbesondere 

messbar. Ist ϕ zweimal stetig differenzierbar, so ist ϕ genau dann konvex, wenn die 

Hesse-Matrix positiv semidefinit ist. 

Beweis. Da wir die Aussagen nur für den Beweis der mehrdimensionalen Jensen’schen 

Ungleichung benötigen, die aber im weiteren Verlaufe keine tragende 

Bedeutung hat, geben wir nur die Literatur an: Im Buch von Rockafellar [138] folgt 

die Stetigkeit aus Theorem 10.1, die Aussage von 7.8 aus Theorem 12.1 beziehungsweise 

Theorem 18.8. Die Aussage über die Hesse-Matrix steht in Theorem 4.5. ✷


Satz 7.11 (Jensen’sche Ungleichung im R n ). Sei G ⊂ R n konvex, und seien 

X1,...,Xn integrierbare reelle Zufallsvariablen mit P[(X1,...,Xn) ∈ G] =1. 

Sei ferner ϕ : G → R konvex. Dann ist E[ϕ(X1,...,Xn) − ] < ∞ und 

E � ϕ(X1,...,Xn) � ≥ ϕ(E[X1],...,E[Xn]). 

Beweis. Wir betrachten zunächst den Fall, wo G offen ist. Die Argumentation läuft 

hier ähnlich wie beim Beweis von Satz 7.9. 

Sei g ∈ L(ϕ) mit g(E[X1],...,E[Xn]) = ϕ(E[X1],...,E[Xn]). Dag ≤ ϕ linear 

ist, folgt 

E � ϕ(X1,...,Xn) � ≥ E[g(X1,...,Xn)] = g(E[X1],...,E[Xn]). 

Die Integrierbarkeit von ϕ(X1,...,Xn) − folgt völlig analog wie im eindimensionalen 

Fall. Sei jetzt der allgemeine Fall betrachtet, das heißt derjenige, wo G nicht 

notwendigerweise offen ist. Hier ist das Problem, wenn (E[X1],...,E[Xn]) ∈ ∂G 

liegt, etwas kniffliger als im eindimensionalen Fall, weil ∂G flache Stücke haben 

kann, die aber selbst notwendigerweise wieder konvex sind. Man kann also nicht 

schließen, dass (X1,...,Xn) fast sicher gleich dem Erwartungswert ist. Wir skizzieren 

nur das Argument: Zunächst kann man nur folgern, dass (X1,...,Xn) fast 

sicher in einem solchen flachen Stück liegt. Dieses ist dann notwendigerweise von 

Dimension kleiner als n ist (oder Null, falls das Stück schon ein Punkt ist). Jetzt 

muss man ϕ auf das flache Stück einschränken und sich iterativ in der Dimension 

herunter arbeiten. Die Details finden sich beispielsweise in [37, Theorem 10.2.6].✷ 

Beispiel 7.12. Sei X eine reelle Zufallsvariable mit E[X 2 ] < ∞, I = R und 

ϕ(x) =x 2 . Aus der Jensen’schen Ungleichung folgt 

Var[X] =E[X 2 ] − (E[X]) 2 ≥ 0. ✸ 

Beispiel 7.13. G =[0, ∞) × [0, ∞), und α ∈ (0, 1), sowieϕ(x, y) =x α y 1−α . 

ϕ ist konkav (Übung!), daher gilt für nichtnegative Zufallsvariablen X und Y mit 

endlicher Erwartung (nach Satz 7.11) 

E � X α Y 1−α� ≤ (E[X]) α (E[Y ]) 1−α . ✸ 

Beispiel 7.14. Seien G, X und Y wie in Beispiel 7.13. Sei p ∈ (1, ∞). Dannist 

ψ(x, y) = � x 1/p + y 1/p�p konkav. Daher gilt (nach Satz 7.11) 

� 

E[X] 1/p + E[Y ] 1/p� p 

�� 

≥ E X 1/p + Y 1/p� p� 

. ✸ 

Wir kommen nun zu den beiden weiteren wichtigen Ungleichungen, der Hölder’schen 

Ungleichung und der Minkowski’schen Ungleichung. Zur Vorbereitung bringen 

wir ein Lemma.


Lemma 7.15 (Young’sche Ungleichung). Für p, q ∈ (1, ∞) mit 1 

p 

x, y ∈ [0, ∞) gilt 

xy ≤ xp 

p 

1 + q =1und für 

yq 

+ . (7.1) 

q 

Beweis. Wir halten y ∈ [0, ∞) fest und definieren f(x) := xp 

p 

+ yq 

q 

− xy für 

x ∈ [0, ∞). f ist zweimal stetig differenzierbar in (0, ∞) mit Ableitungen f ′ (x) = 

x p−1 − y und f ′′ (x) =(p − 1)x p−2 . Speziell ist f strikt konvex und besitzt daher 

eine eindeutige Minimalstelle bei x0 = y 1/(p−1) . Nach Voraussetzung ist q = p 

p−1 , 

also x p 

0 = yq und daher 

f(x0) = 

� � 

1 1 

+ y 

p q 

q − y 1/(p−1) y =0. ✷ 

Satz 7.16 (Hölder’sche Ungleichung). Seien p, q ∈ [1, ∞] mit 1 

p 

f ∈L p (μ), g∈L q (μ). Dann gilt (fg) ∈L 1 (μ) und 

�fg�1 ≤�f�p ·�g�q. 

+ 1 

q =1und 

Beweis. Die Fälle p =1und p = ∞ sind trivial. Sei also nun p ∈ (1, ∞) und 

f ∈ L p (μ) und g ∈ L q (μ) nicht fast überall Null. Indem wir zu f/�f�p und 

g/�g�q übergehen, können wir �f�p = �g�q =1annehmen. Nach Lemma 7.15 ist 

� 

�fg�1 = |f|·|g| dμ ≤ 1 

� 

|f| 

p 

p dμ + 1 

� 

|g| 

q 

q dμ 

= 1 1 

+ 

p q =1 = �f�p ·�g�q. ✷ 

Satz 7.17 (Minkowski’sche Ungleichung). Für p ∈ [1, ∞] und f,g ∈L p (μ) gilt 

�f + g�p ≤�f�p + �g�p. (7.2) 

Beweis. Der Fall p = ∞ ist wiederum trivial. Sei also p ∈ [1, ∞). Die linke Seite 

in (7.2) wird nicht kleiner, wenn wir f und g durch |f| und |g| ersetzen. Wir können 

also ohne Einschränkung annehmen, dass f ≥ 0 und g ≥ 0 gelten. 

Nun ist (f + g) p ≤ 2 p (f p ∨ g p ) ≤ 2 p (f p + g p ), also ist f + g ∈L p (μ). Mit Hilfe 

der Hölder’schen Ungleichung, angewandt auf f ·(f +g) p−1 und auf g ·(f +g) p−1 , 

erhalten wir 

�f + g� p p = 

� 

(f + g) p � 

dμ = 

f(f + g) p−1 � 

dμ + 

≤�f�p ·�(f + g) p−1 �q + �g�p ·�(f + g) p−1 �q 

=(�f�p + �g�p) ·�f + g� p−1 

p , 

g(f + g) p−1 dμ

7.3 Hilberträume 147 

wobei wir im letzten Schritt ausgenutzt haben, dass p − p/q =1ist. Teilen wir nun 

beide Seiten durch �f + g� p−1 

p , so folgt (7.2). ✷ 

Wir haben in Satz 7.17 die Dreiecksungleichung gezeigt und damit, dass � · �p 

eine Norm ist. In Satz 7.3 wurde hingegen gezeigt, dass diese Norm vollständig 

ist (jede Cauchy-Folge konvergiert). Ein vollständiger normierter Vektorraum heißt 

Banachraum. Wir haben also den folgenden Satz gezeigt: 

Satz 7.18 (Fischer-Riesz). Für p ∈ [1, ∞] ist (L p (μ), � · �p) ein Banachraum. 

Übung 7.2.1. Zeige die Hölder’sche Ungleichung mit Hilfe der Jensen’schen Ungleichung 

mit der Funktion aus Beispiel 7.13. ♣ 

Übung 7.2.2. Zeige die Minkowski’sche Ungleichung mit Hilfe der Jensen’schen 

Ungleichung mit der Funktion aus Beispiel 7.14. ♣ 

Übung 7.2.3. Sei X eine reelle Zufallsvariable und p, q ∈ (1, ∞) mit 1 

p 

+ 1 

q =1. 

Zeige: X ist genau dann in L p (P), wenn es ein C 0 für jedes x ∈ V \{0}. 

Gelten lediglich (i), (ii) und 〈x, x〉 ≥0 für jedes x, soheißt〈 · , · 〉 eine positiv 

semidefinite symmetrische Bilinearform. 

Ist 〈 · , · 〉 ein Skalarprodukt, so heißt (V,〈 · , · 〉) ein (reeller) Hilbertraum, falls 

die durch �x� := 〈x, x〉 1/2 definierte Norm vollständig ist, falls also (V,� · �) ein 

Banachraum ist.


Definition 7.20. Für f,g ∈L2 (μ) definieren wir 

� 

〈f,g〉 := fgdμ. 

Für ¯ f,¯g ∈ L 2 (μ) definieren wir 〈 ¯ f,¯g〉 := 〈f,g〉, wobei f ∈ ¯ f und g ∈ ¯g. 

Man beachte, dass diese Definition unabhängig von der Wahl der Repräsentanten f 

und g ist. 

Satz 7.21. 〈 · , · 〉 ist ein Skalarprodukt auf L 2 (μ) und eine positiv semidefinite symmetrische 

Bilinearform auf L 2 (μ). Es gilt �f�2 = 〈f,f〉 1/2 . 


Als Korollar zu Satz 7.18 erhalten wir: 

Korollar 7.22. (L 2 (μ), 〈 · , · 〉) ist ein reeller Hilbertraum. 

Lemma 7.23. Ist 〈 · , · 〉 eine positiv semidefinite Bilinearform auf dem reellen Vektorraum 

V ,soist〈 · , · 〉 : V × V → R stetig (bezüglich der Produkttopologie der 

Topologie auf V , die von der Pseudometrik d(x, y) =〈x − y, x − y〉 1/2 erzeugt 

wird). 

Beweis. Klar. ✷ 

Definition 7.24 (Orthogonales Komplement). Sei V ein reeller Vektorraum mit 

Skalarprodukt 〈 · , · 〉.IstW ⊂ V , so bezeichnen wir den Untervektorraum 

W ⊥ := � v ∈ V : 〈v, w〉 =0 für alle w ∈ W � 

als das orthogonale Komplement von W . 

Satz 7.25 (Orthogonale Zerlegung). Sei (V,〈 · , · 〉) ein Hilbertraum und W ⊂ V 

ein abgeschlossener linearer Unterraum. Für jedes x ∈ V existiert eine eindeutige 

Darstellung x = y + z, wobei y ∈ W und z ∈ W ⊥ ist. 

Beweis. Sei x ∈ V und c := inf{�x − w� : w ∈ W }. Sei ferner (wn)n∈N eine 

Folge in W mit �x − wn� n→∞ 

−→ c. Die Parallelogrammgleichung ergibt 

�wm − wn� 2 =2�wm − x� 2 +2�wn − x� 2 � 

� 

− 4 � 

1 

�2 

(wm 

�2 

� 

+ wn) − x� 

� . 

Da W linear ist, ist (wm + wn)/2 ∈ W , also � 1 

2 (wm + wn) − x� ≥c. Alsoist 

(wn)n∈N eine Cauchy-Folge: �wm − wn� −→0, falls m, n →∞.

7.3 Hilberträume 149 

Da V vollständig ist und W abgeschlossen, ist auch W vollständig, also gibt es ein 

n→∞ 

y ∈ W mit wn −→ y. Setze nun z := x−y.Dannist�z� = limn→∞ �wn−x� = 

c aufgrund der Stetigkeit der Norm (Lemma 7.23). 

Betrachte ein beliebiges w ∈ W \{0}. Wir setzen ϱ := −〈z,w〉/�w�2 und erhalten 

y + ϱw ∈ W , also 

c 2 ≤ �x − (y + ϱw)� 2 = �z� 2 + ϱ 2 �w� 2 +2ϱ 〈z,w〉 = c 2 − ϱ 2 �w� 2 . 

Folglich ist 〈z,w〉 =0für alle w ∈ W und damit z ∈ W ⊥ . 

Die Eindeutigkeit der Darstellung klar: Ist x = y ′ + z ′ eine weitere orthogonale 

Zerlegung, so ist y − y ′ ∈ W und z − z ′ ∈ W ⊥ sowie y − y ′ + z − z ′ =0, also ist 

0 = �y − y ′ + z − z ′ � 2 = �y − y ′ � 2 + �z − z ′ � 2 +2〈y − y ′ ,z− z ′ 〉 

= �y − y ′ � 2 + �z − z ′ � 2 . 

Es folgt y = y ′ und z = z ′ . ✷ 

Satz 7.26 (Darstellungssatz von Riesz-Fréchet). Sei (V,〈 · , · 〉) ein Hilbertraum 

und F : V → R eine Abbildung. Dann sind äquivalent: 

(i) F ist stetig und linear. 

(ii) Es gibt ein f ∈ V mit F (x) =〈x, f〉 für alle x ∈ V . 

Das Element f ∈ V in (ii) ist eindeutig bestimmt. 

Beweis. ” (ii) =⇒ (i)“ Für jedes f ∈ V ist per Definition des Skalarprodukts die 

Abbildung x ↦→ 〈x, f〉 linear. Nach Lemma 7.23 ist diese Abbildung auch stetig. 

” (i) =⇒ (ii)“ Ist F ≡ 0, sowähle f =0. Sei nun F nicht identisch Null. Da F 

stetig ist, ist der Kern W := F −1 ({0}) ein abgeschlossener echter linearer Unterraum 

von V .Seiv∈ V \W und v = y +z für y ∈ W und z ∈ W ⊥ die orthogonale 

Zerlegung von v. Dannistz�= 0, und F (z) =F (v) − F (y) =F (v) �= 0, und 

wir können u := z/F(z) ∈ W ⊥ definieren. Offenbar ist F (u) =1, und für jedes 

x ∈ V ist F (x − F (x)u) =F (x) − F (x)F (u) =0, also x − F (x)u ∈ W 

und damit 〈x − F (x)u, u〉 =0. Folglich ist F (x) =〈x, u〉/�u�2 . Setzen wir nun 

f := u/�u�2 ,soistF (x) =〈x, f〉 für alle x ∈ V . 

” Eindeutigkeit“ Sei 〈x, f〉 = 〈x, g〉 für alle x ∈ V . Setzen wir x = f − g, so 

erhalten wir 0=〈f − g, f − g〉, also f = g. ✷ 

Wir werden den Darstellungssatz im folgenden Abschnitt für den Raum L 2 (μ) brauchen 

statt für den Hilbertraum L 2 (μ). Mit ein bisschen abstract nonsense lässt sich 

aber der vorangehende Satz auf diese Situation anwenden. Wir erinnern daran, dass 

N = {f ∈L 2 (μ) : 〈f,f〉 =0} der Unterraum der Funktionen ist, die fast sicher 

Null sind, und L 2 (μ) =L 2 (μ)/N der Quotientenraum. Dies ist ein Spezialfall der


Situation, wo (V,〈 · , · 〉) ein linearer Raum mit vollständiger positiv semidefiniter 

symmetrischer Bilinearform ist. In diesem Fall ist N := {v ∈ V : 〈v, v〉 =0} und 

V0 = V/N := {f + N : f ∈ V }. Wir schreiben 〈v + N ,w+ N〉0 := 〈v, w〉 und 

erhalten so einen Hilbertraum (V0, 〈 · , · 〉0). 

Korollar 7.27. Sei (V,〈 · , · 〉) ein linearer Vektorraum mit vollständiger positiv semidefiniter 

symmetrischer Bilinearform. Die Abbildung F : V → R ist genau dann 

stetig und linear, wenn es ein f ∈ V gibt mit F (x) =〈x, f〉 für alle x ∈ V . 

Beweis. Die eine Implikation ist trivial. Sei also F stetig und linear. Dann ist 

F (0) = 0, weil F linear ist, und für jedes v ∈Nist F (v) =F (0) = 0, weil 

F stetig ist (klar: v liegt in jeder offenen Umgebung von 0, also muss F in v denselben 

Wert annehmen wie in 0). Also induziert F eine stetige lineare Abbildung 

F0 : V0 → R durch F0(x + N )=F (x). Nach Satz 7.26 existiert ein f + N∈V0 

mit F0(x + N )=〈x + N ,f+ N〉0 für jedes x + N∈V0. Nach Definition von F0 

und 〈 · , · 〉0 ist nun aber F (x) =〈x, f〉 für jedes x ∈ V . ✷ 

Korollar 7.28. Die Abbildung F : L 2 (μ) → R ist genau dann stetig und linear, 

wenn es ein f ∈L 2 (μ) gibt mit F (g) = � gf dμ für alle g ∈L 2 (μ). 

Beweis. Der Raum L 2 (μ) erfüllt die Bedingungen des vorangehenden Korollars.✷ 

7.4 Lebesgue’scher Zerlegungssatz 

In diesem Abschnitt benutzen wir die eben gewonnen Aussagen über Hilberträume, 

um ein Maß zu zerlegen in einen singulären und einen absolutstetigen Anteil bezüglich 

eines zweiten Maßes. Für den absolutstetigen Anteil zeigen wir, dass er eine 

Dichte besitzt. Seien μ und ν Maße auf (Ω,A). Nach Definition 4.13 heißt eine 

messbare Funktion f : Ω → [0, ∞) eine Dichte von ν bezüglich μ, falls 

� 

ν(A) := f A dμ für jedes A ∈A. (7.3) 

Andererseits definiert für jedes messbare f : Ω → [0, ∞) Gleichung (7.3) ein Maß 

ν auf (Ω,A). Wir schreiben in diesem Fall auch 

ν = fμ und f = dν 

. (7.4) 

dμ 

Beispielsweise hat die Normalverteilung ν = N0,1 die Dichte f(x) = 1 

√ 2π e −x2 /2 

bezüglich des Lebesgue-Maßes μ = λ auf R. 

Ist g : Ω → [0, ∞] messbar, so gilt (nach Satz 4.15)

7.4 Lebesgue’scher Zerlegungssatz 151 

� � 

gdν = gf dμ. (7.5) 

Wir erhalten so, dass genau dann g ∈L 1 (ν) ist, wenn gf ∈L 1 (μ) gilt, und in 

diesem Fall ist (7.5) erfüllt. 

Gilt ν = fμ, so ist offenbar ν(A) =0für jedes A ∈Amit μ(A) =0. In gewissem 

Sinne komplementär ist die Situation beispielsweise bei der Poissonverteilung μ = 

Poiϱ mit Parameter ϱ>0 und ν = N0,1. Hier ist N0 ⊂ R eine ν-Nullmenge mit 

μ(R \ N0) =0. Wir sagen, dass ν singulär zu μ ist. 

Das Ziel dieses Kapitels ist es, im allgemeinen Fall zu zeigen, dass ein beliebiges 

σ-endliches Maß ν auf einem Messraum (Ω,A) zerlegt werden kann in einen Teil, 

der singulär zum σ-endlichen Maß μ ist, und einen Teil, der eine Dichte bezüglich 

μ hat (Lebesgue’scher Zerlegungssatz, Satz 7.33). 

Satz 7.29 (Eindeutigkeit der Dichte). Sei νσ-endlich. Sind f1 und f2 Dichten von 

ν bezüglich μ, sogiltf1 = f2 μ-fast überall. Speziell ist die Dichtefunktion dν 

dμ 

eindeutig bis auf Gleichheit μ-fast überall. 

Beweis. Sei En ↑ Ω mit ν(En) < ∞, n ∈ N. SeiAn = En ∩{f1 >f2} für 

n ∈ N. Dannistν(An) < ∞, also 

� 

0=ν(An) − ν(An) = f1 − f2 dμ. 

Nach Satz 4.8(i) gilt f2 An = f1 An μ–f.ü., also μ(An) =0und μ({f1 >f2}) = 

μ( � 

n∈N An) =0. Analog folgt μ({f1 0, soistμ(A) = � 

fdλ>0 falls λ(A) > 0, 

A 

also μ ≈ λ.Istλ({f =0}) > 0,soist(wegenμ({f =0}) =0) λ �≪ μ.


(ii) Betrachte die Bernoulli-Verteilungen Berp und Berq für p, q ∈ [0, 1]. Istp∈ (0, 1), so gilt Berq ≪ Berp. Istp ∈{0, 1}, soistBerq ≪ Berp genau dann, wenn 

p = q, und Berq ⊥ Berp genau dann, wenn q =1− p. 

(iii) Betrachte die Poisson-Verteilungen Poiα und Poiβ für α, β ≥ 0. Es ist genau 

dann Poiα ≪ Poiβ,wennβ>0 oder α =0. 

(iv) Betrachte die unendlichen Produktmaße (siehe Satz 1.64) Ber ⊗N 

p 

auf Ω = {0, 1} N .DannistBer ⊗N 

p 

und Ber ⊗N 

q 

⊥ Ber ⊗N 

q , falls p �= q. In der Tat: Sei 

Xn((ω1,ω2,...)) = ωn für jedes n ∈ N die Projektion von Ω auf die n-te Koordinate. 

Dann ist (Xn)n∈N unabhängig und Bernoulli-verteilt (siehe Beispiel 2.18) 

mit Parameter r unter Ber ⊗N 

r . Nach dem starken Gesetz der großen Zahl gibt es also 

für r ∈{p, q} eine messbare Menge Ar ⊂ Ω mit Ber ⊗N 

r (Ω \ Ar) =0und 

1 

lim 

n→∞ n 

n� 

Xi(ω) =r für jedes ω ∈ Ar. 

i=1 

Speziell ist also Ap ∩ Aq = ∅, falls p �= q, und damit Ber ⊗N 

p ⊥ Ber ⊗N 

q . ✸ 

Satz 7.33 (Zerlegungssatz von Lebesgue). Seien μ und νσ-endliche Maße auf 

(Ω,A). Dann lässt sich ν auf eindeutige Weise zerlegen in den (bezüglich μ) absolutstetigen 

Anteil νa und den singulären Anteil νs: 

ν = νa + νs, wobei νa ≪ μ und νs ⊥ μ. 

νa hat eine Dichte bezüglich μ, und dνa 

dμ 

ist A-messbar und μ–f.ü. endlich. 

Korollar 7.34 (Satz von Radon-Nikodym). Seien μ und νσ-endliche Maße auf 

(Ω,A). Dann gilt 

ν hat eine Dichte bezüglich μ ⇐⇒ ν ≪ μ. 

In diesem Fall ist dν 

dν 

dμ A-messbar und μ–f.ü. endlich. dμ heißt Radon-Nikodym- 

Ableitung von ν nach μ. 

Beweis. Die eine Richtung ist trivial. Sei also ν ≪ μ. Mit Satz 7.33 bekommen 

wir, dass ν = νa eine Dichte bezüglich μ hat. ✷ 

Beweis (Satz 7.33). Die Idee geht auf v. Neumann zurück, wir folgen der Darstellung 

in [37]. 

Wir können uns durch die üblichen Ausschöpfungsargumente auf den Fall beschränken 

wo μ und ν endlich sind. Nach Satz 4.19 ist die kanonische Inklusion

7.4 Lebesgue’scher Zerlegungssatz 153 

i : L2 (Ω,A,μ+ ν) ↩→ L1 (Ω,A,μ+ ν) stetig. Wegen ν ≤ μ + ν ist also auch 

die Linearform L2 (Ω,A,μ + ν) → R, h ↦→ � hdν stetig. Nach dem Satz von 

Riesz-Fréchet (hier: Korollar 7.28) existiert daher ein g ∈L2 (Ω,A,μ+ ν) mit 

� � 

hdν = hg d(μ + ν) für jedes h ∈L 2 (Ω,A,μ+ ν), (7.7) 

oder äquivalent dazu 

� 

f(1 − g) d(μ + ν) = 

� 

fdμ für jedes f ∈L 2 (Ω,A,μ+ ν). (7.8) 

Wählen wir in (7.7) speziell h = {g1}, in (7.8) dass (μ + ν)-fast überall g ≤ 1 gilt, 

also ist 0 ≤ g ≤ 1. Sei nun f ∈L 1 (Ω,A,μ+ ν), und seien (fn)n∈N nichtnegative 

Funktionen in L 2 (Ω,A,μ + ν) mit fn ↑ f. Nach dem Satz von der monotonen 

Konvergenz (angewandt auf das Maß (1 − g)(μ + ν), dem Maß mit Dichte (1 − g) 

bezüglich μ + ν) erhalten wir, dass (7.8) für alle messbaren f ≥ 0 gilt. Analog folgt 

die Gültigkeit von (7.7) für alle messbaren h ≥ 0. 

Sei E := g −1 ({1}). Setzen wir f = E in (7.8) ein, so erhalten wir μ(E) =0.Wir 

definieren jetzt zwei Maße νa und νs für A ∈Adurch 

νa(A) :=ν(A \ E) und νs(A) :=ν(A ∩ E). 

Offenbar gilt ν = νa + νs und νs(Ω \ E) =0, also νs ⊥ μ. Ist nun A ∩ E = ∅ 

und μ(A) =0,soist � A dμ =0, also nach (7.8) auch � 

(1 − g) d(μ + ν) =0. 

A 

Andererseits ist 1−g >0 auf A, also μ(A)+ν(A) =0und damit νa(A) =ν(A) = 

0. Ist allgemeiner B messbar mit μ(B) =0,soistμ(B \ E) =0, also nach dem 

Gezeigten νa(B) =νa(B \ E) =0. Folglich ist νa ≪ μ und ν = νa + νs die 

gewünschte Zerlegung. 

Um die Dichte von νa bezüglich μ zu erhalten, setzen wir f := g 

1 − g Ω\E. Für 

jedes A ∈Aist nun nach (7.8) und (7.7) mit h = A\E 

� 

A 

� 

fdμ = 

A∩E c 

gd(μ + ν) =ν(A \ E) =νa(A). 

Also ist f = dνa 

dμ . ✷ 

Übung 7.4.1. Wir definieren eine Abbildung F : (0, 1] → (0, 1] an der Stelle 

x ∈ (0, 1] mit nicht abbrechender Binärdarstellung x = (0,x1x2x3 � 

...) := 

∞ 

n=1 xn2−n durch 

∞� 

F (x) =(0,x1x1x2x2x3x3 ...)= 3 xn 4 −n . 

Man zeige, dass F die stetige Verteilungsfunktion eines W-Maßes μ auf B((0, 1]) 

ist, und dass μ singulär zum Lebesgue-Maß λ � � ist. ♣ 

(0,1] 

n=1


Übung 7.4.2. Sei n ∈ N und p, q ∈ [0, 1]. Unter welchen Bedingungen gilt für die 

Binomialverteilungen bn,p ≪ bn,q? Man bestimme die Radon-Nikodym Ableitung 

dbn,p 

. ♣ 

dbn,q 

7.5 Ergänzung: Signierte Maße 

In diesem Abschnitt bringen wir die Zerlegungssätze für signierte Maße (Hahn, Jordan) 

und liefern einen alternativen Beweis für den Lebesgue’schen Zerlegungssatz. 

Definition 7.35. Seien μ und ν zwei Maße auf (Ω,A). ν heißt totalstetig bezüglich 

μ, falls es für jedes ε>0 ein δ>0 gibt, sodass für jedes A ∈Agilt 

μ(A) 0. 

k=n 

∞� 

2 −k = 0. 

Also ist ν �≪ μ. ✷

7.5 Ergänzung: Signierte Maße 155 

Beispiel 7.38. Die Endlichkeitsannahme ist für die Umkehrung im vorigen Satz essenziell. 

Sei beispielsweise μ = N0,1 die Standardnormalverteilung auf R und ν 

das Lebesgue-Maß auf R. Dann hat ν bezüglich μ die Dichte f(x) = √ 2πex2 /2 . 

Speziell gilt ν ≪ μ. Andererseits gilt μ([n, ∞)) n→∞ 

−→ 0 und ν([n, ∞)) = ∞ für 

jedes n ∈ N. Mithin ist ν nicht totalstetig bezüglich μ. ✸ 

Beispiel 7.39. Sei (Ω,A) ein Messraum, und seien μ und ν endliche Maße auf 

(Ω,A). MitZbezeichnen wir die Menge der endlichen Zerlegungen von Ω in disjunkte, 

messbare Mengen. Das heißt, Z ∈Zist eine endliche Teilmenge von A so, 

dass die Mengen C ∈ Z paarweise disjunkt sind und � 

C∈Z C = Ω für jedes Z. 

Für Z ∈Zdefinieren wir eine Funktion fZ : Ω → R durch 

fZ(ω) = 

� 

C∈Z: μ(C)>0 

ν(C) 

μ(C) C(ω). 

Wir zeigen, dass die folgenden drei Aussagen äquivalent sind: 

(i) Die Familie (fZ : Z ∈ Z) ist gleichgradig integrierbar in L 1 (μ) und 

� fZ dμ = ν(Ω) für jedes Z ∈Z. 

(ii) Es gilt ν ≪ μ. 

(iii) ν ist totalstetig bezüglich μ. 

Die Äquivalenz von (ii) und (iii) wurde im vorigen Satz bewiesen. Gilt (ii), so ist 

für jedes Z ∈Z � 

fZ dμ = 

� 

ν(C) =ν(Ω), 

C∈Z: μ(C)>0 

weil ν(C) =0ist für diejenigen C, die in der Summe nicht auftauchen. Sei nun 

ε>0 gegeben. Da aus (iii) aus (ii) folgt, gibt es ein δ ′ > 0, sodass ν(A)


Es folgt schließlich für A ∈Amit μ(A) 0 

� 

0ν(C) 

μ(A ∩ C) ν(C) 

μ(C) + 

� 

Kμ(C)>ν(C) 

Kμ(A ∩ C) ≤ ε 

+ Kμ(A) < ε. 

2 

Also ist (fZ, Z∈Z) gleichgradig integrierbar nach Satz 6.24(iii). 

μ(A ∩ C) ν(C) 

μ(C) 

Gelte nun (i). Ist μ =0,soist � fdμ=0für jedes f, also ν(Ω) =0und damit 

ν ≪ μ. Sei also μ �= 0.SeiA ∈Amit μ(A) =0.DannistZ = {A, A c }∈Zund 

fZ = A cν(Ac )/μ(A c ). Nach Voraussetzung ist ν(Ω) = � fdμ = ν(A c ), also 

ν(A) =0und damit ν ≪ μ. ✸ 

Definition 7.40 (Ladungsverteilung, signiertes Maß). Eine Mengenfunktion ϕ : 

A → R heißt signiertes Maß oder Ladungsverteilung auf (Ω,A), falls sie σ– 

additiv ist, falls also für jede Folge paarweise disjunkter Mengen A1,A2,... ∈A 

gilt, dass 

� 

∞� 

� 

∞� 

ϕ = ϕ(An). (7.10) 

n=1 

An 

Die Menge aller Ladungsverteilungen bezeichnen wir mit LV = LV(Ω,A). 

Bemerkung 7.41. (i) Ist ϕ ein signiertes Maß, so liegt in (7.10) automatisch schon 

absolute Konvergenz vor. Tatsächlich ändert sich ja der Wert der linken Seite nicht, 

wenn wir die Mengen A1,A2,... umnummerieren. Damit dies für die rechte Seite 

auch gilt, muss nach dem Weierstraß’schen Umordnungssatz die Reihe absolut 

konvergieren. Speziell gilt für jede Folge (An)n∈N � 

paarweise disjunkter Mengen 

∞ 

lim 

n→∞ 

k=n |ϕ(Ak)| =0. 

(ii) Ist ϕ ∈LV,soistϕ(∅) =0,daR ∋ ν(∅) = � 

n∈N ν(∅). 

(iii) ϕ ∈LVist im Allgemeinen nicht σ-subadditiv. ✸ 

Beispiel 7.42. Sind μ + ,μ − endliche Maße, so ist ϕ := μ + −μ − ∈LV. Wir werden 

sehen, dass jedes signierte Maß eine solche Darstellung besitzt. ✸ 

Satz 7.43 (Zerlegungssatz von Hahn). Sei ϕ ein signiertes Maß. Dann gibt es 

eine Menge Ω + ∈Amit ϕ(A) ≥ 0 für jedes A ∈A, A ⊂ Ω + und ϕ(A) ≤ 0 für 

jedes A ∈A, A ⊂ Ω − := Ω \ Ω + . Eine solche Darstellung Ω = Ω − ⊎ Ω + wird 

auch Hahn-Zerlegung von Ω (bezüglich ϕ) genannt. 

n=1


Beweis. Sei α := sup � ϕ(A) : A ∈A � .Wirmüssen zeigen, dass ϕ das Maximum 

α tatsächlich annimmt, dass es also ein Ω + ∈Agibt mit ϕ(Ω + )=α. Dannist 

nämlich α ∈ R, und für A ⊂ Ω + , A ∈Agilt 

α ≥ ϕ(Ω + \ A) =ϕ(Ω + ) − ϕ(A) =α − ϕ(A), 

also ϕ(A) ≥ 0. Für A ⊂ Ω − , A ∈Aist ϕ(A) ≤ 0,denn 

α ≥ ϕ(Ω + ∪ A) =ϕ(Ω + )+ϕ(A) =α + ϕ(A). 

Wir konstruieren nun Ω + mit ϕ(Ω + ) = α. Sei(An)n∈Neine Folge in A mit 

α = lim 

n→∞ ϕ(An). Setze A := �∞ n=1 An. Da jedes An noch Anteile mit negati- 

” 

ver Masse“ enthalten kann, können wir nicht einfach Ω + = A wählen. Vielmehr 

müssen wir Schicht für Schicht die negativen Anteile abfischen. 

Setze A 0 n := An und A 1 n := A \ An sowie 

� 

n� 

Pn := 

i=1 

A s(i) 

i 

: s ∈{0, 1} n 

� 

die Partition von A,dievonA1,...,An erzeugt wird. Offensichtlich gilt für B,C ∈ 

Pn entweder B = C oder B ∩ C = ∅. Außerdem gilt An = � 

B. Setze 

und 

B∈Pn 

B⊂An 

P − n := {B ∈Pn : ϕ(B) < 0}, P + n := Pn \P − n , 

B∈Pn 

B⊂An 

Cn := � 

B∈P + 

n 

B⊂An 

B∈P + n 

Wegen der endlichen Additivität von ϕ ist 

ϕ(An) = � 

ϕ(B) ≤ � 

ϕ(B) ≤ � 

ϕ(B) =ϕ(Cn). 

B. 

B∈P + n 

Für m ≤ n setze En m = Cm ∪ ...∪ Cn.Für m


Wir setzen jetzt Ω + = �∞ m=1 Em, also Em ↓ Ω + .Dannist 

⎛ 

ϕ(Em) =ϕ ⎝Ω + ⊎ � 

⎞ 

(En \ En+1) ⎠ 

= ϕ(Ω + )+ 

n≥m 

∞� 

n=m 

ϕ(En \ En+1) m→∞ 

−→ ϕ(Ω + ), 

wobei wir im letzten Schritt Bemerkung 7.41(i) ausgenutzt haben. Insgesamt ist 

α = lim 

m→∞ ϕ(Am) ≤ lim 

m→∞ ϕ(Em) =ϕ(Ω + ). 

Per Definition ist aber α ≥ ϕ(Ω + ), also α = ϕ(Ω + ), was zu zeigen war. ✷ 

Korollar 7.44 (Zerlegungssatz von Jordan). Sei ϕ ∈LV(Ω,A) ein signiertes 

Maß. Dann gibt es eindeutig bestimmte endliche Maße ϕ + ,ϕ − mit ϕ = ϕ + − ϕ − 

und ϕ + ⊥ ϕ − . 

Beweis. Sei Ω = Ω + ⊎ Ω − die Hahn-Zerlegung. Setze ϕ + (A) :=ϕ(A ∩ Ω + ) und 

ϕ − (A) :=−ϕ(A ∩ Ω − ). 

Die Eindeutigkeit der Zerlegung ist trivial. ✷ 

Korollar 7.45. Sei ϕ ∈LV(Ω,A) und ϕ = ϕ + − ϕ− die Jordan-Zerlegung von ϕ, 

sowie Ω = Ω + ⊎ Ω− die Hahn-Zerlegung von Ω. Dann definiert 

�ϕ�TV := sup � ϕ(A) − ϕ(Ω \ A) : A ∈A � 

= ϕ(Ω + ) − ϕ(Ω − ) 

= ϕ + (Ω)+ϕ − (Ω) 

eine Norm auf LV(Ω,A), die so genannte Totalvariationsnorm. 

Beweis. Zu zeigen ist nur die Dreiecksungleichung. Seien ϕ1,ϕ2 ∈LV.SeiΩ = 

Ω + ⊎ Ω − die Hahn-Zerlegung bezüglich ϕ := ϕ1 + ϕ2 und Ω = Ω + 

i 

bezüglich ϕi, i =1, 2. Dann gilt 

�ϕ1 + ϕ2�TV = ϕ1(Ω + ) − ϕ1(Ω − )+ϕ2(Ω + ) − ϕ2(Ω − ) 

≤ ϕ1(Ω + 1 ) − ϕ1(Ω − 1 )+ϕ2(Ω + 2 ) − ϕ2(Ω − 2 ) 

⊎ Ω− 

i die 

= �ϕ1�TV + �ϕ2�TV. ✷ 

Wir wollen jetzt einen alternativen Beweis des Zerlegungssatzes von Lebesgue 

(Satz 7.33) angeben und bereiten dies mit einem Lemma vor.


Lemma 7.46. Seien μ, ν endliche Maße auf (Ω,A), die nicht singulär zueinander 

sind, kurz: μ �⊥ ν. Dann gibt es ein A ∈Amit μ(A) > 0 und ein ε>0 mit 

εμ(E) ≤ ν(E) für jedes E ∈A mit E ⊂ A. 

Beweis. Für n ∈ N sei Ω = Ω + n ⊎Ω− n eine Hahn-Zerlegung zu (ν− 1 

nμ) ∈LV. Setze 

M := � 

n∈N Ω− n .Offenbarist(ν−1 1 

nμ)(M) ≤ 0, also ν(M) ≤ nμ(M) für jedes 

n ∈ N und deshalb ν(M) =0.Wegenμ�⊥ ν folgt μ � Ω \M) =μ( � 

n∈N Ω+ � 

n > 0, 

also μ(Ω + n0 ) > 0 für ein n0 ∈ N. Setze A := Ω + 1 

n0 und ε := . Damit ist dann 

n0 

μ(A) > 0 und (ν − εμ)(E) ≥ 0 für jedes E ⊂ A, E ∈A. ✷ 

Alternativer Beweis von Satz 7.33 Wir zeigen hier nur die Existenz der Zerlegung. 

Indem wir eine geeignete Folge Ωn ↑ Ω betrachten, können wir annehmen, dass ν 

schon endlich ist. Betrachte die Menge der Funktionen 

� 

� 

� 

G := g : Ω → [0, ∞] : g ist messbar und gdμ≤ ν(A) für alle A ∈A 

A 

und setze 

� 

γ := sup 

� 

� 

gdμ: g ∈G . 

Unser Ziel ist es, ein maximales Element f in G zu konstruieren (also eines mit 

� fdμ= γ), das dann die gesuchte Dichte von νa ist. 

Offenbar ist 0 ∈G, also G �= ∅. Weiter gilt 

f,g ∈G impliziert f ∨ g ∈G. (7.11) 

Mit E := {f ≥ g} ist nämlich für A ∈A 

� 

� 

� 

f ∨ gdμ = fdμ+ gdμ ≤ ν(A ∩ E)+ν(A \ E) = ν(A). 

A 

A∩E 

A\E 

Wähle eine Folge (gn)n∈N in G mit � gn dμ n→∞ 

−→ γ und setze fn = g1 ∨ ...∨ gn. 

Wegen (7.11) ist fn ∈G. Der Satz von der monotonen Konvergenz liefert für f := 

sup{fn : n ∈ N} 

� 

� 

fdμ = sup 

A 

n∈N 

(das heißt f ∈G) und weiter 

� 

fdμ = sup 

n∈N 

fn dμ ≤ ν(A) für jedes A ∈A, 

A 

� 

� 

fn dμ ≥ sup 

n∈N 

gn dμ = γ, 

also � fdμ= γ ≤ ν(Ω).Wirdefinieren nun für jedes A ∈A


� 

νa(A) := fdμ, νs(A) :=ν(A) − νa(A). 

A 

Nach Konstruktion ist nun νa ≪ μ ein endliches Maß mit Dichte f bezüglich μ. 

Wegen f ∈Gist νs(A) =ν(A) − � 

fdμ≥ 0 für jedes A ∈A, also ist auch νs 

A 

ein endliches Maß. Es bleibt zu zeigen, dass νs ⊥ μ. 

An dieser Stelle benutzen wir Lemma 7.46. Wir nehmen an, dass νs �⊥ μ gälte. 

Dann gäbe es ein ε>0 und ein A ∈Amit μ(A) > 0 so, dass εμ(E) ≤ νs(E) für 

jedes E ⊂ A, E ∈A.Für B ∈Awäre dann 

� 

� 

(f + ε A) dμ = fdμ+ εμ(A ∩ B) 

B 

B 

≤ νa(B)+νs(A ∩ B) ≤ νa(B)+νs(B) = ν(B). 

Mit anderen Worten: (f + ε A) ∈Gund damit � (f + ε A) dμ = γ + εμ(A) >γ, 

was im Widerspruch zur Definition von γ steht. Also ist tatsächlich νs ⊥ μ. ✷ 

Übung 7.5.1. Sei μ ein σ-endliches Maß auf (Ω,A) und ϕ ein signiertes Maß auf 

(Ω,A). Man zeige, dass, analog zum Satz von Radon-Nikodym, die beiden folgenden 

Aussagen äquivalent sind: 

(i) Für jedes A ∈Amit μ(A) =0ist ϕ(A) =0. 

(ii) Es gibt ein f ∈L1 (μ) mit ϕ = fμ, also � 

fdμ= ϕ(A) für jedes A ∈A. ♣ 

Übung 7.5.2. Seien μ, ν, α endliche Maße auf (Ω,A) mit ν ≪ μ ≪ α. 

(i) Zeige, dass die Kettenregel für die Radon-Nikodym-Ableitung gilt: 

dν 

dα 

= dν 

dμ 

dμ 

dα 

A 

α-f.ü. 

(ii) Zeige, dass f := dν 

dν f 

d(μ+ν) existiert und dass μ-f.ü. dμ = 1−f gilt. ♣ 

7.6 Ergänzung: Dualräume 

Nach dem Darstellungssatz von Riesz-Fréchet (Satz 7.26) hat jede stetige Linearform 

F : L 2 (μ) → R eine Darstellung F (g) =〈f,g〉 für ein f ∈ L 2 (μ). Andererseits 

ist für jedes f ∈ L 2 (μ) die Abbildung L 2 (μ) → R, g ↦→ 〈f,g〉 stetig und 

linear. Daher ist L 2 (μ) in kanonischer Weise isomorph zu seinem topologischen 

Dualraum (L 2 (μ)) ′ . Dieser ist allgemein wie folgt definiert. 

Definition 7.47 (Dualraum). Sei (V,� · �) ein Banachraum. Der Dualraum V ′ von 

V ist definiert durch

V ′ := {F : V → R ist stetig und linear}. 

Für F ∈ V ′ setzen wir �F � ′ := sup{|F (f)| : �f� =1}. 

7.6 Ergänzung: Dualräume 161 

Bemerkung 7.48. Da F stetig ist, existiert für jedes δ > 0 ein ε > 0, sodass 

|F (f)|


Beweis. Für den Beweis greifen wir zurück auf den Satz von Radon-Nikodym (Korollar 

7.34). Allerdings skizzieren wir den Beweis nur, weil wir die Theorie der 

signierten Maße und Inhalte nicht vertiefen wollen. Ein signierter Inhalt ν ist eine 

additive Mengenfunktion, die sich als Differenz ν = ν + − ν − zweier endlicher 

Inhalte darstellen lässt, also auch negative Werte annehmen kann. (Diese Begriffsbildung 

ist analog zu der des signierten Maßes, das sich ja als Differenz zweier 

Maße darstellen lässt.) 

Da κ eine Isometrie ist, ist κ insbesondere injektiv. Wir müssen also nur noch zeigen, 

dass κ surjektiv ist. Sei F ∈ (L p (μ)) ′ .Dannistν(A) =F ( A) ein signierter Inhalt 

auf A, und es gilt 

|ν(A)| ≤�F � ′ p (μ(A)) 1/p . 

Da μ ∅-stetig ist, ist also auch ν ∅-stetig und daher ein signiertes Maß auf A. Es gilt 

sogar ν ≪ μ. Nach dem Satz von Radon-Nikodym (Korollar 7.34) (angewandt auf 

die Maße ν − und ν + , vergleiche Übung 7.5.1) besitzt ν eine Dichte bezüglich μ, 

also eine messbare Funktion f mit ν = fμ. 

Sei Ee := {g : g ist Elementarfunktion mit μ(g �= 0)< ∞} und E + e := {g ∈ 

Ee : g ≥ 0}. Dannistfür g ∈ Ee 

� 

F (g) = gf dμ. (7.13) 

Um zu zeigen, dass (7.13) für alle g ∈L p (μ) gilt, müssen wir zunächst zeigen, dass 

f ∈L q (μ) liegt. Wir unterscheiden zwei Fälle. 

Fall 1: p =1. Für jedes α>0 ist 

μ({|f| >α}) ≤ 1 

ν({|f| >α}) 

α 

= 1 

α F ( {|f|>α}) ≤ 1 

α �F �′ 1 ·� {|f|>α}�1 = 1 

α �F �′ 1 · μ({|f| >α}). 

Es folgt μ({|f| >α}) =0, falls α>�F � ′ 1, also �f�∞ ≤�F � ′ 1 < ∞. 

Fall 2: p ∈ (0, ∞). Nach Satz 1.96 existieren g1,g2,... ∈ E + e so, dass gn ↑|f| 

μ–f.ü. Setzen wir hn =sign(f)(gn) q−1 ∈ Ee,sogilt 

�gn� q � 

q ≤ hnf dμ = F (hn) 

≤ �F � ′ p ·�hn�p = �F � ′ p · (�gn�q) q−1 , 

also ist �gn�q ≤ �F � ′ p. Monotone Konvergenz (Satz 4.20) liefert nun �f�q ≤ 

�F � ′ p < ∞ also f ∈L q (μ). 

Daher ist die Abbildung � F : g ↦→ � gf dμ in (L p (μ)) ′ und � F (g) =F (g) für jedes 

g ∈ Ee.Da � F stetig ist und Ee ⊂ L p (μ) dicht liegt, gilt schon � F = F . ✷

7.6 Ergänzung: Dualräume 163 

Bemerkung 7.51. Die Aussage von Satz 7.50 ist für p = ∞ im Allgemeinen falsch. 

(Für endliches A ist die Aussage trivialerweise auch für p = ∞ richtig.) Sei beispielsweise 

Ω = N, A =2Ω und μ das Zählmaß. Wir betrachten also Folgenräume 

ℓp = Lp (N, 2N ,μ). Für den Unterraum ℓK ⊂ ℓ∞ der konvergenten Folgen ist 

F : ℓK → R, (an)n∈N ↦→ lim 

n→∞ an ein stetiges lineares Funktional. Nach den 

Hahn-Banach Sätzen der Funktionalanalysis (siehe etwa [73] oder [156]) kann F 

zu einem stetigen linearen Funktional auf ℓ∞ fortgesetzt werden. Offenbar gibt es 

jedoch kein (bn)n∈N ∈ ℓ1 mit F ((an)n∈N) = ∞� 

ambm. ✸ 

m=1 

Übung 7.6.1. Man zeige, dass Ee ⊂ L p (μ) dicht liegt, falls p ∈ [1, ∞). ♣

8 Bedingte Erwartungen 

Wenn über den Ausgang eines Zufallsexperimentes eine Teilinformation vorhanden 

ist, ändern sich die Wahrscheinlichkeiten für die möglichen Ereignisse. Das Konzept 

der bedingten Wahrscheinlichkeiten und bedingten Erwartungen formalisiert den 

zugehörigen Kalkül. 

8.1 Elementare bedingte Wahrscheinlichkeiten 

Beispiel 8.1. Wir werfen einen fairen sechsseitigen Würfel und betrachten die Ereignisse 

A := {Augenzahl drei oder kleiner}, 

B := {Augenzahl ungerade}. 

Offenbar ist P[A] = 1 

1 

2 und P[B] = 2 . Wie groß ist aber die Wahrscheinlichkeit, 

dass B eintritt, wenn wir schon wissen, dass A eintritt? 

Wir modellieren das Experiment auf einem Wahrscheinlichkeitsraum (Ω,A, P), 

wobei Ω = {1,...,6}, A =2Ω und P die Gleichverteilung auf Ω ist. Dann ist 

A = {1, 2, 3} und B = {1, 3, 5}. 

Wenn wir nur wissen, dass A eingetreten ist, liegt es nahe, auf {1, 2, 3} die Gleichverteilung 

zu vermuten. Wir definieren also auf (A, 2 A ) ein neues W-Maß PA durch 

PA[C] = #C 

#A 

für C ⊂ A. 

Indem wir Punkten in Ω \ A die Wahrscheinlichkeit Null geben (die können ja nicht 

eingetreten sein, wenn A eingetreten ist), können wir PA auf Ω fortsetzen durch 

P[C |A] := PA[C ∩ A] = 

So erhalten wir P[B |A] = 

#{1, 3} 

#{1, 2, 3} 

#(C ∩ A) 

#A 

für C ⊂ Ω. 

2 

= . ✸ 

3

166 8 Bedingte Erwartungen 

Durch das Beispiel motiviert treffen wir die folgende Definition. 

Definition 8.2 (Bedingte Wahrscheinlichkeit). Sei (Ω,A, P) ein Wahrscheinlichkeitsraum 

und A ∈A. Dann definieren wir die bedingte Wahrscheinlichkeit 

gegeben A für jedes B ∈Adurch 

⎧ 

⎨ P[A ∩ B] 

, falls P[A] > 0, 

P[B |A] = P[A] 

(8.1) 

⎩ 

0, sonst. 

Bemerkung 8.3. Die genaue Festsetzung in (8.1) für den Fall P[A] =0ist willkürlich 

und unerheblich. ✸ 

Satz 8.4. Ist P[A] > 0, soistP[ · |A] ein W-Maß auf (Ω,A). 

Beweis. Trivial! ✷ 

Satz 8.5. Seien A, B ∈Amit P[A], P[B] > 0. Dann gilt 

A, B sind unabhängig ⇐⇒ P[B |A] =P[B] ⇐⇒ P[A|B] =P[A]. 

Beweis. Trivial! ✷ 

Satz 8.6 (Formel von der totalen Wahrscheinlichkeit). 

Sei I eine höchstens abzählbare Menge und (Bi)i∈I paarweise disjunkte Mengen 

mit P �� 

i∈I Bi 

� 

=1. Dann gilt für jedes A ∈A 

P[A] = � 

P[A|Bi] P[Bi]. (8.2) 

i∈I 

Beweis. Wegen der σ-Additivität von P ist 

� � 

� 

P[A] =P (A ∩ Bi) = � 

P[A ∩ Bi] = � 

P[A|Bi]P[Bi]. ✷ 

i∈I 

i∈I 

Satz 8.7 (Bayes’sche Formel). Sei I eine höchstens abzählbare Menge sowie 

(Bi)i∈I paarweise disjunkte Mengen mit P �� 

i∈I Bi 

� 

=1. Dann gilt für jedes 

A ∈Amit P[A] > 0 und jedes k ∈ I 

i∈I 

P[Bk |A] = P[A|Bk] P[Bk] 

� 

i∈I P[A|Bi] P[Bi] 

(8.3)


P[Bk |A] = P[Bk ∩ A] 

P[A] 

8.1 Elementare bedingte Wahrscheinlichkeiten 167 

= P[A|Bk] P[Bk] 

. 

P[A] 

Setze jetzt (8.2) für P[A] ein. ✷ 

Beispiel 8.8. Bei der Produktion gewisser elektronischer Bauteile sind 2% der Ware 

defekt. Ein schnelles Testverfahren erkennt ein defektes Bauteil mit Wahrscheinlichkeit 

95%, meldet aber bei 10% der intakten Bauteile falschen Alarm. 

Mit welcher Wahrscheinlichkeit ist ein als defekt erkanntes Bauteil wirklich defekt? 

Wir formalisieren die obige Beschreibung. Seien 

A := {Bauteil wird als defekt deklariert}, 

B := {Bauteil ist defekt}, 

sowie 

P[B] =0.02, P[Bc ]=0.98, 

P[A|B] =0.95, P[A|B c ]=0.1. 

Die Bayes’sche Formel liefert nun 

P[B |A] = 

P[A|B] P[B] 

P[A|B] P[B]+P[A|B c ] P[B c ] 

0.95 · 0.02 19 

= 

= ≈ 0.162. 

0.95 · 0.02 + 0.1 · 0.98 117 

Andererseits ist die Wahrscheinlichkeit, dass ein nicht als defekt erkanntes Bauteil 

dennoch defekt ist 

P[B |A c ] = 

0.05 · 0.02 

0.05 · 0.02 + 0.9 · 0.98 

= 1 

883 

≈ 0.00113. ✸ 

Sei nun X ∈L 1 (P).IstA ∈A, so ist offenbar auch AX ∈L 1 (P), und wir setzen 

E[X; A] :=E[ A X]. (8.4) 

Ist P[A] > 0, soistP[ · |A] ein W-Maß. Wegen AX ∈L 1 (P) ist auch X ∈ 

L 1 (P[ · |A]). Alsokönnen wir den Erwartungswert von X bezüglich P[ · |A] definieren. 

Definition 8.9. Sei X ∈L1 (P) und A ∈A. Dann setzen wir 

E[X |A] := 

� 

X(ω) P[dω|A] = 

⎧ 

⎨ E[ AX] 

, 

P[A] 

⎩ 

0, 

falls P[A] > 0, 

sonst. 

(8.5)


Offenbar ist P[B |A] =E[ B |A] für jedes B ∈A. 

Wir betrachten nun die Situation, die wir bei der Formel von der totalen Wahrscheinlichkeit 

untersucht hatten. Sei also I eine höchstens abzählbare Menge, und 

seien (Bi)i∈I paarweise disjunkte Ereignisse mit � 

Bi = Ω. Wirdefinieren F := 

σ(Bi, i∈ I). Für X ∈L 1 (P) definieren wir eine Abbildung E[X |F]:Ω → R 

durch 

E[X |F](ω) =E[X |Bi] ⇐⇒ Bi ∋ ω. (8.6) 

Lemma 8.10. Die Abbildung E[X |F] hat die folgenden Eigenschaften: 

(i) E[X |F] ist F-messbar, 

(ii) E[X |F] ∈L1 � 

(P), und für jedes A ∈Fgilt 

Beweis. (i) Sei f die Abbildung f : Ω → I, mit 

i∈I 

f(ω) =i ⇐⇒ Bi ∋ ω. 

A 

� 

E[X |F] dP = 

A 

XdP. 

Ferner sei g : I → R, i ↦→ E[X |Bi]. DaI diskret ist, ist g messbar. Da f messbar 

ist bezüglich F, ist auch E[X |F]=g ◦ f messbar bezüglich F. 

(ii) Sei A ∈Fund J ⊂ I mit A = � 

j∈J Bj. SeiJ ′ := {i ∈ J : P[Bi] > 0}. 

Dann ist 

� 

E[X |F] dP = � 

P[Bi] E[X |Bi] = � 

E[ BiX]= � 

XdP. ✷ 

A 

i∈J ′ 

Übung 8.1.1 (Gedächtnislosigkeit der Exponentialverteilung). Sei X eine nichtnegative 

Zufallsvariable und θ>0. Man zeige: Genau dann ist X exponentialverteilt, 

wenn 

i∈J ′ 

P[X >t+ s|X >s]=P[X >t] für alle s, t ≥ 0. 

Insbesondere gilt für θ>0: Genau dann ist X ∼ exp θ,wennP[X >t+ s|X > 

s] =e −θt für alle s, t ≥ 0 gilt. ♣ 

8.2 Bedingte Erwartungen 

Wir nehmen an, dass X eine uniform auf [0, 1] verteilte Zufallsvariable ist, und dass 

bei Kenntnis des Wertes X = x die Zufallsvariablen Y1,...,Yn unabhängig und 

Berx-verteilt sind. Mit unserem Apparat können wir bisher bedingte Wahrscheinlichkeiten 

vom Typ P[ · |X ∈ [a, b]], a < b, ausrechnen. Wie sieht es aber aus 

A

8.2 Bedingte Erwartungen 169 

mit P[Y1 = ... = Yn =1 � �X = x]? Intuitiv sollte dies xn sein. Wir brauchen 

einen Begriff der bedingten Wahrscheinlichkeit, der auch für Ereignisse mit Wahrscheinlichkeit 

Null in konsistenter Weise unserer Intuition entspricht. Wir werden 

(im nächsten Abschnitt) sehen, dass dies im vorliegenden Beispiel mit Hilfe von 

Übergangskernen möglich ist. Zunächst aber betrachten wir die allgemeine Situation. 

Sei im Folgenden stets F ⊂ A eine Unter-σ-Algebra und X ∈L1 (Ω,A, P). In 

Anlehnung an Lemma 8.10 treffen wir die folgende Definition. 

Definition 8.11 (Bedingte Erwartung). Eine Zufallsvariable Y heißt bedingte 

Erwartung von X gegeben F, symbolisch E[X |F]:=Y , falls gilt: 

(i) Y ist F-messbar. 

(ii) Für jedes A ∈Fgilt E[X A] =E[Y A]. 

Für B ∈Aheißt P[B |F]:=E[ B |F] die bedingte Wahrscheinlichkeit von B 

gegeben F. 

Satz 8.12. E[X |F] existiert und ist eindeutig (bis auf Gleichheit fast sicher). 

Da bedingte Erwartungen nur bis auf Gleichheit f.s. definiert sind, sind alle Gleichheiten 

mit bedingten Erwartungen immer nur als Gleichheiten f.s. zu verstehen, auch 

wenn nicht explizit darauf hingewiesen wird. 

Beweis. Eindeutigkeit. Seien Y und Y ′ Zufallsvariablen, die (i) und (ii) erfüllen. 

Setze A = {Y > Y ′ }∈F. Dann ist nach Bedingung (ii) 

0 = E[Y A] − E[Y ′ A] = E[(Y − Y ′ ) A]. 

Wegen (Y − Y ′ ) A ≥ 0, ist dann P[A] =0, also Y ≤ Y ′ fast sicher. Analog folgt 

Y ≥ Y ′ fast sicher. 

Existenz. Seien X + = X ∨ 0 und X − = X + − X. Durch 

Q ± (A) :=E[X ± A] für jedes A ∈F, 

werden zwei endliche Maße auf (Ω,F) definiert. Offenbar ist Q ± ≪ P, also liefert 

der Satz von Radon-Nikodym (Korollar 7.34) die Existenz von Dichten Y ± , sodass 

Q ± � 

(A) = Y ± dP = E[Y ± A]. 

A 

Setze nun Y = Y + − Y − . ✷ 

Definition 8.13. Ist Y eine Zufallsvariable und X ∈ L 1 (P), sodefinieren wir 

E[X |Y ]:=E[X |σ(Y )].


Satz 8.14 (Eigenschaften der bedingten Erwartung). Seien (Ω,A, P) und X 

wie oben sowie G⊂F⊂Aσ-Algebren. Ferner sei Y ∈L 1 (Ω,A, P). Dann gilt: 

(i) (Linearität) E[λX + Y |F]=λE[X |F]+E[ Y |F]. 

(ii) (Monotonie) Ist X ≥ Y f.s., so ist E[X |F] ≥ E[ Y |F]. 

(iii) Ist E[|XY |] < ∞ und Y messbar bezüglich F, dann ist 

E[XY |F]=Y E[X |F] und E[ Y |F]=E[ Y |Y ]=Y. 

(iv) (Turmeigenschaft) E[E[X |F]|G]=E[E[X |G]|F]=E[X |G]. 

(v) (Dreiecksungleichung) E[|X| � �F] ≥ � �E[X |F] � �. 

(vi) (Unabhängigkeit) Sind σ(X) und F unabhängig, so ist E[X |F]=E[X]. 

(vii) Gilt P[A] ∈{0, 1} für jedes A ∈F,soistE[X |F]=E[X]. 

(viii) (Majorisierte Konvergenz) Ist Y ≥ 0 und ist (Xn)n∈N eine Folge von Zu- 

n→∞ 

fallsvariablen mit |Xn| ≤Y für n ∈ N sowie Xn −→ X f.s., so gilt 

lim 

n→∞ E[Xn |F]=E[X |F] f.s. und in L 1 (P). (8.7) 

Beweis. (i) Die rechte Seite ist F-messbar, und für A ∈Fist 

E � � �� 

A λE[X |F]+E[Y |F] = λE A E[X |F] � + E � A E[Y |F] � 

= λE[ A X]+E[ A Y ] 

= E � A (λX + Y ) � . 

(ii) Sei A = {E[X |F] < E[Y |F]} ∈F.WegenX ≥ Y ist E[ A (X − Y )] ≥ 0, 

also P[A] =0. 

(iii) Sei zunächst X ≥ 0 und Y ≥ 0. Für n ∈ N setze Yn =2 −n ⌊2 n Y ⌋. Dannist 

Yn ↑ Y sowie Yn E[X |F] ↑ Y E[X |F] (da E[X |F] ≥ 0 nach (ii)). Es gilt nach 

dem Satz von der monotonen Konvergenz (Lemma 4.6(ii)) 

Andererseits ist 

E � A Yn E[X |F] � n→∞ 

−→ E � A Y E[X |F] � . 

E � A Yn E[X |F] � = 

= 

∞� 

E � A {Yn=k 2−n } k 2 −n E[X |F] � 

k=1 

∞� 

E � A {Yn=k 2−n } k 2 −n X � 

k=1 

= E � A YnX � n→∞ 

−→ E[ A YX].


Also gilt E[ A Y E[X |F]] = E[ A YX]. Im allgemeinen Fall schreiben wir X = 

X + − X − und Y = Y + − Y − und nutzen die Linearität der bedingten Erwartung 

aus. 

(iv) Die zweite Gleichung folgt aus (iii) mit Y = E[X |G] und X =1. Sei nun 

A ∈G. Dann ist insbesondere auch A ∈F, also 

E � AE[E[X |F]|G] � = E � AE[X |F] � = E[ A X] = E � A E[X |G] � . 

(v) Das folgt aus (i) und (ii) mit X = X + − X − . 

(vi) Trivialerweise ist E[X] messbar bezüglich F. SeiA ∈F. Dann sind X und 

A unabhängig, also ist E[E[X |F] A] =E[X A] =E[X] E[ A]. 

(vii) Für jedes A ∈Fund B ∈Agilt P[A ∩ B] =0, falls P[A] =0ist, und 

P[A∩B] =P[B], falls P[A] =1ist. Also ist F von A unabhängig und damit auch 

von jeder Teil-σ-Algebra von A. Speziell ist F von σ(X) unabhängig. Die Aussage 

folgt also aus (vi). 

n→∞ 

(viii) Sei |Xn| ≤Y für jedes n ∈ N und Xn −→ X fast sicher. Setze Zn := 

supk≥n |Xk − X|. Dannist0≤ Zn ≤ 2Y und Zn 

f.s. 

−→ 0. Nach Korollar 6.26 

(majorisierte Konvergenz) gilt E[Zn] n→∞ 

−→ 0, also nach der Dreiecksungleichung 

E �� E[Xn |F]−E[X |F] � � � ≤ E[E[|Xn−X| � �F]] = E[|Xn−X|] ≤ E[Zn] n→∞ 

−→ 0. 

Dies ist aber die L1 � 

(P)-Konvergenz in (8.7). Sei Z := lim supn→∞ E[Zn 

�F]. 

Nach dem Lemma von Fatou ist 

E[Z] ≤ lim 

n→∞ E[Zn] = 0, 

� 

also Z =0und damit E[Zn 

�F] n→∞ 

−→ 0 fast sicher. Nach (v) ist aber 

� � � � 

�E[Xn 

�F] − E[X �F] � ≤ E[Zn]. ✷ 

Bemerkung 8.15. Intuitiv ist E[X |F] die beste Vorhersage, die wir für den Wert 

von X machen können, wenn uns die Information aus der σ-Algebra F zur Verfügung 

steht. Ist beispielsweise σ(X) ⊂ F, kennen wir also X schon, dann ist 

E[X |F] =X, wie in (iii) gezeigt. Am anderen Ende der Skala ist der Fall, wo 

X und F unabhängig sind, wir also durch Kenntnis von F keine Information über 

X gewinnen. Hier ist die beste Vorhersage für X der Erwartungswert selber, also 

E[X] =E[X |F] wie in (vii) gezeigt. 

Was heißt dabei aber eigentlich genau ” beste Vorhersage“? Wir wollen dies für quadratintegrierbare 

Zufallsvariablen X als diejenige F-messbare Zufallsvariable verstehen, 

die den L 2 –Abstand zu X minimiert. Dass dies die bedingte Erwartung 

tatsächlich tut, ist der Inhalt des folgenden Korollars. ✸


Korollar 8.16 (Bedingte Erwartung als Projektion). Sei F⊂Aeine σ-Algebra 

und X eine Zufallsvariable mit E[X2 ] < ∞. Dann ist E[X |F] die orthogonale 

Projektion von X auf L2 (Ω,F, P). Es gilt also für jedes F-messbare Y mit 

E[Y 2 ] < ∞ 

E � (X − Y ) 2� ≥ E � (X − E[X |F]) 2� 

mit Gleichheit genau dann, wenn Y = E[X |F]. 

Beweis. Sei Y messbar bezüglich F. Dann ist (mit der Turmeigenschaft) E[XY ]= 

E[E[X |F]Y ] und E � XE[X |F] � = E � E[XE[X |F] � �F] � = E � E[X |F] 2� , also 

E � (X − Y ) 2� ��X �� 

2 

− E − E[X |F 

� 

= E X 2 − 2XY + Y 2 − X 2 +2XE[X |F] − E[X |F] 2� 

� 

= E Y 2 − 2Y E[X |F]+E[X |F] 2� 

��Y � � 

2 

= E − E[X |F] ≥ 0. ✷ 

Beispiel 8.17. Seien X, Y ∈L 1 (P) unabhängig. Dann ist 

E[X + Y |Y ]=E[X |Y ]+E[Y |Y ]=E[X]+Y. ✸ 

Beispiel 8.18. Seien X1,...,XN unabhängig mit E[Xi] =0, i =1,...,N. Setze 

Fn := σ(X1,...,Xn) und Sn := X1 + ...+ Xn für n =1,...,N.Dannistfür 

n ≥ m 

� 

� 

� 

E[Sn 

�Fm] =E[X1 

�Fm]+...+ E[Xn 

�Fm] = X1 + ...+ Xm + E[Xm+1]+...+ E[Xn] 

= Sm 

Nach Satz 8.14(iv) ist wegen σ(Sm) ⊂Fm auch 

E[Sn |Sm] = E � E[Sn |Fm] � � 

�Sm = E[Sm |Sm] = Sm. ✸ 

Wir kommen nun zur Jensen’schen Ungleichung für bedingte Erwartungen. 

Satz 8.19 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall, und sei ϕ : I → 

R konvex und X eine Zufallsvariable auf (Ω,A, P) mit Werten in I. Ferner sei 

E[|X|] < ∞ und F⊂Aeine σ-Algebra. Dann gilt 

∞ ≥ E[ϕ(X)|F] ≥ ϕ(E[X |F]). 

Beweis. (Man erinnere sich der Definition 1.68 zur Sprechweise ” fast sicher auf 

A“.) Auf dem Ereignis {E[X |F] ist ein Randpunkt von I} ist X = E[X |F] fast


sicher, und die Aussage ist trivial. In der Tat: Ohne Einschränkung sei 0 der linke 

Randpunkt von I und A := {E[X |F]=0}. DaX Werte in I ⊂ [0, ∞) annimmt, 

ist 0 ≤ E[X A] =E[E[X |F] A] =0, also ist X A =0. Der Fall eines rechten 

Randpunktes geht analog. 

Sei also nun das Ereignis B := {E[X |F] ist innerer Punkt von I} betrachtet. 

Für jeden inneren Punkt x ∈ I sei D + ϕ(x) die maximale Tangentensteigung von ϕ 

in x, also der maximale Wert t mit ϕ(y) ≥ (y − x)t + ϕ(x) für alle y ∈ I (siehe 

Satz 7.7). Die Abbildung x ↦→ D + ϕ(x) ist monoton wachsend, also messbar, und 

daher ist D + ϕ(E[X |F]) eine F-messbare Zufallsvariable. Es folgt 

E � ϕ(X)|F � ��X � � � + 

≥ E − E[X |F] D ϕ(E[X |F]) + ϕ E[X |F] � � 

� 

�F 

= ϕ � E[X |F] � 

f.s auf B. ✷ 

Korollar 8.20. Sei p ∈ [1, ∞] und F ⊂ A eine Teil-σ-Algebra. Dann ist die 

Abbildung Lp (Ω,A, P) → Lp (Ω,F, P), X ↦→ E[X |F] eine Kontraktion (das 

heißt: �E[X |F]�p ≤ �X�p) und damit insbesondere stetig. Es gilt also für 

X, X1,X2,...∈Lp n→∞ 

(Ω,A, P) mit �Xn − X�p −→ 0 auch 

� 

�E[Xn |F] − E[X |F] � � p 

n→∞ 

−→ 0. 

Beweis. Für p ∈ [1, ∞) benutze die Jensen’sche Ungleichung mit ϕ(x) =|x| p � 

.Für 

p = ∞ beachte, dass |E[X |F]| ≤E[|X||F] ≤ E[�X�∞ �F] =�X�∞. ✷ 

Korollar 8.21. Ist (Xi, i∈ I) gleichgradig integrierbar � und (Fj, j∈ J) eine Familie 

von Teil-σ-Algebren von A, sowie Xi,j := E[Xi 

�Fj], dann ist (Xi,j, (i, j) ∈ 

I × J) gleichgradig integrierbar. Insbesondere ist für X ∈ L1 (P) die Familie 

(E[X |Fj], j∈ J) gleichgradig integrierbar. 

Beweis. Nach Satz 6.19 existiert eine wachsende, konvexe Funktion f mit der Eigenschaft 

f(x)/x →∞, x →∞und L := sup i∈I E[f(|Xi|)] < ∞. Dannist 

x ↦→ f(|x|) konvex, also nach der Jensen’schen Ungleichung 

E � f(|Xi,j|) � = E � f �� E[Xi |Fj] � � �� ≤ L < ∞. 

Nach Satz 6.19 ist daher (Xi,j, (i, j) ∈ I × J) gleichgradig integrierbar. ✷ 

Beispiel 8.22. Seien μ und ν endliche Maße mit ν ≪ μ.Seif = dν/dμ die Radon- 

Nikodym-Ableitung, und sei I = {F ⊂ A : F ist eine σ-Algebra}. Betrachte die 

auf F eingeschränkten Maße μ � � und ν 

F 

� � .Dannistν 

F 

� � ≪ μ 

F 

� � (klar, denn in 

F 

F gibt es ja weniger μ–Nullmengen), also existiert die Radon-Nikodym-Ableitung 

fF := dν � � /dμ 

F 

� � .Dannist(fF : F ∈ I) gleichgradig integrierbar (bezüglich 

F 

μ). (Für endliche σ-Algebren F wurde dies schon in Beispiel 7.39 gezeigt.) In der


Tat: Sei P = μ/μ(Ω) und Q = ν/μ(Ω). DannistfF = dQ � � /dP 

F 

� � .Für jedes 

F 

F ∈ F ist also E[fF F ] = � 

F fF dP = Q(F ) = � 

F fdP = E[f F ], also 

fF = E[f |F]. Nach dem vorangehenden Korollar ist (fF : F∈I) gleichgradig 

integrierbar bezüglich P und damit auch bezüglich μ. ✸ 

Übung 8.2.1. (Bayes’sche Formel) Seien A ∈Aund B ∈F. Man zeige 

� 

P[A|F] dP 

B P[B |A] = � . 

P[A|F] dP 

Wird F von paarweise disjunkten Mengen B1,B2,... erzeugt, so ist dies gerade 

die Bayes’sche Formel aus Satz 8.7. ♣ 

Übung 8.2.2. Man zeige durch ein Beispiel, dass E[E[X |F]|G] �= E[E[X |G]|F] 

gelten kann. ♣ 

Übung 8.2.3. Man zeige die bedingte Markov’sche Ungleichung: Für monoton 

wachsendes f :[0, ∞) → [0, ∞) und ε>0 mit f(ε) > 0 ist 

P � |X| ≥ε|F � ≤ E�f(|X|) � � 

�F . ♣ 

f(ε) 

Übung 8.2.4. Man zeige die bedingte Cauchy-Schwarz’sche Ungleichung: Für quadratintegrierbare 

Zufallsvariablen X, Y gilt 

E[XY |F] 2 ≤ E[X 2 |F] E[Y 2 |F]. ♣ 

Übung 8.2.5. Seien X1,...,Xn integrierbar, unabhängig und identisch verteilt. Sei 

Sn = X1 + ...+ Xn. Zeige: 

E[Xi |Sn] = 1 

n Sn für jedes i =1,...,n. ♣ 

Übung 8.2.6. Seien X1 und X2 unabhängig und exponentialverteilt mit Parameter 

θ>0. Man bestimme E[X1 ∧ X2 |X1]. ♣ 

Übung 8.2.7. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichte f, 

und sei h : R → R messbar mit E[|h(X)|] < ∞. Es bezeiche λ das Lebesgue-Maß 

auf R. 

(i) Zeige, dass fast sicher gilt: 

E[h(X)|Y ]= 

� h(x)f(x, Y ) λ(dx) 

� f(x, Y ) λ(dx) 

(ii) Seien speziell X und Y unabhängig und exp θ-verteilt für ein θ>0. Bestimme 

E[X |X + Y ] und P[X ≤ x|X + Y ] für x ≥ 0. ♣ 

.

8.3 Reguläre Version der bedingten Verteilung 175 

8.3 Reguläre Version der bedingten Verteilung 

Ist X eine Zufallsvariable mit Werten in einem Messraum (E,E),sokönnen wir mit 

unserem Apparat bisher für festes A ∈Adie bedingte Wahrscheinlichkeit P[A|X] 

angeben. Können wir die Situation aber auch so einrichten, dass wir für jedes x ∈ E 

ein W-Maß P[ · |X = x] angeben können, sodass für jedes A ∈Agilt P[A|X] = 

P[A|X = x] auf {X = x}? 

Wir sind beispielsweise an einem zweistufigen Zufallsexperiment interessiert: Im 

ersten Schritt wird eine Münze in zufälliger Weise so gefälscht, dass sie die Erfolgswahrscheinlichkeit 

X hat. Danach werden unabhängige Würfe Y1,...,Yn mit 

dieser Münze durchgeführt. Die ” bedingte Verteilung von (Y1,...,Yn) gegeben 

{X = x}“ sollte also (Berx) ⊗n sein. 

Sei X wie oben und Z eine σ(X)-messbare, reelle Zufallsvariable. Nach dem Faktorisierungslemma 

(Korollar 1.97) existiert eine E – B(R)-messbare Abbildung 

ϕ : E → R mit ϕ(X) =Z. IstX surjektiv, so ist ϕ eindeutig festgelegt. Wir 

schreiben dann Z ◦ X −1 := ϕ (auch wenn die Umkehrabbildung X −1 selber nicht 

existiert). 

Definition 8.23. Sei Y ∈L1 (P) und X :(Ω,A) → (E,E). Dann definieren wir 

die bedingte Erwartung von Y gegeben X = x, kurz E[Y |X = x], als die Funktion 

ϕ aus dem Faktorisierungslemma mit Z = E[Y |X]. 

� 

Wir setzen analog P[A|X = x] =E[ �X A = x] für A ∈A. 

Für eine Menge B ∈Amit P[B] > 0 ist die bedingte Wahrscheinlichkeit P[ · |B] 

ein W-Maß. Gilt das Gleiche für P[ · |X = x]? Der Fall liegt hier komplizierter, da 

wir für jedes A ∈Aden Ausdruck P[A|X = x] für x nur bis auf eine Ausnahmemenge, 

die allerdings von A abhängt, definiert haben. Wenn wir die σ-Algebra 

A nun durch abzählbar viele A genügend gut approximieren können, besteht Hoffnung, 

dass die Ausnahmemengen sich zu einer Nullmenge vereinigen. Wir fassen 

zunächst die Begriffe genauer und zeigen dann das angedeutete Ergebnis. 

Definition 8.24 (Übergangskern, Markovkern). Sind (Ω1, A1), (Ω2, A2) Messräume, 

so heißt κ : Ω1 ×A2 → [0, ∞] ein (σ–)endlicher Übergangskern (von Ω1 

nach Ω2), falls 

(i) ω1 ↦→ κ(ω1,A2) ist A1-messbar für jedes A2 ∈A2. 

(ii) A2 ↦→ κ(ω1,A2) ist ein (σ–)endliches Maß auf (Ω2, A2) für jedes ω1 ∈ Ω1. 

Ist das Maß in (ii) ein W-Maß für jedes ω1 ∈ Ω1, soheißtκ stochastischer Kern 

oder Markovkern. Wird in (ii) zusätzlich κ(ω1,Ω2) ≤ 1 für jedes ω1 ∈ Ω1 gefordert,soheißtκ 

sub-Markov’sch oder substochastisch.


Bemerkung 8.25. Es reicht, in Definition 8.24 die Eigenschaft (i) nur für Mengen 

A2 aus einem schnittstabilen Erzeuger E von A2, derΩ2oder eine Folge En ↑ Ω2 

enthält, zu fordern. Es ist nämlich stets 

D := � A2 ∈A2 : ω1 ↦→ κ(ω1,A2) ist A1-messbar � 

ein Dynkin-System (Übung!). Wegen E⊂Dist (Satz 1.19) D = σ(E) =A2. ✸ 

Beispiel 8.26. (i) Sind (Ω1, A1) und (Ω2, A2) diskrete Messräume, so liefert jede 

Matrix (Kij) i∈Ω1 j∈Ω2 mit nichtnegativen Einträgen und endlichen Zeilensummen 

Ki := � 

Kij < ∞ für i ∈ Ω1, 

j∈Ω2 

einen endlichen Übergangskern von Ω1 nach Ω2 vermöge κ(i, A) = � 

Kij. Der 

Kern ist stochastisch, falls Ki =1für jedes i ∈ N und substochastisch, falls Ki ≤ 1 

für jedes i ∈ Ω1. 

(ii) Ist μ2 ein endliches Maß auf Ω2, dannistκ(ω1, · ) ≡ μ2 ein endlicher Übergangskern. 

(iii) κ(x, · )=Poix ist ein stochastischer Kern von [0, ∞) nach N0 (beachte: für 

jedes A ⊂ N0 ist x ↦→ Poix(A) stetig, also insbesondere messbar). 

(iv) Sei μ eine Verteilung auf R n und X eine Zufallsvariable mit PX = μ. Dann 

definiert κ(x, · )=P[X + x ∈ · ]=δx ∗ μ einen stochastischen Kern von R n nach 

R n . In der Tat: Die Mengen (−∞,y], y ∈ R n , bilden einen schnittstabilen Erzeuger 

von B(R n ) und x ↦→ κ(x, (−∞,y]) = μ((−∞,y−x]) ist linksstetig, also messbar. 

Nach Bemerkung 8.25 ist daher x ↦→ κ(x, A) messbar für jedes A ∈B(R n ). ✸ 

Definition 8.27. Sei Y eine Zufallsvariable mit Werten in einem Messraum (E,E) 

und F⊂Aeine Unter-σ-Algebra. Ein stochastischer Kern κY,F von (Ω,F) nach 

(E,E) heißt reguläre Version der bedingten Verteilung von Y gegeben F, falls 

κY,F(ω, B) =P[{Y ∈ B}|F](ω) für P-fast alle ω ∈ Ω und für jedes B ∈E. 

Sei speziell F = σ(X) für eine Zufallsvariable X (in einem beliebigen Messraum 

(E ′ , E ′ )). Dann heißt der stochastische Kern (x, A) ↦→ κY,X(x, A) =P[{Y ∈ 

A}|X = x] =κ Y,σ(X)(X −1 (x),A) (die Funktion aus dem Faktorisierungslemma 

mit beliebiger Festsetzung für x �∈ X(Ω)) eine reguläre Version der bedingten 

Verteilung von Y gegeben X. 

Satz 8.28 (Reguläre bedingte Verteilungen in R). Ist Y :(Ω,A) → (R, B(R)) 

reellwertig, dann existiert eine reguläre Version κY,F der bedingten Verteilungen 

P[{Y ∈ · }|F]. 

j∈A


Beweis. Die Strategie besteht darin, eine messbare Version der Verteilungsfunktion 

der bedingten Verteilung von Y zu konstruieren, indem diese zunächst für rationale 

Werte festgelegt wird (bis auf eine Nullmenge) und dann auf die reellen Zahlen 

fortgesetzt wird. 

Für r ∈ Q sei F (r, · ) eine Version der bedingten Wahrscheinlichkeit P[Y ∈ 

(−∞,r]|F]. Für r ≤ s ist offenbar {Y ∈(−∞,r]} ≤ {Y ∈(−∞,s]}, also gibt es 

nach Satz 8.14(ii) (Monotonie der bedingten Erwartung) eine Nullmenge Ar,s ∈F 

mit 

F (r, ω) ≤ F (s, ω) für jedes ω ∈ Ω \ Ar,s. 

Nach Satz 8.14(viii) (majorisierte Konvergenz) gibt es Nullmengen (Br)r∈Q ∈F 

und C ∈F, sodass 

lim 

n→∞ F 

� 

r + 1 

n ,ω 

� 

= F (r, ω) für jedes ω ∈ Ω \ Br und 

lim F (−n, ω) =0, lim F (n, ω) =1 für jedes ω ∈ Ω \ C. 

n→∞ n→∞ 

Setze N := � 

r,s∈Q Ar,s ∪ � 

r∈Q Br ∪ C.Für ω ∈ Ω \ N definieren wir 

˜F (z,ω) :=inf � F (r, ω) : r ∈ Q, r≥ z � 

für alle z ∈ R. 

Da F ( · ,ω) monoton wachsend ist, ist ˜ F ( · ,ω) monoton wachsend und rechtsstetig 

in jedem z ∈ R \ Q. DaF ( · ,ω) zudem rechtsstetig ist, ist ˜ F ( · ,ω) rechtsstetig in 

jedem z ∈ Q. Alsoist˜ F ( · ,ω) eine Verteilungsfunktion für jedes ω ∈ Ω \ N. Für 

ω ∈ N setze ˜ F ( · ,ω)=F0, wobei F0 eine beliebige fest gewählte Verteilungsfunktion 

ist. 

Für jedes ω ∈ Ω definieren wir κ(ω, · ) als das durch die Verteilungsfunktion 

˜F ( · ,ω) definierte W-Maß auf (Ω,A). Für r ∈ Q und B =(−∞,r] ist dann 

ω ↦→ κ(ω, B) =P[Y ∈ B |F](ω) N c(ω)+F0(r) N (ω) (8.8) 

F-messbar. Nun ist {(−∞,r], r∈ Q} ein schnittstabiler Erzeuger von B(R). Nach 

Bemerkung 8.25 gilt die Messbarkeit also für jedes B ∈B(R), und damit ist κ als 

stochastischer Kern erkannt. 

Wir müssen noch zeigen, dass κ eine Version der bedingten Verteilungen ist. Für 

A ∈F, r ∈ Q und B =(−∞,r] ist nach (8.8) 

� 

� 

κ(ω, B) P[dω] = P � Y ∈ B |F � dP = P � A ∩{Y ∈ B} � . 

A 

A 

Als Funktion von B sind beide Seiten endliche Maße auf B(R), die auf dem schnittstabilen 

Erzeuger � (−∞,r],r∈ Q � übereinstimmen. Nach dem Eindeutigkeitssatz 

(Lemma 1.42) gilt daher für jedes B ∈B(R) Gleichheit und damit P-fast sicher 

κ( · ,B)=P[Y ∈ B |F], also κ = κY,F. ✷


Beispiel 8.29. Seien Z1,Z2 unabhängig und Poisson-verteilt mit den Parametern 

λ1,λ2 ≥ 0. Dann kann man zeigen (Übung!), dass (mit Y = Z1 und X = Z1 + Z2) 

P[Z1 = k � � Z1 + Z2 = n] =bn,p(k) für k =0,...,n, 

wobei p = λ1 

ist. ✸ 

λ1+λ2 

Dieses Beispiel ließ sich aber im Grunde genommen auch noch mit elementaren 

Mitteln bearbeiten. Die volle Stärke des Ergebnisses nutzen wir in den folgenden 

Beispielen aus. 

Beispiel 8.30. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichtefunktion 

f (bezüglich des Lebesgue-Maßes λ2 auf R2 ). Für x ∈ R setzen wir 

� 

fX(x) = f(x, y) λ(dy). 

R 

Offenbar ist fX(x) > 0 für PX-f.a. x ∈ R und f −1 

X ist die Dichte des absolutstetigen 

Anteils des Lebesgue-Maßes λ bezüglich PX. Die reguläre Version der bedingten 

Verteilung von Y gegeben X hat die Dichte 

P[Y ∈ dy|X = x] 

dy 

= f Y |X(x, y) := 

f(x, y) 

fX(x) 

für PX[dx]-f.a. x ∈ R. (8.9) 

In � der Tat ist nach dem Satz von Fubini (siehe Satz 14.16) die Abbildung x ↦→ 

B fY |X(x, y) λ(dy) messbar für jedes B ∈B(R), und für A, B ∈B(R) gilt 

� 

� 

P[X ∈ dx] fY |X(x, y) λ(dy) 

A 

B� 

= P[X ∈ dx] fX(x) 

A 

−1 

� 

f(x, y) λ(dy) 

� � 

B 

= λ(dx) f(x, y) λ(dy) 

A 

� 

B 

= fdλ 2 = P[X ∈ A, Y ∈ B]. ✸ 

. 

A×B 

Beispiel 8.31. Seien μ1,μ2 ∈ R, σ1,σ2 > 0 und Z1,Z2 unabhängig und N μi,σ 2 i 

verteilt (i =1, 2). Dann existiert eine reguläre Version der bedingten Verteilung 

P[Z1 ∈ · |Z1 + Z2 = x] für x ∈ R. 

Setzen wir X = Z1+Z2 und Y = Z1,soist(X, Y ) ∼Nμ,Σ � 

bivariat normalverteilt 

2 σ1 + σ 

mit Kovarianzmatrix Σ := 

2 2 σ2 � 

� � 

1 

μ1 + μ2 

und mit μ := 

.Wegen 

σ 2 1 

σ 2 1 

μ1


Σ −1 = � σ 2 1σ 2 � 

� 2 

−1 σ1 2 

−σ2 −σ 

1 

2 1 σ2 1 + σ2 � 

2 

= (σ 2 1σ 2 2) −1 B T B, 

� � 

σ1 −σ1 

wo B = 

ist, hat (X, Y ) die Dichte (siehe Beispiel 1.105(ix)) 

0 σ2 

f(x, y) = det(2πΣ) −1/2 � 

exp − 1 

2σ2 1σ2 � 

� 

� 

� 

2 

B 

� ��2 x − (μ1 + μ2) �� 

y − μ1 

� 

= � 4π 2 σ 2 1σ 2 � 

�−1/2 2 exp − σ2 1(y − (x − μ1)) 2 + σ2 2(y − μ2) 2 

2σ2 1σ2 � 

2 

= Cx exp � − (y − μx) 2 /2σ 2� x , 

wobei Cx eine Normalisierungskonstante ist und 

μx = μ1 + σ2 1 

σ2 1 + σ2 (x − μ1 − μ2) 

2 

und σ 2 x = σ2 1σ2 2 

σ2 1 + σ2 . 

2 

Nach (8.9) hat P[Z1 ∈ · |Z1 + Z2 = x] die Dichte 

also ist 

y ↦→ fY |X(x, y) = Cx 

fX(x) exp 

� 

− 

(y − μx) 2 

2σ 2 x 

P[Z1 ∈ · |Z1 + Z2 = x] =N μx,σ 2 x für fast alle x ∈ R. ✸ 

Beispiel 8.32. Sind X und Y unabhängige, reelle Zufallsvariablen, so ist für PXfast 

alle x ∈ R 

P[X + Y ∈ · |X = x] =δx ∗ PY . ✸ 

Die Situation ist noch nicht vollends zufriedenstellend, da wir die sehr starke Annahme 

gemacht haben, dass Y reellwertig ist. Ursprünglich waren wir aber auch an 

einer Situation interessiert, wo Y Werte in R n annimmt, oder sogar in allgemeineren 

Räumen. Wir dehnen nun das Ergebnis auf eine größere Klasse von Wertebereichen 

von Y aus. 

Definition 8.33. Zwei Messräume (E,E) und (E ′ , E ′ ) heißen isomorph, falls es eine 

bijektive Abbildung ϕ : E → E ′ gibt, sodass ϕ messbar ist bezüglich E–E ′ und 

die Umkehrabbildung ϕ −1 messbar ist bezüglich E ′ –E. Wir nennen dann ϕ einen 

Messraum-Isomorphismus. Sind zudem μ und μ ′ Maße auf (E,E) und (E ′ , E ′ ) 

und gilt μ ′ = μ ◦ ϕ −1 ,soistϕ ein Maßraum-Isomorphismus, und die Maßräume 

(E,E,μ) und (E ′ , E ′ ,μ ′ ) heißen isomorph. 

Definition 8.34. Ein Messraum (E,E) heißt Borel’scher Raum, falls es eine Borel’sche 

Menge B ∈B(R) gibt, sodass (E,E) und (B,B(B)) isomorph sind. 

� 

,


Ein separabler topologischer Raum, dessen Topologie durch eine vollständige Metrik 

erzeugt wird, heißt polnischer Raum. Speziell sind R d , Z d , R N , (C([0, 1]), � · 

�∞) und so fort polnisch. Abgeschlossene Teilmengen von polnischen Räumen sind 

ebenfalls polnisch. Wir kommen auf polnische Räume im Zusammenhang mit der 

Konvergenz von Maßen in Kapitel 13 zurück. Ohne Beweis bringen wir das folgende 

topologische Ergebnis (siehe etwa [37, Theorem 13.1.1]). 

Satz 8.35. Ist E ein polnischer Raum mit Borel’scher σ-Algebra E, dann ist (E,E) 

ein Borel’scher Raum. 

Satz 8.36 (Reguläre bedingte Verteilungen). Sei F⊂Aeine Unter-σ-Algebra. 

Sei Y eine Zufallsvariable mit Werten in einem Borel’schen Raum (E,E) (also 

zum Beispiel E polnisch, E = R d , E = R ∞ , E = C([0, 1]) usw.). Dann existiert 

eine reguläre Version κY,F der bedingten Verteilungen P[{Y ∈ · }|F]. 

Beweis. Sei B ∈ B(R) und ϕ : E → B ein Messraum-Isomorphismus. Mit 

Satz 8.28 erhalten wir die regulären bedingten Verteilungen κY ′ ,F der reellen Zufallsvariablen 

Y ′ = ϕ ◦ Y . Wir setzen nun κY,F(ω, A) = κY ′ ,F(ω, ϕ(A)) für 

A ∈E. ✷ 

Abschließend greifen wir das eingangs betrachtete Beispiel wieder auf und können 

nun die dort in Anführungszeichen gemachte Aussage formal hinschreiben. Sei also 

X uniform auf [0, 1] verteilt, und gegeben den Wert X = x seien (Y1,...,Yn) 

unabhängig Berx–verteilt. Wir setzen Y =(Y1,...,Yn). Nach Satz 8.36 (mit E = 

{0, 1} n ⊂ R n ) existieren die regulären bedingten Verteilungen 

κY,X(x, · )=P[Y ∈ · |X = x] für x ∈ [0, 1]. 

In der Tat ist für fast alle x ∈ [0, 1] 

P[Y ∈ · |X = x] =(Berx) ⊗n . 

Satz 8.37. Sei X ein Zufallsvariable auf (Ω,A, P) mit Werten in einem Borel’schen 

Raum (E,E). SeiF ⊂ A eine σ-Algebra und κX,F eine Version der regulären 

bedingten Verteilungen von X gegeben F. Sei ferner f : E → R messbar und 

E[|f(X)|] < ∞. Dann ist 

� 

E[f(X)|F](ω) = f(x) κY,F(ω, dx) für P-fast alle ω. (8.10) 

Beweis. Wir rechnen nach, dass die rechte Seite in (8.10) die Eigenschaften des 

bedingten Erwartungswertes hat. 

Es reicht, den Fall f ≥ 0 zu betrachten. Indem wir f durch Elementarfunktionen 

approximieren, sehen wir, dass die rechte Seite in (8.10) messbar bezüglich F ist


(siehe Lemma 14.20 für ein formales Argument). Nach Satz 1.96 existieren dann 

Mengen A1,A2,...∈Eund Zahlen α1,α2,...≥ 0 mit 

gn := 

Für jedes n ∈ N und B ∈Fist nun 

E[gn(X) B] = 

= 

= 

n� 

i=1 

αi Ai 

n→∞ 

−→ f. 

n� 

αi P[{X ∈ Ai}∩B] 

i=1 

n� 

i=1 

n� 

i=1 

� 

= 

� 

= 

αi 

αi 

B i=1 

B 

� 

� 

B 

B 

P[{X ∈ Ai}|F] P[dω] 

κX,F(ω, Ai) P[dω] 

n� 

αi κX,F(ω, Ai) P[dω] 

�� 

� 

gn(x) κX,F(ω, dx) P[dω]. 

Nach dem Satz von der monotonen Konvergenz konvergiert für fast jedes ω das 

innere Integral gegen � f(x)κX,F(ω, dx). Erneute Anwendung des Satzes von der 

monotonen Konvergenz liefert 

E[f(X) B] = lim 

n→∞ E[gn(X) 

� � 

B] = f(x) κX,F(ω, dx) P[dω]. ✷ 

Übung 8.3.1. Sei (E,E) ein Borel’scher Raum und μ ein atomloses Maß (das heißt, 

μ({x}) =0für jedes x ∈ E). Man zeige: Für jedes A ∈Eund jedes n ∈ N 

existieren paarweise disjunkte Mengen A1,...,An ∈Emit �n k=1 Ak = A und 

μ(Ak) =μ(A)/n für jedes k =1,...,n. ♣ 

Übung 8.3.2. Seien p, q ∈ (1, ∞) mit 1 

p 

B 

+ 1 

q = 1, und seien X ∈ Lp (P) und 

Y ∈L q (μ). SeiF⊂Aeine σ-Algebra. Man zeige mit Hilfe des vorangehenden 

Satzes die bedingte Version der Hölder’schen Ungleichung: 

E � |XY | � � F � ≤ E � |X| p � �F � 1/p E � |Y | q � �F � 1/q 

fast sicher. ♣ 

Übung 8.3.3. Sei (X, Y ) uniform verteilt auf B := {(x, y) ∈ R 2 : x 2 + y 2 ≤ 1} 

beziehungsweise auf [−1, 1] 2 . 

(i) Man bestimme jeweils die bedingte Verteilung von Y gegeben X = x. 

(ii) Sei R := √ X 2 + Y 2 und Θ = arctan(Y/X). Man bestimme jeweils die 

bedingte Verteilung von Θ gegeben R = r. ♣


Übung 8.3.4. Sei (X, Y ) uniform verteilt auf G := {(x, y) ∈ R 2 : x 2 + y 2 ≤ 1}. 

Man bestimme die bedingte Verteilung von Y gegeben X = x. ♣ 

Übung 8.3.5. Sei A ⊂ R n eine Borel-messbare Menge mit endlichem Lebesgue- 

Maß λ(A) ∈ (0, ∞), und sei B ⊂ A messbar mit λ(B) > 0. Zeige: Ist X uniform 

verteilt (siehe Beispiel 1.75) auf A, so ist die bedingte Verteilung von X gegeben 

{X ∈ B} die uniforme Verteilung auf B. ♣ 

Übung 8.3.6. (Borel’sches Paradoxon) Wir wollen die Erde als Kugel ansehen und 

betrachten einen zufälligen uniform auf der Erdoberfläche verteilten Punkt X. Wir 

wollen die Koordinaten von X durch die geografische Länge Θ und Breite Φ angeben. 

Allerdings soll, entgegen der üblichen Konvention, Θ die Werte in [0,π) 

annehmen und Φ in [−π, π). Damit wird für festes Θ ein kompletter Großkreis beschrieben, 

wenn Φ seinen Wertebereich durchläuft. Ist nun Φ gegeben Θ uniform 

verteilt auf [−π, π)? Man sollte annehmen, dass jeder Punkt auf dem Großkreis 

gleich wahrscheinlich ist. Dies ist jedoch nicht der Fall! Der etwas ” aufgedickte“ 

Großkreis, mit Längen zwischen Θ und Θ + ε (für kleines ε)istamÄquator dicker 

als an den Polen. Lassen wir ε → 0 gehen, so sollten wir, zumindest intuitiv, die 

bedingten Wahrscheinlichkeiten erhalten. 

(i) Man zeige: P[{Φ ∈ · }|Θ = θ] hat für fast alle θ die Dichte 1 

4 | cos(φ)| für 

φ ∈ [−π, π). 

(ii) Man zeige: P[{Θ ∈ · }|Φ = φ] =U [0,π) für fast alle φ. 

Hinweis: Man zeige, dass Θ und Φ unabhängig sind und bestimme die Verteilungen 

von Θ und Φ. ♣ 

Übung 8.3.7 (Verwerfungmethode zur Erzeugung von Zufallsvariablen). Sei 

E höchstens abzählbar und P und Q Wahrscheinlichkeitsmaße auf E. Esgebe 

ein c > 0 mit f(e) := Q({e}) 

P ({e}) ≤ c für jedes e ∈ E mit P ({e}) > 0. Seien 

X1,X2,... unabhängige Zufallsvariablen mit Verteilung P und U1,U2,... davon 

unabhängige u.i.v. Zufallsvariablen, die uniform auf [0, 1] verteilt sind. Wähle N 

als die (zufällige) kleinste natürliche Zahl n, sodass Un ≤ f(Xn)/c, und setze 

Y := XN . 

Man zeige: Y hat die Verteilung Q. 

Anmerkung: Dieses Verfahren zur Erzeugung einer Zufallsvariable mit einer gewünschten 

Verteilung Q wird auch Verwerfungsmethode (rejection sampling) genannt, 

denn man kann es so interpretieren: Die Zufallsvariable X1 ist ein Vorschlag 

für den möglichen Wert von Y . Dieser Vorschlag wird mit Wahrscheinlichkeit 

f(X1)/c angenommen, ansonsten wird X2 betrachtet und so weiter. ♣ 

Übung 8.3.8. Sei E ein polnischer Raum und P, Q ∈M1(R), sowiec>0 mit 

≤ cP-fast sicher. Zeige die analoge Aussage zu Übung 8.3.7. ♣ 

f := dQ 

dP

9 Martingale 

Einer der wichtigsten Begriffe der modernen Wahrscheinlichkeitstheorie ist das 

Martingal, das die Idee eines fairen Spiels (Xn)n∈N0 formalisiert. In diesem Kapitel 

wird der Begriffsapparat für die Beschreibung allgemeiner stochastischer Prozesse 

aufgebaut. Danach werden Martingale und das diskrete stochastische Integral 

eingeführt und auf ein Modell der Finanzmathematik angewandt. 

9.1 Prozesse, Filtrationen, Stoppzeiten 

Wir führen die grundlegenden technischen Begriffe für die Behandlung stochastischer 

Prozesse, darunter Martingale, ein. Um die Begriffe später in einem anderen 

Kontext weiter verwenden zu können, streben wir eine größere Allgemeinheit an als 

für die Behandlung von Martingalen notwendig wäre. 

Im Folgenden sei stets (E,τ) ein polnischer Raum mit Borel’scher σ-Algebra E. 

Weiter sei (Ω,F, P) ein W-Raum und I ⊂ R beliebig. Meistens interessieren uns 

die Fälle I = N0, I = Z, I =[0, ∞) und I ein Intervall. 

Definition 9.1 (Stochastischer Prozess). Sei I ⊂ R. Eine Familie von Zufallsvariablen 

X =(Xt, t∈ I) (auf (Ω,F, P)) mit Werten in (E,E) heißt stochastischer 

Prozess mit Zeitbereich I und Zustandsraum E. 

Bemerkung 9.2. Etwas allgemeiner werden manchmal auch beliebig indizierte Familien 

von Zufallsvariablen stochastischer Prozess genannt. Beispielsweise ist dies 

beim Poisson’schen Punktprozess aus Kapitel 24 der Fall. ✸ 

Bemerkung 9.3. Oftmals werden wir (gewissen Traditionen folgend) einen stochastischen 

Prozess auch als X =(Xt)t∈I schreiben, wenn wir weniger den Aspekt 

betonen wollen, dass X eine Familie von Zufallsvariablen ist, sondern den zeitlichen 

Verlauf der Beobachtungen stärker gewichten. Formal sollen beide Objekte 

identisch sein. ✸ 

Beispiel 9.4. Sei I = N0 und (Yn, n∈ N) eine Familie von u.i.v. Zufallsvariablen 

auf einem W-Raum (Ω,F, P), mit P[Yn =1]=1− P[Yn = −1] = 1 

2 . Setze

184 9 Martingale 

E = Z (mit der diskreten Topologie) und 

Xt = 

t� 

Yn für jedes t ∈ N0. 

n=1 

(Xt, t∈ N0) heißt symmetrische einfache Irrfahrt auf Z. ✸ 

Beispiel 9.5. Der Poissonprozess X =(Xt)t≥0 mit Intensität α>0 (siehe Kapitel 

5.5) ist ein stochastischer Prozess mit Wertebereich N0. ✸ 

Wir führen weitere Begriffe ein: 

Definition 9.6. Ist X eine Zufallsvariable (oder ein stochastischer Prozess), so 

schreiben wir auch L[X] = PX für die Verteilung von X. IstG ⊂ F eine σ- 

Algebra, so schreiben wir L[X |G] für eine reguläre Version der bedingten Verteilung 

von X gegeben G. 

Definition 9.7. Ein stochastischer Prozess X =(Xt)t∈I mit Werten in E heißt 

(i) reellwertig, falls E = R, 

(ii) Prozess mit unabhängigen Zuwächsen, falls X reellwertig ist und für jedes 

n ∈ N und alle t0,...,tn ∈ I mit t0

9.1 Prozesse, Filtrationen, Stoppzeiten 185 

(iii) Sei (Xn)n∈Z reellwertig und stationär, und seien k ∈ N und c1,...,ck ∈ R. 

Dann definiert 

k� 

Yn := 

i=1 

ciXn−i 

einen stationären Prozess Y =(Yn)n∈Z. Gilt c1,...,ck ≥ 0 und c1 + ...+ ck =1, 

so wird Y das gleitende Mittel von X (mit Gewichten c1,...,ck) genannt. ✸ 

Die beiden folgenden Definitionen sind auch für allgemeinere halbgeordnete Mengen 

I sinnvoll, wir beschränken uns jedoch weiterhin auf den Fall I ⊂ R. 

Definition 9.9 (Filtration). Eine Familie F =(Ft, t∈ I) von σ-Algebren mit 

Ft ⊂Ffür jedes t ∈ I, heißt Filtration, falls Fs ⊂Ft für alle s, t ∈ I mit s ≤ t. 

Definition 9.10 (adaptiert). Ein stochastischer Prozess X =(Xt, t∈ I) heißt 

adaptiert an die Filtration F, falls Xt bezüglich Ft messbar ist für jedes t ∈ I. 

Gilt Ft = σ(Xs, s≤ t) für jedes t ∈ I, so schreiben wir F = σ(X) und nennen 

F die von X erzeugte Filtration. 

Bemerkung 9.11. Offenbar ist ein stochastischer Prozess stets an seine erzeugte 

Filtration adaptiert. Die erzeugte Filtration ist die ” kleinste“ Filtration, an die ein 

Prozess adaptiert ist. ✸ 

Definition 9.12 (vorhersagbar / previsibel). Ein stochastischer Prozess X = 

(Xn, n ∈ N0) heißt vorhersagbar (oder previsibel) bezüglich der Filtration 

F =(Fn, n∈ N0), falls X0 konstant ist und für jedes n ∈ N gilt: 

Xn ist Fn−1-messbar. 

Beispiel 9.13. Seien I = N0, und seien Y1,Y2,... reelle Zufallsvariablen sowie 

Xn := � n 

m=1 Ym. Setze 

F0 = {∅,Ω} und Fn = σ(Y1,...,Yn) für n ∈ N. 

Dann ist F =(Fn, n∈ N0) =σ(Y ) die von Y =(Yn)n∈N erzeugte Filtration, 

und X ist an F adaptiert, also ist σ(X) ⊂ F. Offenbar ist (Y1,...,Yn) messbar 

bezüglich σ(X1,...,Xn), also σ(Y ) ⊂ σ(X), und daher gilt auch F = σ(X). 

Sei nun � Xn := � n 

m=1 [0,∞)(Ym). Dann ist auch � X an F adaptiert, jedoch ist im 

Allgemeinen F�σ( � X). ✸ 

Beispiel 9.14. Sei I = N0, und seien D1,D2,...unabhängig und identisch verteilt 

mit P[Di = −1] = P[Di =1]= 1 

2 für jedes i ∈ N. Setze D =(Di)i∈N und


F = σ(D). Wir interpretieren Di als das Ergebnis einer Wette, die uns pro Spielschein 

einen Gewinn oder Verlust von einer Geldeinheit bringt. Vor jedem Spiel entscheiden 

wir, wie viele Spielscheine wir einsetzen wollen. Die Anzahl Hn der in der 

n-ten Runde eingesetzten Spielscheine darf nur von den Ergebnissen der bisherigen 

Spiele abhängen, nicht aber von Dn und auch nicht von einem Dm für m>n.Mit 

anderen Worten: Es muss eine Funktion Fn : {−1, 1} n−1 → N geben mit Hn = 

Fn(D1,...,Dn−1). (Für das Petersburger Spiel (Beispiel 4.22) galt beispielsweise 

Fn(x1,...,xn−1) =2 n−1 {x1=x2=...=xn−1=0}.) Damit ist H dann vorhersagbar. 

Andererseits besitzt jedes vorhersagbare H die Gestalt Hn = Fn(D1,...,Dn−1), 

n ∈ N, für gewisse Funktionen Fn : {−1, 1} n−1 → N, kommt also als Spielstrategie 

in Betracht. ✸ 

Definition 9.15 (Stoppzeit). Eine Zufallsvariable τ mit Werten in I ∪ {∞} heißt 

Stoppzeit (bezüglich F), falls für jedes t ∈ I gilt, dass 

{τ ≤ t} ∈Ft. 

Die Idee hinter dieser Definition ist, dass Ft den Kenntnisstand eines Beobachters 

zur Zeit t wiedergibt. Der Wahrheitsgehalt der Aussage {τ ≤ t} kann also aufgrund 

der Beobachtungen bis zur Zeit t bestimmt werden. 

Satz 9.16. Ist I abzählbar, so ist τ genau dann eine Stoppzeit, wenn {τ = t} ∈Ft 

für jedes t ∈ I gilt. 


Beispiel 9.17. Seien I ⊂ [0, ∞) abzählbar und K ⊂ R messbar, sowie X ein reeller, 

adaptierter stochastischer Prozess. Wir betrachten den Zeitpunkt, zu dem X 

erstmals in K ist: 

τK := inf{t ≥ 0: Xt ∈ K}. 

Intuitiv ist klar, dass τK eine Stoppzeit ist, denn ob {τ ≤ t} eintritt oder nicht, 

können wir aufgrund der Beobachtungen von X bis zur Zeit t entscheiden. Formal 

können wir argumentieren, indem wir bemerken, dass {Xs ∈ K} ∈Fs ⊂Ftfür s ≤ t gilt. Also ist auch die abzählbare Vereinigung dieser Mengen wieder in Ft: 

{τK ≤ t} = � 

{Xs ∈ K} ∈ Ft. 

s∈I∩[0,t] 

Betrachte nun den zufälligen Zeitpunkt �τ := sup{t ≥ 0: Xt ∈ K} des letzten 

Aufenthalts von X in K. Zu fester Zeit t können wir aufgrund der bisherigen Beobachtungen 

nicht entscheiden, ob X bereits das letzte Mal in K war. Hierzu bedürfte 

es der Prophetie. Also ist �τ im Allgemeinen keine Stoppzeit. ✸

Lemma 9.18. Seien σ und τ Stoppzeiten. Dann gilt: 

(i) σ ∨ τ und σ ∧ τ sind Stoppzeiten. 

(ii) Gilt σ, τ ≥ 0, dann ist auch σ + τ eine Stoppzeit. 

9.1 Prozesse, Filtrationen, Stoppzeiten 187 

(iii) Ist s ≥ 0, dann ist τ + s eine Stoppzeit, jedoch im Allgemeinen nicht τ − s. 

Bevor wir zum einfachen formalen Beweis kommen, wollen wir festhalten, dass insbesondere 

(i) und (iii) Eigenschaften sind, die wir von Stoppzeiten erwarten konnten: 

Bei (i) ist die Interpretation klar. Für (iii) beachte man, dass τ − s um s in die 

Zukunft blickt (denn {τ −s ≤ t} ∈Ft+s), während τ +s um s in die Vergangenheit 

schaut. Stoppzeiten ist aber nur der Blick in die Vergangenheit erlaubt. 

Beweis. (i) Für t ∈ I ist {σ ∨ τ ≤ t} = {σ ≤ t}∩{τ ≤ t} ∈Ft und {σ ∧ τ ≤ 

t} = {σ ≤ t}∪{τ ≤ t} ∈Ft. 

(ii) Sei t ∈ I. Nach (i) sind τ ∧ t und σ ∧ t Stoppzeiten für jedes t ∈ I. Speziell 

ist für jedes s ≤ t dann {τ ∧ t ≤ s} ∈Fs ⊂Ft. Andererseits ist für s>tstets 

τ ∧ t ≤ s. Alsosindτ ′ := (τ ∧ t)+ {τ>t} und σ ′ := (σ ∧ t)+ {σ>t} messbar 

bezüglich Ft und damit auch τ ′ + σ ′ . Es folgt {τ + σ ≤ t} = {τ ′ + σ ′ ≤ t} ∈Ft. 

(iii) Für τ + s folgt dies aus (ii) (mit der Stoppzeit σ ≡ s). Für τ − s beachte man, 

dass in der Definition der Stoppzeit für jedes t ∈ I lediglich gefordert wird, dass 

{τ − s ≤ t} = {τ ≤ t + s} ∈Ft+s. Im Allgemeinen ist aber Ft+s eine echte 

Obermenge von Ft, also τ − s keine Stoppzeit. ✷ 

Definition 9.19. Ist τ eine Stoppzeit, so heißt 

Fτ := � A ∈F: A ∩{τ ≤ t} ∈Ft für jedes t ∈ I � 

die σ-Algebra der τ-Vergangenheit. 

Beispiel 9.20. Sei I höchstens abzählbar, X ein adaptierter, reellwertiger stochastischer 

Prozess, K ∈ R und τ = inf{t : Xt ≥ K} die Stoppzeit des ersten 

Eintretens in [K, ∞). Betrachte die Ereignisse A = {sup{Xt : t ∈ I} >K− 5} 

und B = {sup{Xt : t ∈ I} >K+5}. 

Für jedes t ∈ I ist {τ ≤ t} ⊂A, also ist A ∩{τ ≤ t} = {τ ≤ t} ∈Ft. Es folgt 

A ∈Fτ . Jedoch ist im Allgemeinen B/∈Fτ , denn wir können bis zur Zeit τ eben 

nicht entscheiden, ob X auch die Hürde K +5noch nehmen wird oder nicht. ✸ 

Lemma 9.21. Sind σ und τ Stoppzeiten mit σ ≤ τ, so gilt Fσ ⊂Fτ . 

Beweis. Sei A ∈Fσ und t ∈ I. DannistA∩{σ ≤ t} ∈Ft. Daτ eine Stoppzeit 

ist, ist auch {τ ≤ t} ∈Ft.Wegenσ≤τ ist also 

A ∩{τ ≤ t} = � A ∩{σ ≤ t} � ∩{τ ≤ t} ∈ Ft. ✷


Definition 9.22. Ist τs. 

Bemerkung 9.25. Offenbar ist für Martingale t ↦→ E[Xt] konstant, für Submartingale 

monoton wachsend und für Supermartingale monoton fallend. ✸ 

Bemerkung 9.26. Die Etymologie des Begriffs Martingal ist nicht völlig geklärt. 

Das französische la martingale (ursprünglich provenzalisch martegalo nach der

9.2 Martingale 189 

Stadt Martiques) bedeutet im Reitsport einen ” beim Spring- und Geländereiten verwendeten 

Hilfszügel“ als Teil des Zaumzeugs ([22]). Manchmal wird die verzweigte 

Form, insbesondere des Jagdmartingals (französisch: la martingale à anneaux, 

englisch: running martingale), als sinnbildlich für die Verdoppelungsstrategie im 

Petersburger Spiel angesehen. Eben diese Verdoppelungsstrategie ist die zweite Bedeutung 

von la martingale. Von hier aus scheint eine Bedeutungsverschiebung hin 

zum mathematischen Begriff durchaus möglich. Eine andere Herleitung geht, statt 

vom Aussehen, von der Funktion des Zaumzeugs aus und nennt das Bestreben einer 

Spielstrategie, den Zufall im Zaume zu halten. So wird der Begriff des Martingals 

zunächst auf Spielstrategien im Allgemeinen, dann auf die Verdoppelungsstrategie 

im Speziellen übertragen. ✸ 

Bemerkung 9.27. Ist I = N, I = N0 oder I = Z, so reicht es, jeweils nur 

t = s +1zu betrachten, denn nach der Turmeigenschaft der bedingten Erwartung 

(Satz 8.14(iv)) ist 

� 

E[Xs+2 

�Fs] =E � � 

E[Xs+2 

�Fs+1] � � 

�Fs , 

und wenn die definierende Gleichung (beziehungsweise Ungleichung) in einem 

Zeitschritt gilt, dann zieht sie sich durch in den zweiten Zeitschritt und so fort. ✸ 

Bemerkung 9.28. Geben wir die Filtration F nicht explizit an, so nehmen wir stillschweigend 

an, dass F die von X erzeugte Filtration Ft = σ(Xs, s≤ t) ist. ✸ 

Bemerkung 9.29. Sind F und F ′ Filtrationen mit Ft ⊂F ′ t für jedes t, und ist X an 

F adaptiert und ein F ′ -(Sub-, Super-)Martingal, dann ist X auch ein (Sub-, Super-) 

Martingal bezüglich der kleineren Filtration F. Es gilt nämlich für ssist E[Yr �Fs] =0.Alsoistfür t>s 

� 

� 

� 

E[Xt 

�Fs] = E[Xs 

�Fs]+E[Xt − Xs 

�Fs] = Xs + 

Es folgt, dass X ein F-Martingal ist. 

t� 

r=s+1 

� 

E[Yr 

�Fs] = Xs. 

Analog ist X ein Submartingal, falls E[Yt] ≥ 0 für jedes t gilt beziehungsweise ein 

Supermartingal, falls E[Yt] ≤ 0 für jedes t gilt. ✸


Beispiel 9.31. Wir betrachten die Situation des vorangehenden Beispiels, jedoch mit 

E[Yt] =1und Xt = �t s=1 Ys für t ∈ N0. Nach Satz 5.4 ist Y1 · Y2 integrierbar. 

Iterativ erhalten wir E[|Xt|] < ∞ für jedes t ∈ N0. Offenbar ist X an F adaptiert, 

und für s ∈ N0 gilt 

� 

� 

� 

E[Xs+1 �Fs] = E[XsYs+1 �Fs] = Xs E[Ys+1 �Fs] = Xs. 

Also ist X ein F-Martingal. ✸ 

Satz 9.32. (i) X ist genau dann ein Supermartingal, wenn (−X) ein Submartingal 

ist. 

(ii) Seien X und Y Martingale und a, b ∈ R. Dann ist (aX + bY ) ein Martingal. 

(iii) Seien X und Y Supermartingale und a, b ≥ 0. Dann ist (aX + bY ) ein 

Supermartingal. 

(iv) Seien X und Y Supermartingale. Dann ist Z := X ∧ Y =(min(Xt,Yt))t∈I 

ein Supermartingal. 

(v) Ist (Xt)t∈N0 ein Supermartingal und E[XT ] ≥ E[X0] für ein T ∈ N0, dann 

ist (Xt) t∈{0,...,T } ein Martingal. Gibt es eine Folge TN →∞mit E[XTN ] ≥ 

E[X0], dann ist X ein Martingal. 

Beweis. (i), (ii) und (iii) Dies ist klar. 

(iv) Wegen |Zt| ≤ |Xt| + |Yt| ist E[|Zt|] < ∞ für jedes � t ∈ I. Wegen � der 

Monotonie der bedingten Erwartung (Satz 8.14(ii)) ist E[Zt 

�Fs] ≤ E[Xt 

� 

� � 

� 

Fs] ≤ 

Xs für t>sund E[Zt 

�Fs] ≤ E[Yt 

�Fs] ≤ Ys, also E[Zt 

�Fs] ≤ Xs ∧ Ys = Zs. 

� 

(v) Für t ≤ T setze Yt := E[XT 

�Ft]. DannistYein Martingal und Yt ≤ Xt. 

Daher ist 

E[X0] ≤ E[XT ]=E[YT ]=E[Yt] ≤ E[Xt] ≤ E[X0]. 

(Die erste Ungleichung gilt hierbei nach Voraussetzung.) Es folgt Yt = Xt fast 

sicher für jedes t, und daher ist (Xt) t∈{0,...,T } ein Martingal. 

Sei TN →∞mit E[XTN ] ≥ E[X0] für� jedes N ∈ N. Dann gibt es für t>s≥ 0 

ein N ∈ N mit TN >t. Daher ist E[Xt 

�Fs] =E[Xs], also X ein Martingal. ✷ 

Bemerkung 9.33. Viele Aussagen über Supermartingale gelten mutatis mutandis 

auch für Submartingale. So gilt im vorangehenden Satz Aussage (i) mit vertauschten 

Rollen, Aussage (iv) gilt für Submartingale, wenn das Minimum durch ein Maximum 

ersetzt wird, und so fort. Wir geben die Aussagen nicht stets sowohl für Submartingale 

wie für Supermartingale an, sondern wählen pars pro toto einen Fall aus. 

Man beachte aber, dass die Aussagen, die explizit über Martingale gemacht werden, 

nicht ohne weiteres auf Sub- oder Supermartingale übertragen werden können (vergleiche 

etwa (ii) im vorangehenden Satz). ✸

9.2 Martingale 191 

Korollar 9.34. Sei X ein Submartingal und a ∈ R. Dann ist (X − a) + ein Submartingal. 

Beweis. Offenbar sind 0 und Y = X − a Submartingale. Nach (iv) ist daher auch 

(X − a) + = Y ∨ 0 ein Submartingal. ✷ 

Satz 9.35. Sei X ein Martingal und ϕ : R → R eine konvexe Funktion. 

(i) Ist 

E[ϕ(Xt) + ] < ∞ für jedes t ∈ I, (9.1) 

dann ist (ϕ(Xt))t∈I ein Submartingal. 

(ii) Ist t∗ := sup(I) ∈ I, so impliziert E[ϕ(Xt∗)+ ] < ∞ schon (9.1). 

(iii) Ist speziell p ≥ 1 und E[|Xt| p ] < ∞ für jedes t ∈ I, dann ist (|Xt| p )t∈I ein 

Submartingal. 

Beweis. (i) Es ist stets E[ϕ(Xt) − ] < ∞ (Satz 8.19), also nach Voraussetzung 

E[|ϕ(Xt)|] < ∞ für jedes t ∈ I. Die Jensen’sche Ungleichung (Satz 8.19) liefert 

für t>s 

E[ϕ(Xt) � � 

�Fs] ≥ ϕ(E[Xt 

�Fs]) = ϕ(Xs). 

(ii) Da ϕ konvex ist, ist auch x ↦→ ϕ(x) + konvex. Weiter ist nach Voraussetzung 

E[ϕ(Xt∗)+ ] < ∞, also gilt nach der Jensen’schen Ungleichung für jedes t ∈ I: 

E[ϕ(Xt) + ]=E � ϕ � E[Xt∗ � 

�Ft] � +� � 

≤ E E[ϕ(Xt∗)+ � �Ft] � = E � ϕ(Xt∗)+� < ∞. 

(iii) Dies ist klar, weil x ↦→ |x| p konvex ist. ✷ 

Beispiel 9.36. (Siehe Beispiel 9.4.) Die symmetrische einfache Irrfahrt X auf Z ist 

ein quadratintegrierbares Martingal. Also ist (X2 n)n∈N0 ein Submartingal. ✸ 

Übung 9.2.1. Sei Y eine Zufallsvariable mit E[|Y |] < ∞ und F eine Filtration 

sowie 

Xt := E[Y � �Ft] für jedes t ∈ I. 

Man zeige, dass X ein F-Martingal ist. ♣ 

Übung 9.2.2. Sei (Xn)n∈N0 ein vorhersagbares F-Martingal. Man zeige, dass dann 

für jedes n ∈ N0 fast sicher Xn = X0 gilt. ♣ 

Übung 9.2.3. Man zeige, dass die Aussage von Satz 9.35 auch gilt, wenn X nur 

ein Submartingal, ϕ jedoch zusätzlich monoton wachsend ist. Man zeige durch ein 

Beispiel, dass hier auf die Monotonie im Allgemeinen nicht verzichtet werden kann. 

(Vergleiche Korollar 9.34.) ♣


Übung 9.2.4 (Ungleichung von Azuma). Man zeige: 

(i) Ist X eine Zufallsvariable mit |X| ≤1 f.s., so gibt es eine Zufallsvariable Y 

mit Werten in {−1, +1} und mit E[Y |X] =X. 

(ii) Für X wie in (i) mit E[X] =0folgere man (mit Hilfe der Jensen’schen Ungleichung) 

E � e λX� ≤ cosh(λ) ≤ e λ2 /2 

für alle λ ∈ R. 

(iii) Ist (Mn)n∈N0 ein Martingal mit M0 = 0, und gibt es eine Folge (ck)k∈N 

nichtnegativer Zahlen mit |Mn − Mn−1| ≤cn f.s. für jedes n ∈ N, sogilt 

E � e λMn� � 

1 

≤ exp 

2 λ2 

n� 

c 2 � 

k . 

(iv) Unter den Bedingungen von (iii) gilt die Azuma’sche Ungleichung 

P � |Mn| ≥λ � � 

≤ 2exp− 

λ2 � 

für alle λ ≥ 0. 

k=1 

2 � n 

k=1 c2 k 

Hinweis: Verwende die Markov’sche Ungleichung für f(x) =e γx und wähle 

γ optimal. ♣ 

9.3 Diskretes stochastisches Integral 

Bisher haben wir das Martingal als Partialsummenprozess eines fairen Spiels kennen 

gelernt. Dies kann beispielsweise auch der Kurs einer Aktie sein, die zu diskreten 

Zeitpunkten an einer Börse gehandelt wird. Bei dieser Interpretation ist es 

besonders evident, dass es natürlich ist, neue stochastische Prozesse zu generieren, 

indem man Anlagestrategien für die entsprechende Aktie betrachtet. Die Wertentwicklung 

des neuen Prozesses ist dann die mit der jeweilig im Portefeuille befindlichen 

Anzahl von Aktien zu multiplizierende Wertentwicklung des Aktienkurses. 

Dies führt zu der folgenden Begriffsbildung. 

Definition 9.37 (Diskretes Stochastisches Integral). Sei (Xn)n∈N0 ein reeller, Fadaptierter 

Prozess und (Hn)n∈N reellwertig und F-vorhersagbar. Wir definieren 

den stochastischen Prozess H ·X durch 

(H ·X)n := 

n� 

Hm(Xm − Xm−1) für n ∈ N0, (9.2) 

m=1 

und nennen H·X das diskrete stochastische Integral von H bezüglich X.IstX ein 

Martingal, so nennen wir H ·X auch die Martingaltransformierte von X.

9.3 Diskretes stochastisches Integral 193 

Bemerkung 9.38. Offenbar ist H ·X adaptiert an F. ✸ 

Sei X ein (möglicherweise unfaires) Spiel, wobei Xn − Xn−1 den Spielgewinn pro 

Spielschein in der n-ten Runde bezeichnet. Wir interpretieren Hn als die Anzahl 

der Spielscheine, die für das n-te Spiel eingesetzt werden, und verstehen H als 

Spielstrategie. Offenbar muss die Entscheidung, wie groß Hn sein soll, zur Zeit 

n − 1, also vor der Bekanntgabe des Ergebnisses Xn fallen. Das heißt, H muss 

vorhersagbar sein. 

Ist nun X ein faires Spiel, also ein Martingal, und ist H lokal � beschränkt (das 

heißt, jedes Hn ist beschränkt), dann ist (wegen E[Xn+1 − Xn 

�Fn] =0) 

� 

E[(H ·X)n+1 

�Fn] =E[(H ·X)n + Hn+1(Xn+1 − Xn) � �Fn] 

� 

�Fn] =(H ·X)n + Hn+1 E[Xn+1 − Xn 

=(H ·X)n. 

Also ist H · X ein Martingal. Im folgenden Satz zeigen wir, dass auch die Umkehrung 

gilt, also X ein Martingal ist, wenn für hinreichend viele vorhersagbare 

Prozesse das stochastische Integral ein Martingal ist. 

Satz 9.39 (Stabilitätssatz für Stochastische Integrale). 

Sei (Xn)n∈N0 ein adaptierter, reeller stochastischer Prozess mit E[|X0|] < ∞. 

(i) X ist genau dann ein Martingal, wenn für jeden lokal beschränkten, vorhersagbaren 

Prozess H das stochastische Integral H ·X ein Martingal ist. 

(ii) X ist genau dann ein Submartingal (Supermartingal), wenn H ·X ein Submartingal 

(Supermartingal) ist für jedes beschränkte, vorhersagbare H ≥ 0. 

Beweis. (i) ” =⇒ “ Dies hat die obige Diskussion schon gezeigt. 

” ⇐= “ Wähle n0 ∈ N. Setze Hn = {n=n0}. Dannist(H ·X)n0−1 =0, also 

0 = E � � � � � � 

(H ·X)n0 

�Fn0−1 = E Xn0 

�Fn0−1 − Xn0−1. 

(ii) Dies geht analog wie in (i). ✷ 

Der vorangehende Satz sagt uns insbesondere, dass wir keine (beschränkte) Spielstrategie 

finden können, die aus einem Martingal (oder schlimmer: einem Supermartingal) 

ein Submartingal machte. Genau dies wird einem aber natürlich durch 

diverse Aufforderungen zum so genannten ” Systemlotto“ und Ähnlichem nahe gelegt. 

Beispiel 9.40 (Petersburger Spiel). Wir führen Beispiel 9.14 fort (siehe auch Beispiel 

4.22). Setzen wir Xn := D1 + ...+ Dn für n ∈ N0, soistX ein Martingal. 

Die Spielstrategie Hn := 2 n−1 {D1=D2=...=Dn−1=−1} für n ∈ N und H0 =1ist


vorhersagbar und lokal beschränkt. Sei Sn = �n i=1 HiDi =(H·X)n der Zugewinn 

nach n Runden. Dann ist S nach dem vorangehenden Satz ein Martingal. Speziell 

erhalten wir das bereits in Beispiel 4.22 gezeigte Ergebnis, dass E[Sn] =0ist für 

jedes n ∈ N. Dass dies, wie dort gezeigt, in zumindest vordergründigem Kontrast zu 

n→∞ 

der Aussage Sn −→ 1 f.s. steht, wird uns später noch einmal beschäftigen (siehe 

Beispiel 11.6). 

Für den Moment sei angemerkt, dass das Martingal S ′ = (1 − Sn)n∈N0 wie in 

Beispiel 9.31 die Struktur eines Produkts unabhängiger Zufallsvariablen mit Erwartungswert 

1 hat. Es gilt nämlich S ′ n = �n i=1 (1 − Di). ✸ 

9.4 Diskreter Martingaldarstellungssatz und CRR Modell 

Wir haben nun gesehen, dass wir vermittels des stochastischen Integrals aus einem 

Martingal X durch eine Spielstrategie H ein neues Martingal H ·X herstellen 

können. Welche Martingale Y (mit Y0 =0) sind nun durch eine geeignete Spielstrategie 

H = H(Y ) aus X zu gewinnen? Womöglich alle? Dies ist sicher nicht 

der Fall, wie das folgende Beispiel zeigt. Allerdings sind alle Martingale darstellbar, 

wenn für die Zuwächse Xn+1 − Xn immer nur zwei Werte in Frage kommen 

(gegeben X1,...,Xn). Wir geben für diesen Fall einen Darstellungssatz an und 

diskutieren in der Folge den fairen Preis der europäischen Kaufoption (europäischer 

Call) in dem Aktienkursmodell von Cox-Ross-Rubinstein. Wir wollen dabei einen 

naiven Standpunkt einnehmen und einen in vielerlei Hinsicht idealisierten Markt 

voraussetzen (keine Handelskosten, gebrochene Anzahlen handelbar, und so fort). 

Für eine umfassendere Lektüre zum Thema Finanzmathematik eignen sich etwa die 

Lehrbücher [41], [79], [98], [56], [12] oder [47]. 

Beispiel 9.41. Wir betrachten ein ganz einfaches Martingal X =(Xn)n=0,1 mit nur 

zwei Zeitpunkten. Es sei X0 =0fast sicher und P[X1 = −1] = P[X1 =0]= 

P[X1 =1]= 1 

3 .SeiY0 =0sowie Y1 =2, falls X1 =1und Y1 = −1 sonst. Dann 

ist Y offenbar ein σ(X)-Martingal. Allerdings können wir keine Zahl H1 angeben, 

sodass H1X1 = Y1 wäre. ✸ 

Sei T ∈ N ein fester Zeitpunkt. Ist (Yn)n=0,1,...,T � 

ein F-Martingal, dann ist 

Yn = E[YT 

�Fn] für jedes n ≤ T . Durch die Angabe von YT ist ein F-Martingal Y 

also eindeutig festgelegt (und umgekehrt). Da (H ·X) ein Martingal ist, falls X ein 

Martingal ist, reduziert sich das Darstellungsproblem für Martingale auf das Problem, 

eine integrierbare Zufallsvariable V := YT darzustellen als v0 +(H ·X)T , 

wobei v0 = E[YT ] ist, falls X ein Martingal ist. 

Wir haben eben schon gesehen, dass dies im Allgemeinen nicht möglich ist, wenn 

die Differenzen Xn+1 − Xn drei (oder mehr) unterschiedliche Werte annehmen 

können. Wir betrachten nun also den Fall, wo nur zwei Werte möglich sind. Hier 

muss in jedem Schritt ein lineares Gleichungssystem mit zwei Gleichungen und

9.4 Diskreter Martingaldarstellungssatz und CRR Modell 195 

zwei Unbekannten gelöst werden. Im Falle von drei möglichen Werten von Xn+1 − 

Xn wären dies drei Gleichungen für zwei Unbekannte, und im Allgemeinen ist 

dieses Gleichungssystem dann nicht lösbar. 

Definition 9.42 (Binäres Modell). Ein stochastischer Prozess X0,...,XT heißt 

binäres Modell, falls es Zufallsvariablen D1,...,DT mit Werten in {−1, +1} gibt 

und Funktionen fn : R n−1 ×{−1, +1} →R für n =1,...,T, sowie x0 ∈ R, 

sodass X0 = x0 und 

Xn = fn(X1,...,Xn−1,Dn) für jedes n =1,...,T. 

Mit F = σ(X) bezeichnen wir dann die von X erzeugte Filtration. 

Man beachte, dass Xn nur von X1,...,Xn−1 und Dn abhängt und nicht von der 

vollen Information der Werte D1,...,Dn. Man mache sich klar, dass im letzteren 

Fall eine mehr als binäre Aufspaltung der Werte in einem Zeitschritt möglich wäre. 

Satz 9.43 (Darstellungssatz). Sei X ein binäres Modell und VT eine FT -messbare 

Zufallsvariable. Dann existiert ein beschränkter, vorhersagbarer Prozess H und ein 

v0 ∈ R mit VT = v0 +(H ·X)T . 

Man beachte, dass F die von X erzeugte Filtration ist, nicht die im Allgemeinen 

größere, von D1,...,DT erzeugte. Für diese ist die Aussage des Satzes im Allgemeinen 

nicht zutreffend, weil wir eben mit H nicht auf die Di sondern nur auf X 

wetten können. 

Beweis. Wir zeigen, dass es FT −1-messbare Zufallsvariablen VT −1 und HT gibt, 

sodass VT = VT −1 + HT (XT − XT −1). Dies liefert per Rückwärtsinduktion die 

gewünschte Aussage. 

Da VT messbar ist bezüglich FT , existiert nach dem Faktorisierungslemma (Korollar 

1.97) eine Funktion gT : RT → R mit VT = gT (X1,...,XT ). Wir setzen 

X ± 

T = fT (X1,...,XT−1, ±1) und V ± 

T 

= gT (X1,...,XT −1,X ± 

T ). 

Jede dieser vier Zufallsvariablen ist offenbar FT −1-messbar. Wir suchen nun also 

VT −1 und HT , die das folgende lineare Gleichungssystem lösen 

Per Konstruktion ist X + 

T 

auflösen und erhalten 

VT −1 + HT (X − 

T − XT −1) =V − 

T , 

VT −1 + HT (X + 

T − XT −1) =V + 

T . 

HT := 

− X− 

T 

⎧ 

⎨ 

⎩ 

�=0, falls V + 

T 

− V − 

T 

V + − 

T −VT X + 

T −X− 

, falls X 

T 

+ 

T 

0, sonst, 

(9.3) 

�=0.Alsokönnen wir (9.3) 

�= X− 

T , 

und VT −1 = V + 

T − HT (X + 

T − XT −1) =V − 

T − HT (X − 

T − XT −1). ✷


Wir wollen nun X als Kurs einer Aktie auffassen und VT als Auszahlungsfunktion 

eines Finanzderivats auf X, eines so genannten Claims. Beispielsweise kann 

VT eine europäische Kaufoption (Call) mit Fälligkeitszeitpunkt (maturity) T und 

Ausübungspreis (strike price) K ≥ 0 sein. In diesem Fall wäre VT =(XT − K) + . 

Ökonomisch ausgedrückt gibt diese Option dem Käufer das Recht (aber nicht die 

Pflicht) vom Herausgeber der Option zum Zeitpunkt T die Eingehung eines Kaufvertrages 

über eine Aktie zum Preis K einzufordern. Von diesem Recht macht man 

sinnvollerweise nur dann Gebrauch, wenn XT ≥ K ist. In diesem Fall kann man 

die erworbene Aktie zum Preis XT wieder an der Börse verkaufen und hat einen 

Gewinn von VT gemacht. 

An den Börsen werden nun aber nicht nur Aktien, sondern auch Derivate auf Aktien 

gehandelt. Welches ist also der faire Preis π(VT ) für den eine Börsenhändlerin 

den Claim VT anbieten kann? Gibt es eine Strategie H und ein v0, sodass VT = 

v0 +(H ·X)T ist, dann kann die Händlerin gegen Bezahlung von v0 risikolos VT 

nachbilden, indem sie H als Handelsstrategie an der Börse benutzt. Wir nennen den 

Claim VT dann replizierbar und die Strategie H einen Hedge. Ein Markt, in dem 

jeder Claim replizierbar ist, heißt vollständig. In diesem Sinne ist das Binärmodell 

also ein vollständiger Markt. 

Gäbe es nun eine zweite Strategie H ′ und ein zweites v ′ 0 mit v ′ 0 +(H ′ ·X)T = VT , 

so wäre insbesondere v0 − v ′ 0 =((H ′ − H)·X)T .Wäre v0 >v ′ 0,sokönnte die 

Händlerin risikolos durch Verfolgen der Strategie H ′ − H einen Gewinn v0 − v ′ 0 

machen, im Falle v0

9.4 Diskreter Martingaldarstellungssatz und CRR Modell 197 

Das Maß PX ′ wird auch äquivalentes Martingalmaß genannt. Während es hier 

für uns nur von rechnerischem Interesse ist, hat es eine ökonomische Interpretation 

als Maß für die Preisbildung, falls alle Händler sich risikoneutral verhalten, also den 

Wert einer künftigen Auszahlung allein nach deren Erwartungswert bemessen (was 

typischerweise nicht der Fall ist; die meisten Anleger sind risikoavers, lassen sich 

also Unsicherheiten durch einen Aufschlag bezahlen). 

Nun wollen wir aber ein Modell im Detail betrachten. 

Definition 9.44. Seien T ∈ N, a ∈ (−1, 0) und b>0 sowie p ∈ (0, 1). Ferner 

seien D1,...,DT u.i.v. mit P[D1 =1]=1− P[D1 = −1] = p. Wirdefinieren 

X0 = x0 > 0 und für n =1,...,T 

� 

(1 + b) Xn−1, falls Dn =+1, 

Xn = 

(1 + a) Xn−1, falls Dn = −1. 

X heißt mehrstufiges Binomialmodell oder Cox-Ross-Rubinstein’sches Modell 

(ohne Verzinsung). 

Nach dem bisher Gezeigten ist das CRR Modell vollständig. Ferner können wir 

den Prozess X zu einem Martingal machen. Mithin ist 

durch die Wahl p∗ = a 

a−b 

das Modell auch arbitragefrei (für jedes p ∈ (0, 1)). Wir wollen nun den Preis des 

europäischen Calls VT := (XT − K) + explizit ausrechnen. Hierzu können wir 

wieder p = p∗ annehmen. Wir erhalten dann mit A := min{i ∈ N0 :(1+b) i (1 + 

a) T −ix0 >K}, 

π(VT )=Ep ∗[VT ]= 

= x0 

T� 

i=A 

T� 

bT,p∗({i}) � (1 + b) i (1 + a) T −i x0 − K �+ 

i=0 

� � 

T 

(p 

i 

∗ ) i (1 − p ∗ ) T −i � (1 + b) i (1 + a) T −i� − K 

T� 

i=A 

bT,p ∗({i}). 

Setzen wir p ′ =(1+b)p ∗ ,dannistp ′ ∈ (0, 1) und 1 − p ′ =(1− p ∗ )(1 + a). Wir 

erhalten so die Cox-Ross-Rubinstein’sche Formel 

π(VT )=x0 bT,p ′({A,...,T}) − KbT,p∗({A,...,T}). (9.5) 

Dies ist das diskrete Analogon zur berühmten Black–Scholes Formel für die Optionsbewertung 

in gewissen zeitkontinuierlichen Märkten.

10 Optional Sampling Sätze 

Wir haben im vorigen Kapitel gesehen, dass aus Martingalen wieder Martingale 

werden, wenn man gewisse Spielstrategien anwendet. Wir wollen in diesem Kapitel 

ähnliche Stabilitätseigenschaften für zufällig gestoppte Martingale zeigen. Um die 

Aussagen auch für Submartingale und Supermartingale zu bekommen, geben wir 

im ersten Abschnitt einen Zerlegungssatz für adaptierte Prozesse an. Im zweiten 

Abschnitt kommen dann die Optional Sampling und Optional Stopping Sätze. 

10.1 Doob-Zerlegung und quadratische Variation 

Sei X =(Xn)n∈N0 ein adaptierter Prozess mit E[|Xn|] < ∞ für jedes n ∈ N0.Wir 

wollen X zerlegen in eine Summe aus einem Martingal und einem vorhersagbaren 

Prozess. Dazu definieren wir für n ∈ N0 

und 

Mn := X0 + 

n� 

An := 

k=1 

n� 

k=1 

� � 

Xk − E[Xk 

�Fk−1] � 

� � 

� 

E[Xk �Fk−1] − Xk−1 . 

(10.1) 

Offenbar ist Xn = Mn + An. Per Konstruktion ist A vorhersagbar mit A0 =0, und 

M ist ein Martingal, denn 

� 

E[Mn − Mn−1 

�Fn−1] = E � � 

Xn − E[Xn �Fn−1] � � 

�Fn−1 = 0. 

Satz 10.1 (Doob-Zerlegung). Sei X =(Xn)n∈N0 ein adaptierter, integrierbarer 

Prozess. Dann existiert eine eindeutige Zerlegung X = M + A, wobei A vorhersagbar 

ist mit A0 =0und M ein Martingal. Diese Darstellung von X heißt 

Doob–Zerlegung. X ist genau dann ein Submartingal, wenn A monoton wachsend 

ist. 

Beweis. Nur die Eindeutigkeit ist zu zeigen. Seien also X = M + A = M ′ + A ′ 

zwei Zerlegungen mit den genannten Eigenschaften. Dann ist M −M ′ = A ′ −A ein

200 10 Optional Sampling Sätze 

vorhersagbares Martingal, also ist (siehe Übung 9.2.2) Mn − M ′ n = M0 − M ′ 0 =0 

für jedes n ∈ N0. ✷ 

Beispiel 10.2. Sei I = N0 oder I = {0,...,N}. Sei(Xn)n∈Iein quadratisch integrierbares 

F–Martingal (das heißt E[X2 n] < ∞ für jedes n ∈ I). Nach Satz 9.32 

ist Y := (X2 n)n∈I ein Submartingal. Sei Y = M + A die Doob-Zerlegung 

von Y . Es ist dann (X2 � 

n − An)n∈I ein Martingal. Ferner ist E[Xi−1Xi 

�Fi−1] 

� 

= 

Xi−1E[Xi 

, also (wie in (10.1)) 

An = 

�Fi−1] =X 2 i−1 

= 

= 

n� 

i=1 

� 

E[X 2 � 

�Fi−1] i − X 2 � 

i−1 

n� � 

E[(Xi − Xi−1) 2 � �Fi−1] − 2X 2 � 

i−1 +2E[Xi−1Xi 

i=1 

n� 

i=1 

� Fi−1] 

E � (Xi − Xi−1) 2 � � 

�Fi−1 . ✸ 

Definition 10.3. Sei (Xn)n∈I ein quadratisch integrierbares F-Martingal. Der 

eindeutig bestimmte vorhersagbare Prozess A, mit dem (X 2 n − An)n∈I ein Martingal 

wird, heißt quadratischer Variationsprozess von X und wird in Formeln mit 

(〈X〉n)n∈I := A bezeichnet. 

Aus dem vorangehenden Beispiel ergibt sich sofort der folgende Satz. 

Satz 10.4. Sei X wie in Definition 10.3. Dann ist für n ∈ N0 

und 

〈X〉n = 

n� 

i=1 

E � (Xi − Xi−1) 2 � � 

�Fi−1 � 

(10.2) 

E[〈X〉n] =Var[Xn − X0]. (10.3) 

Bemerkung 10.5. Sind Y und A wie in Beispiel 10.2, dann ist A monoton wachsend, 

weil (X 2 n)n∈I ein Submartingal ist (vergleiche Satz 10.1). Deshalb wird A 

manchmal auch der wachsende Prozess von Y genannt. ✸ 

Beispiel 10.6. Seien Y1,Y2,... unabhängige, quadratisch integrierbare, zentrierte 

Zufallsvariablen. Dann wird durch Xn := Y1 + ... + Yn ein quadratisch integrierbares 

Martingal definiert mit 〈X〉n = �n 2 

i=1 E[Yi ],dennesistAn � 

= 

n � 

2 

i=1 E[Y �Y1,...,Yi−1] i 

= �n 2 

i=1 E[Yi ] (wie in Beispiel 10.2). 

Man beachte, dass es für diese einfache Darstellung von 〈X〉 nicht ausreicht, dass 

die Y1,Y2,... unkorreliert sind. ✸

10.1 Doob-Zerlegung und quadratische Variation 201 

Beispiel 10.7. Seien Y1,Y2,... unabhängige, quadratisch integrierbare Zufallsvariablen 

mit E[Yn] = 1 für n ∈ N. Setze Xn := �n i=1 Yi für n ∈ N0. Dann 

ist X =(Xn)n∈N0 ein quadratisch integrierbares Martingal (warum?) bezüglich 

F = σ(X) und 

E � (Xn − Xn−1) 2 � � � 

�Fn−1 = E (Yn − 1) 2 X 2 � � 

� 

n−1 Fn−1 = Var[Yn] X 2 n−1. 

Also ist 〈X〉n = �n i=1 Var[Yi] X2 i−1 . Wir sehen, dass der quadratische Variationsprozess 

also durchaus ein echt zufälliger Prozess sein kann. ✸ 

Beispiel 10.8. Sei (Xn)n∈N0 die eindimensionale symmetrische einfache Irrfahrt: 

n� 

Xn = Ri für jedes n ∈ N0, 

i=1 

wobei R1,R2,R3,... u.i.v. sind mit P[Ri =1]=1− P[Ri = −1] = 1 

2 . 

Offenbar ist X ein Martingal, also |X| ein Submartingal. Sei |X| = M + A die 

Doob-Zerlegung von |X|. Dannist 

n� � 

An = E[|Xi| � �Fi−1] −|Xi−1| � . 

Nun ist 

Also gilt 

i=1 

⎧ 

⎪⎨ 

|Xi−1| + Ri, falls Xi−1 > 0, 

|Xi| = |Xi−1|−Ri, 

⎪⎩ 

1, 

falls Xi−1 < 0, 

falls Xi−1 =0. 

E[|Xi| � � 

|Xi−1|, falls |Xi−1| �= 0, 

�Fi−1] = 

1, falls |Xi−1| =0. 

Mithin ist 

An =# � i ≤ n − 1:|Xi| =0 � 

die Lokalzeit von X in 0. Es folgt (wegen P[X2j =0]= � � 2j −j 

j 4 und P[X2j+1 = 

0] = 0): 

E[|Xn|] =E � #{i ≤ n − 1: Xi =0} � 

n−1 � 

= P[Xi =0]= 

i=0 

⌊(n−1)/2⌋ � 

j=0 

� � 

2j 

4 

j 

−j . ✸ 

Beispiel 10.9. Wir wollen das vorangehende Beispiel jetzt noch etwas verallgemeinern. 

Offenbar brauchten wir (außer in der letzten Formel) nicht, dass X eine Irrfahrt 

ist, sondern lediglich, dass die Differenzen (ΔX)n := Xn − Xn−1 nur die Werte


−1 und +1 annehmen können. Sei also jetzt X ein Martingal mit |Xn − Xn−1| =1 

fast sicher für jedes n ∈ N und mit X0 = x0 ∈ Z fast sicher. Sei f : Z → R eine 

beliebige Abbildung. Dann ist Y := (f(Xn))n∈N0 ein integrierbarer, adaptierter 

Prozess (weil |f(Xn)| ≤maxx∈{x0−n,...,x0+n} |f(x)|). Um die Doob-Zerlegung 

von Y zu bestimmen, definieren wir die erste und zweite (diskrete) Ableitung von f 

und 

f ′ (x) := 

f(x +1)− f(x − 1) 

2 

f ′′ (x) :=f(x − 1) + f(x +1)− 2f(x). 

Wir setzen noch F ′ n := f ′ (Xn−1) und F ′′ 

n := f ′′ (Xn−1). Durch Unterscheidung 

der Fälle Xn = Xn−1 − 1 und Xn = Xn−1 +1sehen wir, dass für jedes n ∈ N 

f(Xn) − f(Xn−1) = f(Xn−1 +1)−f(Xn−1 − 1) 

(Xn − Xn−1) 

2 

+ 1 

2 f(Xn−1 − 1) + 1 

2 f(Xn−1 +1)− f(Xn−1) 

= f ′ (Xn−1)(Xn − Xn−1)+ 1 

2 f ′′ (Xn−1) 

= F ′ n · (Xn − Xn−1)+ 1 ′′ 

F n . 

2 

Insgesamt erhalten wir also die diskrete Itô-Formel 

f(Xn) =f(x0)+ 

n� 

i=1 

= f(x0)+(F ′ ·X)n + 

f ′ (Xi−1)(Xi − Xi−1)+ 

n� 

i=1 

1 ′′ 

F i . 

2 

n� 

i=1 

1 

2 f ′′ (Xi−1) 

(10.4) 

Hierbei ist F ′ ·X das diskrete stochastische Integral (siehe Definition 9.37). Nun ist 

M := f(x0)+F ′ ·X ein Martingal nach Satz 9.39, weil F ′ vorhersagbar ist (und 

|F ′ n|≤maxx∈{x0−n,...,x0+n} |F ′ (x)|), und A := ��n i=1 1 

� 

′′ 

2F i ist vorhersag- 

n∈N0 

bar. Also ist f(X) :=(f(Xn))n∈N0 = M + A die Doob-Zerlegung von f(X). 

Speziell ist natürlich f(X) ein Submartingal, wenn f ′′ (x) ≥ 0 für alle x ∈ Z,wenn 

also f konvex ist. Dies wussten wir zwar schon aus Satz 9.35, allerdings haben wir 

hier auch noch quantifiziert, wie weit f(X) von einem Martingal abweicht. 

In den Spezialfällen f(x) =x2 und f(x) =|x| ist f ′′ (x) =2beziehungsweise 

f ′′ (x) =2· {0}(x), und wir erhalten aus (10.4) die Aussagen von Satz 10.4 und 

Beispiel 10.8. 

Später werden wir eine zu (10.4) vergleichbare Formel auch für stochastische Prozesse 

in stetiger Zeit herleiten (siehe Kapitel 25.3). ✸

10.2 Optional Sampling und Optional Stopping 203 

10.2 Optional Sampling und Optional Stopping 

Lemma 10.10. Sei I ⊂ R höchstens abzählbar, (Xt)t∈I � ein Martingal, T ∈ I und τ 

eine Stoppzeit mit τ ≤ T . Dann gilt Xτ = E[XT 

�Fτ ] und speziell E[Xτ ]=E[X0]. 

Beweis. Es reicht zu zeigen, dass E[XT A] =E[Xτ A] für jedes A ∈Fτ gilt. 

Nach der Definition von Fτ ist {τ = t}∩A ∈Ft für jedes t ∈ I, also 

E[Xτ A] = � 

E[Xt {τ=t}∩A] = � 

E � � 

� 

E[XT 

�Ft] {τ=t}∩A 

t≤T 

t≤T 

= � 

E[XT A {τ=t}] = E[XT A]. ✷ 

t≤T 

Satz 10.11 (Optional Sampling Theorem). Sei X =(Xn)n∈N0 ein Supermartingal, 

und seien σ ≤ τ Stoppzeiten. 

(i) Gibt es ein T ∈ N mit τ ≤ T , dann ist 

� 

Xσ ≥ E[Xτ 

�Fσ] und speziell E[Xσ] ≥ E[Xτ ].IstX ein Martingal, so gilt jeweils Gleichheit. 

(ii) Ist X nichtnegativ und τ < ∞ f.s., �so 

gelten E[Xτ ] ≤ E[X0] < ∞, 

E[Xσ] ≤ E[X0] < ∞ und Xσ ≥ E[Xτ �Fσ]. 

(iii) Ist allgemeiner X lediglich adaptiert und integrierbar, so ist X genau dann 

ein Martingal, wenn E[Xτ ]=E[X0] für jede beschränkte Stoppzeit τ gilt. 

Beweis. (i) Sei X = M + A die Doob-Zerlegung von X, also A vorhersagbar 

und monoton fallend, A0 =0, und M ein Martingal. Dann ist nach Lemma 10.10, 

angewandt auf M, 

� 

Xσ = Aσ + Mσ = E[Aσ + MT �Fσ] 

� 

� 

≥ E[Aτ + MT 

�Fσ] = E[Aτ + E[MT 

�Fτ ] � �Fσ] 

� 

� 

= E[Aτ + Mτ 

�Fσ] = E[Xτ 

�Fσ]. Wir haben dabei Fτ ⊃Fσ, die Turmeigenschaft und die Monotonie der bedingten 

Erwartung (Satz 8.14) ausgenutzt. 

n→∞ 

(ii) Es gilt Xτ∧n −→ Xτ fast sicher. Nach (i) gilt E[Xτ∧n] ≤ E[X0] für jedes 

n ∈ N. Nach dem Lemma von Fatou ist also 

Analog zeigt man E[Xσ] ≤ E[X0]. 

E[Xτ ] ≤ lim inf 

n→∞ E[Xτ∧n] ≤ E[X0] < ∞.


Seien nun m, n ∈ N mit m ≥ n. Teil (i) mit den beschränkten Stoppzeiten τ ∧ m ≥ 

σ ∧ n liefert 

� 

Xσ∧n ≥ E[Xτ∧m 

�Fσ∧n]. 

Für A ∈Fσ ist {σ

10.2 Optional Sampling und Optional Stopping 205 

Also ist X τ ein F-Submartingal. Da X τ an F τ adaptiert und F τ die kleinere Filtration 

ist, ist X auch ein F τ –Submartingal (siehe Bemerkung 9.29). ✷ 

Beispiel 10.16. Sei X die symmetrische einfache Irrfahrt aus Beispiel 10.8. Seien 

a, b ∈ Z, a0 sowie 

τa =inf{t ≥ 0:Xt = a}, τb =inf{t ≥ 0:Xt = b} und τa,b = τa ∧ τb. 

τa,b ist eine Stoppzeit nach Lemma 9.18. Sei A = {τa,b = τa} das Ereignis, dass 

X in a ist bevor es in b ist. Wir wollen P[A] bestimmen. Nach Übung 2.3.1 ist 

fast sicher lim supn→∞ Xn = ∞ und lim infn→∞ Xn = −∞. Also ist fast sicher 

τa < ∞ und τb < ∞. Nach dem Optional Stopping Theorem Xτa,b ein Martingal. 

Wegen τa,b ∧ n n→∞ 

−→ τa,b fast sicher, gilt X τa,b n→∞ 

n −→ Xτa,b fast sicher. Da |Xτa,b n | 

durch b − a beschränkt ist, gilt X τa,b n→∞ 

n −→ Xτa,b auch in L1 .Alsoist 

0 = lim 

n→∞ E � X τa,b� 

� � 

n = E Xτa,b = a · P [τa,b = τa]+b · P [τa,b = τb] 

= b +(a− b) P[τa,b = τa]. 

Es folgt P [τa,b = τa] = b 

. ✸ 

b − a 

Beispiel 10.17. Schließlich wollen wir unsere Maschinerie benutzen, um E[τa,b] 

und E[τa] zu berechnen. Der quadratische Variationsprozess 〈X〉 (vergleiche Definition 

10.3) ist gegeben durch 

〈X〉n = 

n� 

i=1 

E � (Xi − Xi−1) 2 � � 

�Fi−1 = n, 

also ist � X2 n − n � 

ein Martingal. Nach dem Optional Stopping Theorem ist 

n∈N0 

0=E � X 2 τa,b∧n − (τa,b ∧ n) � 

für jedes n ∈ N0. 

Monotone Konvergenz liefert 

E [τa,b] =E � X 2 � 2 

τa,b = a P [τa,b = τa]+b 2 P [τa,b = τb] =|a|·b. 

Um E[τa] zu berechnen, bemerken wir, dass τa,b ↑ τa fast sicher gilt, falls b →∞. 

Der Satz von der monotonen Konvergenz liefert also E[τa] = lim 

b→∞ E[τa,b] =∞. ✸ 

Bemerkung 10.18. Offenbar ist Xτb = b>0, also X0 < E � � � 

Xτb 

�F0 = b. Die 

Aussage des Optional Sampling Theorems gilt also im Allgemeinen nicht, falls die 

Stoppzeit unbeschränkt ist. ✸ 

Beispiel 10.19 (Gambler’s Ruin Problem). Wir betrachten ein Spiel zwischen 

zwei Personen A und B. In jeder Runde wird eine Münze geworfen. Je nach Ergebnis 

erhält A von B eine Geldeinheit oder B von A. Gespielt wird so lange, bis


einer der beiden Spieler ruiniert ist. Wir nehmen der Einfachheit halber an, dass A 

zum Spielbeginn kA ∈ N Geldeinheiten hat, B hingegen kB = N − kA, wobei 

N ∈ N, N ≥ kA. Gesucht ist die Ruinwahrscheinlichkeit von B. In Beispiel 10.16 

haben wir für den Fall einer fairen Münze bereits ausgerechnet, dass die Ruinwahrscheinlichkeit 

kA/N ist. Nun wollen wir den Fall einer unfairen Münze betrachten. 

Seien also Y1,Y2,... unabhängig und P[Yi =1]=1− P[Yi = −1] = p für alle 

i ∈ N und für gewisses p ∈ (0, 1) \{ 1 

2 }.MitXn := kB + �n i=1 Yi bezeichnen 

wir den Kontostand von B nach n Runden, wobei wir formal annehmen, dass die 

Spiele weiter gehen, auch wenn ein Spieler bereits ruiniert ist. Wir definieren noch 

wie oben τ0, τN und τ0,N als die ersten Eintreffzeiten von X in 0, N beziehungs- 

weise {0,N}. Die Ruinwahrscheinlichkeit von B ist nun p N B := P[τ0,N = τ0]. 

Da X kein Martingal ist (außer im Falle p = 1 

2 , den wir hier ausschließen wollen), 

behelfen wir uns mit einem Trick: Wir definieren einen neuen Prozess Z durch 

Zn := rXn = rkB �n i=1 rYi , wobei wir r>0 noch geeignet wählen müssen, sodass 

Z ein Martingal wird. Nach Beispiel 9.31 ist dies genau dann der Fall, wenn 

E[rY1 ]=pr +(1− p)r−1 =1ist, also wenn r =1oder r = 1−p 

p ist. Offenbar 

ist die Wahl r = 1 nutzlos, also nehmen wir r = 1−p 

p an. Wir erhalten so 

τ0 =inf{n ∈ N0 : Zn =1} und τN =inf{n ∈ N0 : Zn = rN }. 

(Man beachte, dass wir hier nicht wie oben argumentieren können, um zu zeigen, 

dass τ0 < ∞ und τN < ∞ fast sicher gilt. In der Tat ist für p �= 1 

2 auch stets 

nur genau eine der beiden Aussagen richtig. Allerdings erhält man, beispielsweise 

durch das starke Gesetz der großen Zahl, dass lim infn→∞ Xn = ∞ (und damit 

τN < ∞) fast sicher, falls p> 1 

2 . Analog ist τ0 < ∞ fast sicher, falls p< 1 

2 .) 

Wie in Beispiel 10.16 liefert der Optional Stopping Satz r kB = Z0 = E[Zτ0,N ]= 

p N B +(1− pN B )rN , also ist die Ruinwahrscheinlichkeit von B 

p N B = rkB − rN . (10.5) 

1 − rN Ist das Spiel vorteilhaft für B, also p> 1 

2 ,soistr

10.3 Gleichgradige Integrierbarkeit und Optional Sampling 207 

Übung 10.2.2. Wir betrachten hier eine allgemeinere Situation als im vorangehenden 

Beispiel, indem wir nur noch annehmen, dass Y1,Y2,... u.i.v. integrierbare 

Zufallsvariablen sind, die nicht fast sicher konstant sind (und Xn = Y1 + ...+ Yn). 

Weiter nehmen wir an, dass es ein δ > 0 gibt mit E[exp(θY1)] < ∞ für jedes 

θ ∈ (−δ, δ). Wirdefinieren eine Abbildung ψ : (−δ, δ) → R durch θ ↦→ 

log � E[exp(θY1)] � und setzen Z θ n := exp(θXn − nψ(θ)) für n ∈ N0. Man zeige: 

(i) Für jedes θ ∈ (−δ, δ) ist Zθ ist ein Martingal. 

(ii) ψ ist strikt konvex. 

(iii) E �� Zθ � n→∞ 

n −→ 0 für θ �= 0. 

(iv) Z θ n 

n→∞ 

−→ 0 fast sicher. 

Interpretieren wir Yn als die Differenz zwischen Prämieneinnahmen und Schadensauszahlungen 

einer Versicherungsgesellschaft zur Zeit n,sogibtk0+Xn den Kontostand 

der Versicherung zur Zeit n wieder, wenn das Anfangskapital k0 > 0 beträgt. 

Wir interessieren uns für die Ruinwahrscheinlichkeit 

p(k0) =P � inf{Xn + k0 : n ∈ N0} < 0 � 

in Abhängigkeit vom Startkapital. 

Man kann davon ausgehen, dass die Prämien so kalkuliert sind, dass E[Y1] > 0. 

Man zeige: Falls die Gleichung ψ(θ) =0eine Lösung θ∗ �=0hat, so ist θ∗ < 0. 

Man zeige, dass in diesem Fall die Cramér-Lundberg’sche Ungleichung gilt: 

p(k0) ≤ exp(θ ∗ k0). (10.8) 

In dem Fall, wo Yi nur die Werte −1 und 1 annimmt und k0 ∈ N ist, gilt Gleichheit, 

und wir erhalten Gleichung (10.6) mit r =exp(θ ∗ ). ♣ 

10.3 Gleichgradige Integrierbarkeit und Optional Sampling 

Wir wollen jetzt das Optional Sampling Theorem auf unbeschränkte Stoppzeiten 

ausweiten. Dies geht, falls das zugrunde liegende Martingal gleichgradig integrierbar 

ist (vergleiche Definition 6.16). 

Lemma 10.20. Sei X ein gleichgradig integrierbares Martingal. Dann ist die Familie 

(Xτ : τ ist endliche Stoppzeit) gleichgradig integrierbar. 

Beweis. Nach Satz 6.19) eine monoton wachsende, konvexe Funktion f :[0, ∞) → 

[0, ∞) mit lim infx→∞ f(x)/x = ∞ und L := supn∈N0 E[f(|Xn|)] < ∞. Ist 

τ


E � � � � 

f(|Xτ |) {τ≤n} = E f(|Xτ∧n|) {τ≤n} 

≤ E � E � f(|Xn|) � � � 

�Fτ∧n {τ≤n} 

= E � � 

f(|Xn|) {τ≤n} ≤ L. 

Also ist E[f(|Xτ |)] ≤ L. Nach Satz 6.19 ist (Xτ ,τ ist endliche Stoppzeit) gleichgradig 

integrierbar. ✷ 

Satz 10.21 (Optional Sampling und gleichgradige Integrierbarkeit). 

Ist (Xn, n ∈ N0) ein gleichgradig integrierbares Martingal (beziehungsweise 

Supermartingal), und sind σ ≤ τ Stoppzeiten, dann gilt E[|Xτ |] < ∞ und Xσ � 

� 

= 

E[Xτ 

�Fσ] (beziehungsweise Xσ ≥ E[Xτ 

�Fσ]). Beweis. Sei zunächst X ein Martingal. Für A ∈Fσ ist {σ ≤ n}∩A ∈Fσ∧n, also 

nach dem Optional Sampling Theorem (Satz 10.11) 

E � � � � 

Xτ∧n {σ≤n}∩A = E Xσ∧n {σ≤n}∩A . 

Nach Lemma 10.20 ist (Xσ∧n, n ∈ N0) und damit (Xσ∧n {σ≤n}∩A, n ∈ N0) 

gleichgradig integrierbar. Analog gilt dies für Xτ . Nach Satz 6.25 gilt daher 

E[Xτ A] = lim 

n→∞ E�Xτ∧n � 

{σ≤n}∩A = lim 

n→∞ E�Xσ∧n � 

{σ≤n}∩A = E[Xσ A]. 

� 

Es folgt E[Xτ �Fσ] =Xσ. 

Sei nun X ein Supermartingal. Dann hat X die Doob-Zerlegung X = M + A, 

wobei M ein Martingal ist und A ≤ 0 vorhersagbar und fallend. Wegen 

E[|An|] =E[−An] ≤ E[|Xn − X0|] ≤ E[|X0|]+ supE[|Xm|] 

< ∞, 

m∈N0 

gilt An ↓ A∞ für ein A∞ ≤ 0 mit E[−A∞] < ∞. AlsoistA damit auch M = 

X − A gleichgradig integrierbar (Satz 6.19). Es folgt 

Ferner ist 

E[|Xτ |] ≤ E[−Aτ ]+E[|Mτ |] ≤ E[−A∞]+E[|Mτ |] < ∞. 

� 

E[Xτ �Fσ] =E[Mτ 

� 

� 

�Fσ]+E[Aτ �Fσ] 

= Mσ + Aσ + E[(Aτ − Aσ) � �Fσ] 

≤ Mσ + Aσ = Xσ. ✷ 

Korollar 10.22. Ist X ein gleichgradig integrierbares Martingal (beziehungsweise 

Supermartingal), und sind τ1 ≤ τ2 ≤ ...endliche Stoppzeiten, so ist (Xτn )n∈N ein 

Martingal (beziehungsweise Supermartingal).

11 Martingalkonvergenzsätze und Anwendungen 

Wir haben Martingale X =(Xn)n∈N0 als faire Spiele kennen gelernt und festgestellt, 

dass sie unter gewissen Transformationen (Optionales Stoppen, diskretes stochastisches 

Integral) wieder zu Martingalen werden. In diesem Kapitel werden wir 

sehen, dass unter schwachen Bedingungen (Nichtnegativität oder gleichgradige Integrierbarkeit) 

Martingale fast sicher konvergieren. Zudem impliziert die Martingalstruktur 

die Lp-Konvergenz schon unter formal schwächeren Annahmen als denen, 

die wir in Kapitel 7 gesehen haben. Die grundlegenden Ideen dieses Kapitels liegen 

in der Doob’schen Ungleichung (Satz 11.2) und in der Aufkreuzungsungleichung 

(Lemma 11.3). 

11.1 Die Doob’sche Ungleichung 

Wir haben mit der Kolmogorov’schen Ungleichung (Satz 5.28) eine Ungleichung 

kennen gelernt, die analog zur Chebyshev’schen Ungleichung die Wahrscheinlichkeit 

für große Werte des Maximums eines quadratisch integrierbaren Prozesses mit 

unabhängigen, zentrierten Zuwächsen nach oben abschätzt. An dieser Stelle wollen 

wir die Ungleichung in mehrere Richtungen verbessern. Einerseits wollen wir 

Martingale betrachten. Andererseits wollen wir mit weniger als zweiten Momenten 

auskommen, beziehungsweise bei Anwesenheit höherer Momente die Ungleichung 

verschärfen. 

Sei I ⊂ N0 und X =(Xn)n∈I ein stochastischer Prozess. Wir schreiben für n ∈ N 

X ∗ n =sup{Xk : k ≤ n} und |X| ∗ n =sup{|Xk| : k ≤ n}. 

Lemma 11.1. Ist X ein Submartingal, dann gilt für jedes λ>0 

λ P � X ∗ n ≥ λ � ≤ E � Xn {X∗ n≥λ} � � � 

≤ E |Xn| {X∗ n≥λ} . 

Beweis. Die zweite Ungleichung ist trivial. Für die erste betrachte 

τ := inf � k ∈ I : Xk ≥ λ � ∧ n. 

Nach Satz 10.11 (Optional Sampling Theorem) ist

210 11 Martingalkonvergenzsätze und Anwendungen 

E[Xn] ≥ E[Xτ ]=E � Xτ {X∗ n≥λ} � � 

+ E Xτ {X∗ n

E � (|X| ∗ n ∧ K) p� ≤ 

11.2 Martingalkonvergenzsätze 211 

p 

p − 1 E� (|X| ∗ n ∧ K) p� (p−1)/p · E � |Xn| p� 1/p . 

Indem wir beide Seiten zur p-ten Potenz erheben und durch E � (|X| ∗ n ∧ K) p�p−1 teilen (hier wird das Abschneiden bei K gebraucht, damit wir sicher durch eine 

endliche Zahl teilen), erhalten wir 

E � (|X| ∗ n ∧ K) p� � �p p 

≤ 

E 

p − 1 

� |Xn| p� . 

Jetzt lassen wir K nach ∞ gehen. ✷ 

Übung 11.1.1. Sei (Xn)n∈N0 ein Submartingal oder Supermartingal. Man zeige mit 

Hilfe von Satz 11.2 und der Doob-Zerlegung, dass für jedes n ∈ N und λ>0 

λ P � |X| ∗ n ≥ λ � ≤ 12 E[|X0|]+9E[|Xn|]. ♣ 

11.2 Martingalkonvergenzsätze 

In diesem Abschnitt zeigen wir die gängigen Martingalkonvergenzsätze und geben 

ein paar kleinere Beispiele an. Wir beginnen mit dem Herzstück der Martingalkonvergenzsätze, 

der Aufkreuzungsungleichung. 

� � 

Sei F =(Fn)n∈N0 eine Filtration und F∞ = σ 

n∈N0 Fn 

� .Sei(Xn)n∈N0 re- 

ellwertig und an F adaptiert. Seien a, b ∈ R mit a < b. Stellen wir uns X als 

Aktienkurs vor, so wäre es eine sinnvolle Handelsstratgie, immer dann die Aktie 

zu kaufen, wenn ihr Kurs unter a gefallen ist, und zu verkaufen, sobald der Kurs 

wieder über b gestiegen ist – jedenfalls dann, wenn wir sicher wissen, dass der Kurs 

immer wieder über b steigt. Jedes Mal, wenn der Kurs der Aktie eine solche Aufkreuzung 

von a nach b macht, erhalten wir einen Gewinn von mindestens b − a. 

Indem wir den maximal möglichen Gewinn nach oben abschätzen, erhalten wir eine 

obere Abschätzung für die Zahl der Aufkreuzungen. Ist diese aber endlich für je 

zwei Werte a


Lemma 11.3 (Aufkreuzungsungleichung). Es sei (Xn)n∈N0 ein Submartingal. 

Dann ist 

E � U a,b� 

E[(Xn − a) 

n ≤ + ] − E[(X0 − a) + ] 

. 

b − a 

Beweis. Wir erinnern an das diskrete stochastische Integral (Definition 9.37) H ·X 

und beschreiben formal die oben angedeutete Handelsstrategie H durch m ∈ N0 

� 

1, falls m ∈{τk +1,...,σk} für ein k ∈ N, 

Hm := 

0, sonst. 

H ist nichtnegativ und vorhersagbar, denn für m ∈ N ist 

{Hm =1} = 

∞� � 

{τk ≤ m − 1}∩{σk >m− 1} � , 

k=1 

und jedes der Ereignisse liegt in Fm−1. Setze Y = max(X, a). Istk∈ N und 

σk < ∞, so ist offenbar Yσi − Yτi = Yσi − a ≥ b − a für jedes i ≤ k , also ist 

(H ·Y )σk = 

k� 

σi � 

i=1 j=τi+1 

(Yj − Yj−1) = 

k� 

(Yσi − Yτi ) ≥ k(b − a). 

Für j ∈{σk,...,τk+1} ist (H ·Y )j =(H ·Y )σk , und für j ∈{τk +1,...,σk} ist 

(H ·Y )j ≥ (H ·Y )τk =(H ·Y )σk−1 .Für n ∈ N ist daher (H ·Y )n ≥ (b − a)U a,b 

n . 

Nach Korollar 9.34 ist Y ein Submartingal, und damit (nach Satz 9.39) auch H ·Y 

und (1 − H)·Y . Nun ist Yn − Y0 =(1·Y )n =(H ·Y )n + ((1 − H)·Y )n, also 

E[Yn − Y0] ≥ E � � � � a,b 

(H ·Y )n ≥ (b − a)E Un . ✷ 

Satz 11.4 (Martingalkonvergenzsatz). 

Sei (Xn)n∈N0 ein Submartingal mit sup{E[X+ n ]: n ≥ 0} < ∞. Dann existiert 

n→∞ 

eine F∞-messbare Zufallsvariable X∞ mit E[|X∞|] < ∞ und Xn −→ X∞ 

fast sicher. 

Beweis. Für a

und 

C = � 

a,b∈Q 

a


Bemerkung 11.8. Die Aussage von Satz 11.7 lässt sich so ausdrücken: Der Prozess 

(Xn) n∈N0∪{∞} ist ein (Sub-, Super-) Martingal bezüglich (Fn) n∈N0∪{∞}. ✸ 

Beweis. Wir führen den Beweis für den Fall, wo X ein Submartingal ist. Gleichgradige 

Integrierbarkeit impliziert sup{E[X + n ]: n ≥ 0} < ∞. Nach Satz 11.4 existiert 

der fast sichere Limes X∞. Nach Satz 6.25 gilt dann E[|Xn − X∞|] n→∞ 

−→ 0. 

Nach Korollar 8.20 impliziert diese L1-Konvergenz schon die L1-Konvergenz der 

bedingten Erwartungen E �� 

� 

�E[Xn �Fm] − E[X∞ 

�Fm] � � � n→∞ 

−→ 0. DaX ein Submartingal 

ist, ist � � �− E[Xn 

�Fm] − Xm =0für n ≥ m. Die Dreiecksungleichung 

liefert also 

� �E[X∞ � � � 

− 

E �Fm] − Xm = lim 

n→∞ E 

� �E[Xn � � � 

− �Fm] − Xm =0. 

� 

Es folgt, dass E[X∞ �Fm] − Xm ≥ 0 fast sicher. ✷ 

Korollar 11.9. Sei X ≥ 0 ein Martingal und X∞ = lim 

n→∞ Xn. Genau dann ist 

E[X∞] =E[X0], wennX gleichgradig integrierbar ist. 

Beweis. Das folgt direkt aus Satz 6.25. ✷ 

Sei p ∈ [1, ∞). Ein reellwertiger stochastischer Prozess (Xi)i∈I heißt L p –beschränkt, 

falls sup i∈I E[|Xi| p ] < ∞ (Definition 6.20). Im Allgemeinen folgt aus 

der L p –Beschränktheit eines Prozesses (Xi)i∈I nicht, dass (|Xi| p )i∈I gleichgradig 

integrierbar wäre. Ist X ein Martingal und p > 1, so folgt dies jedoch aus 

der Doob’schen Ungleichung. Insbesondere folgt dann aus fast sicherer Konvergenz 

schon die Konvergenz in L p . 

Satz 11.10 (Lp-Konvergenzsatz für Martingale). 

Sei p>1 und (Xn)n∈N0 ein Lp-beschränktes Martingal. Dann existiert eine F∞messbare 

Zufallsvariable X∞ mit E[|X∞| p n→∞ 

] < ∞, sowie Xn −→ X∞ fast 

gleichgradig integrierbar. 

sicher und in L p . Speziell ist (|Xn| p )n∈N0 

Beweis. Nach Korollar 6.21 ist X gleichgradig integrierbar. Also existiert der fast 

sichere Limes X∞. Nach der Doob’schen Ungleichung (Satz 11.2) ist für n ∈ N 

E � sup � |Xk| p : k ≤ n �� p p 

≤ 

E 

p − 1 

� |Xn| p� . 

Also ist 

� 

E sup � |Xk| p � 

: k ∈ N0 

� � �p p 

� 

≤ 

sup E 

p − 1 

� |Xn| p� � 

: n ∈ N0 < ∞. 

Insbesondere ist (|Xn| p )n∈N0 also gleichgradig integrierbar. 

Majorisierte Konvergenz liefert (wegen |Xn − X∞| p ≤ 2p sup{|Xn| p : n ∈ N0}) 

E � |X∞| p� < ∞ und E � |Xn − X∞| p� n→∞ 

−→ 0. ✷


Für den Fall quadratintegrierbarer Martingale gibt es ein handliches Kriterium für 

die L 2 -Beschränktheit, das wir hier als Korollar festhalten (siehe Definition 10.3). 

Korollar 11.11. Sei X ein quadratintegrierbares Martingal X mit quadratischem 

Variationsprozess 〈X〉. Dann sind folgende vier Aussagen äquivalent: 

(i) supn∈N E[X2 n] < ∞, 

(ii) limn→∞ E[〈X〉n] < ∞, 

(iii) X konvergiert in L2 , 

(iv) X konvergiert fast sicher und in L2 . 

Beweis. (i) ⇐⇒ (ii)“ Wegen Var[Xn − X0] =E[〈X〉n] (siehe Satz 10.4) ist 

” 

X genau dann in L2 beschränkt, wenn (ii) gilt. 

” (iv) =⇒ (iii) =⇒ (i)“ Dies ist trivial. 

” (i) =⇒ (iv)“ Dies ist die Aussage von Satz 11.10. ✷ 

Bemerkung 11.12. Die Aussage von Satz 11.10 ist für p = 1 im Allgemeinen 

falsch. Siehe Übung 11.2.1. ✸ 

Lemma 11.13. Sei X ein quadratintegrierbares Martingal mit quadratischem Variationsprozess 

〈X〉, und sei τ eine Stoppzeit. Dann hat der gestoppte Prozess X τ 

den quadratischen Variationsprozess 〈X τ 〉 = 〈X〉 τ := (〈X〉τ∧n)n∈N0 . 


Nehmen wir statt wie in Korollar 11.11 nicht die Beschränktheit der Erwartungswerte 

der quadratischen Variation an, sondern lediglich die fast sichere Beschränktheit, 

so erhalten wir immerhin noch fast sichere Konvergenz von X, im Allgemeinen 

nicht jedoch L 2 -Konvergenz. 

Satz 11.14. Sei X ein quadratintegrierbares Martingal mit sup n∈N〈X〉n < ∞ fast 

sicher. Dann konvergiert X fast sicher. 

Beweis. Ohne Einschränkung können wir annehmen, dass X0 =0ist, sonst betrachten 

wir das Martingal (Xn − X0)n∈N0 , das den selben quadratischen Variationsprozess 

hat. Betrachte für K>0 

τK := inf{n ∈ N : 〈X〉n+1 ≥ K}. 

Dies ist eine Stoppzeit, da 〈X〉 vorhersagbar ist. Offenbar ist supn∈N〈X〉τK∧n ≤ K 

fast sicher. Nach Korollar 11.11 konvergiert der gestoppte Prozess XτK fast sicher 

(und in L2 ) gegen eine Zufallsvariable, die wir XτK ∞ nennen wollen. Nach Voraussetzung 

gilt P[τK = ∞] → 1 für K →∞, also konvergiert X fast sicher. ✷


Beispiel 11.15. Sei X die symmetrische einfache Irrfahrt auf Z, das heißt Xn � 

= 

n 

k=1 Rk, wobei R1,R2,... u.i.v. sind mit P[R1 =1]=1− P[R1 = −1] = 1 

2 . 

Dann ist X ein Martingal, jedoch ist lim supn→∞ Xn = ∞ und lim infn→∞ Xn = 

−∞, also X nicht einmal uneigentlich konvergent. Dies geht nach dem Martingalkonvergenzsatz 

einher damit, dass X nicht gleichgradig integrierbar ist. ✸ 

Beispiel 11.16 (Wählermodell). Wir betrachten ein einfaches Modell zum Verhalten 

von opportunistischen Wählern, die nur einer von zwei Meinungen (zu einem 

politischen Thema) fähig sind, sagen wir 0 und 1. Wir betrachten eine Menge 

Λ ⊂ Zd , die wir als die Menge der Orte auffassen, an denen je ein Individuum 

sitzt. Zur Einfachheit nehmen wir an, dass Λ = {0,...,L− 1} d für ein L ∈ N.Mit 

x ∈{0, 1} Λ bezeichnen wir einen generischen Zustand des gesamten Wahlvolkes, 

wobei x(i) ∈{0, 1} die Meinung des Individuums i ∈ Λ ist. Wir stellen uns nun 

vor, dass sich die Meinungen in diskreten Zeitschritten ändern. Zu jedem Zeitpunkt 

n vergisst ein zufällig gewähltes Individuum In seine Meinung und übernimmt stattdessen 

die Meinung eines zufällig gewählten Nachbarn In + Nn, wobei wir die 

Addition als komponentenweise modulo L verstehen (manchmal wird dies auch 

periodische Randbedingungen genannt, weil wir Λ als diskreten Torus auffassen). 

So erhalten wir eine zufällige Folge (Xn)n∈N0 von Zuständen in {0, 1}Λ , die die 

zufällige Entwicklung der Meinungen darstellt. 

Um noch einmal formal zu fassen, was wir gerade beschrieben haben: Wir betrachten 

unabhängige Zufallsvariablen (In)n∈N und (Nn)n∈N. Für jedes n ∈ N sei In 

uniform verteilt auf Λ und Nn uniform verteilt auf den 2d direkten Nachbarn des 

Ursprungs N := {i ∈ Zd : �i�2 =1}. Zudem ist x = X0 ∈{0, 1} Λ der ursprüngliche 

Zustand. Die weiteren Zustände definieren wir induktiv durch 

� 

Xn−1(i), falls In �= i, 

Xn(i) = 

Xn−1(In + Nn), falls In = i. 

Wir interessieren uns jetzt für das Langzeitverhalten von (Xn)n∈N0 .Wirdesauf 

lange Sicht einen Konsens unter allen Individuen geben, oder können zwei konkurrierende 

Meinungen koexistieren? Wir betrachten dazu die Gesamtzahl aller Individuen 

mit Meinung 1 zur Zeit n, nämlich Mn := � 

i∈Λ Xn(i). SeiFdie Filtration 

F =(Fn)n∈N0 , wobei Fn = σ(Ik, Nk : k ≤ n) ist für jedes n ∈ N0. DannistM 

an F adaptiert und 

� 

E[Mn 

�Fn−1] =Mn−1 − E[Xn−1(In) � �Fn−1]+E[Xn−1(In + Nn) � �Fn−1] = Mn−1 + � 

P[In = i] Xn−1(i) − � 

P[In + Nn = i] Xn−1(i) 

= Mn−1, 

i∈Λ 

weil P[In = i] = P[In + Nn = i] = L −d für jedes i ∈ Λ. AlsoistM ein 

beschränktes F-Martingal und damit fast sicher und in L 1 konvergent gegen eine 

Zufallsvariable M∞.DaM nur ganzzahlige Werte annimmt, gibt es ein (zufälliges) 

i∈Λ


n0, sodass Mn = Mn0 für jedes n ≥ n0. Damit ist aber auch Xn = Xn0 für jedes 

n ≥ n0. Offenbar ist jedoch kein Zustand x mit x �≡ 0 und x �≡ 1 stabil, denn hier 

gilt, falls i und j in Λ benachbart sind und x(i) �= x(j), 

� 

P[Xn �= Xn−1 

�Xn−1 = x] ≥ P[In−1 = i, Nn−1 = j − i] =L −d (2d) −1 . 

Es muss also M∞ ∈{0,L d } gelten. Nun ist aber E[M∞] =M0, also gilt 

P � M∞ = L d � = M0 

Ld und P � M∞ =0 � =1− M0 

. 

Ld Etwas formaler sehen wir den Sachverhalt, dass nur die beiden extremen Zustände 

stabil sind, so ein: Wir betrachten den quadratischen Variationsprozess 〈M〉 von M. 

Dann ist 

n� 

n� 

〈M〉n = {Mk�=Mk−1} = 

Also ist 

k=1 

k=1 

L 2d ≥ Var[Mn] =E[〈M〉n] 

n� 

= 

k=1 

{Xk−1(Ik)�=Xk−1(Ik+Nk)}. 

P[Xk−1(Ik) �= Xk−1(Ik + Nk)] 

≥ (2d) −1 L −d 

n� 

k=1 

P[Mk−1 �∈ {0,L d }]. 

Es folgt, dass � ∞ 

k=1 P[Mk−1 �∈ {0,L d }] ≤ 2dL 3d < ∞, also ist nach dem Lemma 

von Borel-Cantelli M∞ ∈{0,L d }. ✸ 

Beispiel 11.17 (Satz von Radon-Nikodym). Wir wollen mit Hilfe des Martingalkonvergenzsatzes 

einen alternativen Beweis des Satzes von Radon-Nikodym (Korollar 

7.34) angeben. 

Sei (Ω,F, P) ein W-Raum und Q ein weiteres W-Maß auf (Ω,A). Wir nehmen 

zudem an, dass F abzählbar erzeugt ist, dass es also (höchstens) abzählbar viele 

Mengen A1,A2,...∈Fgibt, sodass F = σ({A1,A2,...}). Dies ist beispielsweise 

dann richtig, wenn F die Borel’sche σ-Algebra auf einem polnischen Raum ist. 

Speziell können wir für den Fall Ω = Rd offene Kugeln mit rationalen Radien und 

rationalen Zentren nehmen. 

Wir bilden nun eine Filtration F =(Fn)n∈N, indem wir Fn := σ({A1,...,An}) 

setzen. Offenbar ist #Fn < ∞ für jedes n ∈ N. Genauer gilt, dass es eine endliche 

(eindeutig bestimmte) Teilmenge Zn ⊂Fn \ {∅} gibt mit B = � 

C für jedes 

C∈Zn 

C⊂B 

B ∈Fn. Zn ist die Zerlegung von Fn in ” Atome“. Schließlich definieren wir einen 

stochastischen Prozess (Xn)n∈N durch


Xn := 

� 

C∈Zn: P[C]>0 

Q(C) 

P[C] C. 

Offenbar ist X an F adaptiert. Sei B ∈Fnund m ≥ n. Für jedes C ∈ Zm gilt 

entweder C ∩ B = ∅ oder C ⊂ B.Alsoist 

E[Xm B] = � Q(C) 

P[C ∩B] = 

P[C] � 

Q(C) =Q(B). (11.1) 

C∈Zm: P[C]>0 

Insbesondere ist X also ein F-Martingal. 

C∈Zm: C⊂B 

Wir nehmen nun an, dass Q absolutstetig bezüglich P ist. Nach Beispiel 7.39 ist X 

dann gleichgradig integrierbar. Nach dem Martingalkonvergenzsatz konvergiert X 

fast sicher und in L1 gegen eine Zufallsvariable X∞. Nach (11.1) ist E[X∞ B] = 

Q(B) für jedes B ∈ � 

n∈N Fn, also auch für jedes B ∈F. Mithin ist X∞ die 

Radon-Nikodym-Dichte von Q bezüglich P. 

Man beachte, dass wir für diesen Beweis des Satzes von Radon-Nikodym nirgends 

die Existenz bedingter Erwartungen vorausgesetzt haben, also nicht in versteckter 

Weise auf den Satz selber zurückgegriffen haben. 

Man könnte einwenden, dass wir hier nur den Spezialfall von W-Maßen behandeln 

konnten. Dieser Mangel kann jedoch sehr leicht behoben werden: Sind μ und ν 

beliebige (jedoch von Null verschiedene) σ-endliche Maße, dann gibt es messbare 

Funktionen g, h : Ω → (0, ∞) mit � gdμ =1und � hdν =1. Wir setzen nun 

P = gμ und Q = hν. Offenbar gilt genau dann Q ≪ P, wennν≪μ. In diesem 

Fall ist g 

hX∞ eine Version der Radon-Nikodym-Ableitung dν 

dμ . 

Auf die Einschränkung, dass F abzählbar erzeugt werden kann, kann man ebenfalls 

verzichten. Mit Hilfe der Approximationssätze für Maße kann man zeigen, dass es 

stets eine abzählbar erzeugte σ-Algebra G⊂Fgibt, sodass für jedes A ∈Fein 

B ∈Gexistiert mit P[A △ B] =0. Hiermit lässt sich der allgemeine Fall beweisen. 

Wir führen dies hier nicht aus, sondern verweisen auf [157, Kapitel 14.13]. ✸ 

Übung 11.2.1. Die Aussage von Satz 11.10 ist für p =1im Allgemeinen falsch. 

Man gebe ein Beispiel an für ein nichtnegatives Martingal X mit E[Xn] =1für 

n→∞ 

jedes n ∈ N, aber Xn −→ 0 fast sicher. ♣ 

Übung 11.2.2. Seien X1,X2,...unabhängige, quadratisch integrierbare Zufallsvariablen 

mit �∞ n=1 1 

n2 Var[Xn] < ∞. Man zeige mit Hilfe des Martingalkonvergenzsatzes 

das starke Gesetz der großen Zahl für (Xn)n∈N. ♣ 

Übung 11.2.3. Man gebe ein Beispiel an für ein quadratisch integrierbares Martingal, 

das fast sicher konvergiert, aber nicht in L 2 . ♣ 

Übung 11.2.4. Man zeige: In Satz 11.14 gilt im Allgemeinen nicht die Umkehrung. 

Das heißt, es gibt ein quadratintegrierbares Martingal X, das fast sicher konvergiert, 

für das aber nicht gilt, dass lim 

n→∞ 〈X〉n < ∞ fast sicher. ♣

11.3 Beispiel: Verzweigungsprozess 219 

Übung 11.2.5. Man zeige: In Satz 11.14 gilt die Umkehrung unter der zusätzlichen 

Annahme, dass es ein K>0 gibt mit |Xn − Xn−1| ≤K f.s. für jedes n ∈ N. ♣ 

Übung 11.2.6. Sei (Fn)n∈N0 eine Filtration und (An)n∈N Ereignisse. Setze A∗ = 

lim supn→∞ An und A∞ = � �∞ n=1 P[An |Fn−1] =∞ � . Man zeige die bedingte 

Version des Borel-Cantelli Lemmas: P[A∞ △ A∗ ]=0. 

Hinweis: Wende Übung 11.2.5 an auf Xn = �∞ n=1 ( An − P[An |Fn−1]). ♣ 

Übung 11.2.7. Sei p ∈ [0, 1] und X =(Xn)n∈N0 ein stochastischer Prozess mit 

Werten in [0, 1]. Für jedes n ∈ N0 gelte: Gegeben X0,...,Xn ist 

� 

1 − p + pXn mit Wahrscheinlichkeit Xn, 

Xn+1 = 

pXn mit Wahrscheinlichkeit 1 − Xn. 

Man zeige, dass X ein Martingal ist und fast sicher konvergiert. Man bestimme die 

Verteilung des fast sicheren Grenzwerts limn→∞ Xn. ♣ 

Übung 11.2.8. Sei f ∈L1 (λ), wobei λ die Einschränkung des Lebesgue-Maßes auf 

[0, 1] bezeichnet. Sei In,k =[k2−n , (k +1)2−n ) für n ∈ N und k =0,...,2n − 1. 

Definiere fn :[0, 1] → R durch 

fn(x) =2 n 

� 

fdλ, falls k so gewählt ist, dass x ∈ Ik,n. 

Ik,n 

Zeige: Für λ-fast alle x ∈ [0, 1] gilt fn(x) n→∞ 

−→ f(x). ♣ 

Übung 11.2.9. Sei (Ω,A, P) ein Wahrscheinlichkeitsraum mit einer Filtration F = 

(Fn)n∈N. SeiF∞ := σ(Fn : n ∈ N), und sei M der Vektorraum der gleichgradig 

integrierbaren F-Martingale. Man zeige: die Abbildung Φ : L 1 (F∞) →M, X∞ ↦→ 

(E[X∞ |Fn])n∈N ist ein Vektorraumisomorphismus. ♣ 

11.3 Beispiel: Verzweigungsprozess 

Sei p =(pk)k∈N0 ein Wahrscheinlichkeitsvektor auf N0 und (Zn)n∈N0 der Galton- 

Watson-Prozess mit einem Urahn und Nachkommenverteilung p (siehe Definition 

3.9). Zur Erinnerung geben wir die Konstruktion von Z an. Seien (Xn,i)n∈N0,i∈N 

u.i.v. Zufallsvariablen P[X1,1 = k] =pk für k ∈ N0. Setze Z0 =1und induktiv 

Zn 

Zn+1 = 

i=1 

� 

Xn,i für n ∈ N0. 

Wir interpretieren Zn als Größe einer Population zur Zeit n und Xn,i als Anzahl der 

Nachkommen des i-ten Individuums aus der n-ten Generation. 

Seien m := E[X1,1] < ∞ die erwartete Kinderanzahl pro Individuum und σ 2 := 

Var[X1,1] ∈ (0, ∞) die Varianz der Kinderzahl. Setze Fn := σ(Xk,i : k


Lemma 11.18. W ist ein Martingal. Speziell ist E[Z n ]=m n für jedes n ∈ N. 

Beweis. Wir berechnen die bedingte Erwartung für n ∈ N0: 

� 

E[Wn+1 

�Fn] =m −(n+1) � 

E[Zn+1 

�Fn] = m −(n+1) � � 

Zn � � 

E Xn,i 

�Fn 

= m −(n+1) 

= m −n 

i=1 

∞� 

E � � � 

{Zn=k}k · Xn,i 

�Fn 

k=1 

∞� 

E � � � 

k · �Fn 

{Zn=k} 

k=1 

= m −n Zn = Wn. ✷ 

Satz 11.19. Sei Var[X1,1] ∈ (0, ∞). Es existiert der fast sichere Limes W∞ = 

lim 

n→∞ Wn, und es gilt 

m>1 ⇐⇒ E[W∞] =1 ⇐⇒ E[W∞] > 0. 

Beweis. W∞ existiert, weil W ≥ 0 ein Martingal ist. Ist m ≤ 1, so folgt, dass 

(Zn)n∈N f.s. gegen ein Z∞ konvergiert. Wegen σ2 > 0 kommt nur Z∞ =0in 

Frage. 

Sei nun m>1. Es gilt nach dem Satz von Blackwell-Girshick (Satz 5.10) wegen 

E[Zn−1] =mn−1 (Lemma 11.18) 

Var[Wn] =m −2n � σ 2 E[Zn−1]+m 2 Var[Zn−1] � 

= σ 2 m −(n+1) + Var[Wn−1]. 

Induktiv folgt Var[Wn] =σ 2 

n+1 � 

m 

k=2 

−k ≤ σ2 m 

m − 1 < ∞. AlsoistWin L2 beschränkt, 

und Satz 11.10 liefert, dass Wn → W∞ in L2 und damit auch in L1 . 

Speziell ist E[W∞] =E[W0] =1. ✷ 

Unter der Annahme der endlichen Varianz waren die Aussagen von Satz 11.19 nicht 

schwer zu zeigen. Es gilt aber eine viel stärkere Aussage, die wir hier nur zitieren 

(siehe [94], beziehungsweise [108] für einen modernen Beweis). 

Satz 11.20 (Kesten-Stigum (1966)). Sei m>1. Dann sind äquivalent 

(i) E[W∞] =1, 

(ii) E[W∞] > 0, 

(iii) E[X1,1 log(X1,1) + ] < ∞.

12 Rückwärtsmartingale und Austauschbarkeit 

Bei vielen Datenerhebungen, etwa Telefonumfragen, ist die Reihenfolge, in der die 

Daten kommen, unerheblich. Mathematisch sprechen wir von austauschbaren Zufallsvariablen, 

wenn sich die gemeinsame Verteilung unter endlichen Vertauschungen 

nicht ändert. Der Struktursatz für austauschbare Zufallsvariablen von de Finetti 

besagt, dass sich eine unendlich große austauschbare Familie von Zufallsvariablen 

mit Werten im Raum E als Zweistufenexperiment beschreiben lässt: In der ersten 

Stufe wird eine zufällige Wahrscheinlichkeitsverteilung Ξ auf E ausgewürfelt. In 

der zweiten Stufe werden die Zufallsvariablen u.i.v. mit Verteilung Ξ realisiert. 

Wir definieren zunächst den Begriff der Austauschbarkeit. Danach betrachten wir 

Rückwärtsmartingale und zeigen den Konvergenzsatz für Rückwärtsmartingale. 

Dieser ist der Eckstein für den Beweis des Satzes von de Finetti. 

12.1 Austauschbare Familien von Zufallsvariablen 

Definition 12.1. Sei I eine beliebige Indexmenge und E ein polnischer Raum. Eine 

Familie (Xi)i∈I von Zufallsvariablen mit Werten in E heißt austauschbar, falls für 

jede endliche Permutation ϱ : I → I gilt, dass 

L 

��Xϱ(i) � 

i∈I 

� 

= L � � 

(Xi) i∈I . 

Als endliche Permutation bezeichnen wir dabei eine Bijektion ϱ : I → I, die alle 

bis auf endlich viele Koordinaten unverändert lässt. 

Bemerkung 12.2. Offenbar sind äquivalent: 

(i) (Xi)i∈I ist austauschbar. 

(ii) Für n ∈ N und paarweise unterschiedliche i1,...,in ∈ I sowie paarweise 

unterschiedliche j1,...,jn ∈ I gilt L[(Xi1 ,...,Xin )] = L[(Xj1 ,...,Xjn )]. 

Insbesondere sind austauschbare Zufallsvariablen stets identisch verteilt (dies ist (ii) 

mit n =1). ✸

222 12 Rückwärtsmartingale und Austauschbarkeit 

Beispiel 12.3. (i) Ist (Xi)i∈I u.i.v., so ist (Xi)i∈I austauschbar. 

(ii) In einer Urne seien N Kugeln, davon M schwarz. Wir ziehen sukzessive ohne 

Zurücklegen alle Kugeln und setzen 

� 

1, falls die n-te Kugel schwarz ist, 

Xn := 

0, sonst. 

Dann ist (Xn)n=1,...,N austauschbar. Dies folgt aus elementarer Kombinatorik, 

denn für jede Wahl von x1,...,xN ∈{0, 1} mit x1 + ...+ xN = M ist offenbar 

P � � 1 

X1 = x1,...,XN = xN = �. 

Diese Formel können wir aber auch formal durch eine kleine Rechnung mit bedingten 

Wahrscheinlichkeiten herleiten, die wir in ähnlicher Form für das Pólya’sche 

Urnenmodell in Beispiel 12.29 noch einmal durchführen werden. Setze dazu sk = 

x1 + ...+ xk für k =0,...,N und 

� 

M − sk, falls x =1, 

gk(x) = 

N − M + sk − k, falls x =0. 

Dann ist P[X1 = x1] =g0(x1)/N und 

P[Xk+1 = xk+1 |X1 = x1,...,Xk = xk] = gk(xk+1) 

N − k 

� N 

M 

für k =1,...,N − 1. 

Ferner ist offenbar gk(0) = N − M − l, wobei l =#{i

12.1 Austauschbare Familien von Zufallsvariablen 223 

Sei X =(Xn)n∈N ein stochastischer Prozess mit Werten in einem polnischen Raum 

E.SeiS(n) die Menge der Permutationen ϱ : {1,...,n}→{1,...,n}. Wir fassen 

ϱ ebenfalls als Abbildung N → N auf durch ϱ(k) =k für k>n.Für ϱ ∈ S(n) 

und x =(x1,...,xn) ∈ E n schreiben wir x ϱ =(x ϱ(1),...,x ϱ(n)). Für x ∈ E N 

schreiben wir analog x ϱ =(x ϱ(1),x ϱ(2),...) ∈ E N .IstE ′ ein weiterer polnischer 

Raum, so definieren wir für messbare Abbildungen f : E n → E ′ und F : E N → E ′ 

die Abbildungen f ϱ und F ϱ durch f ϱ (x) =f(x ϱ ) und F ϱ (x) =F (x ϱ ). Ferner 

schreiben wir f(x) =f(x1,...,xn) auch, falls x ∈ E N . 

Definition 12.4. (i) Eine Abbildung f : En → E ′ heißt symmetrisch, falls f ϱ = 

f ist für jedes ϱ ∈ S(n). 

(ii) Eine Abbildung F : EN → E ′ heißt n-symmetrisch, falls F ϱ = F für jedes 

ϱ ∈ S(n). F heißt symmetrisch, falls Fn-symmetrisch ist für jedes n ∈ N. 

Beispiel 12.5. (i) Für x ∈ RN definieren wir das n-te arithmetische Mittel durch 

an(x) = 1 �n n i=1 xi. Offenbar ist an eine n-symmetrische Abbildung (aber nicht 

m-symmetrisch für ein m>n). Weiter definiert ā(x) := lim sup an(x) eine sym- 

n→∞ 

metrische Abbildung RN → R ∪{−∞, +∞}. 

(ii) Die Abbildung s : RN → [0, ∞], x ↦→ �∞ i=1 |xi| ist symmetrisch. Anders als 

ā hängt der Wert von s von jeder einzelnen Koordinate ab, falls er endlich ist. 

(iii) Für x ∈ EN � 

definieren wir die n-te empirische Verteilung durch ξn(x) = 

1 n 

n i=1 δxi . Offenbar ist ξn eine n-symmetrische Abbildung. 

(iv) Sei k ∈ N und ϕ : Ek → R eine Abbildung. Das n-te symmetrisierte Mittel 

An(ϕ) :E N → R, x ↦→ 1 

n! 

� 

ϕ(x ϱ ) (12.1) 

ϱ∈S(n) 

ist eine n-symmetrische Abbildung. ✸ 

Definition 12.6. Sei X =(Xn)n∈N ein stochastischer Prozess mit Werten in E.Für 

n ∈ N sei En := σ(F ◦ X : F : E N → R ist messbar und n-symmetrisch) die 

σ-Algebra der unter allen Permutation ϱ ∈ S(n) invarianten Ereignisse. Ferner sei 

E := 

∞� 

En = σ � F ◦ X : F : E N → R ist messbar und symmetrisch � 

n=1 

die σ-Algebra der austauschbaren Ereignisse für X, oder kurz die austauschbare 

σ-Algebra. 

Bemerkung 12.7. Ist A ∈ σ(Xn, n∈ N) ein Ereignis, so gibt es ein messbares 

B ⊂ E N mit A = {X ∈ B}. Schreiben wir A ϱ = {X ϱ ∈ B} für ϱ ∈ S(n), soist 

En = {A : A ϱ = A für alle ϱ ∈ S(n)}. Dies rechtfertigt den Namen ” austauschbares 

Ereignis“. ✸


Bemerkung 12.8. Schreiben wir Ξn(ω) :=ξn(X(ω)) = 1 �n n i=1 δXi(ω) für die 

n-te empirische Verteilung, so ist nach Übung 12.1.1 En = σ(Ξn). ✸ 

Bemerkung 12.9. Bezeichnen wir mit T = � 

n∈N σ(Xn+1,Xn+2,...) die terminale 

σ-Algebra, so ist T ⊂ E, wobei im Falle #E ≥ 2 strikte Inklusion gilt. 

In der Tat: Offenbar ist σ(Xn+1,Xn+2,...) ⊂En für n ∈ N, alsoT ⊂ E. Sei nun 

#E ≥ 2.Wähle ein messbares B ⊂ E mit B �= ∅ und B c �= ∅. Die Zufallsvariable 

S := � ∞ 

n=1 B(Xn) ist messbar bezüglich E, nicht aber bezüglich T . ✸ 

Satz 12.10. Sei X = (Xn)n∈N austauschbar. Ist ϕ : E k → R messbar und 

E[|ϕ(X)|] < ∞, dann gilt für jedes n ≥ k und jedes ϱ ∈ S(n) 

Speziell ist 

E[ϕ(X)|En] =E[ϕ(X ϱ )|En]. (12.2) 

E[ϕ(X) � � En] =An(ϕ) := 1 

n! 

� 

ϱ∈S(n) 

ϕ(X ϱ ). (12.3) 

Beweis. Sei A ∈En und F = X(A). DannistF ◦ X = A. Nach der Definition 

von En ist also F : E N → R messbar, n-symmetrisch und beschränkt. Daher ist 

E � ϕ(X)F (X) � = E � ϕ(X ϱ )F (X ϱ ) � = E � ϕ(X ϱ )F (X) � , 

wobei wir in der ersten Gleichung die Austauschbarkeit von X benutzt haben, in der 

zweiten hingegen die Symmetrie von F . Hieraus folgt (12.2). Nun ist aber An(ϕ) 

schon En-messbar, also ist 

⎡ 

⎤ 

E � ϕ(X) � � 

�En = E ⎣ 1 

n! 

� 

ϱ∈S(n) 

ϕ(X ϱ � 

� 

) � 

� En 

Heuristik zur Struktur austauschbarer Familien 

⎦ = 1 

n! 

� 

ϱ∈S(n) 

ϕ(X ϱ ). ✷ 

Wir betrachten eine endliche, austauschbare Familie X1,...,XN von E-wertigen 

Zufallsvariablen. Wie sieht für n ≤ N die bedingte Verteilung von (X1,...,Xn) 

gegeben ΞN aus? Für jedes messbare A ⊂ E kommt {Xi ∈ A} für genau NΞN(A) 

viele i ∈{1,...,N} vor, wobei die Reihenfolge des Auftretens keinen Einfluss auf 

die Wahrscheinlichkeit hat. Wir sind also in der Situation des Ziehens von gefärbten 

Kugeln ohne Zurücklegen. Genauer gesagt können wir annehmen, dass die paarweise 

unterschiedlichen e1,...,ek ∈ E die Atome von ΞN mit Häufigkeiten 

N1,...,Nk sind, dass also ΞN = �k i=1 =(Ni/N )δei gilt. Wir haben es also mit 

Kugeln in k Farben zu tun, wobei von der i-ten Farbe genau Ni Kugeln vorhanden 

sind. Wir ziehen n dieser Kugeln ohne Zurücklegen, aber mit Beachtung der Reihenfolge. 

Bis auf die Beachtung der Reihenfolge ist die resultierende Verteilung also

12.1 Austauschbare Familien von Zufallsvariablen 225 

die allgemeine hypergeometrische Verteilung (siehe etwa [58, Abschnitt 2.3.2]). Es 

gilt also für paarweise disjunkte, messbare Mengen A1,...,Ak mit �k l=1 Al = E, 

für i1,...,in ∈{1,...,k}, paarweise unterschiedliche j1,...,jn ∈{1,...,N} 

und mit der Festlegung ml := #{r ∈{1,...,n} : ir = l} für l ∈{1,...,k} 

P � Xjr ∈ Air für jedes r =1,...,n� � 

k� 1 � 

�ΞN = NΞN(Al) 

(N)n l=1 

�ml , (12.4) 

wobei wir (n)l := n(n − 1) ···(n − l +1)definieren. 

Was passiert nun, wenn wir N →∞gehen lassen? Wir nehmen hier der Einfachheit 

halber an, dass der Limes Ξ∞(Al) = limN→∞ ΞN(Al) für jedes l =1,...,k in 

einem geeigneten Sinne existiert. Dann wird aus (12.4) formal 

P � Xjr ∈ Air für jedes r =1,...,n� � 

n� 

�Ξ∞ = Ξ∞(Al) ml . (12.5) 

Aus dem Ziehen der Kugeln ohne Zurücklegen wird nun also asymptotisch für 

große Kugelanzahl das Ziehen mit Zurücklegen. Damit sind die Zufallsvariablen 

X1,X2,...unabhängig mit Verteilung Ξ∞ gegeben Ξ∞. 

Einen formalen Beweis, der entlang der von dieser Heuristik vorgezeichneten Linie 

verläuft, bringen wir in Kapitel 13.4. 

Um diese Aussage, den so genannten Satz von de Finetti, in Abschnitt 12.3 rigoros 

zu formulieren und zu beweisen, brauchen wir noch etwas Begriffsbildung (etwa 

bedingte Unabhängigkeit). Als technisches Hilfsmittel verwenden wir in diesem 

Kapitel den Konvergenzsatz für Rückwärtsmartingale, den wir in Abschnitt 12.2 

formulieren. 

Übung 12.1.1. Sei n ∈ N. Man zeige, dass sich jede symmetrische Funktion f : 

En → R schreiben lässt als f(x) =g � � 1 n 

n i=1 δxi 

� 

, wobei g (abhängig von f) 

geeignet zu wählen ist. ♣ 

Übung 12.1.2. Man leite (12.4) formal her. ♣ 

Übung 12.1.3. Seien X1,...,Xn austauschbare quadratintegrierbare Zufallsvariablen. 

Man zeige 

Cov[X1,X2] ≥− 1 

n − 1 Var[X1]. (12.6) 

Man gebe für n ≥ 2 ein (nichttriviales) Beispiel für Gleichheit in (12.6) an. ♣ 

Übung 12.1.4. Seien X1,X2,X3 ...austauschbare, quadratintegrierbare Zufallsvariablen. 

Man zeige, dass Cov[X1,X2] ≥ 0 gilt. ♣ 

Übung 12.1.5. Man zeige: Für jedes n ∈ N\{1} gibt es eine austauschbare Familie 

von Zufallsvariablen X1,...,Xn, die nicht zu einer unendlichen, austauschbaren 

Familie X1,X2,... fortgesetzt werden kann. ♣ 

l=1


12.2 Rückwärtsmartingale 

Die Begriffe der Filtration und des Martingals haben nirgends vorausgesetzt, dass 

die Zeitmenge I ⊂ [0, ∞) wäre. Wir wollen jetzt den Fall I = −N0 betrachten. 

Definition 12.11 (Rückwärtsmartingal). Sei F =(Fn)n∈−N0 eine Filtration und 

X = (Xn)n∈−N0 ein F-Martingal. Dann nennen wir X = (X−n)n∈N0ein Rückwärtsmartingal. 

Bemerkung 12.12. Ein Rückwärtsmartingal ist stets gleichgradig � integrierbar. Dies 

folgt aus Korollar 8.21 und der Tatsache, dass X−n = E[X0 

�F−n] für jedes n ∈ 

N0. ✸ 

Beispiel 12.13. Seien X1,X2,...austauschbare, reelle Zufallsvariablen. Für n ∈ N 

setze F−n = En und 

Y−n = 1 

n� 

Xi. 

n 

i=1 

Die folgende Rechnung zeigt, dass (Y−n)n∈N ein F-Rückwärtsmartingal ist: Adaptiertheit 

ist klar. Außerdem ist nach Satz 12.10 (mit k = n und ϕ(X1,...,Xn) = 

1 

n−1 (X1 + ...+ Xn−1)) 

E � � � 

Y−n+1 

� 

1 

F−n = 

n! 

� 

ϱ∈S(n) 

1 � � 

Xϱ(1) + ...+ Xϱ(n−1) = Y−n. 

n − 1 

Betrachten wir statt F die kleinere Filtration G =(Gn)n∈−N, diefür n ∈ N durch 

G−n = σ(Y−n,Xn+1,Xn+2,...) = σ(Y−n,Y−n−1,Y−n−2,...) definiert wird, 

also die von Y erzeugte Filtration, so ist Y natürlich auch bezüglich G ein Rückwärtsmartingal 

(siehe Bemerkung 9.29). ✸ 

Seien a

1 

n 

n� 

i=1 

Xi 

In der Tat: Setzen wir Y−n := 1 

n 

� 

−→ E[X1 �E] f.s. und in L1 . 

n→∞ 

12.2 Rückwärtsmartingale 227 

n� 

Xi, so ist (nach Beispiel 12.13) (Y−n)n∈N ein 

i=1 

Rückwärtsmartingal bezüglich (Fn)n∈−N =(E−n)n∈−N, und daher gilt 

Y−n 

� 

−→ Y−∞ = E[X1 

� 1 E] f.s. und in L . 

n→∞ 

Nun ist nach Beispiel 2.36(ii) Y−∞ schon T -messbar, also � (wegen T ⊂ E und der 

Turmeigenschaft der bedingten Erwartung) Y−∞ = E[X1 

�T ]. ✸ 

Beispiel 12.16 (Starkes Gesetz der großen Zahl). Sind Z1,Z2,...reell und u.i.v. 

mit E[|Z1|] < ∞, dann gilt 

1 

n 

n� 

Zi 

i=1 

n→∞ 

−→ E[Z1] fast sicher. 

Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist die terminale σ-Algebra T 

nämlich trivial, also gilt 

� 

E[Z1 

�T ]=E[Z1] fast sicher. 

In Korollar 12.19 werden wir sehen, dass � im Falle unabhängiger Zufallsvariablen 

auch E schon P-trivial ist, woraus E[Z1 

�E]=E[Z1] folgt. ✸ 

Wir schließen diesen Abschnitt, indem wir Beispiel 12.15 auf Mittelwerte von Funktionen 

von k ∈ N Variablen verallgemeinern. Diese Schlussfolgerung aus dem Konvergenzsatz 

für Rückwärtsmartingale wird im folgenden Abschnitt in essenzieller 

Weise benötigt. 

Satz 12.17. Sei X =(Xn)n∈N eine austauschbare Familie von Zufallsvariablen mit 

Werten in E, seik∈ N und ϕ : Ek → R messbar mit E[|ϕ(X1,...,Xk)|] < ∞. 

Wir schreiben ϕ(X) =ϕ(X1,...,Xk) und setzen An(ϕ) := 1 � 

n! ϱ∈S(n) ϕ(Xϱ ). 

Dann gilt 

E[ϕ(X) � � E]=E[ϕ(X) � �T ] = lim 

n→∞ An(ϕ) f.s. und in L 1 . (12.7) 

Beweis. Nach Satz 12.10 ist An(ϕ) =E[ϕ(X) � �En]. Alsoist(A−n(ϕ)) n≥k ein 

Rückwärtsmartingal bezüglich (E−n) 

n∈−N . Nach Satz 12.14 ist also 

An(ϕ) n→∞ 

−→ E � ϕ(X) � � 

�E f.s. und in L1 . (12.8) 

Wir können wie für das arithmetische Mittel (Beispiel 12.16) argumentieren, dass 

limn→∞ An(ϕ) schon T -messbar ist. In der Tat ist


# 

lim sup 

n→∞ 

� ϱ ∈ S(n) : ϱ−1 (i) ≤ l für ein i ∈{1,...,k} � 

=0 

n! 

für jedes l ∈ N. 

Der Wert von An(ϕ) hängt für große n also in zu vernachlässigender Weise von den 

ersten l Koordinaten ab. Zusammen mit (12.8) folgt (12.7). ✷ 

Korollar 12.18. Sei X =(Xn)n∈N austauschbar. Dann gibt es für jedes A ∈Eein 

B ∈T mit P[A △ B] =0. 

Man beachte, dass T ⊂ E ist, dass also die Aussage trivialerweise gilt, wenn wir 

die Rollen von E und T vertauschen. 

Beweis. Wegen E ⊂ σ(X1,X2,...) existiert nach dem Approximationssatz für 

Maße eine Folge von messbaren Mengen (Ak)k∈N mit Ak ∈ σ(X1,...,Xk) und 

P[A △ Ak] k→∞ 

−→ 0. SeiCk∈ Ek messbar mit Ak = {(X1,...,Xk) ∈ Ck} für 

jedes k ∈ N. Mitϕk := Ck folgt aus Satz 12.17 

� 

A = E[ A |E]=E lim 

k→∞ ϕk(X) 

� � 

� 

�E = lim 

k→∞ E[ϕk(X)|E] 

= lim 

k→∞ E[ϕk(X)|T ]=:ψ fast sicher. 

Es gibt also eine T -messbare Funktion ψ mit ψ = A fast sicher. Wir können nun 

annehmen, dass ψ = B für ein B ∈T. ✷ 

Als weitere Anwendung erhalten wir das 0-1 Gesetz von Hewitt und Savage [71]. 

Korollar 12.19 (0-1 Gesetz von Hewitt-Savage). Seien X1,X2,... u.i.v. Zufallsvariablen. 

Dann ist die austauschbare σ-Algebra P-trivial, also P[A] ∈{0, 1} für 

jedes A ∈E. 

Beweis. Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist T trivial. Die Aussage 

folgt also ohne weiteres aus Korollar 12.18. ✷ 

12.3 Satz von de Finetti 

Wir zeigen in diesem Abschnitt den Struktursatz für (abzählbar) unendliche, austauschbare 

Familien, den wir heuristisch schon am Ende von Abschnitt 12.1 motiviert 

hatten. Es soll also gezeigt werden, dass eine unendliche, austauschbare Familie 

von Zufallsvariablen eine unabhängige, identisch verteilte Familie ist gegeben 

die austauschbare σ-Algebra E. Ferner berechnen wir die bedingte Verteilung der 

einzelnen Zufallsvariablen. Als ersten Schritt geben wir eine Definition der bedingten 

Unabhängigkeit an.

12.3 Satz von de Finetti 229 

Definition 12.20 (Bedingte Unabhängigkeit). Seien (Ω,F, P) ein W-Raum, A⊂ 

F eine Teil-σ-Algebra sowie (Ai)i∈I eine beliebige Familie von Teil-σ-Algebren 

von F. Die Familie (Ai)i∈I heißt unabhängig gegeben A, falls für jedes endliche 

J ⊂ I und jede Wahl von Aj ∈Aj für j ∈ J gilt 

� � 

P 

j∈J 

� � 

Aj �A 

= � 

j∈J 

P � � 

Aj �A � 

fast sicher. (12.9) 

Eine Familie (Xi)i∈I von Zufallsvariablen auf (Ω,F, P) heißt unabhängig (und 

identisch verteilt) gegeben A, falls die erzeugten σ-Algebren (σ(Xi))i∈I unabhängig 

gegeben A sind (und die bedingten Verteilungen P[Xi ∈ · |A] alle gleich sind). 

Beispiel 12.21. Jede beliebige Familie (Ai)i∈I von σ-Algebren von F ist unabhängig 

gegeben F. In der Tat ist in diesem Fall nämlich (mit A = � 

j∈J Aj) 

P[A|F] = A = � 

j∈J 

Aj 

= � 

j∈J 

P � � 

Aj �F � 

fast sicher. ✸ 

Beispiel 12.22. Ist (Ai)i∈I eine unabhängige Familie von σ-Algebren, und ist A 

trivial, dann ist (Ai)i∈I unabhängig gegeben A. ✸ 

Beispiel 12.23. Es gibt keine ” Monotonie“ bei der bedingten Unabhängigkeit in folgendem 

Sinne: Sind F1, F2 und F3 σ-Algebren mit F1 ⊂F2 ⊂F3, und ist (Ai)i∈I 

unabhängig sowohl gegeben F1 wie auch gegeben F3, so folgt noch nicht die Unabhängigkeit 

gegeben F2. 

Um dies zu illustrieren, nehmen wir an, dass X und Y nichttriviale, unabhängige, 

reelle Zufallsvariablen sind. Wir wählen F1 = {∅,Ω}, F2 = σ(X + Y ) und F3 = 

σ(X, Y ). Dann sind σ(X) und σ(Y ) unabhängig gegeben F1 und gegeben F3, nicht 

jedoch gegeben F2. ✸ 

Sei X =(Xn)n∈N ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum 

(Ω,F, P) mit Werten in einem polnischen Raum E. SeiE die austauschbare σ- 

Algebra und T die terminale σ-Algebra. 

Satz 12.24 (de Finetti). Die Familie X =(Xn)n∈N ist genau dann austauschbar, 

wenn es eine σ-Algebra A⊂Fgibt, sodass (Xn)n∈N u.i.v. gegeben A ist. In 

diesem Fall kann A = E oder A = T gewählt werden. 

Beweis. ” =⇒ “ Sei X austauschbar, und sei A = E oder A = T .Für jedes 

n ∈ N sei fn : E → R eine messbare und beschränkte Abbildung. Setze 

ϕk(x1,...,xk) = 

k� 

fi(xi) für jedes k ∈ N. 

i=1


Dann ist (wobei An(ϕ) das symmetrisierte Mittel aus Satz 12.17 ist) 

wobei 

� 

An(ϕk−1)An(fk) = 1 

n! 

� Rn,k 

= 1 

n! 

� 

ϱ∈S(n) 

� 

ϱ∈S(n) 

� � � 

� ≤ 2 �ϕk−1� 

· 

∞ � � 

�fk � · 

∞ 1 1 

n! n 

=2 � � 

�ϕk−1 � · 

∞ � � 

�fk � · 

∞ 

Es folgt zusammen mit Satz 12.17 

ϕk−1(X ϱ ) 1 

n 

n� 

fk(Xi) 

i=1 

ϕk(X ϱ )+Rn,k = An(ϕk)+Rn,k, 

k − 1 

n 

� 

n� 

ϱ∈S(n) i=1 

n→∞ 

−→ 0. 

{i∈{ϱ(1),...,ϱ(k−1)}} 

An(ϕk−1) An(fk) n→∞ 

−→ E � ϕk(X1,...,Xk) � � A � f.s. und in L 1 . 

Andererseits gilt nach Satz 12.17 

und 

also 

An(ϕk−1) n→∞ 

−→ E � ϕk−1 (X1,...,Xk−1) � � A � 

An(fk) n→∞ 

−→ E � fk(X1) � �A � , 

E � ϕk(X1,...,Xk) � � A � = E � ϕk−1(X1,...,Xk−1) � � A � E � fk(X1) � � A � 

und induktiv 

� 

k� � 

� 

E fi(Xi) � 

�A � 

= 

i=1 

Mithin ist X u.i.v. gegeben A. 

k� 

E � fi(X1) � �A � . 

” ⇐= “ Sei nun X u.i.v. gegeben A für eine geeignete σ-Algebra A⊂F.Für 

jede beschränkte, messbare Funktion ϕ : En → R und für jedes ϱ ∈ S(n) ist dann 

E[ϕ(X) � � 

� ϱ A]=E[ϕ(X ) �A], also 

E[ϕ(X)] = E � E[ϕ(X) � �A] � = E � E[ϕ(X ϱ ) � �A] � = E[ϕ(X ϱ )]. 

Mithin ist X austauschbar. ✷ 

Mit M1(E) bezeichnen wir die Menge der W-Maße auf E, ausgestattet mit der Topologie 

der schwachen Konvergenz (siehe Definition 13.12 und Bemerkung 13.14), 

i=1

12.3 Satz von de Finetti 231 

das heißt: Eine Folge (μn)n∈N in M1(E) konvergiert genau dann schwach gegen 

ein μ ∈ M1(E), wenn � n→∞ 

fdμn −→ � fdμfür jede stetige und beschränkte 

Funktion f : E → R. Wir werden die schwache Konvergenz in Kapitel 13 genauer 

untersuchen. An dieser Stelle wollen wir die Topologie lediglich verwenden, 

um M1(E) zu einem Messraum zu machen, nämlich mit der Borel’schen 

σ-Algebra B(M1(E)). Wirkönnen jetzt Zufallsvariablen mit Werten in M1(E) 

betrachten, so genannte zufällige Maße (vergleiche Kapitel 24.1). Für x ∈ EN sei 

ξn(x) = 1 �n δxi n i=1 ∈M1(E). 

Definition 12.25. Das zufällige Maß Ξn := ξn(X) := 1 

n 

Verteilung von X1,...,Xn. 

Wir betrachten die selben Voraussetzung wie in Satz 12.24. 

n� 

i=1 

δXi 

heißt empirische 

Satz 12.26 (de Finetti Darstellungssatz). Die Familie X =(Xn)n∈N ist genau 

dann austauschbar, wenn es eine σ-Algebra A⊂Fgibt und eine A-messbare Zufallsvariable 

Ξ∞ : Ω →M1(E) mit der Eigenschaft: gegeben Ξ∞ ist (Xn)n∈N 

u.i.v. mit L[X1 |Ξ∞] =Ξ∞. In diesem Fall kann A = E oder A = T gewählt 

werden. 

Beweis. ” ⇐= “ Dies ist klar wie im Beweis von Satz 12.24. 

” =⇒ “ Sei X austauschbar. Dann existiert nach Satz 12.24 eine σ-Algebra A⊂ 

F, sodass (Xn)n∈N u.i.v. gegeben A ist. Da E polnisch ist, existiert � eine reguläre 

Version der bedingten Verteilung (siehe Satz 8.36) Ξ∞ := L[X1 �A].Für messbare 

A1,...,An ⊂ E ist P[Xi ∈ Ai |A]=Ξ∞(Ai) für jedes i =1,...,n, also 

� n � 

� � 

P {Xi ∈ Ai} � 

�Ξ∞ � � � n � 

� � 

= E P {Xi ∈ Ai} � 

�A �� 

�� 

Ξ∞ 

i=1 

i=1 

i=1 

� 

�n 

� 

� 

= E Ξ∞(Ai) � 

� Ξ∞ 

� 

= 

n� 

Ξ∞(Ai). 

Mithin ist L[X |Ξ∞] =Ξ ⊗N 

∞ . ✷ 

Bemerkung 12.27. In dem beschriebenen Fall ist nach dem starken Gesetz der 

großen Zahl für jede stetige und beschränkte Funktion f : E → R 

� 

� 

fdΞn 

n→∞ 

−→ fdΞ∞ fast sicher. 

Ist E zudem lokalkompakt (zum Beispiel E = R d ), so kann man sogar zeigen, dass 

Ξn 

i=1 

n→∞ 

−→ Ξ∞ fast sicher. ✸


Beispiel 12.28. Seien (Xn)n∈N austauschbar und Xn ∈{0, 1}. Dann existiert eine 

Zufallsvariable Y : Ω → [0, 1], sodass für endliches J ⊂ N 

P � Xj =1 für jedes j ∈ J � � Y � = Y #J . 

Mit anderen Worten: Gegeben Y ist (Xn)n∈N unabhängig und BerY -verteilt. Vergleiche 

Beispiel 12.3(iii). ✸ 

Beispiel 12.29. (Pólya’sches Urnenmodell) (Siehe Beispiel 14.38 und [127].) In 

einer Urne seien anfangs N Kugeln, davon M schwarz und N − M weiß. In jedem 

Schritt wird eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben 

Farbe wieder zurückgelegt. Sei 

� 


Xn := 

0, sonst, 

und Sn = �n i=1 Xi. Dannist 

P � Xn =1 � � Sn−1 � 

+ M 

X1,X2,...,Xn−1 = 

N + n − 1 . 

Sukzessive erhält man für x1,...,xn ∈{0, 1} und sk = �k i=1 xi 

P � Xi = xi für jedes i =1,...,n � 

= � 

� 

= (N − 1)! 

i≤n: xi=1 

M + si−1 

N + i − 1 

i≤n: xi=0 

(N − 1+n)! · (M + sn − 1)! 

(M − 1)! 

N + i − 1 − M − si−1 

N + i − 1 

� 

N − M − 1+(n− sn) � ! 

. 

(N − M − 1)! 

Die rechte Seite hängt nur von sn und nicht von der Reihenfolge der x1,...,xn ab. 

1 

Also ist (Xn)n∈N austauschbar. Sei Z = lim 

n→∞ nSn.Dannist(Xn)n∈Nunabhängig und identisch BerZ-verteilt gegeben Z. Also ist (siehe Beispiel 12.28) 

E [Z n ]=E � P � X1 = ···= Xn =1 � �� 

�Z = P [Sn = n] 

= (N − 1)! 

(M − 1)! 

(M + n − 1)! 

(N + n − 1)! 


Nach Übung 5.1.2 sind dies sind aber gerade die Momente der Beta-Verteilung 

βM,N−M auf [0, 1] mit Parametern (M,N − M) (siehe Beispiel 1.107(ii)). Durch 

Angabe der Momente ist eine Verteilung auf [0, 1] eindeutig bestimmt (Satz 15.4). 

Also gilt Z ∼ βM,N−M . ✸

13 Konvergenz von Maßen 

In der Wahrscheinlichkeitstheorie interessiert man sich für Verteilungen, die durch 

das Zusammenwirken vieler zufälliger Einflüsse zustandekommen. Oftmals lässt 

sich eine brauchbare Idealisierung erreichen, indem man Grenzwerte solcher Verteilungen 

anschaut, zum Beispiel, wenn die Anzahl der Einflüsse nach Unendlich geht. 

Ein Beispiel ist die Konvergenz der Anzahl eingetretener Ereignisse bei vielen seltenen 

Ereignissen gegen die Poisson-Verteilung (siehe Satz 3.7). Vielfach sind aber 

auch Skalierungen der ursprünglichen Verteilung notwendig, um das wesentliche 

Fluktuationsverhalten zu erfassen, etwa im Zentralen Grenzwertsatz. Während diese 

Sätze mit reellen Zufallsvariablen auskommen, werden wir auch Grenzwertsätze 

kennen lernen, bei denen die Zufallsvariablen Werte in allgemeineren Räumen annehmen, 

beispielsweise im Raum aller stetigen Funktionen, wenn wir die zufällige 

zeitliche Bewegung eines Teilchens modellieren. 

In diesem Kapitel wird der Begriff der schwachen Konvergenz von W-Maßen auf 

allgemeinen (meist polnischen) Räumen eingeführt und untersucht. Hierzu ist eine 

solide Kenntnis von mengentheoretischer Topologie notwendig. Wir beginnen daher 

mit einem kurzen Überblick über die verwendeten topologischen Begriffe und 

Sätze. 

Dieses Kapitel soll nur eine knappe Einführung in die für die Wahrscheinlichkeitstheorie 

wichtigsten Sätze liefern. Als ausführlichere Darstellungen seien [17] und 

[83] empfohlen. 

Beim ersten Lesen mag der Leser dieses eher analytisch geprägte Kapitel vielleicht 

überspringen. In diesem Fall genügt es fürs Erste, sich mit den Definitionen von 

schwacher Konvergenz und Straffheit (Definition 13.12 und 13.26) vertraut zu machen, 

sowie mit den Aussagen des Portemanteau Theorems (Satz 13.16) und des 

Satzes von Prohorov (Satz 13.29). 

13.1 Wiederholung Topologie 

Wir geben kursorisch einige Definitionen und Aussagen der mengentheoretischen 

Topologie an. Zum Nachlesen eignen sich etwa [90] oder [133].

234 13 Konvergenz von Maßen 

Im Folgenden sei stets (E,τ) ein topologischer Raum mit der Borel’schen σ- 

Algebra E = B(E) (vergleiche Definition 1.20 und 1.21). 

(E,τ) heißt Hausdorffraum, falls zu je zwei Punkten x, y ∈ E mit x �= y offene 

Mengen U, V existieren mit x ∈ U, y ∈ V und U ∩ V = ∅. IstA⊂ E, so 

bezeichnen wir mit A den Abschluss von A, mit A◦ das Innere und mit ∂A den 

Rand von A. Eine Menge A ⊂ E heißt dicht, falls A = E. 

(E,τ) heißt metrisierbar, falls es eine Metrik d auf E gibt, sodass τ durch die 

offenen Kugeln Bε(x) :={y ∈ E : d(x, y) 0, die ganz in U liegt und relativ kompakt ist. Indem 

man εx eventuell nochmal halbiert, kann man annehmen, dass sogar der Abschluss 

dieser Kugel in U liegt. Da K kompakt ist, gibt es endlich viele x1,...,xn ∈ K 

mit K ⊂ V := �n i=1 Bεx (xi). Nach Konstruktion ist L = V ⊂ U kompakt.) 

i 

Einen in der Wahrscheinlichkeitstheorie wichtigen Typ von topologischen Räumen 

stellen wir in einer separaten Definition vor.

13.1 Wiederholung Topologie 235 

Definition 13.1. Ein topologischer Raum (E,τ) heißt polnischer Raum, falls er 

vollständig metrisierbar und separabel ist. 

Polnische Räume sind beispielsweise abzählbare, diskrete Räume (nicht jedoch Q 

mit der üblichen Topologie), die euklidischen Räume Rn , aber auch der Raum 

C([0, 1]) der stetigen Funktionen [0, 1] → R, ausgestattet mit der Supremumsnorm 

� · �∞. Praktisch sind alle Räume, die in der Wahrscheinlichkeitstheorie bedeutsam 

sind, polnische Räume. 

Sei (E,d) ein metrischer Raum. Eine Menge A ⊂ E heißt total beschränkt, falls 

n� 

es zu jedem ε>0 endlich viele Punkte x1,...,xn ∈ A gibt mit A ⊂ Bε(xi). 

Kompakte Mengen sind offenbar total beschränkt. In polnischen Räumen gilt sogar: 

Lemma 13.2. Sei (E,τ) polnisch mit vollständiger Metrik d. Eine Teilmenge A ⊂ 

E ist genau dann total beschränkt bezüglich d,wennA relativ kompakt ist. 


Im Folgenden sei stets (E,τ) ein topologischer Raum mit Borel’scher σ-Algebra 

E = B(E) :=σ(τ) und vollständiger Metrik d.Für Maße auf (E,E) führen wir die 

folgenden Regularitätsbegriffe ein. 

Definition 13.3. Ein σ-endliches Maß μ auf (E,E) heißt 

(i) lokal endlich oder Borel-Maß, falls es zu jedem Punkt x ∈ E eine offene 

Menge U ∋ x gibt mit μ(U) < ∞, 

(ii) regulär von innen, falls 

μ(A) =sup � μ(K) : K ⊂ A ist kompakt � 

(iii) regulär von außen, falls 

μ(A) =inf � μ(U) : U ⊃ A ist offen � 

(iv) regulär, falls μ von innen und von außen regulär ist, 

(v) Radon-Maß, falls μ ein von innen reguläres Borel-Maß ist. 

i=1 

für jedes A ∈E, (13.1) 

für jedes A ∈E, (13.2) 

Definition 13.4. Wir führen die folgenden Mengen von Maßen auf E ein. 

M(E) := � Radon-Maße auf (E,E) � , 

Mf (E) := � endliche Maße auf (E,E) � , 

M1(E) := � μ ∈Mf (E) :μ(E) =1 � , 

M≤1(E) := � μ ∈Mf (E) :μ(E) ≤ 1 � .


Die Elemente von M≤1(E) nennen wir Sub-Wahrscheinlichkeitsmaße auf E. 

Ferner vereinbaren wir die folgende Notation für Mengen von stetigen Funktionen 

C(E) := � f : E → R ist stetig � , 

Cb(E) := � f ∈ C(E) ist beschränkt � , 

Cc(E) := � f ∈ C(E) hat kompakten Träger � ⊂ Cb(E). 

Der Träger einer reellen Funktion f ist dabei f −1 (R \{0}). 

Ist nichts anderes vereinbart, so sind die Vektorräume C(E), Cb(E) und Cc(E) mit 

der Supremumsnorm ausgestattet. 

Lemma 13.5. Ist E polnisch und μ ∈Mf (E), so existiert zu jedem ε>0 eine 

kompakte Menge K ⊂ E mit μ(E \ K) 0. Zu jedem n ∈ N existieren xn 1 ,xn 2 ,... ∈ E mit E = 

∞� 

B1/n(xn i ).Wähle Nn 

� Nn � 

∈ N so, dass μ E \ B1/n (x n � 

i ) < ε 

. Setze 

2n i=1 

A := 

∞� 

Nn � 

n=1 i=1 

i=1 

B 1/n (x n i ) . 

Nach Konstruktion ist A total beschränkt. Da E polnisch ist, ist also A kompakt. 

Außerdem folgt μ � E \ A � ≤ μ � E \ A � < ∞� 

ε 2−n = ε. ✷ 

Satz 13.6. Ist E polnisch und μ ∈ Mf (E), soistμ regulär. Speziell ist dann 

Mf (E) ⊂M(E). 

Beweis. Sei B ∈ E und ε > 0. Nach dem Approximationssatz (Satz 1.65 mit 

A = τ) gibt es eine offene Menge U ⊃ B mit μ(U \ B)


Da jedes Kn beschränkt ist, ist λ(Kn) < ∞. Es existiert also nach dem vorangehenden 

Satz zu jedem n ∈ N eine offene Menge Un ⊃ A ∩ Kn mit λ(Un \ A) 0 LipK(E; F ) den Raum der Lipschitzstetigen 

Funktionen auf E. 

Wir schreiben kurz LipK(E) :=LipK(E; R) und Lip(E) :=Lip(E; R). 

Definition 13.9. Sei F ⊂ M(E) eine Familie von Radon-Maßen. Eine Familie C 

messbarer Abbildungen E → R heißt trennende Familie für F, falls für je zwei 

Maße μ, ν ∈Fgilt: 

�� 

fdμ= fdν für jedes f ∈C∩L 1 (μ) ∩L 1 � 

(ν) =⇒ μ = ν. 

Lemma 13.10. Sei (E,d) ein metrischer Raum. Zu jeder abgeschlossenen Menge 

A ⊂ E und jedem ε>0 gibt es eine Lipschitz-stetige Abbildung ρA,ε : E → [0, 1] 

mit 

� 

1, falls x ∈ A, 

ρA,ε(x) = 

0, falls d(x, A) ≥ ε. 

Beweis. Sei ϕ : R → [0, 1], t ↦→ (t ∨ 0) ∧ 1. Für x ∈ E setze ρA,ε(x) = 

1 − ϕ � ε −1 d(x, A) � . ✷ 

Satz 13.11. Sei (E,d) ein metrischer Raum. 

(i) Lip1(E;[0, 1]) ist trennend für M(E). 

(ii) Ist E zudem lokalkompakt, so ist Cc(E) ∩ Lip1(E;[0, 1]) trennend für M(E).


Beweis. (i) Seien μ1,μ2 ∈ M(E) mit � fdμ1 = � fdμ2 für jedes f ∈ 

Lip 1(E;[0, 1]). IstA ∈E,soistμi(A) =sup{μi(K) : K ⊂ A ist kompakt}, 

da das Radon-Maß μi von innen regulär ist (i =1, 2). Es reicht also zu zeigen, dass 

μ1(K) =μ2(K) für jede kompakte Menge K. 

Sei nun K ⊂ E kompakt. Da μ1 und μ2 lokal endlich sind, existiert zu jedem 

x ∈ K eine offene Menge Ux ∋ x mit μ1(Ux) < ∞ und μ2(Ux) < ∞. Da 

K kompakt ist, können wir endlich viele Punkte x1,...,xn ∈ K finden, sodass 

K ⊂ U := �n j=1 Uxj . Nach Konstruktion ist μi(U) < ∞, also U ∈ L1 (μi) für 

i =1, 2. DaUc abgeschlossen ist, und U c ∩ K = ∅, istδ := d(U c ,K) > 0. Für 

die Abbildung ρK,ε aus Lemma 13.10 ist also K ≤ ρK,ε ≤ U ∈ L1 ε→0 

(μi), falls 

ε ∈ (0,δ). WegenρK,ε −→ K �folgt aus dem Satz über majorisierte Konvergenz 

(Korollar 6.26) μi(K) = limε→0 ρK,ε dμi. Nun ist aber ερK,ε ∈ Lip1(E;[0, 1]) 

für jedes ε>0, also nach Voraussetzung 

� 

ρK,ε dμ1 = ε −1 

� 

(ερK,ε) dμ1 = ε −1 

� 

� 

(ερK,ε) dμ2 = ρK,ε dμ2. 

Es folgt μ1(K) =μ2(K), also μ1 = μ2. 

(ii) Ist E lokalkompakt, so können wir in (i) die Umgebungen Ux zusätzlich relativ 

kompakt wählen. Es ist dann U relativ kompakt, also hat ρK,ε für ε ∈ (0,δ) einen 

kompakten Träger, ist also in Cc(E). ✷ 

Übung 13.1.1. (i) Man zeige, dass C([0, 1]) eine abzählbare, dichte Teilmenge 

besitzt. 

(ii) Man zeige, dass der Raum (Cb([0, ∞)), � · �∞) der stetigen, beschränkten 

Funktionen mit der Supremumsnorm nicht separabel ist. 

(iii) Man zeige, dass der Raum Cc([0, ∞)) der stetigen Funktionen mit kompaktem 

Träger, ausgestattet mit der Supremumsnorm, separabel ist. ♣ 

Übung 13.1.2. Man zeige: Ist μ ein lokal endliches Maß, so ist μ(K) < ∞ für jede 

kompakte Menge K. ♣ 

Übung 13.1.3 (Satz von Lusin). Sei Ω ein polnischer Raum, μ ein σ-endliches 

Maß auf (Ω,B(Ω)) und f : Ω → R eine Abbildung. Man zeige, dass die beiden 

folgenden Aussagen äquivalent sind: 

(i) Es gibt eine Borel-messbare Abbildung g : Ω → R mit f = g μ-fast überall. 

(ii) Zu jedem ε>0 gibt es eine kompakte Menge Kε mit μ(Ω \ Kε)


Übung 13.1.4. Sei U eine Familie offener Intervalle in R so, dass W := � 

U∈U U 

endliches Lebesgue-Maß λ(W ) hat. Man zeige: Für jedes ε>0 gibt es endlich 

viele, paarweise disjunkte Mengen U1,...,Un ∈Umit 

n� 

λ(Ui) > 

i=1 

1 − ε 

3 

λ(W ). 

Hinweis: Man wähle eine endliche Familie U ′ ⊂ U, sodass � 

U∈U 

mindestens (1 − ε)λ(W ) hat. Hieraus wähle man eine nach absteigender Länge 

sortierte maximale Folge U ′′ disjunkter Intervalle aus und zeige, dass jedes U ∈U ′ 

in (x − 3a, x +3a) liegt für ein (x − a, x + a) ∈U ′′ . ♣ 

′ U das Maß 

Übung 13.1.5. Sei C ⊂ Rd eine offene, beschränkte und konvexe Menge und 

U ⊂ {x + rC : x ∈ Rd ,r > 0} so gewählt, dass W := � 

U∈U U endliches 

Lebesgue-Maß λd (W ) hat. Man zeige: Für jedes ε>0 gibt es endlich viele, paarweise 

disjunkte Mengen U1,...,Un ∈Umit 

n� 

λ d 1 − ε 

(Ui) > λ(W ). 

3d i=1 

Man überlege sich ein Gegenbeispiel, das zeigt, dass man auf die Bedingung der 

Ähnlichkeit der offenen Mengen aus U nicht ohne Weiteres verzichten kann. ♣ 

Übung 13.1.6. Sei μ ein Radon-Maß auf R d und A ∈B(R d ) eine μ-Nullmenge. 

Man zeige mit Hilfe von Übung 13.1.5, dass für jede beschränkte, konvexe und 

offene Menge C ⊂ R d mit 0 ∈ C gilt: 

μ(x + rC) 

lim 

r↓0 rd =0 für λ d – fast alle x ∈ A. 

Man folgere: Ist F die Verteilungsfunktion eines Stieltjes-Maßes μ auf R und A ∈ 

F (x) =0für λ – fast alle x ∈ A. ♣ 

B(R) eine μ-Nullmenge, so gilt d 

dx 

Übung 13.1.7 (Hauptsatz der Differential- und Integralrechnung). Sei f ∈ 

L 1 (R d ), μ = fλ d und C ⊂ R d offen, konvex und beschränkt mit 0 ∈ C. Man 

zeige: 

μ(x + rC) 

lim 

r↓0 rd λd (C) = f(x) für λd – fast alle x ∈ R d . 

Man folgere für den Fall d =1den Hauptsatz der Differential- und Integralrechnung: 

� 

d 

fdλ= f(x) 

dx [0,x] 

für λ – fast alle x ∈ R. 

Hinweis: Verwende Übung 13.1.6 mit μq(dx) =(f(x) − q) + λd (dx) für q ∈ Q, 

sowie die Ungleichung 

μ(x + rC) 

. ♣ 

rd λd (C) ≤ q + μq(x + rC) 

rd λd (C)


13.2 Schwache und vage Konvergenz 

Nachdem wir in Satz 13.11 gesehen haben, dass Integrale stetiger, beschränkter 

Funktionen, beziehungsweise für lokalkompaktes E sogar stetiger Funktionen mit 

kompaktem Träger, ein Radon-Maß vollständig bestimmen, liegt es nahe, Cb(E) 

und Cc(E) auch als Klassen von Testfunktionen für Konvergenzbegriffe für Maße 

heranzuziehen. 

Definition 13.12 (Schwache und vage Konvergenz). Sei E ein metrischer Raum. 

(i) Seien μ, μ1,μ2,... ∈Mf (E). Wir sagen, dass (μn)n∈N schwach (weakly) 

gegen μ konvergiere, in Formeln μn 

n→∞ 

−→ μ schwach oder μ =w-lim 

n→∞ μn, 

falls � 

� 

fdμn 

n→∞ 

−→ fdμ für jedes f ∈ Cb(E). 

(ii) Es seien μ, μ1,μ2,...∈M(E). Wir sagen, dass (μn)n∈N vag (vaguely) gegen 

μ konvergiert, in Formeln μn 

n→∞ 

−→ μ vag oder μ =v-lim 

n→∞ μn, falls 

� 

� 

fdμn 

n→∞ 

−→ fdμ für jedes f ∈ Cc(E). 

Bemerkung 13.13. Ist E polnisch, so ist nach Satz 13.6 und 13.11 der schwache 

Limes eindeutig. Das Gleiche gilt für den vagen Limes, falls E lokalkompakt ist.✸ 

Bemerkung 13.14. (i) In der Funktionalanalysis wird die hier eingeführte schwache 

Konvergenz die Schwach ∗ -Konvergenz genannt. 

(ii) Die schwache Konvergenz erzeugt auf Mf (E) die schwache Topologie τw 

(oder Schwach ∗ -Topologie in der Funktionalanalysis). Dies ist die gröbste Topologie, 

sodass für jedes f ∈ Cb(E) die Abbildung Mf (E) → R, μ ↦→ � fdμstetig 

ist. Ist E separabel, so kann man zeigen, dass (Mf (E),τw) metrisierbar ist, zum 

Beispiel mit der so genannten Prohorov-Metrik 

wobei 

dP (μ, ν) :=max{d ′ P (μ, ν),d ′ P (ν, μ)}, (13.3) 

d ′ P (μ, ν) :=inf{ε >0: μ(B) ≤ ν(B ε )+ε für jedes B ∈B(E)}, (13.4) 

und wo B ε = {x : d(x, B)

13.2 Schwache und vage Konvergenz 241 

lokalkompakt, so ist (M(E),τv) ein Hausdorffraum. Ist E zudem polnisch, so ist 

(M(E),τv) ebenfalls polnisch (siehe etwa [83, Sektion 15.7]). ✸ 

Während bei der schwachen Konvergenz stets auch Konvergenz der Gesamtmassen 

gilt (schließlich ist 1 ∈ Cb(E)), kann bei der vagen Konvergenz ein Massendefekt 

im Limes auftreten, jedoch kein Massenzuwachs, wie das folgende Lemma zeigt. 

Lemma 13.15. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1,μ2,... 

n→∞ 

∈Mf (E) mit μn −→ μ vag. Dann gilt 

μ(E) ≤ lim sup μn(E). 

n→∞ 

Beweis. Sei (fN )N∈N eine Folge in Cc(E; [0, 1]) mit fN ↑ 1. Dann gilt 

� 

� 

μ(E) =sup 

N∈N 

fN dμ =suplim 

N∈N n→∞ 

� 

fN dμn 

≤ lim sup sup 

n→∞ 

N∈N 

fN dμn = lim sup μn(E). ✸ 

n→∞ 

Die Folge (δ 1/n)n∈N von W-Maßen auf R konvergiert offenbar schwach gegen δ0, 

nicht jedoch in der Totalvariationsnorm: Für die abgeschlossene Menge (−∞, 0] 

gilt nämlich limn→∞ δ 1/n((−∞, 0]) = 0 < 1=δ0((−∞, 0]). Etwas lax gesagt, 

kann in abgeschlossene Mengen im schwachen Limes Masse an der Rändern einwandern 

(nicht jedoch auswandern). Die komplementäre Aussage gilt für offene 

Mengen, denn limn→∞ δ 1/n((0, ∞)) = 1 > 0=δ0((0, ∞)), hier kann also Masse 

auswandern, nicht jedoch einwandern. Tatsächlich kann man die schwache Konvergenz 

über diese Eigenschaft charakterisieren. Im folgenden Satz werden wir ein 

ganzes Bündel solcher Aussagen ” auf einen Kleiderbügel (französisch: portemanteau) 

hängen“. 

Für messbares g : Ω → R sei Ug die Menge der Unstetigkeitsstellen von g. Beachte, 

dass Ug Borel-messbar ist (nach Übung 1.1.3).


Satz 13.16 (Portemanteau Theorem). Sei E ein metrischer Raum, und seien 

μ, μ1, μ2,...∈M≤1(E). Dann sind äquivalent: 

(i) μ =w-lim 

n→∞ μn. 

(ii) � fdμn 

(iii) � fdμn 

n→∞ 

−→ � fdμ für alle beschränkten, Lipschitz-stetigen f. 

n→∞ 

−→ � fdμfür alle beschränkten, messbaren f mit μ(Uf )=0. 

(iv) Es gilt lim inf 

n→∞ μn(E) ≥ μ(E) und lim sup μn(F ) ≤ μ(F ) für alle abge- 

n→∞ 

schlossenen F ⊂ E. 

(v) Es gilt lim sup 

G ⊂ E. 

n→∞ 

μn(E) ≤ μ(E) und lim inf 

n→∞ μn(G) ≥ μ(G) für alle offenen 

(vi) lim 

n→∞ μn(A) =μ(A) für alle messbaren A mit μ(∂A) =0. 

Ist E auch lokalkompakt und polnisch, so sind zudem jeweils äquivalent 

(vii) μ =v-lim 

n→∞ μn und μ(E) = lim 

n→∞ μn(E). 

(viii) μ =v-lim 

n→∞ μn und μ(E) ≥ lim 

n→∞ μn(E). 

Beweis. ” (iv) ⇐⇒ (v) =⇒ (vi)“ Dies ist trivial. 

” (iii) =⇒ (i) =⇒ (ii)“ Dies ist trivial. 

” (ii) =⇒ (iv)“ Die Konvergenz der Gesamtmassen folgt mit der Testfunktion 

1 ∈ Lip(E;[0, 1]). SeiFabgeschlossen und ρF,ε wie in Lemma 13.10. Dann ist 

� 

� 

lim sup μn(F ) ≤ inf 

n→∞ 

ε>0 lim 

n→∞ 

weil ρF,ε(x) ε→0 

−→ F (x) für jedes x ∈ E. 

ρF,ε dμn =inf 

ε>0 

” (vii) =⇒ (viii)“ Dies ist klar nach Lemma 13.15. 

ρF,ε dμ = μ(F ), 

” (i) =⇒ (vii)“ Wegen Cc(E) ⊂ Cb(E) und 1 ∈ Cb(E) ist dies klar. 

” (vii) =⇒ (v)“ Sei G offen und ε>0. Daμ von innen regulär ist (Satz 13.6), 

gibt es ein Kompaktum K ⊂ G mit μ(G) − μ(K) 0 und ρK,δ wie 

in Lemma 13.10. Dann ist K ≤ ρK,δ ≤ L, also ρK,δ ∈ Cc(E) und daher 

� 

� 

ρK,δ dμn = ρK,δ dμ ≥ μ(K) ≥ μ(G) − ε. 

lim inf 

n→∞ μn(G) ≥ lim inf 

n→∞ 

Indem wir ε → 0 gehen lassen, folgt die Aussage von (v).


” (vi) =⇒ (iii)“ Sei f : E → R beschränkt und messbar mit μ(Uf )=0.Wir 

machen die elementare Beobachtung, dass für jedes D ⊂ R gilt 

∂f −1 (D) ⊂ f −1 (∂D) ∪ Uf . (13.5) 

In der Tat: Falls f in x ∈ E stetig ist, so existiert zu jedem δ>0 ein ε(δ) > 0 mit 

f(Bε(δ)(x)) ⊂ Bδ(f(x)). Istx∈ ∂f−1 (D), so existieren y ∈ f −1 (D) ∩ Bε(δ)(x) und z ∈ f −1 (Dc ) ∩ Bε(δ)(x). Alsoistf(y) ∈ Bδ(f(x)) ∩ D �= ∅ und f(z) ∈ 

Bδ(f(x)) ∩ Dc �= ∅, also f(x) ∈ ∂D. 

Sei ε>0. Offenbar ist die Menge A := � y ∈ R : μ � f −1 ({y}) � > 0 � der Atome 

des endlichen Maßes μ ◦ f −1 höchstens abzählbar. Daher gibt es N ∈ N und y0 ≤ 

−�f�∞


� 

lim sup�E[f(Yn)] 

− E[f(X)] 

n→∞ 

� � 

� 

≤ lim sup �E[f(X)] − E[f(Xn)] 

n→∞ 

� � 

� + lim sup �E[f(Xn) − f(Yn)] 

n→∞ 

� � =0. ✷ 

n→∞ 

Korollar 13.19. Gilt Xn −→ X stochastisch, so gilt auch Xn 

Die Umkehrung ist im Allgemeinen falsch. 

D 

−→ X, n →∞. 

Beispiel 13.20. Sind X, X1,X2,...u.i.v. (mit nicht-trivialer Verteilung), so gilt trivialerweise 

Xn 

D 

−→ X, jedoch nicht Xn 

n→∞ 

−→ X stochastisch. ✸ 

Man erinnere sich an die Definition der Verteilungsfunktion eines Wahrscheinlichkeitsmaßes 

in Definition 1.59. 

Definition 13.21. Seien F, F1,F2,... Verteilungsfunktionen von W-Maßen auf R. 

n→∞ 

Wir sagen (Fn)n∈N konvergiere schwach gegen F , in Formeln Fn =⇒ F , 

Fn 

D 

−→ F oder F =w-lim 

n→∞ Fn,wenn 

F (x) = lim 

n→∞ Fn(x) für alle Stetigkeitspunkte x von F. (13.6) 

Sind F, F1,F2,... Verteilungsfunktionen von Sub-Wahrscheinlichkeitsmaßen, so 

setzen wir F (∞) := limx→∞ F (x) und fordern für die schwache Konvergenz 

zusätzlich F (∞) ≥ lim supn→∞ Fn(∞). 

Man beachte, dass aus (13.6) stets F (∞) ≤ lim infn→∞ Fn(∞) folgt. Gilt nun 

D 

−→ F , so ist also F (∞) = limn→∞ Fn(∞). 

Fn 

Beispiel 13.22. Ist F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes auf 

R und Fn(x) :=F (x + n) für x ∈ R,sokonvergiert(Fn)n∈N punktweise gegen 1. 

Dies ist jedoch keine Verteilungsfunktion, da diese für x →−∞gegen Null konvergieren. 

Ist andererseits Gn(x) =F (x − n),sokonvergiert(Gn)n∈N punktweise 

gegen G ≡ 0. Nun ist aber G(∞) =0< lim sup n→∞ Gn(∞) =1, also liegt auch 

in diesem Falle keine schwache Konvergenz vor. In der Tat: es tritt jeweils im Limes 

ein Massendefekt ein (bei den Fn nach links, bei den Gn nach rechts). Die Definition 

der schwachen Konvergenz von Verteilungsfunktionen ist aber so angelegt, dass 

kein Massendefekt im Limes eintreten darf. ✸ 

Satz 13.23. Seien μ, μ1,μ2,... ∈M≤1(R) mit zugehörigen Verteilungsfunktionen 

F, F1,F2,... Dann sind äquivalent 

(i) μ =w-lim 

n→∞ μn, 

(ii) Fn 

D 

−→ F .


Beweis. (i) =⇒ (ii)“ Sei F in x stetig. Dann ist μ 

” � ∂(−∞,x] � = μ({x}) =0. 

Nach Satz 13.16 gilt Fn(x) =μn ((−∞,x]) n→∞ 

−→ μ((−∞,x]) = F (x). 

” (ii) =⇒ (i)“ Sei f ∈ Lip1(R;[0, 1]). Nach Satz 13.16 reicht es zu zeigen, dass 

� 

fdμn 

n→∞ 

−→ 

� 

fdμ. (13.7) 

Sei ε>0. Wähle N ∈ N und N +1Stetigkeitspunkte y0


Beweis. Nach Übung 1.1.3 ist Uϕ ⊂ E1 Borel-messbar. Also sind die angegebenen 

Bedingungen sinnvoll. 

(i) Sei f ∈ Cb(E2).Dannistf◦ϕ beschränkt und messbar, und es ist Uf◦ϕ ⊂ Uϕ, 

also μ(Uf◦ϕ) =0. Nach Satz 13.16 ist 

� 

� 

lim 

n→∞ 

fd � μn ◦ ϕ −1� = lim 

n→∞ 

(f ◦ ϕ) dμn 

� 

� 

= (f ◦ ϕ) dμ = fd � μ ◦ ϕ −1� . 

(ii) Dies ist klar, wegen P ϕ(X) = PX ◦ ϕ −1 . ✷ 

Übung 13.2.1. Man zeige: Für d ′ P aus (13.4) und μ, ν ∈M1(E) gilt: dP (μ, ν) = 

d ′ P (μ, ν) =d′ P (ν, μ). ♣ 

Übung 13.2.2. Man zeige: Die Topologie der schwachen Konvergenz auf Mf (E) 

ist gröber als die von der Totalvariation (siehe Korollar 7.45) erzeugte Topologie auf 

n→∞ 

n→∞ 

Mf (E). Das heißt, es gilt �μn − μ�TV −→ 0,sogiltμn−→ 

μ schwach. ♣ 

Übung 13.2.3. Sei E = R und μn = 1 �n n k=0 δk/n sowie μ = λ � � das auf [0, 1] 

[0,1] 

eingeschränkte Lebesgue-Maß. Man zeige, dass μ =w-lim 

n→∞ μn. ♣ 

Übung 13.2.4. Sei E = R und λ das Lebesgue-Maß auf R. Für n ∈ N sei μn = 

λ � � . Man zeige: λ =v-lim 

[−n,n] 

n→∞ μn, jedoch ist (μ)n∈N nicht schwach konvergent. ♣ 

Übung 13.2.5. Sei E = R und μn = δn für n ∈ N. Man zeige: v-lim 

n→∞ μn =0, 

jedoch ist (μn)n∈N nicht schwach konvergent. ♣ 

Übung 13.2.6 (Lévy-Abstand). Für zwei Verteilungsfunktionen F und G von 

Wahrscheinlichkeitsmaßen auf R wird der Lévy-Abstand definiert als 

d(F, G) =inf � ε ≥ 0: G(x − ε) − ε ≤ F (x) ≤ G(x + ε)+ε für alle x ∈ R � . 

Zeige: 

(i) d ist eine Metrik auf der Menge der Verteilungsfunktionen. 

(ii) Es gilt Fn 

n→∞ 

=⇒ F genau dann, wenn d(Fn,F) n→∞ 

−→ 0. 

(iii) Zu jedem P ∈M1(R) gibt es eine Folge (Pn)n∈N in M1(R), sodass jedes Pn 

endlichen Träger hat, und sodass Pn 

n→∞ 

=⇒ P . ♣


Übung 13.2.7. Wir können die Begriffe schwache Konvergenz und vage Konvergenz 

auf Ladungsverteilungen ausdehnen, also auf Differenzen ϕ := μ + −μ− von Maßen 

aus Mf (E) beziehungsweise M(E), indem wir den Wortlaut von Definition 13.12 

auf diese Klassen anwenden. Man zeige, dass man hier die schwache Konvergenz 

im Allgemeinen nicht metrisieren kann. 

Anleitung: Man betrachte E =[0, 1]. 

(i) Für n ∈ N definiere ϕn = δ1/n − δ2/n. Zeige: Für jedes C>0 konvergiert 

(Cϕn)n∈N schwach gegen das Nullmaß. 

(ii) Man nehme an, dass es eine Metrik gäbe, die die schwache Konvergenz erzeugt. 

Man zeige: Dann gäbe es eine Folge (Cn)n∈N mit Cn ↑ ∞ und 

0=w-lim 

n→∞ (Cnϕn). 

(iii) Wähle ein f ∈ C([0, 1]) mit f(2−n )=(−1) nC −1/2 

n 

� � � 

zeige: fd(Cnϕn) 

n∈N 

konvergiert nicht gegen Null. 

für jedes n ∈ N und 

(iv) Man führe diese Konstruktion zum Widerspruch mit der Metrisierbarkeitsannahme. 

♣ 

Übung 13.2.8. Man zeige, dass durch (13.3) eine Metrik auf M1(E) definiert wird, 

und dass diese die Topologie der schwachen Konvergenz erzeugt. ♣ 

Übung 13.2.9. Man zeige die Implikation ” (vi) =⇒ (iv)“ aus Satz 13.16 direkt. ♣ 

Übung 13.2.10. Seien X, X1,X2,... und Y1,Y2,... reelle Zufallsvariablen. Es 

gelte PYn = N0,1/n für jedes n ∈ N. Man zeige: Es gilt genau dann Xn 

D 

−→ X, 

wenn Xn + Yn 

D 

−→ X. ♣ 

Übung 13.2.11. Betrachte die Maße μn := 1 

n (δ 1/n +...+δ (n−1)/n +δ1) auf [0, 1]. 

Zeige, dass μn schwach gegen das Lebesgue-Maß auf [0, 1] konvergiert. ♣ 

Übung 13.2.12. Für jedes n ∈ N sei Xn eine geometrisch verteilte Zufallsvariable 

mit Parameter pn ∈ (0, 1). Wie muss die Folge (pn)n∈N gewählt sein, damit P Xn/n 

schwach gegen die Exponentialverteilung mit Parameter α>0 konvergiert? ♣ 

Übung 13.2.13. Seien X, X1,X2,... reelle Zufallsvariablen mit Xn 

Zeige: 

(i) E[|X|] ≤ lim infn→∞ E[|Xn|]. 

n→∞ 

=⇒ X. 

(ii) Ist p > 0 und sup n∈N E[|Xn| r ] < ∞ für eine r > p, so gilt E[|X| p ] = 

limn→∞ E[|Xn| p ]. ♣


13.3 Der Satz von Prohorov 

Sei E stets ein polnischer Raum mit Borel’scher σ-Algebra E. Eine grundlegende 

Frage ist, wann eine Folge (μn)n∈N von Maßen auf (E,E) einen schwachen Grenzwert 

besitzt, oder wenigstens einen schwachen Häufungspunkt. Eine offensichtlich 

notwendige Bedingung ist, dass (μn(E))n∈N beschränkt ist, deshalb werden wir 

ohne Beschränkung der Allgemeinheit nur Folgen in M≤1(E) betrachten. Dies ist 

allerdings nicht hinreichend, denn beispielsweise konvergiert die Folge (δn)n∈N von 

W-Maßen auf R nicht schwach. Wir müssen also zusätzlich noch sicher stellen, dass 

keine Masse ins Unendliche auswandert“. Dies liefert gerade die Bedingung der 

” 

Straffheit. 

Wir beginnen diesen Abschnitt, indem wir zunächst als Hauptsatz den Satz von 

Prohorov [128] vorstellen. Wir geben den Beweis erst in dem Spezialfall E = R an 

und kommen dann zu Anwendungen, bevor wir den Satz am Ende des Abschnitts 

in voller Allgemeinheit beweisen. 

Definition 13.26 (Straffheit). Eine Familie F ⊂ Mf (E) heißt straff, falls zu 

jedem ε>0 eine kompakte Menge K ⊂ E existiert mit 

sup � μ(E \ K) : μ ∈F � 0 und K =[−C/ε,C/ε] ist 

nach der Markov’schen Ungleichung PXi (R \ K) =P[|Xi| >C/ε] ≤ ε. 

(iii) Die Familie (δn)n∈N von W-Maßen auf R ist nicht straff. 

(iv) Die Familie (U [−n,n])n∈N von uniformen Verteilungen auf den Intervallen 

[−n, n] ist nicht straff. ✸

13.3 Der Satz von Prohorov 249 

Satz 13.29 (Satz von Prohorov (1956)). Sei (E,d) ein metrischer Raum und F⊂ 

M≤1(E). 

(i) Es gilt 

F ist straff =⇒ F ist schwach relativ folgenkompakt. 

(ii) Ist E zudem polnisch, so gilt auch die Umkehrung 

F ist straff ⇐= F ist schwach relativ folgenkompakt. 

Korollar 13.30. Sei E ein kompakter, metrischer Raum. Dann sind die Mengen 

M≤1(E) und M1(E) schwach folgenkompakt. 

Korollar 13.31. Ist E ein lokalkompakter, separabler, metrischer Raum, so ist 

M≤1(E) vag folgenkompakt. 

Beweis. Seien x1,x2,... dicht in E. DaE lokalkompakt ist, existiert zu jedem 

n ∈ N eine offene Umgebung Un ∋ xn, deren Abschluss U n kompakt ist. Dann ist 

aber auch En := � n 

k=1 U n kompakt für jedes n ∈ N. Für jede kompakte Menge 

K ⊂ E gibt es nun eine endliche Überdeckung K ⊂ � n 

k=1 Uk ⊂ En, wobei 

n = n(K) von K abhängt. 

Nach Korollar 13.30 gibt es zu jedem n ∈ N ein ˜μn ∈M≤1(Kn) und eine Teilfolge 

(kn l )l∈N mit ˜μn =w-lim 

l→∞ μkn � 

� . Mit Hilfe des Diagonalfolgenarguments können 

l 

Kn 

wir annehmen, dass (k n+1 

l 

)l∈N eine Teilfolge von (kn l )l∈N 

� 

ist und damit ˜μn+1� 

= 

Kn 

˜μn für jedes n ∈ N. Es existiert also ein μ ∈M≤1(E) mit μ � � =˜μn für jedes 

Kn 

n ∈ N.Für jedes f ∈ Cc(E) ist der Träger in einem Km enthalten, also gilt (wegen 

μkn � n→∞ 

� −→ μ n 

Km 

� � schwach) 

Km 

� 

� 

n→∞ 

−→ fdμ, 

und damit μk n n 

fdμk n n 

n→∞ 

−→ μ vag. ✷ 

Bemerkung 13.32. Die Implikation in Satz 13.29(ii) ist die weitaus einfachere, 

wenn auch weniger nützliche. Hier wird benötigt, dass E polnisch ist, denn eine 

einelementige Familie ist offenbar immer schwach kompakt, jedoch nur unter Zusatzannahmen 

straff – beispielsweise eben, wenn E polnisch ist (Lemma 13.5). ✸ 

Beweis (von Satz 13.29(ii)). Wir gehen zunächst ähnlich vor wie im Beweis von 

Lemma 13.5. Sei {x1,x2,...}⊂E dicht. Für n ∈ N setze An,N := N� 

B1/n(xi). i=1 

Dann gilt An,N ↑ E für N →∞für jedes n ∈ N.Sei


δ := sup 

n∈N 

inf 

N∈N sup μ(A 

μ∈F 

c n,N ). 

Dann gibt es ein n ∈ N, sodass für jedes N ∈ N ein μN ∈ F existiert mit 

μN(A c n,N ) ≥ δ/2. DaF schwach relativ folgenkompakt ist, besitzt (μN )N∈N 

eine schwach konvergente Teilfolge (μNk )k∈N mit einem schwachen Limes μ ∈ 

M≤1(E). Nach dem Portemanteau Theorem (Satz 13.16(iv)) gilt für jedes N ∈ N 

μ(A c n,N ) ≥ lim inf 

k→∞ μNk (Acn,N ) ≥ lim inf 

k→∞ μNk (Acn,Nk ) ≥ δ/2. 

Andererseits gilt Ac n,N ↓∅für N →∞, also μ(Ac N→∞ 

n,N ) −→ 0. Mithin ist δ =0. 

Sei nun ε>0 beliebig. Nach dem eben Gezeigten können wir zu jedem n ∈ N 

ein N ′ n ∈ N wählen, sodass μ(Ac n,N ′ n )


besitzt (Fn(q1))n∈N eine konvergente Teilfolge � Fn1 (q1) 

k � 

k∈N 

eine Teilfolge (n2 k )k∈N von (n1 k )k∈N, sodass � Fn2 (q2) 

k � 

k∈N 

halten wir Teilfolgen (n1 k ) ⊃ (n2 k ) ⊃ (n3 k ) ⊃ ..., sodass � Fnl (ql) 

k � 

. Ebenso finden wir 

konvergiert. Iterativ er- 

für jedes 

k∈N 

l ∈ N konvergiert. Setze jetzt nk := nk k . Dann konvergiert � Fnk (q)� für jedes 

k∈N 

q ∈ Q. Setze � F (q) = lim Fnk (q) und 

k→∞ 

F (x) =inf � � F (q) : q ∈ Q mit q>x � . 

Da � F monoton wachsend ist, ist F rechtsstetig und monoton wachsend. 

Ist F stetig in x, so existieren zu ε>0 Zahlen q− ,q + ∈ Q, q− K.Istx > K eine Stetigkeitsstelle von F , dann gilt 

lim supk→∞ Fnk (∞) ≤ lim supk→∞ Fnk (x)+ε = F (x)+ε ≤ F (∞)+ε. ✷ 

Wir kommen zu einer ersten Anwendung des Satzes von Prohorov. Die ganze Stärke 

des folgenden Satzes wird erst deutlich, wenn wir geeignete trennende Funktionenklassen 

zur Verfügung haben. Diese werden wir in Kapitel 15 genauer untersuchen. 

Satz 13.34. Sei E polnisch, und seien μ, μ1, μ2,...∈M≤1(E). Dann sind äquivalent: 

(i) μ =w-lim 

n→∞ μn. 

(ii) (μn)n∈N ist straff, und es gibt eine trennende Familie C⊂Cb(E) mit 

� 

� 

fdμ= lim 

n→∞ 

fdμn für jedes f ∈C. (13.8) 

Beweis. ” (i) =⇒ (ii)“ Nach der einfachen Implikation im Satz von Prohorov 

(Satz 13.29(ii)) folgt aus der schwachen Konvergenz die Straffheit.


” (ii) =⇒ (i)“ Sei (μn)n∈N straff und C⊂Cb(E) trennend mit (13.8). Wir nehmen 

an, (μn)n∈N konvergiere nicht schwach gegen μ. Dann existieren ε>0, f ∈ Cb(E) 

und (nk)k∈N mit nk ↑∞und 

�� 

� 

� fdμnk � − 

� � 

� 

fdμ� 

� >ε für alle k ∈ N. (13.9) 

Nach dem Satz von Prohorov (Satz 13.29) existiert ein ν ∈ M≤1(E) und eine 

Teilfolge (n ′ k )k∈N von (nk)k∈N mit μn ′ → ν schwach. Wegen (13.9) ist 

� 

k 

� � fdμ− � fdν � � ≥ ε, also μ �= ν. Andererseits ist 

� 

� 

hdμ= lim 

k→∞ 

hdμn ′ k = 

� 

hdν für jedes h ∈C, 

also μ = ν. Damit ist die Annahme zum Widerspruch geführt, und es gilt (i). ✷ 

Wir wollen den Zusammenhang zwischen schwacher und vager Konvergenz näher 

beleuchten. 

Satz 13.35. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1,μ2,... 

∈Mf (E). Dann sind äquivalent: 

(i) μ =w-lim 

n→∞ μn, 

(ii) μ =v-lim 

n→∞ μn und μ(E) = lim 

n→∞ μn(E), 

(iii) μ =v-lim 

n→∞ μn und μ(E) ≥ lim sup μn(E), 

n→∞ 

(iv) μ =v-lim 

n→∞ μn und {μn, n∈ N} ist straff. 

Beweis. ” (i) ⇐⇒ (ii) ⇐⇒ (iii)“ Dies folgt aus dem Portemanteau Theorem. 

” (ii) =⇒ (iv)“ Es reicht zu zeigen, dass für jedes ε>0 ein Kompaktum K ⊂ E 

existiert mit lim supn→∞ μn(E \ K) ≤ ε.Daμregulär ist (Satz 13.6) existiert eine 

kompakte Menge L ⊂ E mit μ(E \ L)


� 

sup μn(E) ≤ 1+supμn(L) 

≤ 1+sup ρdμn < ∞, 

n∈N 

n∈N 

n∈N 

weil nach Voraussetzung � ρdμnkonvergiert. Es ist also auch 

C := max(μ(E), sup{μn(E) : n ∈ N}) < ∞, 

und wir können zu μ/C und μn/C übergehen und ohne Einschränkung annehmen, 

dass alle Maße in M≤1(E) liegen. Da Cc(E) trennend ist für M≤1(E) (siehe 

Satz 13.11), folgt (i) aus Satz 13.34. ✷ 

Beweis des Satzes von Prohorov, Teil (i), allgemeiner Fall. Es gibt prinzipiell 

zwei Möglichkeiten, den Satz im allgemeinen Fall zu beweisen. Die eine 

Möglichkeit besteht darin, den Satz zunächst für Maße auf R d zu zeigen (das haben 

wir für d =1bereits getan, siehe auch Übung 13.3.4 für d ≥ 2). In einem 

zweiten Schritt wird die Aussage auf Folgenräume R N angehoben. Schließlich wird 

im dritten Schritt eine Einbettung von E in R N konstruiert. Diesen Weg findet man 

beispielsweise in [14] oder [84]. 

Wir folgen hier der anderen Route, wie sie etwa in [15] (beziehungsweise [17]) oder 

[43] dargestellt wird. Der Hauptpunkt des Beweises besteht darin, einen Kandidaten 

für einen schwachen Häufungspunkt der Familie F zu finden. Wir werden diesen 

zunächst als Inhalt auf einem abzählbaren Mengensystem konstruieren und dann 

ein äußeres Maß daraus ableiten. Schließlich zeigen wir, dass die abgeschlossenen 

Mengen messbar bezüglich dieses äußeren Maßes sind. Die Argumentation verläuft 

also in Teilen recht ähnlich wie beim Beweis des Satzes von Carathéodory. 

Sei (E,d) ein metrischer Raum und F⊂M≤1(E) straff. Dann existiert eine aufsteigende 

Folge K1 ⊂ K2 ⊂ K3 ⊂ ... von kompakten Mengen in E, sodass 

μ(Kc n) < 1 

n gilt für jedes μ ∈ F und jedes n ∈ N. Setze E′ := �∞ n=1 Kn. 

Dann ist E ′ ein σ-kompakter, metrischer Raum, also insbesondere separabel. Da 

nach Konstruktion μ(E \ E ′ ) = 0 für jedes μ ∈ F gilt, können wir jedes μ 

als Maß auf E ′ auffassen. Ohne Beschränkung der Allgemeinheit können wir al- 

so annehmen, dass Eσ-kompakt und damit separabel ist. Es existiert also eine 

abzählbare Basis U der Topologie τ � � auf E, das heißt eine abzählbare Menge E 

E 

von offenen Mengen, sodass A = � 

U∈U,U⊂A U für jedes offene A ⊂ E ist. Setze 

C ′ := � U ∩ Kn : U ∈U,n∈ N � und 

� 

�N 

C := 

n=1 

Cn : N ∈ N und C1,...,CN ∈C ′ 

� 

. 

Offenbar ist C eine abzählbare Menge kompakter Mengen in E, und C ist vereinigungsstabil. 

Jedes Kn hat eine endliche Überdeckung mit Mengen aus U, also ist 

Kn ∈C. 

Sei nun (μn)n∈N eine Folge in F. Mit Hilfe des Diagonalfolgenarguments (siehe 

Beweis des Auswahlsatzes von Helly, Satz 13.33) können wir eine Teilfolge 

(μnk )k∈N finden, für die der Grenzwert


α(C) := lim μnk (C) 

k→∞ 

(13.10) 

für jedes C ∈ C existiert. Angenommen es gibt ein Maß μ auf der Borel’schen 

σ-Algebra E von E, sodass 

μ(A) =sup � α(C) : C ∈C mit C ⊂ A � 

für A ⊂ E offen. (13.11) 

Dann ist 

μ(E) ≥ sup α(Kn) =suplim 

μnk (Kn) 

n∈N 

n∈N k→∞ 

≥ sup lim sup 

n∈N k→∞ 

� 

= lim sup μnk 

k→∞ 

(E). 

Für offenes A und für C ∈Cmit C ⊂ A ist ferner 

α(C) = lim 

k→∞ 

1 

μnk (E) − 

n 

μnk (C) ≤ lim inf μnk (A), 

k→∞ 

also μ(A) ≤ lim infk→∞ μnk (A). Nach dem Portemanteau Theorem (Satz 13.16) 

ist μ =w-lim μnk , und damit ist F als schwach relativ folgenkompakt erkannt. Es 

k→∞ 

bleibt zu zeigen, dass es ein Maß μ auf (E,E) gibt, das (13.11) erfüllt. 

Die Mengenfunktion α auf C ist offenbar monoton, additiv und subadditiv: 

Wir definieren 

und 

α(C1) ≤ α(C2), falls C1 ⊂ C2, 

α(C1 ∪ C2) =α(C1)+α(C2), 

α(C1 ∪ C2) ≤ α(C1)+α(C2). 

falls C1 ∩ C2 = ∅, 

β(A) :=sup � α(C) : C ∈C mit C ⊂ A � 

μ ∗ (G) :=inf � β(A) : A ⊃ G ist offen � 

� 

für A ⊂ E offen 

für G ∈ 2 E . 

(13.12) 

Offenbar ist β(A) =μ ∗ (A) für jedes offene A. Es reicht zu zeigen (Schritte 1-3 

unten), dass μ ∗ ein äußeres Maß ist (siehe Definition 1.46), und (4. Schritt) dass 

die σ-Algebra der μ ∗ -messbaren Mengen (siehe Definition 1.48 und Lemma 1.52) 

die abgeschlossenen Mengen und damit ganz E enthält. Nach Lemma 1.52 ist dann 

nämlich μ∗ ein Maß auf der σ-Algebra der μ∗-messbaren Mengen, und die Einschränkung 

μ := μ∗� �E erfüllt μ(A) =μ∗ (A) =β(A) für alle offenen A, also gilt 

Gleichung (13.11). 

Offenbar ist μ ∗ (∅) =0, und μ ∗ ist monoton. Um zu zeigen, dass μ ∗ ein äußeres 

Maß ist, müssen wir nur noch die σ-Subadditivität nachweisen.


1. Schritt (endliche Subadditivität von β) Seien A1,A2 ⊂ E offen und C ∈C 

mit C ⊂ A1 ∪ A2. Sein ∈ N mit C ⊂ Kn.Wirdefinieren zwei Mengen 

B1 := � x ∈ C : d(x, A c 1) ≥ d(x, A c 2) � , 

B2 := � x ∈ C : d(x, A c 1) ≤ d(x, A c 2) � . 

A 

1 

B1 B2 C 

Offenbar ist B1 ⊂ A1 und B2 ⊂ A2. Dax ↦→ d(x, Ac i ) stetig ist für i =1, 2, sind 

B1 und B2 als abgeschlossene Teilmengen von C kompakt. Also ist d(B1,Ac 1) > 0. 

Es existiert also eine offene Menge D1 mit B1 ⊂ D1 ⊂ D1 ⊂ A1.(Manwähle etwa 

D1 als Vereinigung einer endlichen Überdeckung von B1 mit Kugeln vom Radius 

d(B1,Ac 1)/2. Diese Kugeln liegen nebst ihren Abschlüssen in A1.) Sei UD1 := 

{U ∈U: U ⊂ D1}. DannistB1⊂ D1 = � 

U. Wähle nun eine endliche 

U∈UD1 Teilüberdeckung {U1,...,UN }⊂UD1 von B1 und setze C1 := �N i=1 U i ∩ Kn. 

Dann ist B1 ⊂ C1 ⊂ A1 und C1 ∈C.Wähle analog ein C2 ∈Cmit B2 ⊂ C2 ⊂ A2. 

Es folgt 

α(C) ≤ α(C1 ∪ C2) ≤ α(C1)+α(C2) ≤ β(A1)+β(A2). 

Also gilt auch 

β(A1 ∪ A2) =sup � � 

α(C) : C ∈C mit C ⊂ A1 ∪ A2 ≤ β(A1)+β(A2). 

2. Schritt (σ-Subadditivität von β) Seien A1,A2,...offene Mengen und C ∈C 

mit C ⊂ �∞ i=1 Ai. DaC kompakt ist, existiert ein n ∈ N mit C ⊂ �n i=1 Ai. Die 

schon gezeigte endliche Subadditivität von β impliziert 

� 

�n 

α(C) ≤ α 

� � 

�n 

= β 

� ∞� 

≤ β(Ai). 

Ai 

i=1 

Ai 

i=1 

Indem wir das Supremum über solche C bilden, folgt 

� 

�∞ 

� � 

∞� 

β =sup α(C) : C ∈C mit C ⊂ 

Ai 

i=1 

i=1 

Ai 

i=1 

� ∞� 

≤ β(Ai). 

3. Schritt (σ-Subadditivität von μ∗ ) Seien G1,G2,... ∈ 2E .Seiε>0. Wähle 

für jedes n ∈ N eine offene Menge An ⊃ Gn mit β(An)


Da ε>0 beliebig war, folgt μ∗� �∞ äußeres Maß. 

n=1 Gn 

� ≤ � ∞ 

n=1 μ∗ (Gn). Mithin ist μ ∗ ein 

4. Schritt (Abgeschlossene Mengen sind in μ∗-messbar) eine Menge B ⊂ E genau dann μ 

Nach Lemma 1.49 ist 

∗-messbar, wenn 

μ ∗ (B ∩ G)+μ ∗ (B c ∩ G) ≤ μ ∗ (G) für alle G ∈ 2 E . 

Indem wir das Infimum über alle offenen Mengen A ⊃ G bilden, reicht es zu zeigen, 

dass für jedes abgeschlossene B und jedes offene A ⊂ E gilt, dass 

μ ∗ (B ∩ A)+μ ∗ (B c ∩ A) ≤ β(A). (13.13) 

Sei ε>0. Wähle C1 ∈Cmit C1 ⊂ A ∩ Bc und α(C1) >β(A∩ Bc ) − ε. Wähle 

ferner C2 ∈Cmit C2 ⊂ A ∩ Cc 1 und α(C2) >β(A∩ Cc 1) − ε.WegenC1∩C2 = ∅ 

und C1 ∪ C2 ⊂ A folgt 

β(A) ≥ α(C1 ∪ C2) =α(C1)+α(C2) ≥ β(A ∩ B c )+β(A ∩ C c 1) − 2ε 

≥ μ ∗ (A ∩ B c )+μ ∗ (A ∩ B) − 2ε. 

Indem wir ε → 0 gehen lassen, folgt (13.13). Damit ist der Beweis des Satzes von 

Prohorov vollständig. ✷ 

Übung 13.3.1. Man zeige: Eine Familie F⊂Mf (R) ist genau dann straff, wenn 

es eine messbare � Abbildung f : R → [0, ∞) gibt mit f(x) →∞für |x| →∞und 

supμ∈F fdμ

13.4 Anwendung: Satz von de Finetti – anders angeschaut 257 

13.4 Anwendung: Satz von de Finetti – anders angeschaut 

(Nach einer Idee von Götz Kersting.) Sei E ein polnischer Raum und X1,X2,... 

eine austauschbare Folge von Zufallsvariablen mit Werten in E. Wir wollen hier, 

alternativ zu dem Rückwärtsmartingalargument aus Kapitel 12.3, einen Beweis für 

den Satz von de Finetti (Satz 12.26) angeben, der besagt, dass es ein zufälliges W- 

Maß Ξ auf E gibt, sodass, gegeben Ξ, die Zufallsvariablen X1,X2,...unabhängig 

und Ξ-verteilt sind. Für x =(x1,x2,...) ∈ EN seien ξn(x) := 1 �n δxl n l=1 die 

empirische Verteilung von x1,...,xn, 

μn,k(x) :=ξn(x) ⊗k = n −k 

n� 

i1,...,ik=1 

δ (xi1 ,...,xi k ) 

die Verteilung auf E k des k-fachen unabhängigen Ziehens (mit Beachtung der Reihenfolge) 

aus (x1,...,xn) mit Zurücklegen und 

νn,k(x) := 

(n − k)! 

n! 

n� 

i 1 ,...,i k =1 

#{i 1 ,...,i k }=k 

δ (xi1 ,...,xi k ) 

die Verteilung auf E k des k-fachen unabhängigen Ziehens (mit Beachtung der Reihenfolge) 

aus (x1,...,xn) ohne Zurücklegen. Für jedes x ∈ E N gilt 

� 

� μn,k(x) − νn,k(x) � � TV ≤ Rn,k := 

k(k − 1) 

. 

n 

In der Tat ist die Wahrscheinlichkeit pn,k, beim k-maligen Ziehen (mit Zurücklegen) 

aus n unterscheidbaren Kugeln keine zwei gleichen Kugeln zu ziehen, 

k−1 

pn,k = 

� 

(1 − l/n) 

l=1 

und Rn,k ≥ 2(1 − pn,k). Wir erhalten also die, intuitiv klare, Aussage, dass sich 

für n →∞die Verteilungen des k-maligen Ziehens mit und ohne Zurücklegen 

annähern 

lim 

n→∞ sup 

x∈EN � 

�μn,k(x) − νn,k(x) � � =0. 

TV 

Seien nun f1,...,fk ∈ Cb(E) und F (x1,...,xk) :=f1(x1) ···fk(xk). Dann gilt 

wegen der Austauschbarkeit der Folge X1,X2,... für jede Wahl von paarweise 

unterschiedlichen Zahlen 1 ≤ i1,...,ik ≤ n 

E[F (X1,...,Xk)] = E[F (Xi1 ,...,Xik )]. 

Indem wir über alle solchen Wahlen von i1,...,ik mitteln, erhalten wir


E � f1(X1) ···fk(Xk) � = E � F (X1,...,Xk) � � 

= E 

� 

Also ist 

� 

� 

�E � f1(X1) ···fk(Xk) � � 

− E 

� 

� � 

� 

= �E 

� 

� 

f1 dξn(X) ··· 

� � 

Fdνn,k(X) − E 

� 

� 

Fdνn,k(X) . 

�� 

�� 

fk dξn(X) 

�� 

�� 

Fdμn,k(X) 

n→∞ 

≤�F�∞ Rn,k −→ 0. 

Wir machen uns jetzt das folgende Kriterium für die Straffheit von Teilmengen von 

M1(M1(E)) zu Nutze. 

Übung 13.4.1. Man zeige: Eine Teilmenge K ⊂ M1(M1(E)) ist genau dann 

straff, wenn für jedes ε>0 eine kompakte Menge K ⊂ E existiert mit der Eigenschaft 

�μ �� μ ∈M1(E) : μ(K c ) >ε �� 0 existiert also ein Kompaktum K ⊂ E 

mit P[X1 ∈ Kc ] ε] ≤ ε−1E[ξn(X)(Kc )] = 

ε−1P[X1 ∈ Kc ] ≤ ε. Also ist die Familie (Pξn(X))n∈N straff. Sei Ξ∞ eine Zufallsvariable 

(mit Werten in M1(E)), sodass PΞ∞ =w-lim 

l→∞ Pξn (X) für eine geeignete 

l 

Teilfolge (nl)l∈N. Die Abbildung ξ ↦→ � Fdξ= � f1 dξ ··· � fk dξ ist beschränkt 

und (als Produkt stetiger Abbildungen) stetig bezüglich der Topologie der schwachen 

Konvergenz auf M1(E), also aus Cb(M1(E)). Daher gilt 

� 

E 

� 

FdΞ ⊗k 

� � 

∞ = lim E 

l→∞ � 

� 

f1 dξnl (X) ··· fk dξnl (X) 

� 

= E � f1(X1) ···fk(Xk) � . 

Nun hängt der Grenzwert aber nicht mehr von der gewählten Teilfolge ab und ist 

damit eindeutig. Es folgt, noch einmal komplett ausgeschrieben, dass 

E � f1(X1) ···fk(Xk) � � 

= E 

� 

� � 

f1 dΞ∞ ··· 

. 

fk dΞ∞ 

Durch diese Integrale ist aber die Verteilung von (X1,...,Xk) vollständig bestimmt, 

und es folgt, dass P (X1,...,Xk) = P Ξ ⊗k 

∞ , oder als Zufallsvariablen ausgedrückt: 

(X1,...,Xk) D = (Y1,...,Yk), wo, gegeben Ξ∞, die Zufallsvariablen 

Y1,...,Yk unabhängig mit Verteilung Ξ∞. 

Übung 13.4.2. Man zeige: Eine Familie (Xn)n∈N von Zufallsvariablen ist genau 

dann austauschbar, wenn für jede Wahl von natürlichen Zahlen mit 1 ≤ n1

14 W-Maße auf Produkträumen 

Als Motivation betrachten wir das folgende Beispiel. Sei X eine uniform auf [0, 1] 

verteilte Zufallsvariable. Sobald wir den Wert von X kennen, wollen wir n mal 

eine Münze werfen, die Erfolgswahrscheinlichkeit X hat. Die Ergebnisse seien 

Y1,...,Yn. 

Wie konstruieren wir einen geeigneten Wahrscheinlichkeitsraum, auf dem alle Zufallsvariablen 

definiert sind? 

Eine Möglichkeit: Wir wissen schon, wie wir n +1unabhängige Zufallsvariablen 

Z0,...,Zn konstruieren, die uniform auf [0, 1] verteilt sind (siehe etwa Korollar 

2.23). Setze nun X = Z0 und 

� 

1, falls Zk

260 14 W-Maße auf Produkträumen 

14.1 Produkträume 

Definition 14.1 (Produktraum). Sei (Ωi, i∈ I) eine beliebige Familie von Mengen. 

Mit Ω = × Ωi bezeichnen wir die Menge der Abbildungen ω : I → 

i∈I 

� 

Ωi 

i∈I 

mit der Eigenschaft, dass ω(i) ∈ Ωi für jedes i ∈ I gilt. Ω heißt das Produkt der 

(Ωi, i∈ I), oder kurz Produktraum. Sind speziell alle Ωi gleich, etwa Ωi = Ω0, 

so schreiben wir Ω = × Ωi = Ω 

i∈I 

I 0. 

Beispiele 14.2. (i) Ist Ω1 = {1,...,6} und Ω2 = {1, 2, 3}, soist 

Ω1 × Ω2 = � ω =(ω1,ω2) : ω1 ∈{1,...,6}, ω2 ∈{1, 2, 3} � . 

(ii) Ist Ω0 = R und I = {1, 2, 3}, soistR {1,2,3} isomorph zum üblichen R3 . 

(iii) Ist Ω0 = R und I = N, soistRNder Raum der Folgen (ω(n), n∈ N) in R. 

(iv) Ist I = R und Ω0 = R,soistRRMenge der Abbildungen R → R. ✸ 

Definition 14.3 (Koordinatenabbildung). Ist i ∈ I, so bezeichnet Xi : Ω → Ωi, 

ω ↦→ ω(i) die i-te Koordinatenabbildung. Allgemeiner nennen wir für J ⊂ J ′ ⊂ I 

die eingeschränkte Abbildung 

′ 

J 

XJ : × Ωj −→ × j∈J ′ 

j∈J 

Ωj, ω ′ ↦→ ω ′� �J 

die kanonische Projektion. Speziell schreiben wir XJ := X I J . 

(14.1) 

Definition 14.4 (Produkt-σ-Algebra). Seien (Ωi, Ai), i ∈ I, Messräume. Die 

Produkt-σ-Algebra 

A = � 

i∈I 

ist die kleinste σ- Algebra auf Ω, sodass für jedes i ∈ I die Abbildung Xi messbar 

bezüglich A – Ai ist: 

Ai 

A = σ � Xi, i∈ I � := σ � X −1 

i (Ai), i∈ I � . 

Ist (Ωi, Ai) =(Ω0, A0) für jedes i ∈ I, so schreiben wir auch A = A ⊗I 

0 . 

Für J ⊂ I schreiben wir ΩJ = × Ωj und AJ = 

j∈J 

� 

Aj. 

j∈J 

Bemerkung 14.5. Die Begriffsbildung der Produkt-σ-Algebra ist analog zu der der 

Produkttopologie: Sind((Ωi, τi),i ∈ I) topologische Räume, so ist die Produkttopologie 

τ auf Ω = × Ωi die gröbste Topologie, bezüglich der alle Koordinaten- 

i∈I 

abbildungen Xi : Ω −→ Ωi stetig sind. ✸

14.1 Produkträume 261 

Definition 14.6. Sei I �= ∅ eine beliebige Indexmenge, (E,E) ein Messraum, 

(Ω,A) =(E I , B(E) ⊗I ) und Xt : Ω → E die Koordinatenabbildung für jedes 

t ∈ I. Dann nennen wir die Familie (Xt)t∈I den kanonischen Prozess auf (Ω,A). 

Lemma 14.7. Sei ∅ �= J ⊂ I. Dann ist X I J messbar bezüglich AI – AJ. 

Beweis. Für jedes j ∈ J ist Xj = XJ j ◦ XI J messbar bezüglich A – Aj. Nach 

Korollar 1.82 ist daher XI J messbar. ✷ 

Satz 14.8. Sei I höchstens abzählbar, und für jedes i ∈ I sei (Ωi, τi) polnisch mit 

Borel’scher σ-Algebra Bi = σ(τi). Esseiτdie Produkttopologie auf Ω = × Ωi 

i∈I 

und B = σ(τ). 

Dann ist (Ω, τ) polnisch und B = � 

Bi. Speziell ist B(Rd )=B(R) ⊗d für d ∈ N. 

i∈I 

Beweis. Ohne Einschränkung sei I = N.Für i ∈ N sei di eine vollständige Metrik, 

die τi erzeugt. Man prüft leicht nach, dass dann 

d(ω, ω ′ ):= 

∞� 

2 −i 

i=1 

di(ω(i),ω ′ (i)) 

1+di(ω(i),ω ′ (i)) 

(14.2) 

eine vollständige Metrik auf Ω ist, die τ erzeugt. 

Für jedes i ∈ N sei nun Di ⊂ Ωi eine abzählbare, dichte Teilmenge und yi ∈ Di 

ein beliebiger fester Punkt. Die Menge 

� 

� 

D = x ∈× Di : xi �= yi nur endlich oft 

i∈N 

ist, wie man leicht prüft, eine abzählbare, dichte Teilmenge von Ω.AlsoistΩsepa rabel und damit polnisch. 

Sei nun βi = {Bε(xi) : xi ∈ Di, ε∈ Q + } für jedes i ∈ I eine abzählbare Basis 

der Topologie von Ωi aus ε-Kugeln. Setze 

� 

N� 

� 

β := 

∞� 

N=1 

i=1 

X −1 

i (Bi) : B1 ∈ β1,...,BN ∈ βN 

Dann ist β eine abzählbare Basis der Topologie τ, also ist jede offene Menge A ⊂ Ω 

(abzählbare) Vereinigung von Mengen in β ⊂ � 

i∈N Bi. Mithin ist τ ⊂ � 

i∈N Bi 

und damit B⊂ � 

i∈N Bi. 

Andererseits ist jedes Xi stetig, also messbar bezüglich B – Bi und damit B ⊃ 

� 

i∈N Bi. ✷ 

.


Definition 14.9 (Zylindermengen). Für jedes i ∈ I sei Ei ⊂Ai ein Teilsystem der 

messbaren Mengen. 

Für jedes A ∈AJ heißt X −1 

(A) ⊂ Ω Zylindermenge mit Basis J. Die Menge 

J 

dieser Zylindermengen wird mit ZJ bezeichnet. Ist speziell A = ×j∈J Aj für ge- 

wisse Aj ∈Aj, so heißt X −1 

J (A) Rechteckzylinder mit Basis J. Die Menge dieser 

bezeichnet, die Menge aller Rechteckzylinder, für die 

Rechteckzylinder wird mit ZR J 

zusätzlich Aj ∈Ej für jedes j ∈ J gilt, mit Z E,R 

J . 

Wir schreiben 

Z = 

J⊂I endlich 

und definieren analog ZR und ZE,R . Ferner definieren wir 

und analog Z E,R 

∗ . 

Z R ∗ = 

∞� 

N=1 

� N� 

n=1 

� 

ZJ, (14.3) 

An : A1,...,An ∈Z R 

Bemerkung 14.10. Jedes ZJ ist eine σ-Algebra, und Z und Z R ∗ sind Algebren. 

Außerdem gilt � 

i∈I Ai = σ(Z). ✸ 

Lemma 14.11. Ist jedes Ei schnittstabil, beziehungsweise ein Semiring, so ist Z E,R 

schnittstabil, beziehungsweise ein Semiring. 


Satz 14.12. Für jedes i ∈ I sei Ei ⊂Ai ein Erzeuger von Ai. 

(i) Für jedes endliche J ⊂ I gilt � � 

� 

Aj = σ × Ej : Ej ∈Ej . 

j∈J 

j∈J 

(ii) Es gilt � 

Ai = σ(Z R )=σ � ZE,R� . 

i∈I 

(iii) Sei μ ein σ-endliches Maß auf A, und sei jedes Ei zudem schnittstabil. Ferner 

gebe es eine Folge (En)n∈N in Z E,R mit En ↑ Ω und μ(En) < ∞ für jedes 

n ∈ N (speziell ist diese Bedingung natürlich erfüllt, wenn μ endlich ist und 

Ωi ∈Ei für jedes i ∈ I). Dann ist μ durch Angabe von μ(A) für jedes A ∈ 

Z E,R eindeutig festgelegt. 

Beweis. (i) Sei A ′ J 

� 

= σ 

× j∈J 

× j∈J 

� 

� 

Ej : Ej ∈Ej für jedes j ∈ J .Esist 

Ej = � 

j∈J 

(X J j ) −1 (Ej) ∈AJ,

14.2 Endliche Produkte und Übergangskerne 263 

also A ′ J ⊂AJ. Umgekehrt gilt (X J j )−1 (Ej) ∈A ′ J für j ∈ J und Ej ∈Ej. Da 

Ei ein Erzeuger von Ai ist, ist (X J j )−1 (Aj) ∈A ′ J für jedes Aj ∈Aj, also gilt 

AJ ⊂A ′ J . 

(ii) Offenbar ist Z E,R ⊂Z R ⊂A, also auch σ(Z E,R ) ⊂ σ(Z R ) ⊂A. Nach 

Satz 1.81 gilt σ � Z E,R� 

{i} = σ(Xi) für jedes i ∈ I, also σ(Xi) ⊂ σ(Z E,R ) und damit 

AI ⊂ σ(Z E,R ). 

(iii) Nach (ii) und Lemma 14.11 ist Z E,R ein schnittstabiler Erzeuger von A. Die 

Aussage folgt daher aus Lemma 1.42. ✷ 

Übung 14.1.1. Man zeige: 

� 

Ai = 

i∈I 

� 

J⊂I abzählbar 

ZJ. (14.4) 

Hinweis: Man zeige, dass die rechte Seite eine σ-Algebra ist. ♣ 

14.2 Endliche Produkte und Übergangskerne 

Wir betrachten jetzt die Situation endlich vieler σ-endlicher Maßräume (Ωi, Ai,μi), 

i =1,...,n, wobei n ∈ N. 

Lemma 14.13. Sei A ∈A1 ⊗A2 und f : Ω1 × Ω2 → R eine A1 ⊗A2-messbare 

Abbildung. Dann gilt für jedes ˜ω1 ∈ Ω1 und ˜ω2 ∈ Ω2 

A˜ω1 := {ω2 ∈ Ω2 :(˜ω1,ω2) ∈ A} ∈A2, 

A˜ω2 := {ω1 ∈ Ω1 :(ω1, ˜ω2) ∈ A} ∈A1, 

f˜ω1 : Ω2 → R, ω2↦→ f(˜ω1,ω2) ist A2–messbar, 

f˜ω2 : Ω1 → R, ω1↦→ f(ω1, ˜ω2) ist A1–messbar. 

Beweis. Für ˜ω1 definiere die Einbettung i : Ω2 → Ω1×Ω2 durch i(ω2) =(˜ω1,ω2). 

Da X1 ◦ i konstant gleich ˜ω1 ist (also A1-messbar), und X2 ◦ i =idΩ2 (also A2messbar), 

ist nach Korollar 1.82 die Abbildung i messbar bezüglich A2 – (A1⊗A2). 

Mithin ist A˜ω1 = i−1 (A) ∈A2 und f˜ω1 = f ◦ i messbar bezüglich A2. ✷ 

Der folgende Satz verallgemeinert Satz 1.61.


Satz 14.14 (Endliche Produktmaße). Es existiert genau ein σ-endliches Maß μ 

auf A := �n i=1 Ai mit 

n� 

μ(A1 ×···×An) = μi(Ai) für Ai ∈Ai, i=1,...,n. (14.5) 

Wir nennen 

i=1 

n� 

μi := μ1 ⊗···⊗μn := μ das Produktmaß der μi. 

i=1 

Sind alle Räume gleich (Ω0, A0,μ0), so schreiben wir μ ⊗n 

0 := n� 

Beweis. Sei ˜μ auf Z R wie μ in (14.5) festgesetzt. Offenbar ist ˜μ(∅) = 0, und 

man überlegt sich leicht, dass ˜μ σ-endlich ist. Seien A 1 ,A 2 ,... ∈Z R paarweise 

disjunkt und A ∈Z R mit A ⊂ � ∞ 

k=1 Ak . Dann ist nach dem Satz über monotone 

Konvergenz 

� 

˜μ(A) = 

� 

≤ 

� 

μ1(dω1) ··· 

� 

μ1(dω1) ··· 

k=1 

i=1 

μ0. 

μn(dωn) A((ω1,...,ωn)) 

∞� 

μn(dωn) Ak((ω1,...,ωn)) ∞� 

= ˜μ(A k ). 

Ist speziell A = A 1 � A 2 ,soerhält man analog ˜μ(A) =˜μ(A 1 )+˜μ(A 2 ). Mithin ist 

˜μ eine σ-endliche, additive, σ-subadditive Mengenfunktion auf dem Semiring Z R 

mit ˜μ(∅) =0. Nach dem Fortsetzungssatz (Satz 1.53) kann ˜μ in eindeutiger Weise 

zu einem σ-endlichen Maß fortgesetzt werden. ✷ 

Beispiel 14.15. Für i =1,...,nsei (Ωi, Ai, Pi) ein Wahrscheinlichkeitsraum. Auf 

dem Raum (Ω,A, P) := � × n 

i=1 Ωi, �n i=1 Ai, �n i=1 Pi 

� 

sind die Koordinatenabbildungen 

Xi : Ω → Ωi unabhängig mit Verteilung PXi = Pi. ✸ 

k=1


Satz 14.16 (Fubini). Seien (Ωi, Ai,μi) σ-endliche Maßräume, i = 1, 2, sowie 

f : Ω1 × Ω2 → R messbar bezüglich A1 ⊗A2.Istf≥ 0 oder f ∈L1 (μ1 ⊗ μ2), 

dann gelten 

� 

ω1 ↦→ f(ω1,ω2) μ2(dω2) ist A1-messbar, 

� 

(14.6) 

ω2 ↦→ f(ω1,ω2) μ1(dω1) ist A2-messbar, 

und 

� 

Ω1×Ω2 

� 

fd(μ1 ⊗ μ2) = 

� 

= 

Ω1 

Ω2 

�� 

�� 

Ω2 

Ω1 

� 

f(ω1,ω2) μ2(dω2) μ1(dω1) 

� 

f(ω1,ω2) μ1(dω1) μ2(dω2). 

(14.7) 

Beweis. Der Beweis folgt dem üblichen Schema der schrittweisen Approximation 

ausgehend von einfachen Funktionen. 

Sei zunächst f = A für A = A1 × A2 mit A1 ∈A1 und A2 ∈A2. Dann gelten 

(14.6) und (14.7) trivialerweise. Durch endliche Summenbildung gilt dies nun auch 

für A ∈Z R ∗ (Algebra der endlichen Vereinigungen von Rechtecken). 

Sei nun A ∈ A1 ⊗A2. Nach dem Approximationssatz (Satz 1.65) gibt es eine 

Folge von Mengen (A n )n∈N in Z R ∗ ,dieA dem Maße μ1 ⊗ μ2 nach approximieren. 

Da Limiten messbarer Funktionen wieder messbar sind, und nach Konstruktion die 

Integrale konvergieren, gelten (14.6) und (14.7) jetzt auch für f = A und A ∈ 

A1 ⊗A2. Durch endliche Summenbildung gelten nun (14.6) und (14.7) auch für 

den Fall, wo f eine Elementarfunktion ist. 

Wir betrachten jetzt f ≥ 0. Dann existiert nach Satz 1.96 eine Folge von Elementarfunktionen 

(fn)n∈N mit fn ↑ f. Nach dem Satz von der monotonen Konvergenz 

(Satz 4.20) gelten (14.6) und (14.7) nun auch für dieses f. 

Ist f ∈L 1 (μ1⊗μ2),dannistf = f + −f − mit integrierbaren Funktionen f + ,f − ≥ 

0, für die (14.6) und (14.7) gelten, also auch für f. ✷ 

In Definition 2.32 hatten wir die Faltung zweier W-Maße μ und ν als die Verteilung 

der Summe zweier unabhängiger, wie μ und ν verteilter Zufallsvariablen definiert. 

Als eine einfache Anwendung des Satzes von Fubini wollen wir eine neue Definition 

geben (die natürlich mit der alten konsistent ist), die alle endlichen Maße auf dem 

R n umfasst. Haben diese Maße zusätzlich Dichten bezüglich des Lebesgue-Maßes, 

so können wir eine explizite Formel zur Berechnung der Faltung angeben. 

Seien also X und Y R n -wertige Zufallsvariablen mit Dichten fX und fY .Das 

heißt, fX,fY : R n → [0, ∞] sind messbar und integrierbar bezüglich des ndimensionalen 

Lebesgue-Maßes λ n , und es gilt für jedes x ∈ R n


� 

P[X ≤ x] = fX(t) λ 

(−∞,x] 

n � 

(dt) und P[Y ≤ x] = fY (t) λ 

(−∞,x] 

n (dt). 

Hierbei ist (−∞,x]={y ∈ R n : yi ≤ xi für i =1,...,n} (vergleiche (1.5)). 

Definition 14.17. Sei n ∈ N. Für zwei Lebesgue-integrierbare Abbildungen f,g : 

Rn → [0, ∞] definieren wir die Faltung f ∗ g : Rn → [0, ∞] durch 

� 

(f ∗ g)(x) = f(y) g(x − y) λ n (dy). 

R n 

Für zwei endliche Maße μ, ν ∈ Mf (R n ) definieren wir die Faltung μ ∗ ν ∈ 

Mf (R n ) durch 

� � 

(μ ∗ ν)((−∞,x]) = 

wobei Ax := {(u, v) ∈ R n × R n : u + v ≤ x} ist. 

Ax (u, v) μ(du) ν(dv), 

Lemma 14.18. Die Abbildung f ∗ g ist messbar, und es gelten f ∗ g = g ∗ f und 

� 

(f ∗ g) dλ n �� 

= fdλ n 

�� 

gdλ n 

� 

. 

R n 

Ebenso gelten μ ∗ ν = ν ∗ μ und (μ ∗ ν)(R n )=μ(R n ) ν(R n ). 

R n 

Beweis. Die Aussagen folgen direkt aus dem Satz von Fubini. ✷ 

Satz 14.19 (Faltung von n-dimensionalen Maßen). 

(i) Sind X und Y unabhängige R n -wertige Zufallsvariablen mit Dichten fX und 

fY ,sohatX + Y die Dichte fX ∗ fY . 

(ii) Sind μ = fλ n und ν = gλ n endliche Maße mit Dichten f und g bezüglich 

des Lebesgue-Maßes, so gilt μ ∗ ν =(f ∗ g)λ n . 

Beweis. (i) Sei x ∈ R n und A := {(u, v) ∈ R n × R n : u + v ≤ x}. Dann gilt 

nach mehrfacher Anwendung des Satzes von Fubini (sowie der Translationsinvarianz 

von λ n ) 

R n


P[X + Y ≤ x] =P[(X, Y ) ∈ A] 

� 

= 

Rn ×Rn � 

= 

Rn �� 

Rn A(u, v) fX(u) λ n � 

(du) 

� 

= 

Rn �� fX(u) λ 

(−∞,x−v] 

n � 

(du) 

� 

= 

Rn �� fX(u − v) λ 

(−∞,x] 

n � 

(du) 

� �� 

= 

� 

= 

(−∞,x] 

A(u, v) fX(u) fY (v) (λ n ) ⊗2 (d(u, v)) 

R n 

(fX ∗ fY ) dλ 

(−∞,x] 

n . 

fY (v) λ n (dv) 



fX(u − v) fY (v) λ n � 

(dv) λ n (du) 

(ii) Ersetze in (i) μ = PX und ν = PY . Die Aussage folgt unmittelbar. ✷ 

Wir kommen zu einer Begriffsbildung, die diejenige der Produktmaße verallgemeinert 

und in Richtung unseres Eingangsbeispiels steuert. 

Wir erinnern an den Begriff des Übergangskerns aus Definition 8.24. 

Lemma 14.20. Sei κ ein endlicher Übergangskern von (Ω1, A1) nach (Ω2, A2), 

und sei f : Ω1 × Ω2 → [0, ∞] messbar bezüglich A1 ⊗A2 −B([0, ∞]). Dann ist 

die Abbildung 

If : Ω1 → [0, ∞] 

� 

ω1 ↦→ f(ω1,ω2) κ(ω1,dω2) 

wohldefiniert und A1–messbar. 

Beweis. Nach Lemma 14.13 ist für jedes ω1 ∈ Ω1 die Abbildung fω1 messbar 

bezüglich A2, also ist If (ω1) = � fω1 (ω2) κ(ω1,dω2) wohldefiniert. Wir müssen 

also nur noch die Messbarkeit von If zeigen. 

Ist g = A1×A2 für A1 ∈A1und A2 ∈A2, soistIg(ω1) = A1 (ω1)κ(ω1,A2) 

offenbar messbar. Sei nun D = � A ∈A1⊗A2 : I ist A1–messbar A � . Wir zeigen, 

dass D ein Dynkin-System ist: 

(i) Offenbar ist Ω1 × Ω2 ∈D. 

(ii) Sind A, B ∈Dmit A ⊂ B,soistI B\A = I B − I A messbar, wobei wir die 

Endlichkeit von κ ausgenutzt haben, also ist B \ A ∈D.


(iii) Sind A1,A2,... ∈Dpaarweise disjunkt und A := �∞ n=1 An, 

� 

soistI = A 

∞ 

n=1 I messbar, also A ∈D. 

An 

Nun ist D also ein Dynkin-System, das den schnittstabilen Erzeuger aller Rechteckmengen 

in A1 ⊗A2 enthält, also ist (nach Satz 1.19) D = A1 ⊗A2. Mithin 

ist I A messbar für jedes A ∈ A1 ⊗A2. Es folgt, dass Ig messbar ist für 

jede Elementarfunktion. Sei nun (fn)n∈N eine Folge von Elementarfunktion mit 

fn ↑ f.Für jedes feste ω1 ∈ Ω1 gilt nach dem Satz von der monotonen Konvergenz 

If (ω1) = limn→∞ Ifn (ω1), und If ist als Limes messbarer Funktionen messbar. ✷ 

Bemerkung 14.21. Wir schreiben im Folgenden oft � κ(ω1,dω2) f(ω1,ω2) statt 

� f(ω1,ω2) κ(ω1,dω2), denn bei Mehrfachintegralen erlaubt diese Notation es, den 

Integrator näher an das betreffende Integralzeichen heran zu rücken. ✸ 

Satz 14.22. Seien (Ωi, Ai), i = 0, 1, 2, Messräume und κ1 ein endlicher Übergangskern 

von (Ω0, A0) nach (Ω1, A1) sowie κ2 ein endlicher Übergangskern von 

(Ω0 × Ω1, A0 ⊗A1) nach (Ω2, A2). Dann ist die Abbildung 

κ1 ⊗ κ2 : Ω0 × (A1 ⊗A2) → [0, ∞) 

� 

� 

(ω0,A) ↦→ κ1(ω0,dω1) 

Ω1 

Ω2 

κ2((ω0,ω1),dω2) A((ω1,ω2)) 

wohldefiniert und ist ein σ-endlicher (aber nicht notwendig endlicher) Übergangskern 

von (Ω0, A0) nach (Ω1 × Ω2, A1 ⊗A2). Sindκ1 und κ2 (sub-)stochastisch, 

so ist κ1 ⊗ κ2 (sub-)stochastisch. Wir nennen κ1 ⊗ κ2 das Produkt von κ1 und κ2. 

Ist κ2 ein Kern von (Ω1, A1) nach (Ω2, A2), sodefinieren wir das Produkt κ1 ⊗ 

κ2 analog, indem wir κ2 einfach formal als Kern von (Ω0 × Ω1, A0 ⊗A1) nach 

(Ω2, A2) auffassen, der nicht von der Ω0-Koordinate abhängt. 

Beweis. Sei A ∈A1⊗A2. Die Abbildung 

� 

gA :(ω0,ω1) ↦→ κ2((ω0,ω1),dω2) A(ω1,ω2) 

ist nach Lemma 14.20 wohldefiniert und messbar bezüglich A0 ⊗A1. Daher ist, 

wiederum nach Lemma 14.20, die Abbildung 

� 

ω0 ↦→ κ1 ⊗ κ2(ω0,A)= κ1(ω0,dω1) gA(ω0,ω1) 

wohldefiniert und A0-messbar. Für festes ω0 ist nach dem Satz über monotone Konvergenz 

die Abbildung A ↦→ κ1 ⊗ κ2(ω0,A) σ-additiv, also ein Maß. 

Für ω0 ∈ Ω0 und n ∈ N sei Aω0,n := {ω1 ∈ Ω1 : κ2((ω0,ω1),Ω2) < n}. 

Da κ2 endlich ist, gilt � 

n≥1 Aω0,n = Ω1 für jedes ω0 ∈ Ω0, und es gilt κ1 ⊗ 

κ2(ω0,An × Ω2) ≤ n · κ1(ω0,An) < ∞. Alsoistκ1 ⊗ κ(ω0, · ) σ-endlich und 

damit ein Übergangskern. 

Der Zusatz ist trivial. ✷


Korollar 14.23 (Produkte mit Kernen). Sei (Ω1, A1,μ) ein endlicher Maßraum, 

(Ω2, A2) ein Messraum und κ ein endlicher Übergangskern von Ω1 nach Ω2. 

Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ ⊗ κ auf (Ω1 × 

Ω2, A1 ⊗A2) mit 

� 

μ ⊗ κ(A1 × A2) = κ(ω1,A2) μ(dω1) für alle A1 ∈A1, A2∈A2. A1 

Ist κ stochastisch und μ ein W-Maß, so ist μ ⊗ κ ein W-Maß. 

Beweis. Wende Satz 14.22 an mit κ2 = κ und κ1(ω0, · )=μ. ✷ 

Korollar 14.24. Seien n ∈ N und (Ωi, Ai), i =0,...,n, Messräume. Für i = 

� � 

i−1 i−1 � 

1,...,nsei κi ein substochastischer Kern von × Ωk, Ak nach (Ωi, Ai) 

k=0 k=0 

oder von (Ωi−1, Ai−1) nach (Ωi, Ai). Dann definiert die Rekursion κ1 ⊗ ··· ⊗ 

κi := (κ1 ⊗···⊗κi−1) ⊗ κi für jedes i =1,...,neinen substochastischen Kern 

i� 

� i 

i� 

� 

κk := κ1 ⊗ ··· ⊗ κi von (Ω0, A0) nach × Ωk, Ak . Sind alle κi 

k=1 

k=1 k=0 

i� 

stochastisch, so ist jedes κk stochastisch. 

k=1 

Ist μ ein endliches Maß auf (Ω0, A0), soistμi := μ ⊗ i� 

κk ein endliches Maß 

k=1 

� i i� 

� 

auf × Ωk, Ak .Istμein W-Maß und jedes κi stochastisch, so ist μi ein 

k=0 k=0 

Wahrscheinlichkeitsmaß. 

Beweis. Die Aussagen folgen per Induktion aus Satz 14.22. ✷ 

Definition 14.25 (Verkettung von Kernen). Seien (Ωi, Ai) Messräume, i =0, 1, 2, 

und κi ein substochastischer Kern von (Ωi−1, Ai−1) nach (Ωi, Ai), i =1, 2. Wir 

definieren die Verkettung von κ1 und κ2 durch 

κ1 · κ2 : Ω0 ×A2 → [0, ∞) 

� 

(ω0,A2) ↦→ κ1(ω0,dω1) κ2(ω1,A2). 

Ω1 

Satz 14.26. Bezeichnen wir mit π2 : Ω1 × Ω2 → Ω2 die Projektion auf die zweite 

Koordinate, so ist 

(κ1 · κ2)(ω0,A2) =(κ1⊗ κ2) � ω0,π −1 � 

2 (A2) für jedes A2 ∈A2. 

Speziell ist die Verkettung κ1 · κ2 ein (sub-)stochastischer Kern von (Ω0, A0) nach 

(Ω2, A2).



Lemma 14.27 (Kerne und Faltung). Seien μ und ν W-Maße auf R d und die Kerne 

κi :(R d , B(R d )) → (R d , B(R d )), i =1, 2, definiert durch κ1(x, dy) =μ(dy) 

sowie κ2(y, dz) =(δy ∗ ν)(dz). Dann ist κ1 · κ2 = μ ∗ ν. 

Beweis. Das ist trivial. ✷ 

Satz 14.28 (Kerne und Faltung). Seien X1,X2,... unabhängige Rd-wertige Zufallsvariablen 

mit Verteilungen μi := Pi, i =1,...,n. Setze Sk := X1 + ...+ 

Xk für k = 1,...,n und definiere stochastische Kerne von Rd nach Rd durch 

κk(x, · )=δx ∗ μk für k =1,...,n. Dann gilt 

� 

n� 

� 

(0, · )=P (S1,...,Sn). (14.8) 

k=1 

κk 

Beweis. Für k =1,...,n definiere die messbare Bijektion ϕk :(R d ) k → (R d ) k 

durch 

ϕk(x1,...,xk) =(x1,x1 + x2,...,x1 + ...+ xk). 

Offenbar ist B((Rd ) n � 

)=σ ϕn(A1 ×···×An) : A1,...,An ∈B(Rd ) � . Es reicht 

also (14.8) für Mengen von diesem Typ nachzuweisen, also zu zeigen, dass 

� 

�n 

� 

n� 

(0,ϕk(A1×···×An)) = P (S1,...,Sn)(ϕn(A1×···×An)) = μk(Ak). 

κk 

k=1 

Für n =1ist die Aussage klar. Per Definition ist κn(yn−1,yn−1 + An) =μn(An). 

Induktiv folgt 

� 

�n 

� 

(0,ϕn(A1 ×···×An)) 

κk 

k=1 

� 

= 

= 

ϕn−1(A1×···×An−1) 

� n−1 

� 

k=1 

� n−1 

� 

k=1 

κk 

k=1 

� 

�0,d(y1,...,yk−1) � � � 

κn yn−1,yn−1 + An 

� 

μk(Ak) μn(An). ✷ 

Satz 14.29 (Fubini für Übergangskerne). Seien (Ωi, Ai) Messräume, i =1, 2, μ 

ein endliches Maß auf (Ω1, A1), κ ein endlicher Übergangskern von Ω1 nach Ω2 

sowie f : Ω1×Ω2 → R messbar bezüglich A1⊗A2.Istf ≥ 0 oder f ∈L 1 (μ⊗κ), 

dann gilt 

� 

Ω1×Ω2 

� 

fd(μ⊗ κ) = 

Ω1 

�� 

Ω2 

� 

f(ω1,ω2) κ(ω1,dω2) μ1(dω1). (14.9)


Beweis. Für f = A1×A2 mit A1 ∈ A1 und A2 ∈ A2 gilt die Aussage per 

Definition. Für allgemeine f verwenden wir die Approximationsargumente wie in 

Satz 14.16. ✷ 

Beispiel 14.30. Wir kommen auf das Beispiel vom Anfang des Kapitels zurück. Sei 

n ∈ N und (Ω2, A2) = � {0, 1} n , (2 {0,1} ) ⊗n� der Raum des n-fachen Münzwurfs. 

Für jedes p ∈ [0, 1] definieren wir 

Pp =(Berp) ⊗n = � �⊗n. (1 − p)δ0 + pδ1 

Pp ist dasjenige W-Maß auf (Ω2, A2), mit dem die Koordinatenabbildungen Yi unabhängige 

Bernoulli-Zufallsvariablen mit Erfolgswahrscheinlichkeit p sind. 

Ferner sei Ω1 =[0, 1] und A1 = B([0, 1]) die Borel’sche σ-Algebra auf Ω1, sowie 

μ = U [0,1] die Gleichverteilung auf [0, 1]. Die identische Abbildung X : Ω1 → 

[0, 1], ist dann eine uniform auf [0, 1] verteilte Zufallsvariable auf (Ω1, A1,μ). 

Schließlich betrachten wir den stochastischen Kern von Ω1 nach Ω2 

κ(ω1, · )=Pω1 . 

Setzen wir Ω = Ω1 × Ω2, A = A1 ⊗A2 und P = μ ⊗ κ, dann beschreiben X und 

Y1,...,Yn genau die Zufallsvariablen auf (Ω,A, P) aus dem Beispiel am Anfang 

des Kapitels. ✸ 

Bemerkung 14.31. Das Verfahren lässt sich natürlich für n-stufige Experimente 

erweitern. Sei (Ωi, Ai) der Messraum des i-ten Experiments, i = 0,...,n − 

1. SeiP0 ein W-Maß auf (Ω0, A0). Für i = 1,...,n − 1 sei die Verteilung 

auf (Ωi, Ai) abhängig von (ω1,...,ωi−1) und gegeben durch einen stochastischen 

Kern κi von Ω0 × ··· × Ωi−1 nach Ωi. Das gesamte n-stufige Experi- 

ment wird dann durch die Koordinatenabbildungen in dem Wahrscheinlichkeitsraum 

Ωi, n−1 � 

Ai, P0 ⊗ n−1 

� 

� 

beschrieben. ✸ 

� n−1 

× 

i=0 

i=0 

κi 

i=1 

Übung 14.2.1. Man zeige die Faltungsformeln: 

(i) Normalverteilung: N μ1,σ 2 1 ∗N μ2,σ 2 2 = N μ1+μ2,σ 2 1 +σ 2 2 für alle μ1,μ2 ∈ R und 

σ 2 1,σ 2 2 > 0. 

(ii) Gamma-Verteilung: Γθ,r ∗ Γθ,s = Γθ,r+s für alle θ, r, s > 0. 

(iii) Cauchy-Verteilung: Caur ∗ Caus =Caur+sfür alle r, s > 0. ♣ 

Übung 14.2.2 (Hilbert-Schmidt Operator). Seien (Ωi, Ai,μi), i = 1, 2, σendliche 

Maßräume und a : Ω1 × Ω2 → R messbar mit 

� � 

μ1(dt1) μ2(dt2) a(t1,t2) 2 < ∞.


Für f ∈L2 (μ1) definiere 

� 

(Af)(t2) = a(t1,t2)f(t1) μ1(dt1). 

Zeige: A ist ein stetiger linearer Operator von L 2 (μ1) nach L 2 (μ2). ♣ 

Übung 14.2.3 (Partielle Integration). Seien Fμ und Fν die Verteilungsfunktionen 

der lokal endlichen Maße μ und ν auf R.Für x ∈ R definieren wir den linksseitigen 

Grenzwert F (x−) =supy

14.3 Satz von Ionescu-Tulcea und Projektive Familien 273 

Satz 14.32 (Ionescu-Tulcea). Es gibt ein eindeutig bestimmtes W-Maß auf (Ω,A), 

sodass (14.11) gilt. 

Beweis. Die Eindeutigkeit ist klar, weil die endlichdimensionalen Rechteckzylinder 

einen schnittstabilen Erzeuger von A bilden. Es bleibt die Existenz zu zeigen. 

Wir definieren eine Mengenfunktion P auf den Zylindermengen Z durch (14.11). 

Offenbar ist P additiv, also ein Inhalt. Ist P nun aber ∅-stetig, so ist P nach Satz 1.36 

ein Prämaß und lässt sich nach dem Satz von Carathéodory (Satz 1.41) eindeutig zu 

einem Maß auf A fortsetzen. 

Sei also A0 ⊃ A1 ⊃ A2 ⊃ ...eine Folge in Z mit α := infn∈N0 P (An) > 0. Es 

reicht zu zeigen, dass �∞ n=0 An �= ∅. Ohne Einschränkung können wir annehmen, 

dass An = A ′ n × × ∞ 

k=n+1 Ωk für gewisses A ′ n ∈An .Für n ≥ m setze 

hm,n(ω0,...,ωm) := 

� n� 

k=m+1 

κk 

� 

�(ω0,...,ωm),A ′ � 

n 

und hm := infn≥m hm,n. Wir zeigen induktiv, dass es ϱi ∈ Ωi, i ∈ N0, gibt mit 

Wegen A ′ n+1 ⊂ A ′ n × Ωn+1 gilt 

hm,n+1(ω0,...,ωm) = 

≤ 

= 

� n+1 

� 

hm(ϱ0,...,ϱm) ≥ α. (14.12) 

k=m+1 

� n+1 

� 

k=m+1 

� n� 

k=m+1 

κk 

κk 

κk 

� 

�(ω0,...,ωm),A ′ � 

n+1 

� 

�(ω0,...,ωm),A ′ � 

n × Ωn+1 

� 

�(ω0,...,ωm),A ′ � 

n = hm,n(ω0,...,ωm). 

Also gilt hm,n ↓ hm für n →∞und nach dem Satz von der monotonen Konvergenz 

� 

� 

hm dPm = inf 

n≥m 

hm,n dPm =inf 

n∈N Pn(A ′ n)=α. 

Daher gilt (14.12) für m =0. Gelte nun (14.12) für ein m ∈ N0. Dannist 

� 

� � 

hm+1(ϱ0,...,ϱm,ωm+1) κm+1 (ϱ0,...,ϱm),dωm+1 

� 

� � 

= inf hm+1,n(ϱ0,...,ϱm,ωm+1) κm+1 (ϱ0,...,ϱm),dωm+1 

n≥m+1 

= hm(ϱ0,...,ϱm) ≥ α. 

Es folgt (14.12) für m +1. 

Sei ϱ := (ϱ0,ϱ1,...) ∈ Ω. Nach Konstruktion ist α ≤ hm,m(ϱ0,...,ϱm) = 

A ′ m (ϱ0,...,ϱm), also ϱ ∈ Am für jedes m ∈ N und damit � ∞ 

i=0 Ai �= ∅. ✷


Korollar 14.33 (Produktmaß). Für jedes n ∈ N0 sei Pn ein W-Maß auf (Ωn, An). 

Dann existiert ein eindeutig bestimmtes W-Maß P auf (Ω,A) mit 

� 

� 

n� 

P A0 ×···×An × = Pk(Ak) 

∞ 

× Ωi 

i=n+1 

für Ai ∈Ai, i =0,...,nund n ∈ N0. 

Wir nennen �∞ i=0 Pi := P das Produkt der Maße P0,P1,... Unter P sind die 

Koordinatenabbildungen (Xi)i∈N0 unabhängig. 

Beweis. Wende den Satz von Ionescu-Tulcea mit κi((ω0,...,ωi−1), · )=Pi an.✷ 

Wir wollen nun eine dem Satz von Ionescu-Tulcea vergleichbare Aussage treffen, 

dabei jedoch auf die Annahme verzichten, dass die Maße Pk auf A k a priori durch 

Kerne definiert werden. Bevor wir den Satz formulieren, wollen wir die Konsistenzbedingung 

(14.10) verallgemeinern. (Erinnerung: für L ⊂ J ⊂ I bezeichnet 

X J L : ΩJ −→ ΩL die Projektion.) 

Definition 14.34. Eine Familie (PJ, J⊂ I endlich) von W -Maßen auf (ΩJ, AJ) 

heißt projektive Familie, falls für alle endlichen L ⊂ J ⊂ I gilt 

Ist P ein W-Maß auf (Ω,A), wobei 

Ω =× i∈I 

PL = PJ ◦ � X J�−1 L . 

k=0 

Ωi und A = � 

Ai, 

,J ⊂ I endlich) projektiv. 

Projektivität ist also eine notwendige Bedingung für die Existenz des Maßes 

P auf dem Produktraum. Sind alle beteiligten Messräume Borel’sche Räume (siehe 

Definition 8.34) – also beispielsweise Rd , Zd , C([0, 1]) oder allgemeiner polnische 

Räume –, so ist diese Bedingung auch ausreichend. Wir formulieren diese Aussage 

zunächst für abzählbare Indexmengen. 

so ist wegen XL = XJ L ◦ XJ, die Familie (PJ := P ◦ X −1 

J 

Satz 14.35. Sei I höchstens abzählbar, und seien (Ωi, Ai) Borel’sche Messräume, 

i ∈ I. Sei(PJ, J⊂ I endlich) eine projektive Familie von W-Maßen. Dann gibt 

es ein eindeutig bestimmtes W-Maß P auf (Ω,A) mit PJ = P ◦ X −1 

J für jedes 

endliche J ⊂ I. 

Beweis. Ohne Einschränkung sei I = N0 und Pn := P {0,...,n}. Manprüft leicht 

nach, dass endliche Produkte von Borel’schen Räumen wieder Borel’sche Räume 

sind, also ist (Ω {0,...,n}, A {0,...,n}) Borel’sch für jedes n ∈ N0. 

i∈I

14.3 Satz von Ionescu-Tulcea und Projektive Familien 275 

Sei Ãn := {A × Ωn+1 : A ∈A {0,...,n}} und das W-Maß ˜ Pn auf (Ω {0,...,n+1}, Ãn ) 

definiert durch ˜ Pn(A×Ωn+1) =Pn(A) für A ∈A {0,...,n}. Die Projektivität liefert, 

� 

dass Pn+1� 

n 

Ã = ˜ Pn. Nach dem Satz über die Existenz regulärer bedingter Vertei- 

lungen (Satz 8.36) existiert ein stochastischer Kern κ ′ n+1 von (Ω {0,...,n+1}, Ãn ) 

nach (Ωn+1, An+1) mit 

Pn+1(A) 

�� 

= A(ω0,...,ωn, ˜ωn+1) κ ′ n+1((ω0,...,ωn+1),d˜ωn+1) ˜ Pn(d(ω0,...,ωn+1)) 

für jedes A ∈A {0,...,n+1}. Daκ ′ n+1( · ,A) messbar ist bezüglich Ãn ,hängt κ ′ n+1 

nicht von ωn+1 ab. Durch 

κn+1((ω0,...,ωn), · ):=κ ′ n+1((ω0,...,ωn+1), · ) 

wird also ein stochastischer Kern von (Ω {0,...,n}, A {0,...,n}) nach (Ωn+1, An+1) 

definiert mit 

�� 

Pn+1(A)= 

A(ω0,...,ωn+1) κn+1((ω0,...,ωn),dωn+1) Pn(d(ω0,...,ωn)). 

Mithin gilt Pn+1 = Pn ⊗ κn+1, und wir können Satz 14.32 anwenden. ✷ 

Als letzten Schritt in unserer Konstruktion wollen wir in Satz 14.35 die abzählbare 

Indexmenge durch eine beliebige Indexmenge ersetzen. 

Satz 14.36 (Kolmogorov’scher Erweiterungssatz). Sei I eine beliebige Indexmenge, 

und seien (Ωi, Ai) Borel’sche Messräume, i ∈ I.Sei(PJ, J⊂ I endlich) 

eine projektive Familie von W-Maßen. Dann gibt es ein eindeutig bestimmtes W- 

Maß P auf (Ω,A) mit PJ = P ◦ X −1 

J . Wir nennen P den projektiven Limes und 

PJ. 

bezeichnen ihn in Formeln mit P =: lim 

←− 

J↑I 

Beweis. Für abzählbares J ⊂ I gibt es nach Satz 14.35 ein eindeutig bestimmtes 

Maß PJ auf (ΩJ, AJ) mit PJ ◦ (X J K )−1 = PK für endliches K ⊂ J. Durch 

˜PJ(X −1 

J (AJ)) := PJ(AJ), AJ ∈AJ, wird hieraus ein Maß auf (Ω,σ(XJ)). 

Seien J, J ′ ⊂ I höchstens abzählbar und A ∈ σ(XJ) ∩ σ(XJ ′) ∩Zein σ(XJ) ∩ 

σ(XJ ′)-messbarer Zylinder mit endlicher Basis. Dann existiert ein endliches K ⊂ 

J ∩ J ′ und AK ∈AK mit A = X −1 

K (AK).Alsoist˜ PJ(A) =PK(AK) = ˜ PJ ′(A). 

Nach Satz 14.12 ist dann aber auch ˜ PJ(A) =PK(AK) = ˜ PJ ′(A) für alle A ∈ 

σ(XJ) ∩ σ(XJ ′). Nun gibt es (nach Übung 14.1.1) für jedes A ∈Aein abzählbares 

J ⊂ I mit A ∈ σ(XJ), also können wir auf eindeutige Weise (und unabhängig von 

der Wahl von J) eine Mengenfunktion P auf A definieren durch P (A) = ˜ PJ(A).Es 

bleibt zu zeigen, dass P ein W-Maß ist. Offenbar ist P (Ω) =1.SindA1,A2,...∈


A paarweise disjunkt und A := �∞ n=1 An, sogibtesabzählbare Jn ⊂ I mit An � 

∈ 

σ(XJn ) für n ∈ N. Setze J = n∈N Jn. Dann ist jedes An in σ(XJ) und damit 

auch A ∈ σ(XJ), also 

P (A) = ˜ ∞� 

∞� 

PJ(A) = ˜PJ(An) = P (An). 

n=1 

Damit ist P als W-Maß erkannt. ✷ 

Beispiel 14.37. Sei � (Ωi,τi), i∈ I � eine beliebige Familie von polnischen Räumen 

(Erinnerung: nach Satz 8.35 sind polnische Räume auch Borel’sche Räume), 

Ai = σ(τi) und Pi ein beliebiges W-Maß auf (Ωi, Ai). Für endliches J ⊂ I sei 

PJ = � 

j∈J Pj das Produktmaß der Pj, j ∈ J. Offenbar ist die Familie (PJ, J⊂ I 

endlich) projektiv. Wir nennen 

P = � 

i∈I 

Pi := lim PJ 

←− 

J↑I 

das Produktmaß auf (Ω,A). Unter P sind alle Projektionen Xj unabhängig. ✸ 

Beispiel 14.38. (Pólya’sches Urnenmodell) (Vergleiche Beispiel 12.29.) Zunächst 

befinden sich k rote und n − k blaue Kugeln in einer Urne. Es wird in jedem Zeitschritt 

eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben Farbe 

zurückgelegt. Zur Zeit i ∈ N0 befinden sich also n + i Kugeln in der Urne, wobei 

die Anzahl Xi der roten Kugeln zufällig ist. 

Formal definieren wir das Modell so: Sei n ∈ N und k ∈ {0,...,n}. Sei 

I = N0,Ωi = {0,...,n + i}, i ∈ N. Setze P0[{k}] = 1 und definiere die 

stochastischen Kerne κi von Ωi nach Ωi+1 durch 

n=1 

⎧ 

⎪⎨ 

xi 

n+i 

κi(xi, {xi+1}) = 

⎪⎩ 

, falls xi+1 = xi +1, 

1 − xi 

n+i , falls xi+1 

0, 

= xi, 

sonst. 

Setze nun Pi+1 = Pi ⊗ κi. Unter dem Maß P = lim 

←− 

Pi beschreiben die Projek- 

i→∞ 

tionen (Xi, i∈ N0) gerade das Pólya’sche Urnenmodell. ✸ 

14.4 Markov’sche Halbgruppen 

Definition 14.39. Sei E ein polnischer Raum. Sei I ⊂ R eine nichtleere Indexmenge 

und (κs,t : s, t ∈ I,s

14.4 Markov’sche Halbgruppen 277 

Definition 14.40. Sei E ein polnischer Raum. Sei I ⊂ [0, ∞) eine Halbgruppe 

(zum Beispiel I = N0 oder I = [0, ∞)). Eine Familie (κt : t ∈ I) von stochastischen 

Kernen heißt eine Halbgruppe von stochastischen Kernen, oder Markov’sche 

Halbgruppe, falls sie die Chapman-Kolmogorov’sche Gleichung erfüllt: 

κs · κt = κs+t für alle s, t ∈ I. (14.13) 

Tatsächlich ist ({κt : t ∈ I}, · ) eine Halbgruppe im algebraischen Sinne, und die 

Abbildung t → κt ist ein Halbgruppenhomomorphismus. Insbesondere kommutieren 

die Kerne in dem Sinne, dass κs · κt = κt · κs für alle s, t ∈ I. 

Lemma 14.41. Ist (κt : t ∈ I) eine Markov’sche Halbgruppe, so ist die für t>s 

durch ˜κs,t := κt−s definierte Familie von Kernen konsistent. 

Beweis. Das ist trivial. ✷ 

Satz 14.42 (Kern durch konsistente Familie von Kernen). Sei I ⊂ [0, ∞) mit 

0 ∈ I und (κs,t : s, t ∈ I,s


� 

n� 

fi(ωi) = 

k=l 

κjk,jk+1 

� 

(ωi,Aji+1 

Nach Voraussetzung (und dem Satz von Fubini) ist 

� 

� 

fl−1(ωl−1) = 

� 

= 

κjl−1,jl 

E 

(ωl−1,dωl) 

Al+1 

Es folgt 

PJ◦(X J L) −1 � 

(A) = 

A ′ 

� 

= P ′ � 

(d(ω0,...,ωl−1)) 

A ′ 

= PL(A). 

Al+1 

×···×Ajn ). 

κjl−1,jl+1 (ωl−1,dωl+1) fl+1(ωl+1). 

P ′ (d(ω0,...,ωl−1)) fl+1(ωl+1) 

Aj l+1 

κjl,jl+1 (ωl,dωl+1) fl+1(ωl+1) 

(κjl−1,jl+1 )(ωl−1,dωl+1) f(ωl+1) 

Wir müssen nun noch zeigen, dass κ ein stochastischer Kern ist, also dass x ↦→ 

κ(x, A) messbar ist bezüglich B(E) – B(E) ⊗I . Nach Bemerkung 8.25 reicht es 

aus, dies für Rechteckmengen mit endlicher Basis A ∈Z R zu prüfen, denn Z R ist 

ein schnittstabiler Erzeuger von B(E) ⊗I . Seien also 0=t0

14.4 Markov’sche Halbgruppen 279 

Korollar 14.44 (Maße durch Markov’sche Halbgruppen). Sei (κt : t ∈ I) eine 

Markov’sche Halbgruppe auf dem polnischen Raum E. Dann existiert genau ein 

stochastischer Kern κ von (E,B(E)) nach (E I , B(E) ⊗I ) mit der Eigenschaft: 

Für jedes x ∈ E und je endlich viele Zahlen 0=t0


Familie von Verteilungen (νt, t ≥ 0) mit der Eigenschaft νt+s = νt ∗ νs ersetzen. 

Dies gilt speziell für die Familie der Gammaverteilungen νt = Γθ,t (für festes 

θ>0), die Poissonverteilung νt =Poit, die negative Binomialverteilung νt = b − t,p 

(für festes p ∈ (0, 1]), die Cauchy-Verteilung νt =Caut und andere (vergleiche 

Satz 15.12 und Korollar 15.13). Wir halten dieses Ergebnis in einem Satz fest. 

Definition 14.46 (Faltungshalbgruppe). Sei I ⊂ [0, ∞) eine Halbgruppe. Eine 

Familie ν =(νt : t ∈ I) von Wahrscheinlichkeitsverteilungen auf Rd heißt Faltungshalbgruppe, 

falls νs+t = νs ∗ νt gilt für alle s, t ∈ I. 

t→0 

Ist I =[0, ∞) und gilt zudem νt −→ δ0, so heißt die Faltungshalbgruppe stetig 

(im Sinne der schwachen Konvergenz). 

Ist d = 1 und νt((−∞, 0)) = 0 für jedes t ∈ I, soheißtνeine nichtnegative 

Faltungshalbgruppe. 

Für den folgenden Satz vergleiche Definition 9.7. 

Satz 14.47. Zu jeder Faltungshalbgruppe (νt : t ∈ I) und jedem x ∈ R d existiert 

ein W-Maß Px auf dem Produktraum (Ω,A) = � (R d ) I , B(R d ) ⊗I� , sodass der 

kanonische Prozess (Xt)t∈I ein stochastischer Prozess mit Px[X0 = x] =1und 

stationären unabhängigen Zuwächsen ist mit Px ◦ (Xt − Xs) −1 = νt−s für t> 

s. Umgekehrt definiert jeder stochastische Prozess (Xt)t∈I (auf einem beliebigen 

Wahrscheinlichkeitsraum (Ω,A, P)) mit stationären unabhängigen Zuwächsen eine 

Faltungshalbgruppe durch νt = P ◦ (Xt − X0) −1 für jedes t ∈ I. 

Übung 14.4.1. Sei (νt : t ≥ 0) eine stetige Faltungshalbgruppe. Man zeige: Für 

jedes t>0 gilt νt = lims→t νs. ♣ 

Übung 14.4.2. Sei (νt : t ≥ 0) eine Faltungshalbgruppe. Man zeige: Für νt/n n→∞ 

−→ 

δ0. ♣ 

Übung 14.4.3. Man zeige: Eine nichtnegative Faltungshalbgruppe ist stetig. ♣ 

Übung 14.4.4. Man zeige: Eine stetige, reelle Faltungshalbgruppe (νt : t ≥ 0) mit 

νt((−∞, 0)) = 0 für ein t>0 ist nichtnegativ. ♣

15 Charakteristische Funktion und Zentraler 

Grenzwertsatz 

Hauptziel dieses Abschnitts ist der Zentrale Grenzwertsatz für Summen unabhängiger 

Zufallsvariablen (Satz 15.37) und für unabhängige Schemata (Satz von 

Lindeberg-Feller, Satz 15.43), wobei wir für den letzteren nur die eine Richtung 

beweisen (Satz von Lindeberg). 

Das Hilfsmittel der Wahl für die Behandlung von Zentralen Grenzwertsätzen sind 

charakteristische Funktionen, also Fouriertransformierte von W-Maßen. Wir beginnen 

mit einer sehr allgemeinen Betrachtung über Klassen von Testfunktionen, die 

schwache Konvergenz charakterisieren können, und betrachten dann Fouriertransformierte 

im Detail. Der nachfolgende Abschnitt beweist mit Hilfe von charakteristischen 

Funktionen den Zentralen Grenzwertsatz für reelle Zufallsvariablen. Im 

fünften Abschnitt zeigen wir den mehrdimensionalen Zentralen Grenzwertsatz. 

15.1 Trennende Funktionenklassen 

Sei (E,d) ein metrischer Raum mit Borel’scher σ-Algebra E = B(E). 

Mit C = {u + iv : u, v ∈ R} bezeichnen wir den Körper der komplexen Zahlen. 

Mit Re(u + iv) =u und Im(u + iv) =v bezeichnen wir den Realteil und den 

Imaginärteil von z = u + iv ∈ C, mit z = u − iv die zu z komplex konjugierte Zahl 

und mit |z| = √ u2 + v2 den Betrag von z. Von prominenter Bedeutung wird für 

uns die komplexe Exponentialfunktion exp : C → C sein, die wir durch exp(z) = 

exp(u) � cos(v)+i sin(v) � oder durch die Potenzreihe exp(z) = �∞ n=0 zn /n! definieren 

können. Bekanntlich gilt exp(z1 + z2) =exp(z1) · exp(z2). Man beachte, 

dass aus Re(z) =(z + z)/2 und Im(z) =(z− z)/2i folgt, dass 

cos(x) = eix + e −ix 

2 

und sin(x) = eix − e −ix 

2i 

für jedes x ∈ R. 

Eine Abbildung f : E → C ist genau dann messbar, wenn Re(f) und Im(f) 

messbar sind (siehe Satz 1.90 mit C ∼ = R2 ). Insbesondere ist jede stetige Funktion 

E → C messbar. Ist μ ∈M(E), sodefinieren wir 

� � 

� 

fdμ:= Re(f) dμ + i Im(f) dμ,

282 15 Charakteristische Funktion und Zentraler Grenzwertsatz 

wenn beide Integrale existieren und endlich sind. Mit Cb(E; C) bezeichnen wir den 

Banachraum der stetigen, beschränkten, komplexwertigen Funktionen auf E, ausgestattet 

mit der Supremumsnorm �f�∞ =sup{|f(x)| : x ∈ E}. Wir nennen 

C⊂Cb(E; C) trennend für Mf (E), falls es für je zwei Maße μ, ν ∈Mf (E) mit 

μ �= ν ein f ∈Cgibt mit � fdμ �= � fdν. Satz 13.34 gilt für C ⊂ Cb(E; C) 

sinngemäß. 

Definition 15.1. Sei K = R oder K = C. Eine Teilmenge C ⊂ Cb(E; K) heißt 

Algebra, falls 

(i) 1 ∈C, 

(ii) für f,g ∈Csind f · g ∈Cund f + g ∈C, 

(iii) für f ∈Cund α ∈ K ist (αf) ∈C. 

C heißt Punkte trennend, falls es zu je zwei Punkten x, y ∈ E mit x �= y ein f ∈C 

gibt mit f(x) �= f(y). 

Satz 15.2 (Stone-Weierstraß). Sei E ein kompakter Hausdorffraum. Sei K = R 

oder K = C. SeiC⊂Cb(E; K) eine Punkte trennende Algebra. Ist K = C, sosei 

C zusätzlich abgeschlossen bezüglich komplexer Konjugation (das heißt, mit f ist 

stets auch die komplex konjugierte Funktion f in C). 

Dann liegt C dicht in Cb(E; K) bezüglich der Supremumsnorm. 

Beweis. Wir folgen der Darstellung in Dieudonné ([34, Kapitel VII.3]). Sei zunächst 

der Fall K = R betrachtet. Wir gehen in mehreren Schritten vor. 

1. Schritt Nach dem Weierstraß’schen Approximationssatz (Beispiel 5.15) gibt 

es eine Folge (pn)n∈N von Polynomen, die die Abbildung [0, 1] → [0, 1], t ↦→ √ t 

gleichmäßig approximiert. Ist f ∈C, so ist also |f| = �f�∞ limn→∞ pn(f 2 /�f�2 ∞) 

im Abschluss C von C in Cb(E; R). 

2. Schritt Indem wir den 1. Schritt auf die Algebra C anwenden, folgt, dass mit 

f,g ∈ C auch f ∨ g = 1 

1 

2 (f + g + |f − g|) und f ∧ g = 2 (f + g −|f − g|) in C 

liegen. 

3. Schritt Für jedes f ∈ Cb(E; R), jedes x ∈ E und jedes ε>0 existiert ein 

gx ∈ C mit gx(x) =f(x) und gx(y) ≤ f(y) +ε für jedes y ∈ E. DaC Punkte 

trennt, existiert für jedes z ∈ E \{x} ein Hz ∈Cmit Hz(z) �= H(x) =0.Für diese 

z definieren wir hz ∈Cdurch hz(y) =f(x) + f(z)−f(x) 

Hz(z) Hz(y) für jedes y ∈ E. 

Zudem setzen wir hx := f. Dannisthz(x) =f(x) und hz(z) =f(z) für jedes 

z ∈ E. Daf und hz stetig sind, existiert zu jedem z ∈ E eine offene Umgebung 

Uz ∋ z mit h(y) ≤ f(y)+ε für jedes y ∈ Uz. Wir bilden eine endliche Überdeckung 

Uz1 ,...,Uzn von E mit solchen Umgebungen und setzen gx =min(hz1 ,...,hzn ). 

Nach Schritt 2 ist gx ∈ C.

15.1 Trennende Funktionenklassen 283 

4. Schritt Sei f ∈ Cb(E; R), ε>0 und gx wie im 3. Schritt für jedes x ∈ E. 

Da f und gx stetig sind, existiert zu jedem x ∈ E eine offene Umgebung Vx ∋ x 

mit gx(y) ≥ f(y) − ε für jedes y ∈ Vx. Wir bilden eine endliche Überdeckung 

Vx1 ,...,Vxn von E und definieren g := max(gx1 ,...,gxn ).Dannistg∈ C nach 

Schritt 2 und �g − f�∞ 0 beliebig war, gilt also 

C = Cb(E; R). 

5. Schritt Sei nun K = C betrachtet. Nach Voraussetzung sind mit f auch der 

Realteil Re(f) =(f + ¯ f)/2 und der Imaginärteil Im(f) =(f − ¯ f)/2i in C. Speziell 

ist C0 := {Re(f) : f ∈C}⊂Ceine reelle Algebra, die nach Voraussetzung Punkte 

trennt und die konstanten Funktionen enthält. Also ist C0 dicht in Cb(E; R).Wegen 

C = C0 + iC0 folgt, dass C dicht in Cb(E; C) ist. ✷ 

Korollar 15.3. Sei E ein kompakter, metrischer Raum. Sei K = R oder K = C. 

Sei C⊂Cb(E; K) eine Punkte trennende Familie, die stabil ist unter Multiplikation 

und 1 enthält. Ist K = C, soseiCzusätzlich abgeschlossen bezüglich komplexer 

Konjugation. 

Dann ist C eine trennende Familie für Mf (E). 

Beweis. Seien μ1,μ2 ∈Mf (E) mit � gdμ1 = � gdμ2für jedes g ∈C.SeiC ′ die 

Algebra der endlichen Linearkombinationen von Elementen aus C. Aufgrund der 

Linearität des Integrals gilt � gdμ1 = � gdμ2für jedes g ∈C ′ . 

Zu jedem f ∈ Cb(E,R) und jedem ε > 0 existiert nach dem Satz von Stone- 

Weierstraß ein g ∈C ′ mit � � 

�f − g�∞ 0 beliebig war, gilt Gleichheit und damit μ1 = μ2 (nach Satz 13.11). ✷ 

Als einfache Schlussfolgerungen bekommen wir die folgenden Sätze. 

Satz 15.4. Die Verteilung einer beschränkten reellen Zufallsvariablen X ist durch 

die Angabe aller Momente eindeutig bestimmt. 

Beweis. Ohne Einschränkung können wir annehmen, dass X nur Werte in E := 

[0, 1] annimmt. Für n ∈ N definiere die Abbildung fn : [0, 1] → [0, 1] durch 

fn : x ↦→ x n . Ferner sei f0 ≡ 1. Die Familie C = {fn, n ∈ N0} ist Punkte 

trennend und abgeschlossen unter Multiplikation, also trennend für Mf (E). PX 

ist also eindeutig festgelegt durch Angabe der Momente E[X n ]= � x n PX(dx), 

n ∈ N. ✷


Beispiel 15.5 (nach [72]). Im vorangehenden Satz können wir nicht ohne Weiteres 

auf die Beschränktheit von X verzichten, selbst wenn alle Momente existieren 

(es gibt allerdings schwächere Bedingungen, siehe Korollar 15.32). Wir betrachten 

hierzu X := exp(Y ), wobei Y ∼N0,1. Die Verteilung von X heißt auch Log- 

Normalverteilung. Für jedes n ∈ N ist nY verteilt wie die Summe von n2 unabhängigen, 

standardnormalverteilten Zufallsvariablen nY D = Y1 + ...+ Yn2.Also ist für n ∈ N 

E[X n ]=E[e nY ]=E[e Y1+...+Yn2 n 

]= 

2 

� 

E[e Yi ]=E[e Y ] n2 

= 

i=1 

�� ∞ 

(2π) 

−∞ 

−1/2 e y e −y2 � 2 

n 

/2 

dy 

= e n2 /2 . 

(15.1) 

Wir wollen nun gleich eine ganze Familie von Verteilungen konstruieren, die die 

gleichen Momente wie X besitzen. Nach der Transformationsformel für Dichten 

(Satz 1.101) hat die Verteilung von X die Dichte 

f(x) = 1 

√ x 

2π −1 � 

exp − 1 

2 log(x)2 

� 

für x>0. 

Für α ∈ [−1, 1] definieren wir Wahrscheinlichkeitsdichten fα auf (0, ∞) durch 

fα(x) =f(x) � 1+α sin(2π log(x)) � . 

Um zu zeigen, dass fα eine Dichte ist und die selben Momente wie f besitzt, reicht 

es zu zeigen, dass für jedes n ∈ N0 gilt 

m(n) := 

� ∞ 

0 

x n f(x) sin(2π log(x)) dx =0. 

Mit der Substitution y = log(x) − n erhalten wir (wegen sin(2π(y + n)) = 

sin(2πy)) 

m(n) = 

� ∞ 

−∞ 

e yn+n2 

(2π) −1/2 e −(y+n)2 /2 

sin(2π(y + n)) dy 

=(2π) −1/2 e n2 /2 

� ∞ 

e 

−∞ 

−y2 /2 

sin(2πy) dy =0, 

wobei die letzte Gleichheit folgt, weil der Integrand eine ungerade Funktion ist. ✸ 

Satz 15.6 (Laplace-Transformation). Ein endliches Maß μ auf [0, ∞) ist eindeutig 

bestimmt durch Angabe der Laplace-Transformierten 

� 

Lμ(λ) := e −λx μ(dx) für λ ≥ 0.


Beweis. Dem Problem, dass der Raum [0, ∞) nicht kompakt ist, begegnen wir, indem 

wir zur (Einpunkt-) Kompaktifizierung E =[0, ∞] übergehen. Wir definieren 

für λ ≥ 0 die stetige Funktion fλ :[0, ∞] → [0, 1] durch fλ(x) =e −λx , falls 

x0. Wähle N ∈ N so groß, dass (1 + 2�f�∞) · (μ1 + μ2)(Rd \ 

[−N,N] d )


Da ε>0 beliebig war, stimmen die Integrale überein. Nach Satz 13.11 ist also 

μ1 = μ2. ✷ 

Korollar 15.9. Ein endliches Maß μ auf Zd ist durch die Werte 

� 

ϕμ(t) = 

eindeutig festgelegt. 

e i〈t,x〉 μ(dx), t ∈ [−π, π) d , 

Beweis. Dies ist klar, weil ϕμ(t +2πk) =ϕμ(t) für jedes k ∈ Z d . ✷ 

Während das vorangehende Korollar nur eine abstrakte Eindeutigkeitsaussage liefert, 

wird uns manchmal eine explizite Inversionsformel von Nutzen sein. 

Satz 15.10 (Diskrete Fourier-Inversionsformel). Sei μ ∈Mf (Zd ) mit charakteristischer 

Funktion ϕμ. Dann gilt für jedes x ∈ Zd μ({x}) =(2π) −d 

� 

e −i〈t,x〉 ϕμ(t) dt. 

[−π,π) d 

[−π,π) d 

[−π,π) d 

Beweis. Nach dem Satz über majorisierte Konvergenz ist 

� 

e −i〈t,x〉 � 

ϕμ(t) dt = e −i〈t,x〉 

⎛ 

⎝ lim 

� 

e i〈t,y〉 ⎞ 

μ({y}) ⎠ dt 

� 

= lim 

n→∞ 

[−π,π) d 

= � 

� 

μ({y}) 

y∈Z d 

n→∞ 

|y|≤n 

� 

−i〈t,x〉 

e 

[−π,π) d 

|y|≤n 

e i〈t,y−x〉 dt. 

e i〈t,y〉 μ({y}) dt 

Die Behauptung folgt, weil für y ∈ Zd gilt 

� 

[−π,π) d 

e i〈t,y−x〉 � 

d (2π) , 

dt = 

0, 

falls x = y, 

sonst. ✷ 

Ähnliche Inversionsformeln gelten für Maße μ auf Rd . Besonders einfach ist der 

Fall, wo μ eine integrierbare Dichte f := dμ 

dλ bezüglich des d-dimensionalen 

Lebesgue-Maßes λ hat. In diesem Fall gilt die Fourier-Inversionsformel 

f(x) =(2π) −d 

� 

e −i〈t,x〉 ϕμ(t) λ(dt). (15.2) 

R d 

Es gilt die Plancherel’sche Gleichung: Es ist genau dann f ∈L 2 (λ), wennϕμ ∈ 

L 2 (λ). In diesem Fall ist �f�2 = �ϕ�2. 

Da wir diese Aussagen jedoch nicht weiter verwenden werden, verweisen wir lediglich 

auf die einschlägigen Lehrbücher (etwa [156, Kapitel V.2] oder [53, Theorem 

XV.3.3 und Gleichung (XV.3.8)]).


Übung 15.1.1. Man zeige, dass im Satz von Stone-Weierstraß auf die Kompaktheit 

von E nicht verzichtet werden kann. Hinweis: Man wähle etwa E = R, nutze aus, 

dass Cb(R) =Cb(R; R) nicht separabel ist und konstruiere eine abzählbare, Punkte 

trennende Algebra C⊂Cb(R). ♣ 

Übung 15.1.2. Sei d ∈ N und μ ein endliches Maß auf [0, ∞) d . Man zeige: μ ist 

durch Angabe der Laplace-Transformierten Lμ(λ) = � e −〈λ,x〉 μ(dx), λ ∈ [0, ∞) d 

eindeutig bestimmt. ♣ 

Übung 15.1.3. Man zeige, dass unter den Voraussetzungen von Satz 15.10 die 

Plancherel’sche Gleichung gilt: 

� 

μ({x}) 2 =(2π) −d 

� 

|ϕμ(t)| 2 dt. ♣ 

x∈Z d 

[−π,π) d 

Übung 15.1.4 (Mellin-Transformierte). Sei X eine nichtnegative reelle Zufallsvariable. 

Für s ≥ 0 definieren wir die Mellin-Transformierte von PX 

mX(s) =E[X s ] 

mit Werten in [0, ∞]. 

Man zeige: Gibt es ein ε0 > 0 mit mX(ε0) < ∞ (beziehungsweise mX(−ε0) < 

∞), so ist für jedes ε>0 die Verteilung PX eindeutig bestimmt durch die Werte 

mX(s) (beziehungsweise mX(−s)), s ∈ [0,ε]. 

Anleitung: Für stetiges f :[0, ∞) → [0, ∞) sei 

φf (s) = 

� ∞ 

0 

t z−1 f(z), 

für diejenigen z ∈ C, für die dies wohldefiniert ist. Aus der Funktionentheorie ist 

bekannt: Ist φf (s) < ∞ für ein s>1, soistφf holomorph in {z ∈ C : Re(z) ∈ 

(1,s)} (und damit durch die Werte φf (r), r ∈ (1, 1+ε) eindeutig festgelegt für 

jedes ε>0), und es gilt für jedes r ∈ (1,s) 

f(t) = 1 

� ∞ 

t 

2πi −∞ 

−(r+iρ) φf (r + iρ) dρ. 

(i) Man folgere die Aussage für X mit stetiger Dichte. 

(ii) Für δ>0 sei Yδ ∼U [1−δ,1] und unabhängig von X. Man zeige, dass XYδ eine 

stetige Dichte hat. 

(iii) Man bestimme mXYδ und zeige, dass mXYδ → mX für δ ↓ 0. 

(iv) Man zeige, dass XYδ =⇒ X für δ ↓ 0. ♣


Übung 15.1.5. Seien X, Y, Z unabhängige nichtnegative reelle Zufallsvariablen, 

sodass P[Z > 0] > 0, und sodass die Mellin-Transformierte mXZ(s) < ∞ ist 

für ein s>0. 

Zeige: Gilt XZ D = YZ,soistX D = Y . ♣ 

Übung 15.1.6. Sei μ ein W-Maß auf R mit integrierbarer charakteristischer Funktion 

ϕμ, also ϕμ ∈L1 (λ), wobei λ das Lebesgue-Maß auf R ist. Man zeige, dass μ 

absolutstetig ist und die stetige und beschränkte Dichte f = dμ 

dλ gegeben ist durch 

f(x) = 1 

� ∞ 

e 

2π −∞ 

−itx ϕμ(t) dt für jedes x ∈ R. 

Anleitung: Man zeige dies zunächst für die Normalverteilung N0,ε, ε>0. Man 

zeige dann, dass μ ∗N0,ε absolutstetig ist mit Dichte fε, die punktweise gegen f 

konvergiert. ♣ 

Übung 15.1.7. Sei (Ω,τ) ein separabler topologischer Raum, der das T 3 1 

2 -Trennungsaxiom 

erfüllt: Zu jeder abgeschlossenen Menge A ⊂ Ω und jedem Punkt 

x ∈ Ω \ A existiert eine stetige Funktion f : Ω → [0, 1] mit f(x) = 0 und 

f(y) =1für jedes y ∈ A. (Insbesondere ist jeder metrische Raum ein T 3 1 

2 -Raum.) 

Man zeige: σ(Cb(Ω)) = B(Ω), das heißt, die Borel’sche σ-Algebra wird durch die 

beschränkten, stetigen Funktionen Ω → R erzeugt. ♣ 

15.2 Charakteristische Funktionen: Beispiele 

Lemma 15.11. Sei X eine Zufallsvariable mit Werten in R d und charakteristischer 

Funktion ϕX(t) =E � e i〈t,X〉� . Dann gelten 

(i) |ϕX(t)| ≤1 für jedes t ∈ Rd und ϕX(0) = 1, 

(ii) ϕaX+b(t) =ϕX(at) ei〈b,t〉 für jedes a ∈ R und b ∈ Rd , 

(iii) PX = P−X genau dann, wenn ϕ reellwertig ist, 

(iv) Sind X und Y unabhängig, so ist ϕX+Y = ϕX · ϕY . 

(v) Für jedes t ∈ R gilt für den Realteil 0 ≤ 1−Re(ϕX(2t)) ≤ 4(1−Re(ϕX(t))). 

Beweis. (i) und (ii) sind trivial. 

(iii) ϕX(t) =ϕX(−t) =ϕ−X(t). 

(iv) Da e i〈t,X〉 und e i〈t,Y 〉 unabhängige Zufallsvariablen sind, gilt 

ϕX+Y (t) =E � e i〈t,X〉 · e i〈t,Y 〉� = E � e i〈t,X〉� E � e i〈t,Y 〉� = ϕX(t) ϕY (t).

15.2 Charakteristische Funktionen: Beispiele 289 

(v) Nach dem Additionstheorem für Winkelfunktionen ist 

1 − cos(2tX) =2 � 1 − (cos(tX)) 2� ≤ 4 � 1 − cos(tX) � . 

Bilde jetzt den Erwartungswert. ✷ 

Satz 15.12 (Charakteristische Funktionen wichtiger Verteilungen). Wir geben 

für verschiedene Verteilungen P mit Dichte x ↦→ f(x) auf R oder Gewichten 

P ({k}), k ∈ N0, die charakteristische Funktion ϕ(t) an: 

Name 

Symbol 

Normal 

N μ,σ 2 

Gleichvert. 

U [0,a] 

Gleichvert. 

U [−a,a] 

Dreieck 

Tria 

Verteilung Char. Fkt. 

Parameter auf Dichte / Gewicht ϕ(t) 

μ ∈ R 

σ 2 > 0 

R 

√ 1 

2πσ2 exp 

� 

− (x−μ)2 

2σ2 a>0 [0,a] 1/a e iat −1 

iat 

a>0 [−a, a] 1/2a 

a>0 [−a, a] 

� � 

1 

+ 

a 1 −|x|/a 

1 1−cos(ax) 

N.N. a>0 R π ax2 Gamma 

Γθ,r 

Exponential 

expθ zweiseitig 

Exponential 

exp2 θ 

Cauchy 

Caua 

Binomial 

bn,p 

Negativ 

Binomial 

b − r,p 

Poisson 

Poiλ 

θ>0 

r>0 

[0, ∞) 

� 

e iμt · e −σ2 t 2 /2 

sin(at) 

at 

2 1−cos(at) 

a 2 t 2 

(1 −|t|/a) + 

θ r 

Γ (r) xr−1 e−θx (1 − it/θ) −r 

θ>0 [0, ∞) θe −θx θ 

θ − it 

θ>0 R 

a>0 R 

n ∈ N 

p ∈ [0, 1] {0,...,n} 

r>0 

p ∈ (0, 1] 

N0 

θ 

2 e−θ|x| 

−λ λk 

λ>0 N0 e k! 

1 1 

aπ 1+(x/a) 2 

� � 

n 

p 

k 

k (1 − p) n−k 

� � 

−r 

(−1) 

k 

kpr (1 − p) k 

1 

1+(t/a) 2 

e −a|t| 

� (1 − p)+pe it � n 

� 

p 

1 − (1 − p)e it 

exp � λ(e it − 1) � 

� r


Beweis. (i) (Normalverteilung) Nach Lemma 15.11 reicht es, den Fall μ =0 

und σ2 =1zu betrachten. Mit Hilfe des Differentiationslemmas (Satz 6.28) und 

durch partielle Integration erhalten wir 

� ∞ 

d 

ϕ(t) = e 

dt −∞ 

itx ix e −x2 /2 

dx = −tϕ(t). 

Diese lineare Differentialgleichung mit Anfangswert ϕ(0) = 1 hat die eindeutige 

Lösung ϕ(t) =e−t2 /2 . 

(ii) (Gleichverteilung) Dies ist unmittelbar. 

(iii) (Dreieck) Es gilt Tria = U [−a/2,a/2] ∗U [−a/2,a/2], also ist 

ϕTria(t) =ϕU (t) [−a/2,a/2] 2 =4 sin(at/2)2 

a2 t2 1 − cos(at) 

=2 

a2 t2 , 

wobei wir ausgenutzt haben, dass nach dem Additionstheorem gilt 

1 − cos(x) =sin(x/2) 2 +cos(x/2) 2 − cos(x) =2sin(x/2) 2 . 

(iv) (N.N.) Dies lässt sich entweder direkt ausrechnen, oder mit Hilfe der Fourier- 

Inversionsformel (Gleichung (15.2)) aus (iii) folgern. 

(v) (Gammaverteilung) Es reicht wiederum, den Fall θ =1zu betrachten. Für 

0 ≤ b


� 

� 

0, wennb→0. Analog ist � � 

ɛc,t zr−1 � 

� 

exp(−z) dz� 

≤ cr exp(−c)(1 + t2 ) r/2 → 0, 

wenn c →∞. 

(vi) (Exponentialverteilung) Wegen exp θ = Γθ,1 folgt dies aus (v). 

(vii) (Zweiseitige Exponentialverteilung) Sind X und Y unabhängige expθ verteilte 

Zufallsvariablen, so ist X − Y ∼ exp2 θ (Nachrechnen!). Also ist 

ϕ exp 2 θ (t) =ϕexp θ (t) ϕexp θ (−t) = 

1 

1 − it/θ 

1 

1+it/θ = 

1 

. 

1+(t/θ) 2 

(viii) (Cauchy Verteilung) Dies lässt sich entweder mit Hilfe des Residuenkalküls 

direkt ausrechnen, oder mit Hilfe der Fourier-Inversionsformel (Gleichung 

(15.2)) aus der Aussage für die zweiseitige Exponentialverteilung folgern. 

(ix) (Binomialverteilung) Nach dem binomischen Lehrsatz ist 

n� 

� � 

n 

ϕ(t) = (1 − p) 

k 

n−k (pe it ) k =(1−p + pe it ) n . 

k=0 

(x) (Negative Binomialverteilung) Nach dem verallgemeinerten binomischen 

Lehrsatz (Lemma 3.5) ist für jedes x ∈ C mit |x| < 1 

(1 − x) −r ∞� 

� � 

−r 

= (−x) 

k 

k . 

k=0 

Wenn wir x =(1− p) e it setzen, folgt die Behauptung. 

(xi) (Poissonverteilung) Es ist ϕPoiλ (t) = 

∞� 

n=0 

Korollar 15.13. Es gelten die folgenden Faltungsformeln: 

e −λ (λeit ) n 

n! = eλ(eit −1) . ✷ 

(i) N μ1,σ 2 1 ∗N μ2,σ 2 2 = N μ1+μ2,σ 2 1 +σ 2 2 für μ1,μ2 ∈ R und σ 2 1,σ 2 2 > 0, 

(ii) Γθ,r ∗ Γθ,s = Γθ,r+s für θ, r, s > 0, 

(iii) Caua ∗ Caub =Caua+bfür a, b > 0, 

(iv) bm,p ∗ bn,p = bm+n,p für m, n ∈ N und p ∈ [0, 1], 

(v) b − r,p ∗ b − s,p = b − r+s,p für r, s > 0 und p ∈ (0, 1], 

(vi) Poiλ ∗ Poiμ =Poiλ+μ für λ, μ ≥ 0. 

Beweis. Die Aussagen folgen aus dem vorangehenden Satz zusammen mit ϕμ∗∗ν = 

ϕμ ϕν (Lemma 15.11). ✷ 

Zwei einfache Verfahren, um charakteristische Funktionen von zusammengesetzten 

Verteilungen auszurechnen, liefert der folgende Satz:


Satz 15.14. (i) Seien μ1,μ2,... ∈Mf (Rd ) und p1,p2,... nichtnegative Zahlen 

mit ∞� 

pnμn(R 

n=1 

d ) < ∞. Dann hat das Maß μ := ∞� 

pnμn ∈Mf (R 

n=1 

d ) die 

charakteristische Funktion 

∞� 

ϕμ = pn ϕμn . (15.3) 

n=1 

(ii) Es seien N,X1,X2,... unabhängige Zufallsvariablen. Die X1,X2,... seien 

identisch verteilt auf Rd mit charakteristischer Funktion ϕX. N habe Werte in 

N0 und die Erzeugendenfunktion fN. Dann hat Y := N� 

Xn die charakteris- 

n=1 

tische Funktion ϕY (t) =fN(ϕX(t)). 

(iii) Ist in (ii) speziell N ∼ Poiλ,soistϕY (t) =exp(λ(ϕX(t) − 1)). 

Beweis. (i) Setzen wir νn = n� 

n� 

pkμk, so gilt ϕνn = pkϕμk wegen der Li- 

k=1 

k=1 

nearität des Integrals. Nach Voraussetzung ist μ =w-lim 

n→∞ νn, also auch ϕμ(t) = 

lim ϕνn (t). 

n→∞ 

(ii) Es ist 

ϕY (t) = 

= 

∞� 

P[N = n] E � e i〈t,X1+...+Xn〉� 

n=0 

∞� 

n=0 

P[N = n] ϕX(t) n = fN (ϕ(t)). 

(iii) Der Spezialfall folgt, weil hier fN(z) =e λ(z−1) für z ∈ C mit |z| ≤1. ✷ 

Beispiel 15.15. Sei n ∈ N, und seien Punkte 0=a0 y1 > ... > yn =0gegeben. Sei ϕ : R → [0, ∞) diejenige gerade Funktion 

(also ϕ(x) =ϕ(−x)), die ϕ(ak) =yk für jedes k =0,...,nerfüllt und zwischen 

den Punkten ak linear interpoliert ist, sowie ferner ϕ(x) =0für |x| >anerfüllt. Wir wollen zusätzlich annehmen, dass die yk so gewählt sind, dass ϕ auf [0, ∞) 

konvex ist. Das ist äquivalent zu der Bedingung, dass m1 ≤ m2 ≤ ... ≤ mn ≤ 0, 

wo mk := yk−yk−1 die Steigung im k-ten Intervall ist. Wir wollen zeigen, dass ϕ 

ak−ak−1 

die charakteristische Funktion eines W-Maßes μ ∈M1(R) ist. 

Setze pk = ak(mk+1 − mk) für k =1,...,n. 

Sei μk ∈M1(Rd ) die Verteilung auf R mit Dichte 1 1−cos(akπ) 

π akx2 . Nach Satz 15.12 

� 

hat μk die charakteristische Funktion ϕμk (t) = 1 − |t| 

� + 

. Die charakteristische 

ak 

Funktion ϕμ von μ := �n k=1 pkμk ist dann

ϕμ(t) = 


n� 

pk(1 −|t|/ak) + . 

k=1 

Dies ist eine stetige, symmetrische, reelle Funktion mit ϕμ(0) = 1, die auf den Intervallen 

[ak−1,ak] jeweils linear ist. Durch partielle Summation erhalten wir (wegen 

mn+1 =0)für jedes k =1,...,n 

ϕμ(al) = 

= 

n� 

k=1 

� 

ak(mk+1 − mk) 1 − al 

� + 

= 

ak 

� 

� 

(an − al)mn+1 − (al − al)ml − 

= − 

n� 

(yk − yk−1) =yl = ϕ(al). 

k=l+1 

n� 

(ak − al)(mk+1 − mk) 

k=l 

n� 

(ak − ak−1)mk 

k=l+1 

Also ist ϕμ = ϕ. ✸ 

Beispiel 15.16. Wir betrachten die Funktion ϕ : R → [0, 1], die periodisch mit Periode 

2π ist, und die für t ∈ [−π, π) definiert ist durch ϕ(t) =1−2|t|/π.Durchdie 

diskrete Fourier-Inversionsformel (Satz 15.10) erhalten wir, dass ϕ die charakteristi- 

sche Funktion des W-Maßes μ ∈M1(Z) mit μ({x}) =(2π) −1 � π 

−π 

cos(tx) ϕ(t) dt 

ist, wenn wir zeigen können, dass alle diese Zahlen μ({x}) nichtnegativ sind. Für 

x =0ist offenbar μ({x}) =0.Für x ∈ Z \{0} berechnen wir das Integral mit 

Hilfe partieller Integration 

� π 

−π 

cos(tx) ϕ(t) dt =2 

Insgesamt erhalten wir 

= 4 

x 

� π 

� 

0 

cos(tx)(1− 2t/π) dt 

1 − 2 

� 

sin(πx) − 

π 

4 4 

sin(0) + 

x πx 

= 4 

(1 − cos(πx)). 

πx2 μ({x}) = 

� 4 

π 2 x 2 , falls x ungerade ist, 

0, sonst. 

� π 

0 

sin(tx) dt 

Wegen μ(Z) =ϕ(0) = 1 ist μ tatsächlich ein W-Maß. ✸ 

Beispiel 15.17. Wir betrachten die Funktion ψ : R → [0, 1], die periodisch mit 

Periode π ist, und die für t ∈ [−π/2,π/2) definiert ist durch ψ(t) =1− 2|t|/π. 

Ist ϕ die charakteristische Funktion zum Maß μ aus dem vorangehenden Beispiel, 

so ist offenbar ψ(t) =|ϕ(t)|. Andererseits ist ψ(t) = 1 1 

2 + 2ϕ(2t). Nach Satz15.14


und Lemma 15.11(ii) ist daher ψ die charakteristische Funktion des Maßes ν mit 

ν(A) = 1 

1 

2δ0(A)+ 2μ(A/2) für A ⊂ R.Alsoist 

⎧ 

⎪⎨ 

1 

2 , falls x =0, 

8 

ν({x}) = π 

⎪⎩ 

2x2 , falls x 

0, 

2 ∈ Z 

sonst. 

ungerade ist, 

✸ 

Beispiel 15.18. Sei ϕ(t) =(1− 2|t|/π) + die charakteristische Funktion der Verteilung 

” N.N.“ aus Satz 15.12 (mit a = π/2) und ψ die charakteristische Funktion 

aus dem vorangehenden Beispiel. Man beachte, dass ϕ(t) =ψ(t) für |t| ≤π/2 und 

ϕ(t) =0für |t| >π/2, also ϕ 2 = ϕ · ψ. Seien nun X, Y, Z unabhängige, reelle 

Zufallsvariablen mit charakteristischen Funktionen ϕX = ϕY = ϕ und ϕZ = ψ. 

Dann ist ϕXϕY = ϕXϕZ, also X + Y D = X + Z, jedoch stimmen die Verteilungen 

von Y und Z nicht überein. ✸ 

Übung 15.2.1. Sei ϕ die charakteristische Funktion der d-dimensionalen Zufallsvariablen 

X. Man zeige: Ist ϕ(t) =1für ein t �= 0,soistP[X ∈ Ht] =1,wo 

Ht = {x ∈ R d : 〈x, t〉 ∈2πZ} 

= � y + z · (2πt/�t� 2 2): z ∈ Z, y∈ R d mit 〈y, t〉 =0 � . 

Man folgere, dass ϕ(t + s) =ϕ(s) ist für jedes s ∈ R d . ♣ 

Übung 15.2.2. Man zeige: Es gibt reelle Zufallsvariablen X, X ′ und Y,Y ′ mit X D = 

X ′ und Y D = Y ′ , sodass X ′ und Y ′ unabhängig sind und X + Y D = X ′ + Y ′ gilt, 

jedoch X und Y nicht unabhängig sind. ♣ 

Übung 15.2.3. Sei X eine reelle Zufallsvariable mit charakteristischer Funktion ϕ. 

X heißt gitterverteilt, wennesa, d ∈ R gibt, sodass P[X ∈ a + dZ] =1. Zeige: 

X ist genau dann gitterverteilt, wenn es ein u �= 0gibt mit |ϕ(u)| =1. ♣ 

15.3 Der Lévy’sche Stetigkeitssatz 

Die Hauptaussage dieses Abschnitts ist der Stetigkeitssatz von Lévy (Satz 15.23), 

der, grob gesprochen, besagt, dass eine Folge von charakteristischen Funktionen 

genau dann punktweise gegen eine stetige Funktion konvergiert, wenn der Grenzwert 

wieder eine charakteristische Funktion ist und die zugehörigen Wahrscheinlichkeitsmaße 

schwach konvergieren. Wir bereiten den Beweis des Satzes mit ein 

paar analytischen Aussagen vor.

15.3 Der Lévy’sche Stetigkeitssatz 295 

Lemma 15.19. Sei μ ∈M1(R d ) mit charakteristischer Funktion ϕ. Dann gilt 

|ϕ(t) − ϕ(s)| 2 ≤ 2 � 1 − Re(ϕ(t − s)) � 

für alle s, t ∈ R d . 

Beweis. Nach der Cauchy-Schwarz’schen Ungleichung gilt 

|ϕ(t) − ϕ(s)| 2 �� 

� 

= � 

� 

Rd e i〈t,x〉 − e i〈s,x〉 �2 

� 

μ(dx) � 

� 

�� 

� 

= � 

� 

Rd �2 

� � � 

i〈t−s,x〉 i〈s,x〉 

e − 1 e μ(dx) � 

� 

� 

≤ 

Rd � 

� 

� 

� i〈t−s,x〉 2 

e − 1� μ(dx) · 

Rd � 

� i〈s,x〉 

e � �2 μ(dx) 

� 

� �� i〈t−s,x〉 −i〈t−s,x〉 

= e − 1 e − 1 μ(dx) 

R d 

=2 � 1 − Re(ϕ(t − s)) � . ✷ 

Definition 15.20. Sei (E,d) ein metrischer Raum. Eine Familie (fi, i ∈ I) von 

Abbildungen E → R heißt gleichgradig gleichmäßig stetig, falls für jedes ε>0 

ein δ>0 existiert, sodass |fi(t) − fi(s)| 0 existiert, sodass für jedes 

t ∈ Rd , jedes s ∈ Rd mit |t − s| 0, sodass für x ∈ [−N,N] d und u ∈ Rd mit |u|


Beweis. Sei ε>0 vorgegeben und δ>0 so gewählt, dass |fn(t) − fn(s)|

15.3 Der Lévy’sche Stetigkeitssatz 297 

α := inf{h(x) : |x| ≥1} =1− sin(1) > 0. Jetzt berechnen wir (unter Benutzung 

der Markov’schen Ungleichung und des Satzes von Fubini) für K>0 

� c 

Pn [−K, K] � ≤ α −1 

� 

[−K,K] c 

h(x/K) Pn(dx) 

≤ α −1 

� 

h(x/K) Pn(dx) 

R 

= α −1 

� � � 1 

� 

� � 

1 − cos(tx/K) dt Pn(dx) 

R 0 

= α −1 

� 1 � � 

� 

� � 

1 − cos(tx/K) Pn(dx) dt 

= α −1 

0 

� 1 

0 

R 

� 1 − Re(ϕn(t/K)) � dt. 

Wir erhalten nun (mit dem Satz von der majorisierten Konvergenz) 

lim sup 

n→∞ 

Pn([−K, K] c ) ≤ α −1 � 1 

lim sup 

n→∞ 0 

� 1 

= α −1 

= α −1 

0 

� 1 

0 

� 1 − Re(ϕn(t/K)) � dt 

� � 

lim 1 − Re(ϕn(t/K)) 

n→∞ 

�� 

dt 

� � 

1 − Re(f(t/K)) dt. 

Da f stetig und f(0) = 1 ist, konvergiert das letzte Integral gegen 0,wennK →∞. 

Also ist (Pn)n∈N straff. ✷ 

Eine einfache Anwendung des Lévy’schen Stetigkeitssatzes auf Beispiel 15.15 liefert 

den folgenden Satz von Pólya. 

Satz 15.24 (Pólya). Sei f : R → [0, 1] stetig und gerade mit f(0) = 1. Ferner sei 

f auf [0, ∞) konvex. Dann ist f die charakteristische Funktion eines W-Maßes. 

Beweis. Wir können f auf [0, ∞) durch konvexe Polygonzüge fn approximieren, 

indem wir fn(k/n) = f(k/n) setzen für k = 0,...,n2 und fn zwischen den 

Stützstellen linear interpolieren und rechts von n konstant fortsetzen. Für x0 ist ϕα,r(t) =e−|rt|α die charakteristische 

Funktion eines symmetrischen W-Maßes μα,r auf R.


Bemerkung 15.26. Tatsächlich ist ϕα,r auch für α ∈ (0, 2] eine charakteristische 

Funktion (für α = 2 die der Normalverteilung), siehe Kapitel 16.2. Die Verteilungen 

μα,r haben die Eigenschaft α-stabil zu sein (siehe Definition 16.20): Sind 

X1,X2,...,Xn unabhängig und μα,a-verteilt, so ist ϕX1+...+Xn (t) =ϕX(t) n = 

ϕX(n1/α D 

t), also X1 + ...+ Xn = n1/αX1. ✸ 

Wir haben mit dem Satz von Stone-Weierstraß gesehen, dass charakteristische Funktionen 

Verteilungen eindeutig bestimmen. Der Satz von Pólya bietet eine hinreichende 

Bedingung dafür, dass eine symmetrische reelle Funktion eine charakteristische 

Funktion ist. Dass diese Bedingung nicht notwendig ist, sieht man schon daran, 

dass die charakteristische Funktion der Normalverteilung sie nicht erfüllt. Wir geben 

nun, gewissermaßen zur Allgemeinbildung und ohne Beweis, den Satz von Bochner 

an, der eine notwendige und hinreichende Bedingung dafür formuliert, dass eine 

Funktion ϕ : R d → C die charakteristische Funktion eines W-Maßes ist. 

Definition 15.27. Eine Funktion f : R d → C heißt positiv semidefinit, falls für 

jedes n ∈ N und alle t1,...,tn ∈ R d sowie y1,...,yn ∈ C gilt 

n� 

yk ¯yl f(tk − tl) ≥ 0, 

k,l=1 

mit anderen Worten, falls die Matrix (f(tk − tl))k,l=1,...,n positiv semidefinit ist. 

Lemma 15.28. Ist μ ∈Mf (R d ) mit charakteristischer Funktion ϕ, soistϕ positiv 

semidefinit. 


n� 

yk ¯yl ϕ(tk − tl) = 

k,l=1 

n� 

k,l=1 

yk ¯yl 

� 

�n 

= 

k,l=1 

� � 

�� 

n� 

= 

k=1 

� 

e ix(tk−tl) μ(dx) 

yk e ixtk yl e ixtl μ(dx) 

yk e ixtk 

Der folgende Satz geht im Falle d =1auf Bochner (1932) zurück. 

�2 

� 

� 

� μ(dx) ≥ 0. ✷ 

Satz 15.29 (Bochner). Eine stetige Funktion f : R d → C ist genau dann die 

charakteristische Funktion einer Wahrscheinlichkeitsverteilung auf R d ,wennf 

positiv semidefinit ist und f(0) = 1 gilt. 

Die Aussage gilt ebenfalls, wenn wir R d durch eine lokalkompakte, abelsche Gruppe 

ersetzen.

15.4 Charakteristische Funktion und Momente 299 

Beweis. Für den Fall d =1siehe [20, §20, Satz 23] oder [53, Kapitel XIX.2, Seite 

622]. Für den ganz allgemeinen Fall siehe etwa [70, Seite 293, Theorem 33.3]. ✷ 

Übung 15.3.1. (Vergleiche [49] und [3].) Man zeige: Es gibt zwei austauschbare 

Folgen X =(Xn)n∈N und Y =(Yn)n∈N reeller Zufallsvariablen mit PX �= PY , 

jedoch mit 

Anleitung: 

n� 

Xk 

k=1 

D 

= 

n� 

Yk für jedes n ∈ N. (15.4) 

k=1 

(i) Definiere die charakteristischen Funktionen (siehe Satz 15.12) ϕ1(t) = 1 

1+t2 und ϕ2(t) =(1−t/2) + . Zeige mit dem Satz von Pólya, dass 

� 

ϕ1(t), falls |t| ≤1, 

ψ1(t) := 

ϕ2(t), falls |t| > 1, 

und 

� 

ϕ2(t), falls |t| ≤1, 

ψ2(t) := 

ϕ1(t), falls |t| > 1, 

charakteristische Funktionen von Wahrscheinlichkeitsverteilungen auf R sind. 

(ii) Definiere unabhängige Zufallsvariablen Xn,i, Yn,i, n ∈ N, i =1, 2, und Θn, 

n ∈ N mit: Xn,i hat charakteristische Funktion ϕi, Yn,i hat charakteristische 

Funktion ψi und P[Θn =1]=P[Θn = −1] = 1 

2 . Setze Xn = Xn,Θn und 

Yn = Yn,Θn . Zeige, dass (15.4) gilt. 

(iii) Bestimme E[eit1X1+it2X2 ] und E[eit1Y1+it2Y2 ] für t1 = 1 

2 und t2 =2und 

folgere, dass (X1,X2) � D =(Y1,Y2) und damit PX �= PY . ♣ 

15.4 Charakteristische Funktion und Momente 

Wir wollen den Zusammenhang zwischen den Ableitungen der charakteristischen 

Funktion ϕX einer reellen Zufallsvariablen X und den Momenten von X untersuchen. 

Wir beginnen mit einem elementaren Lemma. 

Lemma 15.30. Für t ∈ R und n ∈ N gilt 

� 

� 

� 

�eit − 1 − it 

� 

(it)n−1 � 

− ...− � 

1! (n − 1)! � 

≤ |t|n 

n! . 

Beweis. Dies folgt direkt aus der Taylorformel, da die n-te Ableitung von e it dem 

Betrage nach 1 ist. ✷


Satz 15.31 (Momente und Differenzierbarkeit). Sei X eine reelle Zufallsvariable 

mit charakteristischer Funktion ϕ. 

(i) Ist E[|X| n ] < ∞,soistϕn-mal stetig differenzierbar mit Ableitungen 

ϕ (k) (t) =E � (iX) k e itX� 

für jedes k =0,...,n. 

(ii) Ist speziell E[X 2 ] < ∞,soist 

ϕ(t) =1+it E[X] − 1 

2 t2 E[X 2 ]+ε(t) t 2 

mit ε(t) → 0 für t → 0. 

|h| 

(iii) Sei h ∈ R. Gilt lim 

n→∞ 

n E[|X| n ] 

n! =0,soistfür jedes t ∈ R 

∞� (ih) 

ϕ(t + h) = 

k 

k! E � e itX X k� . 

k=0 

Speziell gilt dies, falls E � e |hX|� < ∞. 

Beweis. (i) Für t ∈ R, h ∈ R \{0} und k ∈{1,...,n} sei 

Yk(t, h, x) =k! h −k e itx 

� 

e ihx k−1 � (ihx) 

− 

l 

� 

. 

l! 

Dann ist 

E[Yk(t, h, X)] = k! h −k 

� 

k−1 � 

ϕ(t + h) − ϕ(t) − E � e itX (iX) l� hl � 

. 

l! 

Existiert nun der Limes ϕk(t) := limh→0 E[Yk(t, h, X)], soistϕk-mal differenzierbar 

in t mit ϕ (k) (t) =ϕk(t). 

Es gilt aber (nach Lemma 15.30 mit n = k +1) Yk(t, h, x) h→0 

−→ (ix) keitx für 

jedes x ∈ R und (nach Lemma 15.30 mit n = k) |Yk(t, h, x)| ≤|x| k . Da nach 

Voraussetzung E[|X| k ] < ∞ gilt, folgt mit dem Satz über majorisierte Konvergenz, 

dass E[Yk(t, h, X)] h→0 

−→ E[(iX) keitX ]=ϕ (k) (t). Eine einfache Anwendung des 

Stetigkeitslemmas (Satz 6.27) liefert die Stetigkeit von ϕ (k) . 

(ii) Dies folgt direkt aus (i). 

(iii) Nach Voraussetzung gilt 

l=0 

l=1

� 

� 

� 

�ϕ(t 

+ h) − 

� 

n−1 � 

k=0 

(ih) k 


k! E� e itX X k�� = hn 

n! 

� 

� E[Yn(t, h, X)] � � 

≤ hn E[|X| n ] 

n! 

n→∞ 

−→ 0. ✷ 

Korollar 15.32 (Momentenproblem). Sei X eine reelle Zufallsvariable mit 

α := lim sup 

n→∞ 

1 

n E� |X| n� 1/n < ∞. 

Dann ist die charakteristische Funktion ϕ von X analytisch, und die Verteilung 

von X ist durch die Angabe der Momente E[X n ], n ∈ N, eindeutig bestimmt. 

Speziell gilt dies, falls E � e t|X|� < ∞ ist für ein t>0. 

Beweis. Nach der Stirling’schen Formel ist limn→∞ 1 

n! nn e −n√ 2πn = 1.Für 

|h| < 1/(3α) gilt daher 

lim sup 

n→∞ 

E � |X| n� ·|h| n √ 

/n! = lim sup 2πn 

n→∞ 

� 

E � |X| n� � 

1/n 

n 

·|h|·e/n 

√ 

n 

≤ lim sup 2πn(e/3) =0. 

n→∞ 

Die charakteristische Funktion ist also um jeden Punkt t ∈ R in eine Potenzreihe 

entwickelbar mit Konvergenzradius mindestens 1/(3α), ist insbesondere also analytisch. 

Damit ist sie festgelegt durch die Koeffizienten der Potenzreihe um t =0, 

also durch die Momente von X. ✷ 

Beispiele 15.33. (i) Sei X ∼N μ,σ 2.Dannistfür jedes t ∈ R 

E � e tX� = � 2πσ 2� −1/2 

� ∞ 

−∞ 

= e μt+t2 σ 2 /2 � 2πσ 2� −1/2 

= e μt+t2 σ 2 /2 < ∞. 

e tx e −(x−μ)2 /2σ 2 

dx 

� ∞ 

e 

−∞ 

−(x−μ−tσ2 ) 2 /2σ 2 

Also ist die Verteilung von X durch Angabe aller Momente komplett bestimmt. Die 

charakteristische Funktion ϕ(t) =e iμt e −σ2 t 2 /2 , die wir durch die obige Rechnung 

mit it statt t erhalten, ist in der Tat analytisch. 

(ii) Sei X exponentialverteilt mit Parameter θ>0. Dannistfür t ∈ (0,θ) 

E[e tX ]=θ 

� ∞ 

0 

e tx e −θx dx = θ 

< ∞. 

θ − t 

Also ist die Verteilung von X durch Angabe aller Momente bestimmt. Die selbe 

Rechnung mit it statt t liefert ϕ(t) =θ/(θ − it), und diese Funktion ist in der Tat 

dx


analytisch. Der Umstand, dass ϕ im Komplexen eine Singularität bei t = −iθ hat, 

impliziert, dass die Potenzreihe von ϕ um 0 den Konvergenzradius θ hat. Insbesondere 

folgt hieraus, dass nicht alle exponentiellen Momente existieren können. Dies 

wird reflektiert durch die obige Rechnung, die zeigt, dass für t ≥ θ keine exponentiellen 

Momente existieren. 

(iii) Sei X log-normalverteilt (siehe Beispiel 15.5). Dann ist E[X n ] = e n2 /2 . 

Speziell ist in diesem Fall α = ∞. Tatsächlich hatten wir in Beispiel 15.5 gesehen, 

dass die Momente in diesem Fall nicht die Verteilung von X bestimmen. 

(iv) Hat X Werte in N0 und gilt β := lim supn→∞ E[Xn ] 1/n < 1, so gilt nach 

den Hadamard-Kriterium ψX(z) := �∞ k=1 P[X = k] zk < ∞ für |z| < 1/β. 

Speziell ist die Erzeugendenfunktion von X durch die Ableitungen ψ (n) 

X (1), n ∈ N, 

und damit durch die Momente von X eindeutig festgelegt. Vergleiche Satz 3.2(iii). 

✸ 

Satz 15.34. Sei X eine reelle Zufallsvariable und ϕ die charakteristische Funktion 

von X. Sein ∈ N, und ϕ sei 2n-mal differenzierbar in 0 mit Ableitung ϕ (2n) (0). 

Dann gilt E[X 2n ]=ϕ (2n) (0) < ∞. 

Beweis. Wir führen den Beweis per Induktion nach n ∈ N0. Für n =0ist die 

Aussage trivialerweise richtig. Sei nun n ∈ N, und ϕ sei 2n-mal differenzierbar in 

0. Wir setzen u(t) =Re(ϕ(t)). Dannistuebenfalls 2n-mal differenzierbar in 0 

und u (2k−1) (0) = 0 für k =1,...,n, weil u gerade ist. Da ϕ (2n) (0) existiert, ist 

ϕ (2n−1) stetig in 0 und ϕ (2n−1) (t) existiert für t ∈ (−ε, ε) für gewisses ε>0. 

Ferner existiert dann ϕ (k) in (−ε, ε) und ist dort stetig für jedes k =0,...,2n − 2. 

Nach der Taylorformel gilt also für jedes t ∈ (−ε, ε) 

� 

� n−1 

� 

� 

�u(t) 

− 

� 

k=0 

� 

� 

� 

� 

(2k)! � 

u (2k) (0) t2k 

≤ |t|2n−1 

(2n − 1)! 

sup 

θ∈(0,1] 

� 

� 

�u (2n−1) � 

� 

(θt) � . (15.5) 

Wir definieren eine stetige Funktion fn : R → [0, ∞) durch fn(0) = 1 und für 

x �= 0 

fn(x) =(−1) n (2n)! x −2n 

� 

� 

n−1 � 

k x2k 

cos(x) − (−1) . 

(2k)! 

Nach Induktionsvoraussetzung ist E[X 2k ]=u (2k) (0) für jedes k =1,...,n− 1. 

Es folgt mit (15.5) 

E � fn(tX) X 2n� ≤ 2n 

|t| 

k=0 

sup |u 

θ∈(0,1] 

(2n−1) (θt)| ≤gn(t) :=2n sup 

θ∈(0,1] 

Mit dem Lemma von Fatou folgt 

E � X 2n� = E � fn(0)X 2n� ≤ lim inf 

t→0 E�fn(tX)X 2n� 

≤ lim inf 

t→0 gn(t) =2n � � u (2n) (0) � � < ∞. 

|u (2n−1) (θt)| 

. 

θ |t|


Hieraus folgt nach Satz 15.31 aber schon E[X 2n ]=u (2n) (0) = ϕ (2n) (0). ✷ 

Bemerkung 15.35. Für ungerade Momente gilt die Aussage des Satzes nicht (siehe 

etwa Übung 15.4.4 für das erste Moment). In der Tat ist ϕ in 0 genau dann differenzierbar 

mit Ableitung im für ein m ∈ R, wennxP[|X| >x] x→∞ 

−→ 0 und 

E[X {|X|≤x}] x→∞ 

−→ m. (Siehe [53, Kapitel XVII.2a, Seite 565].) ✸ 

Übung 15.4.1. Es seien X und Y nichtnegative Zufallsvariablen mit 

und 

lim sup 

n→∞ 

1 

n E[|X|n ] 1/n 1 

< ∞, lim sup 

n→∞ n E[|Y |n ] 1/n < ∞, 

E[X m Y n ]=E[X m ] E[Y n ] für alle m, n ∈ N0. 

Man zeige: X und Y sind unabhängig. 

Hinweis: Verwende Korollar 15.32 für die Zufallsvariable Y bezüglich des Wahrscheinlichkeitsmaßes 

X m P[ · ]/E[X m ] um zu zeigen, dass 

E[X m A(Y )]/E[X m ]=P[Y ∈ A] für jedes A ∈B(R) und m ∈ N0. 

Verwende nun Korollar 15.32 für X bezüglich des W-Maßes P[ · |Y ∈ A]. ♣ 

Übung 15.4.2. Seien r, s > 0 und Z ∼ Γ1,r+s, B ∼ βr,s (siehe Beispiel 1.107). 

Man zeige mit Hilfe von Übung 15.4.1: Die Zufallsvariablen X := BZ und Y := 

(1 − B)Z sind unabhängig mit X ∼ Γ1,r und Y ∼ Γ1,s. ♣ 

Übung 15.4.3. Man zeige, dass für α>2 die Funktion φα(t) =e−|t|α keine charakteristische 

Funktion ist. 

(Hinweis: Man nehme das Gegenteil an und zeige, dass dann die zugehörige Verteilung 

verschwindende Varianz hätte.) ♣ 

Übung 15.4.4. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit charakteristischer 

Funktion ϕ. Man zeige: 

(i) Ist ϕ differenzierbar in 0, soistϕ ′ (0) = imfür ein m ∈ R. 

(ii) ϕ ist differenzierbar in 0 mit ϕ ′ (0) = im genau dann, wenn (X1 + ... + 

Xn)/n n→∞ 

−→ m stochastisch. 

(iii) Die Verteilung von X1 kann so gewählt werden, dass ϕ differenzierbar in 0 ist, 

aber E[|X1|] =∞. ♣


15.5 Der Zentrale Grenzwertsatz 

Während wir im starken Gesetz der großen Zahl gesehen haben, dass Summen Sn = 

X1 + ...+ Xn u.i.v. integrierbarer Zufallsvariablen Werte in etwa von der Größe 

n·E[X1] annehmen, wollen wir jetzt anschauen, wie groß und von welcher Form die 

typischen Abweichungen von diesem Wert sind – jedenfalls unter der zusätzlichen 

Annahme, dass Var[X1] ∈ (0, ∞). 

Wir bereiten den Beweis des zentralen Grenzwertsatzes mit einem Lemma vor. 

Lemma 15.36. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =μ und 

Var[X1] =σ2 ∈ (0, ∞). Sei 

n� 

(Xk − μ) 

S ∗ n := 1 

√ nσ 2 

k=1 

die standardisierte n-te Partialsumme. Dann gilt 

lim 

n→∞ ϕS∗ n (t) =e−t2 /2 


Beweis. Sei ϕ = ϕXk−μ. Dann ist nach Satz 15.31(ii) 

ϕ(t) =1− σ2 

2 t2 + ε(t) t 2 , 

wobei ε(t) → 0, wennt→0. Nach Lemma 15.11(iv) und (ii) ist 

ϕS∗ (t) =ϕ 

n 

� 

Nun ist 1 − t2 

�n n→∞ 

2n −→ e−t2 /2 und 

� 

� 

� 

� 

� 

1 − t2 

�n 

− ϕ 

2n 

� t 

√nσ 2 

� t 

√nσ 2 

≤ n t2 

nσ 2 

� n 

. 

�n � � 

� � � 

�� t2 

≤ n � 

t �� 

�1 − − ϕ √nσ 

2n 2 

� 

� 

� 

�ε � �� 

t �� n→∞ 

√nσ −→ 0. 

2 

(Beachte: |u n − v n |≤|u − v|·n · max(|u|, |v|) n−1 für alle u, v ∈ C.) ✷ 

Satz 15.37 (Zentraler Grenzwertsatz). Seien X1,X2,... u.i.v. reelle Zufallsvariablen 

mit μ := E[X1] ∈ R und σ2 := Var[X1] ∈ (0, ∞). Für n ∈ N sei 

S∗ n := 1 �n √ 

σ2n i=1 (Xi − μ). Dann gilt 

PS ∗ n 

n→∞ 

−→ N0,1 schwach. 

Für −∞ ≤ a

15.5 Der Zentrale Grenzwertsatz 305 

Beweis. Nach Lemma 15.36 und dem Lévy’schen Stetigkeitssatz (Satz 15.23) konvergiert 

PS ∗ n gegen die Verteilung mit charakteristischer Funktion ϕ(t) =e−t2 /2 . 

Nach Satz 15.12(i) ist dies N0,1. Der Zusatz folgt mit dem Portemanteau Theorem 

(Satz 13.16), weil N0,1 eine Dichte hat, also N0,1(∂[a, b]) = 0 gilt. ✷ 

Bemerkung 15.38. Man kann ohne Benutzung des Stetigkeitssatzes auch so argumentieren: 

Für jedes K>0 und n ∈ N ist P[|S∗ n| >K] ≤ Var[S ∗ n]/K2 =1/K2 , 

also ist die Folge PS∗ straff. Da die charakteristischen Funktionen verteilungsbe- 

n 

stimmend sind, folgt die Aussage mit Satz 13.34. ✸ 

Wir wollen uns nun von der Annahme von Satz 15.37 lösen, dass die Zufallsvariablen 

identisch verteilt sind. Tatsächlich können wir sogar Partialsummen bilden, die 

jeweils ganz unterschiedliche zentrierte Zufallsvariablen aufsummieren. Entscheidend 

ist, dass die Varianz der normierten Summe 1 ist, und dass jeder einzelne 

Summanden nur einen kleinen Beitrag liefert. 

Definition 15.39. Für jedes n ∈ N sei kn ∈ N und seien Xn,1,...,Xn,kn reelle 

Zufallsvariablen. Wir nennen (Xn,l) = � Xn,l, l=1,...,kn, n∈ N � ein Schema 

von Zufallsvariablen. Wirdefinieren stets Sn = Xn,1 + ...+ Xn,kn als die 

Zeilensumme. Das Schema heißt 

– unabhängig, falls für jedes n ∈ N die Familie (Xn,l)l=1,...,kn unabhängig ist, 

– zentriert, falls Xn,l ∈L1 (P) und E[Xn,l] =0ist für jedes n und l, 

– normiert, falls Xn,l ∈L2 (P) und kn� 

Var[Xn,l] =1ist für jedes n ∈ N. 

l=1 

Ein zentriertes Schema heißt asymptotisch vernachlässigbar, falls für jedes ε>0 

lim 

n→∞ max P[|Xn,l| >ε]=0. 

1≤l≤kn 

Definition 15.40. Ein zentriertes Schema (Xn,l) mit Xn,l ∈L 2 (P) für jedes n ∈ N 

und l =1,...,kn erfüllt die Lindeberg-Bedingung, falls für jedes ε>0 gilt, dass 

Ln(ε) := 

1 

Var[Sn] 

kn� 

l=1 

� 

E X 2 n,l {X2 n,l >ε2 � 

n→∞ 

Var[Sn]} 

−→ 0. (15.6) 

Das Schema erfüllt die Lyapunov-Bedingung, falls für ein δ>0 gilt 

1 

lim 

n→∞ Var[Sn] 1+(δ/2) 

kn� 

E � |Xn,l| 2+δ� =0. (15.7) 

Lemma 15.41. Die Lyapunov-Bedingung impliziert die Lindeberg-Bedingung. 

l=1


Beweis. Für x ∈ R ist x 2 {|x|>ε ′ } ≤ (ε ′ ) −δ |x| 2+δ {|x|>ε ′ } ≤ (ε ′ ) −δ |x| 2+δ . Mit 

ε ′ := ε � Var[Sn] folgt Ln(ε) ≤ ε −δ 

1 

Var[Sn] 1+(δ/2) 

l=1 

kn� 

E � |Xn,l| 2+δ� . ✷ 

Beispiel 15.42. Seien (Yn)n∈N u.i.v. mit E[Yn] =0und Var[Yn] =1.Seikn = n 

und Xn,l = Yl √n .Dannist(Xn,l) unabhängig, zentriert und normiert. Es gilt 

P[|Xn,l| > ε] = P[|Y1| > ε √ n ] n→∞ 

−→ 0, also ist (Xn,l) asymptotisch vernachlässigbar. 

Es gilt Ln(ε) = E � Y 2 

1 {|Y1|>ε √ � n→∞ 

n} −→ 0, alsoerfüllt (Xn,l) 

die Lindeberg-Bedingung. 

Gilt Y1 ∈L2+δ (P) für ein δ>0, soist 

n� 

l=1 

E � |Xn,l| 2+δ� = n −(δ/2) E � |Y1| 2+δ� n→∞ 

−→ 0. 

In diesem Fall erfüllt (Xn,l) auch die Lyapunov Bedingung. ✸ 

Der folgende Satz geht auf Lindeberg (1922) für die Richtung (i) =⇒ (ii) und Feller 

(1935 und 1937) für die Richtung (ii) =⇒ (i) zurück. In den Anwendungen interessiert 

meist nur die Richtung von Lindeberg (i) =⇒ (ii), daher beweisen wir nur 

diesen Teil. Für die Richtung (ii) =⇒ (i) siehe etwa [145, Theorem III.4.3]. 

Satz 15.43 (Zentraler Grenzwertsatz von Lindeberg-Feller). Sei (Xn,l) ein unabhängiges, 

zentriertes und normiertes Schema reeller Zufallsvariablen, sowie 

Sn = Xn,1 + ...+ Xn,kn für jedes n ∈ N. Dann sind äquivalent 

(i) Es gilt die Lindeberg-Bedingung. 

(ii) (Xn,l) ist asymptotisch vernachlässigbar, und es gilt PSn 

n→∞ 

−→ N0,1. 

Wir bereiten den Beweis des Satzes von Lindeberg mit ein paar Lemmata vor. 

Lemma 15.44. Gilt (i) in Satz 15.43, so ist (Xn,l) asymptotisch vernachlässigbar. 

Beweis. Für ε>0 ist nach der Chebyshev’schen Ungleichung 

kn� 

P � |Xn,l| >ε � ≤ ε −2 

kn� 

E � X 2 n,l 

� 

{|Xn,l|>ε} = Ln(ε) n→∞ 

−→ 0. ✷ 

l=1 

l=1 

Seien im Folgenden stets ϕn,l und ϕn die charakteristischen Funktionen von Xn,l 

und Sn. 

Lemma 15.45. Für jedes n ∈ N und t ∈ R gilt 

kn� � 

�1 − ϕn,l(t) � � 

t 

≤ 2 

2 . 

l=1


Beweis. Für jedes x ∈ R ist |e itx − 1 − itx| ≤ t2 x 2 

2 .WegenE[Xn,l] =0ist 

kn� 

kn� � 

|ϕn,l(t) − 1| = �E[e itXn,l 

� 

− 1] � 

l=1 

≤ 

≤ 

l=1 

kn� 

E �� itXn,l e − itXn,l − 1 � � � + � �E[itXn,l] � � 

l=1 

kn� t2 l=1 

2 E[X2 n,l] = t2 

2 

. ✷ 

� 

kn� 

� 

Lemma 15.46. Gilt (i) in Satz 15.43, so ist lim � log ϕn(t)− E � e itXn,l 

� 

−1 � � 

� =0. 

n→∞ 

Beweis. Setze mn := max |ϕn,l(t) − 1|. Beachte, dass für jedes ε>0 gilt: 

l=1,...,kn 

� 

�e itx − 1 � � 

2 2 2 x /ε , falls |x| >ε, 

� ≤ 

εt, falls |x| ≤ε. 

Hieraus folgt 

��e |ϕn,l(t) − 1| ≤E 

itXn,l 

� � ��e − 1� {|Xn,l|≤ε} + E 

itXn,l 

� � 

− 1� {|Xn,l|>ε} 

Also ist für jedes ε>0 

≤ εt +2ε −2 � 

E X 2 � 

n,l {|Xn,l|>ε} . 

lim sup 

n→∞ 

l=1 

� −2 

mn ≤ lim sup εt +2ε Ln(ε) 

n→∞ 

� = εt, 

und damit lim 

n→∞ mn =0.Nunistfür x ∈ C mit |x| ≤ 1 

2 stets | log(1+x)−x| ≤x2 . 

Ist n groß genug, sodass mn < 1 

2 ,dannist


� 

� 

� 

� 

� log ϕn(t) 

kn� 

− E[e 

l=1 

itXn,l 

� 

� 

� 

− 1] � 

� = 

� 

� kn� 

� 

� log(ϕn,l(t)) − E[e 

� 

l=1 

itXn,l 

� 

� 

� 

− 1] � 

� 

≤ 

kn� � 

ϕn,l(t) − 1 �2 l=1 

≤ mn 

kn� 

|ϕn,l(t) − 1| 

l=1 

≤ 1 

2 mn t 2 

(nach Lemma 15.45) 

−→ 0 für n →∞. ✷ 

Der eigentliche Trick besteht in der Einführung der Funktion 

⎧ 

1+x 

⎪⎨ 

ft(x) := 

⎪⎩ 

2 

x2 � 

e itx − 1 − itx 

1+x2 � 

, falls x �= 0, 

− t2 

, falls x =0, 

2 

sowie der Maße μn,νn ∈Mf (R), n∈ N, 

l=1 

l=1 

(15.8) 

kn� 

νn(dx) := x 2 PXn,l (dx) und μn(dx) 

kn� x 

:= 

2 

PXn,l (dx). 

1+x2 Lemma 15.47. Für jedes t ∈ R gilt ft ∈ Cb(R). 

Beweis. Für jedes |x| ≥1 ist 1+x2 

x2 ≤ 2, also gilt 

� 

|ft(x)| ≤2 |e itx | +1+ tx 

1+x2 � 

≤ 4+2|t|. 

Wir müssen zeigen, dass ft stetig in 0 ist. Die Taylorformel (Lemma 15.30) liefert 

e itx =1+itx − t2 x 2 

mit |R(tx)| ≤ 1 

6 |tx|3 .Alsoistfür festes t 

lim 

0�=x→0 ft(x) = lim 

0�=x→0 

1 

x 2 

� 

itx 

2 

� 

1 − 1 

1+x 2 

Lemma 15.48. Gilt (i) in Satz 15.43, so gilt νn 

+ R(tx) 

� 

− t2x2 � 

+ R(tx) 

2 

n→∞ 

−→ δ0 schwach. 

= − t2 

. ✷ 

2

Beweis. Für jedes n ∈ N ist νn ∈M1(R), denn 

νn(R) = 

kn� 

� 

l=1 

x 2 PXn,l (dx) = 


kn� 

Var[Xn,l] =1, 

l=1 

Für ε>0 gilt aber νn((−ε, ε) c )=Ln(ε) n→∞ 

−→ 0, also νn 

Lemma 15.49. Gilt (i) in Satz 15.43, so gilt 

� 

� 

1 

n→∞ 

ft(x) μn(dx)+it μn(dx) −→ − 

x t2 

2 . 

n→∞ 

−→ δ0. ✷ 

Beweis. Wegen (x ↦→ ft(x)/(1 + x2 )) ∈ Cb(R) ist nach Lemma 15.48 

� 

� 

ft(x) μn(dx) = ft(x) 

1 

n→∞ 

νn(dx) −→ ft(0) = − 

1+x2 t2 

2 . 

Nun ist (x ↦→ x/(1 + x2 )) ∈ Cb(R) und E[Xn,l] =0für jedes n und l, also 

� 

1 

x μn(dx) 

kn� 

� 

= E 

Xn,l 

� 

kn� 

� 

= E 

Xn,l 

� 

− Xn,l 

l=1 

kn� 

� 

= − E 

l=1 

� 

= − 

1+X 2 n,l 

l=1 

X 2 n,l · Xn,l 

1+X 2 n,l 

� 

1+X 2 n,l 

x 

n→∞ 

νn(dx) −→ 0. ✷ 

1+x2 Beweis von Satz 15.43 

” (i) =⇒ (ii)“ Wir müssen für jedes t ∈ R zeigen, dass lim 

n→∞ log ϕn(t) =− t2 

2 . 

Nach Lemma 15.46 ist dies äquivalent zu 

lim 

n→∞ 

kn� 

l=1 

� ϕn,l(t) − 1 � = − t2 

2 . 

Nun ist ft(x) x2 

1+x 2 = e itx − 1 − itx 

1+x 2 . Also gilt 

kn� � 

ϕn,l(t) − 1 

l=1 

� kn� 

� � 

x 

= ft(x) 

l=1 

2 itx 

+ 

1+x2 1+x2 � 

PXn,l (dx) 

� 

= 

� 

ft dμn + it 

1 

x μn(dx) 

n→∞ 

−→ − t2 

2 

(nach Lemma 15.49) ✷


Als eine Anwendung des Satzes von Lindeberg-Feller bringen wir den so genannten 

Dreireihensatz, der auf Kolmogorov zurückgeht. 

Satz 15.50 (Kolmogorov’scher Dreireihensatz). Seien X1,X2,... unabhängige 

reelle Zufallsvariablen. Es sei K>0 und Yn := Xn {|Xn|≤K} für jedes n ∈ N. 

Die Reihe �∞ n=1 Xn konvergiert genau dann fast sicher, wenn die folgenden drei 

Bedingungen gelten: 

(i) 

(ii) 

(iii) 

∞� 

P[|Xn| >K] < ∞, 

n=1 

∞� 

E[Yn] konvergiert, 

n=1 

∞� 

Var[Yn] < ∞. 

n=1 

Beweis. ⇐= “ Es gelten (i), (ii) und (iii). Nach Übung 7.1.1 konvergiert wegen 

” 

(iii) die Reihe �∞ n=1 (Yn − E[Yn]) f.s. Wegen (ii) konvergiert also �∞ n=1 Yn f.s. 

Nach dem Lemma von Borel-Cantelli existiert ein N = N(ω), sodass |Xn| Kunendlich oft, was der 

Annahme widerspräche). 

Wir nehmen an, dass (iii) nicht gilt und führen dies zum Widerspruch. Wir setzen 

σ2 n = �n k=1 Var[Yk] und definieren ein Schema (Xn,l; l = 1,...,n, n ∈ N) 

durch Xn,l = (Yl− E[Yl])/σn. Das Schema ist zentriert und normiert. Wegen 

σ2 n→∞ 

n −→ ∞, gilt für jedes ε > 0 und großes n ∈ N, dass2K < εσn, aber 

|Xn,l| ≤ ε für alle l = 1,...,n. Es folgt Ln(ε) n→∞ 

−→ 0, wobei Ln(ε) = 

n� 

E � X2 � 

n,l {|Xn,l|≥ε} die Größe aus der Lindeberg-Bedingung ist (siehe (15.6)). 

l=1 

Nach dem Satz von Lindeberg-Feller gilt also Sn := Xn,1 +...+Xn,n 

n→∞ 

=⇒ N0,1. 

Wie 

� 

im ersten Teil des Beweises gezeigt, folgt aus der fast sicheren Konvergenz von 

∞ 

n=1 Xn und aus (i) 

∞� 

n=1 

Yn konvergiert fast sicher. (15.9) 

n→∞ 

Insbesondere gilt Tn := (Y1 + ...+ Yn)/σn =⇒ 0. Nach dem Satz von Slutzky 

gilt also auch (Sn − Tn) n→∞ 

=⇒ N0,1. Andererseits ist Sn − Tn deterministisch für 

jedes n ∈ N, womit die Annahme, dass (iii) nicht gilt ad absurdum geführt ist.


Nachdem wir (iii) schon gezeigt haben, folgt mit Übung 7.1.1, dass � ∞ 

n=1 (Yn − 

E[Yn]) fast sicher konvergiert. Wegen (15.9) folgt (ii). ✷ 

Als Ergänzung bringen wir ohne Beweis eine Abschätzung für die Konvergenzgeschwindigkeit 

im Zentralen Grenzwertsatz (siehe beispielsweise [145, Kapitel III, 

§11] für einen Beweis), die mit anderen Konstanten (statt 0.8) unabhängig von Berry 

[13] und Esseen [45] gefunden wurde. 

Satz 15.51 (Berry-Esseen). Seien X1,X2,... unabhängig und identisch verteilt 

mit E[X1] =0, E[X2 1 ]=σ2 ∈ (0, ∞) und γ := E[|X1| 3 ] < ∞. Seien S∗ n := 

√ 1 

nσ2 (X1 + ···+ Xn) und Φ : x ↦→ 1 

� x 

√ 

2π −∞ e−t2 /2dt die Verteilungsfunktion 

der Standardnormalverteilung. Dann gilt für jedes n ∈ N 

� 

sup �P [S 

x∈R 

∗ n ≤ x] − Φ(x) � � 

0.8 γ 

≤ 

σ3√n . 

Übung 15.5.1. Die Argumentation aus Bemerkung 15.38 ist etwas direkter als die 

Argumentation mit dem Lévy’schen Stetigkeitssatz, allerdings etwas weniger robust: 

Man gebe eine Folge X1,X2,...von unabhängigen, reellen Zufallsvariablen 

an mit E[|Xn|] =∞ für jedes n ∈ N, aber mit 

X1 + ...+ Xn 

√ n 

n→∞ 

=⇒ N0,1. ♣ 

Übung 15.5.2. Seien Y1,Y2,... u.i.v. mit E[Yi] =0und E[Y 2 

i ]=1. Davon unabhängig 

seien Z1,Z2,...unabhängige Zufallsvariablen mit 

P[Zi = i] =P[Zi = −i] = 1� 

1 − P[Zi =0] 

2 

� = 1 1 

. 

2 i2 Setze Xi := Yi + Zi und Sn = X1 + ...+ Xn für i, n ∈ N. 

Man zeige: n −1/2 Sn 

n→∞ 

=⇒ N0,1, aber (Xi)i∈N erfüllt keine Lindeberg-Bedingung. 

Hinweis: Möglichst nicht direkt ausrechnen! ♣ 

Übung 15.5.3. Seien X1,X2,...u.i.v. Zufallsvariablen mit Dichte 

f(x) = 1 

|x| 3 R\[−1,1](x). 

Dann ist E[X 2 1 ]=∞, aber es gibt Zahlen A1,A2,..., sodass 

X1 + ...+ Xn 

An 

n→∞ 

=⇒ N0,1. 

Man gebe die Folge (An)n∈N explizit an. ♣


15.6 Mehrdimensionaler Zentraler Grenzwertsatz 

Wir kommen zu einer mehrdimensionalen Variante des zentralen Grenzwertsatzes. 

Definition 15.52. Sei C eine (strikt) positiv definite symmetrische reelle d×d Matrix 

und μ ∈ Rd . Ein Zufallsvektor X =(X1,...,Xd) T heißt d-dimensional normalverteilt 

mit Erwartungswert μ und Kovarianzmatrix C, falls X die Dichte 

fμ,C(x) = 

1 

� (2π) d det(C) exp 

für x ∈ R d hat. Wir schreiben X ∼Nμ,C. 

� 

− 1 

2 

� x − μ, C −1 (x − μ) � � 

(15.10) 

Satz 15.53. Sei μ ∈ R d und C eine reelle positiv definite symmetrische reelle d×d 

Matrix. Ist X ∼Nμ,C, dann gelten: 

(i) E[Xi] =μi für jedes i =1,...,d. 

(ii) Cov[Xi,Xj] =Ci,j für alle i, j =1,...,d. 

(iii) 〈λ, X〉 ∼N 〈λ,μ〉,〈λ,Cλ〉 für jedes λ ∈ Rd . 

(iv) ϕ(t) :=E[ei〈t,X〉 ]=ei〈t,μ〉 1 − e 2 〈t,Ct〉 für jedes t ∈ Rd . 

Es gilt sogar X ∼Nμ,C ⇐⇒ (iii) ⇐⇒ (iv). 

Beweis. (i) und (ii) sind einfache Rechnungen, ebenso (iii) und (iv). Die Implikation 

(iii) =⇒ (iv) ist simpel. Die Familie {ft : x ↦→ e i〈t,x〉 ,t∈ R d } ist trennend für 

M1(R d ) nach dem Satz von Stone–Weierstraß. Also legt ϕ die Verteilung von X 

eindeutig fest. ✷ 

Bemerkung 15.54. Für eindimensionale Normalverteilungen liegt es nahe, Nμ,0 als 

δμ zu definieren. Einen so einfachen Begriff können wir bei mehrdimensionalen 

Normalverteilungen nicht mehr erwarten (außer für den Fall C =0), wenn eine 

Entartung nur in einigen Richtungen auftritt, also C nur noch positiv semidefinit 

und symmetrisch ist. In diesem Fall definieren wir Nμ,C als diejenige Verteilung 

auf Rn mit charakteristischer Funktion ϕ(t) =ei〈t,μ〉 1 − e 2 〈t,Ct〉 . ✸ 

Satz 15.55 (Cramér-Wold Device). Sind Xn =(Xn,1,...,Xn,d) T ∈ R d , n ∈ 

N ∪{∞}, Zufallsvektoren, so gilt genau dann 

PXn 

wenn für jedes λ ∈ R d gilt, dass 

P 〈λ,Xn〉 

n→∞ 

−→ PX∞ 

schwach, (15.11) 

n→∞ 

−→ P 〈λ,X∞〉 schwach. (15.12)

15.6 Mehrdimensionaler Zentraler Grenzwertsatz 313 

Beweis. Gelte (15.11). Sei λ ∈ Rd und s ∈ R. Die Abbildung Rd → C, x ↦→ 

eis〈λ,x〉 ist stetig und beschränkt, also gilt E[eis〈λ,Xn〉 ] n→∞ 

−→ E[eis〈λ,X∞〉 ]. Damit 

gilt (15.12). 

Gelte nun (15.12). Dann ist (Xn,l)n∈N straff, l = 1,...,d.Alsoist(Xn)n∈N 

straff und damit relativ folgenkompakt (Satz von Prohorov). Für jeden schwachen 

Häufungspunkt Q von (PXn )n∈N ist für jedes λ ∈ Rd � 

Q(dx) e i〈λ,x〉 = E � e i〈λ,X∞〉� . 

Also gilt Q = PX∞ und damit (15.11). ✷ 

Satz 15.56 (Zentraler Grenzwertsatz im R d ). Seien (Xn)n∈N u.i.v. Zufallsvek- 

toren mit E[Xn,i] = 0 und E[Xn,iXn,j] = Cij, i, j = 1,...,d.SeiS∗ n := 

X1+...+Xn √ . Dann gilt 

n 

PS ∗ n 

n→∞ 

−→ N0,C schwach. 

Beweis. Sei λ ∈ Rd . Setze Xλ n = 〈λ, Xn〉, Sλ n = 〈λ, S∗ n〉 und S∞ ∼N0,C. Dann 

ist E[Xλ n]=0und Var[X λ n]=〈λ, Cλ〉. Nach dem eindimensionalen Zentralen 

n→∞ 

Grenzwertsatz gilt PSλ −→ N 

n 

0,〈λ,Cλ〉 = P 〈λ, S∞〉. Nach Satz 15.55 zeigt dies 

die Aussage. ✷ 

Übung 15.6.1. Sei μ ∈ R d , C eine symmetrische positiv semidefinite reelle d × d 

Matrix und X ∼Nμ,C (im Sinne von Bemerkung 15.54). Man zeige: Für jedes 

m ∈ N und jede reelle m × d Matrix A gilt AX ∼N Aμ,ACA T . ♣ 

Übung 15.6.2. (Cholesky-Faktorisierung) Sei C eine positiv definite symmetrische 

reelle d × d Matrix. Dann existiert eine reelle d × d Matrix A = (akl) 

mit A · A T = C. Man kann A sogar als untere Dreiecksmatrix wählen. Sei 

W := (W1,...,Wd) T ,woW1,...,Wd unabhängig und N0,1 verteilt sind. Wir 

setzen X := AW + μ. Man zeige: X ∼Nμ,C. ♣

16 Unbegrenzt teilbare Verteilungen 

Die Normalverteilung N μ,σ 2 lässt sich für jedes n ∈ N als n-te Faltungspotenz eines 

W-Maßes schreiben (nämlich von N μ/n,σ 2 /n). Die selbe Eigenschaft, die wir 

unbegrenzte Teilbarkeit nennen, hat die Poisson-Verteilung. Im ersten Abschnitt 

untersuchen wir, welche W-Maße auf R unbegrenzt teilbar sind und geben eine 

erschöpfende Beschreibung der Klasse dieser Maße durch die Lévy-Khinchin Formel. 

Die Normalverteilung hat (im Gegensatz zur Poisson-Verteilung) die Eigenschaft, 

dass sie als Grenzwert reskalierter Summen von u.i.v. Zufallsvariablen auftritt (Zentraler 

Grenzwertsatz). Im zweiten Abschnitt untersuchen wir knapp die Teilklasse 

unbegrenzt teilbarer Maße auf R, die diese Eigenschaft haben. 

16.1 Die Lévy-Khinchin Formel 

Zur Abkürzung verwenden wir in diesem Abschnitt die Bezeichnung CFW“ für 

” 

” charakteristische Funktion eines W-Maßes auf R“. 

Definition 16.1. Ein Maß μ ∈M1(R) heißt unbegrenzt teilbar, falls es für jedes 

n ∈ N ein μn ∈M1(R) mit der Eigenschaft μ∗n n = μ gibt. Analog nennen wir eine 

CFW ϕ unbegrenzt teilbar, falls es zu jedem n ∈ N eine CFW ϕn gibt mit ϕ = ϕn n. 

Eine reelle Zufallsvariable X heißt unbegrenzt teilbar, falls es zu jedem n ∈ N u.i.v. 

Zufallsvariablen Xn,1,...,Xn,n gibt mit X D = Xn,1 + ...+ Xn,n. 

Offenbar sind alle drei Begriffe der unendlichen Teilbarkeit äquivalent, und wir 

wollen sie synonym verwenden. Man beachte, dass die Eindeutigkeit von μn beziehungsweise 

ϕn keineswegs evident ist. Tatsächlich folgt aus der n-fachen Teilbarkeit 

noch nicht die Eindeutigkeit der n-ten Faltungswurzel μ ∗1/n := μn beziehungsweise 

von ϕn. Um dies für gerades n einzusehen, wähle man etwa eine reelle 

CFW ϕ, für die |ϕ| �= ϕ ebenfalls eine CFW ist (siehe Beispiel 15.16 und 15.17). 

Dann ist ϕ n = |ϕ| n n-fach teilbar, jedoch sind die Faktoren nicht eindeutig. 

Mit Hilfe des Lévy’schen Stetigkeitssatzes kann man zeigen (siehe Übung 16.1.1), 

dass ϕ(t) �= 0für alle t ∈ R gilt, falls ϕ unbegrenzt teilbar ist. Die probabilistische 

Bedeutung dieser Aussage liegt darin, dass log(ϕ(t)) als stetige Funktion eindeutig

316 16 Unbegrenzt teilbare Verteilungen 

definiert ist und damit auch nur genau eine stetige Funktion ϕ 1/n = exp(log(ϕ)/n) 

existiert. Die n-ten Faltungswurzeln sind also eindeutig definiert, falls die Verteilung 

unbegrenzt teilbar ist. 

Beispiele 16.2. (i) δx ist unbegrenzt teilbar mit δ ∗n 

x/n = δx für jedes n ∈ N. 

(ii) Die Normalverteilung ist unbegrenzt teilbar mit N m,σ 2 = N ∗n 

m/n,σ 2 /n . 

(iii) Die Cauchy-Verteilung Caua mit Dichte x ↦→ (aπ) −1 (1 + (x/a) 2 ) −1 ist 

unbegrenzt teilbar mit Caua =Cau ∗n 

a/n. In der Tat: Caua hat CFW ϕa(t) =e−a|t| , 

also ist ϕn a/n = ϕa. 

(iv) Jede symmetrische stabile Verteilung mit Index α ∈ (0, 2] und Größenparameter 

γ>0, also mit CFW ϕα,γ(t) =e−|γt|α, ist unbegrenzt teilbar. In der Tat 

ist ϕn α,γ/n1/α = ϕα,γ. (Genau genommen haben wir bislang erst für α ∈ (0, 1] (in 

Korollar 15.25) und für α =2(Normalverteilung) gezeigt, dass ϕα,γ überhaupt 

eine CFW ist. In Abschnitt 16.2 zeigen wir, dass dies tatsächlich für alle α ∈ (0, 2] 

richtig ist. Für α>2 ist ϕα,γ hingegen keine CFW, siehe Übung 15.4.3.) 

(v) Die Gamma-Verteilung Γθ,r mit CFW ϕθ,r(t) =exp(rψθ(t)), woψθ(t) = 

log(1 − it/θ) ist, ist unbegrenzt teilbar mit Γθ,r = Γ ∗n 

θ,r/n . 

(vi) Die Poisson-Verteilung ist unbegrenzt teilbar mit Poiλ =Poi ∗n 

λ/n. 

(vii) Die negative Binomialverteilung b− � � 

−r 

r,p({k}) = (−1) 

k 

kpr (1 − p) k , k ∈ 

N0, mit Parametern r > 0 und p ∈ (0, 1) ist unbegrenzt teilbar mit b− r,p 

(b 

= 

− 

r/n,p )∗n .InderTatistϕr,p(t) =erψp(t) ,wo 

ψp(t) =log(p) − log(1 − (1 − p)e it ). 

(viii) Seien X und Y unabhängig und X ∼ N 0,σ 2 sowie Y ∼ Γθ,r, wobei 

σ 2 ,θ,r > 0 sind. Man kann zeigen, dass die Zufallsvariable Z := X/ √ Y unbegrenzt 

teilbar ist (siehe [64] oder [123]). Insbesondere ist die Student’sche t- 

Verteilung mit k ∈ N Freiheitsgraden unbegrenzt teilbar (dieses ist der Fall σ 2 =1 

und θ −1 = r = k). 

(ix) Die Binomialverteilung bn,p ist für n ∈ N und p ∈ (0, 1) nicht unbegrenzt 

teilbar (warum?). 

(x) Etwas allgemeiner ist außer der trivialen Verteilung keine Verteilung unbegrenzt 

teilbar, die auf ein endliches Intervall konzentriert ist. ✸ 

Ein Hauptziel dieses Abschnitts ist es zu zeigen, dass sich jede unbegrenzt teilbare 

Verteilung aus drei generischen zusammensetzt:

– den Punktverteilungen δx mit x ∈ R, 

– den Normalverteilungen Nμ,σ2 mit μ ∈ R und σ2 > 0, 

– (Grenzwerten von) Faltungen von Poisson-Verteilungen. 

16.1 Die Lévy-Khinchin Formel 317 

Da die Faltungen von Poisson-Verteilungen eine besondere Rolle spielen, wollen 

wir sie hier gesondert betrachten. 

Ist ν ∈ M1(R) mit CFW ϕν und ist λ > 0, so kann man leicht nachrechnen, 

dass ϕ(t) =exp(λ(ϕν(t) − 1)) die CFW von μλ = �∞ λk 

k=0 

e−λ 

k! ν∗k ist. Formal 

können wir also μλ = e∗λ(ν−δ0) schreiben. Tatsächlich ist μλ unbegrenzt teilbar 

. Wir wollen nun die Parameter λ und ν zu λν zusammenfassen. 

mit μλ = μ∗n λ/n 

Für ν ∈Mf (R) können wir ν∗n = ν(R) n (ν/ν(R)) ∗n setzen, beziehungsweise 

ν∗n =0, falls ν =0. Wir treffen daher die folgende Definition. 

Definition 16.3. Die zusammengesetzte Poissonverteilung (compound Poisson 

distribution) mit Intensitätsmaß ν ∈Mf (R) ist das folgende W-Maß auf R: 

CPoiν := e ∗(ν−ν(R)δ0) := e −ν(R) 

Die CFW von CPoiν ist gegeben durch 

�� 

ϕν(t) =exp 

∞� 

n=0 

ν ∗n 

n! . 

(e itx � 

− 1) ν(dx) . (16.1) 

Speziell ist CPoiμ+ν =CPoiμ ∗ CPoiν, also ist CPoiν unbegrenzt teilbar. 

Beispiel 16.4. Für jede messbare Menge A ⊂ R \{0} und jedes r>0 ist 

r −1 CPoirν(A) =e −rν(R) ν(A)+e −rν(R) 

∞� 

k=2 

r k−1 ν ∗k (A) 

k! 

r↓0 

−→ ν(A). 

Wir wollen dies benutzen um zu zeigen, dass b − r,p =CPoirν für ein gewisses ν ∈ 

Mf (N). Wir berechnen dazu für k ∈ N 

r −1 b − r,p({k}) = 

r(r +1)···(r + k − 1) 

rk! 

p r k r↓0 

(1 − p) −→ 

(1 − p)k 

. 

k 

Wenn b − r,p =CPoirν für ein ν ∈Mf (N) ist, ist also ν({k}) =(1− p) k /k. Wir 

berechnen die CFW von CPoirν für dieses ν 

� 

∞� 

ϕrν(t) =exp r 

k 

k=1 

((1 − p)e it ) k 

� 

= � 1 − (1 − p)e it�−r . 

Dies ist aber die CFW von b − r,p, also ist tatsächlich b − r,p =CPoirν. ✸


Nicht jede unbegrenzt teilbare Verteilung ist vom Typ CPoiν, allerdings gilt: 

Satz 16.5. Ein W-Maß μ auf R ist genau dann unbegrenzt teilbar, wenn es eine 

n→∞ 

Folge (νn)n∈N in Mf (R \{0}) gibt mit CPoiνn −→ μ. 

Da jedes CPoiνn unbegrenzt teilbar ist, müssen wir einerseits zeigen, dass diese 

Eigenschaft unter schwachen Limiten erhalten bleibt. Andererseits zeigen wir, dass 

für unbegrenzt teilbares μ die Folge νn = nμ∗1/n das Gewünschte leistet. Wir 

bereiten den Beweis mit einem weiteren Satz vor. 

Satz 16.6. Sei (ϕn)n∈N eine Folge von CFWs. Dann sind äquivalent: 

(i) Für jedes t ∈ R existiert ϕ(t) = lim 

n→∞ ϕnn(t), und ϕ ist stetig in 0. 

(ii) Für jedes t ∈ R existiert ψ(t) = lim 

n→∞ n(ϕn(t) − 1), und ψ ist stetig in 0. 

Gelten (i) und (ii), so ist ϕ = e ψ eine CFW. 

Beweis. Der Beweis beruht auf der Taylor-Entwicklung des Logarithmus’ 

| log(z) − (z − 1)| ≤|z − 1| 2 /2 für z ∈ C mit |z − 1| < 1/2. 

Speziell gilt für (zn)n∈N in C 

lim sup 

n→∞ 

n |zn − 1| < ∞ ⇐⇒ lim sup |n log(zn)| < ∞. (16.2) 

n→∞ 

und limn→∞ n(zn − 1) = limn→∞ n log(zn), falls einer der Limiten existiert. 

Wenden wir dies auf zn = ϕn(t) an, so folgt (i) aus (ii). Andererseits folgt (ii) aus 

(i), wenn lim infn→∞ n log(|ϕn(t)|) > −∞, also wenn ϕ(t) �= 0für jedes t ∈ R. 

Da ϕ stetig in 0 ist und ϕ(0) = 1 gilt, gibt es ein ε>0 mit |ϕ(t)| > 1 

2 für jedes 

t ∈ [−ε, ε]. Daϕund ϕn CFWs sind, sind auch |ϕ| 2 und |ϕn| 2 CFWs. Aus der 

punktweisen Konvergenz von |ϕn(t)| 2n gegen |ϕ(t)| 2 folgt nach dem Lévy’schen 

Stetigkeitssatz also die gleichmäßige Konvergenz auf kompakten Mengen. Wende 

nun (16.2) mit zn = |ϕn(t)| 2 an. Für t ∈ [−ε, ε] ist daher (n(1 −|ϕn(t)| 2 ))n∈N 

beschränkt. Nach Lemma 15.11(v) ist dann aber auch n(1 −|ϕn(2t)| 2 ) ≤ 4n(1 − 

|ϕn(t)| 2 ) beschränkt, also 

|ϕ(2t)| 2 ≥ lim inf 

n→∞ exp(4n(|ϕn(t)| 2 − 1)) = (|ϕ(t)| 2 ) 4 . 

Iterativ erhalten wir |ϕ(t)| ≥2−(4k ) k für |t| ≤2 ε. Es gibt also ein γ>0, sodass 

|ϕ(t)| > 1 t2 

e−γ 

2 

Gelten (i) und (ii), so ist 

für jedes t ∈ R. (16.3)


log ϕ(t) = lim 

n→∞ n log(ϕn(t)) = lim 

n→∞ n(ϕn(t) − 1) = ψ(t). 

Nach dem Lévy’schen Stetigkeitssatz ist ϕ als stetiger Limes von CFWs selbst eine 

CFW. ✷ 

Korollar 16.7. Gelten die Bedingungen von Satz 16.6, so ist ϕ r eine CFW für jedes 

r>0. Insbesondere ist ϕ =(ϕ 1/n ) n unbegrenzt teilbar. 

Beweis. Ist ϕn die CFW von μn ∈ M1(R), soiste rn(ϕn−1) die CFW von 

CPoirnμn . Als in 0 stetiger Limes von CFWs ist ϕr = e rψ = limn→∞ e rn(ϕn−1) 

nach dem Lévy’schen Stetigkeitssatz eine CFW. Mit r = 1 

n folgt, dass ϕ =(ϕ1/n ) n 

unbegrenzt teilbar ist. ✷ 

Korollar 16.8. Eine in 0 stetige Funktion ϕ : R → C ist genau dann eine unbegrenzt 

teilbare CFW, wenn es eine Folge (ϕn)n∈N von CFWs gibt mit ϕ n n(t) → ϕ(t) 


Beweis. Die eine Richtung ist schon in Korollar 16.7 gezeigt worden. Sei also ϕ 

eine unbegrenzt teilbare CFW. Dann leistet ϕn = ϕ 1/n das Gewünschte. ✷ 

Korollar 16.9. Ist (μn)n∈N eine (schwach) konvergente Folge unbegrenzt teilbarer 

W-Maße auf R, soistμ = limn→∞ μn unbegrenzt teilbar. 

Beweis. Wende Satz 16.6 an mit ϕn die CFW von μ ∗1/n 

n . ✷ 

Korollar 16.10. Ist μ ∈ M1(R) unbegrenzt teilbar, so existiert eine stetige Faltungshalbgruppe 

(μt)t≥0 mit μ1 = μ und ein stochastischer Prozess (Xt)t≥0 mit 

unabhängigen, stationären Zuwächsen Xt − Xs ∼ μt−s für t>s. 

Beweis. Sei ϕ die CFW von μ. Die Existenz der Faltungshalbgruppe folgt aus Korollar 

16.8 und 16.7, indem wir μr durch ϕ r definieren. Die Stetigkeit der Halbgruppe 

folgt, da ϕ r → 1 für r → 0 (weil ϕ r (t) �= 0für alle t ∈ R). Schließlich folgt die 

Existenz des Prozesses X aus Satz 14.47. ✷ 

Korollar 16.11. Ist ϕ eine unbegrenzt teilbare CFW, so existiert ein γ > 0 mit 

für jedes t ∈ R. Speziell ist t ↦→ e−|t|α für kein α>2 eine CFW. 

|ϕ(t)| ≥ 1 t2 

2e−γ Beweis. Dies folgt direkt aus (16.3). ✷ 

Beweis (von Satz 16.5). Da CPoiνn unbegrenzt teilbar ist, ist nach Korollar 16.9 

auch der schwache Limes unbegrenzt teilbar. 

Sei nun μ unbegrenzt teilbar mit CFW ϕ. Wähle W-Maße μn mit CFW ϕn wie in 

n(ϕn−1) n→∞ 

n→∞ 

Korollar 16.8. Nach Satz 16.6 gilt e −→ ϕ, also auch CPoinμn −→ ν. 

✷


Ohne Beweis bringen wir die folgende Verschärfung von Korollar 16.8, die auf einer 

feineren Analyse mit den Argumenten aus Satz 16.6 beruht. 

Satz 16.12. Sei (ϕn,l; l =1,...,kn, n∈ N) ein Schema von CFWs mit der Eigenschaft 

sup lim sup sup sup |ϕn,l(t) − 1| =0. (16.4) 

L>0 n→∞ t∈[−L,L] l=1,...,kn 

�kn Existiert für jedes t ∈ R der Limes ϕ(t) := limn→∞ l=1 ϕn,l(t), und ist ϕ stetig 

in 0, soistϕeine unbegrenzt teilbare CFW. 

Beweis. Siehe etwa [53, Kapitel XV.7]. ✷ 

n→∞ 

In dem Fall, wo für jedes n die ϕn,l alle gleich sind und kn −→ ∞, gilt (16.4) 

automatisch, wenn das Produkt gegen eine stetige Funktion konvergiert. Der Satz 

liefert also tatsächlich eine Verbesserung von Korollar 16.8. 

Der Wert des Satzes liegt in der folgenden Beobachtung. Sei (Xn,l; l =1,...,kn, 

n ∈ N) ein Schema reeller Zufallsvariablen mit CFWs ϕn,l. Genau dann ist das 

Schema asymptotisch vernachlässigbar, wenn (16.4) gilt: Gilt P[|Xn,l| >ε]


Satz 16.14 (Lévy-Khinchin Formel auf [0, ∞)). Sei μ ∈M1([0, ∞)) und u : 

[0, ∞) → [0, 1], t ↦→ −log � e −tx μ(dx) die log-Laplace Transformierte von μ. 

Genau dann ist μ unbegrenzt teilbar, wenn es ein α ≥ 0 und ein σ-endliches Maß 

ν ∈M((0, ∞)) mit � 

(1 ∧ x) ν(dx) < ∞ (16.5) 

gibt, sodass 

� 

�1 −tx 

u(t) =αt + − e � ν(dx) für t ≥ 0. (16.6) 

Das Paar (α, ν) ist dann eindeutig. Wir nennen ν das kanonische Maß oder Lévy- 

Maß von μ und α den deterministischen Anteil. 

Beweis. ” =⇒ “ Sei zunächst μ unbegrenzt teilbar. Der Fall μ = δ0 ist trivial. 

Sei nun μ �= δ0, also u(1) > 0. 

n→∞ 

Nach Satz 16.5 existieren ν1,ν2,...∈Mf (R\{0}) mit CPoiνn −→ μ. Offenbar 

können wir νn((−∞, 0)) = 0 annehmen. Setzen wir un(t) := � (1 − e−tx ) νn(dx), 

so gilt (nach (16.1)) un(t) n→∞ 

−→ u(t) für jedes t ≥ 0. Speziell ist un(1) > 0 für 

große n. Definiere ˜νn ∈M1([0, ∞)) durch ˜νn(dx) := 1−e−x 

un(1) νn(dx). Für jedes 

t ≥ 0 gilt dann 

� 

e −tx ˜νn(dx) = un(t +1)−un(t) n→∞ u(t +1)−u(t) −→ . 

un(1) 

u(1) 

Also existiert ˜ν := w-lim ˜νn (in M1([0, ∞)) und ist eindeutig durch u festgelegt. 

Wir setzen α := ˜ν({0}) u(1) und definieren ν ∈M((0, ∞)) durch 

ν(dx) =u(1)(1 − e −x ) −1 (0,∞)(x)˜ν(dx). 

Wegen 1 ∧ x ≤ 2(1 − e−x ) für alle x ≥ 0 ist dann offenbar 

� 

� 

(1 ∧ x) ν(dx) ≤ 2 (1 − e −x ) ν(dx) ≤ u(1) < ∞. 

Für jedes t ≥ 0 ist die Funktion (vergleiche (15.8)) 

ft :[0, ∞) → [0, ∞), x ↦→ 

� 1−e −tx 

1−e −x , falls x>0, 

t, falls x =0, 

stetig und beschränkt (durch t ∧ 1), also gilt 

u(t) = lim 

n→∞ un(t) = lim 

n→∞ un(1) 

� 

� 

ft d˜νn 

� 

= u(1) ft d˜ν = αt + (1 − e −tx ) ν(dx).


” ⇐= “ Seien nun α und ν gegeben. Sei I0 =[1, ∞) und Ik =[1/(k +1), 1/k) 

für k ∈ N. Seien X0,X1,...unabhängige Zufallsvariablen mit PXk =CPoi (ν| Ik ) 

für k = 0, 1,..., und sei X := α + �∞ k=0 Xk. � 

Für jedes k ∈ N ist E[Xk] = 

Ik xν(dx), also ist �∞ k=1 E[Xk] = � 

xν(dx) < ∞. Mithin gilt X


(16.9) äquivalent zu der Bedingung � 

(−1,1) x2 ν(dx) < ∞. Daν0 stets endlich ist, 

ist dies wiederum äquivalent zu � (x2 ∧ 1) ν(dx) < ∞. 

Definition 16.16. Ein σ-endliches Maß ν auf R mit ν({0}) =0und 

� �x 2 ∧ 1 � ν(dx) < ∞ (16.10) 

heißt kanonisches Maß.Sindσ 2 ≥ 0 und b ∈ R, so heißt (σ 2 ,b,ν) ein kanonisches 

Tripel. 

Zu jedem kanonischen Tripel gehört über die Konstruktion (16.8) eine unbegrenzt 

teilbare Zufallsvariable. Wir setzen 

ψ0(t) = log E � e itX0� � 

� � itx 

= e − 1 ν(dx) 

und für k ∈ N 

ψk(t) = log E � e it(Xk−αk) � � 

= 

Also genügt 

der Lévy-Khinchin Formel 

ψ(t) :=logE � e itX� = − σ2 

2 t2 + ibt + 

ψ(t) =− σ2 

2 t2 + ibt + 

I0 

Ik 

� e itx − 1 − itx � ν(dx). 

∞� 

ψk(t) 

k=0 

� 

�e � itx 

− 1 − itx {|x|


(i) Durch (16.11) wird das kanonische Tripel eindeutig bestimmt. 

(ii) Zu jeder unbegrenzt teilbaren Verteilung existiert ein kanonisches Tripel, sodass 

(16.11) gilt. 

(i) Eindeutigkeit Wir setzen gt(x) =e itx − 1 − itx {|x|


Dann ist nach (16.1) und mit gt aus (i) 

� 

ψn(t) :=log e itx � 

CPoiνn (dx) = (e itx � 

− 1) νn(dx) = gt dνn + ibnt. 

Wie in (16.14) ist 

n→∞ 

ψ n(t) :=ψn(t) − 1 

2 

� t+1 

t−1 

� 

ψn(s) ds = e itx h(x) νn(dx). 

Da ψn −→ ψ gleichmäßig auf kompakten Mengen konvergiert (Satz 15.23(i)), 

n→∞ 

und weil ψ stetig und damit lokal beschränkt ist, gilt ψn −→ ψ punktweise, also 

� 

e itx h(x) νn(dx) n→∞ 

−→ ψ(t). (16.15) 

Speziell ist ψn(0) < 0 für große n. Setzen wir ˜νn(dx) =−(h(x)/ψn(0))νn(dx) ∈ 

M1(R), sogilt � eitx ˜νn(dx) n→∞ 

−→ −ψ(t)/ψ(0), wobei die rechte Seite stetig ist. 

Nach dem Lévy’schen Stetigkeitssatz gibt es also ein ˜ν ∈M1(R) mit ˜νn 

n→∞ 

−→ ˜ν 

und 

� 

ψ(t) =−ψ(0) e itx ˜ν(dx). 

Wir setzen σ 2 := −6 ψ(0) ˜ν({0}) und definieren ein kanonisches Maß ν durch 

Die Abbildung (vergleiche (15.8)) 

ν(dx) =− ψ(0) 

h(x) 

ft : R → C, x ↦→ 

{x�=0} ˜ν(dx). 

� 

gt(x) 

h(x) , falls x �= 0, 

−3t 2 , falls x =0, 

ist stetig und beschränkt. Nach Voraussetzung ist 

� � 

� 

ft(x)˜νn(dx)+ibnt . 

ψ(t) = lim 

n→∞ ψn(t) = lim 

n→∞ 

Da die Integrale konvergieren, existiert auch b = limn→∞ bn, und es ist 

� 

ψ(t) = ft d˜ν + ibt = − σ2 

2 t2 � 

+ ibt + gt dν. ✷ 

Bemerkung 16.18. Es gibt mehrere Varianten der Lévy-Khinchin Formel 

ψ(t) =− σ2 

2 t2 � 

�e � itx 

+ ibt + − 1 − it f(x) ν(dx),


die sich in der Funktion it f(x) unterscheiden, die als Zentrierung im Integral abgezogen 

wird. Wir haben f(x) =x {|x|0 

n Cau1/n(A) = 1 

� 

π 

A 

n2 n→∞ 

dx −→ 

1+(nx) 2 1 

π 

� 

A 

1 

dx. 

x2 Also hat Cau1 das kanonische Tripel � 0, 0, (πx 2 ) −1 dx � . ✸ 

Übung 16.1.1. Man zeige mit einem Varianzargument, dass eine unbegrenzt teilbare 

Verteilung, die auf einem endlichen Intervall konzentriert liegt, schon in einem 

einzigen Punkt konzentriert ist. ♣ 

Übung 16.1.2. Sei ϕ unbegrenzt teilbar, und für jedes n ∈ N sei ϕn eine CFW mit 

ϕn n = ϕ. Man zeige mit Hilfe des Lévy’schen Stetigkeitssatzes, dass gleichmäßig 

n→∞ 

auf kompakten Mengen ϕn −→ 1 gilt und folgere hieraus, dass ϕ(t) �= 0für 

jedes t ∈ R. ♣ 

Übung 16.1.3. Man zeige, dass unter den Bedingungen von Satz 16.14 gilt: 

α =sup � x ≥ 0: μ([0,x)) = 0 � . ♣

16.2 Stabile Verteilungen 

Symmetrische stabile Verteilungen 

Für α ∈ (0, 2) sei 

� 

θα := (1 − cos(x)) |x| −α−1 dx = 

R 

16.2 Stabile Verteilungen 327 

� −2Γ (−α)cos(απ/2), falls α �= 1, 

π, falls α =1. 

Dann ist να(dx) =θ −1 

α |x| −α−1 dx ein kanonisches Maß, denn 

� 

(1 ∧ x 2 ) να(dx) =2θ −1� 

−1 −1 

α α +(2−α) � < ∞. 

Sei ψα die logarithmierte charakteristische Funktion, die zum unbegrenzt teilbaren 

Maß μα mit kanonischem Tripel (0, 0,να) gehört. Nach der Lévy-Khinchin 

Formel ist 

� ∞ � � itx −1 

ψα(t) = e − 1 − itx {|x|2 ist, eine charakteristische Funktion hat, die zweimal stetig differenzierbar 

in 0 ist, und deren ersten beiden Ableitungen dort gleich 0 sind. Die Verteilung hat 

also Erwartungswert und Varianz Null und ist damit als δ0 erkannt. Ein ähnliches 

Argument zeigt, dass stabile Verteilungen im weiteren Sinne für α>2 notwendigerweise 

trivial sind. ✸


Asymmetrische stabile Verteilungen 

Sind μ1 und μ2 unbegrenzt teilbar mit den kanonischen Tripeln (σ2 1,b1,ν1) und 

(σ2 2,b2,ν2),soistμ1∗μ2 unbegrenzt teilbar mit kanonischem Tripel (σ2 1 + σ2 2,b1 + 

b2,ν1+ν2). Ist nun μ unbegrenzt teilbar mit kanonischem Tripel (σ2 ,b,ν), und sind 

X1,X2,...u.i.v. Zufallsvariablen mit Verteilung μ,soistX1 +...+Xn unbegrenzt 

teilbar mit kanonischem Tripel (nσ2 , nb, nν). Andererseits ist n1/αX1 unbegrenzt 

teilbar mit kanonischem Tripel (n2/ασ2 ,n1/αb, ν ◦ m −1 

n1/α), wobei mγ : R → R, 

x ↦→ γx die Multiplikation mit γ>0 ist. 

Ist nun μ stabil mit Index α, so folgt aus (16.17) 

nb = n 1/α b, nσ 2 = n 2/α σ 2 

und nν = ν ◦ m −1 

n1/α. Ist α �= 1, so folgt b =0.Für α ∈ (0, 2) ist hingegen σ2 =0. Außerdem ist 

� ∞ 

n (1∧x 

−∞ 

2 � ∞ 

) ν(dx) = (1∧x 

−∞ 

2 ) � ν ◦m −1 

n1/α Im Fall α =2folgt wegen 1 ≥ n−1 (1∧nx 2 ) 

1∧x2 � (dx) = 

� ∞ 

−∞ 

(1∧n 2/α x 2 ) ν(dx). 

n→∞ 

−→ 0 für alle x �= 0und wegen 

(16.10) mit dem Satz über majorisierte Konvergenz 

� ∞ 

� ∞ 

(1 ∧ x 

−∞ 

2 n 

) ν(dx) = 

−∞ 

−1 (1 ∧ nx2 ) 

1 ∧ x2 Das heißt, es gilt ν =0, falls α =2 ist. 

(1 ∧ x 2 ) ν(dx) n→∞ 

−→ 0. 

Hat ν eine auf R\{0} stetige Dichte f, so folgt aus (16.17) die Skalierungsrelation 

f(rx) =r −α−1 f(x) für jedes r>0, also mit c − := f(−1) und c + := f(1) 

ν(dx) 

dx = 

� c − (−x) −α−1 , falls x0. 

Wir haben also einen Freiheitsgrad mehr (in dem Sinne, dass wir jetzt die zwei 

Parameter c − und c + statt nur c haben), wenn wir auch asymmetrische stabile 

Verteilungen zulassen. Wir können nun ψ ausrechnen 

ψ(t) = 

� |t| α Γ (−α) � (c + + c − )cos � πα 

2 

� + i (c + − c − )sin � πα 

2 

�� , α �= 1, 

−|t|(c + + c − ) � π 

2 + i sign(t)(c+ − c − )log(|t|) � , α =1. 

(16.18) 

Im Fall α ∈ (0, 1) ∪ (1, 2) haben wir so eine stabile Verteilung hergestellt, denn es 

gilt (16.17). Im Fall α =1gilt hingegen nψ(t/n) =ψ(t)+it(c + − c − )logn, also 

X1 + ...+ Xn 

D 

= nX1 +(c + − c − ) n log(n). 

Man kann zeigen, dass die stabilen Verteilungen, die wir hier hergestellt haben, 

tatsächlich die gesamte Klasse der im weiteren Sinne stabilen Verteilungen ausschöpfen 

(siehe etwa [53, Kapitel XVII.5]).

Konvergenz gegen stabile Verteilungen 


Zur Abrundung des Bildes zitieren wir aus [53, Kapitel XVII.5] (siehe auch [61] 

und [120]) Sätze darüber, dass nur stabile Verteilungen als Grenzverteilungen reskalierter 

Summen von u.i.v. Zufallsvariablen X1,X2,...auftreten können, wie die 

genauen Skalierungen aussehen, und welche Verteilungen PX1 zu welchen Grenzverteilungen 

führen. 

Seien im Folgenden X, X1,X2,...u.i.v. Zufallsvariablen und Sn = X1 +...+Xn 

für n ∈ N. 

Definition 16.22 (Anziehungsbereich einer Verteilung). Sei μ ∈ M1(R) 

nicht auf einen Punkt konzentriert. Der Anziehungsbereich (domain of attraction) 

Dom(μ) ⊂M1(R) ist die Menge aller Verteilungen PX mit der Eigenschaft, dass 

es Folgen reeller Zahlen (an)n∈N und (bn)n∈N gibt mit 

Sn − bn 

an 

n→∞ 

=⇒ μ. 

Ist μ stabil (im weiteren Sinne) mit Index α ∈ (0, 2], so liegt PX im normalen 

Anziehungsbereich (domain of normal attraction), falls an = n 1/α gewählt werden 

kann. 

Satz 16.23. Sei μ ∈M1(R) nicht auf einen Punkt konzentriert. Genau dann ist 

Dom(μ) �= ∅, wennμ stabil (im weiteren Sinne) ist. Es gilt dann μ ∈ Dom(μ). 

Eine wichtige Rolle spielt im Folgenden die Funktion 

U(x) :=E � X 2 � 

{|X|≤x} . (16.19) 

Eine Funktion H :(0, ∞) → (0, ∞) heißt langsam variierend bei ∞, falls 

H(γx) 

lim =1 

x→∞ H(x) 

für alle γ>0. 

Wir nehmen im Folgenden an, dass es ein α ∈ (0, 2] gibt, mit der Eigenschaft: 

U(x) x α−2 ist langsam variierend bei ∞. (16.20) 

Satz 16.24. (i) Liegt PX im Anziehungsbereich einer Verteilung, dann existiert 

ein α ∈ (0, 2], sodass (16.20) gilt. 

(ii) Im Falle α =2gilt: Ist PX nicht in einem Punkt konzentriert, so ist (16.20) 

hinreichend dafür, dass PX im Anziehungsbereich einer Verteilung liegt. 

(iii) Im Falle α ∈ (0, 2) gilt: Genau dann liegt PX im Anziehungsbereich einer 

Verteilung, wenn (16.20) gilt und 

P[X ≥ x] 

p := lim 

existiert. (16.21) 

x→∞ P[|X| ≥x]


Satz 16.25. Es sei PX im Anziehungsbereich einer α-stabilen Verteilung – es gelte 

also Bedingung (ii) oder (iii) aus Satz 16.24 – und es sei (an)n∈N so gewählt, dass 

nU(an) 

C := lim 

n→∞ a2 ∈ (0, ∞) 

n 

existiert. Es sei ferner μ diejenige stabile Verteilung mit Index α, deren charakteristische 

Funktion durch (16.18) gegeben ist mit c + = Cp und c − = C(1 − p). 

(i) Im Falle α ∈ (0, 1) sei bn ≡ 0. 

(ii) Im Falle α =2 und Var[X] < ∞ sei E[X] =0. 

(iii) Im Falle α ∈ (1, 2] sei bn = n E[X] für jedes n ∈ N. 

(iv) Im Falle α =1 sei bn = nan E[sin(X/an)] für jedes n ∈ N. 

Dann gilt 

Sn − bn 

an 

n→∞ 

=⇒ μ. 

Korollar 16.26. Liegt PX im Anziehungsbereich einer stabilen Verteilung mit Index 

α, sogiltE � |X| β� < ∞ für alle β ∈ (0,α) und E � |X| β� = ∞, falls β>α 

und α0, 

0, sonst. 

Man zeige: 

(i) F ist die Verteilungsfunktion einer 1 

2-stabilen Verteilung. 

(ii) Sind X1,X2,... u.i.v. mit Verteilungsfunktion F , so divergiert 1 

n 

für n →∞fast sicher. 

� n 

k=0 Xk 

Hinweis: Man bestimme die Dichte von F und zeige, dass die Laplace Transformierte 

gegeben ist durch λ ↦→ e −√ 2λ . ♣ 

Übung 16.2.4. Welche der folgenden Verteilungen liegen im Anziehungsbereich einer 

stabilen Verteilung und gegebenenfalls zu welchem Parameter?

(i) Die Verteilung auf R mit Dichte 

⎧ 

⎪⎨ 

ϱ 

f(x) = 

⎪⎩ 

1 

1+α |x|α , falls x1, 

sonst. 

Dabei sind α, β < −1 und ϱ ∈ [0, 1]. 

(ii) Die Exponentialverteilung expθ für θ>0. 


(iii) Die Verteilung auf N mit Gewichten cn α falls n gerade ist und cn β , falls n 

ungerade ist. Dabei sind α, β < −1, und c =(2 α ζ(−α)+(1− 2 β )ζ(−β)) −1 

(ζ ist die Riemann’sche Zetafunktion) ist die Normierungskonstante. ♣

17 Markovketten 

Markovprozesse mit abzählbarem Zustandsraum (und diskreter Zeit) sind trotz ihrer 

Simplizität interessante mathematische Objekte, mit denen sich eine Vielzahl von 

Phänomenen modellieren lässt. Wir bringen hier einen Einblick in die grundlegenden 

Begriffe und schauen dann Beispiele etwas detaillierter an. Der Zusammenhang 

mit der (diskreten) Potentialtheorie wird erst in Kapitel 19 untersucht. Beim ersten 

Lesen kann in Abschnitt 17.1 die (etwas abstrakte) Konstruktion von allgemeinen 

Markovprozessen übersprungen werden. 

17.1 Begriffsbildung und Konstruktion 

Im Folgenden sei E stets ein polnischer Raum mit Borel’scher σ-Algebra B(E), 

I ⊂ R und (Xt) t∈I ein stochastischer Prozess mit Werten in E. Wir nehmen an, 

dass (Ft)t∈I = F = σ(X) die von X erzeugte Filtration ist. 

Definition 17.1. Wir sagen, dass X die elementare Markoveigenschaft (ME) hat, 

falls für jedes A ∈B(E) und je zwei s, t ∈ I mit s ≤ t gilt 

P � Xt ∈ A � � � 

�Fs = P Xt ∈ A � � 

�Xs . 

Bemerkung 17.2. Ist E abzählbar, so hat X genau dann die elementare Markoveigenschaft, 

wenn für jedes n ∈ N und alle s1 < ... < sn 0 gilt 

P � Xt = i � � � 

�Xs1 = i1,...,Xsn = in = P Xt = i � �Xsn 

� 

= in . (17.1) 

In der Tat impliziert (17.1) natürlich sofort die elementare Markoveigenschaft. Habe 

nun X die elementare Markoveigenschaft. Wir bemerken (siehe (8.6)), dass für fast 

alle ω ∈{Xsn = in} gilt P[Xt = i � �Xsn ](ω) =P[Xt = i � �Xsn = in]. Also 

gilt mit A := {Xs1 = i1,...,Xsn = in} (unter Verwendung der elementaren 

Markoveigenschaft in der zweiten Gleichheit) 

P � � 

Xt = i,Xs1 = i1,...,Xsn = in 

= E � � 

E[ � 

{Xt=i} Fsn ] � � � 

A = E E[ � 

{Xt=i} Xsn ] � 

A 

= E � P[Xt = i � �Xsn = in] 

� � 

A = P Xt = i � � 

�Xsn = in P[A].

334 17 Markovketten 

Teilen wir jetzt auf beiden Seiten durch P[A], so folgt (17.1). ✸ 

Definition 17.3. Sei I = N0 oder I =[0, ∞). X =(Xt) t∈I heißt Markovprozess 

mit Verteilungen (Px) x∈E auf dem Raum (Ω,A), falls gilt: 

(i) Für jedes x ∈ E ist X ist ein stochastischer Prozess auf dem Wahrscheinlichkeitsraum 

(Ω,A, Px) mit Px [X0 = x] =1. 

(ii) Die Abbildung κ : E ×B(E) ⊗I → [0, 1], (x, B) ↦→ Px[X ∈ B] ist ein 

stochastischer Kern. 

(iii) Es gilt die (schwache) Markoveigenschaft (ME): Für jedes A ∈B(E), jedes 

x ∈ E und je zwei s, t ∈ I gilt 

� 

Px Xt+s ∈ A � � 

�Fs = κt(Xs,A) Px − f.s. 

Hierbei definiert für jedes t ∈ I und x ∈ E sowie A ∈B(E) 

κt(x, A) :=κ � x, {y ∈ E I : y(t) ∈ A} � = Px [Xt ∈ A] 

den stochastischen Kern κt : E ×B(E) → [0, 1] der Übergangswahrscheinlichkeiten 

von X zur Zeitdifferenz t. 

Wir schreiben stets Ex für die Erwartungswerte bezüglich Px und Lx[X] =Px 

sowie Lx[X |F]=Px[X ∈ · |F] (für eine reguläre Version der bedingten Verteilungen 

von X gegeben F) und so fort. 

Ist E höchstens abzählbar, so heißt X diskreter Markovprozess. 

Im Spezialfall I = N0 heißt X Markovkette. Es heißt dann κn auch die Familie der 

n-Schritt-Übergangswahrscheinlichkeiten. 

Bemerkung 17.4. Die schwache Markoveigenschaft impliziert die elementare Markoveigenschaft. 

In der Tat ist ” schwache ME = elementare ME + zeitliche Homogenität“. 

✸ 

Wir verwenden im Folgenden die etwas nachlässige Bezeichnung PXs [X ∈ · ]:= 

κ(Xs, · ). Wir verstehen also Xs als Startwert eines zweiten Markovprozesses mit 

denselben Verteilungen (Px)x∈E. 

Beispiel 17.5. Seien Y1,Y2,... u.i.v. R d -wertige Zufallsvariablen und 

S x n = x + 

n� 

Yi für x ∈ R d und n ∈ N0. 

i=1 

Definiere W-Maße Px auf � (R d ) N0 , (B(R d )) ⊗N0 

� durch Px = P ◦ (S x ) −1 .Dann 

ist der kanonische Prozess Xn :(R d ) N0 → R d eine Markovkette mit Verteilungen 

(Px) x∈R d. Der Prozess X heißt Irrfahrt auf R d mit Startwert x. ✸

17.1 Begriffsbildung und Konstruktion 335 

Beispiel 17.6. Wir können das vorangehende Beispiel leicht auf die Situation stetiger 

Zeit, also I =[0, ∞), übertragen. Sei hierzu (νt)t≥0 eine Faltungshalbgruppe 

auf R d und κt(x, dy) =δx ∗ νt(dy). Zu jedem x ∈ R d sei Px das in Satz 14.47 

konstruierte Maß auf � (R d ) [0,∞) , B(R d ) ⊗[0,∞)� mit 

� 

Px ◦ (X0,Xt1 ,...,Xtn )−1 n−1 

= δx ⊗ κtn+1−tn 

i=0 

für je endlich viele Punkte 0=t0 0 und ν θ t ({k}) = 

e −θt tk θ k 

k! , k ∈ N0, die Faltungshalbgruppe der Poisson-Verteilung. Der Markovprozess 

X auf N0 mit dieser Halbgruppe heißt Poissonprozess mit Rate θ. ✸ 

Wir wollen, ähnlich wie in Beispiel 17.6, nun etwas allgemeiner zu einer Markov’schen 

Halbgruppe von stochastischen Kernen einen Markovprozess herstellen. 

Satz 17.8. Sei I ⊂ [0, ∞) abgeschlossen unter Addition, und sei (κt)t∈I eine Markov’sche 

Halbgruppe stochastischer Kerne von E nach E. Dann gibt es einen 

Messraum (Ω,A) und einen Markovprozess ((Xt)t∈I, (Px)x∈E) auf (Ω,A) mit 

Übergangswahrscheinlichkeiten 

Px [Xt ∈ A] =κt(x, A) für alle x ∈ E, A ∈B(E), t∈ I. (17.2) 

Umgekehrt definiert für jeden Markovprozess X die Gleichung (17.2) eine Halbgruppe 

stochastischer Kerne. Durch (17.2) sind die endlichdimensionalen Verteilungen 

von X eindeutig bestimmt. 

Beweis. ” =⇒ “ Wir konstruieren X als kanonischen Prozess. Sei Ω = E [0,∞) 

und A = B(E) ⊗[0,∞) . Ferner sei Xt die Projektion auf die t-te Koordinate. Für 

x ∈ E definieren wir (siehe Korollar 14.43) auf (Ω,A) das W-Maß Px, sodass für 

endlich viele Zeitpunkte 0=t0


also Px[Xtn ∈ An |Ftn−1 ]=κtn−tn−1 (Xtn−1 ,An). Damit ist X als Markovprozess 

erkannt. Ferner ist Px[Xt ∈ A] =(δx · κt)(A) =κt(x, A). 

” ⇐= “ Sei nun (X, (Px)x∈E) ein Markovprozess. Dann definiert 

κt(x, A) :=Px [Xt ∈ A] für alle x ∈ E, A ∈B(E), t∈ I, 

einen stochastischen Kern κt. Nach der Markoveigenschaft ist 

κt+s(x, A) =Px [Xt+s ∈ A] = Ex [PXs [Xt ∈ A]] 

� 

= 

Px [Xs ∈ dy] Py [Xt ∈ A] 

� 

= κs(x, dy)κt(y, A) = (κs · κt)(x, A). 

Also ist (κt) t∈I eine Markov’sche Halbgruppe. ✷ 

Satz 17.9. Ein stochastischer Prozess X =(Xt)t∈I ist genau dann ein Markovprozess, 

wenn es einen stochastischen Kern κ : E ×B(E) ⊗I → [0, 1] gibt, sodass für 

jede B(E) ⊗I −B(R) messbare, beschränkte Funktion f : EI → R und für jedes 

s ≥ 0 und x ∈ E gilt: 

� 

Ex f ((Xt+s)t∈I) � � 

�Fs = EXs [f(X)] := 

� 

E I 

κ(Xs, dy) f(y). (17.3) 

Beweis. ” ⇐= “ Die schwache Markoveigenschaft folgt aus (17.3) mit der Funktion 

f(y) = A(y(t)), dennPXs [Xt ∈ A] =Px[Xt+s ∈ A|Fs] =κt(Xs,A). 

” =⇒ “ Nach den üblichen Approximationsargumenten reicht es, Funktionen f 

zu betrachten, die nur von endlich vielen Koordinaten 0 ≤ t1 ≤ t2 ≤ ... ≤ tn 

abhängen. Wir führen den Beweis per Induktion über n. 

Für n =1und f eine Indikatorfunktion ist dies die (schwache) Markoveigenschaft. 

Für allgemeines, messbares f folgt die Aussage nun aus den üblichen Approximationsargumenten. 

Sei nun die Aussage für n ∈ N bereits gezeigt. Es reicht wiederum, für f eine Indikatorfunktion 

der Art f(x) = B1×···×Bn+1 (xt1 ,...,xtn+1 ) (mit B1,...,Bn+1 ∈ 

B(E)) zu betrachten. Zusammen mit der Markoveigenschaft (dritte und fünfte 

Gleichheit in der folgenden Gleichungskette) und der Induktionsvoraussetzung 

(vierte Gleichheit) erhalten wir

Ex 


� 

f � �� 

(Xt+s)t≥0 �Fs 

� � � �� 

= Ex Ex f (Xt+s)t≥0 

�Ftn+s 

� � 

� 

�Fs 

= Ex 

= Ex 

� 

� 

= EXs 

= EXs 

= EXs 

� 

� � 

Ex 

�Ftn+s 

{Xtn+1 +s∈Bn+1} 

B1 (Xt1+s) ··· Bn (Xtn+s) 

� � 

PXtn+s 

Xtn+1−tn ∈ Bn+1 B1 (Xt1+s) ··· Bn (Xtn+s) 

� 

� 

� 

PXtn 

PX0 

PX0 

� Xtn+1−tn 

� Xtn+1 

� Xt1 

� 

∈ Bn+1 B1 (Xt1 ) ··· � 

Bn (Xtn ) 

� � 

�Ftn 

∈ Bn+1 B1 (Xt1 ) ··· � 

Bn (Xtn ) 

� � 

�Ftn 

∈ B1,...,Xtn+1 ∈ Bn+1 

� 

� � 

� 

�Fs 

� � 

� 

�Fs 

= EXs [f(X)] . ✷ 

Korollar 17.10. Ein stochastischer Prozess (Xn)n∈N0 ist genau dann eine Markovkette, 

wenn 

� � � � � 

Lx (Xn+k) �Fk = LXk (Xn) n∈N0 

n∈N0 für jedes k ∈ N0. (17.4) 

Beweis. Wenn die bedingten Verteilungen existieren, ist nach Satz 17.9 die Gleichung 

(17.4) äquivalent dazu, dass X eine Markovkette ist. Zu zeigen ist also nur, 

dass die bedingten Verteilungen auch existieren. 

Da E polnisch ist, ist E N0 polnisch und B(E N0 )=B(E) ⊗N0 (siehe Satz 14.8). 

Nach Satz 8.36 existiert also eine reguläre Version der bedingten Verteilungen von 

(Xn+k)n∈N0 gegeben Fk. ✷ 

Satz 17.11. Sei I = N0. Ist(Xn)n∈N0 ein stochastischer Prozess mit Verteilungen 

(Px, x∈ E), so folgt die schwache Markoveigenschaft in Definition 17.3(iii) schon 

aus der Existenz eines stochastischen Kerns κ1 : E ×B(E) → [0, 1] mit der Eigenschaft: 

Für jedes A ∈B(E), jedes x ∈ E und jedes s ∈ I gilt 

� 

Px Xs+1 ∈ A � � 

�Fs = κ1(Xs,A). (17.5) 

In diesem Fall erhält man die n–Schritt Übergangskerne κn induktiv durch 

� 

κn = κn−1 · κ1 = κn−1( · ,dx) κ1(x, · ). 

E 

Speziell ist die Familie (κn)n∈N eine Markov’sche Halbgruppe, und die Verteilung 

von X ist durch die Angabe von κ1 eindeutig festgelegt. 

Beweis. Setze in Satz 17.9 ti = i für i ∈ N0.Für den Beweis des Satzes wurde nur 

(17.5) ausgenutzt. ✷


Die (schwache) Markoveigenschaft eines Prozesses besagt, dass zu fester Zeit t die 

Zukunft (nach t) von der Vergangenheit (bis t) nur durch die Gegenwart (also den 

Wert zur Zeit t) abhängt. Wir können diesen Begriff verallgemeinern, indem wir 

statt fester Zeiten auch Stoppzeiten zulassen. 

Definition 17.12. Sei I ⊂ [0, ∞) abgeschlossen unter Addition. Ein Markovprozess 

(Xt)t∈I mit Verteilungen (Px, x∈ E) hat die starke Markoveigenschaft, 

falls für jede f.s. endliche Stoppzeit τ und jede B(E) ⊗I −B(R) messbare, beschränkte 

Funktion f : EI → R, sowie jedes x ∈ E gilt: 

� 

Ex f ((Xτ+t)t∈I) � � 

�Fτ = EXτ [f(X)] := 

� 

E I 

κ(Xτ ,dy) f(y). (17.6) 

Bemerkung 17.13. Ist I höchstens abzählbar, so ist die starke Markoveigenschaft 

äquivalent dazu, dass für jede fast sicher endliche Stoppzeit τ gilt 

� � � � � 

Lx (Xτ+t) �Fτ = LXτ (Xt) := κ(Xτ , · ). (17.7) 

t∈N0 

t∈N0 

Dies folgt genau wie in Korollar 17.10. ✸ 

Die meisten relevanten Markovprozesse besitzen auch die starke Markoveigenschaft. 

Statt hier den Begriff der Relevanz zu diskutieren, was sich wohl kaum 

erschöpfend machen ließe, wollen wir lieber zeigen, dass für abzählbare Zeitmenge 

die starke Markoveigenschaft aus der schwachen folgt. In zeitstetigen Situationen 

hingegen muss man im Allgemeinen mehr arbeiten, um die starke Markoveigenschaft 

zu etablieren. 

Satz 17.14. Ist I ⊂ [0, ∞) höchstens abzählbar und abgeschlossen unter Addition, 

so hat jeder Markovprozess (Xn)n∈I mit Verteilungen (Px)x∈E die starke 

Markoveigenschaft. 

Beweis. Sei f : EI → R� messbar � und� beschränkt. � Dann ist für jedes s ∈ I die Zufallsvariable 

{τ=s} Ex f (Xs+t) 

t∈I |Fτ messbar bezüglich Fs. Mit der Turmeigenschaft 

der bedingten Erwartung und Satz 17.9 in der dritten Gleichheit erhalten 

wir daher 

� � � � � � � � � � � 

Ex f (Xτ+t) �Fτ 

t∈I = {τ=s} Ex f (Xs+t) �Fτ 

t∈I 

s∈I 

= � 

s∈I 

= � 

s∈I 

= EXτ 

Ex 

Ex 

� 

� 

� � �� 

{τ=s} Ex f (Xs+t)t∈I 

�Fs 

� � 

� 

�Fτ 

{τ=s} EXs 

� � �� 

f (Xt)t∈I 

� � 

� 

�Fτ 

� � �� 

f (Xt)t∈I . ✷


Wir bringen eine einfache Anwendung der starken Markoveigenschaft. 

Satz 17.15 (Reflexionsprinzip). Seien Y1,Y2,... u.i.v. reelle Zufallsvariablen mit 

symmetrischer Verteilung L[Y1] =L[−Y1]. Setze X0 =0und Xn := Y1 + ...+ 

Yn für n ∈ N. Dann gilt für jedes n ∈ N0 und a>0 

� 

� 

P sup Xm ≥ a 

m≤n 

≤ 2 P[Xn ≥ a] − P[Xn = a]. (17.8) 

Gilt P[Y1 ∈{−1, 0, 1}] =1, so gilt für a ∈ N in (17.8) sogar Gleichheit. 

Beweis. Sei a>0 und n ∈ N. Definiere die bei (n +1)abgeschnittene Zeit des 

ersten Überschreitens von a 

τ := inf{m ≥ 0: Xm ≥ a}∧(n +1). 

Dann ist τ eine beschränkte Stoppzeit und 

sup Xm ≥ a ⇐⇒ τ ≤ n. 

m≤n 

� 

Setze f(m, X) = {m≤n} {Xn−m>a} + 1 

� 

2 {Xn−m=a} .Dannist 

f � τ,(Xτ+m) m∈N0 

� = {τ≤n} 

� {Xn>a} + 1 

2 {Xn=a} 

Die starke Markoveigenschaft von X liefert 

� � 

� ��Fτ 

� 

E0 f τ,(Xτ+m) m≥0 = ϕ (τ,Xτ ) , 

wobei ϕ(m, x) =Ex[f(m, X)]. (Hierbei bezeichnet Ex die Erwartung für X, falls 

X0 = x.) Wegen der Symmetrie der Yi ist 

⎧ 

⎪⎨ 

≥ 

ϕ(m, x) 

⎪⎩ 

1 

2 , falls m ≤ n und x ≥ a, 

= 1 

2 , falls m ≤ n und x = a, 

=0, falls m>n. 

Also gilt 

� 

{τ ≤ n} = {τ ≤ n}∩{Xτ ≥ a} ⊂ ϕ(τ,Xτ ) ≥ 1 

� 

∩{τ ≤ n} 

2 

Nun folgt (17.8) aus 

P[Xn >a]+ 1 

2 P[Xn = a] =E � f � �� 

τ,(Xτ+m)m≥0 

� . 

= {ϕ(τ,Xτ ) > 0}∩{τ ≤ n}. 

� � 1 

= E0 ϕ(τ,Xτ ) {τ≤n} ≥ 

2 P0 [τ ≤ n] . 

(17.9)


Gilt P[Y1 ∈{−1, 0, 1}] =1, und ist a ∈ N,soistXτ = a, falls τ ≤ n. Alsoist 

� 

{ϕ(τ,Xτ ) > 0}∩{τ ≤ n} = ϕ(τ,Xτ )= 1 

� 

∩{τ ≤ n}. 

2 

Daher gilt Gleichheit im letzten Schritt von (17.9) und damit auch in (17.8). ✷ 

Übung 17.1.1. Sei I ⊂ R X =(Xt)t∈I ein stochastischer Prozess. Definiere für 

t ∈ I die σ-Algebren, die die Vergangenheit bis und die Zukunft ab t kodieren: 

F≤t := σ(Xs : s ∈ I, s ≤ t) und F≥t := σ(Xs : s ∈ I, s ≥ t). 

Man zeige: X hat genau dann die elementare Markoveigenschaft, wenn für jedes 

t ∈ I die σ-Algebren F≤t und F≥t unabhängig sind gegeben σ(Xt) (vergleiche 

Definition 12.20). 

Mit anderen Worten: Ein Prozess hat die elementare Markoveigenschaft genau dann, 

wenn Vergangenheit und Zukunft unabhängig sind gegeben die Gegenwart. ♣ 

17.2 Diskrete Markovketten, Beispiele 

Sei E höchstens abzählbar und I = N0. Ein Markovprozess X =(Xn)n∈N0 auf E 

ist nach Definition 17.3 eine diskrete Markovkette (oder Markovkette mit diskretem 

Zustandsraum). 

Ist X eine diskrete Markovkette, so ist (Px)x∈E festgelegt durch die Angabe von 

der Übergangsmatrix 

p =(p(x, y))x,y∈I := (Px[X1 = y])x,y∈E. 

Die n-Schrittübergangswahrscheinlichkeiten 

p (n) (x, y) :=Px [Xn = y] 

ergeben sich nämlich als n-faches Matrixprodukt 

wobei 

p (n) (x, y) =p n (x, y), 

p n (x, y) = � 

p n−1 (x, z)p(z,y) 

z∈E 

und p0 = I die Einheitsmatrix ist. 

Durch Iteration folgt die Chapman-Kolmogorov’sche Gleichung (siehe (14.13)) 

für alle m, n ∈ N0 und x, y ∈ E 

p (m+n) (x, y) = � 

p (m) (x, z) p (n) (z,y). (17.10) 

z∈E

17.2 Diskrete Markovketten, Beispiele 341 

Definition 17.16. Eine Matrix (p(x, y)) x,y∈E mit nichtnegativen Einträgen und 

� 

p(x, y) =1 für jedes x ∈ E 

y∈E 

heißt stochastische Matrix auf E. 

Nun ist eine stochastische Matrix im Wesentlichen ein stochastischer Kern von 

E nach E. In Satz 17.8 hatten wir gesehen, dass zu der Halbgruppe von Kernen 

(p n )n∈N genau eine diskrete Markovkette existiert, deren Übergangswahrscheinlichkeiten 

durch p gegeben sind. Die dort angegeben Argumente waren eher abstrakter 

Natur. Wir wollen hier eine Konstruktion von X angeben, mit der man beispielsweise 

auch eine Computersimulation bauen kann. 

Sei (Rn)n∈N0 eine unabhängige Familie von Zufallsvariablen mit Werten in EE mit 

der Eigenschaft, dass 

P[Rn(x) =y] =p(x, y) für alle x, y ∈ E. (17.11) 

Beispielsweise wähle man (Rn(x), x ∈ E, n ∈ N) als eine unabhängige Familie 

von Zufallsvariablen mit Werten in E und Verteilungen 

P[Rn(x) =y] =p(x, y) für alle x, y ∈ E und n ∈ N0. 

Man beachte aber, dass wir in (17.11) weder die Unabhängigkeit der Zufallsvariablen 

(Rn(x), x ∈ E) gefordert haben, noch, dass alle Rn die selbe Verteilung 

haben (lediglich die eindimensionalen Randverteilungen sind festgelegt). In der Tat 

möchte man in vielen wichtigen Anwendungen wohldefinierte Abhängigkeitsstrukturen 

haben, um Markovketten mit unterschiedlichen Startzuständen miteinander zu 

koppeln. Diesen Faden verfolgen wir erst in Abschnitt 18.2 weiter. 

Für x ∈ E definiere 

X x 0 = x und X x n = Rn(X x n−1) für n ∈ N. 

Schließlich definieren wir Px := L[X x ] als die Verteilung von X x , also als ein 

W-Maß auf dem Folgenraum (E N0 , B(E) ⊗N0 ). 

Satz 17.17. (i) Der kanonische Prozess X auf (EN0 , B(E) ⊗N0 ) ist bezüglich 

der Verteilung (Px)x∈E eine Markovkette mit Übergangsmatrix p. 

(ii) Insbesondere gehört zu jeder stochastischen Matrix p genau eine diskrete 

Markovkette X mit Übergangswahrscheinlichkeiten p. 

Beweis. ” (ii)“ folgt aus (i), da Satz 17.11 die Eindeutigkeit von X liefert. 

” (i)“ Für n ∈ N0 und x, y, z ∈ E gilt nach Konstruktion


Px[Xn+1 = z � � Fn, Xn = y] =P � X x n+1 = z � � σ � Rm, m≤ n � ,X x n = y � 

= P � Rn+1(X x n)=z � �σ � Rm, m≤ n � ,X x n = y � 

= P � Rn+1(y) =z] 

= p(y, z). 

Nach Satz 17.11 ist X also eine Markovkette mit Übergangsmatrix p. ✷ 

Beispiel 17.18. (Irrfahrt auf Z)SeiE = Z, und gelte 

p(x, y) =p(0,y− x) für alle x, y ∈ Z. 

Wir sagen in diesem Fall, dass p translationsinvariant ist. Eine diskrete Mar- 

D 

kovkette X mit Übergangsmatrix p ist eine Irrfahrt auf Z. Esistnämlich Xn = 

X0 + Z1 + ...+ Zn, wo(Zn) n∈N u.i.v. sind mit P [Zn = x] =p(0,x). 

Die Rn aus der expliziten Konstruktion erhalten wir durch Rn(x) :=x + Zn. ✸ 

Beispiel 17.19 (Simulation am Computer). Wir betrachten die Situation wo E = 

{1,...,k} sogar endlich ist und wollen eine Markovkette X mit Übergangsmatrix 

p am Computer simulieren. Wir nehmen an, dass der Computer einen Zufallszahlengenerator 

bereitstellt, der eine Folge (Un)n∈N unabhängiger uniform auf [0, 1] 

verteilter Zufallsvariablen erzeugt. 

Wir setzen r(i, 0) = 0, r(i, j) =p(i, 1) + ...+ p(i, j) für i, j ∈ E, und definieren 

Yn durch 

Rn(i) =j ⇐⇒ Un ∈ [r(i, j − 1),r(i, j)). 

Per Konstruktion ist dann P[Rn(i) =j] =r(i, j) − r(i, j − 1) = p(i, j). ✸ 

Beispiel 17.20 (Verzweigungsprozess als Markovkette). Wir wollen den Galton- 

Watson Verzweigungsprozess (siehe Definition 3.9) als Markovkette auf E = N0 

auffassen. 

Sei hierzu (qk)k∈N0 ein Wahrscheinlichkeitsvektor, den wir als Verteilung der Nachkommenschaft 

eines Individuums auffassen. Definiere q∗0 k = {0}(k) und 

k� 

q ∗n 

k = 

l=0 

q ∗(n−1) 

k−l ql für n ∈ N 

als n-fache Faltung von q sowie die Matrix p durch p(x, y) =q∗x y für x, y ∈ N0. 

Seien nun (Yn,i,n ∈ N0,i ∈ N0) u.i.v. mit P[Yn,i = k] =qk. Für x ∈ N0 definieren 

wir den Verzweigungsprozess X mit x Urahnen und Nachkommenverteilung q 

durch X0 = x und Xn := �Xn−1 i=1 Yn−1,i. Um zu zeigen, dass X eine Markovkette 

ist, berechnen wir

17.2 Diskrete Markovketten, Beispiele 343 

� 

P[Xn = xn 

�X0 = x, X1 = x1,...,Xn−1 = xn−1] 

= P[Yn−1,1 + ...+ Yn−1,xn−1 = xn] 

= P ∗xn−1 

({xn}) =q Y1,1 ∗xn−1 

xn = p(xn−1,xn). 

Also ist X eine Markovkette auf N0 mit Übergangsmatrix p. ✸ 

Beispiel 17.21 (Wright’sches Evolutionsmodell). In der Biologie beschreibt das 

Wright’sche Evolutionsmodell ([159]) die Vererbung eines genetischen Merkmales 

mit zwei möglichen Ausprägungen, etwa A und B, (zum Beispiel Resistenz/keine 

Resistenz gegen ein bestimmtes Antibiotikum) in einer Population konstanter Größe 

N ∈ N mit diskreter Generationenfolge. Die Individuen werden dabei als haploid 

angenommen, die Chromosomen liegen also einfach vor (wie etwa bei gewissen 

Einzellern) und nicht als Paare (wie etwa bei Säugetieren). 

Wir betrachten hier den Fall, wo keines der beiden Merkmale einen Selektionsvorteil 

bietet. Es wird also angenommen, dass sich jedes Individuum der neuen Generation 

zufällig (gleichverteilt) eines der Individuen der vorangehenden Generation 

als Ahn (oder Vorgänger) aussucht und dessen komplettes Erbgut übernimmt. Die 

Wahl wird für jedes Individuum unabhängig getroffen, wobei mehrere Individuen 

auf den selben Ahn zurückgehen können. Beträgt die Anzahl der Individuen vom 

Typ A in der Elterngeneration k ∈{0,...,N}, so ist dieselbe Anzahl in der Kindergeneration 

zufällig und binomialverteilt mit Parametern N und k/N. 

Wir können die Genfrequenzen (also die relativen Anteile k/N) in diesem Modell 

offenbar durch eine Markovkette X auf E = {0, 1/N,...,(N − 1)/N, 1} mit 

Übergangsmatrix p(x, y) = bN,x({Ny}) beschreiben. Man beachte, dass X ein 

(beschränktes) Martingal ist. Nach dem Martingalkonvergenzsatz konvergiert X also 

Px-fast sicher gegen eine Zufallsvariable X∞ mit Ex[X∞] =Ex[X0] =x. 

Ähnlich wie beim Wählermodell (siehe Beispiel 11.16), das in der Tat sehr eng verwandt 

mit diesem Modell ist, können wir argumentieren, dass X∞ nur die stabilen 

Randwerte 0 und 1 annehmen kann. Es gilt also Px[limn→∞ Xn = 1] = x = 

1 − Px[limn→∞ Xn =0]. ✸ 

Beispiel 17.22 (Diskretes Moran-Modell). Wir wollen ein dem Wright’schen Evolutionsmodell 

verwandtes Modell mit Überlappung der Generationen betrachten. 

Die Situation ist wie beim Wright’schen Modell, jedoch soll jetzt pro Zeitschritt 

immer nur genau ein Individuum durch ein neues ersetzt werden, dessen Typ durch 

eine zufällige Wahl aus der Elterngeneration bestimmt wird. 

Da die Typen des zu ersetzenden und des neuen Individuums unabhängig sind, 

erhalten wir als Modell für die Genfrequenzen eine Markovkette X auf E = 

{0, 1 

N ,...,1} mit Übergangsmatrix 

⎧ 

x(1 − x), falls y = x +1/N, 

⎪⎨ x 

p(x, y) = 

⎪⎩ 

2 +(1−x) 2 , falls y = x, 

x(1 − x), falls y = x − 1/N, 

0, sonst.


Auch hier ist X wieder ein beschränktes Martingal, und wir können den quadratischen 

Variationsprozess ausrechnen: 

n−1 � 

〈X〉n = E � (Xi − Xi−1) 2 � � 

� 

2 

Xi−1 = 

N 2 

n−1 � 

Xi(1 − Xi). (17.12) 

✸ 

i=0 

Übung 17.2.1 (Diskretes Martingalproblem). Sei E ⊂ R höchstens abzählbar 

und X eine Markovkette auf E mit Übergangsmatrix p und der Eigenschaft, dass es 

für jedes x eine höchstens dreielementige Menge Ax ⊂ E gibt mit p(x, y) =0für 

jedes y ∈ E \ Ax.Seid(x) := � 

y∈E (y − x) p(x, y) für x ∈ E. 

(i) Man zeige: Durch Mn := Xn − �n−1 k=0 d(Xk) wird ein Martingal M definiert 

mit quadratischem Variationsprozess 〈M〉n = �n−1 i=0 f(Xi) für eine eindeutig 

bestimmte Funktion f : E → [0, ∞). 

(ii) Man zeige: Die Übergangsmatrix p ist durch Angabe von f und d eindeutig 

bestimmt. 

(iii) Man berechne für das Moran-Modell (Beispiel 17.22) die Übergangsmatrix 

aus der expliziten Form (17.12) des quadratischen Variationsprozesses. ♣ 

i=0 

17.3 Diskrete Markovprozesse in stetiger Zeit 

Sei E abzählbar und (Xt) t∈[0,∞) ein Markovprozess auf E mit Übergangswahrscheinlichkeiten 

pt(x, y) =Px[Xt = y] (für x, y ∈ E). (Manche Autoren nennen 

solch einen Prozess auch Markovkette in stetiger Zeit.) 

Sind x, y ∈ E mit x �= y, sosagenwir,dassXmit Rate q(x, y) von x nach y 

springt, falls der folgende Limes existiert 

q(x, y) := lim 

t↓0 

1 

t Px[Xt = y]. 

Wir nehmen nun an, dass q(x, y) für alle y �= x existiert, und dass 

� 

q(x, y) < ∞ für jedes x ∈ E (17.13) 

gilt. Wir setzen dann 

y�=x 

Mit dieser Festsetzung gilt 

lim 

t↓0 

q(x, x) =− � 

q(x, y). (17.14) 

y�=x 

1� 

� 

Px [Xt = y] − {x=y} = q(x, y) für alle x, y ∈ E. (17.15) 

t

17.3 Diskrete Markovprozesse in stetiger Zeit 345 

Definition 17.23. Gelten (17.13), (17.14) und (17.15), soheißtq die Q-Matrix von 

X. Manchmal wird q auch der Generator der Halbgruppe (pt)t≥0 genannt. 

Beispiel 17.24 (Poissonprozess). Der Poissonprozess mit Rate α>0 (vergleiche 

Kapitel 5.5) hat die Q-Matrix q(x, y) =α( {y=x+1} − {y=x}). ✸ 

Satz 17.25. Gilt q(x, y) ≥ 0 für alle x, y ∈ E mit x �= y, gelten (17.13), (17.14), 

und ist 

λ := sup |q(x, x)| < ∞, (17.16) 

x∈E 

so ist q die Q-Matrix eines eindeutig bestimmten Markovprozesses X. 

Ganz naiv betrachtet legt (17.15) nahe, dass man pt = etq in einem geeigneten Sinne 

definiert. Dann wäre rein formal q = d 

dtpt � 

� . Der folgende Beweis zeigt, dass 

t=0 

diese formale Argumentation unter den angegebenen Bedingungen rigoros gemacht 

werden kann. 

Beweis. Sei I die Einheitsmatrix. Definiere 

p(x, y) = 1 

q(x, y)+I(x, y) für x, y ∈ E. 

λ 

Dann ist p eine stochastische Matrix und q = λ(p − I). Sei � (Yn)n∈N0 , � P Y � � 

x x∈E 

eine diskrete Markovkette mit Übergangsmatrix p, und sei � (Tt)t≥0, � P T � � 

n n∈N0 

ein Poissonprozess mit Rate λ. SeiXt := YTt und Px = P Y x ⊗ P T 0 .Dannist 

X := ((Xt)t≥0, (Px)x∈E) ein Markovprozess und 

pt(x, y) :=Px [Xt = y] = 

= e −λt 

∞� 

n=0 

λ n t n 

∞� 

P T 0 [Tt = n] P Y x [Yn = y] 

n=0 

n! pn (x, y). 

Diese Potenzreihe (in t) istüberall konvergent (da p als linearer Operator endliche 

Norm �p�2 ≤ 1 hat) gegen die Matrix-Exponentialfunktion e λtp (x, y), und es gilt 

pt(x, y) =e −λt e λtp (x, y) =e λt(p−I) (x, y) =e tq (x, y). 

Durch gliedweise Differentiation der Potenzreihe erhalten wir d 

dtpt(x, y) � � 

t=0 

q(x, y). Damit ist X der gewünschte Markovprozess. 

Wir nehmen nun an, dass (�pt)t≥0 die Übergangswahrscheinlichkeiten eines weiteren 

Markovprozesses � X sind, mit dem selben Generator q, also mit 

lim 

s↓0 

1� 

�ps(x, y) − I(x, y) 

s 

� = q(x, y). 

=


Man prüft leicht nach, dass 

lim 

s↓0 

1� 

�pt+s(x, y) − pt(x, y) 

s 

� =(q · pt)(x, y) 

gilt, das heißt, es gilt (d/dt)pt(x, y) =qpt(x, y) und analog (d/dt)�pt = q �pt(x, y). 

Damit gilt ebenfalls 

pt(x, y) − �pt(x, y) = 

� t 

0 

� q(ps − �ps) � (x, y) ds. 

Setzen wir rs = ps − �ps,soist�rs�2 ≤ 2 und �q�2 ≤ 2λ, also 

sup �rs�2 ≤ sup 

s≤t 

s≤t 

� t 

0 

�qru�2 du ≤�q�2 sup 

s≤t 

� t 

0 

�ru�2 du ≤ 2λt sup �rs�2. 

s≤t 

Für tt] 

= P[Tn ≤ s + t − Sn |Sn ≤ t, Tn >t− Sn] =P[Tn ≤ s] 

=1− exp(−n 2 s). 

lim s 

s↓0 −1 P[Xt+s = n +1|Xt = n] =n 2 

lim s 

s↓0 −1� P[Xt+s = n|Xt = n] − 1 � = −n 2 , 

lim 

s↓0 s −1 � P[Xt+s = m|Xt = n] − I(m, n) � = q(m, n) für alle m, n ∈ N.

Schreiben wir 

17.3 Diskrete Markovprozesse in stetiger Zeit 347 

τ n =inf{t ≥ 0:Xt = n} = Sn für n ∈ N, 

so gilt E1[τ n ]= �n−1 k=1 1 

k2 � 

. Speziell ist also E1 supn∈N τ n� < ∞, das heißt, X 

überschreitet in endlicher Zeit alle Schranken. Wir sagen, dass X explodiert. ✸ 

Beispiel 17.27 (Eine Variante des Pólya’schen Urnenmodells). Wir betrachten eine 

Variante des Pólya’schen Urnenmodells mit schwarzen und roten Kugeln (vergleiche 

Beispiel 12.29), wo nicht jeweils einfach nur eine weitere Kugel der selben 

Farbe zurückgelegt wird, sondern für die k-te Kugel, die von einer Farbe gezogen 

wird, werden rk weitere Kugeln zurückgelegt. Dabei sind die Zahlen r1,r2,...∈ N 

die Parameter des Modells. Der Fall 1=r1 = r2 = ...entspricht dem klassischen 

Pólya’schen Urnenmodell. Sei 

� 


Xn := 

0, sonst. 

Beim klassischen Modell hatten wir gesehen (Beispiel 12.29), dass der Anteil der 

schwarzen Kugeln gegen eine betaverteilte Zufallsvariable Z konvergiert, und dass 

gegeben Z die Folge X1,X2,... unabhängig und BerZ verteilt ist. Ganz ähnliche 

Aussagen bekommen wir in dem Fall, wo r = r1 = r2 = ... ist für ein r ∈ N. 

In der Tat ändern sich hier nur die Parameter der Betaverteilung. Insbesondere (da 

die Betaverteilung keine Atome in 0 und 1 hat), werden von jeder Farbe fast sicher 

unendlich viele Kugeln gezogen. Es gilt also P[B] =0,woB das Ereignis ist, dass 

von einer der Farben nur endlich viele Kugeln gezogen werden. 

Wir werden jetzt sehen, dass dies nicht so sein muss, wenn die Zahlen rk nur rasch 

genug wachsen. Wir nehmen an, dass anfangs je eine rote und eine schwarze Kugel 

in der Urne liegen und schreiben wn =1+ �n k=1 rk für die Gesamtzahl von Kugeln 

einer Farbe, nachdem die Farbe bereits n-mal gezogen wurde (n ∈ N0). 

Wir betrachten zunächst eine extreme Situation wo wn =2nfür jedes n ∈ N. Die 

Größe 

Sn =2(X1 + ...+ Xn) − n 

zählt, wie viel mehr schwarze Kugeln als rote Kugeln bis zum n-ten Schritt gezogen 

wurden. Dann ist für jedes n ∈ N0 

P[Xn+1 =1|Sn] = 2Sn 

1+2 Sn 

und P[Xn+1 =0|Sn] = 2−Sn 

. −Sn 1+2 

Zusammen erhalten wir, dass (Zn)n∈N0 := (|Sn|)n∈N0 eine Markovkette auf N0 ist 

mit Übergangsmatrix 

p(z,z ′ ⎧ 

⎪⎨ 

)= 

⎪⎩ 

2 z /(1 + 2 z ), falls z ′ = z +1> 1, 

1, falls z ′ = z +1=1, 

1/(1 + 2 z ), falls z ′ = z − 1, 

0, sonst.


Das Ereignis B von oben können wir schreiben als 

B = � Zn+1 Zn für alle n ∈ N0 das Ereignis, dass Z auf direktem Weg 

nach ∞ flieht und τz =inf{n ∈ N0 : Zn ≥ z}. Offenbar ist 

Pz[A] = 

∞� 

z ′ =z 

p(z ′ ,z ′ +1)≥ 1 − 

∞� 

z ′ =z 

1 

1+2 z′ ≥ 1 − 2 1−z . 

Man kann leicht zeigen, dass P0[τz < ∞] =1ist für jedes z ∈ N0. Wir erhalten 

für jedes z ∈ N0 mit der starken Markoveigenschaft 

P0[B] ≥ P0[Zn+1 >Zn für alle n ≥ τz] =Pz[A] ≥ 1 − 2 1−z 

und damit P0[B] =1. Damit ist nachgewiesen, dass fast sicher irgendwann nur 

noch Kugeln einer Farbe gezogen werden. 

Wir wollen nun von diesem extremen Beispiel weg und mit (noch) subtileren Methoden, 

die an das obige Beispiel mit der Explosion des Markovprozesses anknüpfen, 

arbeiten. 

Wir wollen nun zeigen, dass P[B] =1, falls �∞ n=0 1 < ∞. Hierzu betrach- 

wn 

ten wir unabhängige Zufallsvariablen T s 1 ,T r 1 ,T s 2 ,T r 2 ,... mit PT r n = PT s n = 

expwn−1 . Ferner sei T r ∞ = �∞ n=1 T r n und T s ∞ = �∞ n=1 T s n. Offenbar ist E[T r ∞]= 

�∞ n=0 1/wn < ∞, also ist insbesondere P[T r ∞ < ∞] =1. Die analoge Aussage 

gilt für T s ∞. Man beachte, dass T r ∞ und T s ∞ unabhängig sind und Dichten haben 

(weil T r 1 und T s 1 Dichten haben), also gilt P[T r ∞ = T s ∞]=0. 

Seien nun 

Rt =sup � n ∈ N : T r 1 + ...+ T r n−1 ≤ t � 

und 

St =sup � n ∈ N : T s 1 + ...+ T s n−1 ≤ t � . 

Seien R := {T r 1 + ... + T r n,n ∈ N} und S := {T s 1 + ... + T s n,n ∈ N} die 

Sprungzeitpunkte von (Rt) und (St), sowieU := R ∪ S = {u1,u2,...}, wobei 

u1

17.4 Diskrete Markovketten, Rekurrenz und Transienz 349 

Also ist (Xn)n∈N0 das erweiterte Urnenmodell mit Gewichten (wn)n∈N0 . Wir betrachten 

nun das Ereignis B, dass von jeder Farbe unendlich viele Kugeln gezogen 

werden. Offenbar ist {Xn =1unendlich oft} = {sup S =supU} und {Xn = 

0 unendlich oft} = {sup R =supU}. Wegensup S = T s ∞ und sup R = T r ∞ ist 

also P[B] =P[T r ∞ = T s ∞]=0. ✸ 

Übung 17.3.1. Seien r, s, R, S ∈ N. Man betrachte das Pólya’sche Urnenmodell 

(Xn)n∈N0 mit rk = r und sk = s für alle k ∈ N und anfänglich R roten Kugeln 

und S schwarzen Kugeln. Man zeige, dass der Anteil der schwarzen Kugeln fast 

sicher gegen eine Zufallsvariable Z mit Beta-Verteilung konvergiert und bestimme 

die Parameter. Man zeige, dass (Xn)n∈N0 u.i.v. ist gegeben Z und Xi ∼ BerZ für 

jedes i ∈ N0. ♣ 

Übung 17.3.2. Man zeige, dass fast sicher unendlich viele Kugeln jeder Farbe ge- 

∞� 

zogen werden, falls 

1 

= ∞. ♣ 

wn 

n=0 

17.4 Diskrete Markovketten, Rekurrenz und Transienz 

Sei im Folgenden X =(Xn)n∈N0 eine Markovkette auf dem abzählbaren Raum E 

mit Übergangsmatrix p. 

Definition 17.28. Für jedes x ∈ E sei τx := τ 1 x := inf{n >0: Xn = x} und 

τ k x =inf � n>τ k−1 

x : Xn = x � 

für k ∈ N, k≥ 2. 

τ k x heißt k-te Eintrittszeit von X in x. Für x, y ∈ E sei 

F (x, y) :=Px[τ 1 � 

y < ∞] =Px es gibt ein n ≥ 1 mit Xn = y � 

die Wahrscheinlichkeit jemals von x nach y zu gehen. Speziell ist F (x, x) die 

Rückkehrwahrscheinlichkeit (nach dem ersten Sprung) von x nach x. 

Man beachte, dass τ 1 x > 0 selbst bei Start in X0 = x gilt. 

� 

k Satz 17.29. Für alle x, y ∈ E und k ∈ N gilt Px τy < ∞ � = F (x, y) F (y, y) k−1 . 

Beweis. Wir führen den Beweis per Induktion über k.Für k =1ist die Aussage per 

Definition richtig. Sei nun k ≥ 2. Dann ist wegen der starken Markoveigenschaft 

von X (siehe Satz 17.14)


1/2 

2 

1 

1 

1/3 

1/6 

1/2 

3 

1/2 

3/4 

1/2 

4 6 

Abb. 17.1. Markovkette mit acht Zuständen. Die Zahlen sind die Übergangswahrscheinlichkeiten 

für die entsprechenden Pfeile. 

Der Zustand 2 ist absorbierend, die Zustände 1, 3, 4 und 5 transient, die Zustände 6, 7 und 8 

(positiv) rekurrent. 

� k 

Px τy < ∞ � = Ex 

= Ex 

� 

� 

Px 

� 

1/2 

τ k y < ∞ � �F τ k−1 

y 

F (y, y) · k−1 

{τy

1 

17.4 Diskrete Markovketten, Rekurrenz und Transienz 351 

r r 

0 1 2 3 

1�r 1�r 

1�r 1�r 

Abb. 17.2. Markovkette auf N0 mit Parameter r ∈ (0, 1). Die Kette ist positiv rekurrent, 

wenn r ∈ (0, 1/2), nullrekurrent, wenn r =1/2 und transient für r ∈ (1/2, 1). 

(ii) In Abb. 17.2 hat die Kette eine Tendenz, nach rechts auszuwandern, falls r> 1 

2 

ist. Daher ist in diesem Fall jeder Zustand transient. Ist hingegen r ∈ (0, 1 

2 ), 

so hat die Kette einen Drall nach links (außer in 0) und besucht daher jeden 

Zustand immer wieder, ist also rekurrent. Mit etwas mehr Nachdenken kann 

man zeigen (siehe Übung 17.6.4), dass die Kette in diesem Fall sogar positiv 

rekurrent ist und im verbleibenden Fall r = 1 

2 nullrekurrent ✸ 

Definition 17.33. Mit N(y) = �∞ n=0 {Xn=y} bezeichnen wir die Gesamtzahl der 

Besuche von X in y und mit 

∞� 

G(x, y) =Ex[N(y)] = p n (x, y) 

die Greenfunktion von X. 

Satz 17.34. (i) Für alle x, y ∈ E gilt (mit 1/0 :=∞) 

� F (x,y) 

1−F (y,y) , 

G(x, y) = 

1 

1−F (y,y) , 

� 

falls x �= y 

= F (x, y) G(y, y)+ 

falls x = y 

{x=y}. (17.17) 

n=0 

(ii) Ein Punkt x ∈ E ist genau dann rekurrent, wenn G(x, x) =∞. 

Beweis. (ii) folgt aus (i). Wir müssen also noch (17.17) zeigen. Nach Satz 17.29 ist 

∞� 

G(x, y) =Ex[N(y)] = Px[N(y) ≥ k] 

= {x=y} + 

= 

∞� 

k=1 

k=1 

� F (x,y) 

1−F (y,y) , falls x �= y, 

1 

1−F (x,x) , falls x = y. 

� k 

Px τy < ∞ � = {x=y} + 

∞� 

F (x, y) F (y, y) k−1 

Die zweite Gleichheit in (17.17) folgt hieraus direkt. ✷ 

k=1 

r


Satz 17.35. Ist x rekurrent und F (x, y) > 0, dann ist auch y rekurrent, und es gilt 

F (x, y) =F (y, x) =1. 

Beweis. Sei F (x, y) > 0. Dann gibt es ein k ∈ N und Punkte x1,...,xk ∈ E mit 

xk = y und xi �= x für jedes i =1,...,ksowie 

Px [Xi = xi für jedes i =1,...,k] > 0. 

Speziell ist pk (x, y) > 0. Nach der Markoveigenschaft ist 

� 1 

1 − F (x, x) =Px τx = ∞ � � 

≥ Px X1 = x1,...,Xk = xk, τ 1 x = ∞ � 

� 1 

= Px [X1 = x1,...,Xk = xk] · Py τx = ∞ � 

= Px [X1 = x1,...,Xk = xk](1− F (y, x)) . 

Ist nun F (x, x) =1, dann ist auch F (y, x) =1.WegenF (y, x) > 0 existiert ein 

l ∈ N mit p l (y, x) > 0.Alsoistfür n ∈ N0 

Mithin ist, falls x rekurrent ist, 

G(y, y) ≥ 

p l+n+k (y, y) ≥ p l (y, x) p n (x, x) p k (x, y). 

∞� 

n=0 

p l+n+k (y, y) ≥ p l (y, x)p k (x, y)G(x, x) =∞. 

Folglich ist auch y rekurrent. Wenn wir jetzt im Argument x und y vertauschen, 

dann erhalten wir noch F (x, y) =1. ✷ 

Definition 17.36. Eine diskrete Markovkette heißt 

– irreduzibel, falls F (x, y) > 0 für alle x, y ∈ E gilt, oder äquivalent G(x, y) > 0. 

– schwach irreduzibel, falls F (x, y)+F (y, x) > 0 für alle x, y ∈ E gilt. 

Satz 17.37. Eine irreduzible diskrete Markovkette ist entweder rekurrent oder transient. 

Ist |E| ≥2, so gibt es keine absorbierenden Zustände. 

Beweis. Das folgt direkt aus Satz 17.35. ✷ 

Satz 17.38. Ist E endlich und X irreduzibel, so ist X rekurrent. 

Beweis. Offenbar ist für jedes x ∈ E 

� 

∞� � 

G(x, y) = p n ∞� 

(x, y) = 1=∞. 

y∈E 

n=0 y∈E 

n=0

17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 353 

Da E endlich ist, gibt es ein y ∈ E mit G(x, y) =∞. WegenF (y, x) > 0 existiert 

ein k ∈ N mit p k (y, x) > 0, also ist p n+k (x, x) ≥ p n (x, y) p k (y, x) und 

G(x, x) ≥ 

∞� 

p n (x, y) p k (y, x) =p k (y, x) G(x, y) =∞. ✷ 

n=0 

Übung 17.4.1. Sei x positiv rekurrent und F (x, y) > 0. Man zeige, dass auch y 

positiv rekurrent ist. ♣ 

17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 

Wir wollen in diesem Abschnitt die Rekurrenz- und Transienzeigenschaften von 

Irrfahrten auf ZD , D =1, 2,...untersuchen. Eine ausführlichere Behandlung findet 

der Leser im Buch von Spitzer [147]. 

Wir wollen untersuchen, ob die symmetrische einfache Irrfahrt X auf ZD , die in 

jedem Schritt mit gleicher Wahrscheinlichkeit zu einem der 2D nächsten Nachbarn 

springt, rekurrent oder transient ist. Sei also E = ZD und 

� 

1 

2D , falls |x − y| =1, 

p(x, y) = 

0, sonst. 

Der zentrale Grenzwertsatz legt nahe zu vermuten, dass 

p n (0, 0) ≈ CD n −D/2 

für n →∞ 

für eine Konstante CD, die von der Dimension abhängt. Wir müssen hier jedoch 

zunächst einmal den Fall ausschließen, wo n ungerade ist, denn für ungerades n ist 

offenbar pn (0, 0) = 0. Seien also Y1,Y2,... unabhängige ZD-wertige Zufallsvariablen 

mit P[Yi = x] =p2 D 

(0,x).DannistX2n = Sn := Y1 + ...+ Yn für n ∈ N0, 

also G(0, 0) = �∞ n=0 P[Sn =0]. Offenbar hat Y1 =(Y1 1 ,...,YD 1 ) die Kovarianzmatrix 

Ci,j := E[Y i 

1 · Y j 2 

1 ]= D {i=j}. Nach dem lokalen zentralen Grenzwertsatz 

(siehe etwa [21, Seite 224ff] für eine eindimensionale Version dieses Satzes oder 

Übung 17.5.1 für eine analytische Herleitung) gilt 

n D/2 p 2n (0, 0) = n D/2 P[Sn =0] n→∞ 

−→ 2(4π/D) −D/2 . (17.18) 

Nun ist genau dann � ∞ 

n=1 n−α < ∞, wennα>1 ist, also ist G(0, 0) < ∞ genau 

dann, wenn D>2 ist. Wir haben damit einen Satz von Pólya gezeigt: 

Satz 17.39 (Pólya (1921)). Die symmetrische einfache Irrfahrt auf Z D ist genau 

dann rekurrent, wenn D ≤ 2.


Das hier verwendete Vorgehen hat den Nachteil, dass wir den lokalen zentralen 

Grenzwertsatz bemüht haben, den wir nicht bewiesen haben. Wir wollen daher weitere 

Ansätze betrachten, die ohne dieses Hilfsmittel auskommen und auch an sich 

von Interesse sind. 

Betrachten wir zunächst die eindimensionale einfache Irrfahrt, die mit Wahrscheinlichkeit 

p einen Schritt nach rechts macht und mit Wahrscheinlichkeit 1 − p einen 

Schritt nach links. Dann ist 

∞� 

� � 

2n 

G(0, 0) = (p(1 − p)) 

n 

n = 

n=0 

∞� 

� � 

−1/2 

(−p(1 − p)) 

n 

n . 

Unter Benutzung des verallgemeinerten binomischen Lehrsatzes (Lemma 3.5) folgt 

⎧ 

⎨ 1 

� , falls p �= 

G(0, 0) = (1 − 4p(1 − p)) 

⎩ 

1 

2 , 

∞, falls p = 1 

2 . 

(17.19) 

Wir erhalten also, dass die einfache Irrfahrt auf Z genau dann rekurrent ist, wenn 

sie symmetrisch ist, also falls p = 1 

2 gilt. 

Die Transienz im Falle p �= 1 

2 folgt natürlich auch direkt aus dem starken Gesetz 

der großen Zahl, denn limn→∞ 1 

nXn = E0[X1] =2p− 1 fast sicher. Tatsächlich 

haben wir bei diesem Argument nur benutzt, dass die einzelnen Schritte von X 

einen Erwartungswert haben, der ungleich Null ist. 

Betrachten wir nun die allgemeinere Situation, wo X nicht notwendigerweise nur zu 

den nächsten Nachbarn springt, wo aber immer noch E0[|X1|] < ∞ und E0[X0] = 

0 gelten. Das starke Gesetz der großen Zahl liefert hier nicht direkt die gewünschte 

Aussage, sondern wir müssen etwas sorgfältiger argumentieren. 

Die Markoveigenschaft liefert für jedes N ∈ N und y �= x 

k=0 

k=0 

n=0 

N� 

N� � 1 

GN (x, y) := Px[Xk = y] = Px τy = k 

Hieraus folgt für jedes L ∈ N 

GN (0, 0) ≥ 

= 

≥ 

1 

2L +1 

1 

2L +1 

1 

2L +1 

� 

|y|≤L 

N� 

� 

Py[Xl = y] ≤ GN (y, y). 

� N−k 

l=0 

GN (0,y) 

� 

k=0 |y|≤L 

N� 

p k (0,y) 

� 

k=1 y: |y/k|≤L/N 

p k (0,y). 

Nach dem schwachen Gesetz der großen Zahl ist lim infk→∞ 

für jedes ε>0, also folgt, wenn wir L = εN setzen 

� 

|y|≤εk pk (0,y)=1


lim inf 

N→∞ GN (0, 0) ≥ 1 

2ε 

für jedes ε>0. 

Wir haben damit G(0, 0) = ∞ und folglich die Rekurrenz von X gezeigt. 

Zusammen mit der vorangehenden, einfachen Richtung haben wir gezeigt: 

Satz 17.40. Eine Irrfahrt auf Z mit �∞ kurrent, wenn �∞ x=−∞ xp(0,x)=0gilt. 

x=−∞ 

|x| p(0,x) < ∞ ist genau dann re- 

Wie steht es nun für symmetrische einfache Irrfahrten in Dimension D =2und 

höheren Dimensionen? Damit die Irrfahrt nach 2n Schritten wieder im Ursprung 

ist, muss sie ki Schritte in die i-te Richtung machen und ki Schritte in die Gegenrichtung, 

wobei k1 + ...+ kD =2nist. Wir erhalten also 

p 2n (0, 0) = (2D) −2n 

� 

� 

� 

2n 

, (17.20) 

k1,k1,...,kD,kD 

k1+...+kD=n 

wobei � � N 

N! = l1,...,lr l1!···lr! der Multinomialkoeffizienten ist. Speziell ist für D =2 

p 2n (0, 0) = 4 −2n 

=4 −2n 

n� 

k=0 

� 2n 

n 

(2n)! 

(k!) 2 ((n − k)!) 2 

� n � 

k=0 

� �� 

n n 

= 2 

k n − k 

−2n 

� ��2 2n 

, 

n 

wobei wir im letzten Schritt eine einfache kombinatorische Identität benutzt haben, 

die beispielsweise direkt aus der Faltungsformel (bn,p ∗ bn,p)({n}) =b2n,p({n}) 

folgt. Nach der Stirling’schen Formel gilt nun 

√ −2n 

lim n 2 

n→∞ 

� 2n 

n 

� 

= 1 

√ π , 

also limn→∞ np2n (0, 0) = 1 

π . Insbesondere ist also �∞ n=1 p2n (0, 0) = ∞, das 

heißt, die zweidimensionale, symmetrische einfache Irrfahrt ist rekurrent. 

Für D ≥ 3 lässt sich die Summe über die Multinomialkoeffizienten nicht mehr in 

befriedigender Weise ausrechnen. Man kann allerdings immer noch obere Abschätzungen 

angeben, die zeigen, dass es ein c = cD gibt, sodass p2n (0, 0) ≤ cn−D/2 gilt, 

woraus dann G(0, 0) ≤ c �∞ n=1 n−D/2 < ∞ folgt (siehe etwa [58, Beispiel 6.30] 

oder [52, Seite 361]). Wir wollen hier jedoch eine andere Argumentation verfolgen. 

Die Sache wäre ganz einfach, wenn die einzelnen Koordinaten der Kette unabhängig 

wären. Dann wäre ja die Wahrscheinlichkeit, dass zur Zeit 2n alle Koordinaten 

gleich Null sind, gleich der D-ten Potenz der Wahrscheinlichkeit, dass etwa die 

erste Koordinate gleich Null ist. Für eine Koordinate ist aber (weil sich eine einzelne 

Koordinate ja nur mit Wahrscheinlichkeit 1/D bewegt, also nur Varianz 1/D


hat) die Wahrscheinlichkeit, von der 0 aus startend nach 2n Schritten wieder in 0 zu 

sein ungefähr (nπ/D) −1/2 . Bis auf einen Faktor erhielte man so (17.18), ohne dass 

man den mehrdimensionalen lokalen zentralen Grenzwertsatz direkt bemüht hätte. 

Eine Möglichkeit, die Koordinaten tatsächlich unabhängig zu machen, besteht darin, 

die zeitdiskrete Markovkette in einen zeitstetigen Markovprozess auf Z D zu verwandeln, 

der die gleiche Greenfunktion hat. 

Wir betrachten also D unabhängige Poissonprozesse (T i t )t≥0, i = 1,...,D mit 

Rate 1/D und D unabhängige, symmetrische einfache Irrfahrten Z1 ,...,ZD auf 

für i = 1,...,D und Yt = 

Z. Wir setzen T := T 1 + ... + T D , Y i 

t := Zi T i t 

(Y 1 

t ,...,YD t ).DannistY eine Markovkette in stetiger Zeit mit Q-Matrix q(x, y) = 

p(x, y) − {x=y}. DaT ein Poissonprozess mit Rate 1 ist, ist auch (XTt )t≥0 ein 

Markovprozess mit Q-Matrix q. Es folgt (XTt )t≥0 

D 

=(Yt)t≥0. Wir berechnen nun 

� ∞ 

� ∞ ∞� 

GY := P0[Yt =0]dt = 

0 

= 

� 

P0 X2n =0,Tt =2n 

0 n=0 

� dt 

∞� 

p 

n=0 

2n � ∞ 

−t t2n 

(0, 0) e dt = G(0, 0). 

0 (2n)! 

Die beiden Prozesse (Xn)n∈N0 und (Yt) t∈[0,∞) haben also die selbe Greenfunktion. 

Nun sind aber die Koordinaten von Y tatsächlich unabhängig, also ist 

� ∞ 

GY = 

0 

P0[Y 1 

t =0] D dt. 

Wir müssen also nur noch P0[Y 1 

t =0]für große t berechnen. Wir können so argu- 

mentieren: nach dem Gesetz der großen Zahl ist T 1 t ≈ t/D für große t. Außerdem 

gilt P0[Y 1 

t ist gerade] ≈ 1 

2 . Es gilt also, mit nt = ⌊t/2D⌋ für t →∞(vergleiche 

Übung 17.5.2) 

P0[Y 1 

t =0]∼ 1 

2 P�Z 1 2nt =0� = 1 

2 

� 2nt 

nt 

� 

4 −nt ∼ � 2π/D � −1/2 t −1/2 . (17.21) 

Da genau dann � ∞ 

t 1 −α dt < ∞ gilt, wenn α>1 ist, so gilt auch GY < ∞ genau 

dann, wenn D>2 ist. Dies ist aber gerade die Aussage des Satzes von Pólya. 

Schließlich stellen wir noch eine dritte Methode vor, um Rekurrenz und Transienz 

von Irrfahrten zu untersuchen, die unabhängig von den euklidischen Eigenschaften 

des D-dimensionalen Gitters ist und auf der Fourier-Inversionsformel beruht. 

Wir betrachten zunächst eine allgemeine (zeitdiskrete) irreduzible Irrfahrt mit Übergangsmatrix 

p auf ZD .Mitφ(t) = � 

x∈ZD ei〈t,x〉 p(0,x) bezeichnen wir die charakteristische 

Funktion eines einzelnen Übergangs. Die Faltung der Übergangswahrscheinlichkeiten 

überträgt sich in Potenzen der charakteristischen Funktion, also ist 

φ n (t) = � 

x∈ZD e i〈t,x〉 p n (0,x).


Nach der Fourier-Inversionsformel (Satz 15.10) erhalten wir aus φn die n-Schritt 

Übergangswahrscheinlichkeiten zurück durch 

� 

Speziell ist für λ ∈ (0, 1) 

∞� 

p n (0,x)=(2π) −D 

Rλ := λ 

n=0 

n p n (0, 0) = (2π) −D 

n=0 

=(2π) −D 

� 

=(2π) −D 

� 

[−π,π) D 

[−π,π) D 

[−π,π) D 

e −i〈t,x〉 φ n (t) dt. 

∞� 

� 

1 

1 − λφ(t) dt. 

� � 

1 

Re 

1 − λφ(t) 

[−π,π) D 

λ n φ n (t) dt 

Nun ist G(0, 0) = limλ↑1 Rλ, also 

X ist rekurrent 

� 

⇐⇒ lim 

λ↑1 [−π,π) D 

� � 

1 

Re 

dt = ∞. 

1 − λφ(t) 

(17.22) 

Wäre φ(t) =1für ein t ∈ (−2π, 2π) D \{0},sowäre φ n (t) =1für jedes n ∈ N und 

damit nach Übung 15.2.1 P0[〈Xn,t/(2π)〉 ∈Z] =1, also wäre X nicht irreduzibel, 

im Widerspruch zur Annahme. Wegen der Stetigkeit von φ ist also für jedes ε>0 

Es gilt also der folgende Satz. 

dt. 

inf � |φ(t) − 1| : t ∈ [−π, π) D \ (−ε, ε) D� > 0. 

Satz 17.41 (Chung-Fuchs (1951)). Eine irreduzible Irrfahrt auf ZD mit charakteristischer 

Funktion φ ist genau dann rekurrent, wenn für jedes ε>0 gilt: 

� � � 

1 

lim Re 

dt = ∞. (17.23) 

λ↑1 

1 − λφ(t) 

(−ε,ε) D 

Betrachten wir nun die symmetrische einfache Irrfahrt, so ist φ(t) = 1 �D D i=1 cos(ti). 

Entwickeln wir die Kosinusfunktion in eine Taylorreihe um 0, so erhalten wir 

cos(ti) =1− 1 

2t2i + O(t4 ), also 1 − φ(t) = 1 

2D �t�22 + O(�t�4 2). Es folgt, dass 

X genau dann rekurrent ist, wenn � 

�t�2


Wir werden in Kapitel 19.3 noch eine weitere, strukturell völlig andere Methode 

kennen lernen, um den Satz von Pólya zu beweisen, die auf dem Zusammenhang 

von Irrfahrten mit elektrischen Netzwerken beruht. 

Tatsächlich können wir mit Hilfe des Satzes von Chung-Fuchs die Greenfunktion 

GD(0, 0) der symmetrischen einfachen Irrfahrt auf ZD berechnen, indem wir das 

so genannte Watson Integral 

GD(0, 0) = (2π) −D 

� 

(−π,π] D 

D 

dx (17.24) 

D − (cos(x1)+...+cos(xD)) 

numerisch berechnen. Hierzu folgen wir [81] (wo sich auch noch eine Verfeinerung 

des Verfahrens findet) und führen das D-fache Integral auf ein zweifaches zurück. 

Indem wir die Gleichung 1 

λ = � ∞ 

0 e−λt dt für den Integranden benutzen und den 

Satz von Fubini verwenden, erhalten wir 

und damit 

GD(0, 0) = D 

(2π) D 

� ∞ 

0 

e −Dt 

� � 

GD(0, 0) = D 

(−π,π] D 

e t(cos(x1)+...+cos(xD)) � 

dx dt 

� ∞ 

e 

0 

−Dt I0(t) D dt, (17.25) 

wobei I0(t) := 1 

� π 

π 0 et cos(θ) dθ die modifizierte Bessel-Funktion erster Art bezeichnet. 

Die Darstellung (17.25) lässt sich vermittels numerischer Integration in 

guter Genauigkeit schnell berechnen (siehe Tabelle 17.1). 

Für den Fall D =3hat Watson [155] die Darstellung 

G3(0, 0) = 12 18 + 12√ 2 − 10 √ 3 − 7 √ 6 

π 2 

� 

K (2 − √ 3)( √ 3 − √ �2 2) 

angegeben, wobei K(m) = � 1 � � 

2 2 −1/2 

(1 − t )(1 − mt ) dt das vollständige ellip- 

0 

tische Integral erster Ordnung mit Modul m ∈ (−1, 1) ist und eine Darstellung als 

schnell konvergierende Reihe besitzt 

K(m) = π 

� 

∞� 

� 

(2n)! 

1+ 

2 

4n (n!) 2 

�2 m 2 

� 

. 

n=1 

Glasser und Zucker [60] haben einen Ausdruck als Produkt von Gammafunktionen 

gefunden: 

√ � � � � � � � � 

6 1 5 7 11 

G3(0, 0) = Γ Γ Γ Γ =1.5163860591519780181 ... 

32π3 24 24 24 24


Tabelle 17.1. Greenfunktion GD(0, 0) und Rückkehrwahrscheinlichkeit FD(0, 0) der einfachen 

symmetrischen Irrfahrt auf Z D , numerisch berechnet mit Formel (17.25). 

D GD(0, 0) FD(0, 0) 

2 ∞ 1 

3 1.51638605915 0.34053732955 

4 1.23946712185 0.19320167322 

5 1.15630812484 0.13517860982 

6 1.11696337322 0.10471549562 

7 1.09390631559 0.08584493411 

8 1.07864701202 0.07291264996 

9 1.06774608638 0.06344774965 

10 1.05954374789 0.05619753597 

11 1.05313615291 0.05045515982 

12 1.04798637482 0.04578912090 

13 1.04375406289 0.04191989708 

14 1.04021240323 0.03865787709 

15 1.03720412092 0.03586962312 

16 1.03461657857 0.03345836447 

17 1.03236691238 0.03135214040 

18 1.03039276285 0.02949628913 

19 1.02864627888 0.02784852234 

20 1.02709011674 0.02637559869 

Übung 17.5.1. Für n ∈ N0 sei pn die Matrix der n-Schritt Übergangswahrscheinlichkeiten 

der einfachen symmetrischen Irrfahrt auf ZD . Man leite für n ∈ N die 

Formel 

p 2n (0, 0) = (2π) −D 

� 

D −2n� cos(t1)+...+cos(tD) �−2n dt 

[−π,π) D 

her (siehe Satz 15.10). Man schließe durch geeignete Abschätzung des Integrals die 

Konvergenz nD/2p2n (0, 0) n→∞ 

−→ 2(4π/D) −D/2 (siehe (17.18)). ♣ 

Übung 17.5.2. Man zeige (17.21) formal. ♣ 

Übung 17.5.3. Man zeige mit Hilfe von Satz 17.41, dass eine Irrfahrt auf Z 2 mit 

� 

� 

x∈Z2 xp(0,x)=0rekurrent ist, falls x∈Z2 �x�22 p(0,x) < ∞. ♣ 

Übung 17.5.4. Man zeige mit Hilfe von Satz 17.41, dass für D ≥ 3 jede irreduzible 

Irrfahrt auf Z D transient ist. ♣ 

Übung 17.5.5. Man zeige (17.25) für GD(0, 0) direkt mit den p 2n (0, 0) aus (17.20) 

und mit der Reihendarstellung I0(t) = � ∞ 

k=0 (k!)−2 (t/2) k . ♣


17.6 Invariante Verteilungen 

Sei im Folgenden stets p eine stochastische Matrix auf dem diskreten Raum E sowie 

(Xn)n∈N0 eine zugehörige Markovkette. 

In diesem Abschnitt interessieren wir uns dafür, welche Wahrscheinlichkeitsverteilungen 

unter der Dynamik der Markovkette erhalten bleiben. Im Kapitel 18 werden 

wir unter einfachen Bedingungen zeigen, wann die Verteilung einer Markovkette 

für lange Zeiten gegen eine solche Verteilung konvergiert. 

Definition 17.42. Ist μ ein Maß auf E und f : E → R eine Abbildung, so schreiben 

wir μp({x}) = � 

y∈E μ({y})p(y, x) und pf(x) =�y∈E 

p(x, y)f(y), falls die 

Summen konvergieren. 

Definition 17.43. (i) Ein σ-endliches Maß μ auf E heißt invariantes Maß, falls 

μp = μ. 

μ heißt invariante Verteilung, falls zudem μ(E) =1gilt. Mit I bezeichnen 

wir die Menge der invarianten Verteilungen. 

(ii) Eine Funktion f : E → R heißt subharmonisch, falls pf existiert und f ≤ pf 

gilt. f heißt superharmonisch, falls f ≥ pf gilt und harmonisch, falls f = pf. 

Bemerkung 17.44. Im Sinne der linearen Algebra ist ein invariantes Maß ein Links- 

Eigenvektor von p und eine harmonische Funktion ein Rechts-Eigenvektor, jeweils 

zum Eigenwert 1. ✸ 

Lemma 17.45. Ist f beschränkt und (sub-, super-) harmonisch, so ist (f(Xn)) n∈N0 

ein (Sub-, Super-) Martingal bezüglich der erzeugten Filtration F = σ(X). 

Beweis. Sei f beschränkt und subharmonisch. Dann ist 

Ex[f(Xn) � �Fn−1] =EXn−1 [f(X1)] = � 

p(Xn−1,y)f(y) 

y∈E 

= pf(Xn−1) ≥ f(Xn−1). ✷ 

Satz 17.46. Ist X transient, so existiert keine invariante Verteilung. 

Beweis. Nach Voraussetzung ist G(x, y) = �∞ n=0 pn (x, y) < ∞ für alle x, y ∈ E, 

also pn (x, y) n→∞ 

−→ 0. Für jedes W-Maß μ auf E ist daher μpn (x) n→∞ 

−→ 0. Wäre 

μ invariant, so wäre aber μpn (x) =μ(x) für jedes n ∈ N. ✷

17.6 Invariante Verteilungen 361 

Satz 17.47. Sei x ein rekurrenter Zustand und τ 1 x =inf{n ≥ 1: Xn = x}. Dann 

wird ein invariantes Maß μx definiert durch 

⎡ 

τ 

μx({y}) =Ex ⎣ 

1 

x−1 ⎤ 

� 

∞� � 

⎦ {Xn=y} = Px Xn = y; τ 1 x >n � . 

n=0 

Beweis. Zunächst müssen wir zeigen, dass μx({y}) < ∞ ist für jedes y ∈ E. Für 

y = x ist offenbar μx({x}) =1.Für y �= x und F (x, y) =0ist μx({y}) =0.Sei 

nun y �= x und F (x, y) > 0. Dax rekurrent ist, ist F (x, y) =F (y, x) =1, und y 

ist rekurrent (Satz 17.35). Sei 

�F (x, y) =Px 

n=0 

� 1 

τx >τ 1� y . 

Dann ist � F (x, y) > 0 (sonst würde y nicht getroffen) und nach Vertauschung der 

Rollen von x und y auch � F (y, x) > 0. 

Nach der starken Markoveigenschaft (Satz 17.14) ist 

Also ist 

Ey 

⎡ 

� 

⎣ 

τ 1 

x −1 

n=0 

Mithin ist 

⎡ 

� 

μx({y}) =Ex⎣ 

τ 1 

x −1 

n=0 

{Xn=y} 

Ey 

{Xn=y} 

⎤ ⎡ 

� 

⎦ =1+Ey ⎣ 

τ 1 

x −1 

n=τ 1 y 

� 

=1+ 1 − � � 

F (y, x) 

⎡ 

� 

⎣ 

τ 1 

x −1 

n=0 

{Xn=y} 

⎤ ⎡ 

� 

⎦ = Ex⎣ 

τ 1 

x −1 

n=τ 1 y 

⎤ 

⎦ = 

{Xn=y}; τ 1 x >τ 1 y 

Ey 

1 

�F (y, x) . 

⎡ 

� 

⎣ 

τ 1 

x −1 

n=0 

{Xn=y}; τ 1 x >τ 1 y 

⎤ 

⎦ 

{Xn=y} 

� 

Definiere pn(x, y) =Px Xn = y; τ 1 x >n � .Dannistfür jedes z ∈ E 

μx p({z}) = � 

∞� � 

μx({y}) p(y, z) = pn(x, y) p(y, z). 

y∈E 

1. Fall: x �= z. Dann ist 

� 

pn(x, y)p(y, z) = � 

y∈E 

n=0 y∈E 

� 

Px Xn = y, τ 

y∈E 

1 x >n,Xn+1 = z � 

⎤ 

⎦ . 

⎤ 

⎦= � F (x, y) 

< ∞. 

�F (y, x) 

� 1 

= Px τx >n+1;Xn+1 = z � = pn+1(x, z).


Also ist (wegen p 0(x, z) =0) 

∞� 

∞� 

∞� 

μx p({z}) = pn+1(x, z) = pn(x, z) = pn(x, z) =μx({z}). 

n=0 

2. Fall: x = z. Jetzt ist 

� 

pn(x, y)p(y, x) = � 

y∈E 

y∈E 

� 

1 Also ist (wegen Px τx =0 � =0) 

μx p({x}) = 

n=1 

n=0 

� 

Px Xn = y; τ 1 x >n; Xn+1 = x � � 1 

= Px τx = n +1 � . 

∞� 

n=0 

� 1 

Px τx = n +1 � =1=μx({x}). ✷ 

Korollar 17.48. Ist x positiv rekurrent, so wird durch π({x}) := μx 

Ex [τ 1 für x ∈ E 

x] 

eine invariante Verteilung π definiert. 

Satz 17.49. Ist X irreduzibel, so hat X höchstens eine invariante Verteilung. 

Bemerkung 17.50. Man kann auch zeigen: Ein invariantes Maß von X ist bis auf 

einen Faktor eindeutig. Der Beweis ist allerdings aufwändiger als der für invariante 

Verteilungen. Weil die Aussage hier nicht benötigt wird, verweisen wir lediglich auf 

[38, Theorem 5.4.4]. ✸ 

Beweis. Seien π und ν invariante Verteilungen. Wähle einen beliebigen Wahrscheinlichkeitsvektor 

(gn)n∈N mit gn > 0 für jedes n ∈ N. Definiere die stochastische 

Matrix �p(x, y) = �∞ n=1 gn pn (x, y). Dannist�p(x, y) > 0 für alle x, y ∈ E 

und π�p = π sowie ν�p = ν. 

Betrachte nun das signierte Maß μ = π − ν. Es gilt μ�p = μ. Wäre nun μ �= 0,so 

gäbe es (wegen μ(E) =0) Punkte x1,x2 ∈ E mit μ({x1}) > 0 und μ({x2}) < 0. 

Offensichtlich wäre für jedes y ∈ E dann � �μ({x1}) p(x1,y)+μ({x2}) p(x2,y) � � 

� 

< 

�μ({x1}) p(x1,y) � � 

� + �μ({x2}) p(x2,y) � � , also 

� � 

� μ�p �TV = � 

� 

� � 

� 

� 

� 

� μ({x})�p(x, y) � 

� 

y∈E x∈E 

< � � 

|μ({x})| �p(x, y) = � 

|μ({x})| = � μ �TV. 

y∈E x∈E 

Da dies widersprüchlich ist, gilt μ =0. ✷ 

Es sei daran erinnert, dass I die Menge der invarianten Verteilungen von X ist. 

x∈E

17.6 Invariante Verteilungen 363 

Satz 17.51. Sei X irreduzibel. X ist genau dann positiv rekurrent, wenn I �= ∅ 

ist. In diesem Fall ist I = {π} mit 

π({x}) = 

1 

Ex[τ 1 > 0 für jedes x ∈ E. 

x] 

Beweis. Ist X positiv rekurrent, so ist I �= ∅ nach Korollar 17.48. Sei nun I �= ∅ 

und π ∈ I.DaX irreduzibel ist, ist π({x}) > 0 für jedes x ∈ E. SeiPπ = 

� 

x∈E π({x})Px.Seix ∈ E fest und für n ∈ N0 

σ n x =sup � m ≤ n : Xm = x � ∈ N0 ∪{−∞} 

die letzte Eintrittszeit in x bis zur Zeit n. (Man bemerke, dass dies keine Stoppzeit 

ist.) Nach der Markoveigenschaft gilt dann für k ≤ n 

� 

Xk = x, Xk+1 �= x,...,Xn �= x � 

Pπ [σ n x = k] =Pπ 

� 

= Pπ Xk+1 �= x,...,Xn �= x|Xk = x � Pπ[Xk = x] 

� 

= π({x}) Px X1,...,Xn−k �= x � 

� 1 

= π({x}) Px τx ≥ n − k +1 � . 

� 

1 Also ist für jedes n ∈ N0 (wegen Py τx < ∞ � =1für jedes y ∈ E) 

1= 

n� 

k=0 

= π({x}) 

Pπ [σ n x = k]+Pπ [σ n x = −∞] 

n� 

k=0 

n→∞ 

−→ π({x}) 

� 1 

Px τx ≥ n − k +1 � � 1 

+ Pπ τx ≥ n +1 � 

∞� 

k=1 

� 1 

Px τx ≥ k � � � 1 

= π({x}) Ex τx . 

� � 

1 1 

Mithin ist Ex τx = π({x}) < ∞, und damit ist X positiv rekurrent. ✷ 

Übung 17.6.1. Betrachte die Markovkette aus Abb. 17.1 (Seite 350). Man bestimme 

die Menge aller invarianten Verteilungen und zeige, dass die Zustände 6, 7 und 8 

positiv rekurrent sind mit erwarteten Eintrittszeiten 

E6[τ6] = 17 

4 , E7[τ7] = 17 

5 

und E8[τ8] = 17 

. ♣ 

5


Übung 17.6.2. Sei X =(Xt)t≥0 eine Markovkette auf E in stetiger Zeit mit Q- 

Matrix q. Man zeige: Ein Wahrscheinlichkeitsmaß π auf E ist genau dann eine invariante 

Verteilung für X,wenn � 

x∈E π({x})q(x, y) =0für alle y ∈ E. ♣ 

Übung 17.6.3. Sei G eine abzählbare, abelsche Gruppe und p die Übergangsmatrix 

einer irreduziblen Irrfahrt X auf G, das heißt, es gilt p(hg, hf) =p(h, f) für alle 

h, g, f ∈ G. (Dies verallgemeinert den Begriff der Irrfahrt auf Z D .) Man zeige mit 

Hilfe von Satz 17.51: X ist genau dann positiv rekurrent, wenn G endlich ist. ♣ 

Übung 17.6.4. Sei r ∈ [0, 1] und X die Markovkette auf N0 mit Übergangsmatrix 

(siehe Abb. 17.2 auf Seite 351) 

⎧ 

1, falls x =0 und y =1, 

⎪⎨ r, falls y = x +1≥ 2, 

p(x, y) = 

1 − r, falls y = x − 1, 

⎪⎩ 

0, sonst. 

Man bestimme das invariante Maß und zeige mit Hilfe von Satz 17.51: 

(i) Ist r ∈ � 0, 1 

� 

2 ,soistXpositiv rekurrent. 

(ii) Ist r = 1 

2 ,soistXnullrekurrent. (iii) Ist r ∈{0}∪ � 1 

2 , 1� ,soistXtransient. ♣

18 Konvergenz von Markovketten 

Wir betrachten eine Markovkette X mit invarianter Verteilung π und untersuchen 

unter welchen Bedingungen die Verteilung von Xn für n →∞gegen π konvergiert. 

Im Wesentlichen ist dafür notwendig und hinreichend, dass der Zustandsraum der 

Kette nicht in Unterräume zerfällt, die 

– von der Kette nicht verlassen werden, 

– oder von der Kette beispielsweise nur für ungerade n beziehungsweise gerade n 

besucht werden. 

Im ersten Fall wäre die Kette reduzibel, im zweiten hingegen periodisch. 

Wir untersuchen Periodizität von Ketten im ersten Abschnitt und zeigen im zweiten 

den Konvergenzsatz. Im dritten Abschnitt beschäftigen wir uns mit Anwendungen 

des Konvergenzsatzes für Computersimulationen mit der so genannten Markovketten 

Monte Carlo Methode. Im letzten Abschnitt beschreiben wir die Geschwindigkeit 

der Konvergenz gegen das Gleichgewicht mit Hilfe des Spektrums 

der Übergangsmatrix. 

18.1 Periodizität von Markovketten 

Wir untersuchen, unter welchen Bedingungen eine Markovkette X auf dem abzählbaren 

Raum E (und mit Übergangsmatrix p), die in einem beliebigen μ ∈M1(E) 

gestartet wird, in Verteilung gegen eine invariante Verteilung π konvergiert, also 

μp 

n n→∞ 

−→ π gilt. Sicherlich ist hierzu notwendig, dass π die einzige invariante 

Verteilung ist, und damit bis auf Vielfache der einzige Links-Eigenvektor von p zum 

Eigenwert 1. Hierfür ist ausreichend, dass die Kette irreduzibel ist (Satz 17.49). 

n n→∞ 

Es sind gewisse Kontraktionseigenschaften von p notwendig, damit μp −→ π 

für jedes μ ∈ M1(E) gelten kann. Offenbar ist 1 der betragsmäßig größte Eigenwert 

von p. Allerdings ist p nur dann (ausreichend) kontrahierend, wenn die 

Vielfachheit dieses Eigenwertes genau 1 ist und keine weiteren (komplexwertigen) 

Eigenwerte mit Betrag 1 existieren. 

Für die letztgenannte Bedingung ist die Irreduzibilität der Kette nicht hinreichend, 

wie wir sehen, wenn wir auf E = {0,...,N − 1} die Markovkette mit Übergangs-

366 18 Konvergenz von Markovketten 

matrix p(x, y) = {y=x+1(mod N)} betrachten. Der Eigenwert 1 hat die Vielfachheit 

1. Jedoch sind alle N-ten Einheitswurzeln eik/N , k =0,...,N − 1, ebenfalls Eigenwerte 

mit Betrag 1. Offenbar ist die Gleichverteilung auf E invariant, jedoch 

existiert lim 

n→∞ δxpn für kein x ∈ E, denn jeder Punkt wird periodisch immer nur 

nach jeweils genau N Schritten besucht. Um Konvergenz zu erzielen, müssen wir 

also zunächst Periodizität untersuchen (und ausschließen). Hernach können wir für 

irreduzible aperiodische Markovketten einen Konvergenzsatz angeben. 

Sind m, n ∈ N, so schreiben wir m � �n, falls m ein Teiler von n ist, also falls n 

m ∈ N. 

Ist M ⊂ N, so schreiben wir ggT(M) für den größten gemeinsamen Teiler aller 

n ∈ M. Sei im Folgenden stets X eine Markovkette auf dem abzählbaren Raum E 

mit Übergangsmatrix p. 

Definition 18.1. (i) Für x, y ∈ E schreiben wir 

N(x, y) := � n ∈ N0 : p n (x, y) > 0 � . 

Für jedes x ∈ E heißt dx := ggT(N(x, x)) die Periode des Punktes x. 

(ii) Ist dx = dy für alle x, y ∈ E,soheißtd := dx die Periode von X. 

(iii) Ist dx =1 für jedes x ∈ E, so heißt X aperiodisch. 

1 

1 

Abb. 18.1. Die linke Markovkette ist periodisch mit Periode 2, die rechte Markovkette ist 

aperiodisch. 

1/2 

1/2 

Lemma 18.2. Für jedes x ∈ E existiert ein nx ∈ N mit 

1/2 

1/2 

1/2 

1/2 

p ndx (x, x) > 0 für jedes n ≥ nx. (18.1) 

Beweis. Seien k1,...,kr ∈ N(x, x) mit ggT({k1,...,kr}) =dx.Dannistfür alle 

m1,...,mr ∈ N0 auch �r i=1 ki mi ∈ N(x, x). Elementare Zahlentheorie liefert 

uns nun, dass für jedes n ≥ nx := r · �r i=1 (ki/dx) Zahlen m1,...,mr ∈ N0 

existieren mit ndx = �r i=1 ki mi. Also gilt (18.1). ✷

3 

1/2 1/2 

2 

1 

1 

18.1 Periodizität von Markovketten 367 

1 1 

4 1 

8 

7 

Abb. 18.2. Es ist N(8, 8) = {6, 10, 12, 14, 16,...}, also d8 := ggT({6, 10, 12,...}) =2 

und n8 =5. Die Kette hat also Periode 2. Hingegen ist n1 =2und n4 =4. 

Das Problem, die kleinste Zahl N zu finden, sodass sich jedes ndx, n ≥ N als 

nichtnegative ganzzahlige Linearkombination von k1,...,kr darstellen lässt, wird 

Frobenius Problem genannt. Die allgemeine Lösung ist unbekannt, allerdings hat 

Sylvester [150] für den Fall r =2gezeigt, dass N =(k1/dx − 1)(k2/dx − 1) 

minimal ist. Im allgemeinen Fall ist als obere Schranken für N beispielsweise 

2max{ki : i =1,...,r} 2 /(rd 2 x) bekannt, siehe etwa [44]. 

Lemma 18.3. Sei X irreduzibel. Dann gelten: 

(i) d := dx = dy für alle x, y ∈ E. 

(ii) Für alle x, y ∈ E existieren nx,y ∈ N und Lx,y ∈{0,...,d− 1} mit 

5 

nd + Lx,y ∈ N(x, y) für jedes n ≥ nx,y. (18.2) 

Lx,y ist eindeutig bestimmt, und es gilt 

Lx,y + Ly,z + Lz,x =0(modd) für alle x, y, z ∈ E. (18.3) 

Beweis. (i) Seien m, n ∈ N0 mit p m (x, y) > 0 und p n (y, z) > 0. Dannist 

Also gilt 

p m+n (x, z) ≥ p m (x, y) p n (y, z) > 0. 

N(x, y)+N(y, z) := � m + n : m ∈ N(x, y), n∈ N(y, z) � ⊂ N(x, z). (18.4) 

Sind speziell m ∈ N(x, y), n ∈ N(y, x) und k ≥ ny, soistkdy � ∈ N(y, y), also 

m + kdy ∈ N(x, y) und m + n + kdy ∈ N(x, x). Es folgt dx�(m 

� 

� 

+ n + kdy) für 

jedes k ≥ ny, also dx�dy. 

Analog erhalten wir dy�dx, 

also dx = dy. 

(ii) Sei m ∈ N(x, y). Dannistm + kd ∈ N(x, y) für jedes k ≥ nx. Also gilt 

(18.2) mit 

� 

m 

� 

nx,y := nx + 

d 

und 

� 

m 

� 

Lx,y := m − d . 

d 

Wegen (18.4) ist 

1 

1 

6


(nx,y + ny,z)d + Lx,y + Ly,z ∈ N(x, z). 

Mit z = x folgt: d � � (Lx,y + Ly,x), also ist Lx,y eindeutig in {0,...,d− 1} und 

Lx,y = −Ly,x (mod d). Für allgemeines z folgt: d � � (Lx,y + Ly,z + Lz,x), also gilt 

(18.3). ✷ 

Satz 18.4. Sei X irreduzibel mit Periode d. Dann existiert eine disjunkte Zerlegung 

des Zustandsraums 

mit der Eigenschaft 

E = 

d−1 � 

i=0 

Ei 

(18.5) 

p(x, y) > 0 und x ∈ Ei =⇒ y ∈ E i+1 (mod d). (18.6) 

Bis auf zyklische Vertauschung ist diese Zerlegung eindeutig. 

E2 

E0 

Abb. 18.3. Markovkette mit Periode d =3. 

Die Eigenschaft (18.6) besagt gerade, dass X die Mengen Ei nacheinander besucht 

und zu jedem Zeitschritt in das nächste Ei wechselt (siehe Abb. 18.3 oder Abb. 18.2, 

wo d =2, E0 = {1, 3, 5, 7} und E1 = {2, 4, 6, 8} ist). � Etwas formaler können � wir 

dies schreiben als: Ist x ∈ Ei für gewisses i, soistPxXn 

∈ Ei+n (mod d) =1. 

Beweis. ” Existenz“ Wähle ein beliebiges x0 ∈ E und setze 

Ei := � y ∈ E : Lx0,y = i � 

für i =0,...,d− 1. 

Offenbar gilt (18.5). Sei i ∈{0,...,d− 1} und x ∈ Ei. Isty ∈ E mit p(x, y) > 0, 

so ist Lx,y =1, also ist Lx0,y = Lx0,x + Lx,y = i +1(modd). 

” Eindeutigkeit“ Sei ( � Ei, i =0,..., � d − 1) eine weitere Zerlegung, die (18.5) 

und (18.6) erfüllt. Ohne Einschränkung sei E0 ∩ � E0 �= ∅ (sonst vertausche die � Ei 

zyklisch bis dies gilt) und x0 ∈ E0 ∩ � E0 beliebig. Nach Voraussetzung impliziert 

E1

18.2 Kopplung und Konvergenzsatz 369 

p(x0,y) > 0 nun y ∈ E1 und y ∈ � E1, also y ∈ E1 ∩ � E1. Iterativ erhalten wir, dass 

pnd+i (x, y) > 0 impliziert, dass y ∈ Ei ∩ � Ei (für n ∈ N und i =0,...,d− 1). 

Da die Kette irreduzibel ist, existieren aber für jedes y ∈ E Zahlen n(y) und i(y), 

sodass pn(y) d+i(y) (x0,y) > 0, also y ∈ Ei(y) ∩ � Ei(y). Mithin gilt Ei = � Ei für jedes 

i =0,...,d− 1. ✷ 

18.2 Kopplung und Konvergenzsatz 

Es ist oftmals nützlich, einen gemeinsamen Wahrscheinlichkeitsraum für zwei Verteilungen 

anzugeben, sodass die jeweiligen Verteilungen sich als die Randverteilungen 

ergeben. Wir stellen zunächst das Prinzip der Kopplung abstrakt vor und geben 

dann Beispiele an. Schließlich wenden wir die Begriffe auf Markovketten an. 

Definition 18.5. Sind (E1, E1,μ1) und (E2, E2,μ2) Wahrscheinlichkeitsräume, so 

heißt jedes W-Maß μ auf (E1×E2, E1⊗E2) mit μ( · ×E2) =μ1 und μ(E1× · )=μ2 

eine Kopplung von μ1 und μ2. 

Beispiel 18.6. Seien X eine reelle Zufallsvariable und f,g : R → R monoton wachsende 

Funktionen mit E[f(X) 2 ] < ∞ und E[g(X) 2 ] < ∞. Wir wollen zeigen, dass 

die Zufallsvariablen f(X) und g(X) nichtnegativ korreliert sind. 

Sei dazu Y eine unabhängige Kopie von X, also eine von X unabhängige Zufallsvariable 

mit PY = PX. Speziell ist E[f(X)] = E[f(Y )] und E[g(X)] = E[g(Y )]. 

Für alle Zahlen x, y ∈ R ist (f(x) − f(y))(g(x) − g(y)) ≥ 0. Alsoist 

0 ≤ E �� f(X) − f(Y ) �� g(X) − g(Y ) �� 

= E[f(X)g(X)] − E[f(X)] E[g(Y )] + E[f(Y )g(Y )] − E[f(Y )] E[g(X)] 

=2Cov[f(X),g(X)]. ✷ 

Beispiel 18.7. Sind μ, ν ∈M1(Rd ), so schreiben wir μ � ν, falls � fdμ≤ � fdν 

für jede monoton wachsende, beschränkte Funktion f : Rd → R. Wir sagen dann, 

dass ν stochastisch größer als μ ist. Offenbar ist � eine Halbordnung auf M1(Rd ). 

Sind F1 und F2 die Verteilungsfunktionen von μ1 und μ2, so ist offenbar μ1 � 

μ2 genau dann, wenn F1(x) ≥ F2(x) für jedes x ∈ Rd . (Einen Überblick über 

verschiedene stochastische Ordnungen findet man beispielsweise in [116].) 

Wir zeigen jetzt, dass genau dann μ � ν gilt, wenn es eine Kopplung ϕ von μ1 und 

μ2 gibt mit ϕ(L) =1,woL := {x =(x1,x2) ∈ Rd × Rd : x1 ≤ x2}. 

Sei ϕ eine solche Kopplung. Für monoton wachsendes, beschränktes f : Rd → R 

ist f(x1) − f(x2) ≤ 0 für jedes x =(x1,x2) ∈ L, also � fdμ1− � fdμ2 � � = 

f(x1) − f(x2) � ϕ(dx) ≤ 0 und damit μ1 � μ2. 

L 

Gilt andererseits μ1 � μ2, so wird durch F ((x1,x2)) := min(F1(x1),F2(x2)) eine 

Verteilungsfunktion auf R d × R d definiert, die zu einer Kopplung ϕ mit ϕ(L) =1 

gehört. ✸


Beispiel 18.8. Sei (E,ϱ) ein polnischer Raum. Für zwei W-Maße P und Q auf 

(E,B(E)) schreiben wir K(P, Q) ⊂M1(E × E) für die Menge der Kopplungen 

von P und Q. Wirkönnen dann einen Abstand, die so genannte Wasserstein 

Metrik, aufM1(E) definieren durch 

� � 

� 

dW (P, Q) :=inf ϱ(x, y) ϕ(d(x, y)) : ϕ ∈ K(P, Q) . (18.7) 

Man kann zeigen (Satz von Kantorovich-Rubinstein [85], siehe auch [37, Seite 

420ff]), dass 

� � 

� 

dW (P, Q) =sup fd(P − Q) : f ∈ Lip1(E; R) . (18.8) 

Man vergleiche diese Darstellung der Wasserstein Metrik mit derjenigen der Totalvariationsnorm: 

� � 

�P − Q�TV =sup fd(P − Q) : f ∈L ∞ � 

(E) mit �f�∞ ≤ 1 . (18.9) 

Tatsächlich können wir auch hier eine Definition durch eine Kopplung angeben: Sei 

D := {(x, x) : x ∈ E} die Diagonale in E × E.Dannist 

�P − Q�TV =inf � ϕ((E × E) \ D) : ϕ ∈ K(P, Q) � . (18.10) 

Siehe [59] für einen Vergleich verschiedener Metriken auf M1(E). ✸ 

Ein weiteres Beispiel für eine komplexere Kopplung liefert der folgende Satz von 

Skorohod, den wir hier nur zitieren. 

Satz 18.9 (Skorohod Kopplung). Es seien μ, μ1,μ2,... W-Maße auf einem pol- 

n→∞ 

nischen Raum E mit μn −→ μ. Dann existiert ein Wahrscheinlichkeitsraum 

(Ω,A, P) mit Zufallsvariablen X, X1,X2,... mit PX = μ und PXn = μn 

n→∞ 

jedes n ∈ N sowie Xn −→ X fast sicher. 

für 

Beweis. Siehe etwa [84, Seite 79]. ✷ 

Wir wollen die Kopplung diskreter Markovketten betrachten, die in unterschiedlichen 

Verteilungen μ und ν gestartet werden. Im Folgenden sei E stets ein abzählbarer 

Raum und p eine stochastische Matrix auf E. 

Definition 18.10. Eine bivariate Markovkette ((Xn,Yn))n∈N0 mit Werten in E × E 

heißt eine Kopplung, falls (Xn)n∈N0 und (Yn)n∈N0 Markovketten mit Übergangsmatrix 

p sind. 

Eine Kopplung heißt erfolgreich, falls P (x,y)[Xn �= Yn] n→∞ 

−→ 0 für alle x, y ∈ E.


Diese Definition der Kopplung von Markovketten ist in gewisser Weise sehr restriktiv, 

weil sie die Markoveigenschaft auch wieder für den gekoppelten Prozess fordert. 

Für die Anwendungen, die wir im Sinne haben, reicht dies aber völlig aus. 

Natürlich sind zwei unabhängig laufende Ketten eine Kopplung, allerdings vielleicht 

nicht die interessanteste. 

Beispiel 18.11 (Unabhängiges Verschmelzen). Die wichtigste Kopplung sind die 

verschmelzenden Markovketten: Wir lassen X und Y unabhängig voneinander mit 

Übergangsmatrix p laufen, so lange bis sie sich das erste Mal treffen. Danach laufen 

die Ketten gemeinsam weiter. Diese Kopplung nennen wir unabhängiges Verschmelzen, 

sie hat die Übergangsmatrix 

¯p � (x1,y1), (x2,y2) � ⎧ 

⎪⎨ p(x1,x2) · p(y1,y2), falls x1 �= y1, 

= 

p(x1,x2), falls x1 = y1, x2 = y2, 

⎪⎩ 

0, falls x1 = y1, x2�= y2. 

Mit τ := inf{n ∈ N0 : Xn = Yn} bezeichnen wir den Verschmelzungszeitpunkt. 

Wir können die Kopplung tatsächlich aus zwei unabhängigen Ketten ˜ X und ˜ Y herstellen, 

indem wir X := ˜ X setzen, ˜τ := inf{n ∈ N0 : ˜ Xn = ˜ Yn} und 

� 

˜Yn, falls n


einem Beispiel gezeigt, dass wir auf die räumliche Homogenität nicht leicht verzichten 

können, wenn wir eine erfolgreiche Kopplung haben möchten. Der Verzicht 

auf Rekurrenz fällt leichter, wie der folgende Satz zeigt. 

Satz 18.13. Sei X eine beliebige aperiodische und irreduzible Irrfahrt auf Z d mit 

Übergangsmatrix p. Dann existiert eine erfolgreiche Kopplung (X, Y ). 

Der Beweis ist etwas technisch und kann beim ersten Lesen ausgelassen werden. 

Beweis. Sei zunächst der Fall d =1betrachtet. Für jedes L ∈ N definieren wir die 

Übergangsmatrix ˇpL einer Irrfahrt auf Z durch 

� 

ˇpL(x, y) = 

p(x, z) p(y, z), falls x �= y, 

z∈Z: |z−y|≤L, |z−x|≤L 

und ˇpL(x, x) =1− � 

y�=x ˇpL(x, y). 

Offenbar ist ˇpL stets aperiodisch. Wähle nun L so groß, dass ˇpL irreduzibel ist. 

(Dass dies geht, zeigt die folgende Überlegung: Da p aperiodisch und irreduzibel 

ist, gibt es zu jedem x ∈ Z ein Nx ∈ N mit p (n) (0,x) > 0 für n ≥ Nx. Für 

n ≥ N0 ∨ Nx ist dann ˇp (n) (0,x) > 0, wobei ˇp =ˇp∞ die Symmetrisierung von p 

ist, denn 

Wegen ˇp (n) 

L 

p (n) (0,x)=((p (n) ) T p (n) )(0,x) ≥ (p (n) ) T (0, 0) p (n) (0,x) > 0. 

(0,x) L→∞ 

−→ ˇp (n) (0,x), gilt für hinreichend großes L und n ≥ N0 ∨ 

N−1 ∨ N1, dassˇp (n) 

L (0, −1) > 0, ˇp(n) 

L (0, 0) > 0, und ˇp(n) 

L (0, 1) > 0. Mithin ist ˇpL 

irreduzibel.) 

Wir konstruieren die Kopplung (X, Y ), indem wir X und Y alle Sprünge der Weite 

größer als L gemeinsam ausführen lassen, diejenigen von kürzerer Weite jedoch unabhängig, 

solange bis X und Y sich treffen und dann verschmelzen. Wir betrachten 

also als Übergangsmatrix für die nicht verschmelzende Kette ( ˜ X, ˜ Y ) 

˜pL((x1,y1), (x2,y2)) 

⎧ 

⎪⎨ 

p(x1,x2) p(y1,y2), falls |x1 − x2| ≤L, |y1 − y2| ≤L, 

= 

⎪⎩ 

p(x1,x2), 

0, 

falls |x1 − x2| >Lund y1 − y2 = x1 − x2, 

sonst. 

Schließlich sei (X, Y ) die nach Zeit τ := inf{n ∈ N0 : ˜ Xn = ˜ Yn} verschmelzende 

Kette, also X = ˜ X und Yn = ˜ Yn für n ≤ τ und Yn = Xn für n ≥ τ. Offenbarist 

(X, Y ) eine Kopplung der Ketten mit Übergangsmatrix p. 

Nach Konstruktion ist die Differenz ( ˜ Xn − ˜ Yn)n∈N0 eine Irrfahrt mit Übergangsmatrix 

ˇpL, also eine symmetrische irreduzible, aperiodische Irrfahrt mit beschränkter 

Sprungweite und damit rekurrent. Für x, y ∈ Z gilt daher


� � � 

P (x,y) Xn �= Yn = Px−y 

˜Xk �= ˜ Yk für alle k ≤ n � n→∞ 

−→ 0. 

Wir behandeln jetzt den allgemeinen Fall d ∈ N, indem wir die einzelnen Koordinaten 

nacheinander koppeln. Um dies rigoros zu machen, müssen wir etwas 

Notationsaufwand treiben. Für x = (x 1 ,...,x d ) und k = 1,...,d − 1 sei 

ˆx k =(x 1 ,...,x k ) und ˇx k =(x k+1 ,...,x d ). Wir setzen pk(x, ˆy k )=pk(ˆx k , ˆy k )= 

� 

ˇy k ∈Z d−k p(x, y), sowiepk(x, (ˇy k | ˆy k )) = p(x, y)/p(x, ˆy k ). Diese Schreibweise 

soll suggerieren, dass es sich um die bedingte Wahrscheinlichkeit handelt, von x 

nach y zu springen, gegeben, dass wir schon wissen, dass die ersten k Koordinaten 

des Ziels durch ˆy k gegeben sind. 

Wir setzen noch formal ˆx 0 = ˇxd = 0, ˆx d = ˇx0 = x, p0(x, ˆy 0 ) = 1 und 

p0(x, (ˇy 0 | ˆy 0 )) = p(x, y) sowie l(x) :=max � k ∈{0,...,d} : ˆxk =0 � .Sei 

jetzt für L ∈ N die Matrix ˇpL,k definiert durch 

� k k 

ˇpL,k ˇx , ˇy � = 

� � � � � � k k k k k k k 

pk 0, (ˇz − ˇx | ˆz ) pk 0, (ˇz − ˇy | ˆz ) pk 0, ˆz � , 

z∈Z d 

�ˇz k −ˇx k �∞≤L 

�ˇz k −ˇy k �∞≤L 

falls ˇx k �=ˇy k und ˇpL,k(ˇx k , ˇx k )=1− � 

ˇy k �=ˇx k 

ˇpL,k(ˇx k , ˇy k ). 

Wir nehmen an, dass L groß genug gewählt ist, dass alle ˇpL,k irreduzibel sind. Setze 

nun noch 

� 

(x1,y1), (x2,y2) � = 

˜pL,k 

⎧ 

⎪⎨ 

⎪⎩ 

� 

k p(x1,x2) pk ˆy 1 , (ˇy k 2 | ˆy k 2 ) � , falls ˆy k 1 − ˆy k 2 =ˆx k 1 − ˆx k 2 

und �ˇy k 1 − ˇy k 2�∞ ≤ L, �ˇx k 1 − ˇx k 2�∞ ≤ L, 

p(x1,x2), falls y2 − y1 = x2 − x1 

und �ˇx k 1 − ˇx k ∞�2 >L, 

0, sonst. 

Schließlich definieren wir die Übergangsmatrix q von (X, Y ) durch 

q � (x1,y1), (x2,y2) � � 

=˜p L,l(y1−x1) (x1,y1), (x2,y2) � . 

Die Zahl l(Xn − Yn) gibt an, wie viele Koordinaten schon gekoppelt sind. Sind 

schon genau k Koordinaten gekoppelt, so wird ˜pL,k als Übergangsmatrix genommen. 

Unter dieser Matrix bleiben die ersten k Koordinaten gekoppelt. Sei τk := 

inf{n ∈ N0 : l(Xn − Yn) =k}. Zwischen τk und τk+1 ist ( ˇ Y k n − ˇ X k n)n∈N eine 

Irrfahrt mit Übergangsmatrix ˇpL,k, also symmetrisch, irreduzibel und mit endlicher 

Sprungweite. Damit ist jede einzelne Koordinate eine rekurrente Irrfahrt und insbesondere 

τk+1 < ∞ fast sicher. Es folgt, dass für alle x, y ∈ Z d gilt 

P (x,y)[Xn �= Yn] =P (x,y)[τd >n] n→∞ 

−→ 0. ✷


Satz 18.14. Sei X eine Markovkette auf E mit Übergangsmatrix p. Existiert eine 

erfolgreiche Kopplung, so ist jede beschränkte, harmonische Funktion konstant. 

Beweis. Sei f : E → R beschränkt und harmonisch, also pf = f. Seien x, y ∈ E, 

und sei (X, Y ) eine erfolgreiche Kopplung. Nach Lemma 17.45 sind (f(Xn))n∈N0 

und (f(Yn))n∈N0 Martingale, also gilt 

f(x) − f(y) =E (x,y)[f(Xn) − f(Yn)] ≤ 2�f�∞ P (x,y)[Xn �= Yn] n→∞ 

−→ 0. ✷ 

Korollar 18.15. Ist X eine irreduzible Irrfahrt auf Z d , so ist jede beschränkte, harmonische 

Funktion konstant. 

Diese Aussage gilt allgemeiner, wenn wir Z d durch eine lokalkompakte, abelsche 

Gruppe ersetzen und geht in dieser Form auf Choquet und Deny [26] zurück, siehe 

auch [136]. 

Beweis. Ist p die Übergangsmatrix von X, sosei¯ X eine Markovkette mit Übergangsmatrix 

¯p(x, y) = 1 

1 

2p(x, y)+ 2 {x}(y). Offenbar haben X und ¯ X die selben 

harmonischen Funktionen. Nun ist aber ¯ X eine aperiodische, irreduzible Irrfahrt, 

besitzt also nach Satz 18.13 eine erfolgreiche Kopplung für alle Startpunkte. ✷ 

Satz 18.16. Sei p die Übergangsmatrix einer irreduziblen, positiv rekurrenten, aperiodischen 

Kette auf E. Dann ist die verschmelzende Kette eine erfolgreiche Kopplung. 

Beweis. Seien ˜ X und ˜ Y zwei unabhängige Markovketten auf E mit Übergangsmatrix 

p. Dann hat die bivariate Markovkette Z := ((Xn,Yn))n∈N0 die Übergangsmatrix 

�p, die durch 

�p � (x1,y1), (x2,y2) � = p(x1,x2) · p(y1,y2) 

definiert wird. Wir zeigen zunächst, dass die Matrix �p irreduzibel ist. Nur an dieser 

Stelle benötigen wir die Aperiodizität von p. Seien also (x1,y1), (x2,y2) ∈ E × E 

gegeben. Dann existiert nach Lemma 18.2 ein m0 ∈ N mit 

p n (x1,x2) > 0 und p n (y1,y2) > 0 für jedes n ≥ m0. 

Für n ≥ m0 ist daher �p n� (x1,y1), (x2,y2) � > 0.Alsoist�p irreduzibel. 

Wir definieren nun die Stoppzeit τ des ersten Eintreffens von ( ˜ X, ˜ Y ) in der Diagonalen 

D := {(x, x) : x ∈ E} durch τ := inf � n ∈ N0 : ˜ Xn = ˜ � 

Yn .Seiπdie invariante 

Verteilung von ˜ X. Offenbar ist dann das Produktmaß π ⊗ π ∈M1(E × E) 

eine (und damit die) invariante Verteilung von ( ˜ X, ˜ Y ). Nach Satz 17.51 ist daher 

( ˜ X, ˜ Y ) positiv rekurrent, also insbesondere rekurrent. Mithin gilt P (x,y)[τ


Satz 18.17. Sei X eine Markovkette mit Übergangsmatrix p, zu der eine erfolgreiche 

Kopplung existiert. Für alle μ, ν ∈M1(E) gilt dann � � n (μ − ν)p � � n→∞ 

−→ 0. 

TV 

Ist � speziell X aperiodisch und positiv rekurrent mit invarianter Verteilung π, so gilt 

�Lμ[Xn] − π � � n→∞ 

−→ 0 für jedes μ ∈M1(E). 

TV 

Beweis. Es reicht, den Fall μ = δx, ν = δy für gewisse x, y ∈ E zu betrachten. 

Summation über x und y liefert dann den allgemeinen Fall. Sei (Xn,Yn)n∈N0 eine 

erfolgreiche Kopplung. Dann ist 

� 

� (δx − δy)p n�� ≤ 2 P 

TV (x,y)[Xn �= Yn] n→∞ 

−→ 0. ✷ 

Wir fassen den Zusammenhang von Aperiodizität und Verteilungskonvergenz von 

X im folgenden Satz zusammen. 

Satz 18.18 (Konvergenzsatz für Markovketten). Sei X eine irreduzible, positiv 

rekurrente Markovkette auf E mit invarianter Verteilung π. Dann sind äquivalent: 

(i) X ist aperiodisch. 

(ii) Für jedes x ∈ E gilt 

� 

� Lx[Xn] − π � � TV 

(iii) Für ein x ∈ E gilt (18.11). 

(iv) Für jedes μ ∈M1(E) gilt � � 

� n μp − π�TV n→∞ 

−→ 0. (18.11) 

n→∞ 

−→ 0. 

Beweis. Die Implikationen (iv) ⇐⇒ (ii) =⇒ (iii) sind klar. Die Implikation 

(i) =⇒ (ii) wurde in Satz18.17 gezeigt. Wir zeigen also (iii) =⇒ (i). 

” (iii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Hat X die Periode d ≥ 2, und 

ist n ∈ N kein Vielfaches von d, so ist nach Satz 17.51 

� 

�δxp n − π � � ≥|p 

TV n (x, x) − π({x})| = π({x}) > 0. 

� 

Für jedes x ∈ E gilt daher lim sup �δxp n→∞ 

n − π � � > 0, folglich gilt (iii) nicht. ✷ 

TV 

Übung 18.2.1. Sei dP die Prohorov-Metrik (siehe (13.3) und Übung 13.2.1). Man 

zeige: dP (P, Q) ≤ � dW (P, Q) für alle P, Q ∈M1(E). HatE endlichen Durchmesser 

diam(E), soistdW (P, Q) ≤ (diam(E) +1)dP (P, Q) für alle P, Q ∈ 

M1(E). ♣ 

Übung 18.2.2. Man zeige durch eine direkte Rechnung, dass der in Beispiel 18.11 

aus ˜ X und ˜ Y hergestellte Prozess (X, Y ) eine Kopplung mit Übergangsmatrix ¯p ist. 

♣


Übung 18.2.3. Sei X eine beliebige aperiodische, irreduzible, rekurrente Irrfahrt 

auf Z d . Man zeige, dass dann zu je zwei Startpunkten die unabhängige Verschmelzung 

eine erfolgreiche Kopplung ist. 

Hinweis: Man zeige, dass die Differenz zweier rekurrenter Irrfahrten stets wieder 

rekurrent ist. ♣ 

Übung 18.2.4. Sei X eine Markovkette auf Z2 mit Übergangsmatrix 

⎧ 

1 

4 

⎪⎨ 

p((x1,x2), (y1,y2)) = 

⎪⎩ 

, falls x1 =0, �y − x�2 =1, 

1 

4 , falls x1 �= 0und y1 = x1 ± 1, x2 = y2, 

1 

2 , falls x1 �= 0und y1 = x1, x2 = y2, 

0, sonst. 

Anschaulich ist dies die symmetrische einfache Irrfahrt, bei der alle senkrechten 

Übergänge außerhalb der senkrechten Koordinatenachse blockiert werden. Man zeige, 

dass X nullrekurrent, irreduzibel und aperiodisch ist, und dass die unabhängige 

Verschmelzung keine erfolgreiche Kopplung ist. ♣ 

18.3 Markovketten Monte Carlo Methode 

Es sei E eine endliche Menge und π ∈M1(E) mit π(x) :=π({x}) > 0 für jedes 

x ∈ E. Wir betrachten das Problem, eine Zufallsvariable Y mit Verteilung π mit 

dem Computer zu generieren. Dies ist etwa dann relevant, wenn E eine sehr große 

Menge ist und Summen vom Typ � 

x∈E 

f(x)π(x) numerisch approximiert werden 

sollen durch Schätzer n−1 �n i=1 f(Yi) (siehe Beispiel 5.21). 

Wir nehmen an, dass unser Computer in der Lage ist, Realisierungen von u.i.v. Zufallsvariablen 

U1,U2,... zu generieren, die uniform auf [0, 1] verteilt sind. Die Verteilung 

π soll jedoch nicht leicht direkt herstellbar sein. 

Metropolis-Algorithmus 

Wir haben schon gesehen, wie man Markovketten mit dem Computer simulieren 

kann (Beispiel 17.19). Die Idee ist nun, eine Markovkette X zu erzeugen, deren 

Verteilung gegen π konvergiert. Wenn wir X lange genug laufen lassen, so wird 

Xn ungefähr wie π verteilt sein. Gleichzeitig sollte die Kette so gestaltet sein, dass 

in jedem Schritt immer nur wenige Übergänge wirklich möglich sind, sodass das 

in Beispiel 17.19 beschriebene Verfahren auch effizient umsetzbar ist. (Natürlich 

wäre eine Kette mit Übergangsmatrix p(x, y) =π(y) gegen π konvergent, aber das 

Problem ließe sich hiermit nicht vereinfachen.) Die so beschriebene Methode des 

Ziehens von π-verteilten Stichproben wird Markovketten Monte Carlo Methode 

oder MCMC (für Markov chain Monte Carlo) genannt (siehe [18, 110, 115]).

18.3 Markovketten Monte Carlo Methode 377 

Sei q die Übergangsmatrix einer beliebigen irreduziblen Markovkette auf E (mit 

q(x, y) =0für möglichst viele y ∈ E). Wir erstellen hieraus die Metropolis-Matrix 

(siehe [69, 112]). 

Definition 18.19. Wir definieren eine stochastische Matrix p auf E durch 

⎧ � 

⎪⎨ q(x, y)min 1, 

p(x, y) = 

⎪⎩ 

π(y)q(y,x) 

� 

π(x)q(x,y) , falls x �= y, q(x, y) > 0, 

0, falls x �= y, q(x, y) =0, 

1 − � 

z�=x p(x, z), falls x = y. 

p heißt Metropolis-Matrix zu q und π. 

Man sieht direkt, dass p reversibel ist, dass also für alle x, y ∈ E gilt 

π(x) p(x, y) =π(y) p(y, x). (18.12) 

Speziell ist π invariant (Nachrechnen!). Wir erhalten sofort den folgenden Satz. 

Satz 18.20. Ist q irreduzibel, so ist die Metropolis-Matrix p zu q und π irreduzibel 

mit eindeutiger Gleichgewichtsverteilung π. Ist zudem q aperiodisch, oder π nicht 

die Gleichverteilung auf E,soistp aperiodisch. 

Zur Simulation einer Kette X, die gegen π konvergiert, können wir nun, ausgehend 

von einer Referenzkette, die Übergänge nach q macht, den Metropolis- 

Algorithmus verwenden: Schlägt die Kette mit Übergangsmatrix q einen Übergang 

vom aktuellen Zustand x nach y vor, so akzeptieren wir diesen Vorschlag mit Wahrscheinlichkeit 

π(y)q(y, x) 

∧ 1. 

π(x)q(x, y) 

Ansonsten bleiben wir in x stehen. 

In der Definition von p taucht π nur in der Form des Quotienten π(y)/π(x) auf. In 

vielen Fällen von Interesse ist dieser Quotient relativ leicht berechenbar, auch wenn 

π(x) und π(y) selber nicht leicht zu bestimmen sind. Wir wollen dies an einem 

Beispiel erläutern. 

Beispiel 18.21 (Ising Modell). Das Ising Modell ist ein thermodynamisches (und 

quantenmechanisches) Modell für Ferromagnetismus in Kristallen, das von folgenden 

Annahmen ausgeht: 

– Atome sitzen auf den Punkten des Gitters Λ (zum Beispiel Λ = {0,...,N−1} 2 ), 

– jedes Atom i ∈ Λ hat ein magnetisches Moment (Spin): x(i) ∈{−1, 1}, das 

entweder nach oben zeigt (x(i) =+1) oder nach unten (x(i) =−1), 

– benachbarte Atome wechselwirken miteinander,


– auf Grund thermischer Schwankungen ist der Zustand des Systems zufällig und 

verteilt nach der so genannten Boltzmann-Verteilung π auf dem Zustandsraum 

≥ 0. 

E := {−1, 1} Λ ,abhängig von der inversen Temperatur β = 1 

T 

Wir definieren die lokale Energiefunktion, die das Energieniveau eines Atoms in 

i ∈ Λ als Funktion des Zustands x des Gesamtsystems angibt 

H i (x) = 1 

2 

� 

j∈Λ: i∼j 

{x(i)�=x(j)}. 

Hierbei bedeutet i ∼ j, dassi und j Nachbarn sind in Λ (damit meinen wir koordinatenweise 

mod N, wir sprechen auch von periodischen Randbedingungen). Die 

Gesamtenergie (oder Hamiltonfunktion) des Systems im Zustand x ist die Summe 

der Einzelenergien, 

H(x) = � 

H i (x) = � 

i∈Λ 

i∼j 

{x(i)�=x(j)}. 

Die Boltzmann-Verteilung π auf E := {−1, 1} Λ zur inversen Temperatur β ≥ 0 

wird definiert durch 

π(x) =Z −1 

β exp(−βH(x)), 

wobei die Zustandssumme Zβ = � 

exp(−βH(x)) (oder Partitionsfunktion) 

x∈E 

die Normierungskonstante ist, die π zu einem W-Maß macht. 

Makroskopisch beobachtbar ist nicht jeder einzelne Spin, sondern nur die mittlere 

Magnetisierung, die sich als Betrag des Mittelwerts der einzelnen Spins ergibt 

mΛ(β) = � 

� 

� 

� 

� 1 � � 

� 

π(x) � x(i) � 

�#Λ 

� . 

x∈E 

Wenn wir sehr große Systeme betrachten, sind wir nahe am so genannten thermodynamischen 

Limes 

m(β) := lim mΛ(β). 

Λ↑Zd Man kann mit einem Konturargument, ähnlich wie bei der Perkolation, zeigen (siehe 

[119]), dass (für d ≥ 2) eine Zahl βc = βc(d) ∈ (0, ∞) existiert, mit 

� 

> 0, falls β>βc, 

m(β) 

(18.13) 

=0, falls β

1 

0.8 

0.6 

0.4 

0.2 

Magnetisierung 


0 

0.84 0.85 0.86 0.87 0.88 

Inverse Temperatur 

0.89 0.9 0.91 0.92 

Abb. 18.4. Magnetisierungskurve im Ising-Modell auf einem 1000 × 1000-Gitter, per Computersimulation 

berechnet. Die senkrechte Linie markiert die kritische Temperatur. 

sind die Stoffe magnetisch, oberhalb sind sie es nicht. Dabei nimmt der Magnetisierungsgrad 

bei fallender Temperatur noch zu. Das Ising-Modell, das wir jetzt untersuchen, 

soll (zumindest in Computer-Simulationen) diesen Effekt einer kritischen 

Temperatur nachbilden. 

Wir definieren den Zustand xi,σ , bei dem an der Stelle i der Spin σ ∈{−1, +1} 

eingesetzt wird 

x i,σ � 

σ, falls j = i, 

(j) = 

x(j), falls j �= i. 

Außerdem definieren wir den Zustand x i , bei dem der Spin in i umgedreht wird 

x i := x i,−x(i) . Als vorschlagende Kette, oder Referenzkette, wählen wir nun eine 

Kette mit Übergangswahrscheinlichkeiten 

q(x, y) = 

� 

1 

#Λ , falls y = xi für ein i ∈ Λ, 

0, sonst. 

In Worten: Wir suchen einen Punkt i ∈ Λ zufällig (uniform verteilt) aus und drehen 

den Spin an dieser Stelle um. Offenbar ist q irreduzibel. 

Der Metropolis-Algorithmus zu dieser Kette akzeptiert den Vorschlag der Referenzkette 

sicher, falls π(x i ) ≥ π(x). Andernfalls wird der Vorschlag mit Wahrscheinlichkeit 

π(x i )/π(x) akzeptiert. Nun ist aber


Abb. 18.5. Gleichgewichte des Ising-Modells für ein 800 × 800 Gitter. (schwarzer Punkt = 

spin +1) Links: kälter als die kritische Temperatur (β >βc), rechts: wärmer. 

Abb. 18.6. Ising-Modell (150 × 150 Gitter) unterhalb der kritischen Temperatur. Die Computersimulation 

zeigt auch nach langer Laufzeit noch nicht das Gleichgewicht, sondern metastabile 

Zustände, in denen man die Weiss’schen Bezirke gut sehen kann. 

H(x i ) − H(x) = � 

j: j∼i 

j: j∼i 

{x(j)�=−x(i)} − � 

j: j∼i 

= −2 � 

� 

{x(j)�=x(i)} − 1 

� 

. 

2 

{x(j)�=x(i)} 

Also ist π(xi )/π(x) =exp � − 2β � � 

j∼i {x(j)=x(i)} − 1 

�� 

2 , und dieser Ausdruck 

ist leicht zu berechnen, da er nur von den 2d Nachbarspins abhängt und zudem die 

Kenntnis von Zβ nicht benötigt. Wir erhalten also als Metropolis-Übergangsmatrix


⎧ � � 

1 

⎪⎨ #Λ 1 ∧ exp 2β 

p(x, y)= 

⎪⎩ 

� 

( {x(j)�=x(i)}− 

j: j∼i 

1 

2 ) 

�� 

, falls y = xi für ein i ∈ Λ, 

1 − � 

i∈Λ p(x, xi ), falls x = y, 

0, sonst. 

Praktisch wird man diese Kette simulieren, indem man sich unabhängige Zufallsvariablen 

I1,I2,... und U1,U2,... verschafft mit In ∼UΛ und Un ∼U [0,1]. Man 

setzt nun 

Fn(x) = 

� � 

In x , falls Un ≤ exp 2β � 

j: j∼i ( {x(j)�=x(i)} − 1 

2 ) 

� 

, 

x, sonst, 

und definiert die Markovkette (Xn)n∈N durch Xn = Fn(Xn−1) für n ∈ N. ✸ 

Gibbs-Sampler 

Wir betrachten eine Situation, in der, wie im obigen Beispiel, ein Zustand aus vielen 

Komponenten x =(xi)i∈Λ ∈ E besteht, wobei Λ eine endliche Menge ist. Alternativ 

zur Metropolis-Kette betrachten wir ein weiteres Verfahren, um eine Markovkette 

mit gegebener invarianter Verteilung herzustellen. Beim so genannten Gibbs- 

Sampler oder heat bath algorithm ist die Idee, den Zustand lokal an die stationäre 

Verteilung anzupassen. Ist x der momentane Zustand, dann verfährt man wie folgt. 

Für i ∈ Λ setze 

x−i := {y ∈ E : y(j) =x(j) für j �= i}. 

Definition 18.22 (Gibbs-Sampler). Sei q ∈M1(Λ) mit q(i) > 0 für jedes i ∈ Λ. 

Die Übergangsmatrix p auf E mit 

� 

qi 

p(x, y) = 

π(xi,σ ) 

π(x−i) , falls y = xi,σ für ein i ∈ Λ, 

0, sonst. 

heißt Gibbs-Sampler zur invarianten Verteilung π. 

In Worten verfährt eine nach p konstruierte Kette in jedem Schritt wie folgt: 

(1) Wähle eine Komponente I gemäß einer Verteilung (qi)i∈Λ. 

(2) Ersetze in x durch x I,σ mit Wahrscheinlichkeit π(x I,σ )/π(x−I). 

Falls I = i ist, dann hat der neue Zustand also die Verteilung L(X|X−i = x−i), 

wobei X eine Zufallsvariable mit Verteilung π bezeichnet. Man beachte, dass man 

auch beim Gibbs-Sampler die Verteilung π nur bis auf die Normierungskonstante 

zu kennen braucht (in einem etwas allgemeineren Rahmen lassen sich der Gibbs- 

Sampler und der Metropolis Algorithmus als Spezialfälle ein und desselben Verfahren 

auffassen). Für Zustände x und y, die sich nur in der i-ten Komponente unterscheiden, 

gilt (wegen x−i = y−i)


π(x) p(x, y) =π(x) qi 

π(y) 

π(x) 

= π(y) qi = π(y) p(y, x). 

π(x−i) π(y−i) 

Der Gibbs-Sampler beschreibt also eine reversible Markovkette mit Gleichgewicht 

π. Die Irreduzibilität des Gibbs-Samplers ist von Fall zu Fall zu klären. 

Beispiel 18.23 (Ising Modell). Im oben beschriebenen Ising-Modell ist x−i = 

{x i,−1 ,x i,+1 }. Daher ist für i ∈ Λ und σ ∈{−1, +1} 

π(x i,σ� � x−i) = 

π(x i,σ ) 

π({x i,−1 ,x i,+1 }) 

e −βH(xi,σ ) 

= 

e−βH(xi,−1 ) + e−βH(xi,+1 ) 

� � 

= 1+expβ 

� H(x i,σ ) − H(x i,−σ ) ��−1 � � 

= 1+exp2β 

� 

j: j∼i ( {x(j)�=σ} − 1 

2 ) 

�� −1 

Der Gibbs-Sampler des Ising-Modells ist also die Markovkette (Xn)n∈N0 mit Werten 

in E = {−1, 1} Λ und mit Übergangsmatrix 

⎧ � � 

⎨ 1 

#Λ 1+exp 2β 

p(x, y)= 

⎩ 

� 

( {x(j)�=x(i)}− 

j: j∼i 

1 

2 ) 

��−1 , falls y = xi für ein i ∈ Λ, 

0, sonst. 

✸ 

Perfekte Simulation 

Die bislang betrachtete MCMC Methode baut auf dem Prinzip Hoffnung: Wir lassen 

die Kette lange laufen und hoffen, dass sie sich in einem Zustand nahe dem 

Gleichgewicht befindet. Selbst wenn wir die Konvergenzgeschwindigkeit bestimmen 

können (und das ist oft nicht ganz leicht – wir kommen dazu in Abschnitt 18.4), 

werden wir doch nie einen Zustand bekommen, der exakt wie das Gleichgewicht 

verteilt ist. 

Tatsächlich ist es, zumindest theoretisch, möglich, ein der MCMC Methode verwandtes 

Verfahren anzugeben, das perfektes Ziehen von Stichproben nach der Verteilung 

π ermöglicht, sogar, wenn wir über die Konvergenzgeschwindigkeit gar 

nichts wissen. Hierzu nehmen wir an, dass F1,F2,... u.i.v. zufällige Abbildungen 

E → E sind mit P[F (x) =y] =p(x, y) für alle x, y ∈ E. Wir hatten gesehen, 

dass wir die Markovkette X mit Start in x durch Xn = Fn ◦ Fn−1 ◦···◦F1(x) 

konstruieren können. 

Nun gilt F n 1 (x) :=F1◦ ...◦ Fn(x) D = Fn ◦ ...◦ F1(x). Also gilt P[F n 1 (x) = 

y] n→∞ 

−→ π(y) für jedes y. Ist nun aber F n 1 die konstante Abbildung, etwa F n 1 ≡ x∗ .

18.4 Konvergenzgeschwindigkeit 383 

(für ein zufälliges x ∗ ), so ist auch F m 1 ≡ x ∗ für jedes m ≥ n. Wenn man also 

durch geschickte Wahl der Verteilung der Fn erreichen kann, dass die Stoppzeit 

T := inf{n ∈ N : F n 1 ist konstant} fast sicher endlich ist (und das geht immer), so 

ist P[F T 1 (x) =y] =π(y) für alle x, y ∈ E. Ein einfacher Algorithmus für dieses 

Verfahren sieht so aus: 

(1) Setze F ← idE und n ← 0. 

(2) Setze n ← n +1. Erzeuge Fn und setze F ← F ◦ Fn. 

(3) Falls F nicht die konstante Abbildung ist, gehe zu (2). 

(4) Ausgabe F (∗). 

Dieses Verfahren wird Kopplung aus der Vergangenheit (coupling from the past) 

genannt und geht auf Propp und Wilson [130] zurück (siehe auch [54, 55, 158, 129, 

131, 91]). Interessante Simulationen sowie ein Forschungsüberblick finden sich im 

Internet unter http://www.dbwilson.com/. 

Praktisch ergeben sich zwei Probleme: Es muss die komplette Abbildung Fn erzeugt 

und mit F verknüpft werden. Die Rechenzeit dafür ist mindestens von der 

Ordnung der Größe des Raums E. Außerdem erfordert das Prüfen von F auf Konstanz 

einen Rechenaufwand von gleicher Größenordnung. Das Verfahren lässt sich 

effektiv nur durchführen, wenn man mehr Struktur zur Verfügung hat, etwa, wenn 

E eine Halbordnung mit einem kleinsten Element 0 und einem größten Element 1 

besitzt (wie beim Ising-Modell) und man die Abbildungen Fn so wählen kann, dass 

sie fast sicher monoton wachsend sind. In diesem Fall braucht man immer nur F (0) 

und F (1) zu berechnen, und F ist konstant, falls F (0) =F (1). 

18.4 Konvergenzgeschwindigkeit 

Bei den bisherigen Betrachtungen ist die Frage nach der Geschwindigkeit der Konvergenz 

der Verteilung PXn gegen π ignoriert worden. Für praktische Anwendungen 

ist aber dies genau die wichtigste Frage. Wir wollen hier nicht auf die Details 

eingehen, sondern das Thema nur kurz anreißen. Ohne Einschränkung sei 

E = {1,...,N}. Istpreversibel (Gleichung (18.12)), so wird durch f ↦→ pf ein 

symmetrischer linearer Operator auf L2 (E,π) definiert (Übung!). Alle Eigenwerte 

λ1,...,λN (mit Mehrfachnennung je nach Vielfachheit) sind reell und dem Betrage 

nach nicht größer als 1, dapstochastisch ist. Wir können also die Eigenwerte dem 

Betrage nach ordnen: λ1 =1≥|λ2| ≥... ≥|λN |. Istpirreduzibel und aperiodisch, 

so ist |λ2| < 1. Seiμ1 = π, μ2,...,μN eine Orthonormalbasis aus Links- 

Eigenvektoren zu den Eigenwerten λ1,...,λN .Für jedes μ = α1μ1 + ...+ αN μN 

ist dann μpn = �N i=1 λni αi μi, also 

�μp n − π�TV ≤ C|λ2| n 

(18.14)


für eine Konstante C (die nicht einmal von μ abhängt). Eine ähnliche Formel gilt 

für den Fall, wo p nicht reversibel ist, wobei Korrekturterme der Ordnung maximal 

n V −1 auftreten. Dabei ist V die Größe des größten Jordan-Kästchens zum Eigenwert 

λ2 in der Jordan’schen Normalform von p, speziell also höchstens die Vielfachheit 

des betragsmäßig zweitgrößten Eigenwertes. 

Die Konvergenzgeschwindkeit ist also exponentiell mit einer Rate, die durch die 

Spektrallücke 1 −|λ2| zum zweitgrößten Eigenwert von p bestimmt ist. Die analytische 

Bestimmung der Spektrallücke ist für große Räume E häufig extrem schwer. 

Beispiel 18.24. Sei r ∈ (0, 1) und N ∈ N, N ≥ 2,sowieE = {0,...,N− 1}.Wir 

betrachten die Übergangsmatrix 

⎧ 

⎨ r, falls j = i +1(modN), 

p(i, j) = 1 − r, 

⎩ 

0, 

falls j = i − 1(modN), 

sonst. 

p ist die Übergangsmatrix der einfachen (asymmetrischen) Irrfahrt auf dem diskreten 

Torus Z/(N), die mit Wahrscheinlichkeit r einen Schritt nach rechts springt, mit 

Wahrscheinlichkeit 1 − r hingegen einen Schritt nach links springt. Offenbar ist p 

irreduzibel, und p ist genau dann aperiodisch, wenn N ungerade ist. Offensichtlich 

ist die Gleichverteilung UE die eindeutige invariante Verteilung. 

Fall 1: N ungerade. Man prüft leicht nach, dass p die Eigenwerte 

λk := rθk +(1− r) θk =cos � 2πk 

N 

� +(2r − 1) i sin � 2πk 

N 

� , k =0,...,N − 1, 

hat, wobei θk = e2πi k/N , k =0,...,N − 1, dieN-ten Einheitswurzeln sind, und 

die zugehörigen (Rechts-) Eigenvektoren 

x k := � θ 0 k,θ 1 k,...,θ N−1� 

k . 

Die Beträge der Eigenwerte bekommen wir durch |λk| = f(2πk/N), wobei 

f(ϑ) = � 1 − 4r(1 − r)sin(ϑ) 2 für ϑ ∈ R. 

Da N ungerade ist, ist |λk| maximal (außer für k =0)für k = N−1 

2 und k = N+1 

2 

mit dem Wert γ := � 1 − 4r(1 − r)sin(π/N) 2 . Da die Eigenwerte alle unterschiedlich 

sind, hat jeder Eigenwert die Vielfachheit 1, und es gibt ein C < ∞ 

mit 

für alle n ∈ N, μ∈M1(E). 

�μp n −UE�TV ≤ Cγ n 

Fall 2: N gerade. In diesem Fall ist p nicht aperiodisch, nichtsdestoweniger haben 

die Eigenwerte und Eigenvektoren die selbe Gestalt wie im ersten Fall. Um eine 

aperiodische Kette zu erhalten, bilden wir für ε>0 die Übergangsmatrix 

pε := (1 − ε)p + εI,


wo I die Einheitsmatrix auf E ist. pε beschreibt die Irrfahrt auf E, die mit Wahrscheinlichkeit 

ε am Ort stehen bleibt und mit Wahrscheinlichkeit 1−ε einen Sprung 

gemäß p macht. Offenbar ist pε irreduzibel und aperiodisch. Die Eigenwerte sind 

λε,k =(1− ε)λk + ε, k =0,...,N − 1, 

mit zugehörigen Eigenvektoren x k wie oben. Offenbar ist λε,0 =1, und λ ε,N/2 = 

2ε − 1 ist der betragsmäßig zweitgrößte Eigenwerte, falls ε>0 sehr klein ist. Für 

größere ε ist |λε,1| > |λ ε,N/2|. Genauer gilt: Setzen wir 

ε0 := 

(1 − (2r − 1) 2 )sin(2π/N) 2 

(1 − (2r − 1) 2 )sin(2π/N) 2 + 2 cos(2π/N) , 

so ist der Betrag γε des betragsmäßig zweitgrößten Eigenwertes 

und 

γε = |λε,1| 

= 

� �(1 − ε)cos � 2π 

N 

γε = |λ ε,N/2| =1− 2ε, falls ε ≤ ε0, 

� �2 � � �� 

2π 2 

+ ε + (1 − ε)(2r − 1) sin N 

falls ε ≥ ε0. 

Es ist nicht schwer zu zeigen, dass ε ↦→ |λε,N/2| monoton fallend ist und ε ↦→ |λε,1| 

monoton wachsend. Daher ist γε minimal für ε = ε0. 

Es gibt also ein C


wobei m(μ) = � pN(x) μ(dx) ist, und die Wahrscheinlichkeit pN (x), dass die in x 

gestartete Kette N trifft, gegeben ist durch 

⎧ 

⎪⎨ 

1 − 

pN (x) = 

⎪⎩ 

� � 

1−r x 

r 

1 − � � , falls r �= 

1−r N 

r 

1 

2 , 

x 

1 

, falls r = 

N 2 . 

Wie schnell geht nun die Konvergenz in (18.15)? Auch hier ist die Konvergenz 

exponentiell schnell, und die Rate wird wieder durch den zweitgrößten Eigenwert 

von p bestimmt. 

Wir wollen nun also das Spektrum von p bestimmen. Klar sind x0 =(1, 0,...,0) 

und xN =(0,...,0, 1) Links-Eigenvektoren zum Eigenwert 1. Damit nun x = 

(x0,...,xN ) ein Links-Eigenvektor zum Eigenwert λ ist, müssen die folgenden 

Gleichungen erfüllt sein: 

und 

λxk = rxk−1 +(1− r)xk+1 für k =2,...,N − 2, (18.16) 

λxN−1 = rxN−2. (18.17) 

Gelten (18.16) und (18.17) für x1,...,xN−1, so setzen wir x0 := 1−p 

λ−1 x1 und 

xN := p 

λ−1 xN−1 und erhalten dadurch tatsächlich xp = λx. Wir machen den 

Ansatz 

wobei 

λ =(1− r)ρ(θ + θ) und xk = ϱ k (θ k − θ k ) für k =1,...,N − 1, 

ρ = � r/(1 − r) und θ ∈ C \{−1, +1} mit |θ| =1. 

Es gilt also θθ =1und (1 − r)ρ k+1 = rρ k−1 . Daher ist für jedes k =2,...,N− 1 

λxk =(1− r) ρ k+1 (θ k − θ k )(θ + θ) 

=(1− r) ρ k+1� (θ k+1 − θ k+1 )+θθ (θ k−1 − θ k−1 ) � 

= rρ k−1 (θ k−1 − θ k−1 )+(1− r) ρ k+1 (θ k+1 − θ k+1 ) 

= rxk−1 +(1− r) xk+1, 

das heißt, es gilt (18.16). Die selbe Rechnung mit k = N − 1 zeigt, dass (18.17) 

genau dann gilt, wenn θ N −θ N =0ist, also wenn θ 2N =1gilt. Wir erhalten also für 

θ die N − 1 unterschiedlichen Werte (man beachte, dass die komplex konjugierten 

der hier angegeben Werte zu den selben λn führen) 

θn = e (n/N)πi 

Die zugehörigen Eigenwerte sind 

� 

nπ 

� 

λn = σ cos 

N 

für n =1,...,N − 1. 

für n =1,...,N − 1.

Dabei ist die Varianz des einzelnen Irrfahrt-Schrittes: 


σ 2 := 4r(1 − r). (18.18) 

Da alle Eigenwerte reell sind, sind die zugehörigen Eigenvektoren gegeben durch 

x n � �n/2 r 

� 

nπ 

� 

k =2 

sin , k =1,...,N − 1. 

1 − r N 

Für n =1und n = N − 1 ist |λn| = σ cos � � 

π 

N der betragsmäßig zweitgrößte 

Eigenwert. Es folgt, dass es ein C>0 gibt, sodass für jedes μ ∈M1(E) gilt 

μp n � � 

π 

��n ({1,...,N − 1}) ≤ C σ cos 


N 

Mit anderen Worten: Die Wahrscheinlichkeit, dass das Spiel bis zur n-ten Runde 

noch nicht entschieden ist, ist maximal C � σ cos(π/N) �n . 

Ein alternativer Zugang zu den Eigenwerten geht über die Nullstellen des charakteristischen 

Polynoms 

χN(x) =det(p − xI), x ∈ R. 

Man sieht sofort, dass χ1(x) = (1 − x) 2 und χ2(x) = −x(1 − x) 2 gilt. Über 

die Entwicklungsformel der Determinante durch Streichen von Zeilen und Spalten 

erhalten wir die Rekursionsformel 

χN(x) =−xχN−1(x) − r(1 − r) χN−2(x). (18.19) 

Wir erhalten als Lösung (Nachrechnen!) 

wobei 

χN(x) =(−1) N−1 (σ/2) N−1 (1 − x) 2 UN−1 

Um(x) := 

k=1 

� 

(−1) k 

� � 

m − k 

(2x) 

k 

m−2k 

⌊m/2⌋ 

k=0 

� x/σ � , (18.20) 

das m-te Chebyshev Polynom zweiter Art bezeichnet. 

Für x ∈ (−σ, σ) kann man mit Hilfe der de Moivre’schen Formel zeigen, dass 

χN(x) =(−1) N−1 (σ/2) N−1 (1 − x) 2 sin � N arccos � x/σ �� 

� 

1 − (x/σ) 2 

=(1−x) 2 

N−1 � � � 

πk 

� � 

(18.21) 

σ cos − x . 

N 

Neben der doppelten Nullstelle 1 erhalten wir als Nullstellen 

σ cos � πk/N), k =1,...,N − 1. ✸


Übung 18.4.1. Man zeige (18.20). ♣ 

Übung 18.4.2. Man zeige (18.21). ♣ 

Übung 18.4.3. Sei ν(dx) = 2 

√ 

π 1 − x2 [−1,1](x) dx. Man zeige, dass die Chebyshev 

Polynome zweiter Art bezüglich ν orthogonal sind: 

� 

UmUn dν = m=n. ♣ 

⎛ 

⎞ 

1/2 1/3 1/6 

⎜ 

⎟ 

Übung 18.4.4. Sei E = {1, 2, 3} und p = ⎝ 1/3 1/3 1/3⎠. 

Man bestimme die 

0 3/4 1/4 

invariante Verteilung und die exponentielle Konvergenzrate. ♣ 

Übung 18.4.5. Sei E = {0,...,N − 1}, r ∈ (0, 1) und 

⎧ 

⎨ r, falls j = i +1(modN), 

p(i, j) = 1 − r, 

⎩ 

0, 

falls j = i (mod N), 

sonst. 

Man zeige, dass p die Übergangsmatrix einer irreduziblen, aperiodischen Irrfahrt ist, 

bestimme die invariante Verteilung und bestimme die exponentielle Konvergenzgeschwindigkeit. 

♣ 

Übung 18.4.6. Sei N ∈ N und E = {0, 1} N der N-dimensionale Hyperkubus, das 

heißt, zwei Punkte x, y ∈ E sind genau dann durch eine Kante verbunden, wenn sie 

sich in genau einer Koordinate unterscheiden. Sei p die Übergangsmatrix der Irrfahrt 

auf E, die mit Wahrscheinlichkeit ε>0 am Ort bleibt, mit Wahrscheinlichkeit 1−ε 

hingegen zu einem (uniform gewählten) zufälligen Nachbarpunkt springt. 

Man beschreibe p formal, zeige dass p aperiodisch und irreduzibel ist, und bestimme 

die invariante Verteilung sowie die exponentielle Konvergenzgeschwindigkeit. ♣

19 Markovketten und elektrische Netzwerke 

Wir betrachten eine symmetrische einfache Irrfahrt auf Z2 . Nach dem Satz von 

Pólya (Satz 17.39) ist diese Irrfahrt rekurrent. Was passiert aber, wenn wir eine 

einzelne Kante aus dem Gitter L2 von Z2 entfernen? Intuitiv sollte dies nichts an 

der Rekurrenz ändern. Die in Kapitel 17.5 verwendeten Rechnungen sind allerdings 

in dieser Hinsicht nicht sehr robust und können hier nicht mehr zum Beweis der 

Rekurrenz benutzt werden. Noch unübersichtlicher wird die Situation, wenn wir die 

Irrfahrt auf die obere Halbebene {(x, y) : x ∈ Z,y ∈ N0} von Z2 beschränken. Wie 

sieht es hier mit der Rekurrenz aus? Oder wir betrachten die Situation von Kantenperkolation 

auf Z2 .Wirfixieren einen Parameter p ∈ [0, 1] und definieren jede 

Kante von L2 mit Wahrscheinlichkeit p als offen und mit Wahrscheinlichkeit 1 − p 

als geschlossen. Nachdem dies im ersten Schritt geschehen ist, wird die Irrfahrt auf 

dem zufälligen Teilgraphen der offenen Kanten betrachtet. Der Irrfahrer wählt in jedem 

Schritt mit gleicher Wahrscheinlichkeit eine der benachbarten offenen Kanten 

aus. Für p> 1 

2 existiert genau eine unendlich große Zusammenhangskomponente 

offener Kanten (Satz 2.47). Ist die Irrfahrt auf dieser (zufälligen) Komponente 

rekurrent oder transient? 

Ziel dieses Kapitels ist es, einen Zusammenhang zwischen gewissen Markovketten 

und elektrischen Netzwerken herzustellen, der 

– es in manchen Fällen erlaubt, zwischen Rekurrenz und Transienz anhand von 

leicht berechenbaren Größen zu entscheiden, 

– in anderen Fällen ein Vergleichskriterium bietet, das besagt, dass eine Irrfahrt auf 

einem Teilgraphen rekurrent ist, wenn die Irrfahrt auf dem ursprünglichen Graphen 

rekurrent ist. Damit lässt sich für alle oben betrachteten Irrfahrten Rekurrenz 

nachweisen. 

Dieses Kapitel lehnt sich an [109] und [36] an. 

19.1 Harmonische Funktionen 

Sei in diesem Kapitel stets E eine abzählbare Menge und X eine diskrete Markovkette 

auf E mit Übergangsmatrix p und Greenfunktion G.

390 19 Markovketten und elektrische Netzwerke 

Definition 19.1. Sei A ⊂ E. Eine Funktion f : E → R heißt harmonisch auf 

E \ A, falls pf(x) = � 

y∈E p(x, y)f(y) existiert und pf(x) =f(x) für jedes 

x ∈ E \ A gilt. 

Satz 19.2 (Superpositionsprinzip). Sind f und g harmonisch auf E \A und α, β ∈ 

R, soistauchαf + βg harmonisch auf E \ A. 

Beweis. Trivial. ✷ 

Beispiel 19.3. Sei X transient und a ∈ E ein transienter Zustand (also ein nicht 

absorbierender). Dann ist f(x) :=G(x, a) harmonisch auf E \{a}: Für x �= a ist 

∞� 

pf(x) =p p n ∞� 

(x, a) = p n (x, a) =G(x, a) − {a}(x) =G(x, a). ✸ 

n=0 

n=1 

Beispiel 19.4. Für jedes x ∈ E sei τx := inf{n >0: Xn = x}. Für A ⊂ E sei 

τ := τA := inf 

x∈A τx 

die Zeit des ersten Eintritts in A. Wir nehmen an, dass A so gewählt ist, dass 

Px[τA < ∞] =1für jedes x ∈ E. Seig : A → R eine beschränkte Funktion. 

Wir definieren 

� 

g(x), falls x ∈ A, 

f(x) := 

(19.1) 

Ex[g(Xτ )], falls x ∈ E \ A. 

Dann ist f harmonisch in E \ A. Wir geben hierfür zwei Beweise an. 

1. Beweis Nach der Markoveigenschaft ist für x �∈ A und y ∈ E 

� 

Ex g(Xτ ) � �X1 = y � � 

g(y), 

= 

Ey[g(Xτ )], 

� 

falls y ∈ A 

= f(y). 

falls y ∈ E \ A 

Also ist für x ∈ E \ A 

f(x) =Ex[g(Xτ )] = � 

y∈E 

� 

Ex g(Xτ ); X1 = y � 

= � � 

p(x, y) Ex g(Xτ ) � �X1 = y � = � 

p(x, y) f(y) =pf(x). 

y∈E 

2. Beweis Wir verändern die Markovkette, indem wir einen Zustand Δ als Falle 

hinzufügen. Es gelte also ˜ E = E ∪{Δ} und 

⎧ 

⎪⎨ 

p(x, y), falls x ∈ E \ A, y �= Δ, 

˜p(x, y) = 

⎪⎩ 

0, 

1, 

falls x ∈ E \ A, y = Δ, 

falls x ∈ A ∪{Δ}, y= Δ. 

(19.2) 

y∈E

19.1 Harmonische Funktionen 391 

Die so erzeugte Markovkette ˜ X ist transient mit Δ als einzigem absorbierenden 

Zustand. Weiterhin ist genau dann pf = f auf E \ A, wenn˜pf = f auf E \ A ist. 

Wegen ˜ G(y, y) =1für y ∈ A ist (vergleiche Satz 17.34) 

Px[Xτ = y] =Px[˜τy < ∞] = ˜ F (x, y) = ˜ G(x, y) für alle x ∈ E \ A, y ∈ A. 

Nun ist x ↦→ ˜ G(x, y) harmonisch auf E \ A. Nach dem Superpositionsprinzip ist 

auch 

f(x) = � 

˜G(x, y) g(y) (19.3) 

y∈A 

harmonisch auf E \ A. Wegen dieser Darstellung heißt, in Analogie zur kontinuierlichen 

Potentialtheorie, ˜ G die Greenfunktion für die Gleichung (p − I)f =0auf 

E \ A. ✸ 

Definition 19.5. Wir nennen das Gleichungssystem 

(p − I)f(x) =0, für x ∈ E \ A, 

f(x) =g(x), für x ∈ A, 

das zu p − I gehörige Dirichlet-Problem auf E \ A mit Randwerten g auf A. 

(19.4) 

Im Folgenden wollen wir stets annehmen, dass F (x, y) > 0 ist für jedes x ∈ E \ A 

und jedes y ∈ A. Speziell ist dies natürlich erfüllt, wenn X irreduzibel ist. 

Satz 19.6 (Maximumprinzip). Sei f eine harmonische Funktion auf E \ A. Gibt 

es ein x0 ∈ E \ A mit f(x0) =sup x∈E f(x), soistf konstant. 

Beweis. Für n ∈ N sei Gn := � x ∈ E : pn (x0,x) > 0 � . Nach Voraussetzung ist 

f(x0) =p n f(x0) = � 

p n (x0,x)f(x) ≤ f(x0), 

x∈Gn 

also f(x) =f(x0) für jedes x ∈ Gn. WegenF (x0,x) > 0 für jedes x ∈ E, ist 

� ∞ 

n=1 Gn = E, also f(x) =f(x0) für jedes x ∈ E. ✷ 

Satz 19.7 (Eindeutigkeitssatz für harmonische Funktionen). Ist E \ A endlich 

und sind f1 und f2 harmonisch auf E \ A und f1 = f2 auf A, dann ist f1 = f2. 

Mit anderen Worten: Das Dirichlet-Problem (19.4) besitzt eine eindeutige Lösung, 

die durch (19.3) (oder äquivalent (19.1)) gegeben ist. 

Beweis. Nach dem Superpositionsprinzip ist f := f1−f2 harmonisch auf E\A mit 

f � � ≡ 0.Istsupx∈E f(x) > 0, so gibt es ein x0 ∈ E\A mit f(x0) =supx∈E f(x). 

A 

Nach dem Maximumprinzip ist dann aber f konstant und damit f ≡ 0. ✷


Übung 19.1.1. Sei p die substochastische E × E Matrix, die durch p(x, y) = 

˜p(x, y), x, y ∈ E, (mit ˜p aus (19.2)) definiert wird, also p(x, y) =p(x, y) x∈E\A, 

und sei I die Einheitsmatrix auf E. Man zeige: 

(i) I − p ist invertierbar. 

(ii) Setzen wir G := (I − p) −1 ,soistG(x, y) = ˜ G(x, y) für alle x, y ∈ E \ A und 

G(x, y) = {x=y}, falls x ∈ A. Speziell ist 

G(x, y) =Px[XτA = y] für x ∈ E \ A und y ∈ A. ♣ 

19.2 Reversible Markovketten 

Definition 19.8. Die Markovkette X heißt reversibel bezüglich des Maßes π, falls 

π({x}) p(x, y) =π({y}) p(y, x) für alle x, y ∈ E. (19.5) 

Die Gleichung (19.5) heißt auch die Gleichung der detaillierten Balance (detailed 

balance). 

X heißt reversibel, falls es ein π gibt, bezüglich dessen X reversibel ist. 

Bemerkung 19.9. Ist X reversibel bezüglich π, dannistπ ein invariantes Maß für 

X,denn 

πp({x}) = � 

π({y}) p(y, x) = � 

π({x}) p(x, y) =π({x}). 

y∈E 

Nach Bemerkung 17.50 ist π daher bis auf konstante Vielfache eindeutig. ✸ 

Beispiel 19.10. Sei (E,K) ein Graph mit Eckenmenge (oder Menge der Knoten) E 

und Kantenmenge K (siehe Seite 64). Mit 〈x, y〉 = 〈y, x〉 ∈K bezeichnen wir eine 

(ungerichtete) Kante, die x und y verbindet. Sei C := (C(x, y), x,y∈ E) eine 

Familie von Gewichten mit C(x, y) =C(y, x) ≥ 0 für alle x, y ∈ E und 

C(x) := � 

C(x, y) < ∞ für jedes x ∈ E. 

y∈E 

Setzen wir p(x, y) := C(x,y) 

C(x) für alle x, y ∈ E, soistX reversibel bezüglich 

π({x}) =C(x). Es gilt nämlich 

π({x}) p(x, y) =C(x) 

C(x, y) 

C(x) 

= C(y, x) =C(y) 

y∈E 

= C(x, y) 

C(y, x) 

C(y) 

= π({y}) p(y, x). ✸

19.3 Elektrische Netzwerke 393 

Definition 19.11. Seien (E,K), C und X wie in Beispiel 19.10. Dann heißt X Irrfahrt 

auf E mit Gewichten C. Ist speziell C(x, y) = {〈x,y〉∈K}, dann heißt X 

einfache Irrfahrt auf (E,K). 

Die Irrfahrt mit Gewichten C ist also reversibel. Es gilt aber auch die Umkehrung. 

Satz 19.12. Ist X eine reversible Markovkette, so ist X eine Irrfahrt auf E mit 

Gewichten C(x, y) =p(x, y) π({x}), falls π ein invariantes Maß ist. Da π bis auf 

Vielfache eindeutig ist, sind die Gewichte bis auf konstante Vielfache festgelegt. 


Übung 19.2.1. Man zeige: p ist genau dann reversibel bezüglich π, wenn die lineare 

Abbildung f ↦→ pf in L 2 (π) selbstadjungiert ist. ♣ 

Übung 19.2.2. Sei K ∈ N und Zahlen W1,...,WK ∈ R und β>0 gegeben. Wir 

definieren 

p(i, j) := 1 

Z exp(−βWj) für alle i, j =1,...,K, 

wobei Z := �K j=1 exp(−βWj) die Normalisierungskonstante ist. 

In K (nummerierten) Urnen befinden sich insgesamt N ununterscheidbare Kugeln. 

In jedem Zeitschritt wird (uniform) eine der N Kugeln zufällig ausgesucht. Ist i 

die Nummer der Urne, aus der die Kugel gezogen wurde, so wird die Kugel mit 

Wahrscheinlichkeit p(i, j) in die Urne mit der Nummer j gelegt. 

(i) Man gebe eine formale Beschreibung als Markovkette an. 

(ii) Man bestimme den invarianten Zustand π und zeige, dass die Kette reversibel 

bezüglich π ist. ♣ 

19.3 Elektrische Netzwerke 

Ein (endliches) elektrisches Netzwerk (E,C) ist ein (endliches) System E von 

Punkten, die paarweise mit Drähten der Leitfähigkeit (conductivity) C(x, y) ∈ 

[0, ∞), x, y ∈ E verbunden sind. Wir interpretieren C(x, y) =0so, dass es ” keinen 

Draht zwischen x und y“ gibt. Symmetrie erfordert C(x, y) =C(y, x). Mit 

R(x, y) = 

1 

∈ (0, ∞] 

C(x, y) 

bezeichnen wir den Widerstand der Verbindung 〈x, y〉. Ist(E,K) ein Graph und 

C(x, y) = {〈x,y〉∈K}, so bezeichnen wir (E,C) als Einheitsnetzwerk auf (E,K).


Sei nun A ⊂ E. Wir legen an den Punkten x0 ∈ A jeweils elektrische Spannungen 

u(x0) an (zum Beispiel durch Anschluss einer oder mehrerer Batterien). Wie groß 

ist dann die Spannung u(x) in x ∈ E \ A? 

Definition 19.13. Eine Abbildung I : E × E → R heißt ein Fluss auf E \ A, falls 

sie antisymmetrisch ist (I(x, y) =−I(y, x)) und das Kirchhoff’sche Gesetz erfüllt: 

wobei 

I(x) =0, für x ∈ E \ A, 

I(A) =0, 

I(x) := � 

I(x, y) und I(A) := � 

I(x). 

y∈E 

x∈A 

(19.6) 

Definition 19.14. Ein Fluss I : E × E → R auf E \ A heißt elektrischer Fluss, 

falls es eine Funktion u : E → R gibt, bezüglich der das Ohm’sche Gesetz gilt: 

I(x, y) = 

u(x) − u(y) 

R(x, y) 

für alle x, y ∈ E, x �= y. 

Wir nennen dann I(x, y) die Stromstärke von x nach y und u(x) die elektrische 

Spannung in x. 

Satz 19.15. Eine elektrische Spannung u in (E,C) ist harmonisch auf E \ A: 

u(x) = � 1 

C(x, y) u(y) für jedes x ∈ E \ A. 

C(x) 

y∈E 

Speziell ist die elektrische Spannung durch Angabe der Werte auf A festgelegt, 

wenn das Netzwerk irreduzibel ist. 

Beweis. Nach dem Ohm’schen und dem Kirchhoff’schen Gesetz ist 

u(x) − � C(x, y) 

C(x, y) 

1 � 

u(y) =� (u(x) − u(y)) = I(x, y) =0. 

C(x) C(x) C(x) 

y∈E 

y∈E 

y∈E 

Nach dem Eindeutigkeitssatz für harmonische Funktionen (Satz 19.7) ist u hierdurch 

und durch die Werte auf A eindeutig festgelegt. ✷ 

Korollar 19.16. Sei X eine Markovkette auf E mit Kantengewichten C. Dann ist 

u(x) =Ex[u(XτA )]. 

Betrachte A = {x0,x1}, x0 �= x1, und u(x0) =0, u(x1) =1.DannistI(x1) der 

gesamte Stromfluss in das Netzwerk und −I(x0) der gesamte Stromfluss aus dem 

Netzwerk. Das Kirchhoff’sche Gesetz besagt, dass der Stromfluss divergenzfrei ist,


und dass in Summe genauso viel Strom rein- wie rausfließt. Mit anderen Worten 

eben I(x0)+I(x1) =0. 

In Anlehnung an das Ohm’sche Gesetz definieren wir den effektiven Widerstand 

zwischen x0 und x1 durch 

Reff(x0 ↔ x1) = u(x1) − u(x0) 

I(x1) 

= 1 1 

= − 

I(x1) I(x0) 

1 

und die effektive Leitfähigkeit durch Ceff(x0 ↔ x1) = Reff (x0↔x1) .DaI und u 

eindeutig durch die Angabe von x0, x1 und C festgelegt sind, sind Ceff(x0 ↔ x1) 

und Reff(x0 ↔ x1) Größen, die sich aus C berechnen lassen. 

Wir betrachten nun zwei Mengen A0,A1 ⊂ E mit A0 ∩ A1 = ∅, A0,A1 �= ∅, 

und setzen u(x) =0für jedes x ∈ A0 sowie u(x) =1für jedes x ∈ A1. Sei 

I der zugehörige elektrische Fluss. In Analogie zu oben treffen wir die folgende 

Definition. 

Definition 19.17. Wir nennen Ceff(A0 ↔ A1) :=I(A1) die effektive Leitfähigkeit 

zwischen A0 und A1 und Reff(A0 ↔ A1) := 1 

zwischen A0 und A1. 

I(A1) den effektiven Widerstand 

Beispiel 19.18. (i) Sei E = {0, 1, 2} mit C(0, 2) = 0, und A0 = {x0} = {0}, 

A1 = {x1} = {2}. Wir setzen u(0) = 0 und u(2) = 1. Dann ist (mit p(x, y) = 

C(x, y)/C(x)) 

u(1) = 1 · p(1, 2) + 0 · p(1, 0) = 

Der gesamte Fluss ist 

I({2}) =u(1) C(0, 1) = 

= 

C(1, 2) 

C(1, 2) + C(1, 0) = 

R(1, 0) 

R(1, 0) + R(1, 2) 

Reff(1 ↔ 0) 

Reff(1 ↔ 0) + Reff(1 ↔ 2) . 

1 

R(0, 1) + R(1, 2) = 

1 

1 1 

C(0,1) + C(1,2) 

Entsprechend ist Reff(0 ↔ 2) = 1 

I({2}) = R(0, 1) + R(1, 2) und Ceff(0 ↔ 2) = 

� 

1 

C(0,1) 

+ 1 

C(1,2) 

� −1. 

(ii) (Reihenschaltung) Sei n ∈ N, n ≥ 2 und E = {0,...,n} mit Leitfähigkeiten 

C(k − 1,k) > 0 und C(k, l) =0, falls |k − l| > 1. Wie in (i) bekommen wir für 

k ∈{1,...,n− 1} 

Reff(0 ↔ k) 

u(k) = 

Reff(0 ↔ k)+Reff(k ↔ n) . 

Induktiv (in n) erhalten wir also 

.


n−1 � 

Reff(0 ↔ n) = R(k, k +1). 

k=0 

Wir erhalten so eine Aussage über die Ruinwahrscheinlichkeit der korrespondierenden 

Markovkette X auf {0,...,n} durch 

Pk[τn

x =0 

0 

u(0)=0 

R 

R 

R 

R 

R 

R 

1 

2 

3 

4 

5 

6 


x =1 

1 

u(6)=1 

Abb. 19.2. Parallelschaltung von sechs Widerständen. Der effektive Gesamtwiderstand be- 

trägt Reff(0 ↔ 1) = (R −1 

1 

+ ...+ R−1 

6 )−1 . 

Satz 19.20 (Energieerhaltungssatz). Sei A = A0 ∪ A1, und sei I ein Fluss (das 

heißt eine antisymmetrische Funktion, die dem Kirchhoff’schen Gesetz genügt, nicht 

aber notwendigerweise dem Ohm’schen Gesetz) auf E \ A. Ferner sei w : E → R 

eine Funktion, die auf A0 und A1 jeweils konstant ist: w � � ≡: w0 und w 

A0 

� � ≡: 

A1 

w1. Dann gilt 

(w1 − w0)I(A1) = 1 � 

(w(x) − w(y)) I(x, y). 

2 

x,y∈E 

Dies ist die diskrete Version des Satzes von Gauß für (wI), wobei man beachte, 

dass das Kirchhoff’sche Gesetz besagt, dass I auf E \ A divergenzfrei ist. 

Beweis. Wir berechnen 

� 

(w(x) − w(y))I(x, y) = � � 

w(x) � 

x,y∈E 

x∈E 

y∈E 

= � � 

w(x) � 

x∈A 

y∈E 

Definition 19.21. Sei I ein Fluss auf E \ A.Mit 

� 

I(x, y) 

� 

I(x, y) 

− � 

y∈E 

− � 

y∈A 

� 

w(y) � 

x∈E 

� 

w(y) � 

x∈E 

� 

I(x, y) 

� 

I(x, y) 

= w0I(A0)+w1I(A1)−w0(−I(A0))−w1(−I(A1)) 

=2(w1−w0)I(A1). ✷ 

LI := L C I := 1 

2 

� 

x,y∈E 

I(x, y) 2 R(x, y) 

bezeichnen wir die Leistung von I im Netzwerk (E,C).


Satz 19.22 (Thomson’sches oder Dirichlet’sches Prinzip der Leistungsminimierung). 

Seien I,J Einheitsflüsse von A1 nach A0 (das heißt I(A1) =J(A1) =1). I 

sei zudem ein elektrischer Fluss (erfülle also das Ohm’sche Gesetz mit einer Spannungsfunktion 

u, die auf A0 und A1 jeweils konstant ist). Dann gilt 

LI ≤ LJ 

mit Gleichheit genau dann, wenn I = J ist. Speziell ist der elektrische Einheitsfluss 

eindeutig festgelegt. 

Beweis. Sei D = J − I �≡ 0 der Differenzfluss. Dann ist offenbar D(A0) = 

D(A1) =0. Wir erhalten 

� 

J(x, y) 

x,y∈E 

2 R(x, y) 

= � � �2R(x, I(x, y)+D(x, y) y) 

x,y∈E 

= � � 2 2 

I(x, y) + D(x, y) 

x,y∈E 

� R(x, y)+2 � 

I(x, y) D(x, y) R(x, y) 

x,y∈E 

= � � 2 2 

I(x, y) + D(x, y) � R(x, y)+2 � � � 

u(y) − u(x) D(x, y). 

x,y∈E 

x,y∈E 

Nach dem Energieerhaltungssatz ist der letzte Term 

2 � � � 

u(y) − u(x) D(x, y) =2D(A1)(u1 − u0) =0. 

x,y∈E 

Es folgt (wegen D �≡ 0) 

LJ = LI + 1 

2 

� 

x,y∈E 

D(x, y) 2 R(x, y) >LI. ✷ 

Beweis (Rayleigh’sches Monotonieprinzip, Satz 19.19) Seien I und I ′ die elektrischen 

Einheitsflüsse von A1 nach A0 bezüglich C beziehungsweise C ′ . Nach 

dem Thomson’schen Prinzip, dem Energieerhaltungssatz und der Voraussetzung 

R(x, y) ≤ R ′ (x, y) für alle x, y ∈ E ist 

u(1) − u(0) 

Reff(A0 ↔ A1) = = u(1) − u(0) 

I(A1) 

= 1 � 

I(x, y) 

2 

2 R(x, y) 

≤ 1 

2 

x,y∈E 

� 

x,y∈E 

I ′ (x, y) 2 R(x, y) ≤ 1 

2 

� 

x,y∈E 

I ′ (x, y) 2 R ′ (x, y) 

= u ′ (1) − u ′ (0) = R ′ eff(A0 ↔ A1). ✷

19.4 Rekurrenz und Transienz 

19.4 Rekurrenz und Transienz 399 

Wir betrachten die Situation, wo E abzählbar ist und A1 = {x1} für ein x1 ∈ E. 

Sei X eine Irrfahrt auf E mit Gewichten C =(C(x, y), x,y∈ E), also mit Übergangswahrscheinlichkeiten 

p(x, y) =C(x, y)/C(x) (vergleiche Definition 19.11). 

Um die Ergebnisse über endliche elektrische Netzwerke aus dem letzten Abschnitt 

anwenden zu können, nehmen wir zudem immer an, dass A0 ⊂ E so gewählt ist, 

dass E \ A0 endlich ist. Es sei dann stets u = ux1,A0 die eindeutig bestimmte 

Spannungsfunktion auf E mit u(x1) =1und u(x) =0für jedes x ∈ A0. Nach 

Satz 19.7 ist u harmonisch und hat die Darstellung 

� 

ux1,A0 (x) =Ex {Xτ A0∪{x1 } =x1} 

� 

= Px [τx1


Beweis. Klar, weil 

Ceff(x1 ↔∞)=C(x1)inf � � 

pF (x1,A0) : |E \ A0| < ∞, x1�∈ A0 , (19.9) 

und weil pF (x1,A0) monoton fallend in A0 ist. ✷ 

Satz 19.25. Es gilt 

Speziell gilt 

pF (x1) = 1 

C(x1) Ceff(x1 ↔∞). (19.10) 

x1 ist rekurrent ⇐⇒ Ceff(x1 ↔∞)=0 ⇐⇒ Reff(x1 ↔∞)=∞. 

Beweis. Sei An 0 ↓∅eine absteigende Folge mit |E \ An 0 | < ∞ und x1 �∈ An 0 für 

jedes n ∈ N. Setze Fn := � τAn 0 1. Der effektive Widerstand von 0 nach ∞ ist nach 

dem Monotonieprinzip 

Reff(0 ↔∞) = lim 

n→∞ Reff(0 ↔{−n, n}) 

≤ lim 

n→∞ Reff(0 ↔ n) 

= 

∞� 

� 

1 − p 

n=0 

p 

� n 

= 

p 

< ∞. ✸ 

2p − 1


Beispiel 19.28. Die symmetrische einfache Irrfahrt auf E = Z2 ist rekurrent. 

Hier ist wieder C(x, y) = {|x−y|=1}. SeiBn = {−n,...,n} 2 und ∂Bn = 

Bn \ Bn−1. Wir stellen ein Netzwerk C ′ mit größeren Leitfähigkeiten her, indem 

wir ringförmige Supraleiter entlang ∂B einfügen Wir ersetzen also C(x, y) durch 

C ′ � 

∞, 

(x, y) = 

C(x, y), 

falls x, y ∈ ∂Bn 

sonst. 

für ein n ∈ N, 

Abb. 19.3. Elektrisches Netzwerk auf Z 2 . Die fetten Linien stellen Supraleiter dar. Zwischen 

dem n-ten und dem (n +1)-ten Supraleiter sind genau 4(2n +1)Kanten. 

Dann ist R ′ eff (Bn ↔ B c n)= 

die Bn mit B c n verbinden), und daher ist 

1 

4(2n+1) (merke: 4(2n +1)ist die Anzahl der Kanten, 

R ′ eff(0 ↔∞)= 

∞� 

n=0 

1 

= ∞. 

4(2n +1) 

Nach dem Monotonieprinzip ist daher Reff(0 ↔∞) ≥ R ′ eff (0 ↔∞)=∞. ✸ 

5 

4 

3 

2 

1 

0


0 

1 

2 3 

n n+1 

4 Kanten 12 Kanten 20 Kanten 4*(2n+1) Kanten 

Abb. 19.4. Effektives Netzwerk, das aus Z 2 durch Einfügen der Supraleiter entsteht. Die 

Ringe der Supraleiter sind hier zu einzelnen Punkten verschmolzen. 

Beispiel 19.29. Sei (E,K) ein beliebiger zusammenhängender Teilgraph des quadratischen 

Gitters (Z 2 , L 2 ). Dann ist die einfache Irrfahrt auf (E,K) (siehe Definition 

19.11) rekurrent. Nach dem Monotonieprinzip ist nämlich 

R (E,K) 

eff (0 ↔∞) ≥ R (Z2 ,L 2 ) 

eff (0 ↔∞)=∞. ✸ 

Wir formulieren das Vorgehen in den letzten Beispielen als Satz. 

Satz 19.30. Seien C und C ′ Kantengewichte auf E mit C ′ (x, y) ≤ C(x, y) für 

alle x, y ∈ E. Ist die Markovkette X zu den Gewichten C rekurrent, so ist es auch 

die Markovkette X ′ zu den Gewichten C ′ . 

Sei speziell (E,K) ein Graph und (E ′ ,K ′ ) ein Teilgraph. Ist die einfache Irrfahrt 

auf (E,K) rekurrent, so ist auch die einfache Irrfahrt auf (E ′ ,K ′ ) rekurrent. 

Beweis. Das folgt direkt aus Satz 19.25 zusammen mit dem Rayleigh’schen Monotonieprinzip 

(Satz 19.19). ✷ 

Beispiel 19.31. Die symmetrische einfache Irrfahrt auf Z3 ist transient. Zum Beweis 

konstruieren wir einen Teilgraphen, für den wir R ′ eff (0 ↔∞) < ∞ ausrechnen 

können. 

Skizze Wir betrachten die Menge aller unendlichen Pfade, die in 0 starten und 

– einen Schritt in x-Richtung, y-Richtung oder z-Richtung gehen (rechts, oben oder 

hinten, nicht links, unten oder vorne), 

– eine eventuell andere Richtung x, y oder z wählen und dann zwei Schritte in diese 

Richtung gehen,


– in der n-ten Stufe eine der Richtungen x, y oder z wählen und 2 n+1 Schritte in 

diese Richtung gehen. 

Wir bezeichnen etwa mit xyyxxxxzzzzzzzz ... den Pfad, der zunächst die x- 

Richtung, dann y, dannx, dannz und so fort gewählt hat. Zwei Pfade benutzen 

offenbar nach dem Zeitpunkt, wo sich ihre Wege trennen, keine gemeinsamen Kanten 

mehr. Allerdings werden manche Knoten von mehreren Pfaden getroffen. 

x 

y 

z 

zx 

xx 

xy 

xz 

zy 

yx 

yy 

yz 

zz 

zzz 

xxx 

xzz 

xyy 

yxx 

yyy 

yzz 

zyy 

zxx 

Abb. 19.5. Schema der ersten drei Schritte des Graphen von Beispiel 19.31. Links sind die 

tatsächlichen Kanten eingezeichnet, wobei beispielsweise xyy bedeutet, dass zunächst in 

Schritt in x-Richtung gemacht wurde, dann einer in y-Richtung und jetzt die weiterführende 

Kante in y-Richtung betrachtet wird. Rechts sind die Knoten an den Enden von xz/zx, 

xy/yx und yz/zy jeweils in zwei Knoten aufgelöst und mit einem ” Supraleiter“ (fette 

Linien) verbunden. Wenn wir die Supraleiter entfernen, so erhalten wir das Netzwerk aus 

Abb. 19.6, dessen effektiver Widerstand R ′ eff(0 ↔∞) nicht kleiner ist als derjenige in Z 3 . 

(Wird an die Wurzel die Spannung 1 und an den rechten Punkten jeweils die Spannung 0 

angelegt, so fließt aus Symmetriegründen durch die Supraleiter kein Strom. Das Netzwerk 

hier ist also sogar äquivalent zu dem in Abb. 19.6.) 

Wenn wir das elektrische Netzwerk mit Einheitswiderständen und Spannung 1 im 

Ursprung sowie Spannung 0 an allen Punkten von Pfaden nach der n-ten Stufe betrachten, 

so hängt aus Symmetriegründen die Spannung an jedem Knoten des Netzwerks 

nur vom Abstand (kürzester Weg entlang Pfaden) zum Ursprung ab. Wir erhalten 

also ein äquivalentes Netzwerk, wenn wir mehrfach benutzte Knoten durch 

entsprechend mehrere Knoten ersetzen (siehe Abb. 19.5). So erhalten wir ein Netzwerk, 

das eine Baumstruktur hat: jeweils nach 2 n Schritten verzweigt jeder Pfad in 

x 

y 

z 

xx 

xy 

zy 

zx 

yx 

yz 

xz 

yy 

zz 

xxx 

xzz 

xyy 

yxx 

yyy 

yzz 

zyy 

zzz 

zxx


drei Pfade (siehe Abb. 19.6). Die 3 n Pfade von der n-ten Generation zur (n +1)ten 

Generation sind disjunkte Pfade der Länge 2 n−1 .SindB(n) alle Punkte bis zur 

n-ten Generation, so ist 

� 

R ′ eff(0 ↔ B(n +1) c n−1 

)= R ′ eff(B(k) ↔ B(k) c n−1 

)= 2 k 3 −k . 

R eff (02)=5/9 

k=0 

� 

k=0 

0 1 2 3 

R(01)=1/3 R(12)=2/9 R(23)=4/27 

R (03)=19/27 

eff 

Abb. 19.6. Ein Baum als Teilgraph von Z 3 , auf dem die Irrfahrt immer noch transient ist.

Also ist R ′ eff(0 ↔∞)= 1 

3 

∞� 

k=0 

19.5 Netzwerkreduktion 405 

� �k 2 

=1< ∞. Für diesen Baum ist die Irrfahrt 

3 

transient, nach Satz 19.30 also auch für Z 3 . ✸ 

Beispiel 19.32. Die symmetrische einfache Irrfahrt auf Z d , d ≥ 3, ist transient. Dies 

gilt nach Satz 19.30, weil wir Z 3 als Teilgraphen von Z d auffassen können und hier 

die Irrfahrt transient ist. ✸ 

19.5 Netzwerkreduktion 

Beispiel 19.33. Wir betrachten die Irrfahrt auf dem Graphen aus Abb. 19.7, die in x 

startet und an jedem Punkt mit gleicher Wahrscheinlichkeit zu einem der Nachbarpunkte 

springt. Mit welcher Wahrscheinlichkeit P trifft die Kette den Punkt 1 bevor 

sie den Punkt 0 trifft? Wir können den Graphen als elektrisches Netzwerk auffassen 

0 

x 

1 

Abb. 19.7. Ausgangssituation 

mit gleichem Widerstand (etwa 1) an jeder Kante, Spannung 0 in 0 und Spannung 

1 in 1. Wenn wir die beiden effektiven Widerstände Reff(0 ↔ x) und Reff(x ↔ 1) 

kennen, erhalten wir als Spannung 

P = u(x) = 

Reff(0 ↔ x) 

. (19.11) 

Reff(0 ↔ x)+Reff(x ↔ 1) 

Um die effektiven Widerstände auszurechnen, wollen wir das Netzwerk schrittweise 

vereinfachen, bis nur noch zwei Kanten übrig sind: von 0 nach x und von x nach 1. 

Die erforderlichen Schritte werden im Folgenden vorgestellt und dann im Beispiel 

angewandt. ✸


Um ein elektrisches Netzwerk zu reduzieren, kann man vier elementare Transformationen 

anwenden: 

1. Entfernen von Schleifen Die drei Punkte ganz rechts im Graphen bilden eine 

Schleife, die ohne Veränderungen im Rest des Netzwerks entfernt werden kann. 

Insbesondere kann jede Kante entfernt werden, die 0 und 1 direkt verbindet. 

2. Zusammenfassen von seriellen Kannten Zwei (oder mehr) Kanten, die seriell 

liegen, und deren dazwischen liegende Knoten keine weiteren Verbindungen haben, 

können durch ein Kante ersetzt werden, deren Widerstand die Summe der einzelnen 

Widerstände ist (siehe Abb. 19.1). 

3. Zusammenfassen von parallelen Kannten Zwei (oder mehr) Kanten mit Widerständen 

R1,...,Rn, die die selben Knoten verbinden, können durch eine Kante 

mit Widerstand R =(R −1 

1 + ...+ R−1 n ) −1 ersetzt werden (siehe Abb. 19.2). 

4. Stern-Dreieck-Transformation (Siehe Übung 17.5.1) Der sternförmige Ausschnitt 

eines Netzwerk links in Abb. 19.8 ist äquivalent zum dreieckigen Ausschnitt 

rechts, wenn die Widerstände R1,R2,R3, � R1, � R2, � R3 die folgende Bedingung 

erfüllen 

wobei 

x1 

Ri ˜ Ri = δ für jedes i =1, 2, 3, (19.12) 

� −1 

δ = R1R2R3 R1 + R−1 2 

R1 

R3 

x3 

x2 

� 

+ R−1 3 = 

z R2 

x1 

Abb. 19.8. Stern-Dreieck-Transformation 

�R1 � R2 � R3 

�R1 + � R2 + � . 

R3 

Wir lösen nun die Aufgabe aus Beispiel 19.33 konkret. Wir nehmen an, dass anfangs 

jede Kante den Widerstand 1 hat. Kanten, die im Verlauf der Reduktion andere 

Widerstände als 1 haben, werden mit dem entsprechenden Widerstand beschriftet. 

�R2 

�R3 

x3 

�R1 

x2

Schritt 1. Die Schleife am rechten Rand wird entfernt. 


Schritt 2. Die Serien an der oberen, rechten und unteren Ecke werden durch je 

einen Widerstand der Größe 2 ersetzt. 

0 

x 

1 

0 

Abb. 19.9. Schritt 1 und 2 

Schritt 3. Der linke untere Knoten wird mit der Stern-Dreieck-Transformation 

entfernt. Hier ist R1 =1, R2 =2, R3 =1, δ =5, � R1 = δ/R1 =5, � R2 = δ/R2 = 

5/2 und � R3 = δ/R3 =5. 

Schritt 4. Die parallelen Kanten mit Widerständen R1 =5und R2 =1werden 

ersetzt durch eine Kante mit R =( 1 

5 +1)−1 = 5 

6 . 

0 

2 

x 1 

5/2 

5 

5 

2 

0 

x 


x 

5/2 

5 

2 

2 

2 

5/6 

1 

2 

1 

2


Schritt 5. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation 

entfernt. Hier ist R1 =5, R2 =2, R3 = 5 

6 , δ =95/6, � R1 = δ/R1 =19/6, 

�R2 = δ/R2 =95/12 und � R3 = δ/R3 =19. 

Schritt 6. Die parallelen Kanten werden durch je eine Kante ersetzt mit Widerstand 

( 12 2 

95 + 5 )−1 = 19 

6 

10 beziehungsweise ( 19 +1)−1 = 19 

25 . Zudem wird die direkte 

Kante zwischen Punkt 0 und Punkt 1 entfernt. 

0 

x 

5/2 

95/12 

2 

19/6 

19 

0 

1 

x 


19/10 

2 

19/25 

Schritt 7. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation 

entfernt. Hier ist R1 = 19 

10 , R2 = 19 

25 , R3 = 1, δ = 513 

125 , � R1 = δ/R1 = 54 

25 , 

�R2 = δ/R2 = 27 

5 und � R3 = δ/R3 = 513 

125 . 

Schritt 8. Die parallelen Kanten werden durch je eine Kante ersetzt mit Widerstand 

( 5 

27 +1)−1 = 27 

25 1 

32 beziehungsweise ( 54 + 2 )−1 = 27 

26 . Zudem wird die direkte 

Kante zwischen Punkt 0 und Punkt 1 entfernt. 

0 

x 

27/5 

2 

54/25 

513/125 

0 

1 

x 

27/32 


27/26 

Wir haben jetzt also die effektiven Widerstände Reff(0 ↔ x) = 27 

32 und Reff(x ↔ 

1) = 27 

26 . Mit Gleichung (19.11) erhalten wir als Wahrscheinlichkeit, dass die Irrfahrt 

1 erreicht, bevor sie 0 erreicht: 

P = 

27 

32 

27 

32 

+ 27 

26 

= 13 

. ✸ 

29 

1 

1

Alternative Lösung 


Wir können die Lösung des Problems aus Beispiel 19.33 auch ohne Netzwerke, 

alleine mit linearer Algebra angeben. Welche Lösung eleganter ist, ist wohl Geschmackssache. 

Zunächst stellen wir die Übergangsmatrix p der Markovkette auf 

(hierfür werden die Knoten des Graphen von 1 bis 12 durchnummeriert wie in 

Abb. 19.13). Der Startpunkt ist die 2, das ” Gewinnfeld“ ist die 3 und das ” Verlustfeld“ 

die 5. Nun wird die Matrix p der in 3 und 5 getöteten Kette gebildet und 

5 

2 

9 

1 

6 

12 

3 

10 

7 

4 

11 

Abb. 19.13. Graph mit nummerierten Knoten 

G =(I − p) −1 berechnet. Nach Übung 19.1.1 (mit A = {3, 5}, x =2und y =3) 

ist die Wahrscheinlichkeit 3 vor 5 zu treffen P = G(2, 3) = 13 

29 . 

⎛ 

1 1 0 2 2 0 0 0 0 0 0 0 0 

⎜ 1 

1 1 

⎜ 3 0 0 0 3 3 0 0 0 0 0 

⎜ 0 0 0 0 0 0 0 0 0 0 0 

⎜ 

1 1 

⎜ 0 0 0 0 0 0 2 2 0 0 0 

⎜ 0 0 0 0 0 0 0 0 0 0 0 

⎜ 1 1 

1 1 

⎜ 0 4 4 0 0 0 0 0 4 4 0 

p := ⎜ 

1 1 

1 1 

⎜ 

0 0 4 4 0 0 0 0 0 4 4 

⎜ 

1 

1 

⎜ 0 0 0 

⎜ 

2 0 0 0 0 0 0 2 

⎜ 

1 1 

⎜ 0 0 0 0 3 3 0 0 0 0 0 

⎜ 

1 1 

0 0 0 0 0 

⎜ 

3 3 0 0 0 0 

⎜ 

1 1 

⎝ 0 0 0 0 0 0 2 2 0 0 0 

0 

0 

0 

0 

0 

0 

0 

0 

1 

3 

1 

3 

0 

⎞ 

⎟ 

⎠ 

0 0 0 0 0 0 0 0 1 

2 

1 

2 0 0 

8


G := (I − p) −1 ⎛ 

143 

⎜ 116 

⎜ 27 

⎜ 58 

⎜ 0 

⎜ 3 

⎜ 58 

⎜ 0 

⎜ 19 

= ⎜ 116 

⎜ 3 

⎜ 58 

⎜ 3 

⎜ 58 

⎜ 5 

⎜ 58 

⎜ 3 

⎜ 29 

⎜ 3 

⎝ 58 

81 

116 

81 

58 

0 

9 

58 

0 

57 

116 

9 

58 

9 

58 

15 

58 

9 

29 

9 

58 

21 

29 

13 

29 

1 

24 

29 

0 

18 

29 

24 

29 

24 

29 

11 

29 

19 

29 

24 

29 

3 

58 

3 

29 

0 

165 

58 

0 

15 

58 

39 

29 

68 

29 

7 

29 

20 

29 

107 

58 

8 

29 

16 

29 

0 

5 

29 

1 

11 

29 

5 

29 

5 

29 

18 

29 

10 

29 

5 

29 

19 

58 

19 

29 

0 

15 

29 

0 

95 

58 

15 

29 

15 

29 

25 

29 

30 

29 

15 

29 

3 

29 

6 

29 

0 

78 

29 

0 

15 

29 

78 

29 

78 

29 

14 

29 

40 

29 

78 

29 

3 

58 

3 

29 

0 

68 

29 

0 

15 

58 

39 

29 

97 

29 

7 

29 

20 

29 

68 

29 

15 

116 

15 

58 

0 

21 

58 

0 

75 

116 

21 

58 

21 

58 

93 

58 

21 

29 

21 

58 

9 

58 

9 

29 

0 

30 

29 

0 

45 

58 

30 

29 

30 

29 

21 

29 

60 

29 

30 

29 

3 

58 

3 

29 

0 

107 

58 

0 

15 

58 

39 

29 

68 

29 

7 

29 

20 

29 

165 

58 

11 

116 

11 

58 

0 

27 

58 

0 

55 

116 

27 

58 

27 

58 

45 

58 

27 

29 

27 

58 

11 

116 

33 

116 

15 

29 

27 

58 

Übung 19.5.1. Man zeige die Gültigkeit der Stern-Dreieck-Transformation. ♣ 

Übung 19.5.2. Man zeige für den unten stehenden hexagonalen Graphen, dass die 

Wahrscheinlichkeit, von x aus startend die 1 vor der 0 zu treffen, gleich 8 

17 ist 

(i) mit der Methode der Netzwerkreduktion, 

(ii) mit der Methode der Matrixinversion. ♣ 

1 

14 

29 

x 

55 

58 

27 

29 

27 

58 

135 

116 

81 

58 

0 

27 

58 

215 

116 

⎞ 

⎟ 

⎠

Übung 19.5.3. Man betrachte den Graphen aus Abb. 19.14. 


(i) Zeige für die effektive Leitfähigkeit zwischen den Punkten a und z, dass 

Ceff(a ←→ z) = √ 3. 

(ii) Zeige, dass die Wahrscheinlichkeit Pa[τz


19.6 Irrfahrt in zufälliger Umgebung 

(Vergleiche [163], [135] und [76, 77].) Wir betrachten eine Markovkette X auf 

Z, die in jedem Schritt entweder einen Punkt nach links oder einen Punkt nach 

rechts springt, jeweils mit Wahrscheinlichkeit w − 

i beziehungsweise w+ i , falls X 

in i ∈ Z ist. Es seien also w − 

i ∈ (0, 1) und w+ i := 1 − w − 

i für i ∈ Z. DannistX 

die Markovkette mit Übergangsmatrix 

⎧ 

⎪⎨ w 

pw(i, j) = 

⎪⎩ 

− 

i , falls j = i − 1, 

w + 

i , falls j = i +1, 

0, sonst. 

Um X durch die Leitfähigkeiten eines elektrischen Netzwerks zu beschreiben, setzen 

wir ϱi := w − 

i /w+ i für i ∈ Z sowie Cw(i, j) :=0 falls |i − j| �= 1 und 

� �i k=0 

Cw(i +1,i):=Cw(i, i +1) := 

ϱ−1 

k , falls i ≥ 0, 

�−1 k=i ϱk, falls i

19.6 Irrfahrt in zufälliger Umgebung 413 

Satz 19.34. (i) Gilt R − w < ∞ oder R + w < ∞, so gilt (mit ∞ 

∞ =1) 

� 

P0 Xn 

n→∞ 

−→ −∞ � = 

R + w 

R − w + R + w 

� 

und P0 Xn 

(ii) Gilt R − w = ∞ und R + w = ∞, so gilt lim inf 

fast sicher. 

n→∞ 

−→ +∞ � = 

R − w 

R − w + R + w 

n→∞ Xn = −∞ und lim sup Xn = ∞ 

n→∞ 

Beweis. (i) Ohne Einschränkung sei R − w < ∞. Der andere Fall folgt aus Symmetriegründen. 

Sei τN := inf � n ∈ N0 : Xn ∈{−N,N} � .DaX transient ist, ist 

P0[τN < ∞] =1und (wie in (19.7)) 

� 

P0 XτN = −N� = Rw,eff(0 ↔ N) 

Rw,eff(−N ↔ N) = 

Es folgt, wiederum, weil X transient ist, 

� 

P0 Xn 

Rw,eff(0 ↔ N) 

Rw,eff(0 ↔−N)+Rw,eff(0 ↔ N) . 

n→∞ 

−→ −∞ � = P � sup{Xn : n ∈ N0} < ∞ � 

= lim 

N→∞ P� sup{Xn : n ∈ N0}


Definition 19.35. Der Prozess X heißt heißt Irrfahrt in der zufälligen Umgebung 

W (random walk in random environment). 

Seien ϱi := W − + 

i /W i für i ∈ Z und R − 

W 

und R+ 

W 

wie oben definiert. 

Satz 19.36. (i) Gilt E[log(ϱ0)] < 0,sogiltXn n→∞ 

−→ ∞ f.s. 

(ii) Gilt E[log(ϱ0)] > 0,sogiltXn n→∞ 

−→ −∞ f.s. 

(iii) Gilt E[log(ϱ0)] = 0,sogiltlim inf 

n→∞ Xn = −∞ und lim sup Xn = ∞ f.s. 

n→∞ 

Beweis. (i) und (ii) Aus Symmetriegründen reicht es, (ii) zu zeigen. Sei also c := 

E[log(ϱ0)] > 0. Nach dem starken Gesetz der großen Zahl gibt es ein n − 0 = n− 0 (ω) 

mit 

Es folgt 

1� 

k=−n 

R − 

W = 

n=1 

ϱ −1 

k =exp 

� 

− 

∞� 

1� 

k=−n 

ϱ −1 

k ≤ 

1� 

k=−n 

n − 

0 −1 

� 

n=1 

Analog gibt es ein n + 0 = n+ 0 (ω) mit 

Es folgt 

R + 

W = 

∞� 

n� 

k=0 

n� 

ϱk ≥ 

n=0 k=0 

ϱk >e cn/2 

� 

log(ϱi) −∞ und lim supn→∞ k=−n log(ϱ−1 k ) > −∞ 

fast sicher, wenn E[log(ϱ0)] = 0 gilt. Wenn log(ϱ0) von endlicher Varianz ist, 

folgt dies aus dem Zentralen Grenzwertsatz. Im allgemeinen Fall folgt dies aus 

Satz 20.21. ✷

20 Ergodentheorie 

Gesetze der großen Zahl, zum Beispiel für u.i.v. Zufallsvariablen X1,X2,... besagen, 

dass n−1 �n i=1 Xi 

n→∞ 

−→ E[X1] fast sicher konvergiert. Wir können also die 

Mittelung über die tatsächliche Realisierung vieler Zufallsvariablen mit der Mittelung 

über die möglichen Realisierungen eines Xi vertauschen. In der statistischen 

Physik spricht man von der Äquivalenz von Zeitmittel und Scharmittel, oder der Mittelung 

entlang einer Trajektorie (griechisch odos) des Systems gegenüber der Mittelung 

aller möglichen Zustände mit gleicher Energie (griechisch ergon). Hieraus 

leitet sich der Begriff der Ergodentheorie ab, die Gesetze der großen Zahl für Zufallsvariablen 

mit Abhängigkeiten, aber zeitlicher Stationarität liefert. 

20.1 Begriffsbildung 

Definition 20.1. Sei I eine unter Addition abgeschlossene Menge (die wichtigsten 

Beispiele für uns sind I = N0, I = N, I = Z, I = R, I =[0, ∞), I = Z d usw.). 

Ein stochastischer Prozess X =(Xt)t∈I heißt stationär, falls 

L [(Xt+s)t∈I] =L [(Xt)t∈I] für jedes s ∈ I. (20.1) 

Bemerkung 20.2. Ist I = N0, I = N oder I = Z, so ist (20.1) äquivalent zu 

L [(Xn+1)n∈I] =L [(Xn)n∈I] . ✸ 

Beispiel 20.3. (i) Ist X =(Xt)t∈I u.i.v., so ist X stationär. Ist lediglich PXt = 

PX0 für jedes t ∈ I (ohne die Unabhängigkeit), so ist X im Allgemeinen nicht 

stationär. Beispielsweise sei I = N0 und X1 = X2 = X3 = ..., jedoch X0 �= 

X1 .DannistX nicht stationär. 

(ii) Ist X eine Markovkette mit invarianter Verteilung π ,sowie L[X0] =π,dann 

ist X stationär. 

(iii) Sind (Yn)n∈Z u.i.v. und reell, sowie c1,...,ck ∈ R, danndefiniert 

k� 

Xn := cl Yn−l 

l=1

416 20 Ergodentheorie 

einen stationären Prozess X. X heißt manchmal auch moving average oder gleitendes 

Mittel mit Gewichten (c1,...,ck). Eine genauere Betrachtung ergibt, dass 

X sogar dann stationär ist, wenn Y nur als stationär vorausgesetzt wird. ✸ 

Lemma 20.4. Ist (Xn)n∈N0 stationär,solässt sich X zu einem stationären Prozess 

� � 

Xn 

� 

n∈Z fortsetzen. 

Beweis. Sei � X der kanonische Prozess auf Ω = EZ .Sei� P {−n,−n+1,...} � ∈ 

{−n,−n+1,...} E � definiert durch 

M1 

�P {−n,−n+1,...}� � X−n ∈ A−n, � X−n+1 ∈ A−n+1,... � 

= P � X0 ∈ A−n,X1 ∈ A−n+1,... � . 

Dann ist � � 

P � {−n,−n+1,...} ,n ∈ N projektiv und {−n, −n +1,...} ↑ Z. Nach 

dem Satz von Ionescu-Tulcea (Satz 14.32) existiert der projektive Limes � P := 

�P {−n,−n+1,...} . Per Konstruktion ist � X stationär bezüglich � P und 

lim 

←− 

n→∞ 

�P ◦ � ( � Xn)n∈N0 

� −1 = P ◦ � (Xn)n∈N0 

� −1. ✷ 

Im Folgenden sei stets (Ω,A, P) ein W-Raum und τ : Ω → Ω eine messbare 

Abbildung. 

Definition 20.5. Ein Ereignis A ∈ A heißt invariant, falls τ −1 (A) = A und 

quasi-invariant, falls τ −1 (A) = A P–f.s. Die σ-Algebra der invarianten Ereignisse 

bezeichnen wir mit 

I = � A ∈A: τ −1 (A) =A � 

Lemma 20.6. Eine messbare Abbildung f :(Ω,A) → (R, B(R)) ist genau dann 

I-messbar, wenn f ◦ τ = f ist. 

Beweis. Für Indikatorfunktionen f = A ist dies klar. Der allgemeine Fall folgt 

mit den üblichen Approximationsargumenten (siehe Satz 1.96(i)). ✷ 

Zur Erinnerung: Eine σ-Algebra I heißt P-trivial, falls P[A] ∈{0, 1} für jedes 

A ∈I gilt. 

Definition 20.7. (i) τ heißt maßtreu, falls 

P � τ −1 (A) � = P[A] für jedes A ∈A. 

In diesem Falle heißt (Ω,A, P,τ) ein maßerhaltendes dynamisches System. 

(ii) Ist τ maßtreu und I P-trivial, so heißt (Ω,A, P,τ) ergodisch.

20.1 Begriffsbildung 417 

Beispiel 20.8. Sei n ∈ N \{1}, Ω = Z/(n), A =2 Ω und P die Gleichverteilung 

auf Ω.Seir ∈{1,...,n} und 

τ : Ω → Ω, x ↦→ x + r (mod n). 

Dann ist τ maßtreu. Ist d = ggT(n, r) und für i =0,...,d− 1 

Ai = � i, τ(i),τ 2 (i),...,τ n−1 (i) � = i + 〈r〉, 

so sind A0,...,Ad−1 die disjunkten Nebenklassen des Normalteilers 〈r〉 ✂ Ω.Also 

ist Ai ∈Ifür i =0,...,d− 1, und jedes A ∈Iist Vereinigung von gewissen Ai. 

Mithin gilt: 

(Ω,A, P,τ) ist ergodisch ⇐⇒ ggT(r, n) =1. ✸ 

Beispiel 20.9 (Rotation). Sei Ω =[0, 1), A = B(Ω), P = λ das Lebesgue-Maß, 

r ∈ (0, 1) und τr(x) =x + r (mod 1).Offenbarist(Ω,A, P,τr) ein maßerhaltendes 

dynamisches System. 

Sei zunächst r rational, also r = p 

q für gewisse teilerfremde Zahlen p, q ∈ N. Setze 

A0 = � 0, 1 

� �q−1 2q und A = n=0 τ n r (A0). Wegenτq =idΩ, istA∈Iund P[A] = 1 

2 , 

also ist (Ω,A, P,τr) nicht ergodisch. 

Sei nun r ∈ (0, 1) irrational. Offenbar gilt für jedes x ∈ [0, 1) und ε>0, dass 

�∞ k=1 

τ −k 

r (Bε(x)) = [0, 1), weil {x, τ −1 

r (x),τ −2 

r (x),...}⊂[0, 1) dicht ist. Also 

gilt für jede offene Menge V ∈ I entweder V = ∅ oder V = [0, 1). Sei nun 

A ∈Ibeliebig mit P[A] > 0. Nach dem Approximationssatz für Maße (Satz 1.65) 

existiert ein offene Menge U ⊂ A mit P[U] > 0. Setzen wir 

V = 

∞� 

k=−∞ 

τ k r (U) ⊂ 

∞� 

k=−∞ 

τ k r (A) =A, 

so ist V offen und V ∈I, also V =[0, 1) und damit A =[0, 1). 

Wir haben also gezeigt: 

(Ω,A, P,τr) ist ergodisch ⇐⇒ r ist irrational. ✸ 

Beispiel 20.10. Sei X =(Xn)n∈N0 ein stochastischer Prozess mit Werten in einem 

polnischen Raum E. Ohne Einschränkung können wir annehmen, dass X der kanonische 

Prozess auf dem W-Raum (Ω,A, P) = � EN0 , B(E) ⊗N0 , P � ist. Definiere 

den Shift 

τ : Ω → Ω, (ωn)n∈N0 ↦→ (ωn+1)n∈N0 . 

Dann ist Xn(ω) =X0(τ n (ω)).AlsoistXgenau dann stationär, wenn (Ω,A, P,τ) 

ein maßerhaltendes dynamisches System ist. ✸ 

Definition 20.11. Der stochastische Prozess X (aus Beispiel 20.10) heißt ergodisch, 

falls (Ω,A, P,τ) ergodisch ist.


Beispiel 20.12. Seien (Xn)n∈N0 u.i.v. und Xn(ω) =X0(τ n (ω)). IstA ∈I,soist 

für n ∈ N 

A = τ −n (A) ={ω : τ n (ω) ∈ A} ∈σ(Xn,Xn+1,...). 

Also ist (mit T die terminale σ-Algebra von (Xn)n∈N, siehe Definition 2.34) 

I⊂T = 

∞� 

σ(Xn,Xn+1,...). 

n=1 

Nach dem Kolmogorov’schen 0 − 1 Gesetz (Satz 2.37) ist T P-trivial, also ist auch 

I P-trivial und damit (Xn)n∈N0 ergodisch. ✸ 

Übung 20.1.1. Sei G eine endliche Gruppe von maßtreuen messbaren Abbildungen 

auf (Ω,A, P) und A0 := {A ∈A: g(A) =A für alle g ∈ G}. 

Man zeige: Für jedes X ∈L 1 (P) gilt 

20.2 Ergodensätze 

E[X |A0] = 1 

#G 

� 

X ◦ g. ♣ 

In diesem Abschnitt ist stets (Ω,A, P,τ) ein maßerhaltendes dynamisches System. 

Ferner sei f : Ω → R messbar und 

g∈G 

Xn(ω) =f ◦ τ n (ω) für jedes n ∈ N0. 

Also ist X =(Xn)n∈N0 ein stationärer, reeller stochastischer Prozess. Sei 

� 

n−1 

Sn = Xk 

k=0 

die n-te Partialsumme. Die Ergodensätze beschäftigen sich mit Gesetzen der großen 

Zahl für die (Sn). Als Vorbereitung bringen wir ein Lemma. 

Lemma 20.13 (Hopf’sches Maximal-Ergodenlemma). Sei X0 ∈ L1 Mn =max{0,S1,...,Sn}, n∈ N. Dann gilt 

(P). Setze 

E � X0 

� 

{Mn>0} ≥ 0 für jedes n ∈ N. 

Beweis. Für k ≤ n ist Mn(τ(ω)) ≥ Sk(τ(ω)). Alsoist 

X0 + Mn ◦ τ ≥ X0 + Sk ◦ τ = Sk+1.

20.2 Ergodensätze 419 

Daher ist X0 ≥ Sk+1 − Mn ◦ τ für k =1,...,n. Offensichtlich ist S1 = X0 und 

Mn ◦ τ ≥ 0, also auch (für k =0) X0 ≥ S1 − Mn ◦ τ und damit auch 

Außerdem ist offenbar 

X0 ≥ max{S1,...,Sn}−Mn ◦ τ. (20.2) 

{Mn > 0} c ⊂{Mn =0}∩{Mn ◦ τ ≥ 0} ⊂{Mn − Mn ◦ τ ≤ 0}. (20.3) 

Aus (20.2) und (20.3) und der Maßtreue von τ folgt 

E � � � � 

X0 {Mn>0} ≥ E (max{S1,...,Sn}−Mn ◦ τ) {Mn>0} 

= E � � 

(Mn − Mn ◦ τ) {Mn>0} 

≥ E � Mn − Mn ◦ τ � = E[Mn] − E[Mn] = 0. ✷ 

Satz 20.14 (Individueller Ergodensatz, Birkhoff 1931). Sei f = X0 ∈L 1 (P). 

Dann gilt 

n−1 

1 � 

n 

k=0 

� 

Xk = 1 

n−1 

n 

k=0 

Ist speziell τ ergodisch, so gilt 1 

n 

f ◦ τ k n→∞ 

n−1 � 

Xk 

k=0 

� 

−→ E[X0 

�I] P-f.s. 

n→∞ 

−→ E[X0] P-f.s. 

Beweis. Ist τ ergodisch, so ist E[X0 |I] = E[X0] und der Zusatz folgt aus der 

ersten Aussage. 

Wir betrachten nun den allgemeinen Fall. Nach Lemma 20.6 ist E[X0 |I] ◦ τ = 

E[X0 |I] P–f.s. Wir können also � Xn := Xn − E[X0 |I] betrachten und daher 

ohne Beschränkung der Allgemeinheit E[X0 |I]=0annehmen. Setze 

Z := lim sup 

n→∞ 

1 

n Sn. 

Sei ε>0 und F := {Z > ε}. Zu zeigen ist, dass P[F ]=0gilt. Hieraus folgt 

1 

dann P[Z >0]=0und analog mit −X auch lim inf 

n→∞ nSn ≥ 0 fast sicher, also 

1 

nSn n→∞ 

−→ 0 f.s. 

Offenbar ist Z ◦ τ = Z, also F ∈I. Setze 

X ε n := (Xn − ε) F , S ε n := X ε 0 + ...+ X ε n−1, 

M ε n := max{0,S ε 1,...,S ε n}, Fn := {M ε n > 0}.


Dann ist F1 ⊂ F2 ⊂ ... und 

∞� 

n=1 

Fn = 

� 

1 

sup 

k∈N k Sε k > 0 

� 

= 

� 

1 

sup 

k∈N k Sk 

� 

>ε ∩ F = F, 

also Fn ↑ F . Majorisierte Konvergenz liefert E [Xε n→∞ 

0 Fn ] −→ E [Xε 0]. 

Nach dem Maximal-Ergodenlemma (angewandt auf Xε )istE [Xε 0 Fn ] ≥ 0, also 

0 ≤ E [X ε 0]=E [(X0 − ε) F ]=E [E [X0 |I] F ] − εP[F ]=−εP[F ]. 

Mithin ist P[F ]=0. ✷ 

Als Folgerung erhält man den statistischen Ergodensatz oder L p -Ergodensatz, den 

von Neumann 1931 vor Birkhoff gefunden hat. Zur Vorbereitung bringen wir ein 

elementares Lemma. 

Lemma 20.15. Sei p ≥ 1, und seien X0,X1,... identisch verteilte, reelle Zufallsvariablen 

mit E[|X0| p � n−1 

� � � 

� 

] < ∞. Setzen wir Yn := 

für n ∈ N, soist 

(Yn)n∈N gleichgradig integrierbar. 

� 1 

n 

Xk� 

k=0 

p 

Beweis. Offenbar ist die einelementige Familie {|X0| p } gleichgradig integrierbar. 

Nach Satz 6.19 existiert also eine monoton wachsende, konvexe Abbildung 

f :[0, ∞) → [0, ∞) mit f(x) 

x →∞für x →∞und C := E[f(|X0| p )] < ∞. Nach 

Satz 6.19 reicht es wiederum zu zeigen, dass E[f(Yn)] ≤ C für jedes n ∈ N. Nach 

der Jensen’schen Ungleichung (für x ↦→ |x| p )ist 

Yn ≤ 1 

n−1 

n 

k=0 

� 

|Xk| p . 

Die Jensen’sche Ungleichung (diesmal auf f angewandt) liefert dann 

� 

n−1 

1 � 

f(Yn) ≤ f |Xk| 

n 

p 

� 

≤ 1 

n−1 � 

f(|Xk| 

n 

p ), 

k=0 

also E[f(Yn)] ≤ 1 

n−1 � 

n E[f(|Xk| p )] = C. ✷ 

k=0 

Satz 20.16 (L p -Ergodensatz, von Neumann 1931). Sei (Ω,A, P,τ) ein maßerhaltendes 

dynamisches System, p ≥ 1, X0 ∈L p (P) und Xn = X0 ◦ τ n . Dann 

gilt 

n−1 

1 � 

n 

Xk 

k=0 

Ist speziell τ ergodisch, so gilt 1 

n 

k=0 

n→∞ 

−→ E[X0 |I] in L p (P). 

n−1 � 

Xk 

k=0 

n→∞ 

−→ E[X0] in L p (P).

Beweis. Setze 

Yn := 

� 

� 

� n−1 

� 1 � 

� 

� 

� Xk − E[X0 |I] � 

�n 

� 

k=0 

p 


20.3 Beispiele 421 

Nach Lemma 20.15 ist (Yn)n∈N gleichgradig integrierbar, und nach dem Birkhoff’schen 

Ergodensatz gilt Yn 

lim 

n→∞ 

n→∞ 

−→ 0 fast sicher. Nach Satz 6.25 gilt daher 

E[Yn] =0. 

Ist τ ergodisch, so ist E[X0 |I]=E[X0]. ✷ 

20.3 Beispiele 

Beispiel 20.17. Sei (X, (Px)x∈E) eine positiv rekurrente, irreduzible Markovkette 

auf dem abzählbaren Raum E mit invarianter Verteilung π.Dannistπ({x}) > 0 für 

jedes x ∈ E. Setze Pπ = � 

x∈E π({x})Px. DannistXstationär auf (Ω,A, Pπ). 

Wir schreiben τ für den Shift, also Xn = X0 ◦ τ n . 

∞� 

Sei nun A ∈ I invariant. Dann ist A ∈ T = σ(Xn,Xn+1,...). Nach der 

starken Markoveigenschaft ist daher für jede endliche Stoppzeit σ (mit Fσ die σ- 

Algebra der σ-Vergangenheit) 

n=1 

Pπ[X ∈ A � �Fσ] =PXσ [X ∈ A]. (20.4) 

In der Tat ist {X ∈ A} = {X ∈ τ −n (A)} = {(Xn,Xn+1,...) ∈ A}. Für B ∈Fσ 

erhalten wir mit der Markoveigenschaft (in der dritten Zeile) 

� � 

Eπ {X∈B} {X∈A} = 

= 

= 

∞� � 

n=0 x∈E 

∞� � 

n=0 x∈E 

∞� � 

n=0 x∈E 

� 

Pπ X ∈ B, σ = n, Xn = x, X ∈ A � 

� 

Pπ X ∈ B, σ = n, Xn = x, X ◦ τ n ∈ A � 

� 

Pπ X ∈ B, σ = n, Xn = x � Px[X ∈ A] 

� 

= Eπ {X∈B} PXσ [X ∈ A]� . 

Ist speziell x ∈ E und σx =inf{n ∈ N0 : Xn = x}, soistσx < ∞, weil X 

rekurrent und irreduzibel ist. Es folgt aus (20.4) für jedes x ∈ E 

Pπ[X ∈ A] =Eπ [Px[X ∈ A]] = Px[X ∈ A]. 

Also ist PXn [X ∈ A] =Pπ[X ∈ A] fast sicher und daher (mit σ = n in (20.4))


Pπ[X ∈ A � �X0,...,Xn] =PXn [X ∈ A] =Pπ[X ∈ A]. 

Nun ist A ∈I⊂σ(X1,X2,...), also 

Pπ[X ∈ A � �X0,...,Xn] n→∞ 

−→ Pπ[X ∈ A � �σ(X0,X1,...)] = {X∈A}. 

Damit folgt Pπ[X ∈ A] ∈{0, 1}. Mithin ist X ergodisch. 

Der Birkhoff’sche Ergodensatz liefert also für jedes x ∈ E 

n−1 

1 � 

n 

k=0 

{Xk=x} 

n→∞ 

−→ π({x}) Pπ − f.s. 

In diesem Sinne ist π({x}) die mittlere Aufenthaltsdauer von X in x. ✸ 

Beispiel 20.18. Es seien P und Q W-Maße auf dem Messraum (Ω,A), und es seien 

(Ω,A,P,τ) und (Ω,A,Q,τ) ergodisch. dann ist P = Q oder P ⊥ Q. Ist 

nämlich P �= Q, dann existiert f mit |f| ≤1 und � fdP �= � fdQ. Nach dem 

Birkhoff’schen Ergodensatz gilt aber 

⎧ � 

n−1 

1 � 

n 

k=0 

� n−1 

f ◦ τ k n→∞ 

−→ 

⎪⎨ fdP P–f.s., 

� 

⎪⎩ fdQ Q–f.s. 

Setzen wir A := � 1 

k n→∞ 

n k=0 f ◦ τ −→ � fdP � ,soistP (A) =1und Q(A) =0. 

Also ist P ⊥ Q. ✸ 

Übung 20.3.1. Sei (Ω,A) ein Messraum und τ : Ω → Ω eine messbare Abbildung. 

(i) Man zeige, dass die Menge M := {μ ∈M1(Ω) : μ ◦ τ −1 = μ} der unter τ 

invarianten Maße eine konvexe Menge ist. 

(ii) Ein Element μ aus M heißt extremal, wenn aus μ = λμ1 +(1− λ)μ2 für 

gewisse μ1,μ2 ∈Mund λ ∈ (0, 1) schon μ = μ1 = μ2 folgt. Man zeige, 

dass μ ∈Mgenau dann extremal ist, wenn τ bezüglich μ ergodisch ist. ♣ 

Übung 20.3.2. Sei p =2, 3, 5, 6, 7, 10,...quadratfrei (das heißt, es gibt keine Zahl 

r =2, 3, 4,..., deren Quadrat ein Teiler von p ist) und q ∈{2, 3,...,p− 1}. Für 

jedes n ∈ N sei an die führende Ziffer der p-adischen Entwicklung von q n . 

Man zeige die folgende Variante des Benford’schen Gesetzes: Für jedes d ∈ 

{1,...,p− 1} gilt 

1 

n #�i ≤ n : ai = d � n→∞ 

−→ 

log(d +1)−log(d) . ♣ 

log(p)

20.4 Anwendung: Rekurrenz von Irrfahrten 

20.4 Anwendung: Rekurrenz von Irrfahrten 423 

Sei (Xn)n∈N ein stationärer Prozess mit Werten in R d . Setze Sn := � n 

k=1 Xk für 

jedes n ∈ N0. Ferner sei 

Rn = � �{S1,...,Sn} � � 

die Anzahl der von S bis zur Zeit n besuchten Punkte (der so genannte Range). 

Außerdem sei A := {Sn �= 0für jedes n ∈ N} das ” Fluchtereignis“. 

Satz 20.19. Es gilt lim 

n→∞ 

1 

n Rn = P[A|I] fast sicher. 

Beweis. Wir nehmen an, dass X der kanonische Prozess ist auf (Ω,A, P) = 

� (R d ) N , B(R d ) ⊗N , P � , und dass τ : Ω → Ω der Shift ist, also Xn = X0 ◦ τ n . 

Offenbar ist 

Rn =# � k ≤ n : Sl �= Sk für jedes l ∈{k +1,...,n} � 

≥ # � k ≤ n : Sl �= Sk für jedes l>k � 

= 

n� 

k=1 

A ◦ τ k . 

Der Birkhoff’sche Ergodensatz liefert nun 

lim inf 

n→∞ 

1 

n Rn ≥ P[A|I] f.s. (20.5) 

Für die andere Ungleichung betrachte Am = {Sl �= 0für jedes l =1,...,m}. 

Dann ist für n ≥ m 

Rn ≤ m +# � k ≤ n − m : Sl �= Sk für jedes l ∈{k +1,...,n} � 

≤ m +# � k ≤ n − m : Sl �= Sk für jedes l ∈{k +1,...,k+ m} � 

n−m � 

= m + 

k=1 

Am ◦ τ k . 

Der Ergodensatz liefert wieder 

lim sup 

n→∞ 

1 

n Rn 

� 

≤ P[Am 

�I] f.s. (20.6) 

Wegen Am ↓ A und P[Am 

� 

�I] n→∞ 

−→ P[A|I] fast sicher (nach Satz 8.14(viii)) folgt 

aus (20.5) und (20.6) die Aussage. ✷


Satz 20.20. Sei X = (Xn)n∈N � ein stationärer Prozess mit Werten in Z und 

E[|X1|] < ∞ sowie E[X1 

�I]=0f.s. Sei Sn = X1 + ...+ Xn, n ∈ N. Dann 

gilt 

P � Sn =0 für unendlich viele n ∈ N � =1. 

Speziell ist jede Irrfahrt auf Z mit zentrierten Zuwächsen rekurrent (Satz von 

Chung-Fuchs [28]). 

Beweis. Setze A = {Sn �= 0für jedes n ∈ N}. 

1. Schritt Wir zeigen P[A] =0. (Ist X u.i.v., so ist S eine Markovkette, und 

es folgt hieraus direkt die Rekurrenz von 0. Nur für den allgemeinen Fall stationärer 

Prozesse X brauchen wir einen weiteren Schritt.) Nach dem Ergodensatz 

gilt 1 

nSn n→∞ � 

−→ E[X1 �I] =0f.s. Es folgt für jedes m ∈ N 

� 

1 

lim sup 

n→∞ n max 

� � 

� � 

�Sk� 

1 

= lim sup 

k=1,...,n 

n→∞ n max 

� 

� � 

�Sk� 

k=m,...,n 

Also ist 

|Sk| 

≤ max 

k≥m k 

m→∞ 

−→ 0. 

� 

1 

lim 

n→∞ n max 

k=1,...,n Sk 

� � 

1 

= lim 

n→∞ n min 

k=1,...,n Sk 

� 

=0. 

� 

Nun ist Rn ≤ 1+ 

Satz 20.19 ist dann P[A] =0 

max 

k=1,...,n Sk 

� � 

− 

min 

k=1,...,n Sk 

� 

,also 1 

n Rn 

n→∞ 

−→ 0. Nach 

2. Schritt Setze σn := inf{m ∈ N : Sm+n = Sn} und Bn := {σn < ∞} für 

∞� 

n ∈ N0 und B := Bn. 

n=0 

Wegen {σ0 = ∞} = A ist P[σ0 < ∞] =1. Stationarität impliziert P[σn < ∞] = 

1 für jedes n ∈ N0, also P[B] =1. 

Setze τ0 =0und iterativ τn+1 = τn + στn für n ∈ N0. Dannistτnder Zeitpunkt 

der n-ten Rückkehr von S nach 0.AufBist τn < ∞ für jedes n ∈ N0, also 

P � Sn =0 unendlich oft � = P � τn < ∞ für alle n ∈ N � ≥ P[B] =1. ✷ 

Wenn in Satz 20.20 die Zufallsvariablen Xn nicht ganzzahlig sind, kann man nicht 

hoffen, dass Sn =0für irgendein n ∈ N mit positiver Wahrscheinlichkeit gilt. Andererseits 

gilt auch hier eine Art Rekurrenzeigenschaft, nämlich Sn/n n→∞ 

−→ 0 fast 

sicher nach dem Ergodensatz. Damit ist allerdings noch nicht ausgeschlossen, dass 

n→∞ 

vielleicht Sn −→ ∞ mit positiver Wahrscheinlichkeit gelten könnte, etwa, wenn

20.4 Anwendung: Rekurrenz von Irrfahrten 425 

Sn von der Größenordnung √ n wächst. Der nächste Satz zeigt uns, dass der Partialsummenprozess 

nur linear schnell nach ∞ gehen kann, wenn die Xn integrierbar 

sind. 

Satz 20.21. Sei (Xn)n∈N ein reeller ergodischer Prozess und jedes Xn integrierbar. 

Sei Sn = X1 +...+Xn für n ∈ N0. Dann sind die folgenden Aussagen äquivalent. 

n→∞ 

(i) Sn −→ ∞ fast sicher. 

� 

� 

n→∞ 

(ii) P −→ ∞ > 0. 

Sn 

Sn 

(iii) lim 

n→∞ n = E[X1] > 0 fast sicher. 

Sind die Zufallsvariablen X1,X2,...u.i.v. mit E[X1] =0und P[X1 =0]< 1, so 

gilt lim infn→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher. 

Beweis. (i) ⇐⇒ (ii)“ Offenbar ist {Sn 

” 

also Wahrscheinlichkeit 0 oder 1. 

n→∞ 

−→ ∞} ein invariantes Ereignis, hat 

” (iii) =⇒ (i)“ Dies ist trivial. 

” (i) =⇒ (iii)“ Die Gleichheit folgt aus dem individuellen Ergodensatz. Es reicht 

also zu zeigen, dass lim infn→∞ Sn/n > 0 fast sicher gilt. 

Für n ∈ N0 und ε>0 sei 

A ε n := � Sm >Sn + ε für alle m ≥ n +1 � . 

Sei S− := inf{Sn : n ∈ N0}. Nach Voraussetzung (i) ist S− > −∞ fast sicher 

und τ := sup{n ∈ N0 : Sn = S− } fast sicher endlich. Es gibt also ein N ∈ N mit 

P[τ 0. 

ergodisch. Nach dem individuellen 

Da (Xn)n∈N ergodisch ist, ist auch � Aε n n∈N0 

Ergodensatz gilt daher 1 �n−1 n i=0 Aε n→∞ 

n 

−→ p fast sicher. Also existiert ein n0 = 

n0(ω) mit �n−1 i=0 Aε pn 

≥ n 2 für alle n ≥ n0. Es folgt Sn ≥ pnε 

2 für n ≥ n0, also 

lim infn→∞ Sn/n ≥ pnε 

2 > 0. 

Der Zusatz folgt, weil lim inf Sn und lim sup Sn keinen endlichen Wert annehmen 

können und damit terminal messbar sind, also fast sicher konstant gleich −∞ oder 

+∞. Nach dem schon Gezeigten ist aber Sn 

n→∞ 

−→ ∞ ausgeschlossen, also gilt 

lim infn→∞ Sn = −∞. Analog folgt lim supn→∞ Sn = ∞. ✷ 

Bemerkung 20.22. Satz 20.21 gilt auch ohne die Integrierbarkeitsbedingung für die 

Xn. Siehe [92]. ✸


20.5 Mischung 

Ergodizität stellt einen relativ schwachen Begriff für Unabhängigkeit“ oder Durch- 

” ” 

mischung“ dar. Auf dem anderen Ende der Skala steht als stärkster Begriff u.i.v.“. 

” 

Hier wollen wir dazwischen liegende Mischungsbegriffe betrachten. 

Sei im Folgenden stets (Ω,A, P,τ) ein maßerhaltendes dynamisches System und 

Xn := X0 ◦ τ n . Wir beginnen mit einer einfachen Betrachtung. 

Satz 20.23. (Ω,A, P,τ) ist genau dann ergodisch, wenn für alle A, B ∈Agilt 

lim 

n→∞ 

n−1 

1 � 

n 

k=0 

Beweis. ” =⇒ “ Sei (Ω,A, P,τ) ergodisch. Setze 

Yn := 1 

n−1 � 

n 

k=0 

P � A ∩ τ −k (B) � = P[A] P[B]. (20.7) 

τ −k (B) = 1 

n−1 � 

n 

k=0 

n→∞ 

B ◦ τ k . 

Nach dem Birkhoff’schen Ergodensatz gilt Yn −→ P[B] fast sicher. Also gilt 

n→∞ 

−→ A P[B] fast sicher. Majorisierte Konvergenz liefert 

Yn A 

n−1 

1 � 

P 

n 

� A ∩ τ −k (B) � = E [Yn A] n→∞ 

−→ E [ A P[B]] = P[A] P[B]. 

k=0 

” ⇐= “ Gelte nun (20.7). Sei A ∈I(invariante σ-Algebra) und B = A. Offenbar 

ist A ∩ τ −k (A) =A für jedes k ∈ N0. Also ist nach (20.7) 

P[A] = 1 

n−1 � 

P 

n 

� A ∩ τ −k (A) � n→∞ 

−→ P[A] 2 . 

k=0 

Mithin ist P[A] ∈{0, 1}, also I trivial und damit τ ergodisch. ✷ 

Wir betrachten jetzt folgende Verschärfung von (20.7). 

Definition 20.24. Ein maßerhaltendes dynamisches System (Ω,A, P,τ) heißt mischend, 

falls 

lim 

n→∞ P � A ∩ τ −n (B) � = P[A] P[B] für alle A, B ∈A. (20.8) 

Bemerkung 20.25. Gelegentlich wird die Mischungseigenschaft (20.8) auch als 

stark mischend bezeichnet. Im Gegensatz dazu heißt (Ω,A, P,τ) schwach mischend, 

falls

1 

lim 

n→∞ n 

20.5 Mischung 427 

n−1 � � � � � 

� −n 

P A ∩ τ (B) − P[A] P[B] � =0 für alle A, B ∈A. ✸ 

i=0 

” Stark mischend“ impliziert schwach mischend“ (siehe Übung 20.5.1). Anderer- 

” 

seits gibt es schwach mischende Systeme, die nicht stark mischend sind (siehe [82]). 

Beispiel 20.26. Sei I = N0 oder I = Z und (Xn)n∈I eine u.i.v. Folge mit Werten 

im Messraum (E,E), also τ der Shift auf dem Produktraum Ω = EI , P = 

(PX0 )⊗I . Seien A, B ∈E⊗I . Zu jedem ε>0 gibt es Ereignisse Aε und Bε , die nur 

von endlich vielen Koordinaten abhängen und mit P[A△Aε ]


Beweis. (i) Dies haben wir schon in Beispiel 20.17 gezeigt. 

(ii) Da X irreduzibel ist, ist π({x}) > 0 für jedes x ∈ E nach Satz 17.51. 

” =⇒ “ Sei X periodisch mit Periode d ≥ 2. Istn∈ N kein Vielfaches von d, so 

ist pn (x, x) =0. Mithin gilt für A = B = {X0 = x} 

lim inf 

n→∞ Pπ[X0 = x, Xn = x] = lim inf 

n→∞ π({x}) pn (x, x) 

Also ist X nicht mischend. 

=0�= π({x}) 2 = Pπ[X0 = x] 2 . 

” ⇐= “ Sei X aperiodisch. Zur Vereinfachung der Notation können wir annehmen, 

dass X der kanonische Prozess auf EN0 ist. Seien A, B ⊂ Ω = EN0 messbar. 

Zu jedem ε > 0 existiert ein N ∈ N und Ãε ∈ E {0,...,N} , sodass, mit 

Aε = Ãε × E {N+1,N+2,...} gilt, dass P[A △ Aε ]

21 Die Brown’sche Bewegung 

In Beispiel 14.45 hatten wir einen (kanonischen) Prozess (Xt) t∈[0,∞) hergestellt mit 

unabhängigen, stationären, normalverteilten Zuwächsen. Ein solcher Prozess kann 

beispielsweise als Modell eines Flimmerteilchens in einer Suspension dienen oder 

als Grundlage für Aktienkursmodelle. Jetzt sind wir nicht nur an den Eigenschaften 

von X zu einem oder mehreren festen Zeitpunkten interessiert, sondern auch an Eigenschaften, 

die den ganzen Pfad t ↦→ Xt betreffen, beispielsweise am Funktional 

F (X) :=sup t∈[0,1] Xt. Ist aber F überhaupt eine Zufallsvariable? 

Wir werden in diesem Kapitel Stetigkeitseigenschaften von Pfaden stochastischer 

Prozesse untersuchen, die die Messbarkeit von interessanten Funktionalen sichern. 

Danach konstruieren wir eine Version von X, die stetige Pfade hat, die so genannte 

Brown’sche Bewegung. Ohne Übertreibung kann man sagen, dass dies das zentrale 

Objekt der Wahrscheinlichkeitstheorie ist. 

21.1 Stetige Modifikationen 

Die Pfade eines kanonischen Prozesses sind natürlich nicht per se stetig, da ja jede 

Abbildung als Pfad auftaucht. Es wird also wichtig sein zu entscheiden, welche 

Pfade zumindest P-fast sicher keine Rolle spielen. 

Definition 21.1 (Modifikation / ununterscheidbare Prozesse). Seien X und Y 

stochastische Prozesse auf (Ω,A, P) mit Zeitbereich I und Zustandsraum E. 

(i) X und Y heißen Modifikationen oder Versionen voneinander, falls für jedes 

t ∈ I gilt 

P-fast sicher. 

Xt = Yt 

(ii) X und Y heißen ununterscheidbar, falls es ein N ∈Agibt mit P[N] =0und 

{Xt �= Yt} ⊂N für jedes t ∈ I. 

Offenbar ist ” ununterscheidbar“ stärker als ” Modifikation“. Unter gewissen Stetigkeitsannahmen 

an die Prozesse fallen die Begriffe allerdings zusammen.

430 21 Die Brown’sche Bewegung 

Definition 21.2. Seien (E,d) und (E ′ ,d ′ ) metrische Räume und γ ∈ (0, 1]. Eine 

Abbildung ϕ : E → E ′ heißt im Punkte r ∈ E Hölder-stetig der Ordnung γ (kurz: 

Hölder-γ-stetig), falls es ein ε>0 und ein C 0 gibt, sodass für alle s, r ∈ E mit d(s, t) 0, und gilt für ein ε>0 und 

ein C(ε) < ∞, sowie für alle s, t ∈ I mit |t − s| ≤ε 

|f(t) − f(s)| ≤C(ε) |t − s| γ , 

so ist f Hölder-stetig der Ordnung γ mit Konstante C := C(ε) ⌈T/ε⌉ 1−γ . 

Beweis. (i) Klar, weil |t − s| γ ≤|t− s| γ′ für alle s, t ∈ I mit |t − s| ≤1. 

(ii) Für t ∈ I und ε>0 sei Uε(t) :={s ∈ I : |s − t| 0 und C(t) < ∞ so gewählt, dass 

|f(r) − f(s)| ≤C(t) ·|r − s| γ 

für alle r, s ∈ Ut := U ε(t)(t). 

Zu der offenen Überdeckung U := {Ut, t ∈ I} von I gibt es eine endliche 

Teilüberdeckung U ′ = {Ut1 ,...,Utn }.Seiϱ > 0 eine Lebesgue’sche Zahl der 

Überdeckung U ′ , das heißt, ϱ>0 ist so gewählt, dass für jedes t ∈ I ein U ∈ U 

existiert mit Uϱ(t) ⊂ U. Setze 

C := max � C(t1),...,C(tn), 2�f�∞ϱ γ� .

21.1 Stetige Modifikationen 431 

Für s, t ∈ I mit |t − s| < ϱ gibt es ein i ∈ {1,...,n} mit s, t ∈ Uti . Nach 

Voraussetzung ist |f(t) − f(s)| ≤C(ti) |t − s| γ ≤ C |t − s| γ . Seien nun s, t ∈ I 

mit |s − t| ≥ϱ. Dannist 

�γ � 

|t − s| 

|f(t) − f(s)| ≤2�f�∞ 

ϱ 

≤ C |t − s| γ . 

Also ist f Hölder-stetig von der Ordnung γ mit Konstante C. 

(iii) Sei n = � T 

ε 

� .Für s, t ∈ I gilt nach Voraussetzung |t−s| 

n 

≤ ε und daher 

|f(t) − f(s)| ≤ 

n� 

� 

� 

� 

� 

k=1 

f 

� 

s +(t− s) k 

� � 

�� 

k − 1 �� 

− f s +(t− s) 

n 

n 

≤ C(ε) n 1−γ |t − s| γ = C |t − s| γ . ✷ 

Definition 21.4 (Pfadeigenschaften). Sei I ⊂ R und X =(Xt,t ∈ I) ein reellwertiger 

stochastischer Prozess auf einem W-Raum (Ω,A, P) mit Werten in einem 

metrischen Raum (E,d) sowie γ ∈ (0, 1]. Für jedes ω ∈ Ω nennen wir die Abbildung 

I → E, t ↦→ Xt(ω) einen Pfad von X. 

Wir sagen, dass X fast sicher stetige Pfade hat, oder kurz, dass X f.s. stetig ist, falls 

für fast jedes ω ∈ Ω der Pfad t ↦→ Xt(ω) stetig ist. Analog definieren wir lokal 

Hölder-γ-stetige Pfade und so weiter. 

Lemma 21.5. Seien X und Y Modifikationen voneinander. Es gelte eine der Bedingungen 

(i) I ist abzählbar. 

(ii) I ⊂ R ist ein Intervall und X und Y sind fast sicher rechtsstetig. 

Dann sind X und Y ununterscheidbar. 

Beweis. Setze Nt := {Xt �= Yt} für t ∈ I und ¯ N = � 

t∈I Nt. Nach Voraussetzung 

gilt P[Nt] =0für jedes t ∈ I. Zu zeigen ist jeweils: Es existiert N ∈Amit ¯ N ⊂ N 

und P[N] =0. 

(i) Ist I abzählbar, so ist N := ¯ N messbar und P[N] ≤ � 

t∈I P[Nt] =0. 

(ii) Sei nun I ⊂ R ein Intervall, und seien X und Y fast sicher rechtsstetig. Setze 

¯R := {X und Y sind rechtsstetig} 

und wähle R ∈Amit R ⊂ ¯ R und P[R] =1. Setze 

� 

�I 

Q ∩ I, falls I rechtsseitig offen ist, 

:= 

(Q ∩ I) ∪ max I, falls I rechtsseitig abgeschlossen ist,


und � N := � 

r∈� I Nr. Nach (i) gilt P[ � N]=0. Weiter gilt für jedes t ∈ I 

Nt ∩ R ⊂ � 

(Nr ∩ R) ⊂ � N. 

Also gilt 

¯N ⊂ R c ∪ � 

r≥t, r∈ � I 

t∈I 

Nt ⊂ R c ∪ � N =: N, 

und damit P[N] ≤ P[R c ]+P[ � N]=0. ✷ 

Wir kommen zum Hauptsatz dieses Abschnitts. 

Satz 21.6 (Kolmogorov-Chentsov). Sei X =(Xt, t∈ [0, ∞)) ein reellwertiger 

Prozess. Für jedes T>0 gebe es Zahlen α, β, C > 0 mit 

Dann gelten: 

E [|Xt − Xs| α ] ≤ C|t − s| 1+β 

für alle s, t ∈ [0,T]. (21.2) 

(i) Es existiert eine Modifikation � X =( � Xt, t∈ � [0, ∞)) von X, die lokal Hölderstetige 

Pfade hat von jeder Ordnung γ ∈ 0, β 

� 

α . 

� 

(ii) Sei γ ∈ 0, β 

� 

α . Zu jedem ε>0 und T 0 sind dann nach Lemma 21.5 die Prozesse X S und 

X T ununterscheidbar auf [0,S∧ T ], also ist 

ΩS,T := 

� 

es gibt ein t ∈ [0,S∧ T ] mit X T t �= X S t 

eine Nullmenge, und damit ist auch Ω∞ := � 

S,T ∈N 

˜Xt(ω) :=Xt t (ω) für ω ∈ Ω \ Ω∞, und ˜ X ist eine stetige Modifikation von X. 

� 

ΩS,T eine Nullmenge. Mithin ist 

Ohne Beschränkung der Allgemeinheit sei T =1. Wir zeigen, dass X eine auf [0, 1] 

stetige Modifikation besitzt. Die Chebyshev’sche Ungleichung liefert für ε>0 

also 

P [|Xt − Xs| ≥ε] ≤ Cε −α |t − s| 1+β 

(21.4)


s→t 

Xs −→ Xt stochastisch. (21.5) 

Die Idee ist, zunächst � X auf den binär rationalen Zahlen zu konstruieren und dann 

stetig auf [0, 1] fortzusetzen. Dafür wird (21.5) gebraucht. Speziell ist für γ > 0 

sowie n ∈ N und k ∈{1,...,2n } 

P �� 

�Xk2−n − X (k−1)2−n� −γn 

≥ 2 � ≤ C 2 −n(1+β−αγ) . 

Wir setzen 

An = An(γ) := � max � |X k2 −n − X (k−1)2 −n|, k∈{1,...,2 n } � ≥ 2 −γn� , 

sowie 

∞� 

Bn := Am, 

m=n 

und N := lim sup An = 

n→∞ 

Es folgt dann für jedes n ∈ N 

∞� 

Bn. 

n=1 

� 

P[An] ≤ P � |Xk2−n − X (k−1)2−n| ≥2 −γn� ≤ C 2 −n(β−αγ) . 

2 n 

k=1 

Wir wählen jetzt ein γ ∈ (0,β/α) und erhalten 

P[Bn] ≤ 

∞� 

m=n 

P[Am] ≤ C 2−(β−αγ)n 

1 − 2 αγ−β 

n→∞ 

−→ 0, (21.6) 

also P[N] =0. Sei nun ω ∈ Ω \ N fest und n0 = n0(ω) so, dass ω �∈ ∞� 

Also gilt 

� 

� Xk2 −n(ω) − X (k−1)2 −n(ω) � � < 2 −γn 

n=n0 

An. 

für k ∈{1,...,2 n },n≥ n0. (21.7) 

Wir definieren die Mengen endlicher dyadischer Zahlen Dm = {k2 −m ,k = 

0,...,2 m } und D = � 

Dm. Jedes t ∈ Dm besitzt eine eindeutige Binärdar- 

stellung 

t = 

m∈N 

m� 

bi(t)2 −i 

i=1 

für gewisse bi(t) ∈{0, 1}, i=1,...,m. 

Seien m ≥ n ≥ n0 sowie s, t ∈ Dm,s≤ t mit |s−t| ≤2−n .Dannistbi(t−s) =0 

für i


rn−1 = s, rm = t und rl+1 − rl ≤ 2 −(l+1) für l = n − 1,...,m. 

Also ist nach (21.7) 

|Xt(ω) − Xs(ω)| ≤ 

m−1 � 

l=n−1 

� 

� Xrl+1 (ω) − Xrl (ω)� � ≤ 

m� 

l=n 

2 −γl ≤ 2−γn 

. (21.8) 

1 − 2−γ Setze nun C0 =2 γ (1 − 2 −γ ) −1 < ∞. Seien s, t ∈ D mit |s − t| ≤2 −n0 . Indem 

wir n ≥ n0 minimal wählen mit |t − s| ≥2 −n , erhalten wir aus (21.8) 

|Xt(ω) − Xs(ω)| ≤C0 |t − s| γ . (21.9) 

Wie im Beweis von Lemma 21.3(iii) folgt hieraus, dass (mit K := C02 (n+1)(1−γ) ) 

|Xt(ω) − Xs(ω)| ≤K |t − s| γ 

für alle s, t ∈ D. (21.10) 

Mit anderen Worten: Auf den binärrationalen Zahlen D ist X(ω) (global) Hölderγ-stetig. 

Speziell ist X auf D gleichmäßig stetig, lässt sich also eindeutig stetig auf 

[0, 1] fortsetzen: Für t ∈ D setze � Xt := Xt.Für t ∈ [0, 1]\D und {sn, n∈ N} ⊂D 

mit sn −→ t ist (Xsn (ω)) n∈N eine Cauchy-Folge. Also existiert der Limes 

�Xt(ω) := lim 

D∋s→t Xs(ω), (21.11) 

und es gilt dann die zu (21.10) analoge Aussage auch für beliebige s, t ∈ [0, 1] 

� 

� 

� � Xt(ω) − � � 

� 

Xs(ω) � ≤ K |t − s| γ 

für alle s, t ∈ [0, 1]. (21.12) 

Also ist � X lokal Hölder-stetig von der Ordnung γ. Nach (21.5) und (21.11) gilt 

P � Xt �= � � 

Xt =0für jedes t ∈ [0, 1]. AlsoistX� eine Modifikation von X. 

Um (ii) zu zeigen, sei ε>0, und sei n ∈ N so groß gewählt, dass (siehe (21.6)) 

P[Bn] ≤ C 2−(β−αγ)n 

0 sowie jedes T>0 und gewisses C


Übung 21.1.1. Man zeige die Aussage von Bemerkung 21.7. ♣ 

Übung 21.1.2. Sei X =(Xt)t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Man 

zeige, dass für alle 0 ≤ a


21.2 Konstruktion und Pfadeigenschaften 

Definition 21.8. Ein reellwertiger stochastischer Prozess B =(Bt, t ∈ [0, ∞)) 

heißt Brown’sche Bewegung, falls 

(i) B0 =0, 

(ii) B hat unabhängige, stationäre Zuwächse (vergleiche Definition 9.7), 

(iii) Bt ∼N0,t für t>0, 

(iv) P-fast sicher gilt: t ↦→ Bt ist stetig. 

3 

2.5 

2 

1.5 

1 

0.5 

0 

0.5 1 1.5 2 

Abb. 21.1. Computersimulation einer Brown’schen Bewegung. 

Satz 21.9. Es existiert ein W-Raum (Ω,A, P) und eine Brown’sche Bewegung B 

auf (Ω,A, P). Die Pfade von B sind f.s. lokal Hölder-γ-stetig für jedes γ< 1 

2 . 

Beweis. Wie in Beispiel 14.45 oder Korollar 16.10 gibt es einen stochastischen 

D 

Prozess X, der (i), (ii) und (iii) erfüllt. Offenbar ist Xt−Xs = √ t − sX1 ∼N0,t−s 

für alle t>s≥ 0. Es gilt daher für jedes n ∈ N und Cn := E[X2n n ]= (2n)! 

2nn! < ∞ 

� 

E (Xt − Xs) 2n� 

��√t �2n 

= E − sX1 

� 

= Cn |t − s| n . 

Sei nun n ≥ 2 und γ ∈ (0, n−1 

2n ). Satz 21.6 liefert die Existenz einer Version B 

von X mit Hölder-γ-stetigen Pfaden. Da alle stetigen Versionen eines Prozesses 

äquivalent sind, ist B lokal Hölder-γ-stetig für jedes γ ∈ (0, n−1 

2n ) und jedes n ≥ 2, 

also für jedes γ ∈ (0, 1 

2 ). ✷

21.2 Konstruktion und Pfadeigenschaften 437 

Erinnerung: Ein stochastischer Prozess (Xt)t∈I heißt Gauß’scher Prozess, falls für 

jedes n ∈ N und alle t1,...,tn ∈ I gilt 

(Xt1 ,...,Xtn ) ist n–dimensional normalverteilt. 

Wir nennen X zentriert, falls E[Xt] =0für jedes t ∈ I. Die Funktion 

heißt Kovarianzfunktion von X. 

Γ (s, t) :=Cov[Xs,Xt] für s, t ∈ I, 

Bemerkung 21.10. Durch die Kovarianzfunktion sind die endlichdimensionalen 

Verteilungen eines zentrierten, Gauß’schen Prozesses eindeutig festgelegt, denn eine 

mehrdimensionale Normalverteilung ist durch den Erwartungswertvektor und 

Kovarianzmatrix vollständig beschrieben. ✸ 

Satz 21.11. Für einen stochastischen Prozess X =(Xt) t∈[0,∞) sind äquivalent: 

(i) X ist eine Brown’sche Bewegung. 

(ii) X ist ein stetiger, zentrierter, Gauß’scher Prozess mit Cov[Xs,Xt] =s ∧ t für 

alle s, t ≥ 0. 

Beweis. Nach Bemerkung 21.10 ist X durch (ii) eindeutig bestimmt. Es reicht also 

zu zeigen, dass Cov[Xs,Xt] =min(s, t) für die Brown’sche Bewegung X gilt. 

Dies ist aber richtig, denn für t>ssind Xs und Xt − Xs unabhängig, also ist 

Cov[Xs,Xt] =Cov[Xs,Xt − Xs]+ Cov[Xs,Xs] =Var[Xs] =s. ✷ 

Korollar 21.12 (Skalierungseigenschaft der Brown’schen Bewegung). Ist B eine 

Brown’sche Bewegung und K �= 0, dann ist auch (KB K 2 t)t≥0 eine Brown’sche 

Bewegung. 

Beispiel 21.13. Ein weiteres Beispiel für einen stetigen, Gauß’schen Prozess ist die 

Brown’sche Brücke X, die die Kovarianzfunktion Γ (s, t) =s ∧ t − st hat. Wir 

konstruieren die Brown’sche Brücke wie folgt: Sei B = (Bt, t ∈ [0, 1]) eine 

Brown’sche Bewegung und 

Xt := Bt − tB1. 

Offenbar ist X ein zentrierter, Gauß’scher Prozess mit stetigen Pfaden. Die Kovarianzfunktion 

Γ von X errechnet sich zu 

Γ (s, t) =Cov[Xs,Xt] =Cov[Bs − sB1,Bt − tB1] 

= Cov[Bs,Bt] − s Cov[B1,Bt] − t Cov[Bs,B1]+st Cov[B1,B1] 

=min(s, t) − st − st + st =min(s, t) − st. ✸


Satz 21.14. Sei (Bt)t≥0 eine Brown’sche Bewegung und 

� 

tB1/t, falls t>0, 

Xt = 

0, falls t =0. 

Dann ist X eine Brown’sche Bewegung. 

Beweis. Offenbar ist X ein Gauß’scher Prozess. Für s, t > 0 ist 

Cov[Xs,Xt] =ts · Cov[B 1/s,B 1/t] =ts min � s −1 ,t −1� =min(s, t). 

Offenbar ist t ↦→ Xt stetig in allen t>0. Für die Stetigkeit in t =0betrachte 

lim sup Xt = lim sup 

t↓0 

t→∞ 

≤ lim sup 

n→∞ 

1 

t Bt 

1 

n Bn + lim sup 

n→∞ 

1 

n sup � Bt − Bn, t∈ [n, n +1] � . 

Nach dem Starken Gesetz der großen Zahl ist limn→∞ 1 

n Bn =0f.s. Nach einer 

Verallgemeinerung des Spiegelungsprinzips (Satz 17.15, siehe auch Satz 21.19) ist 

für x>0 (mit der Abkürzung B [a,b] := {Bt : t ∈ [a, b]}) 

P � sup B [n,n+1] − Bn >x � = P � sup B [0,1] >x � =2P[B1 >x] 

= 2 

� ∞ 

√ e 

2π x 

−u2 /2 1 

du ≤ 

x e−x2 /2 

. 

∞� 

Speziell ist P � sup B [n,n+1] − Bn >n ε� < ∞ für jedes ε>0. Nach dem 

n=1 

Lemma von Borel-Cantelli (Satz 2.7) ist daher 

lim sup 

n→∞ 

1 

n sup � Bt − Bn, t∈ [n, n +1] � =0 fast sicher. 

Mithin ist X auch in 0 stetig. ✷ 

Satz 21.15 (Blumenthal’sches 0-1 Gesetz). Sei B eine Brown’sche Bewegung 

und F =(Ft)t≥0 = σ(B) die erzeugte Filtration, sowie F + � 

0 = t>0 Ft. Dann 

ist F + 0 eine P-triviale σ-Algebra. 

Beweis. Setze Y n =(B 2 −n +t − B 2 −n) t∈[0,2 −n ], n ∈ N. Dannist(Y n )n∈N eine 

unabhängige Familie von Zufallsvariablen (mit Werten in C([0, 2 −n ])). Die termi- 

nale σ-Algebra T = � 

n∈N σ(Y m ,m≥ n) ist nach dem Kolmogorov’schen 0-1 

Gesetz (Satz 2.37) P–trivial. Andererseits ist σ(Y m ,m≥ n) =F 2 −n+1, also ist 

F + 0 

� 

= Ft = � 

t>0 

n∈N 

F 2 −n+1 = T 

P–trivial. ✷

21.2 Konstruktion und Pfadeigenschaften 439 

Beispiel 21.16. Sei B eine Brown’sche Bewegung. Für jedes K>0 ist 

P � inf � t>0: Bt ≥ K √ t � =0 � =1. (21.14) 

Um dies einzusehen, setze As := � inf{t >0: Bt ≥ K √ t } 0: Bt ≥ K √ t � � 

= 0 = � 

As ∈ F + 0 . 

Dann ist P[A] ∈{0, 1}. Wegen der Skalierungseigenschaft der Brown’schen Bewegung 

ist P[A] =inf 

s>0 P[As] ≥ P[B1 ≥ K] > 0 und deshalb P[A] =1. ✸ 

Das eben untersuchte Beispiel zeigt insbesondere für jedes t ≥ 0, dassBin t fast 

sicher nicht Hölder- 1 

2-stetig ist. Hier ist Vorsicht mit der Reihenfolge der Quantoren 

angebracht: Wir haben nicht gezeigt, dass B fast sicher in keinem t ≥ 0 Hölder- 

1 

2-stetig wäre (siehe aber Bemerkung 22.4). Wir können allerdings ohne großen 

Aufwand den folgenden Satz zeigen, der für den Fall γ =1auf Paley, Wiener und 

Zygmund [118] zurückgeht. Der hier vorgestellte Beweis beruht auf einer Idee von 

Dvoretzky, Erdös und Kakutani (siehe [39]). 

Satz 21.17 (Paley-Wiener-Zygmund (1933)). Für jedes γ> 1 

2 sind die Pfade der 

Brown’schen Bewegung (Bt)t≥0 fast sicher in keinem Punkte Hölder-stetig der 

Ordnung γ. Insbesondere sind die Pfade fast sicher nirgends differenzierbar. 

Beweis. Sei γ> 1 

2 . Es reicht, B =(Bt) t∈[0,1] zu betrachten. Wir bezeichnen mit 

Hγ,t die Menge der in t Hölder-γ-stetigen Abbildungen [0, 1] → R und setzen 

Hγ := � 

t∈[0,1] Hγ,t. Das Ziel ist zu zeigen, dass fast sicher B �∈ Hγ gilt. 

Ist t ∈ [0, 1) und w ∈ Hγ,t, so existiert zu jedem δ>0 ein c = c(δ, w) mit der 

Eigenschaft, dass |ws − wt| ≤c |s − t| γ ist für jedes s ∈ [0, 1] mit |s − t| 2 

2γ−1 ,soistfür n ∈ N mit n ≥ n0 := ⌈(k +1)/δ⌉, 

i = ⌊tn⌋ +1und l ∈{0,...,k− 1} speziell 

� 

� � � � � 

�w(i+l+1)/n − w � 

(i+l)/n ≤ �w(i+l+1)/n − wt 

� + �w(i+l)/n − wt 

� γ −γ 

≤ 2c (k +1) n . 

Für N ≥ 2c (k +1) γ ist also w ∈ AN,n,i, wobei 

AN,n,i := 

k−1 � 

l=0 

s>0 

� 

w : � � 

�w (i+l+1)/n − w � 

(i+l)/n ≤ Nn −γ� 

. 

Setzen wir AN,n = �n n≥n0 AN,n und A = �∞ N=1 AN ,soist 

offenbar Hγ ⊂ A. Nun ist wegen der Unabhängigkeit der Zuwächse, und weil die 

Dichte der Standardnormalverteilung nirgends größer als 1 ist 

i=1 AN,n,i, AN = � 

P[B ∈ AN,n,i] =P � |B 1/n| ≤Nn −γ� k = P � |B1| ≤Nn −γ+1/2� k 

≤ N k n k(−γ+1/2) .


Nach Wahl von k und wegen der Stationarität der Zuwächse von B gilt 

P � � 

B ∈ AN ≤ lim 

n→∞ P 

� 

� 

≤ lim sup 

n→∞ 

m≥n 

AN,m 

� 

≤ lim sup 

n→∞ 

n P[B ∈ AN,n,1] ≤ N k lim sup 

n→∞ 

P[AN,n] ≤ lim sup 

n→∞ 

n� 

i=1 

n 1+k(−γ+1/2) =0 

P[AN,n,i] 

und damit P[B ∈ A] =0. Mithin ist fast sicher B �∈ Hγ. ✷ 

Übung 21.2.1. Sei B eine Brown’sche Bewegung und λ das Lebesgue-Maß auf 

[0, ∞). 

(i) Bestimme Erwartungswert und Varianz von � 1 

0 Bs ds.(Für die Messbarkeit des 

Integrals siehe Übung 21.1.2.) 

(ii) Zeige, dass λ � {t : Bt =0} � =0fast sicher gilt. 

(iii) Bestimme Erwartungswert und Varianz von 

� 1 

0 

� � 1 

0 

� 1 

Bt − 

0 

�2 Bs ds dt. ♣ 

Übung 21.2.2. Sei B eine Brown’sche Bewegung. Zeige, dass auch (B 2 t −t)t≥0 ein 

Martingal ist. ♣ 

Übung 21.2.3. Sei B eine Brown’sche Bewegung und σ > 0. Zeige, dass auch 

� � 

exp σBt − σ2 

2 t�� ein Martingal ist. ♣ 

t≥0 

Übung 21.2.4. Sei B eine Brown’sche Bewegung und a0} dx. 

(iii) Die Verteilung von τb hat die Dichte fb(x) = b 

√ 2π e −b2 /(2x) x −3/2 . ♣

21.3 Starke Markoveigenschaft 441 

Übung 21.2.6. Sei B eine Brown’sche Bewegung, a ∈ R und b>0 sowie τ = 

inf{t ≥ 0: Bt = at + b}. Man zeige für λ ≥ 0 

E � e −λτ � � 

=exp − ba − b � a2 + λ2 � 

und folgere P[τ


Weiter gilt 

Fτn ↓Fτ+ := 

= lim 

n→∞ Ex 

� 

σ>τ ist Stoppzeit 

Fσ ⊃ Fτ . 

Nach (21.16) und (21.17) sowie dem Konvergenzsatz für Rückwärtsmartingale 

(Satz 12.14) gilt also im Sinne von L1-Limiten EBτ [F (B)] = lim 

n→∞ Ex 

� � 

F (Bτ n �� 

�Fτ 

+t)t≥0 n 

� 

� � �� 

F (Bτ+t)t≥0 �Fτ n 

� � � �� 

= Ex F (Bτ+t)t≥0 

�Fτ+ . 

Die linke Seite ist Fτ -messbar. Die Turmeigenschaft der bedingten Erwartung liefert 

also (21.15). ✷ 

Mit Hilfe der starken Markoveigenschaft zeigen wir das Reflexionsprinzip für die 

Brown’sche Bewegung. 

Satz 21.19 (Reflexionsprinzip für die Brown’sche Bewegung). Für jedes a>0 

und T>0 gilt 

P � sup � Bt : t ∈ [0,T] � >a � =2P[BT >a] ≤ 2√ T 

√ 2π 

1 

a e−a2 /2T . 

Beweis. Wegen der Skalierungseigenschaft der Brown’schen Bewegung (Korollar 

21.12) können wir ohne Einschränkung T =1annehmen. Sei τ := inf{t ≥ 

0: Bt ≥ a}∧1. Aus Symmetriegründen ist Pa[B1−τ >a]= 1 

2 , falls τa]=P[B1 >a � �τ

21.3 Starke Markoveigenschaft 443 

Beweis. Ohne Einschränkung sei T = 1 und ζ = ζ1. Sei� B eine weitere, unabhängige 

Brown’sche Bewegung. Nach dem Reflexionsprinzip gilt 

P[ζ ≤ t] =P � Bs �= 0für jedes s ∈ [t, 1] � 

= 

= 

= 

� ∞ 

−∞ 

� ∞ 

−∞ 

� ∞ 

P0 

−∞ 

P � Bs �= 0für jedes s ∈ [t, 1] � �Bt = a � P[Bt ∈ da] 

� 

P �Bs 

|a| > 0 für jedes s ∈ [0, 1 − t] � P[Bt ∈ da] 

� | � B1−t| ≤|a| � P[Bt ∈ da] = P � | � B1−t| ≤|Bt| � . 

Sind X, Y unabhängig und N0,1-verteilt, so ist � Bt, � � D= �√ √ � 

B1−t tX, 1 − tY . 

Es folgt 

P[ζ ≤ t] =P �√ 1 − t |Y |≤ √ t |X| � 

= P � Y 2 ≤ t(X 2 + Y 2 ) � 

= 1 

2π 

� ∞ 

−∞ 

dx 

Durch Polarkoordinatentransformation erhalten wir 

P[ζ ≤ t] = 1 

2π 

� ∞ 

rdre 

0 

−r2 � 2π 

/2 

0 

� ∞ 

dy e 

−∞ 

−(x2 +y 2 )/2 

{y2≤t(x2 +y2 )}. 

dϕ {sin(ϕ) 2≤t} = 2 

π arcsin 

�√ � 

t . ✷ 

Übung 21.3.1. (Schwierig!) Sei Px die Verteilung der Brown’schen Bewegung mit 

Start in x ∈ R. Seia>0 und τ =inf � t ≥ 0:Bt ∈{0,a} � . Man zeige mit Hilfe 

des Spiegelungsprinzips, dass für jedes x ∈ (0,a) gilt 

P x [τ


21.4 Ergänzung: Feller Prozesse 

In vielen Situationen kann man keine stetige Version eines Prozesses erwarten, etwa 

beim Poissonprozess, der ja gewissermaßen von seinen Sprüngen lebt. Oft kann 

jedoch eine Version mit rechtsstetigen Pfaden, die einen endlichen linksseitigen 

Grenzwert besitzen, etabliert werden. Wir wollen hier knapp den Existenzsatz für 

solche Prozesse für Feller’sche Halbgruppen plausibel machen. 

Definition 21.21. Sei E ein polnischer Raum. Eine Abbildung f :[0, ∞) → E heißt 

RCLL (right continuous with left limits) oder càdlàg (continue à droit, limites à 

gauche), falls f(t) =f(t+) := lims↓t f(s) für jedes t ≥ 0 und falls der linksseitige 

Grenzwert f(t−) := lims↑t f(s) für jedes t>0 existiert und endlich ist. 

Bemerkung 21.22. Ist F eine beliebige Filtration und F +,∗ 

t die Vervollständigung 

von F + t ,soerfüllt F +,∗ die üblichen Bedingungen. ✸ 

Definition 21.23. Eine Filtration F =(Ft)t≥0heißt rechtsstetig, falls F = F + , 

wo F + t = � 

s>t Fs. Wir sagen, dass eine Filtration F die üblichen Bedingungen 

erfüllt, falls F rechtsstetig ist und F0 jede P-Nullmenge enthält. 

Satz 21.24 (Doob’sche Regularisierung). Sei F eine Filtration, die die üblichen 

Bedingungen erfüllt, und X =(Xt)t≥0 ein F-Supermartingal mit der Eigenschaft, 

dass t ↦→ E[Xt] rechtsstetig ist. Dann gibt es eine Modifikation � X von X mit RCLL 

Pfaden. 

Beweis. Für a, b ∈ Q + , a 

I die Anzahl der Aufkreuzungen 

von (Xt)t∈I über [a, b]. Nach der Aufkreuzungsungleichung (Lemma 

11.3) folgt für jedes N > 0 und jede endliche Menge I ⊂ [0,N], dass 

E[U a,b 

I ] ≤ (E[|XN |] +|a|)/(b − a). Setzen wir U a,b a,b 

N = UQ + ∩[0,N] , so folgt 

E[U a,b 

N ] ≤ (E[|XN |]+|a|)/(b − a). Für λ>0 ist nach Übung 11.1.1 

λ P � sup{|Xt| : t ∈ Q + ∩ [0,N]} >λ � 

� 

= λ sup P � sup{|Xt| : t ∈ I} >λ � : I ⊂ Q + � 

∩ [0,N] endlich 

≤ 12 E[|X0|]+9E[|XN |]. 

Betrachte das Ereignis 

A := � � � 

N∈N 

a,b∈Q + 

0≤a

21.4 Ergänzung: Feller Prozesse 445 

�Xt(ω) := lim 

Q + Xs(ω) 

∋s↓t, s>t 

und ist RCLL. Für ω ∈ Ac setzen wir Xt(ω) =0.DaF die üblichen Bedingungen 

erfüllt, ist � X an F adaptiert. Da X ein Supermartingal ist, ist (Xs)s≤N für jedes N 

gleichgradig integrierbar. Also gilt (nach Voraussetzung), dass 

E[ � Xt] = lim 

Q + E[Xs] =E[Xt]. 

∋s↓t, s>t 

Da X ein Supermartingal ist, ist aber für s>t 

Xt ≥ E[Xs |Ft] Q+ ∋s↓t, s>t 

−→ E[ � Xt |Ft] = � Xt in L 1 . 

Folglich ist Xt = � Xt fast sicher, also � X eine Modifikation von X. ✷ 

Korollar 21.25. Sei (νt)t≥0 eine stetige Faltungshalbgruppe mit � |x|ν1(dx) < ∞. 

Dann existiert ein Markov-Prozess X mit unabhängigen, stationären Zuwächsen 

PXt−Xs = νt−s für alle t>sund mit RCLL Pfaden. 

Sei E ein lokalkompakter, polnischer Raum und C0(E) die Menge der (beschränkten) 

stetigen Funktionen, die im Unendlichen verschwinden. Ist κ ein stochastischer 

Kern von E nach E und ist f messbar und beschränkt, so schreiben wir κf(x) = 

� κ(x, dy) f(y). 

Definition 21.26. Eine Markov’sche Halbgruppe (κt)t≥0 auf E heißt Feller’sche 

Halbgruppe, falls 

f(x) = lim κtf(x) für jedes x ∈ E, f ∈ C0(E) 

t→0 

und κtf ∈ C0(E) für jedes f ∈ C0(E). 

Sei X ein zu (κt)t≥0 gehöriger Markovprozess bezüglich einer Filtration F, die die 

üblichen Bedingungen erfüllt. 

Sei g ∈ C0(E), g ≥ 0. Setze h = � ∞ 

e −s κsh = e −s 

� ∞ 

0 

0 e−tκtgdt.Dannist � ∞ 

e −t κsκtgdt= 

s 

e −t κtgdt≤ h. 

Also ist Xg := (e−th(Xt))t≥0 ein F-Supermartingal. 

Die Fellereigenschaft und Satz 21.24 sichern nun die Existenz einer RCLL Version 

�X g von Xg . Mit etwas mehr Arbeit kann man zeigen, dass mit einer abzählbaren 

Menge G ⊂ C0(E) ein Prozess � X durch alle � Xg , g ∈ G, eindeutig festgelegt ist 

und eine RCLL Version von X ist. Siehe etwa [139, Kapitel III.7ff]. 

Wir wollen nun rückblicken, wie wir die starke Markoveigenschaft der Brown’schen 

Bewegung in Abschnitt 21.3 hergeleitet hatten. Tatsächlich wurde dort lediglich 

die Rechtsstetigkeit der Pfade sowie eine Stetigkeit im Anfangspunkt benötigt, die 

genau die Fellereigenschaft ist. Mit etwas Arbeit kann man daher den folgenden 

Satz zeigen (siehe etwa [139, Kapitel III.8ff] oder [137, Kapitel III, Theorem 2.7]).


Satz 21.27. Sei (κt)t≥0 eine Feller’sche Halbgruppe auf dem lokalkompakten, polnischen 

Raum E. Dann existiert ein starker Markovprozess (Xt)t≥0 mit RCLL Pfaden 

und Übergangskernen (κt)t≥0. 

Einen solchen Prozess X nennen wir auch einen Feller-Prozess. 

Übung 21.4.1 (Doob’sche Ungleichung). Sei X = (Xt)t≥0ein Martingal oder 

|Xt|. 

nichtnegatives Submartingal mit RCLL Pfaden. Für T ≥ 0 sei |X| ∗ T 

Man zeige die Doob’schen Ungleichungen: 

(i) Für jedes p ≥ 1 und λ>0 gilt λ p P � |X| ∗ T ≥ λ � ≤ E � |XT | p� . 

(ii) Für jedes p>1 gilt E � |XT | p� ≤ E � (|X| ∗ T )p� ≤ 

� p 

p−1 

= sup 

t∈[0,T ] 

� p 

E � |XT | p� . 

Man zeige durch ein Gegenbeispiel, dass auf die Rechtsstetigkeit von X nicht ohne 

Weiteres verzichtet werden kann. ♣ 

Übung 21.4.2 (Martingalkonvergenzsätze). Sei X ein stochastischer Prozess mit 

RCLL Pfaden. Man zeige mit Hilfe der Doob’schen Ungleichung (Übung 21.4.1), 

dass die Martingalkonvergenzsätze (f.s. Konvergenz (Satz 11.4), f.s. und L 1 -Konvergenz 

für gleichgradig integrierbare Martingale (Satz 11.7) und der L p -Martingalkonvergenzsatz 

(Satz 11.10)) sinngemäß für X gelten. ♣ 

Übung 21.4.3. Sei p ≥ 1 und X1 ,X2 ,X3 ,...p-fach integrierbare Martingale. Für 

jedes t ≥ 0 gebe es ein � Xt ∈Lp (P) mit Xn n→∞ 

t −→ � Xt in Lp . 

(i) Zeige: ( � Xt)t≥0 ist ein Martingal. 

(ii) Zeige mit Hilfe der Doob’schen Ungleichung: Ist p>1 und sind X 1 ,X 2 ,... 

f.s. stetig, so gibt es ein stetiges Martingal X mit den Eigenschaften: X ist eine 

Modifikation von � X und Xn t 

n→∞ 

−→ Xt in Lp für jedes t ≥ 0. ♣ 

Übung 21.4.4. Sei X ein stochastischer Prozess mit Werten in einem polnischen 

Raum E mit RCLL Pfaden, und sei F = σ(X) die von X erzeugte Filtration, sowie 

F + := (F + t )t≥0 definiert durch F + t = � 

s>t Fs. SeiU⊂ E offen und C ⊂ E 

abgeschlossen. Für jede Menge A ⊂ E sei τA := inf{t >0: Xt ∈ A}. Man zeige: 

(i) τC ist eine F-Stoppzeit (und eine F + -Stoppzeit). 

(ii) τU ist eine F + -Stoppzeit, jedoch im Allgemeinen (selbst für stetiges X) keine 

F-Stoppzeit. ♣ 

Übung 21.4.5. Man zeige die Aussage von Bemerkung 21.22 und folgere: Ist F 

eine Filtration und B eine Brown’sche Bewegung, die ein F-Martingal ist. Dann ist 

B auch ein F +,∗ -Martingal. ♣

21.5 Konstruktion durch L 2 -Approximation 

21.5 Konstruktion durch L 2 -Approximation 447 

Wir geben eine funktionalanalytische Konstruktion der Brown’schen Bewegung 

durch eine L 2 –Approximation an. Der Einfachheit halber betrachten wir als Zeitintervall 

[0, 1] statt [0, ∞). 

Es sei also H = L2 ([0, 1]) der Hilbertraum der quadratintegrierbaren (bezüglich 

des Lebesgue-Maßes λ) Funktionen [0, 1] → R mit Skalarprodukt 

� 

〈f,g〉 = f(x)g(x) λ(dx) 

[0,1] 

und Norm �f� = � 〈f,f〉 (vergleiche Kapitel 7.3). Zwei Funktionen f,g ∈ H 

werden als gleich angesehen, wenn f = gλ-f.ü. Sei (bn)n∈N eine Orthonormalbasis 

(ONB) von H, also 〈bm,bn〉 = {m=n} und 

lim 

n→∞ 

� 

� 

�f − 

n� � 

� 

〈f,bm〉bm� 

=0 für jedes f ∈ H. 

m=1 

Speziell gilt für jedes f ∈ H die Parseval’sche Gleichung 

und für f,g ∈ H 

�f� 2 = 

〈f,g〉 = 

∞� 

m=1 

〈f,bm〉 2 

(21.21) 

∞� 

〈f,bm〉〈g, bm〉. (21.22) 

m=1 

Betrachte jetzt eine u.i.v. Folge (ξn) n∈N von N0,1-Zufallsvariablen auf einem Wahrscheinlichkeitsraum 

(Ω,A, P). Für n ∈ N und t ∈ [0, 1] setze 

� � 

n� 

� 

ξmbm(s) λ(ds) = 

n� 

ξm〈 [0,t],bm〉. 

X n t = 

[0,t](s) 

Offenbar ist für n ≥ m 

E � (X m t − X n t ) 2� = E 

= 

m=1 

�� n� 

n� 

k=m+1 

k=m+1 

m=1 

� � 

ξk [0,t],bk 

�� n 

� �2 [0,t],bk ≤ 

∞� 

k=m+1 

l=m+1 

� �2. [0,t],bk 

Wegen � ∞ 

k=1 〈 [0,t],bk〉 2 = � [0,t]� 2 = t


Also ist (X n t ) n∈N eine Cauchy-Folge in L 2 (P) und hat wegen der Vollständigkeit 

von L 2 (P) (siehe Satz 7.3) einen L 2 -Grenzwert Xt. Offenbar gilt dann auch für 

N ∈ N und 0 ≤ t1,...,tN ≤ 1 

lim 

n→∞ E 

� N� 

i=1 

� n→∞ 

k=1 

� X n ti − Xti 

� 

�2 =0. 

Speziell gilt also � Xn t1 ,...,Xn tN −→ (Xt1 ,...,XtN ) P-stochastisch. 

Offenbar ist � Xn t1 ,...,Xn � 

tN Gauß-verteilt und zentriert. Für s, t ∈ [0, 1] gilt 

Cov [X n s ,X n �� 

n� 

� � 

t ]=E ξk [0,s],bk 

�� n 

� � 

ξl [0,t],bl 

�� 

= 

= 

n� 

k,l=1 

n� 

l=1 

E[ξkξl] � �� 

[0,s],bk [0,t],bl 

� �� 

[0,s],bk [0,t],bk 

k=1 

n→∞ 

−→ � [0,s], [0,t] 

� =min(s, t). 

Also ist (Xt) t∈[0,1] ein zentrierter, Gauß’scher Prozess mit 

Cov[Xs,Xt] =min(s, t). (21.23) 

Bis auf die Stetigkeit der Pfade ist X also eine Brown’sche Bewegung. Eine stetige 

Version von X liefert jetzt der Satz von Kolmogorov-Chentsov (Satz 21.6). Wir 

können X aber auch direkt als stetigen Prozess konstruieren, indem wir die ONB 

(bn)n∈N geschickt wählen, beispielsweise die Haar-Funktionen bn,k: Seib0,1 ≡ 1 

und für n ∈ N und k =1,...,2 n sei 

⎧ 

2 

⎪⎨ 

bn,k(t) = 

⎪⎩ 

n/2 2k − 2 − 1 

, falls ≤ t

X n := 

21.5 Konstruktion durch L 2 -Approximation 449 

n� 2 m 

� 

m=0 k=1 

ξm,k Bm,k 

und definieren Xt als den L 2 (P)-Limes Xt = L 2 − lim 

n→∞ Xn . 

Satz 21.28 (Brown’sche Bewegung, L2 –Approximation). 

X ist eine Brown’sche Bewegung, und es gilt 

� 

lim �X n − X � � =0 P–fast sicher. (21.24) 

∞ 

n→∞ 

Beweis. Da gleichmäßige Limiten stetiger Funktionen wieder stetig sind, folgt aus 

(21.24) die Stetigkeit von X und aus (21.23) (zusammen mit Satz 21.11), dass X 

eine Brown’sche Bewegung ist. Es reicht also, (21.24) zu zeigen. 

Da (C([0, 1]), � · �∞) vollständig ist, reicht es zu zeigen, dass P-fast sicher Xn eine Cauchy-Folge in (C([0, 1]), � · �∞) ist. Man beachte, dass �Bn,k�∞ ≤ 2−n/2 und Bn,kBn,l =0, falls k �= l.Alsoist 

� 

� n n−1 

X − X � � ≤ 2 

∞ −n/2 max � |ξn,k|, k=1,...,2 n� . 

Mithin ist 

� 

P �X n − X n−1 �∞ > 2 −n/4� 

≤ 

� 

2 n 

k=1 

n 2 

=2 √ 

2π 

≤ 2 n+1 exp 

� 

P |ξn,k| > 2 n/4� 

� ∞ 

2n/4 e −x2 /2 

dx 

� 

−2 (n/2)−1� 

. 

Offenbar ist ∞� 

P[�Xn − Xn−1�∞ > 2−n/4 ] < ∞, also nach dem Lemma von 

n=1 

Borel-Cantelli 

��X n n−1 

P − X � � > 2 

∞ −n/4 

� 

höchstens endlich oft =1. 

Es folgt lim 

n→∞ sup �X 

m≥n 

m − Xn�∞ =0 P–fast sicher. ✷ 

Beispiel 21.29 (Stochastisches Integral). Wir nehmen an, dass (ξn)n∈N eine u.i.v. 

Folge von N0,1 verteilten Zufallsvariablen ist, sowie (bn)n∈N eine Orthonormal- 

basis von L2 �n ([0, 1]), sodass Wt := limn→∞ k=1 〈 [0,t],bk〉, t ∈ [0, 1], eine 

Brown’sche Bewegung ist. Für f ∈ L2 ([0, 1]) definieren wir 

∞� 

I(f) := ξn〈f,bn〉. 

n=1


Nach der Parseval’schen Gleichung und der Bienaymé Formel ist 

also gilt: 

Wir nennen 

�f� 2 2 = 

∞� 

〈f,bn〉 2 = Var � I(f) � = E � I 2� , 

n=1 

I : L 2 ([0, 1]) → L 2 (P), f ↦→ I(f) ist eine Isometrie. (21.25) 

� t 

0 

f(s) dWs := I � � 2 

f [0,t] , t ∈ [0, 1], f∈ L ([0, 1]), 

das stochastische Integral von f bezüglich W . Durch Xt := � t 

0 f(s) dWs wird ein 

stetiger, zentrierter, Gauß’scher Prozess definiert mit Kovarianzfunktion 

Cov[Xs,Xt] = 

� s∧t 

0 

f 2 (u) du. 

In der Tat ist klar, dass X zentriert und Gauß’sch ist (als Limes von Gauß’schen 

Partialsummenprozessen) mit der angegebenen Kovarianzfunktion. Ferner folgt 

die Stetigkeit wie für die Brown’sche Bewegung mit den vierten Momenten der 

Zuwächse, die wir bei normalverteilten Zufallsvariablen aus den Varianzen berechnen 

können (vergleiche Satz 21.9). 

In dem Spezialfall f = �n i=1 αi (ti−1,ti] für gewisses n ∈ N und 0=t0

21.6 Der Raum C([0, ∞)) 451 

Übung 21.5.3. Sei d ∈ N. Man zeige mit Hilfe einer geeigneten Orthonormalbasis 

auf [0, 1] d : 

(i) Es gibt einen Gauß’schen Prozess (Wt) t∈[0,1] d mit Kovarianzfunktion 

Cov[Wt,Ws] = 

d� 

i=1 

� � 

ti ∧ si . 

(ii) Es existiert eine Modifikation von W , sodass t ↦→ W fast sicher stetig ist (siehe 

Bemerkung 21.7). 

Ein Prozess W mit den Eigenschaften (i) und (ii) heißt Brown’sches Blatt. ♣ 

21.6 Der Raum C([0, ∞)) 

Sind Funktionale, die vom ganzen Pfad der Brown’schen Bewegung abhängen, 

messbar? Ist beispielsweise sup{Xt, t∈ [0, 1])} messbar? Für allgemeine stochastische 

Prozesse ist dies sicherlich falsch, weil das Supremum von mehr als abzählbar 

vielen Koordinaten abhängt. Für Prozesse mit stetigen Pfaden ist dies jedoch richtig, 

wie wir in diesem Abschnitt in allgemeinem Rahmen zeigen werden. 

Es liegt nahe, dass man die Brown’sche Bewegung als kanonischen Prozess auf dem 

Raum Ω := C([0, ∞)) der stetigen Pfade begreift. 

Wir sammeln zunächst ein paar Eigenschaften von Ω = C([0, ∞)) ⊂ R [0,∞) .Wir 

definieren die Auswertungsabbildung 

Xt : Ω → R, ω ↦→ ω(t), (21.26) 

also die Einschränkung der kanonischen Projektion R [0,∞) → R auf Ω. 

Für f,g ∈ C � [0, ∞) � � 

� 

und n ∈ N sei dn(f,g) := �(f − g) � � 

� 

� ∧ 1 und 

[0,n] 

d(f,g) = 

� ∞ 

∞� 

2 −n dn(f,g). (21.27) 

n=1 

Satz 21.30. d ist eine vollständige Metrik auf Ω := C � [0, ∞) � , die die Topologie 

der gleichmäßigen Konvergenz auf kompakten Mengen erzeugt. Der Raum (Ω,d) 

ist separabel, also polnisch. 

Beweis. Offenbar ist jedes dn eine vollständige Metrik auf (C([0,n]), � · �∞)).Zu 

jeder Cauchy-Folge (fN ) in (Ω,d) und jedem n ∈ N existiert daher ein gn ∈ Ω 

mit dn(fN ,gn) N→∞ 

−→ 0. Offenbar ist gn(x) =gm(x) für jedes x ≤ m ∧ n, also


existiert ein g ∈ Ω mit g(x) =gn(x) für jedes x ≤ n für jedes n ∈ N. Offenbar gilt 

dann d(fN ,g) N→∞ 

−→ 0, also ist d vollständig. 

Die Menge der Polynome mit rationalen Koeffizienten ist abzählbar und nach dem 

Satz von Weierstraß dicht in jedem (C([0,n]), � · �∞)) also dicht in (Ω,d). ✷ 

Satz 21.31. Bezüglich der Borel’schen σ-Algebra B(Ω,d) sind die kanonischen 

Projektionen Xt, t ∈ [0, ∞) messbar. Andererseits erzeugen die Xt schon B(Ω,d). 

Es gilt also 

(B(R)) ⊗[0,∞)� �Ω 

= σ � Xt, t∈ [0, ∞) � = B(Ω,d). 

Beweis. Die erste Gleichung gilt per definitionem. Für die zweite betrachten wir 

die gegenseitigen Inklusionen. 

” ⊂“ Offenbar ist jedes Xt : Ω −→ R stetig, also (B(Ω,d)–B(R)) messbar. 

Mithin ist σ � Xt, t∈ [0, ∞) � ⊂B(Ω,d). 

” ⊃“ Wir zeigen, dass für jedes ω ∈ Ω und für jedes ε ∈ (0, 1) die ε-Umgebung 

Uε(ω) = � ω ′ ∈ Ω : d(ω, ω ′ )

21.7 Konvergenz von W-Maßen auf C([0, ∞)) 453 

Definition 21.33. Sei P das W-Maß auf Ω = C([0, ∞)), bezüglich dessen der 

kanonische Prozess X eine Brown’sche Bewegung ist. Dann heißt P Wiener-Maß. 

Das Tripel (Ω,A, P) heißt Wiener-Raum, und X heißt kanonische Brown’sche 

Bewegung oder Wiener-Prozess. 

Bemerkung 21.34. Manchmal soll eine Brown’sche Bewegung nicht in X0 =0 

starten, sondern in einem beliebigen Punkt x.MitPx bezeichnen wir dann dasjenige 

Maß auf C([0, ∞)),für das � X =(Xt − x, t ∈ [0, ∞)) eine Brown’sche Bewegung 

(mit � X0 =0)ist. ✸ 

Übung 21.6.1. Man zeige: Die Abbildung F∞ : Ω → [0, ∞], ω ↦→ sup{ω(t) :t ∈ 

[0, ∞)} ist A-messbar. ♣ 

21.7 Konvergenz von W-Maßen auf C([0, ∞)) 

Seien X und (X n )n∈N Zufallsvariablen mit Werten in C([0, ∞)), also stetige stochastische 

Prozesse, mit Verteilungen PX und (PX n)n∈N. 

Definition 21.35. Wir sagen, dass die endlichdimensionalen Verteilungen (finite dimensional 

distributions) von (X n ) gegen die von X konvergieren, falls für jedes 

k ∈ N und t1,...,tk ∈ [0, ∞) gilt 

n n→∞ 

Wir schreiben dann X =⇒ 

fdd 

Lemma 21.36. Aus Pn n→∞ 

−→ 

fdd 

(X n t1 ,...,Xn n→∞ 

tk ) =⇒ (Xt1 ,...,Xtk ). 

n→∞ 

X oder PXn −→ 

fdd 

P und Pn n→∞ 

−→ 

fdd 

PX. 

Q folgt P = Q. 

Beweis. Nach Satz 14.12(iii) legen die endlichdimensionalen Verteilungen P eindeutig 

fest. ✷ 

Satz 21.37. Schwache Konvergenz in M1(Ω,d) impliziert fdd-Konvergenz: 

Pn 

n→∞ 

−→ P =⇒ Pn n→∞ 

−→ 

fdd 

Beweis. Sei k ∈ N und t1,...,tk ∈ [0, ∞). Die Abbildung 

ϕ : C([0, ∞)) → R k , ω ↦→ (ω(t1),...,ω(tk)) 

ist stetig. Nach dem Continuous Mapping Theorem (Satz 13.25 auf Seite 245) gilt 

−1 n→∞ 

Pn ◦ ϕ −→ P ◦ ϕ−1 , also Pn n→∞ 

−→ P . ✷ 

fdd 

P.


Die Umkehrung des Satzes ist nicht richtig. Es gilt aber Folgendes. 

Satz 21.38. Seien (Pn)n∈N und P W-Maße auf C([0, ∞)). Dann sind äquivalent: 

(i) Pn n→∞ 

−→ 

fdd 

P und (Pn)n∈N ist straff. 

(ii) Pn 

n→∞ 

−→ P schwach. 

Beweis. ” (ii) =⇒ (i)“ Dies folgt direkt aus dem Satz von Prohorov (Satz 13.29 

mit E = C([0, ∞))). 

” (i) =⇒ (ii)“ Nach dem Satz von Prohorov ist (Pn)n∈N relativ folgenkompakt. 

Sei Q ein Limespunkt von (Pnk )k∈N entlang einer Teilfolge (nk). Dann gilt 

fdd 

−→ Q, k →∞. Nach Lemma 21.36 ist P = Q. ✷ 

Pnk 

Als nächstes wollen wir uns ein nützliches Kriterium für Straffheit von Mengen 

{Pn} ⊂M1(C([0, ∞))) verschaffen. Wir beginnen mit einer Wiederholung der 

Charakterisierung von Relativkompaktheit in C([0, ∞)) von Arzelà und Ascoli (siehe 

etwa [156, Satz II.3.4]). 

Für N,δ > 0 und ω ∈ C([0, ∞)) setze 

V N (ω, δ) :=sup � |ω(t) − ω(s)| : |t − s| ≤δ, s, t ≤ N � . 

Satz 21.39 (Arzelà-Ascoli). Eine Menge A ⊂ C([0, ∞)) ist genau dann relativ 

kompakt, wenn die beiden folgenden Bedingungen gelten. 

(i) {ω(0), ω∈ A} ⊂R ist beschränkt. 

(ii) Für jedes N gilt lim sup V 

δ↓0 N (ω, δ) =0. 

ω∈A 

Satz 21.40. Eine Familie (Pi, i∈ I) von W-Maßen auf C([0, ∞)) ist genau dann 

schwach relativkompakt, wenn die beiden folgenden Bedingungen gelten. 

(i) (Pi ◦ X −1 

0 ,i∈ I) ist straff, das heißt, für jedes ε>0 gibt es ein K > 0, 

sodass 

Pi({ω : |ω(0)| >K}) ≤ ε für jedes i ∈ I. (21.28) 

(ii) Für alle η, ε > 0 und N ∈ N gibt es ein δ>0, sodass 

Pi({ω : V N (ω, δ) >η}) ≤ ε für jedes i ∈ I. (21.29) 

Beweis. ” =⇒ “ Nach dem Satz von Prohorov (Satz 13.29) folgt aus der schwachen 

Relativkompaktheit von (Pi, i∈ I) die Straffheit dieser Familie. Zu jedem 

ε>0 gibt es daher eine kompakte Menge A ⊂ C([0, ∞)) mit Pi(A) > 1 − ε

21.7 Konvergenz von W-Maßen auf C([0, ∞)) 455 

für jedes i ∈ I. Aus der Charakterisierung der Kompaktheit von A im Satz von 

Arzelà-Ascoli folgen nun (i) und (ii). 

” ⇐= “ Wir nehmen jetzt an, dass (i) und (ii) gelten. Seien also für ε>0 und 

k, N ∈ N die Zahlen Kε und δN,k,ε so gewählt, dass 

� 

sup Pi {ω : |ω(0)| >Kε} 

i∈I 

� ≤ ε 

2 

und 

Setze 

CN,ε = 

�� 

sup Pi ω : V 

i∈I 

N (ω, δN,k,ε) > 1 

�� 

≤ 2 

k 

−N−k−1 ε. 

� 

ω : |ω(0)| ≤Kε, V N (ω, δN,k,ε) ≤ 1 

k 

� 

für jedes k ∈ N . 

Nach dem Satz von Arzelà-Ascoli ist Cε := � 

N∈N CN,ε in C([0, ∞)) relativ kompakt, 

und wir haben 

Pi(C c ε) ≤ ε 

2 + 

∞� 

k,N=1 

�� N 

Pi ω : V (ω, δN,k,ε) > 1/k �� ≤ ε für jedes i ∈ I. 

Es folgt die Aussage. ✷ 

Korollar 21.41. Sind (Xi, i ∈ I) und (Yi, i ∈ I) Familien von Zufallsvariablen 

in C([0, ∞)), und sind (PXi ,i ∈ I) und (PYi ,i ∈ I) straff, dann ist auch 

,i∈ I) straff. 

(PXi+Yi 

Beweis. Wende die Dreiecksungleichung an, um im vorigen Satz (i) und (ii) nachzuweisen. 

✷ 

Ein wichtiges Hilfsmittel, um schwache Relativkompaktheit nachzuweisen, ist das 

folgende. 

Satz 21.42 (Kolmogorov’sches Kriterium für schwache Relativkompaktheit). 

Sei (X i ,i∈ I) eine Folge von stetigen stochastischen Prozessen. Es gelte: 

(i) Die Familie (P[Xi 0 ∈ · ], i∈ I) der Startverteilungen ist straff. 

(ii) Es gibt Zahlen C, α, β > 0, sodass für alle s, t ∈ [0, ∞) und jedes i ∈ I gilt 

E � |X i s − X i t| α� ≤ C |s − t| β+1 . 

Dann ist die Familie (P X i,i∈ I) =(L[X i ],i∈ I) von Verteilungen der X i 

schwach relativkompakt in M1(C([0, ∞))).


Beweis. Wir prüfen die Bedingungen von Satz 21.40. Die erste Bedingung aus 

Satz 21.40 ist genau (i). 

Nach dem Satz von Kolmogorov-Chentsov (Satz 21.6(ii)) gibt es zu γ ∈ (0,β/α) 

und ε>0 sowie N>0 eine Konstante K, sodass für jedes i ∈ I gilt 

P � |X i t − X i s|≤K |t − s| γ für alle s, t ∈ [0,N] � ≥ 1 − ε. 

Offenbar impliziert dies (21.29) mit δ =(η/K) 1/γ . ✷ 

21.8 Satz von Donsker 

Seien Y1,Y2,... u.i.v. Zufallsvariablen mit E[Y1] =0und Var[Y1] =σ2 > 0. Für 

t>0 sei Sn t = �⌊nt⌋ i=1 Yi und � Sn t = 1 √ S 

σ2n n t . Nach dem zentralen Grenzwertsatz 

gilt L[ � Sn t ] n→∞ 

−→ N0,t. Bezeichnet B =(Bt, t≥ 0) eine Brown’sche Bewegung, 

so gilt also 

L[ � S n t ] n→∞ 

−→ L[Bt] für jedes t>0. 

Nach dem mehrdimensionalen Zentralen Grenzwertsatz (Satz 15.56) gilt nun auch 

(für N ∈ N und t1,...,tN ∈ [0, ∞)) 

L[( � S n t1 ,..., � S n n→∞ 

tN )] −→ L[(Bt1 ,...,BtN )] (21.30) 

Wir definieren jetzt ¯ S n wie � S n , aber linear interpoliert 

Dann gilt für ε>0 

P �� S n t − ¯ S n t 

¯S n t = 1 

√ σ 2 n 

⌊nt⌋ 

� 

i=1 

Yi + 

� 

� >ε � ≤ ε −2 E � ( � S n t − ¯ S n t ) 2� ≤ 1 

ε 2 n 

(tn −⌊tn⌋) 

√ Y⌊nt⌋+1. (21.31) 

σ2n 1 2 

E[Y 

σ2 1 ]= 1 

ε2n n→∞ 

−→ 0. 

Nach dem Satz von Slutzky (Satz 13.18) gilt daher die Konvergenz der endlichdimensionalen 

Verteilungen gegen das Wiener-Maß PW : 

P ¯ S n 

n→∞ 

=⇒ 

fdd 

PW . (21.32) 

Wir wollen diese Konvergenzaussage verstärken zur schwachen Konvergenz der W- 

Maße auf C([0, ∞)). Dazu formulieren wir als Hauptsatz dieses Abschnitts den 

Funktionalen Zentralen Grenzwertsatz, der in dieser Allgemeinheit auf Donsker 

[35] zurückgeht. Sätze von diesem Typ werden auch Invarianzprinzipien genannt, 

weil die Grenzverteilung die selbe ist für alle Verteilungen von Yi mit Erwartungswert 

0 und selber Varianz.

21.8 Satz von Donsker 457 

Satz 21.43 (Donsker’sches Invarianzprinzip). Im Sinne der schwachen Konvergenz 

auf C([0, ∞)) konvergieren die Verteilungen von ¯ S n gegen das Wiener-Maß 

L[ ¯ S n ] n→∞ 

−→ PW . (21.33) 

Beweis. Wegen (21.32) und Satz 21.38 reicht es zu zeigen, dass (L[ ¯ Sn], n∈ N) 

straff ist. Dafür möchten wir das Kolmogorov’sche Momentenkriterium anwenden. 

Wie wir schon beim Beweis der Existenz der Brown’schen Bewegung gesehen haben, 

reichen hierfür aber zweite Momente nicht aus, sondern wir benötigen vierte 

Momente, damit wir β>0 wählen können. Die Strategie ist also, zunächst die Yi 

abzuschneiden, um vierte Momente zu erhalten, und dann für den abgeschnittenen 

Teil und den Hauptteil separat Straffheit zu zeigen. 

Für K>0 definieren wir 

Y K 

i := Yi {|Yi|≤K/2} −E[Yi {|Yi|≤K/2}] und Z K i := Yi −Y K 

i 

für i ∈ N. 

Dann gilt E[Y K 

i ]=E[ZK i ]=0sowie Var[ZK K→∞ 

i ] −→ 0 und Var[Y K 

i ] ≤ σ2 , 

i ∈ N. Außerdem ist offenbar |Y K 

i |≤K für jedes i. Setze 

Es seien ¯ T K,n 

t 

n� 

T K n := 

i=1 

n� 

Y K 

i und U K n := 

i=1 

Z K i 

K,n 

und Ūt die linearen Interpolationen von 

�T K,n 

t := 1 

√ σ 2 n T K,n 

⌊nt⌋ und � U K,n 

t := 1 

√ σ 2 n U K,n 

⌊nt⌋ 

für n ∈ N. 

für t ≥ 0. 

Offenbar ist ¯ Sn = ¯ T K,n + Ū K,n . Nach Korollar 21.41 reicht es zu zeigen, 

dass für eine noch zu wählende Folge (Kn)n∈N gilt: (L[ Ū Kn,n ],n ∈ N) und 

(L[ ¯ T Kn,n ],n∈ N) sind straff. 

Wir betrachten zunächst den Restterm. U K ist ein Martingal. Die Doob’sche Ungleichung 

(Satz 11.2) liefert 

� 

� 

P 

sup |U 

l=1,...,n 

K l | >ε √ n 

≤ ε −2 Var � Z K� 1 

für jedes ε>0. 

Gilt jetzt Kn ↑∞, n →∞, so haben wir für jedes N>0 

� 

� 

P sup �Ū 

t∈[0,N] 

Kn,n 

� 

� 

� 

t >ε ≤ N 

ε2 Var�Z Kn� 

n→∞ 

1 −→ 0, 

Kn,n n→∞ 

also Ū =⇒ 0 in C([0, ∞)). Speziell ist (L[ Ū Kn,n ],n∈ N) straff.


Wir berechnen nun für N>0 und s, t ∈ [0,N] die vierten Momente der Differenzen 

¯ T Kn,n 

t+s − ¯ T Kn,n 

s des Hauptteils. Im Folgenden setzen wir Kn = n1/4 . Sei nun 

n ∈ N fest gewählt. Wir unterscheiden zwei Fälle. 

Fall 1: t

E � ( ¯ T Kn,n 


s 

) 4� ≤ n −2 σ −4 E � (T Kn 

Kn 

⌈(t+s)n⌉ − T⌊sn⌋ )4� 

= n −2 σ −4 E � (T Kn 

⌈(t+s)n⌉−⌊sn⌋ )4� 

≤ 3tnK2 n 

n 2 σ 2 +3t2 = 3 

≤ 3 

σ 2 t3/2 +3t 2 ≤ 

21.8 Satz von Donsker 459 

σ 2 tn−1/2 +3t 2 

� 

3 

σ2 +3√ � 

N t 3/2 . 

(21.36) 

Nach (21.34) und (21.36) gibt es also zu jedem N > 0 eine Konstante C = 

C(N,σ 2 ), sodass für jedes n ∈ N und alle s, t ∈ [0,N] gilt 

E � ( ¯ T Kn,n 


s 

) 4� ≤ Ct 3/2 . 

Nach dem Kolmogorov’schen Momentenkriterium (Satz 21.42 mit α =4und β = 

1/2) ist also (L[ ¯ T Kn,n ],n∈ N) straff in M1(C([0, ∞))). ✷ 

Übung 21.8.1. Seien X1,X2,... u.i.v. Zufallsvariablen mit stetiger Verteilungsfunktion 

F .EsseiGn :[0, 1] → [−1, 1], t ↦→ n−1/2 �n � 

i=1 [0,t](F (Xi)) − t � und 

Mn := �Gn�∞. Ferner sei M =supt∈[0,1] |Bt|,woB eine Brown’sche Brücke ist. 

(i) Man zeige E[Gn(t)] = 0 und Cov[Gn(s),Gn(t)] = s∧t−st für s, t ∈ [0, 1]. 

(ii) Man zeige E[(Gn(t) − Gn(s)) 4 ] ≤ C � (t − s) 2 + |t − s|/n � für ein C>0. 

(iii) Man folgere, dass eine geeignete stetige Version von Gn schwach gegen B 

konvergiert. Beispielsweise kann Hn(t) =n−1/2 �n � 

i=1 hn(F (Xi) − t) − t � 

genommen werden, wo hn(s) =1− (s/εn ∨ 0) ∧ 1 für eine geeignete Folge 

εn ↓ 0. 

n→∞ 

(iv) Man zeige schließlich Mn =⇒ M. 

Bemerkung: Die Verteilung von M lässt sich durch die Formel von Kolmogorov- 

Smirnov ([97] und [146]) ausdrücken (siehe etwa [125]): 

∞� 

P[M >x]=2 (−1) n−1 e −2n2x 2 

. (21.37) 

n=1 

Vergleiche hierzu auch (21.20). Mit Hilfe der Statistik Mn können Zufallsvariablen 

bei bekannter Verteilung auf Unabhängigkeit getestet werden. Seien X1,X2,... 

und ˜ X1, ˜ X2,... unabhängige Zufallsvariablen mit unbekannten, stetigen Verteilungsfunktionen 

F und ˜ F und empirischen Verteilungsfunktionen Fn und ˜ F . Ferner 

sei 

Dn := sup |Fn(t) − 

t∈R 

˜ Fn(t)|. 

Unter der Annahme, dass F = ˜ F gilt, konvergiert � n/2 Dn in Verteilung gegen 

M. Diese Tatsache ist Grundlage von nichtparametrischen Tests auf Verteilungsgleichheit. 

♣


21.9 Pfadweise Konvergenz von Verzweigungsprozessen ∗ 

In diesem Abschnitt untersuchen wir die Konvergenz reskalierter Galton-Watson- 

Prozesse (Verzweigungsprozesse). Ähnlich wie für Summen unabhängiger Zufallsvariablen 

zeigen wir zunächst die Konvergenz zu einem festen Zeitpunkt gegen die 

Verteilungen eines Grenzprozesses. Hernach zeigen wir Konvergenz der endlichdimensionalen 

Verteilungen und schließlich mit Hilfe des Kolmogorov’schen Straffheitskriteriums 

die Konvergenz im Pfadraum C([0, ∞)). 

Wir betrachten einen Galton-Watson-Prozess (Zn)n∈N0 mit geometrischer Nachkommenverteilung 

p(k) =2 −k−1 

für k ∈ N0. 

Das heißt, wir betrachten u.i.v. Zufallsvariablen Xn,i, n, i ∈ N0 auf N0 mit 

P[Xn,i = k] =p(k), k ∈ N0 und definieren, ausgehend vom Startzustand Z0, 

rekursiv 

Zn � 

Zn+1 = Xn,i. 

i=1 

Z ist also eine Markovkette mit Übergangswahrscheinlichkeiten p(i, j) =p∗i (j), 

wobei p∗i die i-te Faltungspotenz von p ist. Mit anderen Worten: Sind Z, Z1 ,...,Zi unabhängige Kopien des Galton-Watson-Prozesses, mit Z0 = i und Z1 0 = ... = 

Zi 0 =1,soist 

Z D = Z 1 + ...+ Z i . (21.38) 

Wir betrachten nun die Erzeugendenfunktion ψ (1) (s) := ψ(s) := E[sX1,1 ] von 

X1,1, s ∈ [0, 1], und deren Iterierte ψ (n) := ψ (n−1) ◦ ψ für n ∈ N. Dann ist nach 

Lemma 3.10 Ei[sZn ]=E1[sZn ] i = � ψ (n) (s) �i 

.Für die geometrische Verteilung 

können wir ψ (n) leicht ausrechnen. 

Lemma 21.44. Für den Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung 

ist die n-te Iterierte der Erzeugendenfunktion 

Beweis. Wir berechnen 

ψ(s) = 

ψ (n) (s) = 

∞� 

k=0 

n − (n − 1)s 

n +1− ns . 

2 −k−1 s k = 

1 

−s +2 . 

Um die Iterierten auszurechnen, betrachten wir zunächst allgemeine linear rationale 

Funktionen der Form f(x) = ax+b 

cx+d .Für f von dieser Form definieren wir die Matrix 

� � 

ab 

Mf = .Für zwei linear rationale Funktionen f und g ist Mf◦g = Mf · Mg. 

cd 

Wir berechnen leicht

und induktiv 


� � 

0 1 

Mψ = , 

−1 2 

M 2 � � 

−12 

ψ = , 

−2 3 

M 3 � � 

−23 

ψ = 

−3 4 

M n ψ = 

461 

� � 

−(n − 1) n 

. ✷ 

−n n+1 

Setzen wir s = e −λ , so erhalten wir die Laplace-Transformierten von Zn 

Ei[e −λZn ]=ψ (n) (e −λ ) i . 

Nach Beispiel 6.29 ergeben sich die Momente von Zn durch Differenzieren. Es gilt 

also: 

Lemma 21.45. Die Momente von Zn sind 

Ei[Z k k dk 

n]=(−1) 

dλk � 

ψ (n) (e −λ ) i�� . (21.39) 

�λ=0 

Speziell sind die ersten sechs Momente 

Ei[Zn] =i 

Ei[Z 2 n]=2in+ i 2 

Ei[Z 3 n]=6in 2 +6i 2 n + i 3 

Ei[Z 4 n]=24in 3 +36i 2 n 2 +(12i 3 +2i) n + i 4 

(21.40) 

Ei[Z 5 n] = 120in 4 + 240i 2 n 3 + (120i 3 +30i) n 2 +(20i 4 +10i 2 ) n + i 5 

Ei[Z 6 n] = 720in 5 + 1800i 2 n 4 + (1200i 3 + 360i) n 3 

+ (300i 4 + 240i 2 )n 2 +(30i 5 +30i 3 +2i)n + i 6 . 

Insbesondere ist Z ein Martingal, und die ersten sechs zentrierten Momente sind 

Ei[(Zn − i) 2 ]=2in 

Ei[(Zn − i) 3 ]=6in 2 

Ei[(Zn − i) 4 ]=24in 3 +12i 2 n 2 +2in 

Ei[(Zn − i) 5 ] = 120in 4 + 120i 2 n 3 +30in 2 

(21.41) 

Ei[(Zn − i) 6 ] = 720in 5 + 1080i 2 n 4 + (120i 3 + 360i) n 3 +60i 2 n 2 +2in. 

Beweis. Die genauen Formeln für die ersten sechs Momente erhält man durch stures 

Ausrechnen von (21.39). ✷ 

Wir betrachten jetzt die folgende Reskalierung: Wir fixieren x ≥ 0 und starten mit 

Z0 = ⌊nx⌋ Individuen und betrachten ˜ Zn t := Z⌊tn⌋ n für t ≥ 0. Wir schreiben kurz


Lx[ ˜ Z n ]:=L ⌊nx⌋[(n −1 Z ⌊nt⌋)t≥0]. (21.42) 

Offenbar ist Ex[ ˜ Zn t ]= ⌊nx⌋ 

n ≤ x für jedes n, also ist (Lx[ ˜ Zn t ], n∈ N) straff. Indem 

wir Laplace-Transformierte betrachten, sehen wir sogar, dass für jedes λ ≥ 0 die 

Folge der Verteilungen konvergiert: 

lim 

n→∞ Ex[e −λ ˜ Z n 

t ] = lim 

n→∞ 

� 

ψ (⌊tn⌋) (e −λ/n �nx ) 

� −λ/n 

nt − (nt − 1)e 

= lim 

n→∞ nt +1− nt e−λ/n � 

= lim 1 − 

n→∞ 

�nx 

1 − e −λ/n 

n(1 − e −λ/n )t +1 

�nx 

� 

xn(1 − e 

=exp − lim 

n→∞ 

−λ/n ) 

n(1 − e−λ/n � 

)t +1 

� 

=exp − λ 

λ +1/t (x/t) 

� 

:= ψt(λ) x . 

(21.43) 

Die Funktion ψ x t ist aber die Laplace-Transformierte der zusammengesetzten Poisson-Verteilung 

CPoi (x/t) exp1/t (siehe Definition 16.3). 

Wir betrachten jetzt den stochastischen Kern κt(x, dy) := CPoi (x/t) exp1/t (dy). 

Dies ist genau derjenige Kern auf [0, ∞), dessen Laplace-Transformierte gegeben 

ist durch � ∞ 

0 

κt(x, dy) e −λy = ψt(λ) x . (21.44) 

Lemma 21.46. (κt)t≥0 ist eine Markov’sche Halbgruppe, und es existiert ein Markovprozess 

(Yt)t≥0 mit Übergangskernen Px[Yt ∈ dy] =κt(x, dy). 

Beweis. Es reicht, die Chapman-Kolmogorov Gleichung κt · κs = κs+t zu zeigen. 

Wir berechnen die Laplace-Transformierten dieser Kerne: Für λ ≥ 0 erhalten wir 

durch zweimaliges Anwenden von (21.44) 

� � 

κt(x, dy)κs(y, dz) e −λz � 

= 

� 

κt(x, dy)exp − λy 

λs +1 

� 

λ 

� 

λs+1 

=exp − λ 

λs+1t +1x 

� 

� 

λx 

=exp − 

λ(t + s)+1 

� 

= κt+s(x, dz) e −λz . ✷ 

Als nächstes zeigen wir, dass Y eine stetige Version besitzt. Dafür berechnen wir 

Momente und ziehen den Satz von Kolmogorov-Chentsov (Satz 21.6) heran. 

�


Lemma 21.47. Wir erhalten die k-ten Momente von Yt durch Ableiten der Laplace- 

Transformierten 

Ex[Y k 

k dk 

t ]=(−1) 

dλ k (ψ(λ)x ) � � λ=0 

� 

wobei ψt(λ) =exp− 

λ 

� 

λt+1 . Speziell sind die ersten Momente 

Ex[Yt ]=x 

Ex[Y 2 

t ]=2xt+ x 2 

Ex[Y 3 

t ]=6xt 2 +6x 2 t + x 3 

Ex[Y 4 

t ]=24xt 3 +36x 2 t 2 +12x 3 t + x 4 

Ex[Y 5 

t ] = 120xt 4 + 240x 2 t 3 + 120x 3 t 2 +20x 4 t + x 5 

Ex[Y 6 

t ] = 720xt 5 + 1800x 2 t 4 + 1200x 3 t 3 + 300x 4 t 2 +30x 5 t + x 6 (21.45) 

. 

Es ist also Y ein Martingal, und die ersten zentrierten Momente sind 

Ex[(Yt − x) 2 ]=2xt 

Ex[(Yt − x) 3 ]=6xt 2 

Ex[(Yt − x) 4 ]=24xt 3 +12x 2 t 2 

Ex[(Yt − x) 5 ] = 120xt 4 + 120x 2 t 3 

Ex[(Yt − x) 6 ] = 720xt 5 + 1080x 2 t 4 + 120x 3 t 3 . 

, 

463 

(21.46) 

Satz 21.48. Es existiert eine stetige Version des Markovprozesses Y mit Übergangskernen 

(κt)t≥0 gegeben durch (21.44). Diese Version nennen wir Feller’sche 

Verzweigungsdiffusion oder den Feller’schen stetigen Verzweigungsprozess. 

Beweis. Für festes N>0 und s, t ∈ [0,N] gilt 

� 

Ex (Yt+s − Ys) 4� � 

= Ex EYs [(Yt − Y0) 4 ] � � 

= Ex 24Ys t 3 +12Y 2 

s t 2� 

=24xt 3 + 12(2sx + x 2 ) t 2 ≤ � 48Nx+12x 2� t 2 . 

Mithin erfüllt Y die Bedingung aus Satz 21.6 (Kolmogorov-Chentsov) mit α =4 

und β =1. ✷ 

Bemerkung 21.49. (i) Indem man alle höheren Momente heranzieht, kann man 

zeigen, dass die Pfade von Y Hölder-stetig sind von jeder Ordnung γ ∈ (0, 1 

2 ). 

(ii) Man kann zeigen, dass Y die (eindeutige, starke) Lösung der stochastischen 

(Itô’schen) Differentialgleichung (siehe Beispiele 26.11 und 26.31) 

dYt = � 2Yt dWt 

(21.47) 

ist, wobei W eine Brown’sche Bewegung ist. ✸


Satz 21.50. Es gilt Lx[ ˜ Z n ] n→∞ 

−→ 

fdd 

Lx[Y ]. 

Beweis. Wie in (21.43) erhalten wir für 0 ≤ t1 ≤ t2 und λ1,λ2 ≥ 0, sowiex≥0 lim 

n→∞ Ex 

� 

e −(λ1 ˜ Z n 

t +λ2 1 ˜ Z n 

t ) 2 � 

= lim 

n→∞ Ex 

� � 

Ex e −λ2 ˜ Z n � 

� t2 � ˜ Z n � 

t1 e −λ1 ˜ Z n � 

t1 = lim 

n→∞ Ex 

� � 

λ2 

exp − 

λ2(t2 − t1)+1 ˜ Z n t1 

⎛ � 

� ⎞ 

λ2 

λ2(t2−t1)+1 + λ1 x 

=exp⎝−� 

� ⎠ 

λ2 

λ2(t2−t1)+1 + λ1 

� 

= Ex exp(−(λ1Yt1 + λ2Yt2 ))� . 

t1 +1 

� 

e −λ1 ˜ Z n 

� 

t1 Wir erhalten also 

� 

Lx λ1 ˜ Z n t1 + λ2 ˜ Z n � n→∞ � � 

t2 −→ Lx λ1Yt1 + λ2Yt2 . 

Nach der Cramér-Wold Device (Satz 15.55) folgt hieraus 

�� 

Lx 

˜Z n 

t1 , ˜ Z n �� n→∞ �� 

t2 −→ Lx Yt1 ,Yt2 

�� 

. 

Wir können dieses Vorgehen jetzt iterieren und erhalten so für jedes k ∈ N und 

0 ≤ t1 ≤ t2 ≤ ...≤ tk 

�� 

Lx 

˜Z n n→∞ �� 

ti −→ Lx Yti . 

i=1,...,k 

i=1,...,k 

Dies ist aber die Behauptung. ✷ 

Wir zeigen nun, dass die Konvergenz sogar im Pfadraum gilt. Hierzu müssen wir 

den reskalierten Prozess noch stetig machen. Wir nehmen an, dass (Zn)i∈N0 i , n ∈ N 

eine Folge von Galton-Watson-Prozessen ist, mit Zn 0 = ⌊nx⌋. Wirdefinieren die 

linearen Interpolationen 

¯Z n t := � t − n −1 � � 

⌊tn⌋ Z n ⌊tn⌋+1 − Zn � 

⌊tn⌋ + 1 

n Zn ⌊tn⌋ . 

Satz 21.51 (Lindvall (1972)). Die reskalierten Galton-Watson-Prozesse ¯ Z n konvergieren 

für n →∞gegen die Feller’sche Diffusion Y im Sinne der schwachen 

Konvergenz in M1(C([0, ∞))): 

Lx[ ¯ Z n ] n→∞ 

−→ Lx[Y ]. 

Beweis. Die Konvergenz der endlichdimensionalen Verteilungen ist schon gezeigt. 

Nach Satz 21.38 reicht es, die Straffheit von (Lx[ ¯ Z n ],n∈ N) in M1(C([0, ∞)))

21.10 Quadratische Variation und lokale Martingale 465 

zu zeigen. Hierzu verwenden wir das Kriterium von Kolmogorov � (Satz 21.42 mit 

α =4und β =1). Wir berechnen also die vierten Momente Ex ( Z¯ n 

t+s − ¯ Zn s ) 4� für 

s, t ∈ [0,N] und für festes N>0. Wir unterscheiden zwei Fälle. 

Fall 1: t< 1 

n . Sei k = ⌊(t + s)n⌋. Wir nehmen zunächst an, dass ⌊sn⌋ = k. 

Dann ist (nach Lemma 21.45) 

� 

Ex ( Z¯ n 

t+s − ¯ Z n s ) 4� = n −4 (tn) 4 � n 

E⌊nx⌋ (Zk+1 − Z n k ) 4� 

= t 4 � n 

E⌊nx⌋ 24Zk + 12(Z n k ) 2 +2Z n� k 

= t 4 � 26⌊nx⌋ +24⌊nx⌋k + ⌊nx⌋ 2� 

≤ 26xt 3 +24xs t 2 + x 2 t 2 

≤ (50Nx+ x 2 ) t 2 . 

Der Fall ⌊sn⌋ = k − 1 liefert eine ähnliche Abschätzung. Insgesamt erhalten wir 

eine Konstante C = C(N,x) mit 

� 

Ex ( Z¯ n 

s+t − ¯ Z n s ) 4� ≤ Ct 2 

für alle s, t ∈ [0,N] mit t< 1 

. (21.48) 

n 

Fall 2: t ≥ 1 

n . Wir setzen jetzt k := ⌈(t + s)n⌉−⌊sn⌋ ≤tn +1≤ 2tn.Dannist 

(nach Lemma 21.45) 

� 

Ex ( Z¯ n 

t+s − ¯ Z n s ) 4� 

≤ n −4 � n 

E⌊nx⌋ (Z⌊(t+s)n⌋ − Z n ⌊sn⌋ )4� 

= n −4 � 

E⌊nx⌋ EZn ⌊sn⌋ [(Zn k − Z n 0 ) 4 ] � 

= n −4 � 

E⌊nx⌋ 24Z n ⌊sn⌋k3 + 12(Z n ⌊sn⌋ )2k 2 +2Z n ⌊sn⌋k � 

≤ n −4 � 24xn(2tn) 3 +(24xn sn +12x 2 n 2 )(2tn) 2 +4xtn 2� 

≤ 192xt 3 +(96xs +48x 2 )t 2 +4xn −1 t 2 

(21.49) 

≤ (292Nx+48x 2 ) t 2 . 

Die Abschätzungen aus (21.48) und (21.49) ergeben zusammen, dass die Voraussetzungen 

des Kolmogorov’schen Straffheitskriteriums (Satz 21.42) erfüllt sind mit 

α =4und β =1. Also ist die Folge (Lx[ ¯ Z n ],n∈ N) straff. ✷ 

21.10 Quadratische Variation und lokale Martingale 

Nach dem Satz von Paley-Wiener-Zygmund (Satz 21.17) sind die Pfade t ↦→ Wt 

der Brown’schen Bewegung fast sicher nirgends differenzierbar, sind also von lokal 

unendlicher Variation. Insbesondere lässt sich das in Beispiel 21.29 betrachtete 

stochastische Integral � 1 

0 f(s) dWs nicht als Lebesgue-Stieltjes Integral verstehen.


Um jedoch Integrale von diesem Typ auch für eine größere Klasse von Integranden 

und Integratoren zu definieren, wollen wir hier vorbereitend die Pfadeigenschaften 

der Brown’schen Bewegung, und allgemeiner von stetigen lokalen Martingalen, genauer 

untersuchen. 

Definition 21.52. Sei G :[0, ∞) → R stetig. Wir definieren für jedes t ≥ 0 die 

Variation bis t durch 

V 1 

t (G) :=sup 

� n−1 � � 

�Gti+1 − Gti 

i=0 

� 

� 

� :0=t0 ≤ t1 ≤ ...≤ tn = t, n ∈ N . 

Wir sagen, dass G von lokal endlicher Variation ist, falls V 1 

t (G) < ∞ für alle 

t ≥ 0 und schreiben CV für den Vektorraum der stetigen Funktionen G mit stetiger 

Variation t ↦→ V 1 

t (G). 

Bemerkung 21.53. Offenbar gilt V 1 (F + G) ≤ V 1 (F )+V 1 (G) und V 1 (αG) = 

|α| V 1 (G) für alle stetigen F, G :[0, ∞) → R und für alle α ∈ R. AlsoistCV 

tatsächlich ein Vektorraum. ✸ 

Bemerkung 21.54. (i) Ist G von der Form Gt = � t 

f(s) ds für eine lokal inte- 

0 

grierbare Funktion f,soistG∈CV mit V 1 

t (G) = � t 

|f(s)| ds. 

(ii) Ist G = G + − G − die Differenz zweier stetiger, monoton wachsender Funktionen 

G + und G − ,soist 

V 1 

t (G) − V 1 

s (G) ≤ (G + t − G + s )+(G − t − G − s ) für alle t>s, (21.50) 

also ist G ∈CV. Gleichheit gilt in (21.50), wenn G − und G + 

0 

” nicht auf den selben 

Mengen wachsen“, also formal gesprochen die Verteilungsfunktionen gegenseitig 

singulärer Maße μ − und μ + sind. Diese Maße μ − und μ + sind dann die Jordan- 

Zerlegung des signierten Maßes μ = μ + − μ − , dessen Verteilungsfunktion G ist. 

Das Lebesgue-Stieltjes Integral wird dann definiert durch 

� t 

0 

� 

F (s) dGs := 

(iii) Ist G ∈CV,sosindoffenbar 

G + t := 1� 

� 

1 

Vt (G)+Gt 

2 

[0,t] 

Fdμ + � 

− Fdμ 

[0,t] 

− . (21.51) 

und G − t := 1� 

� 

1 

Vt (G) − Gt 

2 

eine Zerlegung von G wie in (ii) beschrieben. ✸ 

Dass die Pfade der Brown’schen Bewegung unendliche Variation haben, folgt schon 

aus ihrer Nichtdifferenzierbarkeit. Wir können dies aber auch leicht direkt einsehen.


Satz 21.55. Sei W eine Brown’sche Bewegung. Dann gilt V 1 

t (W )=∞ fast sicher 

für jedes t>0. 

Beweis. Es reicht, t =1zu betrachten und zu zeigen, dass 

Yn := 

2 n 

� � 

� 

i=1 

�Wi2−n − W (i−1)2−n� n→∞ 

� 

−→ ∞ f.s. (21.52) 

Es ist E[Yn] =2 n/2 E[|W1|] =2 n/2� 2/π und Var[Yn] =1− 2/π. Nach der 

Chebyshev’schen Ungleichung ist 

∞� 

n=1 

� 

P Yn ≤ 1 

2 2n/2� � 

2/π ≤ 

∞� 

n=1 

2π − 4 

2 n 

=2π− 4 < ∞. 

Nach dem Lemma von Borel-Cantelli folgt (21.52). ✷ 

Offenbar ist die Variation ein zu grobes Maß, um wesentliche Pfadeigenschaften 

der Brown’schen Bewegung zu messen. Wir wollen daher statt der Zuwächse (in 

der Definition der Variation) die (kleineren) quadratischen Zuwächse summieren. 

Für die Definition dieser quadratischen Variation ist etwas mehr Vorsicht nötig als 

in Definition 21.52 für die Variation. 

Definition 21.56. Eine Folge P = (P n )n∈N von abzählbaren Teilmengen von 

[0, ∞) 

P n := {t0,t1,t2,...} mit 0=t0


Definition 21.58. Für stetige F, G : [0, ∞) → R und p ≥ 1 definieren wir die 

p-Variation von G (entlang P) durch 

� � � 

P,p 

(G) :=V (G) := lim �Gt ′ − Gt 

�p für T ≥ 0, 

V p 

T 

T 

n→∞ 

t∈Pn T 

falls der Grenzwert existiert. Speziell heißt 〈G〉 := V 2 (G) die quadratische Variation 

von G. IstT ↦→ V 2 T (G) stetig, so schreiben wir G ∈CqV := C P qV . 

Existiert für jedes T ≥ 0 der Grenzwert 

� 

V P,2 

T (F, G) := lim 

n→∞ 

t∈Pn T 

� �� 

Ft ′ − Ft Gt ′ − Gt , 

so nennen wir 〈F, G〉 := V 2 (F, G) :=V P,2 (F, G) die quadratische Kovariation 

von F und G (entlang P). 

p′ 

(G) < ∞, soistVT (G) =0. Speziell ist 

〈G〉 ≡0, falls G von lokal endlicher Variation ist. ✸ 

Bemerkung 21.59. Ist p ′ >pund V p 

T 

Bemerkung 21.60. Aufgrund der Dreiecksungleichung ist 

� � � � � � 

�Gt ′ − Gt 

� ≥ �Gt ′ − Gt 

� für alle n ∈ N, T≥ 0. 

t∈P n+1 

T 

t∈P n T 

Daher existiert der Limes im Fall p =1stets und stimmt, unabhängig von der Zerlegungsfolge 

P, mit V 1 (G) aus Definition 21.52 überein. Ähnliche Ungleichungen 

gelten für V 2 nicht, daher braucht der Limes nicht zu existieren oder kann von der 

Wahl von P abhängen. Wir werden im Folgenden jedoch für die Pfade einer großen 

Klasse von stetigen stochastischen Prozessen zeigen, dass V 2 zumindest für eine 

geeignete Zerlegungsfolge fast sicher existiert und (unabhängig von der gewählten 

Zerlegungsfolge) fast sicher eindeutig ist. ✸ 

Bemerkung 21.61. (i) Existieren 〈F + G〉T und 〈F − G〉T , so existiert die Kovarianz 

〈F, G〉T , und es gilt die Polarisationsformel 

〈F, G〉T = 1� 

� 

〈F + G〉T −〈F − G〉T . 

4 

(ii) Existieren 〈F 〉T , 〈G〉T und 〈F, G〉T , so folgt aus der Cauchy-Schwarz’schen 

Ungleichung für die approximierenden Summen 

� � � 

〈F, G〉T ≤ 〈F 〉T 〈G〉T . ✸ 

V 1 T 

Bemerkung 21.62. Ist f ∈ C1 (R) und G ∈CqV, soist(Übung!) im Sinne des 

Lebesgue-Stieltjes Integrals 

〈f(G)〉T = 

� T 

0 

(f ′ (Gs)) 2 d〈G〉s. ✸


Korollar 21.63. Ist F von lokal endlicher quadratischer Variation und gilt 〈G〉 ≡0 

(speziell also, falls G von lokal endlicher Variation ist), so ist 〈F, G〉 ≡ 0 und 

〈F + G〉 = 〈F 〉. 

Satz 21.64. Für die Brown’sche Bewegung W und jede zulässige Zerlegungsfolge 

gilt 

〈W 〉T = T für alle T ≥ 0 f.s. 

Beweis. Wir beweisen dies nur für den Fall, wo 

∞� 

|P n | < ∞ (21.53) 

n=1 

gilt. Für den allgemeinen Fall skizzieren wir das Vorgehen. 

Gelte also (21.53). Falls 〈W 〉 existiert, ist T ↦→ 〈W 〉T monoton wachsend. Daher 

reicht es zeigen, dass 〈W 〉T für jedes T ∈ Q + = Q ∩ [0, ∞) existiert und 〈W 〉T = 

T fast sicher gilt. Da ( � Wt)t≥0 = � T −1/2 � 

WtT eine Brown’sche Bewegung ist 

t≥0 

und 〈 � W 〉1 = T −1 〈W 〉T gilt, reicht es, den Fall T =1zu betrachten. 

Setze 

Yn := � 

t∈Pn 2 

(Wt ′ − Wt) für alle n ∈ N. 

1 

Dann ist E[Yn] = � 

t∈Pn (t 

1 

′ − t) =1 und 

Var[Yn] = � 

Var � (Wt ′ − Wt) 2� = � 

(t ′ − t) 2 ≤ 2 |P n |. 

t∈P n 1 

t∈P n 1 

Nach Voraussetzung (21.53) gilt also �∞ n=1 Var[Yn] ≤ 2 �∞ n=1 |Pn | < ∞, also 

n→∞ 

gilt Yn −→ 1 fast sicher. 

Verzichten wir auf die Bedingung (21.53), so gilt immer noch Var[Yn] n→∞ 

−→ 0, 

also Vn 

n→∞ 

−→ 1 stochastisch. Es ist allerdings nicht zu schwer zu zeigen, dass 

(Yn)n∈N ein Rückwärtsmartingal ist (siehe etwa [132, Theorem I.28]) und daher 

fast sicher gegen 1 konvergiert. ✷ 

Korollar 21.65. Sind W und � W unabhängige Brown’sche Bewegungen, so gilt 

〈W, � W 〉T =0. 

Beweis. Die stetigen Prozesse ((W + � W )/ √ 2) und (W − � W )/ √ 2) haben unabhängige, 

normalverteilte Zuwächse, sind also Brown’sche Bewegungen. Nach 

Bemerkung 21.61(i) gilt 

4 � W, � W � 

T = � W + � W � 

T − � W − � W � 

T 

2 � (W + � W )/ √ 2 � 

T − 2� (W − � W )/ √ 2 � 

=2T − 2T =0. ✷ 

T


Nach Übung 21.4.2 ist (W 2 t − t)t≥0 ein stetiges Martingal. Offenbar ist auch 

(Wt � Wt )t≥0 ein stetiges Martingal. Nach dem Gezeigten sind also die Prozesse 

W 2 −〈W 〉 und W � W −〈W, � W 〉 Martingale. Wir werden sehen (Satz 21.70), dass 

die quadratische Variation 〈M(ω)〉 eines quadratintegrierbaren, stetigen Martingals 

M stets existiert (für fast alle ω), und dass der Prozess 〈M〉 eindeutig charakterisiert 

ist durch die Eigenschaft, dass M 2 −〈M〉 ein Martingal ist. 

Um eine ähnliche Aussage auch für stetige Martingale zu erhalten, die nicht quadratisch 

integrierbar sind, treffen wir die folgende Definition. 

Definition 21.66 (Lokales Martingal). Sei F eine Filtration auf (Ω,F, P) und τ 

ein F-Stoppzeit. Ein adaptierter, reeller stochastischer Prozess M =(Mt)t≥0 heißt 

lokales Martingal bis τ, falls es eine Folge (τn)n∈N von Stoppzeiten gibt mit τn ↑ τ 

fast sicher, und so, dass für jedes n ∈ N der gestoppte Prozess M τn =(Mτn∧t)t≥0 

ein gleichgradig integrierbares Martingal ist. Eine solche Folge (τn)n∈N heißt lokalisierende 

Folge für M. M heißt lokales Martingal schlechthin, falls M ein lokales 

Martingal bis τ ≡∞ist. Mit Mloc,c bezeichnen wir den Raum der stetigen lokalen 

Martingale. 

Bemerkung 21.67. Sei M ein stetiger, adaptierter Prozess und τ eine Stoppzeit. 

Dann sind äquivalent: 

(i) M ist ein lokales Martingal bis τ. 

(ii) Es gibt eine Folge (τn)n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass 

jedes M τn ein Martingal ist. 

(iii) Es gibt eine Folge (τn)n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass 

jedes M τn ein beschränktes Martingal ist. 

In der Tat: (iii) =⇒ (i) =⇒ (ii) ist trivial. Gelte also (ii), und sei τ ′ n definiert durch 

τ ′ n := inf{t ≥ 0: |Mt| ≥n} für jedes n ∈ N. 

Da M stetig ist, gilt τ ′ n ↑∞.Alsoist (σn)n∈N := (τn ∧ τ ′ n) eine lokalisierende 

Folge für M, sodass jedes M σn ein beschränktes Martingal ist. ✸ 

Bemerkung 21.68. Ein beschränktes lokales Martingal M ist stets auch ein Martingal. 

In der Tat: Ist |Mt| ≤C


Beispiel 21.69. (i) Ein Martingal ist offenbar stets ein lokales Martingal. 

(ii) In Bemerkung 21.68 hatten wir gesehen, dass beschränkte lokale Martingale 

auch Martingale sind. Andererseits ist selbst ein gleichgradig integrierbares lokales 

Martingal nicht notwendigerweise ein Martingal: Sei W =(W 1 ,W 2 ,W 3 ) 

eine dreidimensionale Brown’sche Bewegung (das heißt, W 1 , W 2 und W 3 sind 

unabhängige Brown’sche Bewegungen) mit Start in W0 = x ∈ R 3 \{0}. Sei 

u(y) =�y� −1 

für y ∈ R d \{0}. 

Man prüft leicht nach, dass u harmonisch ist, dass also △ u(y) =0ist für alle 

y �= 0. Wir werden später sehen (Korollar 25.33 zur Itô-Formel), dass hieraus folgt, 

dass M := (u(Wt))t≥0 ein lokales Martingal ist. Durch 

τn := inf � t>0: Mt ≥ n � =inf � t>0: �Wt� ≤1/n � , n ∈ N, 

wird eine lokalisierende Folge für M definiert. Andererseits liefert eine explizite 

−1/2 Rechnung mit der dreidimensionalen Normalverteilung E[Mt] ≤ t 

t→∞ 

−→ 0, 

also ist M integrierbar aber kein Martingal. Wegen Mt 

t→∞ 

−→ 0 in L1 ist M sogar 

gleichgradig integrierbar. ✸ 

Satz 21.70. Sei M ein stetiges lokales Martingal. 

(i) Es existiert ein eindeutig bestimmter, stetiger, monoton wachsender, adaptierter 

Prozess 〈M〉 =(〈M〉t)t≥0 mit 〈M〉0 =0, sodass gilt: 

� � 

2 

Mt −〈M〉t ist ein stetiges lokales Martingal. 

t≥0 

(ii) Ist M ein stetiges, quadratisch integrierbares Martingal, so ist M 2 −〈M〉 

ein Martingal. 

(iii) Für jede zulässige Zerlegungsfolge P =(Pn )n∈N gilt 

U n T := � 

t∈P n T 

� �2 n→∞ 

Mt ′ − Mt −→ 〈M〉T stochastisch für alle T ≥ 0. 

Der Prozess 〈M〉 heißt quadratischer Variationsprozess von M. 

Bemerkung 21.71. Indem wir in (iii) gegebenenfalls zu einer (von T abhängigen) 

Teilfolge P ′ übergehen, können wir annehmen, dass U n T 

n→∞ 

−→ 〈M〉T fast sicher 

gilt. Durch ein Diagonalfolgenargument erhalten wir (wie im Beweis des Satzes von 

n→∞ 

−→ 〈M〉T fast sicher für alle T ∈ Q + 

und T ↦→ 〈M〉T 

−→ 〈M〉T für alle T ≥ 0 fast sicher. Also ist für diese Zerlegungsfolge 

Helly) eine Zerlegungsfolge, sodass U n T 

gilt. Aufgrund der Monotonie und der Stetigkeit von T ↦→ U n T 

folgt U n n→∞ 

T


die pfadweise definierte quadratische Variation fast sicher gleich dem quadratischen 

Variationsprozess: 

〈M(ω)〉 = V 2 (M(ω)) = 〈M〉(ω). ✸ 

Beweis (von Satz 21.70). Schritt 1. Sei zunächst |Mt| ≤C fast sicher für 

alle t ≥ 0 für ein C


Da M ein Martingal ist, ist für s1,s2 ∈Pm T und t1 ∈Pn s1,s ′ , t2 

1 

∈Pn s2,s ′ t1


Damit ist (21.55) gezeigt. 

Schritt 2. Sei nun M ∈Mloc,c und (τN )N∈N eine lokalisierende Folge, sodass 

jedes M τN ein beschränktes Martingal ist (siehe Bemerkung 21.67). Nach Schritt 1 

gilt für T ≥ 0 und N ∈ N 

U N,n 

T 

:= � 

t∈P n T 

� M τN 

t ′ 

τN 

− M 

t 

� 2 n→∞ 

−→ 〈M τN 〉T in L 2 . 

Wegen U N,n 

T = U N+1,n 

T , falls T ≤ τN , gibt es einen stetigen Prozess U mit 

U N,n n→∞ 

T −→ UT stochastisch, falls T ≤ τN . Also gilt 〈M τN 〉T = 〈M〉T := UT , 

falls T ≤ τN .WegenτN↑∞fast sicher, gilt für alle T ≥ 0 

U n T 

n→∞ 

−→ 〈M〉T stochastisch. 

Da � (M τN 

T )2 −〈MτN � 

〉T T ≥0 ein stetiges Martingal ist und 〈M τN 〉 = 〈M〉 τN gilt, 

folgt M 2 −〈M〉 ∈Mloc,c. 

Schritt 3. Wir müssen noch (ii) zeigen. Sei also M ein stetiges, quadratintegrierbares 

Martingal und (τn)n∈N eine lokalisierende Folge für das lokale Martingal 

M 2 −〈M〉. SeiT > 0 und τ ≤ T eine Stoppzeit. Da M 2 ein nichtnegatives 

Submartingal ist, ist M 2 τn∧τ ≤ E[MT |Fτn∧τ ], also ist (M 2 τn∧τ )n∈N gleichgradig 

integrierbar und damit 

E � M 2� τ = lim 

n→∞ E�M 2 � 

τn∧τ = lim 

n→∞ E� � � � � � � � 2 2 

〈M〉τn∧τ +E M0 = E 〈M〉τ +E M0 , 

wobei wir im letzten Schritt den Satz über monotone Konvergenz ausgenutzt haben. 

Nach dem Optional Sampling Theorem ist also M 2 −〈M〉 ein Martingal. 

Schritt 4. (Eindeutigkeit) Seien A und A ′ stetige, monoton wachsende, adaptierte 

Prozesse mit A0 = A ′ 0, sodass M 2 − A und M 2 − A ′ lokale Martingale sind. 

Dann ist auch N = A − A ′ ein lokales Martingal, und für fast alle ω hat der Pfad 

N(ω) endliche Variation. Daher ist 〈N〉 ≡0 und damit N 2 −〈N〉 = N 2 ein stetiges 

lokales Martingal mit N0 =0.Sei(τn)n∈Neine lokalisierende Folge für N 2 .Dann 

ist E � N 2 � 

2 

τn∧t =0für jedes n ∈ N und t ≥ 0, also ist Nτn∧t =0fast sicher und 

damit N 2 t = limn→∞ N 2 τn∧t =0fast sicher. Es folgt A = A ′ . ✷ 

Korollar 21.72. Sei M ein stetiges lokales Martingal mit 〈M〉 ≡0. Dann ist Mt = 

M0 für alle t ≥ 0 fast sicher. Speziell gilt dies, falls die Pfade von M von lokal 

endlicher Variation sind. 

Korollar 21.73. Seien M,N ∈ Mloc,c. Dann existiert ein eindeutig bestimmter 

stetiger, adaptierter Prozess 〈M,N〉 von fast sicher lokal endlicher Variation mit 

〈M,N〉0 =0, sodass gilt: 

MN −〈M,N〉 ist ein stetiges lokales Martingal.


〈M,N〉 heißt quadratischer Kovariationsprozess von M und N. Es gilt für jede 

zulässige Zerlegungsfolge P und jedes T ≥ 0 

� 

〈M,N〉T = lim 

n→∞ 

t∈Pn T 

� �� 

Mt ′ − Mt Nt ′ − Nt stochastisch. (21.60) 

Beweis. Existenz. Offenbar gilt M + N,M − N ∈Mloc,c.Wirdefinieren 

〈M,N〉 := 1� 

� 

〈M + N〉−〈M − N〉 . 

4 

Als Differenz monoton wachsender Funktionen ist 〈M,N〉 von lokal endlicher Variation. 

Wegen Satz 21.70(iii) folgt (21.60). Weiter ist 

MN −〈M,N〉 = 1� 

� 2 1� 

� 

2 

(M + N) −〈M + N〉 − (M − N) −〈M − N〉 

4 

4 

ein lokales Martingal. 

Eindeutigkeit. Seien A und A ′ mit A0 = A ′ 0 = 0 stetig, adaptiert und von 

lokal endlicher Variation, sodass MN − A und MN − A ′ in Mloc,c sind. Dann ist 

A − A ′ ∈Mloc,c von lokal endlicher Variation, also A − A ′ =0. ✷ 

Korollar 21.74. Ist M ∈Mloc,c und A stetig und adaptiert mit 〈A〉 ≡0, soist 

〈M + A〉 = 〈M〉. 

Ist M ein stetiges lokales Martingal bis zur Stoppzeit τ, soistM τ ∈Mloc,c, und 

wir schreiben 〈M〉t := 〈M τ 〉t für t


E � M τ0 

� � 

�Fs t = E 

� 

lim 

n→∞ 

M τ0∧τn 

t 

= lim 

n→∞ E�M τ0∧τn 

t 

= lim 

n→∞ 

M τ0∧τn 

s 

� � 

�Fs 

� 

� Fs 

� 

= M τ0 

s . 

Also ist M τ0 ein Martingal. ✷ 

Korollar 21.76. Ist M ∈Mloc,c und E � � 

〈M〉t < ∞ für jedes t ≥ 0, soistMein quadratintegrierbares Martingal. 

Übung 21.10.1. Zeige, dass die Zufallsvariablen (Yn)n∈N aus dem Beweis von 

Satz 21.64 ein Rückwärtsmartingal bilden. ♣ 

Übung 21.10.2. Sei f :[0, ∞) → R stetig und X ∈CP qV für die zulässige Zerlegungsfolge 

P. Man zeige: 

� T 

0 

f(s) d〈X〉s = lim 

� 

n→∞ 

t∈Pn T 

f(t) � 2 

Xt ′ − Xt) 

für alle T ≥ 0. ♣ 

Übung 21.10.3. Man zeige durch ein Gegenbeispiel: Ist M ein stetiges lokales Martingal 

mit M0 =0und τ ein Stoppzeit mit E � � 

〈M〉τ = ∞, so folgt hieraus nicht 

notwendigerweise E � M 2 � 

τ = ∞. ♣

22 Gesetz vom iterierten Logarithmus 

Für Summen unabhängiger Zufallsvariablen kennen wir bislang zwei Grenzwertsätze: 

das Gesetz der großen Zahl und den Zentralen Grenzwertsatz. Das Gesetz der 

großen Zahl beschreibt für großes n ∈ N das typische oder Mittelwertverhalten von 

Summen von n Zufallsvariablen, während der Zentrale Grenzwertsatz die typischen 

Fluktuationen um diesen Mittelwert quantitativ erfasst. 

In Kapitel 23 werden wir die untypisch großen Fluktuationen (große Abweichungen) 

quantitativ erfassen. Dagegen ist das Thema dieses Kapitels die genauere quantitative 

Erfassung der typischen Fluktuationen, aber nun im gesamten zeitlichen Verlauf 

n →∞. Die Botschaft lautet in etwa: Während zu fester Zeit die Partialsumme 

Sn um etwa √ n von ihrem Erwartungswert abweicht (Zentraler Grenzwertsatz), ist 

die maximale Fluktuation von der Ordnung √ n log log n (Satz von Hartman und 

Wintner, Satz 22.9). 

Wir beginnen mit der etwas leichteren Aufgabe, diese Fluktuationen zunächst für 

die Brown’sche Bewegung auszurechnen (Satz 22.1). Danach werden wir sehen, 

wie man Summen unabhängiger Zufallsvariablen (mit endlicher Varianz) in eine 

Brown’sche Bewegung einbetten kann (Satz von Skorohod, Satz 22.5), um damit 

die Aussage des Satzes von Hartman und Wintner zu zeigen. 

Wir folgen in diesem Kapitel in Teilen der Darstellung in [38, Kapitel 7.9]. 

22.1 Iterierter Logarithmus für die Brown’sche Bewegung 

Sei (Bt)t≥0 eine Brown’sche Bewegung. In Beispiel 21.16 haben wir als Anwendung 

des Blumenthal’schen 0-1 Gesetzes gesehen, dass lim sup t↓0 Bt/ √ t = ∞ f.s. 

Da nach Satz 21.14 auch (tB 1/t)t≥0 eine Brown’sche Bewegung ist, folgt 

lim sup 

t→∞ 

Bt 

√ t = ∞ f.s. 

Unser Ziel in diesem Abschnitt ist es, √ t durch eine Funktion zu ersetzen, sodass 

der Limes superior endlich und nichttrivial wird.

478 22 Gesetz vom iterierten Logarithmus 

Satz 22.1 (Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung). 

Es gilt 

Bt 

lim sup � =1 f.s. (22.1) 

t→∞ 2t log log(t) 

Bevor wir den Satz beweisen, bringen wir ein elementares Lemma. 

Lemma 22.2. Sei X ∼N0,1 standardnormalverteilt. Dann ist für jedes x>0 

1 

√ 2π 

1 

x + 1 e 

x 

−x2 /2 1 

≤ P[X ≥ x] ≤ √2π 

1 

x e−x2 /2 . (22.2) 

Beweis. Sei ϕ(t) = 1 

√ 2π e −t2 /2 die Dichte der Standardnormalverteilung. Partielle 

Integration liefert die zweite Ungleichung in (22.2): 

� ∞ 

1 

P[X ≥ x] = (tϕ(t)) dt = −1 

x t t ϕ(t) 

� 

� 

� ∞ 

� ∞ 

1 1 

− ϕ(t) dt ≤ 

x x t2 x ϕ(x). 

Analog ist 

P[X ≥ x] ≥ 1 1 

ϕ(x) − 

x x2 � ∞ 

ϕ(t) dt = 

x 

1 1 

ϕ(x) − P[X ≥ x]. 

x x2 Hieraus folgt die erste Ungleichung in (22.2). ✷ 

Beweis von Satz 22.1 

1. Schritt: ≤“ Betrachte zunächst die Folge tn = α 

” n für ein α>1. Später 

wollen wir α ↓ 1 gehen lassen. Setze f(t) = 2α2log log t. Dann ist nach dem 

Spiegelungsprinzip (Satz 21.19) und mit der Abkürzung B [a,b] := {Bt : t ∈ [a, b]} 

� 

P sup B [tn,tn+1] > � � � 

tnf(tn) ≤ P t −1/2 

n+1 sup B [0,tn+1] > � � 

f(tn)/α 

� 

= P sup B [0,1] > � � 

f(tn)/α 

� 

α 

≤ 

f(tn) e−f(tn)/2α 

= (log α) −α 

� 

α 

f(tn) n−α 

(22.3) 

≤ n −α 

wobei wir im vorletzten Schritt benutzt haben, dass 

für hinreichend großes n, 

f(tn) 

2α = α� log(n log α) � = α log n + α log log α.

22.1 Iterierter Logarithmus für die Brown’sche Bewegung 479 

Wegen α>1 ist die rechte Seite von (22.3) summierbar in n 

∞� � 

P sup B [tn,tn+1] > � � 

tnf(tn) < ∞. 

n=1 

Das Lemma von Borel-Cantelli (Satz 2.7) liefert jetzt (merke: t ↦→ � tf(t) ist monoton 

wachsend) 

Bt 

lim sup � ≤ 1 f.s. 

t→∞ tf(t) 

Wir lassen α ↓ 1 gehen und erhalten 

lim sup 

t→∞ 

Bt 

√ 2t log log t ≤ 1 f.s. (22.4) 

2. Schritt: ” ≥“ Wir zeigen nun die andere Ungleichung in (22.1). Hierfür lassen 

wir α →∞gehen. Setze β := α 

α−1 

> 1 und g(t) = 2 

β 2 log log t.Wähle n0 so groß, 

dass βg(tn) ≥ 1 ist für n ≥ n0. Dann ist nach der Brown’schen Skalierung (merke: 

tn − tn−1 = 1 

β tn) und (22.2) (wegen (x + 1 

x )−1 ≥ 1 1 

2 x für x =(βg(tn)) 1/2 ≥ 1) 

� 

P Btn − Btn−1 > � � � 

tng(tn) = P B1 > � � 

βg(tn) 

≥ 1 1 1 

√ � 

2π 2 βg(tn) e−βg(tn)/2 

= 1 1 

1 

√ (log α)−1/β � 

2π 2 βg(tn) n−1/β . 

Ist ε ∈ (0, 1 − 1/β), soistfür hinreichend großes n ∈ N die rechte Seite der 

vorangehenden Gleichung ≥ n−ε n−1/β ≥ n−1 .Alsoist 

∞� � 

P Btn − Btn−1 > � � 

tng(tn) = ∞. 

n=2 

Die Ereignisse sind unabhängig, daher liefert das Lemma von Borel-Cantelli 

� 

P Btn − Btn−1 > � tng(tn) 

� 

für unendlich viele n =1. (22.5) 

tn log log tn n→∞ 

Wegen 

−→ α folgt aus (22.4) zusammen mit der Symmetrie 

tn−1 log log tn−1 

der Brown’schen Bewegung für ε>0 

Btn−1 > −(1 + ε)α−1/2� 2tn log log tn für fast jedes n ∈ N f.s. (22.6) 

Aus (22.5) und (22.6) folgt 

lim sup 

n→∞ 

Btn √ ≥ 

2tn log log tn 

1 

β − (1 + ε)α−1/2 α − 1 

= − (1 + ε)α−1/2 

α 

Bt 

Lassen wir nun α →∞, so erhalten wir lim sup √ ≥ 1 f.s. Zusammen 

t→∞ 2t log log t 

mit (22.4) folgt die Aussage des Satzes. ✷ 

f.s.


Korollar 22.3. Es gilt fast sicher lim sup 

t↓0 

Bt 

� 2t log log(1/t) =1. 

Beweis. Nach Satz 21.14 ist (tB 1/t) eine Brown’sche Bewegung. Wende hierauf 

Satz 22.1 an. ✷ 

Bemerkung 22.4. Die Aussage von Korollar 22.3 betrifft die typischen Punkte der 

Brown’schen Bewegung B. Wie sieht es aber aus, wenn wir nach der Existenz von 

Punkten t fragen, in denen sich B schneller als � 2t log log(1/t) bewegt? Auskunft 

gibt hier ein Satz von Paul Lévy [103]: Bezeichnen wir mit h(δ) := � 2δ log(1/δ) 

den Lévy’schen Stetigkeitsmodul,soist 

� 

P lim 

δ↓0 

sup |Bt − Bs|/h(δ) =1 

s,t∈[0,1] 

0≤t−s≤δ 

� 

=1. (22.7) 

(Siehe etwa [137, Theorem I.2.5] für einen Beweis.) Hieraus folgt insbesondere, 

-stetig ist. ✸ 

dass B fast sicher nicht lokal Hölder- 1 

2 

22.2 Skorohod’scher Einbettungssatz 

Um das Ergebnis des vorigen Abschnitts auf Summen von quadratintegrierbaren, 

zentrierten Zufallsvariablen zu übertragen, brauchen wir eine Einbettung von solchen 

Zufallsvariablen in eine Brown’sche Bewegung. Die gewünschte Darstellung 

liefert der Satz von Skorohod. Mit dieser Technik lässt sich auch ein alternativer 

Beweis des Satzes von Donsker (Invarianzprinzip, Satz 21.43) angeben. 

Satz 22.5 (Skorohod’scher Einbettungssatz). Sei X eine reelle Zufallsvariable 

mit E[X] =0und Var[X] < ∞. Dann existiert auf einem geeigneten Wahrscheinlichkeitsraum 

eine Filtration F und eine Brown’sche Bewegung B, die ein 

F-Martingal ist, sowie eine F–Stoppzeit τ mit 

Bτ 

D 

= X und E[τ] =Var[X]. 

Bemerkung 22.6. Man kann auch zeigen, dass F = σ(B) gewählt werden kann. 

Das ist allerdings aufwändiger und wird hier nicht benötigt. ✸ 

Korollar 22.7. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =0und 

Var[X1] < 1. Ferner sei Sn = X1 + ...+ Xn, n ∈ N. Dann gibt es auf einem 

geeigneten Wahrscheinlichkeitsraum eine Filtration F und eine Brown’sche Bewe- 

gung B, die ein F-Martingal ist, sowie F–Stoppzeiten 0=τ0 ≤ τ1 ≤ τ2 ≤ ...mit: 

(τn − τn−1)n∈N ist u.i.v., E[τ1] =Var[X1] und (Bτn )n∈N 

D 

=(Sn)n∈N.

22.2 Skorohod’scher Einbettungssatz 481 

Zur Vorbereitung des Beweises bringen wir ein Lemma. Wir wollen dabei als Integranden 

Maße zulassen. Wir verwenden deshalb folgende Notation: Ist μ ∈M(E) 

ein Maß und f ∈L 1 (μ) nichtnegativ, so wird � μ(dx)f(x)δx := fμ definiert, wobei 

fμdas Maß mit Dichte f bezüglich μ ist. Dies ist konsistent, denn für messbares 

A ⊂ E ist dann 

�� 

μ(dx)f(x)δx 

� � 

(A) = 

� 

μ(dx)f(x)δx(A) = μ(dx)f(x) A(x) =fμ(A). 

Lemma 22.8. Sei μ ∈M1(R) mit � xμ(dx) =0und σ2 := � x2 μ(dx) < ∞. 

Dann existiert ein W-Maß θ ∈M1((−∞, 0) × [0, ∞)) mit 

� � 

v 

μ = θ(d(u, v)) 

v − u δu + −u 

v − u δv 

� 

. (22.8) 

Es ist σ 2 = − � uv θ(d(u, v)). 

Beweis. Wir setzen m := � 

Dann ist 

[0,∞) 

vμ(dv) =− � 

(−∞,0) 

uμ(du) und 

θ(d(u, v)) := m −1 (v − u) μ(du)μ(dv) für u


Beweis (Satz 22.5). Wir nehmen zunächst an, dass X nur die zwei Werte u0: Bt ∈{u, v} � . 

D 

Nach Übung 21.2.4 ist E[Bτu,v ]=0also Bτu,v = X,sowieE[τu,v] =−uv. 

Sei nun X beliebig mit E[X] =0und σ2 := E[X2 ] < ∞. Setze μ = PX und 

θ = θμ wie in Lemma 22.8. Ferner sei Ξ =(Ξu,Ξv) eine Zufallsvariable mit 

Werten in (−∞, 0) × [0, ∞) und Verteilung θ. 

Sei F =(Ft)t≥0, wobei Ft := σ(Ξ, Bs : s ∈ [0,t]) ist. Setze τ := τΞu,Ξv .Auf 

Grund der Stetigkeit von B und wegen τ ≤ τu,v, falls uΞv, istfür 

jedes t ≥ 0 

{τ ≤ t} = � 

u,v∈Q 

u

Für n ∈ N und σ ∈{−, +} n setzen wir 


(σ, +) := (σ1,...,σn, +) ∈{−, +} n+1 . 

Für σ ∈{−, +} 0 := {∅} setzen wir (∅, +) = (+). Analog verfahren wir für (σ, −). 

Wir definieren sukzessive Mengen A σ und Punkte μ σ für σ ∈{−, +} n , n ∈ N0 

durch 

A ∅ := R, μ ∅ := E[X], 

A (σ,−) := A σ ∩ (−∞,μ σ ), A (σ,+) := A σ ∩ [μ σ , ∞), 

μ (σ,+) := E � X � � (σ,+) 

X ∈ A � , 

� � � 

E X �X ∈ A (σ,−)� , falls P � X ∈ A (σ,−)� > 0, 

μ (σ,−) := 

μ σ , sonst. 

Man beachte, dass die Abbildung σ ↦→ μσ monoton ist in der lexikographischen 

Ordnung ((σ, −) ≤ σ ≤ (σ, +) für jedes σ). 

Setze 

Gn := σ � {X ∈ A σ },σ∈{−, +} m ,m≤ n � 

für n ∈ N0, 

und G∞ := σ( � 

n∈N Gn). Dannist 

Xn := E[X � � Gn] für n ∈ N0, 

ein Martingal bezüglich der Filtration (Gn)n∈N0 . Nach der Jensen’schen Ungleichung 

ist E[X2 n] ≤ E[X2 ] < ∞ für jedes n ∈ N0. Nach dem L2-Martingalkonver genzsatz (Satz 11.10) gilt daher 

Xn 

n→∞ 

−→ X∞ := E[X � �G∞] f.s. und in L 2 . (22.9) 

Für x ∈ R und n ∈ N sei σ(n, x) =(σ1(n, x),...,σn(n, x)) ∈{−, +} n (eindeutig)sogewählt, 

dass x ∈ A σ(n,x) . Offenbar ist dann σm(n, x) =σm(n ′ ,x) 

für alle n, n ′ ≥ m, also existiert ein (eindeutiges) σ(x) ∈{−, +} N mit σ(n, x) = 

(σ1(x),...,σn(x)) (der projektive Limes der σ(n, x), n ∈ N). Es ist dann 

Ferner ist 

μ σ(x) 

n 

x ∈ A σ(x) 

n 

:= μ (σ1(x),...,σn(x)) ⎧ 

⎨ 

= 

⎩ 

:= A (σ1(x),...,σn(x)) . 

Setze fn(x) :=μ σ(x) 

n , f∞ = lim inf 

n→∞ fn(x). Dannist 

sup A σ(x) 

n+1 , falls σn+1 = − 

inf A σ(x) 

n+1 , falls σn+1 =+. 

fn(X) =E[X � � Gn] fast sicher für jedes n ∈ N ∪{∞}. 

(22.10)


Wir nehmen daher im Folgenden an, dass wir die Version Xn := fn(X), n ∈ 

N ∪{∞}fest gewählt haben. Offenbar sind fn, n ∈ N, und f∞ monoton wachsend. 

Schließlich setzen wir noch Aσ(x) := �∞ . 

n=1 Aσ(x) n 

1. Schritt Wir zeigen, dass X∞ = X f.s. Sei zunächst |X| ≤ C f.s. für ein 

C>0. Wir berechnen 

E[(Xn − Xn−1) 2 � 

]=E E � (Xn − Xn−1) 2 � � 

�Gn−1 � 

� 

≥ E E � |Xn − Xn−1| � � � 

2 �Gn−1 � 

= E E � |X − Xn−1| � � � 

2 �Gn−1 Auf Grund der Martingaleigenschaft ist 

≥ E � |X − Xn−1|] 2 ≥ (2C) −2 E � (X − Xn−1) 2� 2 

E � (X − Xn) 2� = E � (X − Xn−1) 2� − E � (Xn − Xn−1) 2� . 

Setzen wir an := E � (X − Xn) 2� /(4C 2 ), so folgt a0 ≤ 1 und 

an ≤ an−1 − a 2 n−1 


1 

Induktiv erhalten wir an ≤ 1/(n +1),dennesista1≤ max x(1 − x) = 

x∈[0,1] 

4 , und 

für n ≥ 2 ist wegen an−1 ≤ 1/2 

an ≤ max 

x∈[0,an−1] x(1 − x) =an−1(1 

n − 1 

− an−1) ≤ 

n2 n − 1 

≤ 

n2 1 

= 

− 1 n +1 . 

Es folgt Xn 

n→∞ 

−→ X in L2 und damit X∞ = X fs. 

Sei nun X nicht mehr notwendigerweise beschränkt. Für K>0 setzen wir 

X K ⎧ 

⎨ 

X, falls |X| ≤K, 

:= E[X |X >K], 

⎩ 

E[X |X K, 

falls X


2. Schritt Wir zeigen: die Folge (Xn)n∈N0 ist ein Markovprozess mit (inhomogenen) 

Übergangswahrscheinlichkeiten 

P � Xn+1 = μ (σ,±) � � 

� (σ,∓) σ 

� 

μ − μ 

Gn] = 

� � 

μ (σ,+) − μ (σ,−) , falls Xn = μ σ . (22.11) 

Hierdurch ist die Verteilung von (Xn)n∈N0 natürlich eindeutig festgelegt. 

Offenbar ist (Xn)n∈N0 ein Markovprozess, weil σ(Xn) =Gn per Konstruktion gilt. 

Aus der Martingaleigenschaft E[Xn+1|Xn = μ σ ]=μ σ ergeben sich die Übergangswahrscheinlichkeiten. 

3. Schritt Wir definieren Stoppzeiten τ0 =0und 

� 

τn+1 := inf t ≥ τn : Bt ∈ � μ σ : σ ∈{−, +} n+1�� 

, 

sowie τ := sup n∈N τn. Wegen der Monotonie von σ ↦→ μ σ liegt für σ ∈{−, +} n 

in (μ (σ,−) ,μ σ ) und (μ σ ,μ (σ,+) ) kein weiteres μ ϱ , ϱ ∈ {−, +} n+1 .Alsoist 

P[Bτn+1 ∈{μ(σ,−) ,μ (σ,+) } � �Bτn = μσ � 

]=1. Nach dem Optional Sampling Theorem 

(Übung 21.1.3) ist � E[Bτn+1 

Fτn ]=Bτn und damit 

P � Bτn+1 = μ(σ,±) � �Fτn ]= 

� 

� (σ,∓) σ μ − μ � � 

μ (σ,+) − μ (σ,−) , falls Bτn = μσ . 

Also ist (Bτn )n∈N0 ein Markovprozess mit den selben Übergangswahrscheinlichkeiten 

wie (Xn)n∈N0 , und damit gilt 

Also gilt auch Bτn 

Sukzessive erhält man 

(Bτn )n∈N0 

D 

=(Xn)n∈N0 . 

n→∞ 

−→ Bτ fast sicher und Bτ 

E[τ1] =−μ − μ + = Var[X1]. 

E[τn] = 

D 

= X. Ferner ist 

n� 

Var[Xm − Xm−1]. 

m=1 

Da (Xn)n∈N ein Martingal ist, sind die Differenzen unkorreliert, also 

E[τ] = 

∞� 

n=1 

Var[Xn+1 − Xn] = lim 

n→∞ Var[Xn] =Var[X], 

nach (22.9) und wegen X = X∞. Damit ist der Beweis von Bemerkung 22.6 erbracht. 

✷


22.3 Satz von Hartman-Wintner 

Ziel dieses Abschnitts ist der Beweis des Gesetzes vom iterierten Logarithmus für 

u.i.v. Zufallsvariablen Xn, n ∈ N mit zweiten Momenten, der auf Hartman und 

Wintner (1941) (siehe [68]) zurückgeht. (In der einfacheren Situation, wo die Xn 

Bernoulli Zufallsvariablen sind, hat bereits Khinchin (1923) die obere Abschätzung 

im Gesetz vom iterierten Logarithmus gefunden.) 

Satz 22.9 (Hartman-Wintner, Gesetz vom iterierten Logarithmus). 

Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =0und Var[X1] =1. 

Sei Sn = X1 + ...+ Xn, n ∈ N. Dann gilt 

lim sup 

n→∞ 

Sn 

√ 2n log log n =1 f.s. (22.12) 

Wir beweisen den Satz, indem wir ihn auf das Gesetz vom iterierten Logarithmus 

für die Brown’sche Bewegung zurückführen. Zu diesem Zweck fassen wir die Partialsummen 

Sn als Werte der Brown’schen Bewegung B zu gewissen Stoppzeiten 

τ1 ≤ τ2 ≤ ... auf. Dass dies funktioniert, sichert der Skorohod’sche Einbettungssatz. 

Beweis. Nach Korollar 22.7 gibt es auf einem geeigneten Wahrscheinlichkeitsraum 

ein Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist, 

D 

sowie Stoppzeiten τ1 ≤ τ2 ≤ ..., sodass (Sn)n∈N = (Bτn )n∈N. Ferner sind 

(τn − τn−1)n∈N u.i.v. mit E[τn − τn−1] =Var[X1] =1. 

Nach dem Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung (siehe 

Satz 22.1) ist 

Bt 

lim sup √ =1 f.s. 

t→∞ 2t log log t 

Es reicht also zu zeigen, dass 

lim sup 

t→∞ 

Bt − Bτ ⌊t⌋ 

√ 2t log log t =0 f.s. 

Nach dem starken Gesetz der großen Zahl (Satz 5.17) gilt 1 

nτn ε>0 und t0 = t0(ω) so groß, dass 

1 

1+ε ≤ τ⌊t⌋ ≤ 1+ε für jedes t ≥ t0. 

t 

Setze 

Es reicht zu zeigen, dass lim sup 

t→∞ 

ε) n , n ∈ N, und setze 

Mt := sup 

s∈[t/(1+ε),t(1+ε)] 

|Bs − Bt|. 

n→∞ 

−→ 1 f.s. Sei also 

Mt 

√ 2t log log t =0. Betrachte die Folge tn =(1+

M ′ n := sup |Bs − Btn−1 

s∈[tn−1,tn+2] 

|. 

Dann ist (nach der Dreiecksungleichung) für t ∈ [tn,tn+1] 

Mt ≤ 2M ′ n. 

22.3 Satz von Hartman-Wintner 487 

Setze δ := (1 + ε) 3 − 1. Dannisttn+2 − tn−1 = δtn−1. Brown’sche Skalierung 

und das Spiegelungsprinzip (Satz 21.19) ergeben nun 

� 

P M ′ n > � � 

3δtn−1 log log tn−1 

� 

= P sup |Bs| > 

s∈[0,1] 

� � 

3loglogtn−1 

� 

≤ 2 P sup Bs > � � 

3loglogtn−1 

s∈[0,1] 

� 

=4P B1 > � � 

3loglogtn−1 

� 

2 

≤ � exp − 

3loglogtn−1 

3 

� 

log log tn−1 

2 

≤ n −3/2 

für n hinreichend groß. 

(Lemma 22.2) 

Die Wahrscheinlichkeiten lassen sich also über n summieren, und das Lemma von 

Borel-Cantelli liefert 

lim sup 

t→∞ 

Mt 

√ t log log t ≤ lim sup 

n→∞ 

2M ′ n 

� tn−1 log log tn−1 

≤ 2 √ 3δ. 

Lassen wir nun ε → 0 gehen, so geht δ =(1+ε) 3 − 1 → 0, und der Beweis ist 

vollständig. ✷

23 Große Abweichungen 

Wir haben (bis auf das Gesetz vom iterierten Logarithmus) bislang zwei Typen von 

Grenzwertsätzen für Partialsummen Sn = X1 + ...+ Xn, n ∈ N, von identisch 

verteilten, reellen Zufallsvariablen (Xi)i∈N mit Verteilungsfunktion F gesehen: 

(1) (Schwache) Gesetze der großen Zahl besagen (unter gewissen Annahmen an die 

Familie (Xi)i∈N), dass für jedes x>0 

P �� Sn − n E[X1] � � ≥ xn � n→∞ 

−→ 0. (23.1) 

Hieraus abgeleitet erhalten wir für die empirischen Verteilungsfunktionen Fn : 

x ↦→ 1 �n n→∞ 

n i=1 (−∞,x](Xi) die stochastische Konvergenz �Fn − F �∞ −→ 0. 

Wir wollen dies umformulieren zu: Für jede Verteilungsfunktion G �= F und 

jedes ε>0 mit ε

490 23 Große Abweichungen 

23.1 Satz von Cramér 

Seien X1,X2,... u.i.v. mit PXi = N0,1. Dannistfür jedes x>0 

P[Sn >xn]=P � X1 >x √ n � =1− Φ � x √ n � =(1+εn) 

wobei (nach Lemma 22.2) εn 

n→∞ 

−→ 0 gilt. Es gilt also 

1 

lim 

n→∞ n log P�Sn >xn � = − x2 

2 

1 

√ 2πn e −nx2 /2 , 

für jedes x>0. (23.4) 

Man könnte versucht sein zu glauben, dass ein Zentraler Grenzwertsatz die Aussage 

(23.4) auch für alle zentrierten u.i.v. Folgen (Xi) mit endlicher Varianz liefert. Dies 

ist allerdings falsch, wie der folgende Satz zeigt. Die großen Abweichungen werden 

eben stärker durch die Schwänze der Verteilung von Xi beeinflusst, als dies bei 

den mittleren Fluktuationen der Fall ist, die durch die Varianz komplett determiniert 

werden. Der folgende Satz zeigt dies exemplarisch anhand der Bernoulli-Verteilung. 

Satz 23.1. Seien X1,X2,...u.i.v. mit P[X1 = −1] = P[X1 =1]= 1 

2 . Dann gilt 

für jedes x ≥ 0 

1 

lim 

n→∞ n log P[Sn >xn]=−I(x), (23.5) 

wobei die Ratenfunktion I gegeben ist durch 

� 

1+z 

2 log(1 + z)+ 

I(z) = 

1−z 

2 log(1 − z), falls z ∈ [−1, 1], 

(23.6) 

∞, falls |z| > 1. 

Bemerkung 23.2. Wir verstehen hierbei 0log0 = 0, wodurch I stetig wird in 

[−1, 1] mit I(−1) = I(1) = log 2. Man bemerke: I ist strikt konvex auf [−1, 1] 

mit I(0) = 0; I ist monoton wachsend auf [0, 1] und monoton fallend auf [−1, 0].✸ 

Beweis. Für x = 0 und x > 1 ist die Aussage trivial. Für x = 1 ist P[Sn ≥ 

n] =2−n , daher gilt auch hier (23.5) trivialerweise. Es reicht also, x ∈ (0, 1) zu 

∼ bn,1/2 binomialverteilt, also 

betrachten. Es ist Sn+n 

2 

P � Sn ≥ xn � =2 −n 

� 

k≥(1+x)n/2 

� � 

n 

. 

k 

Wir setzen an(x) =⌈n(1 + x)/2⌉ für n ∈ N und erhalten, weil k ↦→ � � n 

k monoton 

fallend ist für k ≥ n 

2 : 

�� 

� � � 

n 

n 

Qn(x) :=max : an(x) ≤ k ≤ n = . (23.7) 

k 

an(x)

Wir machen die Abschätzung 

Die Stirling’sche Formel 

liefert nun 

1 

lim log Qn(x) 

n→∞ n 

= lim 

n→∞ 

23.1 Satz von Cramér 491 

2 −n Qn(x) ≤ P � Sn ≥ xn � ≤ (n +1)2 −n Qn(x). (23.8) 

1 

n log 

1 

= lim 

n→∞ n log 

lim 

n→∞ 

1 

n! nn e −n√ 2πn =1 

n! 

an(x)! · (n − an(x))! 

n n 

an(x) an(x) · (n − an(x)) n−an(x) 

� 

= lim log(n) − 

n→∞ 

an(x) 

n log � an(x) � n − an(x) 

− log 

n 

� n − an(x) �� 

� 

= lim log(n) − 

n→∞ 

1+x 

2 

= − 1+x 

2 

− 

log 1+x 

2 

1 − x 

2 

− 1 − x 

2 

� 

log 1+x 

2 +log(n) 

� 

� 

1 − x 

log 

2 +log(n) 

�� 

log 

1 − x 

2 

= −I(x)+log2. 

Wegen (23.8) folgt hieraus (23.5). ✷ 

Ein allgemeines Verfahren zur Bestimmung der Ratenfunktion I (unter gewissen 

restriktiven Annahmen an die Verteilung von (Xi)) liefert der Satz von Cramér [30]. 

Satz 23.3 (Cramér (1938)). Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit 

logarithmischer momentenerzeugender Funktion 

Λ(t) :=logE � e tX1� < ∞ für jedes t ∈ R. (23.9) 

Sei 

Λ ∗ � � 

(x) :=suptx 

− Λ(t) 

t∈R 

für x ∈ R, 

die Legendre-Transformierte von Λ. Dann gilt für jedes x>E[X1] 

lim 

n→∞ 

1 

n log P� Sn ≥ xn � = −I(x) :=−Λ ∗ (x). (23.10)


Beweis. Indem wir gegebenenfalls Xi − x betrachten, können wir E[Xi] < 0 und 

x = 0 annehmen. (Ist nämlich ˜ Xi := Xi − x und ˜ Λ und ˜ Λ∗ wie oben für ˜ Xi 

definiert, so ist ˜ Λ(t) =Λ(t) − t · x und daher ˜ Λ∗ (0) = supt∈R(− ˜ Λ(t)) = Λ∗ (x).) 

Setze ϕ(t) :=eΛ(t) und 

ϱ := e −Λ∗ (0) =inf 

t∈R ϕ(t). 

Nach (23.9) und dem Differentiationslemma (Satz 6.28) ist ϕ unendlich oft differenzierbar, 

und die ersten beiden Ableitungen sind 

ϕ ′ (t) =E � X1 e tX1� 

und ϕ ′′ (t) =E � X 2 1 e tX1� . 

Also ist ϕ strikt konvex und ϕ ′ (0) = E[X1] < 0. 

Sei zunächst der Fall P[X1 ≤ 0] = 1 betrachtet. Dann ist ϕ ′ (t) < 0 für jedes t ∈ R 

und ϱ = lim ϕ(t) =P[X1 =0]. Es folgt 

t→∞ 

und damit die Behauptung. 

P[Sn ≥ 0] = P[X1 = ...= Xn =0]=ϱ n 

Sei nun P[X1 < 0] > 0 und P[X1 > 0] > 0. Dannistlim ϕ(t) = ∞ = 

t→∞ 

lim ϕ(t).Daϕ strikt konvex ist, besitzt ϕ eine eindeutige Minimalstelle τ ∈ R, 

t→−∞ 

also 

ϕ(τ) =ϱ und ϕ ′ (τ) =0. 

Wegen ϕ ′ (0) < 0 ist τ>0. Mit Hilfe der Markov’schen Ungleichung (Satz 5.11) 

erhalten wir die Abschätzung 

P[Sn ≥ 0] = P � e τSn ≥ 1 � ≤ E � e τSn� = ϕ(τ) n = ϱ n . 

Wir erhalten so die obere Schranke: 

lim sup 

n→∞ 

1 

n log P[Sn ≥ 0] ≤ log ϱ = −Λ ∗ (0). 

Im Rest des Beweises müssen wir also die umgekehrte Ungleichung zeigen: 

lim inf 

n→∞ 

1 

n log P[Sn ≥ 0] ≥ log ϱ. (23.11) 

Wir verwenden eine Methode der exponentiellen Größenverzerrung der Verteilung 

μ := PX1 von X1, die untypische Werte typisch macht, damit man sie besser untersuchen 

kann. Wir definieren also die Cramér-Transformierte ˆμ ∈M1(R) von 

μ durch 

ˆμ(dx) =ϱ −1 e τx μ(dx) für x ∈ R. 

Seien ˆ X1, ˆ X2,...unabhängig und identisch verteilt mit PXi ˆ =ˆμ. Dannist

Also ist 

23.1 Satz von Cramér 493 

ˆϕ(t) :=E � e t ˆ X1 � = 1 

� 

e 

ϱ R 

tx e τx μ(dx) = 1 

ϕ(t + τ). 

ϱ 

E � ˆ X1] = ˆϕ ′ (0) = 1 

ϱ ϕ′ (τ) =0, 

Var � ˆ X1] = ˆϕ ′′ (0) = 1 

ϱ ϕ′′ (τ) ∈ (0, ∞). 

Setzen wir ˆ Sn = ˆ X1 + ...+ ˆ Xn,soist 

� 

P[Sn ≥ 0] = 

μ(dx1) ···μ(dxn) 

� 

= 

= ϱ n E 

{x1+...+xn≥0} 

{x1+...+xn≥0} 

� 

e −τ ˆ Sn 

� ϱe −τx1 � ˆμ(dx1) ··· � ϱe −τxn� ˆμ(dxn) 

{ ˆ Sn≥0} 

Wir erhalten also (23.11), wenn wir zeigen können, dass 

lim inf 

n→∞ 

� 

. 

1 

� 

log E e 

n −τ ˆ Sn 

{ ˆ Sn≥0} 

Nach dem Zentralen Grenzwertsatz (Satz 15.37) ist für c>0 

1 

� 

log E e 

n −τ ˆ Sn 

{ ˆ Sn≥0} 

� 

≥ 1 

n 

≥ 1 

n log 

� 

log E 

e −τ ˆ Sn 

{0≤ ˆ Sn≤c √ � 

n } 

� 

e −τc√ � ˆ � 

n Sn 

P √n ∈ [0,c] 

� 

� 

≥ 0. (23.12) 

n→∞ −τc 

−→ lim 

n→∞ 

√ n 1 

+ lim 

n n→∞ n log � N0,Var[X1]([0,c]) � 

=0. ✷ 

Beispiel 23.4. Ist PX1 = N0,1, soist 

Λ(t) = log � E � e tX1�� ∞ 

1 

=log √2π e 

−∞ 

tx e −x2 � 

/2 

dx = t2 

2 . 

Weiter ist 

Λ ∗ (z) =sup 

t∈R 

� 

� � 

tz − Λ(t) =sup tz − 

t∈R 

t2 

� 

= 

2 

z2 

2 . 

Die Ratenfunktion stimmt also mit der aus (23.4) überein. ✸ 

1 

Beispiel 23.5. Ist PX1 = 2δ−1 + 1 

2δ1, soistΛ(t) =logcosh(t). Der Maximierer 

t∗ = t∗ (z) aus dem Variationsproblem für Λ∗ erfüllt die Gleichung z = Λ ′ (t∗ )= 

tanh(t∗ ).Alsoist


Λ ∗ (z) =zt ∗ − Λ(t ∗ )=z arc tanh(z) − log � cosh(arc tanh(z)) � . 

Nun ist arc tanh(z) = 1 1+z 

log 

2 1 − z 

Es folgt 

cosh � arc tanh(z) � = 

für z ∈ (−1, 1) und 

Λ ∗ (z) = z 

z 

log(1 + z) − log(1 − z)+1 

2 2 2 

= 1+z 

2 

log(1 + z)+ 

1 

√ 

1 − z2 = 

1 

� . 

(1 − z)(1 + z) 

1 − z 

2 

log(1 − z). 

log(1 − z)+1 log(1 + z) 

2 

Dies ist aber gerade die Ratenfunktion aus Satz 23.1. ✸ 

−1 e−|x| 

Übung 23.1.1. Sei X eine reelle Zufallsvariable mit Dichte f(x) =c , 

1+|x| 3 

� ∞ 

e 

wobei c = 

−∞ 

−|x| 

dx. Man untersuche die logarithmische momentenerzeu- 

1+|x| 3 

gende Funktion Λ auf Unstetigkeitsstellen und skizziere den Graphen von Λ. ♣ 

23.2 Prinzip der großen Abweichungen 

Wir wollen in diesem Abschnitt die Idee des Satzes von Cramér, die Wahrscheinlichkeiten 

seltener, oder untypischer, Ereignisse vermittels einer exponentiellen Rate 

und einer Ratenfunktion zu quantifizieren, in einen formalen Rahmen stellen. In diesem 

Rahmen kann die gesamte Theorie großer Abweichungen entwickelt werden; 

der Leser sei etwa auf die Bücher [32], [33] oder [74] verwiesen. 

Sei E ein polnischer Raum mit vollständiger Metrik d. Wir schreiben Bε(x) ={y ∈ 

E : d(x, y) 0. 

Eine Abbildung f : E → R =[−∞, ∞] heißt halbstetig von unten, falls für 

jedes a ∈ R die Niveaumenge f −1 ([−∞,a]) ⊂ E abgeschlossen ist. (Speziell sind 

also stetige Abbildungen stets halbstetig von unten. Allerdings ist (0,1) : R → R 

halbstetig von unten, jedoch nicht stetig.) Äquivalent hierzu ist die Bedingung, dass 

limε↓0 inf f(Bε(x)) = f(x) ist für jedes x ∈ E. (Man beachte, dass inf f(A) = 

inf{f(x) : x ∈ A}.) Ist K ⊂ E kompakt und nichtleer, so nimmt f auf K das 

Infimum an. In der Tat: Für den Fall, wo f(x) =∞ für jedes x ∈ K ist, ist die 

Aussage trivial. Sei nun inf f(K) < ∞. Istan ↓ inf f(K) streng monoton fallend, 

so ist K∩f −1 ([−∞,an]) �= ∅ kompakt für jedes n ∈ N, also ist auch der unendliche 

Schnitt nichtleer 

f −1 ∞� 

(inf f(K)) = K ∩ f −1 ([−∞,an]) �= ∅. 

n=1

23.2 Prinzip der großen Abweichungen 495 

Definition 23.6 (Ratenfunktion). Eine von unten halbstetige Funktion I : E → 

[0, ∞] heißt Ratenfunktion. Sind alle Niveaumengen I −1 ([−∞,a]), a ∈ [0, ∞), 

kompakt, so nennen wir I eine gute Ratenfunktion. 

Definition 23.7 (Prinzip großer Abweichungen). Sei I eine Ratenfunktion und 

(με)ε>0 eine Familie von W-Maßen auf E. Wir sagen, dass (με)ε>0 ein Prinzip 

großer Abweichungen (kurz: LDP für Large Deviations Principle) mit Ratenfunktion 

I erfüllt, falls 

(LDP 1) lim inf ε log(με(U)) ≥−inf I(U) 

ε→0 

für jedes offene U ⊂ E, 

(LDP 2) lim sup ε log(με(C)) ≤−inf I(C) 

ε→0 

für jedes abgeschlossene C ⊂ E. 

Wir sagen, dass eine Familie (Pn)n∈N von W-Maßen auf E ein LDP mit Rate rn ↑ 

∞ und Ratenfunktion I erfüllt, falls (LDP 1) und (LDP 2) für die Folge εn =1/rn 

und für μ 1/rn = Pn gelten. 

Oftmals werden die Bedingungen (LDP 1) und (LDP 2) kurz untere Schranke und 

obere Schranke genannt. In vielen Fällen ist die untere Schranke leichter zu zeigen 

als die obere. 

Bevor wir zeigen, dass der Satz von Cramér im Wesentlichen schon ein LDP ist, 

bringen wir noch zwei mehr technische Aussagen. 

Satz 23.8. Die Ratenfunktion in einem LDP ist eindeutig. 

Beweis. Es erfülle (με)ε>0 das LDP mit Ratenfunktionen I und J. Dannistfür 

jedes x ∈ E und δ>0 

I(x) ≥ inf I(Bδ(x)) 

≥−lim inf 

ε→0 ε log � με(Bδ(x)) � 

� 

Bδ(x) �� 

≥−lim sup ε log 

ε→0 

� με 

≥ inf I � Bδ(x) � δ→0 

−→ J(x). 

Es folgt I(x) ≥ J(x) und analog J(x) ≥ I(x). ✷ 

Lemma 23.9. Sei N ∈ N, und seien ai ε, i =1,...,N, ε>0, nichtnegative Zahlen. 

Dann gilt 

N� 

lim sup ε log a 

ε→0 

i ε = max lim sup ε log(a 

i=1,...,N ε→0 

i ε). 

i=1


Beweis. Summe und Maximum unterscheiden sich höchstens um den Faktor N: 

max 

i=1,...,N ε log(ai ε) ≤ ε log 

N� 

i=1 

Maximum und Limes (superior) vertauschen, also ist 

max lim sup ε log(a 

i=1,...,N ε→0 

i � 

ε) = lim sup ε log 

ε→0 

� �N 

� 

ε log 

≤ lim sup 

ε→0 

≤ lim sup 

ε→0 

a i ε ≤ ε log(N) + max 

i=1,...,N ε log(ai ε). 

max 

i=1,...,N ai ε 

i=1 

a i ε 

� 

ε log(N)+ max lim sup ε log(a 

i=1,...,N ε→0 

i ε) 

= max lim sup ε log(a 

i=1,...,N ε→0 

i ε). ✷ 

Beispiel 23.10. Wir nehmen an, dass die Bedingungen aus dem Satz von Cramér 

(Satz 23.3) gelten. Es seien also X1,X2,... u.i.v. reelle Zufallsvariablen mit 

Λ(t) =log(E[etX1 ]) < ∞ für jedes t ∈ R. Ferner sei Sn = X1 + ...+ Xn für 

jedes n. Wir wollen zeigen, dass aus dem Satz von Cramér folgt, dass Pn := PSn/n ein LDP mit Rate n und guter Ratenfunktion I(x) =Λ∗ (x) :=supt∈R(tx − Λ(t)) 

erfüllt. Ohne Einschränkung können wir annehmen, dass E[X1] =0ist. Die Funktion 

I ist überall endlich, stetig, strikt konvex und hat die eindeutige Minimalstelle bei 

I(0) = 0. Der Satz von Cramér besagt, dass limn→∞ 1 

n log(Pn([x, ∞))) = −I(x) 

für x>0 und (aus Symmetriegründen) limn→∞ 1 

n log(Pn((−∞,x])) = −I(x) für 

x0 

1 

−I(x) ≥ lim 

n→∞ 

≥ sup lim 

ε>0 n→∞ 

n log Pn((x, ∞)) 

1 

n log Pn([x + ε, ∞)) = − inf I(x + ε) =−I(x) 

ε>0 

1 

und für x

lim sup 

n→∞ 

1 

n 

log Pn(C) 

≤ lim sup 

n→∞ 

=max 

23.2 Prinzip der großen Abweichungen 497 

1 

n log � � � � �� 

− + 

Pn (−∞,x ] + Pn [x , ∞) 

� 

lim sup 

n→∞ 

1 � � − 

log Pn (−∞,x ] , lim sup 

n n→∞ 

=max � − I(x − ), −I(x + ) � = − inf I(C). 

1 

n 

� � + 

log Pn [x , ∞) � 

Damit ist (LDP 2) gezeigt. 

Sei nun U ⊂ R offen. Sei x ∈ U, x>0, (falls es solch ein x gibt). Dann existiert 

ein ε>0 mit (x − ε, x + ε) ⊂ U ∩ (0, ∞). Nun ist 

lim 

n→∞ 

1 � � 

log Pn (x − ε, ∞) = −I(x − ε) > −I(x + ε) 

n 

= lim 

n→∞ 

1 � � 

log Pn [x + ε, ∞) . 

n 

Es folgt 

lim inf 

n→∞ 

1 

n log Pn(U) ≥ lim 

n→∞ 

1 

n log Pn((x 

= lim 

n→∞ 

− ε, x + ε)) 

1 

n log � = lim 

n→∞ 

� � � �� 

Pn (x − ε, ∞) − Pn [x + ε, ∞) 

1 

n log � � �� 

Pn (x − ε, ∞) = −I(x − ε) ≥ −I(x). 

Analog folgt dies auch für x ∈ U ∩ (−∞, 0), also ist 

lim inf 

n→∞ 

1 

n log Pn(U) ≥ inf I(U \{0}) = inf I(U), 

wobei wir im letzten Schritt ausgenutzt haben, dass U offen und I stetig ist. Damit 

ist die untere Schranke (LDP 1) gezeigt. ✸ 

Tatsächlich kann man auf die Bedingung, dass Λ(t) < ∞ für alle t ∈ R gilt, verzichten. 

Da offenbar Λ(0) = 0 ist, ist Λ ∗ (x) ≥ 0 für jedes x ∈ R. Die Abbildung Λ ∗ 

ist eine konvexe Ratenfunktion, jedoch im Allgemeinen keine gute Ratenfunktion. 

Wir zitieren die folgende Verstärkung des Satzes von Cramér (siehe [32, Theorem 

2.2.3]). 

Satz 23.11 (Cramér). Sind X1,X2,...u.i.v. reelle Zufallsvariablen, dann erfüllt 

(P Sn/n)n∈N ein LDP mit Ratenfunktion Λ ∗ . 

Übung 23.2.1. Sei E = R. Man zeige, dass με := N0,ε ein LDP mit guter Ratenfunktion 

I(x) =x 2 /2 erfüllt. Man zeige ferner, dass in der oberen Schranke 

(LDP 2) strikte Ungleichheit auftreten kann. ♣


Übung 23.2.2. Sei E = R. Man zeige, dass με := N 0,ε 2 ein LDP mit guter Ratenfunktion 

I(x) =∞· R\{0}(x) erfüllt. Man zeige ferner, dass in der unteren 

Schranke (LDP 1) strikte Ungleichheit auftreten kann. ♣ 

Übung 23.2.3. Sei E = R. Man zeige, dass με := 1 

2N−1,ε + 1 

2N1,ε ein LDP mit 

guter Ratenfunktion I(x) =min( 1 

2 (x +1)2 , 1 

2 (x − 1)2 ) erfüllt. ♣ 

Übung 23.2.4. Man berechne Λ und Λ ∗ für den Fall, wo X1 ∼ exp θ für θ>0 

und interpretiere die Aussage von Satz 23.11 für diesen Fall. Man prüfe, dass Λ ∗ 

die eindeutige Nullstelle bei E[X1] hat. (Ergebnis: Λ ∗ (x) =θx − log(θx) − 1 falls 

x>0 und = ∞ sonst.) ♣ 

Übung 23.2.5. Man berechne Λ und Λ ∗ für den Fall, wo X1 Cauchy verteilt ist und 

interpretiere die Aussage von Satz 23.11 für diesen Fall. ♣ 

Übung 23.2.6. Sei Xλ ∼ Poiλ für jedes λ>0. Man zeige, dass με := PεX λ/ε ein 

LDP mit guter Ratenfunktion I(x) =x log(x/λ) +λ − x für x ≥ 0 (und = ∞ 

sonst) erfüllt. ♣ 

Übung 23.2.7. Sei (Xt)t≥0 die Irrfahrt auf Z in stetiger Zeit, die mit Rate 1 

2 einen 

Schritt nach rechts springt und mit Rate 1 

2 einen Schritt nach links springt. Man 

zeige, dass (PεX )ε>0 ein LDP erfüllt mit der konvexen guten Ratenfunktion 

1/ε 

I(x) =1+xarcsinh(x) − √ 1+x2 . ♣ 

23.3 Satz von Sanov 

Dieser Abschnitt ist an die Darstellung in [32] angelehnt. 

Wir wollen hier ein Prinzip der großen Abweichungen vorstellen, das nicht auf einem 

linearen Raum basiert, wie der Satz von Cramér, sondern für empirische Verteilungen 

unabhängiger Zufallsvariablen mit Werten in einer endlichen Menge Σ, 

die meist Alphabet genannt wird, annehmen. 

Sei μ ein W-Maß auf Σ mit μ({x}) > 0 für jedes x ∈ Σ. Seien ferner X1,X2,... 

u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ. Wir wollen ein 

Prinzip großer Abweichungen für die empirischen Maße 

ξn(X) := 1 

n 

n� 

δXi 

i=1 

herleiten. Man beachte, dass nach dem Gesetz der großen Zahl P-fast sicher gilt, 

dass ξn(X) n→∞ 

−→ μ. Als Zustandsraum ergibt sich also E = M1(Σ), ausgestattet 

mit der Metrik d(μ, ν) =�μ − ν�TV der Totalvariation. (Da Σ nur endlich viele

23.3 Satz von Sanov 499 

Punkte enthält, sind in E die vage Konvergenz, die schwache Konvergenz und die 

Konvergenz in Totalvariation identisch.) Es sei weiterhin 

� 

� 

En := μ ∈M1(Σ) : nμ({x}) ∈ N0 für jedes x ∈ Σ 

der mögliche Wertebereich der Zufallsvariablen ξn(X). 

Wir erinnern an den Begriff der Entropie von μ 

� 

H(μ) :=− log � μ({x}) � μ(dx). 

Ist ν ∈M1(Σ), sodefinieren wir die relative Entropie (oder Kullback-Leibler 

Information nach [101]) von ν gegeben μ durch 

� � � 

ν({x}) 

H(ν |μ) := log 

ν(dx). (23.13) 

μ({x}) 

Da μ({x}) > 0 ist für alle x ∈ Σ, ist der Integrand ν-f.s. endlich und damit ist 

auch das Integral endlich. Eine einfache Anwendung der Jensen’schen Ungleichung 

liefert, dass H(μ) ≥ 0 und H(ν |μ) ≥ 0 ist (siehe Lemma 5.26 und Übung 5.3.3), 

sowie H(ν |μ) =0genau dann, wenn ν = μ ist. Außerdem ist offenbar 

� 

H(ν |μ)+H(ν) =− log � μ({x}) � ν(dx). (23.14) 

Da die Abbildung ν ↦→ Iμ(ν) :=H(ν |μ) stetig ist, ist Iμ eine Ratenfunktion. 

Lemma 23.12. Für jedes n ∈ N und ν ∈ En gilt 

(n +1) −#Σ e −nH(ν |μ) ≤ P[ξn(X) =ν] ≤ e −nH(ν |μ) . (23.15) 

Beweis. Wir betrachten die Menge möglicher Werte für das n-Tupel (X1,...,Xn), 

sodass ξn(X) =ν ist: 

An(ν) := 

� 

k =(k1,...,kn) ∈ Σ n : 1 

n 

Für jedes k ∈ An(ν) ist (vergleiche (23.14)) 

n� 

i=1 

δki 

� 

= ν . 

P[ξn(X) =ν] =#An(ν) P[X1 = k1,...,Xn = kn] 

=#An(ν) � 

μ({x}) nν({x}) 

x∈Σ 

=#An(ν) exp 

� � 

n 

� 

ν(dx) logμ({x}) 

=#An(ν) exp � − n[H(ν)+H(ν |μ)] � .


Seien nun Y1,Y2,... u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PY1 = 

ν. Dann ist wie in der Rechnung für X (wegen H(ν |ν) =0) 

1 ≥ P[ξn(Y )=ν] = #An(ν) e −nH(ν) , 

also #An(ν) ≤ enH(ν) . Hieraus folgt die zweite Ungleichung in (23.15). 

Die Zufallsvariable nξn(Y ) ist multinomialverteilt mit Parametern (nν({x}))x∈Σ, 

also ist die Abbildung En → [0, 1], ν ′ ↦→ P[ξn(Y )=ν ′ ] maximal in ν ′ = ν. Es 

folgt 

#An(ν) = e nH(ν) P[ξn(Y )=ν] ≥ enH(ν) 

≥ (n +1) −#Σ e nH(ν) . 

#En 

Hieraus folgt die erste Ungleichung in (23.15). ✷ 

Wir kommen jetzt zum Hauptsatz dieses Abschnitts, dem Satz von Sanov (siehe 

[142] und [143]). 

Satz 23.13 (Sanov (1957)). Seien X1,X2,... u.i.v. Zufallsvariablen mit Werten 

in der endlichen Menge Σ und mit Verteilung μ. Dann erfüllt die Familie 

(P ξn(X))n∈N der Verteilungen der empirischen Maße ein LDP mit Rate n und 

Ratenfunktion Iμ = H( · |μ). 

Beweis. Für jedes A ⊂ E ist nach Lemma 23.12 

P � ξn(X) ∈ A � = � 

P[ξn(X) =ν] 

ν∈A∩En 

≤ � 

Es folgt 

lim sup 

n→∞ 

ν∈A∩En 

−nH(ν |μ) 

e 

≤ #(A ∩ En)exp � − n inf Iμ(A ∩ En) � 

≤ (n +1) #Σ exp � − n inf Iμ(A) � . 

1 

n log P[ξn(X) ∈ A] ≤−inf Iμ(A), 

also die obere Schranke im LDP (sogar für allgemeines A). 

Analog erhalten wir mit der ersten Ungleichung aus Lemma 23.12 

P � ξn(X) ∈ A � ≥ (n +1) −#Σ exp � − n inf Iμ(A ∩ En) � 

und damit 

lim inf 

n→∞ 

1 

n log P�ξn(X) ∈ A � ≥−lim sup inf Iμ(A ∩ En). (23.16) 

n→∞

23.3 Satz von Sanov 501 

Man beachte, dass wir für diese Ungleichung im Infimum nicht einfach A ∩ En 

durch A ersetzen können. Wir zeigen vielmehr, dass dies für offenes A zumindest 

asymptotisch geht. Sei also A ⊂ E offen. Für ν ∈ A gibt es ein ε>0 mit Bε(ν) ⊂ 

n→∞ 

A.Für n ≥ (2 #Σ)/ε ist En ∩ Bε(ν) �= ∅, also existiert eine Folge νn −→ ν mit 

νn ∈ En ∩ A für hinreichend großes n ∈ N. DaIμ stetig ist, gilt 

lim sup 

n→∞ 

inf Iμ(A ∩ En) ≤ lim 

n→∞ Iμ(νn) =Iμ(ν). 

Da ν ∈ A beliebig war, folgt lim sup n→∞ inf Iμ(A ∩ En) =infIμ(A). ✷ 

Beispiel 23.14. Sei Σ = {−1, 1} und μ = 1 

2δ−1 + 1 

2δ1 die Gleichverteilung auf Σ. 

Schreiben wir m = m(ν) =ν({1}) − ν({−1}), dann ist die relative Entropie von 

ν ∈M1(Σ) 

H(ν |μ) = 1+m 

2 

log(1 + m) + 

1 − m 

2 

log(1 − m). 

Dies ist genau die Ratenfunktion, die wir bereits aus Satz 23.1 kennen. ✸ 

Wir wollen den Zusammenhang zwischen den LDPs von Sanov und von Cramér, 

der im letzten Beispiel angedeutet wurde, nun formal herstellen, indem wir eine 

Variante des Satzes von Cramér für R d -wertige Zufallsvariablen, die nur endlich 

viele Werte annehmen, aus dem Satz von Sanov herleiten. 

Beispiel 23.15. Sei Σ ⊂ Rd endlich und μ ein W-Maß auf Σ. Seien ferner 

X1,X2,... u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ sowie 

Sn = X1 + ...+ Xn für jedes n ∈ N. Wir setzen Λ(t) = log E � e 〈t,X1〉� für t ∈ Rd und Λ∗ � � 

d (x) =supt∈Rd 〈t, x〉−Λ(t) für x ∈ R . 

Wir zeigen, dass � � 

PSn/n n∈N ein LDP mit Rate n und Ratenfunktion Λ∗ erfüllt. 

Es sei ξn(X) das empirische Maß von X1,...,Xn. SeiE := M1(Σ). Definiere 

die Abbildung 

m : E → R d , 

� 

ν ↦→ xν(dx) = � 

xν({x}), 

die ν das erste Moment zuordnet. Offenbar ist dann 1 

n Sn = m(ξn(X)). Für 

x ∈ R d und A ⊂ R d seien Ex := m −1 ({x}) ={ν ∈ E : m(ν) =x} und 

EA = m −1 (A) ={ν ∈ E : m(ν) ∈ A}. Die Abbildung ν ↦→ m(ν) ist stetig, 

also ist EA offen (beziehungsweise abgeschlossen), falls A offen (beziehungsweise 

abgeschlossen) ist. Mit Ĩ(x) :=infIμ(Ex) (wobei Iμ(ν) =H(ν |μ) die relative 

Entropie ist) gilt nach dem Satz von Sanov für offenes U ⊂ R d 

lim inf 

n→∞ 

1 

n log PSn/n(U) = lim inf 

n→∞ 

x∈Σ 

1 

n log P � � −1 

ξn(X) m (U) 

≥−inf 

μ I � m −1 (U) � = − inf Ĩ(U).


Analog ist für abgeschlossenes C ⊂ R d 

lim sup 

n→∞ 

1 

n log P Sn/n(C) ≥−inf Ĩ(C). 

Mit anderen Worten: (P Sn/n)n∈N erfüllt ein LDP mit Rate n und Ratenfunktion Ĩ. 

Es ist also nur noch zu zeigen, dass Ĩ = Λ∗ gilt. 

Man beachte, dass t ↦→ Λ(t) differenzierbar (mit Ableitung Λ ′ ) und strikt konvex 

ist. Daher besitzt das Variationsproblem für Λ∗ (x) einen eindeutigen Maximierer 

t∗ (x). Genauer gilt 

Λ ∗ (x) =〈t ∗ (x),x〉−Λ(t ∗ (x)) 

und Λ∗ (x) > 〈t, x〉−Λ(t) für alle t �= t∗ (x),sowieΛ ′ (t∗ (x)) = x. 

Nach der Jensenschen Ungleichung ist für jedes ν ∈M1(Σ) 

� 

Λ(t) = log e 〈t,y〉 μ(dy) 

� � 

� 

〈t,y〉 μ({y}) 

=log e ν(dy) 

ν({y}) 

� � 

� 

〈t,y〉 μ({y}) 

≥ log e ν(dy) 

ν({y}) 

= 〈t, m(ν)〉−H(ν |μ) 

mit Gleichheit genau dann, wenn ν = νt,woνt({y}) =μ({y})e 〈t,y〉−Λ(t) .Alsoist 

〈t, x〉−Λ(t) ≤ inf H(ν |μ) 

ν∈Ex 

mit Gleichheit, falls νt ∈ Ex. Nun ist aber m(νt) =Λ ′ (t), also ist νt∗ (x) ∈ Ex und 

damit 

Λ ∗ (x) =〈t ∗ (x),x〉−Λ(t ∗ (x)) = inf H(ν |μ) = Ĩ(x). ✸ 

ν∈Ex 

Das Beweisprinzip, das wir im letzten Beispiel verwandt haben, um das LDP mit 

Ratenfunktion Ĩ herzuleiten, wird Kontraktionsprinzip genannt. Wir formulieren 

es als Satz. 

Satz 23.16 (Kontraktionsprinzip). Die Familie (με)ε>0 von W-Maßen auf E erfülle 

ein LDP mit Ratenfunktion I. IstFein topologischer Raum und m : E → F 

stetig, so erfüllen die Bildmaße (με ◦ m−1 )ε>0 ein LDP mit Ratenfunktion Ĩ(x) = 

inf I(m−1 ({x})). 

23.4 Varadhan’sches Lemma und Freie Energie 

Wir nehmen an, dass (με)ε>0 eine Familie von W-Maßen ist, die ein LDP mit Ratenfunktion 

I erfüllt. Wir wissen also, dass die Masse von με für kleine ε>0 mehr und

23.4 Varadhan’sches Lemma und Freie Energie 503 

mehr um die Nullstellen von I herum konzentriert liegt. In der statistischen Physik 

ist es oftmals von Interesse, Funktionen bezüglich με (wobei 1/ε als ” Systemgröße“ 

verstanden wird) zu integrieren, die ihren größten Wert nicht in den Nullstellen von 

I annehmen, und die zudem noch exponentiell mit 1/ε skalieren. Es soll also die 

Asymptotik von Z φ ε := � e φ(x)/ε με(dx) für ε → 0 untersucht werden. Unter harmlosen 

Stetigkeitsannahmen tragen zu dem Integral hauptsächlich diejenigen Punkte 

x bei, für die φ(x) groß ist, die aber gleichzeitig nicht zu unwahrscheinlich sind, 

also diejenigen x, für die φ(x) − I(x) die größten Werte annimmt. Die Beiträge 

messen wir durch die gekippten W-Maße μ φ ε (dx) =(Z φ ε ) −1 e φ(x)/ε με(dx), für die 

wir ein LDP herleiten. Als Anwendung folgern wir das Prinzip der Minimierung der 

freien Energie in der statistischen Physik und analysieren speziell den Weiss’schen 

Ferromagneten. 

Satz 23.17 (Varadhan’sches Lemma (1966)). Sei I eine gute Ratenfunktion und 

(με)ε>0 eine Familie von W-Maßen, die ein LDP mit Ratenfunktion I erfüllt. Sei 

ferner φ : E → R stetig und erfülle die Bedingung 

� 

Dann gilt 

inf lim sup ε log 

M>0 ε→0 

� 

lim ε log 

ε→0 

e φ(x)/ε {φ(x)≥M} με(dx) =−∞. (23.17) 

e φ(x)/ε � � 

με(dx) =supφ(x) 

− I(x) . (23.18) 

x∈E 

Bemerkung 23.18. Die Bedingung (23.17) folgt aus der etwas griffigeren Bedingung, 

dass es ein α>1 gibt mit 

� 

lim sup ε log e 

ε→0 

αφ/ε dμε < ∞. (23.19) 

In der Tat: Für jedes M ∈ R ist 

� 

ε log 

e φ(x)/ε {φ(x)≥M} με(dx) =M + ε log 

� 

e (φ(x)−M)/ε {φ(x)≥M} με(dx) 

� 

≤ M + ε log e α(φ(x)−M)/ε με(dx) 

� 

= −(α − 1)M + ε log e αφ(x)/ε με(dx). 

Hieraus und aus (23.19) folgt sofort (23.17). ✸ 

Beweis. Wir zeigen mit unterschiedlichen Argumenten, dass die rechte Seite in 

(23.18) eine untere Schranke und eine obere Schranke für die linke Seite ist.


Untere Schranke Für jedes x ∈ E und r>0 ist 

� 

lim inf ε log 

ε→0 

e φ/ε � 

dμε ≥ lim inf ε log 

ε→0 

Br(x) 

e φ/ε dμε 

≥ inf φ(Br(x)) − I(x) r→0 

−→ φ(x) − I(x). 

Obere Schranke Für M>0 und ε>0 definieren wir 

� 

� 

F ε M := 

Wir setzen 

e 

{φ≥M} 

φ(x)/ε με(dx) und G ε M := 

FM := lim sup 

ε→0 

{φ0 

� 

lim ε log e 

ε→0 φ(x)/ε με(dx) =FM ∨ GM . 

Da nach Voraussetzung infM>0 FM = −∞ gilt, reicht es zu zeigen, dass 

� � 

sup GM ≤ sup φ(x) − I(x) . (23.20) 

M>0 

x∈E 

Sei δ>0. Für jedes x ∈ I gibt es ein r(x) > 0 mit 

inf I � B 2r(x)(x) � ≥ I(x) − δ und sup φ � B 2r(x)(x) � ≤ φ(x) − δ. 

Sei a ≥ 0. DaI eine gute Ratenfunktion ist, ist die Niveaumenge K := I −1 ([0,a]) 

kompakt. Wir finden also endlich viele Punkte x1,...,xN ∈ I −1 ([0,a]), sodass 

� N 

i=1 B r(xi)(xi) ⊃ K. Es gilt daher 

G ε M ≤ 

� 

{φ


Satz 23.19 (Gekipptes LDP). Es erfülle (με)ε>0 ein LDP mit der guten Ratenfunktion 

I. Ferner sei φ : E → R stetig und erfülle die Bedingung (23.17). Wir 

definieren Z φ ε := � e φ/ε dμε und μ φ ε ∈M1(E) durch 

μ φ ε (dx) =(Z φ ε ) −1 e φ(x)/ε με(dx). 

Ferner definieren wir Iφ : E → [0, ∞] durch 

� � � � 

φ(z) − I(z) − φ(x) − I(x) . (23.21) 

I φ (x) =sup 

z∈E 

Dann erfüllt (μ φ ε )ε>0 ein LDP mit der Ratenfunktion I φ . 

Beweis. Dies bleibt dem Leser zur Übung überlassen. (Vergleiche [33, Aufgabe 

2.1.24], siehe auch [42, Abschnitt II.7].) ✷ 

Wir wollen das Varadhan’sche Lemma im Kontext der statistischen Physik betrachten. 

Sei hierzu Σ ein polnischer Raum, den wir als Raum der möglichen Zustände 

eines einzelnen Teilchens auffassen wollen. Ferner sei λ ∈M1(Σ) eine Verteilung, 

die wir als a priori Verteilung eines Teilchens ohne Berücksichtigung der Energie 

auffassen wollen. Ist Σ endlich oder eine beschränkte Menge eines Rd ,soistλty pischerweise die Gleichverteilung auf Σ. Wenn wir n ununterscheidbare Teilchen 

unabhängig nach λ auf Positionen z1,...,zn ∈ Σ setzen, so können wir den Zustand 

dieses Ensembles als x := 1 �n n i=1 δzi beschreiben. Mit μ0n ∈M1(M1(Σ)) 

bezeichnen wir die so gewonnene a priori Verteilung von x. 

Wir machen nun die Annahme, dass sich die Energie Un(x) eines Zustandes schreiben 

lässt als Un(x) =nU(x), woU(x) als die mittlere Energie eines Teilchens bei 

Gesamtzustand x interpretiert wird. 

Es sei T ≥ 0 die Temperatur des Systems und β := 1/T die so genannte inverse 

Temperatur. Eine wichtige Rolle in der statistischen Physik spielt die Zustandssumme 

oder Partitionsfunktion 

� 

e −βUn dμ 0 n. 

Z β n := 

Ein Postulat der statistischen Physik besagt, dass der Zustand x nach der Boltzmann-Verteilung 

verteilt ist: 

μ β n(dx) =(Z β n) −1 e −βUn(x) μ 0 n(dx) (23.22) 

Das Varadhan’sche Lemma (genauer: das gekippte LDP) und der Satz von Sanov 

erlauben uns, die Brücke zum Variationsprinzip für die freie Energie zu schlagen. 

Wir nehmen nun an, dass Σ eine endliche Menge ist und λ = UΣ die Gleichverteilung 

auf Σ. Nach dem Satz von Sanov erfüllt (μ 0 n)n∈N ein LDP mit Rate n und


0.01 

0.008 

0.006 

0.004 

0.002 

–0.8 –0.6 –0.4 –0.2 0 0.2 0.4 0.6 0.8 

–0.002 

m 

–0.004 

–0.006 

–0.008 

beta=0.9 

beta=1.0 

beta=1.1 

Abb. 23.1. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten 

ohne äußeres Feld (h =0). 

Ratenfunktion I(x) =H(x|λ), woH(x|λ) die relative Entropie von x bezüglich λ 

ist. Nach (23.14) ist H(x|λ) = log(#Σ) − H(x), woH(x) die Entropie von x ist. 

Wir definieren die freie Energie (oder das Helmholtz-Potential) pro Teilchen als 

F β (x) :=U(x) − β −1 H(x). 

Der Satz über das gekippte LDP liefert nun, dass die Folge der Boltzmann-Verteilungen 

(μ β n)n∈N ein LDP erfüllt mit Rate n und Ratenfunktion 

I β (x) =F β (x) − inf 

y∈M1(Σ) F β (y). 

Für großes n ist die Boltzmann Verteilung auf diejenigen x konzentriert, die die freie 

Energie minimieren. Dies können für unterschiedliche Temperaturen (also Werte 

von β) sehr unterschiedliche Zustände sein. Daher treten bei kritischen Temperaturen 

Phasenübergänge auf, und chemische Reaktionen laufen bei unterschiedlichen 

Temperaturen in unterschiedlichen Richtungen ab. 

Beispiel 23.20. Wir betrachten den Weiss’schen Ferromagneten. Dies ist ein mikroskopisches 

Modell für Magnetismus, das davon ausgeht, dass jedes von n ma- 

gnetischen Teilchen eine von den zwei Ausrichtungen σi ∈ Σ = {−1, +1} hat. 

Die mittlere Magnetisierung m = 1 �n i=1 σi beschreibt den Zustand des Systems 

n 

vollständig (da die Teilchen ununterscheidbar sind) und ist die relevante makroskopische 

Messgröße. Die Grundidee ist, dass es energetisch günstiger ist, wenn Teilchen 

magnetisch parallel ausgerichtet sind, als wenn sie antiparallel ausgerichtet


0.1 

0.05 

m 

–1 –0.8 –0.6 –0.4 –0.2 0.2 0.4 0.6 0.8 1 

–0.05 

–0.1 

beta=0.9 

beta=1.0 

beta=1.1 

beta=1.5 

Abb. 23.2. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten 

mit äußerem Feld h =0.04. 

sind. Wir wollen die räumliche Struktur der Wechselwirkung ignorieren und annehmen, 

dass jedes Teilchen mit jedem anderen in gleicher Weise wechselwirkt (mean 

field Annahme). Außerdem wollen wir annehmen, dass es ein äußeres Magnetfeld 

der Stärke h gibt. Bis auf Konstanten ist die Energie pro Teilchen daher 

U(m) =− 1 

2 m2 − hm. 

Die Entropie des Zustands m ist 

H(m) =− 1+m 

log 

2 

Die freie Energie pro Teilchen ist also 

� 1+m 

2 

� 

1 − m 

− log 

2 

� 1 − m 

F β (m) =− 1 

2 m2 − hm + β −1� 1+m 

� 

1+m 

� 

log + 

2 2 

1 − m 

� 

1 − m 

�� 

log . 

2 2 

Um die Minimalstellen von F β zu bestimmen, berechnen wir die Ableitung 

0 ! = d 

dm F β (m) =−m − h + β −1 arctanh(m). 

Wir erhalten so für m die Gleichung 

m = tanh(β(m + h)). (23.23) 

2 

� 

.


Im Fall h =0hat (23.23) stets die Lösung m =0.Istβ≤ 1, soistdieseLösung 

eindeutig, und F β hat das globale Minimum in m =0.Istβ>1, so besitzt (23.23) 

zwei weitere Lösungen m β,0 

− ∈ (−1, 0) und m β,0 

+ = −m β,0 

bestimmt werden können. 

− , die nur numerisch 

In diesem Fall besitzt F β in 0 ein lokales Maximum und in m β,0 

± globale Minima. 

Da für große n nur noch solche Werte angenommen werden, für die F β minimal ist, 

liegt die Verteilung konzentriert um 0, falls β ≤ 1 und konzentriert um m β,0 

± , falls 

β>1. Im letzterem Fall ist die betragsmäßige Magnetisierung � �m β,0� 

� 

± = m β,0 

+ > 0. 

Wir haben also einen Phasenübergang zwischen einer Phase bei hoher Temperatur 

(β ≤ 1), wo keine Magnetisierung auftritt, und niedriger Temperatur (β > 1), 

wo so genannte spontane Magnetisierung auftritt (das heißt ohne Einwirkung eines 

äußeren Feldes). 

Ist h �= 0, so besitzt F β in m =0keine Minimalstelle. Vielmehr ist F β asymmetrisch 

und besitzt ein globales Minimum m β,h mit selbem Vorzeichen wie h, sowie 

für großes β noch eine weiteres lokales Minimum mit dem entgegengesetzten Vorzeichen. 

Die exakten Werte für die Magnetisierung können wieder nur numerisch 

bestimmt werden. Wir können m β,h jedoch für hohe Temperaturen (β klein) approximativ 

bestimmen, indem wir die Näherung tanh(β(m + h)) ≈ β(m + h) 

verwenden. Wir erhalten so 

m β,h h 

≈ 

β−1 − 1 = 

h 

T − Tc 

für T →∞, (23.24) 

wo die Curie-Temperatur Tc =1die kritische Temperatur für das Auftreten von 

spontaner Magnetisierung ist. Die Beziehung (23.23) heißt Curie-Weiss’sches Gesetz. 

✸ 

1 

0.8 

0.6 

0.4 

0.2 

0 

m 

h=0.2 

h=0.04 

h=0.001 

0.5 1 1.5 2 2.5 3 3.5 

Abb. 23.3. Weiss’scher Ferromagnet: Magnetisierung m β,h 

+ als Funktion von β. 

beta

24 Der Poisson’sche Punktprozess 

Poisson’sche Punktprozesse können als ein Grundbaustein zur Konstruktion sehr 

unterschiedlicher stochastischer Objekte verwendet werden, wie etwa unbegrenzt 

teilbare Verteilungen, Markovprozesse mit komplexer Dynamik, Objekte der stochastischen 

Geometrie und so fort. 

Wir geben in diesem Kapitel kurz den allgemeinen Rahmen zufälliger Maße an, 

konstruieren den Poisson’schen Punktprozess und charakterisieren ihn durch seine 

Laplace-Transformierte. Als Anwendungen konstruieren wir einen Subordinator 

und zeigen, dass der Poisson’sche Punktprozess das invariante Maß von Systemen 

unabhängiger Irrfahrten ist. Über den Zusammenhang zu Subordinatoren schlagen 

wir im dritten Abschnitt die Brücke zu den in der Populationsgenetik wichtigen 

Poisson-Dirichlet und GEM Verteilungen. 

24.1 Zufällige Maße 

Sei E im Folgenden ein lokalkompakter, polnischer Raum (etwa E = R d oder 

E = Z d ) mit Borel’scher σ-Algebra B(E). Sei 

Bb(E) = � B ∈B(E) : B ist relativ kompakt � 

das System der beschränkten Borel’schen Mengen und M(E) der Raum der Radon- 

Maße auf E (siehe Definition 13.3). 

Definition 24.1. Wir bezeichnen mit M = σ(IA : A ∈ Bb(E)) die kleinste σ- 

Algebra auf M(E), bezüglich der alle Abbildungen 

messbar sind. 

IA : μ ↦→ μ(A), A ∈Bb(E), 

Wir schreiben B + (E) für die Menge der messbaren Abbildungen E → [0, ∞] und 

BR b (E) für die Menge der beschränkten, messbaren Abbildungen E → R mit kompaktem 

Träger. Das Integral If (μ) := � fdμist für jedes f ∈B + (E) wohldefiniert 

und für jedes f ∈BR b (E) wohldefiniert und endlich.

510 24 Der Poisson’sche Punktprozess 

Satz 24.2. Sei τv die vage Topologie auf M(E). Dann ist 

M = B(τv) =σ(If : f ∈ Cc(E)) = σ(If : f ∈ C + c (E)). 

Beweis. Übung! (Siehe [83, Lemma 4.1].) ✷ 

Sei � M(E) der Raum aller Maße auf E mit σ-Algebra � M = σ(IA : A ∈Bb(E)). 

Offenbar ist M = � M � � die Spur-σ-Algebra von 

M(E) 

� M auf M(E). Wir brauchen 

diesen etwas größeren Raum, um zufällige Maße so zu definieren, dass fast sicher 

wohldefinierte Operationen wieder zufällige Maße ergeben. 

Definition 24.3. Ein zufälliges Maß auf E ist eine Zufallsvariable X auf einem 

Wahrscheinlichkeitsraum (Ω,A, P) mit Werten in ( � M(E), � M) und mit P[X ∈ 

M(E)]=1. 

Satz 24.4. Sei X ein zufälliges Maß auf E. Dann ist die Mengenfunktion E[X] : 

B(E) → [0, ∞], A ↦→ E[X(A)] ein Maß. Wir nennen E[X] das Intensitätsmaß 

von X. X heißt integrierbar, falls E[X] ∈M(E). 

Beweis. Offenbar ist E[X] endlich additiv. Seien A, A1,A2,... ∈B(E) mit An ↑ 

A. Betrachte die Zufallsvariablen Yn := X(An) und Y = X(A). Dann gilt Yn ↑ Y , 

also nach dem Satz über monotone Konvergenz E[X](An) =E[Yn] n→∞ 

−→ E[Y ]= 

E[X](A). Mithin ist E[X] stetig von unten und damit ein Maß (nach Satz 1.36). ✷ 

Satz 24.5. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl 

durch die Verteilungen von 

� (If1 ,...,Ifn ): n ∈ N; f1,...,fn ∈ C + c (E) � 

(24.1) 

als auch von 

� (IA1 ,...,IAn ): n ∈ N; A1,...,An ∈Bb(E) paarweise disjunkt � . (24.2) 

Beweis. Das Mengensystem 

I = � (If1 ,...,Ifn )−1 (A) : n ∈ N; f1,...,fn ∈ C + c (E), A∈B([0, ∞) n ) � 

ist schnittstabil und nach Satz 24.2 ein Erzeuger von M. AlsoistdasMaßPX 

eindeutig durch die Werte auf I festgelegt. 

Die Aussage folgt analog für 

� 

(IA1 ,...,IAn ): n ∈ N; A1,...,An ∈Bb(E) � . 

Sind A1,...,An ∈Bb(E) beliebig, so existieren 2n − 1 paarweise disjunkte Mengen 

B1,...,B2n−1 mit Ai = � 

k: Bk⊂Ai Bk für jedes i =1,...,n. Die Verteilung 

von (IA1 ,...,IAn ) lässt sich aus der von (IB1 ,...,IB2n ) berechnen. ✷ 

−1

Im Folgenden sei i = √ −1. 

Definition 24.6. Wir bezeichnen mit 

� � � 

LX(f) =E exp − 

�� 

fdX , f ∈B + (E), 

die Laplace-Transformierte von X und mit 

� � � 

ϕX(f) =E exp i 

�� 

fdX , f ∈B R b (E), 

die charakteristische Funktion von X. 

24.1 Zufällige Maße 511 

Satz 24.7. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl 

durch die Werte der Laplace-Transformierten LX(f), f ∈ C + c (E), als auch 

durch die Werte der charakteristischen Funktion ϕX(f), f ∈ Cc(E). 

Beweis. Dies folgt aus Satz 24.5 und dem Eindeutigkeitssatz für charakteristische 

Funktionen (Satz 15.8) beziehungsweise Laplace-Transformierte (Übung 15.1.2) 

von Zufallsvariablen auf [0, ∞) n . ✷ 

Definition 24.8. Wir sagen, dass ein zufälliges Maß X auf E unabhängige Zuwächse 

hat, falls für je endlich viele paarweise disjunkte Mengen A1,...,An die 

Zufallsvariablen X(A1),...,X(An) unabhängig sind. 

Korollar 24.9. Die Verteilung eines zufälligen Maßes X auf E mit unabhängigen 

Zuwächsen ist durch (P X(A), A∈Bb(E)) eindeutig bestimmt. 

Beweis. Dies folgt direkt aus Satz 24.5. ✷ 

Definition 24.10. Sei μ ∈ M(E). Ein zufälliges Maß X mit unabhängigen Zuwächsen 

heißt Poisson’scher Punktprozess (PPP) mit Intensitätsmaß μ, falls für 

jedes A ∈ Bb(E) gilt, dass P X(A) = Poi μ(A). Wir schreiben dann PPPμ := 

PX ∈M1(M(E)) und sagen kurz, dass X ein PPPμ ist. 

Bemerkung 24.11. Die Definition des PPP (und die Konstruktion im folgenden 

Satz) funktioniert auch, wenn (E,E,μ) lediglich ein σ-endlicher Maßraum ist. Die 

Charakterisierung mit Hilfe von Laplace-Transformierten und charakteristischen 

Funktionen ist allerdings etwas einfacher im hier betrachteten Fall lokalkompakter, 

polnischer Räume. ✸ 

Satz 24.12. Zu jedem μ ∈M(E) existiert ein Poisson’scher Punktprozess X mit 

Intensitätsmaß μ.


Beweis. Da μ ∈M(E) ist, ist μσ-endlich. Sei also En ↑ E mit μ(En) < ∞ 

für jedes n ∈ N. Setze μ1 = μ(E1 ∩ · ) und μn = μ((En \ En−1) ∩ · ) 

für n ≥ 2. SindX1,X2,... unabhängige Poisson’sche Punktprozesse mit Intensitätsmaßen 

μ1,μ2,...,sohatX = �∞ n=1 Xn das Intensitätsmaß E[X] =μ, also 

ist X ein zufälliges Maß (siehe Übung 24.1.1). Außerdem sieht man leicht, dass X 

unabhängige Zuwächse hat und 

P X(A) = P X1(A) ∗ P X2(A) ∗ ...=Poi μ1(A) ∗ Poi μ2(A) ∗ ...=Poi μ(A). 

Also ist X ∼ PPPμ. 

Es reicht also, den Fall μ(E) ∈ (0, ∞) zu betrachten, den wir im Folgenden annehmen 

wollen. Setze ν = μ( · )/μ(E) ∈M1(E). Seien N,Y1,Y2,... unabhängige 

Zufallsvariablen mit N ∼ Poiμ(E) und PYi = ν für jedes i ∈ N. Wirdefinieren 

X(A) = 

N� 

n=1 

A(Yn) für A ∈B(E). 

Die Zufallsvariablen A(Y1), A(Y2),...sind unabhängig und Ber ν(A)-verteilt, also 

ist X(A) ∼ Poi μ(A) (siehe Satz 15.14(iii)). Seien A1,A2,...∈B(E) paarweise 

disjunkt und 

� � 

ψ(t) =E exp i 

n� 

l=1 

tl Al (Y1) 

�� 

=1+ 

l=1 

n� 

ν(Al) � e itl 

� n 

− 1 , t ∈ R , 

die charakteristische Funktion von ( A1 (Y1),..., An (Y1)). Sei ferner ϕ die charakteristische 

Funktion von (X(A1),...,X(An)) und ϕl die von X(Al) für l = 

1,...,n, also ϕl(tl) =exp(μ(Al)(e itl − 1)). Nach Satz 15.14(iii) ist 

� � 

ϕ(t) =E exp i 

n� 

l=1 

�� 

tl X(Al) 

=exp � μ(E)(ψ(t) − 1) � 

� �n 

=exp μ(Al) � e itl 

� 

− 1 � 

= 

l=1 

n� 

ϕl(tl). 

Also sind X(A1),...,X(An) unabhängig. Es folgt X ∼ PPPμ. ✷ 

Übung 24.1.1. Seien X1,X2,... zufällige Maße und λ1,λ2,... ∈ [0, ∞) sowie 

X := �∞ n=1 λnXn. Man zeige, dass X genau dann ein zufälliges Maß ist, wenn 

P[X(B) < ∞] =1für jedes B ∈Bb(E). Man folgere: Ist X eine Zufallsvariable 

mit Werten in � � 

M(E), � M(E) � und E[X] ∈M(E), soistXein zufälliges Maß. ♣ 

Übung 24.1.2. Sei τw die Topologie der schwachen Konvergenz auf M1(E) und 

σ(τw) die Borel’sche σ-Algebra auf M1(E). Man zeige: M � � = σ(τw). ♣ 

M1(E) 

l=1

24.2 Eigenschaften des Poisson’schen Punktprozesses 513 

24.2 Eigenschaften des Poisson’schen Punktprozesses 

Satz 24.13. Sei μ ∈M(E) atomlos, also μ({x}) =0für jedes x ∈ E, und sei X 

ein zufälliges Maß auf E mit P[X(A) ∈ N0 ∪{∞}]=1für jedes A ∈B(E). Dann 

sind äquivalent: 

(i) X ∼ PPPμ 

(ii) X ist fast sicher doppelpunktfrei, also P[X({x}) ≥ 2 für ein x ∈ E] =0, und 

P[X(A) =0]=e −μ(A) 

Beweis. (i) =⇒ (ii) Das ist klar. 

für jedes A ∈Bb(E). (24.3) 

(ii) =⇒ (i) Sind A1,...,An ∈Bb(E) paarweise disjunkt, so ist 

P � X(A1) =0,...,X(An) =0 � = P � X � � � 

A1 ∪ ...∪ An =0 

= e −μ(A1∪...∪An) 

= 

n� 

e −μ(Al) 

= 

l=1 

n� 

P[X(Al) =0]. 

Also sind die Zufallsvariablen � X(A) :=X(A)∧1 unabhängig für disjunkte Mengen 

A. Der Rest des Beweises geht wie im Beweis von Satz 5.34. Sei A ∈ Bb(E). 

Wähle A0 ⊂ A mit μ(A0) =μ(A)/2 (das geht nach Übung 8.3.1, weil μ atomlos 

ist) und setze A1 = A \ A0. Wähle nun in gleicher Weise Ai,0,Ai,1 ⊂ Ai für 

i =0, 1 und sukzessive disjunkte Mengen Ai,0,Ai,1 ⊂ Ai für i ∈{0, 1} n−1 mit 

μ(Ai) =2−nμ(A) für jedes i ∈{0, 1} n . Setze 

Nn(A) := � 

�X(Ai). 

i∈{0,1} n 

Da X doppelpunktfrei ist, gilt Nn(A) ↑ X(A) fast sicher. Andererseits ist nach Voraussetzung 

Nn(A) ∼ b 2 n ,2 −n μ(A) für n ∈ N, also konvergiert die charakteristische 

Funktion 

ϕ Nn(A)(t) = � 1+2 −n μ(A)(e it −1) � 2 n n→∞ 

−→ exp � μ(A)(e it −1) � = ϕPoi μ(A) (t). 

Mithin gilt P Nn(A) 

n→∞ 

−→ Poi μ(A), also X(A) ∼ Poi μ(A). 

Sind nun A1,...,Ak ∈ Bb(E) paarweise disjunkt, so sind die analog konstruierten 

Nn(A1),...,Nn(Ak) unabhängig, also sind auch die Limiten X(Al) = 

limn→∞ Nn(Al), l =1,...,kunabhängig. ✷ 

l=1


Satz 24.14. Sei μ ∈ M(E) und X ein Poisson’scher Punktprozess mit Intensitätsmaß 

μ. Dann hat X die Laplace-Transformierte 

�� 

LX(f) =exp μ(dx) � e −f(x) − 1 �� 

, f ∈B + (E), 

und die charakteristische Funktion 

�� 

ϕX(f) =exp μ(dx) � e if(x) − 1 �� 

, f ∈B R b (E). 

Beweis. Es reicht, die Aussage für Elementarfunktion f = �n l=1 αl Al mit komplexen 

Zahlen α1,...,αn und paarweise disjunkten Mengen A1,...,An ∈Bb(E) 

zu zeigen. (Die Aussagen für allgemeines f folgen dann mit den üblichen Approximationsargumenten.) 

Für solches f ist aber 

E � exp � − If (X) �� 

�n 

= E e −αlX(Al) 

� 

= 

= 

l=1 

l=1 

n� 

l=1 

n� � 

exp μ(Al) � e −αl 

� 

− 1 � 

� 

�n 

=exp μ(Al) � e −αl 

� 

− 1 � 

l=1 

� � 

=exp 

� � 

−αlX(Al) 

E e 

μ(dx) � e −f(x) − 1 �� 

. ✷ 

Korollar 24.15 (Momente des PPP). Sei μ ∈M(E) und X ∼ PPPμ. 

(i) Ist f ∈L 1 (μ), soistE[ � fdX]= � fdμ. 

(ii) Ist f ∈L 2 (μ) ∩L 1 (μ), soistVar[ � fdX]= � f 2 dμ. 

Beweis. Ist f ∈ L1 (μ), so vertauschen für die charakteristische Funktion Integral 

und Differentiation d 

dtϕX(tf) =iϕX(tf) � f(x) eitf(x) μ(dx), also ist (nach 

Satz 15.31) 

E � If (X) � = 1 d 

i dt ϕX(tf) � � 

� = fdμ. 

t=0 

Ist f ∈L 1 (μ) ∩L 2 (μ), solässt sich das Argument iterieren 

d2 dt2 ϕX(tf) 

� � 

=−ϕX(tf) 

f 2 (x) e itf(x) � � 

μ(dx)+ 

f(x) e itf(x) �2 � 

μ(dx) , 

also gilt E � If (X) 2� = − d2 

dt2 ϕX(tf) � � = If 2(μ)+If (μ) 

t=0 

2 . ✷


Satz 24.16 (Abbildungssatz). Seien E und F lokalkompakte, polnische Räume und 

φ : E → F eine messbare Abbildung. Sei μ ∈M(E) mit μ ◦ φ −1 ∈M(F ) und 

X ein PPP auf E mit Intensitätsmaß μ. Dann ist X ◦ φ −1 ein PPP auf F mit 

Intensitätsmaß μ ◦ φ −1 . 

Beweis. Für f ∈B + (F ) ist 

� � � 

LX◦φ−1(f) =LX(f ◦ φ) =exp e −f(φ(x)) � � 

− 1 μ(dx) 

� � 

�e �� −f(y) −1 

=exp 

− 1 μ ◦ φ � � 

(dy) . 

Die Aussage folgt nun aus Satz 24.16 und Satz 24.7. ✷ 

Satz 24.17. Sei ν ∈ M((0, ∞)) und X ∼ PPPν auf (0, ∞). Setze Y := 

� xX(dx). Dann sind äquivalent 

(i) P[Y < ∞] > 0, 

(ii) P[Y < ∞] =1, 

(iii) � ν(dx) � 1 ∧ x � < ∞. 

Gelten (i)–(iii), so ist Y eine unbegrenzt teilbare, nichtnegative Zufallsvariable mit 

Lévy-Maß ν. 

Beweis. Sei Y∞ = � 

[1,∞) xX(dx) und Yt := � 

xX(dx) für t ∈ [0, 1). Offen- 

(t,1) 

bar ist Y = Y0 + Y∞. Außerdem ist offenbar 

P[Y∞ < ∞] > 0 ⇐⇒ P[Y∞ < ∞] =1 ⇐⇒ ν([1, ∞)) < ∞. (24.4) 

Gilt (iii), so ist E[Y0] = � 

(0,1) xν(dx) < ∞, also Y0 < ∞ f.s. (und wegen (24.4) 

auch Y < ∞ f.s.). Gilt andererseits (iii) nicht, so ist Y∞ = ∞ f.s. oder E[Y0] =∞. 

Während für Y∞ die Erwartung unendlich sein kann, auch wenn Y∞ f.s. endlich 

ist, ist dies für Y0 nicht möglich, denn Y0 setzt sich im Gegensatz zu Y∞ nicht aus 

wenigen großen, sondern aus vielen kleinen Beiträgen zusammen, sodass ein Gesetz 

der großen Zahl gilt. Konkret ist nach Korollar 24.15 

� 

Var[Yt] = x 2 � 

ν(dx) ≤ xν(dx) =E[Yt] < ∞ 

(t,1) 

(t,1) 

für jedes t ∈ (0, 1), also nach der Chebyshev’schen Ungleichung 

� 

P Yt < E[Yt] 

� 

4 Var[Yt] 

≤ 

2 E[Yt] 2 

t→0 

−→ 0. 

Also ist Y0 =sup t∈(0,1) Yt ≥ E[Y0]/2 =∞ fast sicher.


Es gelten nun (i) – (iii). Nach Satz 24.14 hat Y die Laplace-Transformierte 

E[e −tY �� 

]=exp ν(dx) � e −tx − 1 �� 

. 

Nach der Lévy-Khinchin Formel (Satz 16.14) ist Y unbegrenzt teilbar mit Lévy- 

Maß ν. ✷ 

Beispiel 24.18. Nach Korollar 16.10 existiert zu jeder nichtnegativen unbegrenzt 

teilbaren Verteilung μ mit Lévy-Maß ν ein stochastischer Prozess (Yt)t≥0 mit unabhängigen 

stationären Zuwächsen und Yt ∼ μ∗t (also mit Lévy-Maß tν). Diesen 

Prozess können wir hier direkt konstruieren: Sei X ein PPP auf (0, ∞) × [0, ∞) mit 

Intensitätsmaß ν ⊗ λ (wo λ das Lebesgue-Maß ist). Setze Y0 =0und 

� 

Yt := 

xX(d(x, s)). 

(0,∞)×(0,t] 

Nach dem Abbildungssatz ist X( · × (s, t]) ∼ PPP (t−s)ν, also ist Yt − Ys unbegrenzt 

teilbar mit Lévy-Maß (t−s)ν. Die Unabhängigkeit der Zuwächse ist evident. 

Man beachte, dass t ↦→ Yt rechtsstetig und monoton wachsend ist. 

Der so konstruierte Prozess Y heißt Subordinator mit Lévy-Maß ν. ✸ 

Wir können das Vorgehen des letzten Beispiels verallgemeinern, indem wir als Zeitmenge 

allgemeinere Mengen als [0, ∞) zulassen. 

Definition 24.19. Ein zufälliges Maß Y heißt unbegrenzt teilbar, wenn für jedes n ∈ 

N u.i.v. zufällige Maße Y1,...,Yn existieren mit Y = Y1 + ...+ Yn. 

Satz 24.20. Sei ν ∈M((0, ∞) × E) mit 

� 

A(t)(1∧ x) ν(d(x, t)) < ∞ für jedes A ∈Bb(E), 

und sei α ∈M(E).SeiXein PPPν und 

� 

Y (A) :=α(A)+ x A(t) X(d(x, t)) für A ∈B(E). 

Dann ist Y ein unbegrenzt teilbares zufälliges Maß mit unabhängigen Zuwächsen. 

Für A ∈B(E) hat Y (A) das Lévy-Maß ν( · × A). 

Wir nennen ν das kanonische Maß und α den deterministischen Anteil von Y . 

Beweis. Das folgt direkt aus Satz 24.16 und Satz 24.17. ✷


Bemerkung 24.21. Wir können Y schreiben als Y = α + � xδt X(d(x, t)), woδt 

die Einheitsmasse in t ∈ E ist. Wenn wir nun statt xδt allgemeinere Maße χ ∈ 

M(E) zulassen, so erhalten wir eine Darstellung 

� 

Y = α + χX(dχ), 

M(E) 

wo X ∼ PPPν auf M(E) und ν ∈M(M(E)) mit � ν(dχ)(χ(A)∧1) < ∞ für jedes 

A ∈Bb(E). Man kann zeigen, dass dies die allgemeinste Form eines unbegrenzt 

teilbaren Maßes auf E ist. Wir nennen ν das kanonische Maß von Y und α den deterministischen 

Anteil. Y ist charakterisiert durch die Laplace-Transformierte, die 

der Lévy-Khinchin Formel genügt: 

LY (f) =exp 

� � 

− 

� 

fdα+ 

ν(dχ) � e − � fdχ − 1 � � 

. ✸ 

Satz 24.22 (Färbungssatz). Sei F ein weiterer lokalkompakter, polnischer Raum 

und μ ∈M(E) atomlos sowie (Yx)x∈E u.i.v. Zufallsvariablen mit Werten in F und 

Verteilung ν ∈M1(F ). Dann ist 

� 

Z(A) := A(x, Yx) X(dx), A ∈B(E × F ), 

ein PPPμ⊗ν auf E × F . 


Wir wollen die Aussage des Färbungssatzes in nahe liegender Weise verallgemeinern: 

Die Annahme, dass das Maß μ atomlos ist, sorgt schließlich nur dafür, dass X 

keine Doppelpunkte hat, also für jede Einheitsmasse, die X produziert, eine andere 

Zufallsvariable Yx zur Verfügung steht. Außerdem wollen wir für jeden Punkt x 

eine eigene Verteilung von Yx erlauben. 

Seien also E,F lokalkompakte, polnische Räume, μ ∈ M(E) und κ ein stochastischer 

Kern von E nach F mit μκ := � μ(dx)κ(x, · ) ∈ M(F ). Seien 

(Yx,t) x∈E, t∈[0,1] unabhängige Zufallsvariablen mit Verteilungen PYx,t = κ(x, · ) 

für x ∈ E und t ∈ [0, 1]. 

Wir definieren zu X ∼ PPPμ das Lifting ˜ X als den PPP auf E × [0, 1] mit 

Intensitätsmaß μ ⊗ λ � � [0,1] ,woλ das Lebesgue-Maß ist. Offenbar ist dann X D = 

˜X( · × [0, 1]). Das zufällige Maß ˜ X können wir also als Realisierung von X auffassen, 

wobei wir den einzelnen Punkten von X willkürlich eine Markierung mit 

Werten aus [0, 1] gegeben haben, um sie zu unterscheiden. Wir setzen nun 

X κ � 

(A) := ˜X(d(x, t)) A(Yx,t) für A ∈B(F ).


Satz 24.23. Xκ ist ein zufälliges Maß mit PXκ = PPPμκ. 

Beweis. Offenbar ist Xκ (A) fast sicher ein Maß. Für A ∈Bb(F ) ist 

E[X κ �� 

� 

(A)] = E ˜X(d(x, t)) κ(x, A) =(μκ)(A) < ∞ 

nach Voraussetzung, also ist X κ (A) < ∞ fast sicher, und damit ist X κ ein 

zufälliges Maß. Wir berechnen die Laplace-Transformierte von X κ .Seig(x) := 

− log E[e−f(Yx,t) ]. Dann ist (weil ˜ X doppelpunktfrei ist) 

� � � 

�� 

LXκ(f) =E exp − ˜X(d(x, t)) f(Yx,t) 

⎡ 

= E ⎣ 

� 

e −f(Yx,t) 

⎤ ⎡ 

⎦ = E ⎣ 

� 

⎡ 

= E ⎣ 

(x,t): ˜ X({(x,t)})=1 

� 

(x,t): ˜ X({(x,t)})=1 

⎤ 

e −g(x) ⎦ = LX(g) 

(x,t): ˜ X({(x,t)})=1 

E[e −f(Yx,t) ⎤ 

] ⎦ 

�� 

=exp μ(dx) � E[e −f(Yx,t) ] − 1 �� 

�� 

=exp 

� 

μ(dx) κ(x, dy) � e −f(y) − 1 �� 

�� 

=exp μκ(dy) � e −f(y) − 1 �� 

. ✷ 

Beispiel 24.24 (PPP als invariante Verteilung). Als Anwendung des letzten Satzes 

betrachten wir einen stochastischen Prozess auf E = Zd oder E = Rd ,deraus 

unabhängigen Irrfahrten besteht. Wir nehmen also an, dass wir u.i.v. Zufallsvariablen 

Zi n, i, n ∈ N mit Verteilung ν ∈ E haben. Wir nehmen zudem an, dass das i-te 

Teilchen unseres Irrfahrtenprozesses zur Zeit n die Position Si n := Si 0 + �n l=1 Zi l 

hat, wobei Si 0 ein willkürlicher, eventuell zufälliger, Startpunkt ist. Wenn wir die 

Teilchen als ununterscheidbar annehmen, reicht es, die Teilchen an jedem Ort zusammenzuzählen. 

Wir betrachten also 

∞� 

Xn(A) := A(S i n) für A ⊂ E. 

i=1 

Jedes Xn ist ein Maß auf E und, wenn wir die Teilchen anfangs nicht zu sehr konzentrieren, 

lokal endlich, also ein zufälliges Maß. Nehmen wir an, dass X0 ∼ PPPμ 

für ein μ ∈M(E) ist. Wir setzen κ(x, · )=δx ∗ν und schreiben κn für die n-fache 

Anwendung von κ, also κn (x, · )=δx ∗ ν∗n . Wir erhalten so Xκ D 

0 = X1. Inder 

Tat: Das unabhängige Bewegen der einzelnen Teilchen in der Definition von X κ 0

24.3 Die Poisson-Dirichlet-Verteilung ∗ 

ist genau die Dynamik der unabhängigen Irrfahrten. Da nun auch X1 ein PPP ist, 

erhalten wir iterativ X κ n 

ist X0 

519 

D 

= Xn+1 und damit Xn ∼ PPPμκn = PPPμ∗ν∗n. Speziell 

D 

= Xn genau dann, wenn μ ∗ ν = μ gilt. Offenbar ist dies richtig, wenn 

E = Z d und μ das Zählmaß oder E = R d und μ das Lebesgue-Maß. Ist beispielsweise 

E = Z d , so kann man unter relativ schwachen Annahmen an ν zeigen, dass 

das Zählmaß μ = λ die einzige Lösung von μ ∗ ν = μ ist. In dem Fall ist jedes invariante 

Maß eine Konvexkombination von PPPs mit verschiedenen Intensitätsmaßen 

θλ. ✸ 

Übung 24.2.1. Man zeige die Aussage von Korollar 24.15 ohne charakteristische 

Funktionen direkt über die Approximation mit Elementarfunktionen. ♣ 

Übung 24.2.2. Man zeige den Färbungssatz (Satz 24.22). ♣ 


Ziel dieses Abschnitts ist die Lösung des folgenden Problems: Wir brechen einen 

Stock der Länge 1 an einer zufälligen (uniform verteilten) Stelle in zwei Stücke 

und legen das linke Stück (mit der Länge W1) beiseite. Mit dem restlichen Stock 

verfahren wir in gleicher Weise und legen das linke Stück der Länge W2 beiseite. 

Sukzessive sammeln wir die Bruchstücke mit Längen W1,W2,W3,... Wie sieht 

die gemeinsame Verteilung von (W1,W2,...) aus? Ferner wollen wir die Zahlen 

W1,W2,... der Größe nach umsortieren und W (1) ≥ W (2) ≥ ... nennen. Wie 

sieht die Verteilung von (W (1),W (2),...) aus? Und schließlich: was hat dies mit 

Poisson’schen Punktprozessen zu tun? 

Zur Beantwortung der Fragen müssen wir etwas weiter ausholen. Wir hatten gesehen, 

wie die Beta-Verteilung in natürlicher Weise bei dem Pólya’schen Urnenmodell 

als Grenzverteilung der Frequenzen der beiden Kugelfarben auftritt. Offenbar kann 

man das Pólya’sche Modell auch mit n ≥ 2 Farben betrachten. Die Grenzverteilung 

ist dann die n-dimensionale Verallgemeinerung der Beta-Verteilung, nämlich die so 

genannte Dirichlet-Verteilung. 

Definition 24.25. Sei n ∈{2, 3,...} und θ1,...,θn > 0.DieDirichlet-Verteilung Dirθ1,...,θn ist die Verteilung auf dem (n − 1)-dimensionalen Simplex 

Δn := {(x1,...,xn) ∈ [0, 1] : x1 + ...+ xn =1}, 

die für messbares A ⊂ Δn definiert ist durch 

� 

Dirθ1,...,θn (A) = A(x1,...,xn) fθ1,...,θn (x1,...,xn) dx1 ···dxn−1, 

wobei 

fθ1,...,θn (x1,...,xn) = Γ (θ1 + ...+ θn) 

Γ (θ1) ···Γ (θn) xθ1−1 1 

···x θn−1 

n .


Die Parameter θ1,...,θn entsprechen (falls ganzzahlig) den Anzahlen der Kugeln 

der einzelnen Farben, die ursprünglich in der Urne liegen. Wenn wir nun nicht ganz 

so genau hinschauen und Kugeln zweier Farben, etwa n−1 und n zusammenfassen, 

so sollten wir als Grenzverteilung für die Frequenzen Dirθ1,...,θn−2,θn−1+θn erhalten. 

Sei (Mt)t≥0 der Moran-Gamma-Subordinator, also ein stochastischer Prozess 

mit rechtsstetigen, monoton wachsenden Pfaden t ↦→ Mt und unabhängigen, 

stationären, Gamma-verteilten Zuwächsen: Mt − Ms ∼ Γ1,t−s für t>s≥ 0. 

Einen wichtigen Zusammenhang zwischen der Dirichlet-Verteilung und M liefert 

der folgende Satz. 

Satz 24.26. Seien n ∈ N und θ1,...,θn > 0 sowie Θ := θ1 + ... + θn. Seien 

X ∼ Dirθ1,...,θn und Z ∼ Γ1,Θ unabhängige Zufallsvariablen. Dann sind die 

Zufallsvariablen Si := Z · Xi, i =1,...,nunabhängig und Si ∼ Γ1,θi . 

Beweis. Sei im Folgenden stets xn := 1 − � n−1 

i=1 xi und s = � n 

j=1 sj. SeiΔ ′ n := 

{x1,...,xn−1 > 0: � n−1 

i=1 xi < 1}. Die Verteilung von (X1,...,Xn−1,Z) hat 

(für x ∈ Δ ′ n und z ≥ 0) die Dichte 

f(x1,...,xn−1,z)= 

n� � 

j=1 

x θj−1 

j 

� 

/Γ (θj) 

z Θ−1 e −z . 

Betrachte die Abbildung F : Δ ′ n−1 × (0, ∞) → (0, ∞) n , (x1,...,xn−1,z) ↦→ 

(zx1,...,zxn). Die Abbildung ist invertierbar mit Umkehrabbildung 

F −1 :(s1,...,sn) ↦→ (s1/s,...,sn−1/s, s). 

Die Ableitung von F hat die Determinante det(F ′ (x1,...,xn−1,z)) = z n−1 . Nach 

der Transformationsformel für Dichten (Satz 1.101) hat (S1,...,Sn) die Dichte 

g(s1,...,sn) = 

= 

= 

f(F −1 (s1,...,sn)) 

| det(F ′ (F −1 (s1,...,sn)))| 

n� � 

(sj/s) θj−1 /Γ (θj) � sΘ−1e−s j=1 

s n−1 

n� � 

(sj/s) θj−1 e −sj /Γ (θj) � . 

j=1 

Dies ist aber die Dichte von unabhängigen Gamma-Verteilungen. ✷ 

Korollar 24.27. Ist ti := �i j=1 θj für i =0,...,n, so sind die Zufallsvariablen 

X =((Mti−Mti−1 )/Mtn , i =1,...,n) und S := Mtn unabhängig und X ∼ 

sowie S ∼ Γ1,tn . 

Dirθ1,...,θn 

Korollar 24.28. Sei (X1,...,Xn) ∼ Dirθ1,...,θn . Dann sind X1 ∼ β θ1, � n 

i=2 θi und 

(X2/(1 − X1),...,Xn/(1 − X1)) ∼ Dirθ2,...,θn unabhängig.


Beweis. Sei M wie in Korollar 24.27. Dann ist X1 = Mt1 /Mtn ∼ βθ1,tn−θ1 und 

� 

Mtn −Mt1 X1 = Mt1 � 

X2 

+1 

� −1 

,..., 

1 − X1 

Xn 

� 

1 − X1 

521 

nur von Mt1 und Mtn − Mt1 abhängig. Andererseits ist 

= 

� 

Mt2 − Mt1 

Mtn − Mt1 

,..., 

Mtn − Mtn−1 

Mtn − Mt1 

unabhängig von Mt1 und nach Korollar 24.27 auch unabhängig von Mtn − Mt1 

sowie Dirθ2,...,θn-verteilt. ✷ 

Korollar 24.29. Seien V1,V2,... unabhängig und Vi ∼ βθi,θi+1+...+θn sowie Vn = 

1. Dann ist 

� 

� n−2 � � � 

V1, (1 − V1)V2, (1 − V1)(1 − V2)V3,..., (1 − Vi) ∼ Dirθ1,...,θn . 

Beweis. Das folgt durch Iteration der Aussage von Korollar 24.28. ✷ 

Eine natürliche Fragestellung ist, was passiert, wenn wir immer mehr Farben differenzieren 

(statt zusammenzufassen). Wir wollen der Einfachheit halber eine symmetrische 

Situation annehmen, bei der θ1 = ... = θn = θ/n für ein θ>0 ist. Wir 

betrachten also 

Dirθ;n := Dirθ,...,θ für θ>0. 

Ist Xn =(Xn 1 ,...,Xn n ) ∼ Dirθ/n;n, so ist aus Symmetriegründen E[Xn i ]=1/n 

für jedes n ∈ N und i =1,...,n. Offenbar gilt also (Xn 1 ,...,Xn n→∞ 

k ) =⇒ 0 für 

jedes k ∈ N. Eine Möglichkeit, einen nicht-trivialen Grenzwert zu erhalten ist, die 

Werte der Größe nach zu ordnen Xn (1) ≥ Xn (2) ≥ ... 

Definition 24.30. Sei θ>0 und (Mt) t∈[0,θ] ein Moran-Gamma-Subordinator. Seien 

m1 ≥ m2 ≥ ... ≥ 0 die der Größe nach sortierten Sprunghöhen von M und 

˜mi = mi/Mθ, i =1, 2,... Die Verteilung der Zufallsvariablen (˜m1, ˜m2,...) auf 

S := {(x1 ≥ x2 ≥ ... ≥ 0) : x1 + x2 + ... =1} heißt Poisson-Dirichlet- 

Verteilung PDθ mit Parameter θ>0. 

Genau genommen müssen wir noch nachweisen, dass �∞ i=1 ˜mi =1ist. Sei hierzu 

Y ein PPP auf (0, ∞) × (0,θ] mit Intensitätsmaß ν ⊗ λ, woλ das Lebesgue-Maß 

ist und ν(dx) = e−xx−1 dx das Lévy-Maß der Γ1,1-Verteilung. Wir können M 

definieren durch Mt := � 

(x,s): Y ({x,s})=1,s≤t x. Nun ist m1 =sup{x ∈ (0, ∞) : 

Y ({x}×(0,θ]) = 1} und sukzessive mn =sup{x


Beweis. Die Idee ist, die Zufallsvariablen Xn , n ∈ N, so durch die Zuwächse 

des Moran-Gamma-Subordinators (Mt) t∈[0,θ] darzustellen, dass aus der Verteilungskonvergenz 

eine fast sichere Konvergenz wird. Es sei also Xn i =(Mθi/n − 

Mθ(i−1)/n)/Mθ. Nach Korollar 24.27 ist Xn ∼ Dirθ/n;n. Seien t1,t2,... ∈ (0,θ] 

die Positionen der Sprünge m1 ≥ m2 ≥ ... Offenbar ist Xn (1) ≥ ˜m1 für jedes n. 

Ist n so groß, dass |t1 − t2| >θ/nist, so ist Xn (2) ≥ ˜m2. Sukzessive erhalten wir 

lim infn→∞ Xn (i) ≥ ˜mi fast sicher. Nun ist aber (mit der Festsetzung Xn (i) =0für 

i>n) �∞ i=1 Xn (i) =1für jedes n ∈ N. Nach dem Lemma von Fatou ist daher 

1= 

∞� 

˜mi ≤ 

i=1 

∞� 

i=1 

lim inf 

n→∞ Xn (i) 

≤ lim inf 

n→∞ 

∞� 

X n (i) =1. 

Es folgt limn→∞ X n (i) =˜mi fast sicher. ✷ 

Anstatt die Werte von X n strikt der Größe nach zu ordnen, können wir ein anderes 

Verfahren anwenden, das Konvergenz der Verteilungen sichert. Stellen wir uns vor, 

dass wir in einer Population ein genetisches Merkmal haben, das wir unterschiedlich 

fein messen können. Wenn wir n unterschiedliche Werte unterscheiden wollen, so 

soll Xn i den Anteil der Bevölkerung mit dem Merkmal i bezeichnen. 

Wir greifen nun sukzessive zufällig Individuen aus der Population heraus. Das erste 

Individuum habe den Typ In 1 .MitIn 2 bezeichnen wir den Typ des ersten Individuums, 

das nicht vom Typ In 1 ist. Sukzessive sei In k der Typ des ersten Individuums, 

das nicht von einem der Typen In 1 ,...,In k−1 ist. Wir betrachten nun den Vektor 

ˆX n =( ˆ Xn 1 ,..., ˆ Xn n ), wo ˆ Xn k = Xn In . Da die Wahrscheinlichkeit für I1 = i pro- 

k 

portional zur Größe der Sub-Population mit Merkmal i ist, nennen wir ˆ Xn den 

sukzessive größenverzerrt gezogenen Vektor. 

Die Verteilung von ˆ Xn ändert sich nicht, wenn wir die Reihenfolge der Xn 1 ,...,Xn n 

verändern. Speziell können wir statt Xn die Ordnungsstatistik (Xn (1) ,...,Xn (n) ) 

wählen und erhalten ebenfalls ˆ Xn als sukzessive größenverzerrt gezogenen Vektor. 

Insbesondere können wir für X ∼ PDθ den sukzessiv größenverzerrten Vektor ˆ X 

definieren. Gilt Xn ∼ Dirθ/n;n, so folgt aus Satz 24.31 sofort, dass ˆ n n→∞ 

X =⇒ ˆ X. 

Hiermit können wir die Verteilung von ˆ X ausrechnen. 

Satz 24.32. Sei θ>0 und seien X n ∼ Dir θ/n;n, n ∈ N, sowie X ∼ PDθ. Seien 

ferner V1,V2,... u.i.v. Zufallsvariablen auf [0, 1] mit Dichte x ↦→ θ(1 − x) θ−1 .Wir 

setzen Z1 = V1 und Zk = � � k−1 

i=1 (1 − Vi) � Vk für k ≥ 2. Dann gilt: 

(i) ˆ n n→∞ 

X =⇒ ˆ X. 

(ii) ˆ X D = Z. 

Die Verteilung von Z heißt GEMθ-Verteilung (für Griffiths-Engen-McCloskey). 

i=1


Beweis. Die Aussage (i) wurde bereits in der Diskussion vor dem Satz gezeigt. Um 

(ii) zu zeigen, berechnen wir die Verteilung von ˆ X n und zeigen, dass sie gegen die 

von Z konvergiert. 

Sei ˆ X n,1 der Vektor X n,1 =(X n I n 1 ,X2,...,X n I n 1 −1,Xn I n 1 +1,...,Xn n ), bei dem nur 

die erste Koordinate größenverzerrt gezogen wurde. Wir zeigen: 

Sei f(x) = � Γ (θ)/Γ (θ/n) n� · � n 

523 

ˆX n,1 ∼ Dir (θ/n)+1,θ/n,...,θ/n. (24.5) 

die Dichte von Dir θ/n;n. Die Dichte 

k=1 x(θ/n)−1 

k 

f n,1 von Xn,1 berechnen wir durch Zerlegung nach dem Wert i von In 1 : 

f n,1 (x) = 

= nΓ (θ) 

= 

n� 

x1 f(x2,...,xi,x1,xi+1,...,xn) =nx1 f(x) 

i=1 

Γ (θ/n) 

n� 

xθ/n 

n 1 x 

i=2 

(θ/n)−1 

i 

Γ (θ +1) 

Γ ((θ/n)+1)Γ (θ/n) 

n� 

xθ/n 

n−1 1 x 

i=2 

(θ/n)−1 

i . 

Dies ist aber die Dichte von Dir (θ/n)+1,θ/n,...,θ/n. Nach Korollar 24.28 ist ˆ Xn,1 D = 

(V n 

1 , (1 − V n 

1 )Y1,...,(1 − V n 

1 )Yn−1), wobei V n 

1 ∼ β (θ/n)+1,θ(n−1)/n und Y = 

(Y1,...,Yn−1) ∼ Dirθ/n;n−1 unabhängig sind. Indem wir das Gezeigte nun auf Y 

anwenden, erhalten wir sukzessive 

wobei 

Z n 1 = V n 

1 und Z n � k−1 � 

k = 

i=1 

und wobei V n 

1 ,...,Vn n−1 unabhängig sind und V n 

ˆX n D = Z n , (24.6) 

(1 − V n 

i ) 

� 

V n 

k 

für k ≥ 2, 

i ∼ β (θ/n)+1,θ(n−i)/n. Nun prüft 

n→∞ 

man aber leicht nach, dass β (θ/n)+1,θ(n−i)/n −→ β1,θ für jedes i ∈ N, und β1,θ 

hat die Dichte x ↦→ θ(1 − x) θ−1 . Es gilt also V n n→∞ 

i =⇒ Vi für jedes i und damit 

n n→∞ 

Z =⇒ Z und ˆ n n→∞ 

X =⇒ Z. Zusammen mit (i) folgt hieraus die Aussage (ii). ✷ 

Unsere eingangs gestellte Frage nach den Größen W1,W2,... der Bruchstücke 

von sukzessiv uniform verteilt zerbrochenen Stöcken ist damit geklärt: Der Vektor 

(W (1),W (2),...) ist PD1-verteilt, und (W1,W2,...) ist GEM1-verteilt. 

Der China-Restaurant Prozess 

Wir wollen eine weitere Situation kennen lernen, in der die Poisson-Dirichlet- 

Verteilung in natürlicher Weise auftaucht. Da die technischen Details etwas knifflig


werden, begnügen wir uns damit, die Situation zu beschreiben und zwei wichtige 

Sätze anzugeben. Eine exzellente und vollständige Beschreibung findet sich in 

[121]. 

Wir betrachten ein China-Restaurant mit abzählbar vielen (natürlich runden) nummerierten 

Tischen, an denen jeweils beliebig viele Gäste Platz finden. Anfangs sei 

das Restaurant leer. Nacheinander treffen (abzählbar viele) Gäste ein. Der erste Gast 

setzt sich an den (natürlich freien) Tisch mit der Nummer Eins. Sitzen bereits n 

Gäste an k Tischen, so hat der (n +1)-teGastdieMöglichkeit, sich entweder an 

einen der k besetzten Tische zu setzen, oder sich an den freien Tisch mit der kleinsten 

Nummer zu setzen. Wir wollen annehmen, dass die Wahl zufällig erfolgt und 

dass sich der Gast an den l-ten besetzten Tisch (mit N n l Gästen) mit Wahrscheinlichkeit 

(N n l − α)/(n + θ) setzt, mit Wahrscheinlichkeit (θ + kα)/(n + θ) jedoch 

den ersten noch freien Tisch besetzt. Hierbei sind α ∈ [0, 1] und θ > −α. Be- 

zeichnet N n l 

die Anzahl der Gäste zur Zeit n am l-ten besetzten Tisch, so nennen 

wir (N n )n∈N =(Nn 1 ,Nn 2 ,...)n∈N den China-Restaurant Prozess mit Parametern 

(θ, α). 

Ist speziell α = 0,sokönnen wir den China-Restaurant Prozess auch so interpretieren: 

Die Wahrscheinlichkeit, sich links neben einen der Gäste zu setzen (also 

an dessen Tisch) beträgt 1/(n + θ), die Wahrscheinlichkeit, einen neuen Tisch 

zu besetzen dagegen θ/(n + θ). Um das asymptotische Verhalten von N n /n = 

(N n 1 /n, N n 2 /n,...) zu beschreiben, müssen wir die Poisson-Dirichlet-Verteilung 

und die GEM Verteilung um einen Parameter erweitern. 

Definition 24.33. Sei α ∈ [0, 1) und θ > −α. Seien V1,V2,... unabhängig 

und Vi ∼ β1−α,θ+iα. Wirdefinieren Z = (Z1,Z2,...) durch Z1 = V1 und 

Zk = � � k−1 

i=1 (1 − Vi) � Vk für k ≥ 2. Dann heißt GEMα,θ := PZ die GEM- 

Verteilung mit Parametern (α, θ). Die Verteilung des nach Größe sortierten Vektors 

(Z (1),Z (2),...) heißt Poisson-Dirichlet-Verteilung mit Parametern (α, θ), oder 

kurz PDα,θ. 

Explizite Formeln für die Dichte der endlichdimensionalen Verteilungen von PDα,θ 

finden sich etwa in [124]. Man bemerke, dass wir im Falle α =0die bisherigen einparametrigen 

Verteilungen GEMθ =GEM0,θ und PDθ =PD0,θ zurückgewinnen. 

Satz 24.34. Seien α ∈ [0, 1), θ>−α und (N n )n∈N der China-Restaurant Prozess 

n→∞ 

mit Parametern (α, θ). Dann gilt PN n /n −→ PDα,θ. 

Beweis. Siehe [122] oder [121, Theorem 25]. ✷ 

Ähnlich wie für die einparametrige Poisson-Dirichlet-Verteilung gibt es eine Darstellung 

von PDα,θ durch die nach Größe geordneten Sprünge eines geeigneten 

Subordinators. Sei im Folgenden α ∈ (0, 1) und (Mt) t∈[0,1] ein α-stabiler Subordinator, 

also ein Subordinator mit Lévy-Maß ν(dx) =x −α−1 dx. Seien ferner


m1 ≥ m2 ≥ ... ≥ 0 die Sprünge von M und ˜mi = mi/M1 für i ∈ N, und 

˜m =(˜m1, ˜m2,...). Wir zitieren den folgenden Satz aus [121, Section 4.2]. 

Satz 24.35. Sei α ∈ (0, 1). 

(i) Es gilt ˜m ∼ PDα,0 

(ii) Ist θ>−α, soistPDα,θ ≪ PDα,0 = P[˜m ∈ · ] mit 

PDα,θ(dx) = 

−θ 

M1 E[M −θ 

1 

] P[˜m ∈ dx]. 

Übung 24.3.1. Sei (X, 1 − X) ∼ Dirθ1,θ2 . Man zeige, dass dann X ∼ βθ1,θ2 Betaverteilt 

ist. ♣ 

Übung 24.3.2. Sei X =(X1,...,Xn) ∼ Dirθ1,...,θn . Man zeige: 

(i) Für jede Permutation σ auf {1,...,n} ist 

(X σ(1),...,X σ(n)) ∼ Dirθ σ(1),...,θ σ(n) . 

(ii) Es gilt (X1,...,Xn−2,Xn−1 + Xn) ∼ Dirθ1,...,θn−2,θn−1+θn . ♣ 

Übung 24.3.3. Sei (N n )n∈N der China-Restaurant Prozess mit Parametern (0,θ). 

(i) Man zeige für θ =1: 

(a) P[N n 1 = k] =1/n für jedes k =1,...,n. 

(b) P[N n l = kl |N n 1 = k1,...,Nn l−1 = kl−1] =1/(n − (k1 + ...+ kl−1)) für 

kl =1,...,n− (k1 + ...+ kl−1). 

(c) Man folgere die Aussage von Satz 24.34 für den Fall α =0und θ =1. 

(ii) Man zeige für θ>0: 

(a) n P[N n 1 = ⌊nx⌋] n→∞ 

−→ θ(1 − x) θ−1 für x ∈ (0, 1). 

(b) n P � N n l = ⌊nxl⌋|N n 1 = ⌊nx1⌋,...,Nn l−1 = ⌊nxl−1⌋ � n→∞ 

−→ (θ/yl)(1 − 

xl/yl) θ−1 für x1,...,xl ∈ (0, 1) mit yl =1− (x1 + ...+ xl−1) >xl. 

(c) Man folgere wie in (i) die Aussage von Satz 24.34 für α =0und θ>0. ♣ 

525

25 Das Itô-Integral 

Das Itô-Integral erlaubt es, stochastische Prozesse bezüglich der Zuwächse einer 

Brown’schen Bewegung oder etwas allgemeinerer Prozesse zu integrieren. Wir entwickeln 

das Itô-Integral zunächst für die Brown’sche Bewegung und dann für für 

verallgemeinerte Diffusionsprozesse. Im dritten Abschnitt leiten wir die Itô-Formel 

her. Diese Substitutionsformel für das Itô-Integral erlaubt es, in konkreten Fällen, 

mit dem Itô-Integral wirklich zu rechnen. Wir wenden die Itô-Formel im vierten 

Abschnitt an, um eine stochastische Lösung des Dirichlet-Problems zu formulieren. 

Hiermit zeigen wir im fünften Abschnitt, dass die Brown’sche Bewegung (wie die 

symmetrische einfache Irrfahrt) in niedrigen Dimensionen rekurrent ist, in hohen 

Dimensionen hingegen transient. 

25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 

Sei W =(Wt)t≥0 eine Brown’sche Bewegung auf dem Raum (Ω,F, P) bezüglich 

der Filtration F, die die üblichen Bedingungen erfüllt (siehe Definition 21.23). 

Das heißt, W ist eine Brown’sche Bewegung und ist ein F-Martingal. Das Ziel dieses 

Abschnittes ist es, für eine möglichst große Klasse von sinnvollen Integranden 

H : Ω × [0, ∞) → R, (ω, t) ↦→ Ht(ω) ein Integral 

I W � t 

t (H) = Hs dWs 

0 

zu definieren, sodass (I W t (H))t≥0 ein stetiges F-Martingal ist. Da fast alle Pfade 

s ↦→ Ws(ω) der Brown’schen Bewegung lokal unendliche Variation haben, 

ist W (ω) nicht die Verteilungsfunktion eines signierten Lebesgue-Stieltjes-Maßes 

auf [0, ∞). Daher können wir I W t (H) nicht im klassischen Rahmen der Integrationstheorie 

definieren. Die grundlegende Idee, um dieses Integral zu konstruieren, 

besteht darin, es im Sinne eines L 2 -Grenzwertes zu etablieren. Hierzu betrachten 

wir zunächst ein elementares Beispiel. 

Beispiel 25.1. Es seien X1,X2,... u.i.v. Zufallsvariablen mit P[Xn = 1] = 

P[Xn = −1] = 1 

2 .Sei (hn)n∈N eine Folge reeller Zahlen. Unter welchen Bedingungen 

an (hn)n∈N ist die Reihe

528 25 Das Itô-Integral 

R := � 

n∈N 

hn Xn 

(25.1) 

wohldefiniert? Ist � 

n∈N |hn| < ∞, so konvergiert die Reihe für jedes ω absolut. 

In diesem Falle tritt kein Problem auf. Wie steht es aber, wenn nur die schwächere 

Summierbarkeitsbedingung � 

n∈N h2n < ∞ gilt? In diesem Falle konvergiert die 

Reihe in (25.1) nicht mehr für jedes ω, allerdings gilt E[hn Xn] =0für jedes 

n ∈ N und �∞ n=1 Var[hn Xn] = �∞ n=1 h2n < ∞. AlsoistRN := �N k=1 hk Xk, 

n ∈ N, konvergent im L2-Sinne (für N →∞). Wir können daher die Reihe R in 

(25.1) als L2-Limes der Partialsummen RN definieren. Dabei ist zu beachten, dass 

(zumindest formal) bei den approximierenden Summen die Reihenfolge der Summanden 

eine Rolle spielt. Wir haben also gewissermaßen �∞ � 

n=1 anstatt n∈N 

konstruiert. 

Eine äquivalente Betrachtung, die allerdings einen leicht anderen Geschmack hat 

und von der formalen Beschreibung her auf das Kommende hinweist, ist die folgende. 

Mit ℓ2 bezeichnen wir den Hilbertraum der quadratsummierbaren Folgen reeller 

Zahlen mit Skalarprodukt 〈h, g〉 = �∞ n=1 hn gn und Norm �g� = 〈g, g〉 1/2 .Sei 

ℓf der Unterraum der Folgen, die nur endlich viele Glieder ungleich Null haben. 

Dann ist R(h) = � 

n∈N hn Xn für h ∈ ℓf wohldefiniert (als endliche Summe). 

Wegen 

E � R(h) 2� = Var[R(h)] = � 

Var � � � 

hn Xn = h 2 n = �h� 2 

n∈N 

ist die Abbildung R : ℓf →L2 (P) eine Isometrie. Da ℓf ⊂ ℓ2 dicht liegt, können 

wir R stetig auf ℓ2 fortsetzen. Ist also h ∈ ℓ2 und (hN )N∈N eine Folge in ℓf mit �hN − h� N→∞ 

−→ 0, soistR(hN ) N→∞ 

−→ R(h) im L2-Sinne. Speziell ist 

h N n := hn {n≤N}, n ∈ N, N ∈ N, eine approximierende Folge für h, und es gilt 

R(h N )= � N 

n=1 hn Xn. Daher ist die oben beschriebene Approximation von R 

mit den Partialsummen RN als Spezialfall in dieser Konstruktion enthalten. ✸ 

Das Programm für die Konstruktion des Itô-Integrals I W t (H) sieht nun so aus: 

Zunächst betrachten wir elementare Integranden H, für die die Abbildung t ↦→ 

Ht(ω) eine Treppenfunktion ist, sodass das Integral als endliche Summe definiert 

werden kann. Danach erweitern wir das Integral wie in Beispiel 25.1 auf Integranden, 

die sich in einem gewissen L 2 -Sinne durch elementare Integranden approximieren 

lassen. 

Definition 25.2. Wir bezeichnen mit E den Vektorraum der Abbildungen H : Ω × 

[0, ∞) → R von der Form 

n� 

Ht(ω) = hi−1(ω) (ti−1,ti], 

i=1 

wobei n ∈ N, 0=t0

25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 529 

Wir nennen E den Vektorraum der elementaren vorhersagbaren Prozesse und versehen 

E mit einer (Pseudo-)Norm � · �E durch 

�H� 2 E = 

n� 

i=1 

E � h 2 �� 

� ∞ 

i−1 (ti − ti−1) =E H 

0 

2 � 

s ds . 

Definition 25.3. Für H ∈E und t ≥ 0 definieren wir 

und 

I W t (H) = 

I W ∞ (H) = 

n� 

i=1 

� � 

hi−1 Wti∧t − Wti−1∧t 

n� 

i=1 

Offenbar ist für jede beschränkte Stoppzeit τ 

E � I W τ (H) � = 

= 

� � 

hi−1 Wti − Wti−1 . 

n� 

E � hi−1 (W τ ti − W τ ti−1 )� 

i=1 

n� 

E � hi−1 E � W τ ti − W τ � 

ti−1 

i=1 

� Fti−1 

�� = 0, 

da die gestoppte Brown’sche Bewegung W τ nach den Optional Stopping Theorem 

ein F-Martingal ist. Also ist (wieder nach dem OST) (I W t (H))t≥0 ein F- 

Martingal. Speziell ist E �� I W ti+1 (H) − IW ti (H)�� I W tj+1 (H) − IW tj (H)�� = 0 für 

i �= j, also gilt 

E � I W ∞ (H) 2� = 

= 

= 

n� 

i=1 

n� 

i=1 

n� 

i=1 

Aus diesen Betrachtungen folgt sofort: 

��IW E ti (H) − I W ti−1 (H)� 2 � 

� 

E h 2 � � � 

2 

i−1 Wti − Wti−1 

E � h 2 � 

i−1 (ti − ti−1) = �H� 2 E. 

(25.2) 

Satz 25.4. (i) Die Abbildung I W ∞ : E→L 2 (Ω,F, P) ist eine isometrische lineare 

Abbildung (bezüglich � · �E und � · �2). 

(ii) Der Prozess � I W t (H) � 

t≥0 ist ein L2 -beschränktes, stetiges F-Martingal. 

Beweis. Lediglich die Linearität ist noch zu zeigen. Dies ist aber trivial. ✷


Die Idee ist nun, die Abbildung I W ∞ von E auf einen geeigneten Abschluss E 

von E stetig fortzusetzen. Als Unterraum von welchem Raum sollen wir aber E 

abschließen? Eine minimale Forderung ist die Messbarkeit von (ω, t) ↦→ Ht(ω) 

(bezüglich F⊗B([0, ∞)) sowie die Adaptiertheit von H. 

Definition 25.5. Ein stochastischer Prozess X = (Xt)t≥0 mit Werten in einem 

polnischen Raum E heißt 

(i) produktmessbar, falls (ω, t) ↦→ Xt(ω) messbar ist bezüglich F⊗B([0, ∞))– 

B(E), 

(ii) progressiv messbar, falls für jedes t ≥ 0 die Abbildung Ω × [0,t], (ω, s) ↦→ 

Xs(ω) messbar ist bezüglich Ft ⊗B([0,t])–B(E), 

(iii) vorhersagbar (oder previsibel), falls (ω, t) ↦→ Ht(ω) messbar ist bezüglich 

der vorhersagbaren σ-Algebra P auf Ω × [0, ∞): 

P := σ � X : X ist linksstetiger, adaptierter Prozess � . 

Bemerkung 25.6. Jedes H ∈E ist vorhersagbar. Diese Eigenschaft sichert, dass 

I M (H) für jedes (auch unstetiges) Martingal M ein Martingal ist. Da wir jedoch 

hier nicht die Integrationstheorie für unstetige Martingale entwickeln wollen, ist der 

Begriff der Vorhersagbarkeit für uns im Folgenden nicht so wichtig. ✸ 

Bemerkung 25.7. Ist H progressiv messbar, so ist H offenbar auch produktmessbar 

und adaptiert. Mit etwas mehr Aufwand kann man die partielle Umkehrung 

zeigen: Ist H adaptiert und produktmessbar, so gibt es eine progressiv messbare 

Modifikation von H. (Siehe etwa [113, Seite 68ff].) ✸ 

Satz 25.8. Ist H adaptiert und f.s. rechtsstetig oder linksstetig, so ist H progressiv 

messbar. Insbesondere ist jeder vorhersagbare Prozess progressiv messbar. 

Beweis. Siehe Übung 21.1.4. ✷ 

Wir betrachten E als Unterraum von 

� 

E0 := H : produktmessbar, adaptiert und �H� 2 � 

:= E 

� ∞ 

Sei E der Abschluss von E in E0. 

0 

H 2 � � 

t dt < ∞ . 

Satz 25.9. Ist � H progressiv messbar (etwa linksstetig oder rechtsstetig und adap- 

� � 

∞ 

tiert) und E 

< ∞,soistH ∈ E. 

0 H2 t dt 

Beweis. Sei H progressiv messbar und E 

� � ∞ 

0 H2 t dt 

� 

< ∞. Es reicht zu zeigen, 

dass für jedes T>0 eine Folge (H n )n∈N in E existiert mit


� � T 

E (Hs − H 

0 

n s ) 2 � 

n→∞ 

ds −→ 0. (25.3) 

Schritt 1. Sei zunächst H stetig und beschränkt. Setze H n 0 =0 und 

H n t = H i2 −n T falls i2 −n TT.DannistH n ∈E, und es gilt H n t (ω) n→∞ 

−→ Ht(ω) für alle 

t>0 und ω ∈ Ω. Nach dem Satz von der majorisierten Konvergenz gilt (25.3). 

Schritt 2. Sei nun H progressiv messbar und beschränkt. Es reicht zu zeigen, 

dass es stetige, adaptierte Prozesse Hn , n ∈ N, gibt, für die (25.3) gilt. Sei 

H n � t∧T 

t := n 

Hs ds für t ≥ 0, n∈ N. 

(t−1/n)∨0 

Dann ist H n stetig und adaptiert und durch �H�∞ beschränkt. Nach dem Hauptsatz 

der Differential- und Integralrechnung (siehe Übung 13.1.7) gilt 

H n t (ω) n→∞ 

−→ Ht(ω) für λ − fast alle t ∈ [0,T] und für jedes ω ∈ Ω. (25.4) 

Nach dem Satz von Fubini und dem Satz über majorisierte Konvergenz gilt daher 

� � T 

E (Hs − H n s ) 2 � 

ds = 

� 

� 

Hs(ω) − H n s (ω) �2 n→∞ 

(P ⊗ λ)(d(ω, s)) −→ 0. 

0 

Ω×[0,T ] 

Schritt 3. Sei nun H progressiv messbar und E � � ∞ 

0 H2 t dt � < ∞. Es reicht 

zu zeigen, dass es eine Folge (H n )n∈N von beschränkten, progressiv messbaren 

Prozessen gibt, sodass (25.3) gilt. Offenbar kann hierzu aber H n t = Ht {|Ht|


Satz 25.11. (i) Die Abbildung IW ∞ : E→L2 (Ω,F, P) ist linear und 

E � I W ∞ (H) 2� � � ∞ 

= E H 2 � 

s ds . 

(ii) Für jedes H ∈ E wird durch ĨW t (H) :=I W (H (t) ) ein L 2 -beschränktes 

F-Martingal ĨW (H) definiert, das eine stetige Modifikation I W (H) besitzt. 

Definition 25.12 (Itô-Integral als Prozess). Sei IW (H) die stetige Modifikation 

des Martingals (IW (H (t) ))t≥0 aus Satz 25.11(ii). Wir bezeichnen mit 

� t 

Hr dWs := I 

s 

W t (H) − I W s (H) für 0 ≤ s ≤ t ≤∞ 

das Itô-Integral von s bis t von H bezüglich der Brown’schen Bewegung W . 

Beweis (von Satz 25.11). (i) Dies folgt direkt aus der Definition von I W ∞ (H). 

(ii) Sei (H n )n∈N eine Folge in E mit �H n − H� n→∞ 

I W � n (t) 

∞ (H ) � = I W t (H n )=E � I W ∞ (H) � � 

�Ft 0 

−→ 0. Nach Satz 25.4(ii) ist 

für alle t ≥ 0, n∈ N. 

Wegen � � n (t) (t) (H ) − H � � � 

� ≤ �Hn − H� n→∞ 

−→ 0 folgt (zusammen mit Korollar 

8.20) 

Ĩ W t (H) = lim 

n→∞ IW t (H n ) = lim 

n→∞ E�I W ∞ (H n ) � � � 

�Ft 

W 

= E I∞ (H) � � 

�Ft . 

Mithin ist ĨW (H) ein L 2 -beschränktes Martingal und I W t (H n ) n→∞ 

−→ ĨW t (H) in 

L 2 für jedes t ≥ 0. Nach Satz 25.4(ii) ist I W (H n ) stetig für jedes n ∈ N, und 

nach Übung 21.4.3 existiert eine stetige Modifikation I W (H) von ĨW (H). ✷ 

Als letzten Schritt bei der Konstruktion des Itô-Integrals wollen wir uns von der 

strengen Integrierbarkeitsbedingung E � � ∞ 

0 H2 s ds � < ∞ lösen. Hierzu machen 

wir zunächst die folgende einfache Feststellung. 

Lemma 25.13. Sei τ eine Stoppzeit und H, G ∈ E mit Hs = Gs für jedes s ≤ τ. 

Dann gilt für die Itô-Integrale 

� τ 

� ∞ 

0 

Hs dWs := 

0 

H (τ) 

� ∞ 

s dWs = 

0 

G (τ) 

� τ 

s dWs =: 

0 

Gs dWs f.s. 

Speziell gilt für jedes t ≥ 0 auf {τ ≥ t} 

� τ∧t 

0 

Hs dWs = 

� t 

Hs dWs. 

0



Definition 25.14. Sei Eloc der Raum der progressiv messbaren stochastischen Prozesse 

H mit 

� T 

H 2 s ds < ∞ f.s. für jedes T>0. 

0 

Lemma 25.15. Für jedes H ∈Eloc existiert eine Folge (τn)n∈N von Stoppzeiten 

mit τn ↑∞fast sicher und E � � τn 

0 H2 s ds � < ∞, also mit H (τn) ∈ E für jedes 

n ∈ N. 

Beweis. Setze 

� 

τn := inf t ≥ 0: 

� t 

0 

H 2 � 

s ds ≥ n . 

Nach der Definition von Eloc gilt τn ↑∞fast sicher und nach Konstruktion ist 

� 

�H (τn)�� 2 = E � � τn 

0 H2 s ds � ≤ n. ✷ 

Definition 25.16. Sei H ∈Eloc und (τn)n∈N wie in Lemma 25.15. Wir definieren 

für t ≥ 0 das Itô-Integral als den fast sicheren Grenzwert 

Satz 25.17. Sei H ∈Eloc. 

� t 

� t 

0 

Hs dWs := lim 

n→∞ 

0 

H (τn) 

s dWs. (25.5) 

(i) Der Grenzwert in (25.5) ist wohldefiniert, stetig in t und (f.s.) unabhängig von 

der Wahl der Folge (τn)n∈N. 

(ii) Ist τ ein Stoppzeit mit E � � τ 

0 H2 s ds � � 

< ∞, so ist das gestoppte Itô-Integral 

� � 

τ∧t 

ein L2-beschränktes, stetiges Martingal. 

0 

Hs dWs 

t≥0 

(iii) Ist speziell E � � T 

0 H2 s ds � < ∞ für jedes T>0,soist 

quadratintegrierbares, stetiges Martingal. 

Beweis. (i) Nach Lemma 25.13 ist auf dem Ereignis {τn ≥ t} 

� t 

0 

Hs dWs = 

� t 

0 

H (τn) 

s dWs. 

� � t 

0 Hs 

� 

dWs 

t≥0 ein 

Also existiert der Limes, ist stetig und unabhängig von der Wahl der Folge (τn)n∈N. 

(ii) Dies folgt direkt aus Satz 25.11. 

(iii) Da wir τn = n wählen können, folgt dies aus (ii). ✷


Satz 25.18. Sei H progressiv messbar und E � � T 

0 H2 s ds � < ∞ für alle T > 0. 

Dann definiert 

� t 

Mt := Hs dWs, t ≥ 0, 

ein quadratintegrierbares, stetiges Martingal, und 

� 

(Nt)t≥0 := M 2 � t 

t − 

ist ein stetiges Martingal mit N0 =0. 

0 

0 

H 2 s ds 

Beweis. Es reicht zu zeigen, dass N ein Martingal ist. Offenbar ist N adaptiert. 

Sei τ ein beschränkte Stoppzeit. Dann ist 

E � � 

� 

Nτ = E M 2 � τ 

τ − H 2 � 

s ds 

0 

�� ∞ 

= E 

0 

H (τ) 

�2� s dWs − E 

� 

� � ∞ 

0 

t≥0 

� 

� � (τ) 2 

H s ds =0. 

Nach dem Optional Stopping Theorem (siehe Übung 21.1.3(iii)) ist N damit als 

Martingal erkannt. ✷ 

Wir erinnern an den Begriff des lokales Martingals und der quadratischen Variation 

aus Kapitel 21.10. 

Korollar 25.19. Ist H ∈Eloc, so ist das Itô-Integral Mt = � t 

0 Hs dWs ein stetiges 

lokales Martingal mit quadratischem Variationsprozess 〈M〉t = � t 

0 H2 s ds. 

Beispiel 25.20. (i) Wt = � t 

0 1 dWs ist ein quadratintegrierbares Martingal, und 

(W 2 t − t)t≥0 ist ein stetiges Martingal. 

(ii) Wegen E � � T 

0 W 2 s ds � 2 

T = 2 < ∞ für alle T ≥ 0 ist Mt := � t 

0 Ws dWs � 

ein 

stetiges, quadratintegrierbares Martingal, und M 2 t − � t 

0 W 2 � 

s ds ist ein 

t≥0 

stetiges Martingal. 

(iii) Sei H progressiv messbar und beschränkt sowie Mt := � t 

0 Hs dWs.Dannist 

M progressiv messbar (weil stetig und adaptiert) und 

� � T 

E M 

0 

2 � � T � � s 

s ds = E 

0 0 

� H 2 �2 � 

r dr 

ds ≤ T 2 �H�2 ∞ 

. 

2 

Also ist � Mt := � t 

0 Ms dWs � 

ein quadratisch integrierbares, stetiges Martingal 

und �M 2 

t − � t 

0 M 2 � 

s dWs ist ein stetiges Martingal. ✸ 

t≥0

25.2 Itô-Integral bezüglich Diffusionen 

Ist 

so ist das elementare Integral 

H = 

I M t (H) = 

25.2 Itô-Integral bezüglich Diffusionen 535 

n� 

hi−1 (ti−1,ti] ∈E, (25.6) 

i=1 

n� 

i=1 

� � 

hi−1 Mti∧t − Mti−1∧t 

ein Martingal (beziehungsweise lokales Martingal), wenn M ein Martingal (beziehungsweise 

lokales Martingal) ist, und es gilt 

E � (I M ∞ (H)) 2� = 

n� 

E � h 2 i−1(Mti − Mti−1 )2� n� 

= E � h 2 i−1(〈M〉ti −〈M〉ti−1 )� 

i=1 

� � ∞ 

= E 

0 

H 2 t d〈M〉t 

� 

, 

falls der Ausdruck auf der rechten Seite endlich ist. Grob gesprochen können wir 

die Prozedur, mit der wir das Itô-Integral für die Brown’sche Bewegung in Abschnitt 

25.1 für Integranden H ∈ E definiert hatten, wiederholen, um ein Integral 

bezüglich M für eine große Klasse von Integranden zu definieren. Für die Definition 

der Norm auf E müssen wir im Prinzip nur dt (die quadratische Variation der 

Brown’schen Bewegung) durch d〈M〉t ersetzen: 

� � ∞ � 

. 

�H� 2 M := E 

0 

i=1 

H 2 t d〈M〉t 

Das Problem besteht nicht darin, das elementare Integral auf E fortzusetzen, sondern 

darin zu prüfen, welche Prozesse in E liegen. Für unstetige Martingale etwa 

müssen die Integranden vorhersagbar sein, damit das Integral ein Martingal wird 

(abgesehen von der Schwierigkeit, dass wir die Existenz einer quadratischen Variation 

für solche Martingale nicht etabliert haben und dies in diesem Rahmen auch 

nicht tun werden). Dies hatten wir in Kapitel 9.3 schon für den Fall diskreter Zeit 

gesehen. Haben wir nun ein stetiges Martingal M mit stetiger quadratischer Variation 

〈M〉 vorliegen, so tritt immer noch folgendes Problem auf: Im Beweis von 

Satz 25.9 wurde in Schritt 2 benutzt, dass Hn t (ω) n→∞ 

−→ Ht(ω) für Lebesgue-fast 

alle t und alle ω gilt, um zu zeigen, dass progressiv messbare H in E liegen. Ist 

d〈M〉t nun nicht absolutstetig bezüglich des Lebesgue-Maßes, so reicht dies aber 

nicht aus, um die Konvergenz der Integrale bezüglich d〈M〉t zu folgern. Im Fall 

absolutstetiger quadratischer Variation hingegen geht der Beweis glatt durch. Wie 

in Abschnitt 25.1 erhalten wir:


Satz 25.21. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer 

Variation 〈M〉 und H progressiv messbar mit � T 

0 H2 s d〈M〉s < ∞ f.s. für jedes 

T ≥ 0. Dann ist das Itô-Integral Nt := � t 

0 Hs dMs wohldefiniert und ist 

ein stetiges lokales Martingal mit quadratischer Variation 〈N〉t = � t 

0 H2 s d〈M〉s. 

Für jede Folge (τn)n∈N mit τn ↑ ∞ und � �H (τn)�� < ∞ und jede Familie 

M 

(Hn,m ,n,m∈N) ⊂Emit � �Hn,m − H (τn)�� m→∞ 

−→ 0 gilt 

M 

� t 

0 

Hs dMs = lim 

n→∞ lim 

m→∞ IM t (H m,n ) für alle t ≥ 0 stochastisch. 

Als gewisse Verallgemeinerung erhalten wir den folgenden Satz. 

Satz 25.22. Seien M 1 und M 2 stetige lokale Martingal mit absolutstetiger quadratischer 

Variation. Sei Hi progressiv messbar mit � T 

0 (Hi s) 2 d〈M i 〉s < ∞ für 

alle i = 1, 2 und T < ∞. SeiNi t := � t 

0 Hi s dM i s für i = 1, 2. Dann sind 

N 1 und N 2 stetige lokale Martingale mit quadratischer Kovariation 〈N i ,Nj 〉t = 

� t 

0 Hi sH j s d〈M i ,Mj 〉s.SindM1und M 2 unabhängig, so ist 〈N 1 ,N2 〉≡0. 

Beweis. Seien zunächst H1 ,H2 ∈E. Dann gibt es Zahlen 0=t0

25.2 Itô-Integral bezüglich Diffusionen 537 

Wir betrachten im Folgenden Prozesse, die sich als Itô-Integral bezüglich einer 

Brown’schen Bewegung schreiben lassen, und geben für diese Prozesse einen detaillierteren 

Beweis von Satz 25.21 an. 

Definition 25.23. Sei W eine Brown’sche Bewegung und σ und b progressiv 

messbare stochastische Prozesse mit � t 

0 σ2 s +|bs| ds < ∞ fast sicher für alle t ≥ 0. 

Dann nennen wir den Prozess X mit 

� t 

Xt = 

0 

σs dWs + 

� t 

0 

bs ds für t ≥ 0 

einen verallgemeinerten Diffusionsprozess (oder kurz: verallgemeinerte Diffusion) 

mit Diffusionskoeffiezenten σ und Drift b. 

Haben σ und b speziell die Gestalt σs =˜σ(Xs) und bs = ˜b(Xs) für gewisse 

Abbildungen ˜σ : R → [0, ∞) und ˜b : R → R,sonennenwirX eine Diffusion (im 

engeren Sinne). 

Im Gegensatz zu verallgemeinerten Diffusionen sind Diffusionen im engeren Sinne 

unter gewissen Regularitätsannahmen an die Koeffizienten stets Markovprozesse, 

wie wir noch sehen werden (vergleiche Satz 26.8, 26.10 und 26.26). 

Eine Diffusion X hat stets die Gestalt X = M + A, wobei Mt = � t 

0 σs dWs 

ein stetiges lokales Martingal mit quadratischer Variation 〈M〉t = � t 

0 σ2 s ds ist 

(nach Korollar 25.19) und At = � t 

0 bs ds ein stetiger Prozess von lokal endlicher 

Variation. 

Offenbar ist für H aus (25.6) 

� t 

0 

Hs dMs = 

= 

n� 

� � 

hi−1 Mti∧t − Mti−1∧t 

i=1 

n� 

� ti∧t 

hi−1 

� t 

σs dWs = 

i=1 ti−1∧t 

0 

Für progressiv messbares H mit � T 

T ≥ 0 definieren wir daher das Itô-Integral 

� t 

0 

Hs dMs := 

0 H2 s d〈M〉s = � T 

� t 

0 

(Hsσs) dWs. 

(Hs σs) dWs. 

0 (Hsσs) 2 ds < ∞ für alle 

Wir erhalten ohne Weiteres, speziell ohne auf Satz 25.21 zurückzugreifen, den folgenden 

Satz. 

Satz 25.24. Sei X = M + A eine verallgemeinerte Diffusion mit σ und b wie in 

Definition 25.23 und H progressiv messbar mit


� T 

H 

0 

2 s σ 2 s ds < ∞ f.s. für alle T ≥ 0 (25.7) 

und � T 

|Hsbs| ds < ∞ f.s. für alle T ≥ 0, (25.8) 

so ist der durch 

� t 

Yt := 

0 

0 

Hs dXs := 

� t 

0 

Hs dMs + 

� t 

0 

Hs dAs := 

� t 

0 

Hsσs dWs + 

� t 

Hsbs ds 

0 

definierte Prozess Y eine verallgemeinerte Diffusion mit Diffusionskoeffizienten 

(Hsσs)s≥0 und Drift (Hsbs)s≥0. Speziell ist Nt := � t 

0 Hs dMs ein stetiges lokales 

Martingal mit Variationsprozess 〈N〉t = � t 

0 H2 s d〈M〉s = � t 

0 H2 s σ2 s ds. 

Übung 25.2.1. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer 

Variation 〈M〉 (etwa eine verallgemeinerte Diffusion), und sei H progressiv 

messbar und stetig mit � T 

0 H2 s d〈M〉s < ∞ für jedes T ≥ 0. Sei ferner 

P =(P (n) )n∈N eine zulässige Zerlegungsfolge (siehe Definition 21.56). Zeige: 

� T 

0 

Hs dMs = lim 

25.3 Die Itô-Formel 

n→∞ 

t∈Pn T 

� 

Ht(Mt ′ − Mt) stochastisch für alle T ≥ 0. ♣ 

Dieser und die beiden folgenden Abschnitte sind inhaltlich an ein Vorlesungsskript 

von Hans Föllmer angelehnt. 

Ist t ↦→ Xt eine differenzierbare Abbildung mit Ableitung X ′ und F ∈ C1 (R) 

mit Ableitung F ′ , so gilt die klassische Substitutionsformel 

� t 

F (Xt) − F (X0) = 

0 

F ′ � t 

(Xs) dXs = 

0 

F ′ (Xs)X ′ s ds. (25.9) 

Diese Formel bleibt richtig, wenn X stetig und von lokal endlicher Variation ist 

(siehe Kapitel 21.10), also die Verteilungsfunktion eines absolutstetigen signierten 

Maßes auf [0, ∞) ist. Dann existiert die Ableitung X ′ als Radon-Nikodym Ableitung 

fast überall, und man kann leicht zeigen, dass (25.9) auch in diesem Fall 

gilt. 

Die Pfade der Brown’schen Bewegung W sind nirgends differenzierbar (Satz 21.17 

von Paley-Wiener-Zygmund) und haben (folglich) überall lokal unendliche Variation. 

Wir können also eine einfache Substitutionsformel wie in (25.9) nicht erwarten, 

und in der Tat sieht man leicht ein, dass sie falsch sein muss: Wählen wir

25.3 Die Itô-Formel 539 

F (x) =x 2 , so ist die rechte Seite in (25.9) (mit X durch W ersetzt) � t 

0 2Ws dWs, 

also ein Martingal. Die linke Seite hingegen ist W 2 t , also ein Submartingal, das erst 

durch Subtraktion von t zu einem Martingal wird. In der Tat ist dieses fehlende 

t der zusätzliche Term, den wir in der Substitutionsformel für Itô-Integrale, der 

so genannten Itô-Formel, bekommen. Eine (etwas haarsträubende) Heuristik führt 

uns erstaunlicherweise auf die richtige Spur: Für kleine t ist Wt ungefähr von der 

Größe √ t. Wenn wir nun formal dWt = √ dt schreiben und für F ∈ C 2 (R) eine 

Taylor-Entwicklung bis zur zweiten Ordnung durchführen, so erhalten wir 

dF (Wt) =F ′ (Wt) dWt + 1 

2 F ′′ (Wt)(dWt) 2 = F ′ (Wt) dWt + 1 

2 F ′′ (Wt) dt, 

oder als Integral geschrieben 

� t 

F (Wt) − F (W0) = F 

0 

′ � t 

1 

(Ws) dWs + 

0 2 F ′′ (Ws) ds. (25.10) 

(Für gewisse diskrete Martingale haben wir eine analoge Formel schon in Beispiel 

10.9 hergeleitet.) Hauptanliegen dieses Abschnittes ist es zu zeigen, dass diese 

Formel, die Itô-Formel für die Brown’sche Bewegung genannt wird, in der Tat korrekt 

ist. 

Die weitere Diskussion in diesem Abschnitt hängt nicht explizit davon ab, dass 

wir bezüglich der Brown’schen Bewegung integrieren, sondern benutzt lediglich, 

dass die Funktion, bezüglich der wir integrieren, stetige quadratische Variation hat 

(entlang einer geeigneten zulässigen Zerlegungsfolge P = (Pn )n∈N)), für die 

Brown’sche Bewegung nämlich 〈W 〉t = t. 

Sei im Folgenden also P =(P n )n∈N eine zulässige Zerlegungsfolge (siehe Definition 

21.56 für die Definition und die Notation CqV = C P qV , Pn T , Pn S,T , t′ und so 

weiter) und X ∈ C([0, ∞)) mit stetiger quadratischer Variation (entlang P) 

T ↦→ 〈X〉T = V 2 � 

T (X) = lim (Xt ′ − Xt) 2 . 

n→∞ 

t∈PT 

Für die Brown’sche Bewegung ist W ∈CP qV fast sicher für jede zulässige Zerlegungsfolge 

(Satz 21.64) und 〈W 〉T = T .Für stetige lokale Martingale M kann 

man immerhin durch Übergang zu einer geeigneten Teilfolge P ′ von P sicherstellen, 

dass M ∈CP′ qV fast sicher gilt (Satz 21.70). 

Sei also P fest gewählt und X ∈CqV eine (deterministische) Funktion. 

Satz 25.25 (Pfadweise Itô-Formel). Sei X ∈CqV und F ∈ C 2 (R). Dann existiert 

für alle T ≥ 0 der Limes 

� T 

und es gilt die Itô-Formel 

0 

F ′ (Xs) dXs := lim 

n→∞ 

t∈Pn T 

� 

F ′ (Xt)(Xt ′ − Xt), (25.11)


� T 

F (XT )=F (X0) = F 

0 

′ (Xs) dXs + 1 

� T 

F 

2 0 

′′ (Xs) d〈X〉s. (25.12) 

Dabei ist das rechte Integral in (25.12) als klassisches (Lebesgue-Stieltjes-) Integral 

zu verstehen. 

Bemerkung 25.26. Ist M ein stetiges lokales Martingal, so ist nach Übung 25.2.1 

das Itô-Integral � T 

0 F (Ms) dMs der stochastische Limes von � 

t∈P n T 

F ′ (Mt)(Mt ′ − 

Mt) für n →∞. Tatsächlich stimmt also für X = M(ω) das pfadweise Integral 

in (25.11) mit dem Itô-Integral (f.s.) überein. Speziell gilt für das Itô-Integral der 

Brown’schen Bewegung die Itô-Formel (25.10). ✸ 

Beweis (von Satz 25.25). 

und dass (25.12) gilt. 

Wir müssen zeigen, dass der Limes in (25.11) existiert 

Für n ∈ N und t ∈Pn T (mit Nachfolger t′ ∈Pn T ) liefert die Taylor-Formel 

F (Xt ′) − F (Xt) =F ′ 1 

(Xt)(Xt ′ − Xt)+ 2F ′′ (Xt) · (Xt ′ − Xt) 2 + Rn t , (25.13) 

wobei wir das Restglied 

R n t = � F ′′ (ξ) − F ′′ (Xt) � · 1 

2 

2 (Xt ′ − Xt) 

(für eine geeignete Zwischenstelle ξ zwischen Xt und Xt ′) wie folgt abschätzen. 

Da X stetig ist, ist C := {Xt : t ∈ [0,T]} kompakt und F ′′� 

�C gleichmäßig 

stetig. Zu jedem ε>0 gibt es also ein δ>0 mit 

|F ′′ (Xr) − F ′′ (Xs)|


Da ε>0 beliebig war, gilt also � 

t∈Pn |R 

T 

n t | n→∞ 

−→ 0. Es gilt (siehe Übung 21.10.2) 

� 

t∈P n T 

1 

2 F ′′ (Xt)(Xt ′ − Xt) 2 n→∞ 

−→ 1 

� T 

F 

2 0 

′′ (Xs) d〈X〉s. 

Daher muss auch die Summe des verbleibenden Terms in (25.13) konvergieren, das 

heißt, es existiert der Limes in (25.11). ✷ 

Als direkte Folgerung erhalten wir die Itô-Formel für das Itô-Integral bezüglich Diffusionen. 

Satz 25.27 (Itô-Formel für Diffusionen). Sei Y = M + A, wobei Mt � = 

t 

0 σs dWs und At = � t 

0 bs ds, eine (verallgemeinerte) Diffusion ist (siehe Definition 

25.23). Sei F ∈ C2 (R). Dann gilt die Itô-Formel 

F (Yt) − F (Y0) = 

= 

� t 

0 

� t 

0 

F ′ (Ys) dMs + 

� t 

F ′ (Ys)σs dWs + 

Speziell gilt für die Brown’sche Bewegung 

F (Wt) − F (W0) = 

� t 

0 

0 

� t 

F ′ (Ws) dWs + 1 

2 

� t 

F ′ (Ys) dAs + 1 

F 

2 0 

′′ (Ys) d〈M〉s 

� 

F 

0 

′ (Ys)bs + 1 

2 F ′′ (Ys)σ 2 � 

s ds. 

(25.14) 

� t 

0 

F ′′ (Ws) ds. (25.15) 

Als Anwendung der Itô-Formel bringen wir eine Charakterisierung der Brown’schen 

Bewegung als stetiges lokales Martingal mit einer bestimmten quadratischen Variation. 

Satz 25.28 (Lévy’sche Charakterisierung der Brown’schen Bewegung). 

Sei X ∈Mloc,c mit X0 =0. Dann sind äquivalent 

(i) (X2 t − t)t≥0 ist ein lokales Martingal, 

(ii) 〈X〉t = t für alle t ≥ 0, 

(iii) X ist eine Brown’sche Bewegung. 

Beweis (iii) =⇒ (i) Das ist klar. 

(i) ⇐⇒ (ii) Das ist klar, weil der quadratische Variationsprozess eindeutig ist. 

(ii) =⇒ (iii) Es reicht zu zeigen, dass Xt − Xs ∼N0,t−s gegeben Fs für t> 

s ≥ 0. Wegen des Eindeutigkeitssatzes für charakteristische Funktionen reicht es zu 

zeigen, dass (mit i = √ −1)für A ∈Fs und λ ∈ R gilt: 

ϕA,λ(t) :=E � e iλ(Xt−Xs) � −λ 

A = P[A] e 2 (t−s)/2 

.


Wir wenden die Itô-Formel separat auf Real- und Imaginärteil an und erhalten 

e iλXt − e iλXs � t 

= 

s 

Es folgt 

E � e iλ(Xt−Xs) � � 

�Fs − 1 

�� t 

= E iλe iλ(Xr−Xs) � 

� 

dXr � 

s 

iλe iλXr dXr − 1 

2 

� Fs 

� 

− 1 

2 λ2 �� t 

E 

s 

� t 

λ 

s 

2 e iλXr dr. 

e iλ(Xr−Xs) � 

� 

dr � 

Nun sind Mt := Re � t 

s iλeiλ(Xr−Xs) dXr und Nt := Im � t 

s iλeiλ(Xr−Xs) dXr, 

t ≥ s, stetige lokales Martingale mit 〈M〉t = � t 

s λ2 sin(λ(Xr − Xs)) 2 dr ≤ λ2 (t − 

s) und 〈N〉t = � t 

s λ2 cos(λ(Xr − Xs)) 2 dr ≤ λ2 (t − s). Nach Korollar 21.76 sind 

M und N daher Martingale, also gilt 

�� t 

E iλe iλ(Xr−Xs) � � 

� 

dXr � =0. 

s 

s 

� Fs 

Der Satz von Fubini liefert (wegen A ∈Fs) 

ϕA,λ(t) − ϕA,λ(s) =E � e iλ(Xt−Xs) � 

A − P[A] 

= − 1 

2 λ2 

� t 

E � e iλ(Xr−Xs) � 1 

A dr = − 

2 λ2 

Das heißt, ϕA,λ ist die Lösung des linearen Anfangswertproblems 

ϕA,λ(s) =P[A] und 

� t 

d 

dt ϕA,λ(t) =− 1 

2 λ2 ϕA,λ(t). 

s 

� Fs 

� 

. 

ϕA,λ(r) dr. 

Die eindeutige Lösung hiervon ist ϕA,λ(t) =P[A] e −λ2 (t−s)/2 . ✷ 

Als Folgerung aus dem Satz erhalten wir, dass wir jedes lokale Martingal, dessen 

quadratischer Variationsprozess absolutstetig (als Funktion der Zeit) ist, als Itô- 

Integral bezüglich einer Brown’schen Bewegung schreiben können. 

Satz 25.29 (Itô’scher Martingal-Darstellungssatz). Sei M ein stetiges lokales 

Martingal mit absolutstetiger quadratischer Variation t ↦→ 〈M〉. Dann gibt es, 

eventuell auf einer Erweiterung des Wahrscheinlichkeitsraums, eine Brown’sche Bewegung 

W mit 

� � 

t 

d〈M〉s 

Mt = 

dWs für alle t ≥ 0. 

ds 

0 

Beweis. Wir nehmen an, dass auf dem Wahrscheinlichkeitsraum eine Brown’sche 

Bewegung � W definiert ist, die unabhängig von M ist. (Gegebenenfalls muss der 

Wahrscheinlichkeitsraum hierzu erweitert werden.) Sei

ft := lim 

n→∞ n� � 

〈M〉t −〈M〉 t−1/n 


für t>0. 

Dann ist f eine progressiv messbare Version der Radon-Nikodym Ableitung d〈M〉t 

dt . 

Klar ist � T 

0 {ft>0} f −1 

t d〈M〉t = T0, also sind die folgenden 

Integrale wohldefiniert, und 

� t 

Wt := 

0 

{fs>0} f −1/2 

� t 

s dMs + 

0 

{fs=0} d � Ws 

ist als Summe stetiger lokaler Martingale selber eines. Nach Satz 25.22 ist 

〈W 〉t = 

= 

= t. 

� t 

0 

� t 

0 

{fs>0} f −1 

� t 

s d〈M〉s + 

0 

{fs>0} f −1 

� t 

s fs ds + 

0 

{fs=0} ds 

{fs=0} ds 

Nach Satz 25.28 ist W damit als Brown’sche Bewegung erkannt. Andererseits ist 

� t 

0 

f 1/2 

s dWs = 

= 

� t 

0 

� t 

0 

{fs>0} f 1/2 

s 

{fs>0} dMs. 

f −1/2 

s dMs + 

� t 

0 

{fs=0} f 1/2 

s 

d � Ws 

Nun ist aber Mt − � t 

0 {fs>0} dMs = � t 

0 {fs=0} dMs ein stetiges lokales Martingal 

mit quadratischer Variation � t 

0 {fs=0} d〈M〉s =0, also fast sicher gleich Null. 

Also ist Mt = � t 1/2 

f 0 s dWs, wie gewünscht. ✷ 

Wir kommen nun zu einer mehrdimensionalen Verallgemeinerung der (pfadweisen) 

Itô-Formel. Sei hierzu Cd qV der Raum der stetigen Abbildungen X :[0, ∞) → Rd , 

t ↦→ Xt =(X1 t ,...,Xd t ), sodass für k, l =1,...,d die quadratische Kovariation 

(siehe Definition 21.58) 〈Xk ,Xl 〉 existiert und stetig ist. Ferner sei C2 (Rd ) 

der Raum der zweimal stetig differenzierbaren Funktionen F auf Rd mit partiellen 

Ableitungen ∂kF und ∂k∂lF , k, l =1,...,d.Mit∇F bezeichnen wir den 

Gradienten und mit △ =(∂2 1 + ...+ ∂2 d ) den Laplace-Operator. 

Satz 25.30 (Mehrdimensionale pfadweise Itô-Formel). Sei X ∈Cd qV 

C 

und F ∈ 

2 (Rd ). Dann gilt 

� T 

F (XT ) − F (X0) = ∇F dXs + 

0 

1 

� T 

2 0 

d� 

∂k∂lF (Xs) d〈X k ,X l 〉s. 

Dabei ist 

� T 

0 

∇F (Xs) dXs := 

k,l=1 

d� 

� T 

∂kF (Xs) dX 

k=1 

0 

k s .


Beweis. Das geht wie im eindimensionalen Fall. Die Details verbleiben zur Übung. 

✷ 

Korollar 25.31 (Produktregel). Sind X, Y, X − Y,X + Y ∈CqV, so gilt 

XT YT = X0Y0 + 

� T 

0 

Ys dXs + 

� T 

0 

Xs dYs + 〈X, Y 〉T für alle T ≥ 0. 

Beweis. Nach Voraussetzung (und der Polarisationsformel) existiert 〈X, Y 〉. Nach 

Satz 25.30 mit F (x, y) =xy folgt die Aussage. ✷ 

Sei nun Y = M + A eine d-dimensionale verallgemeinerte Diffusion, also 

M k t = 

d� 

l=1 

� t 

0 

σ k,l 

s dW l s und A k t = 

� t 

b 

0 

k s ds für t ≥ 0, k=1,...,d. 

Dabei ist W =(W 1 ,...,W d ) eine d-dimensionale Brown’sche Bewegung und 

σ k,l (beziehungsweise b k ) sind progressiv messbare, lokal quadratisch integrierbare 

(beziehungsweise lokal integrierbare) stochastische Prozesse für k, l =1,...,d. 

Wegen 〈W k ,W l 〉t = t · {k=l} ist 〈Y k ,Y l 〉t = 〈M k ,M l 〉t = � t 

0 ak,l 

s ds, wobei 

a k,l 

s := 

d� 

i=1 

σ k,i 

s σ i,l 

s 

die Kovarianzmatrix der Diffusion M ist. Speziell ist M ∈Cd qV fast sicher. Wir 

erhalten als Korollar zur mehrdimensionalen pfadweisen Itô-Formel: 

Satz 25.32 (Mehrdimensionale Itô-Formel). Sei Y wie oben und F ∈ C 2 (R d ). 

Dann gilt 

F (YT ) − F (Y0) = 

= 

� T 

0 

d� 

k,l=1 

+ 1 

2 

∇F (Ys) dYs + 1 

2 

� t 

0 

d� 

k,l=1 

σ k,l 

s ∂kF (Ys) dW l s + 

� t 

Speziell gilt für die Brown’sche Bewegung 

F (Wt) − F (W0) = 

d� 

k=1 

0 

� t 

0 

d� 

� T 

∂k∂lF (Ys) d〈M 

k,l=1 

0 

k ,M l 〉s 

a k,l 

s ∂k∂lF (Ys) ds. 

∂kF (Ws) dW k s + 1 

2 

d� 

� t 

b 

k=1 

0 

k s ∂kF (Ys) ds 

� t 

0 

(25.16) 

△ F (Ws) ds. (25.17)


Korollar 25.33. Der Prozess (F (Wt))t≥0 ist genau dann ein lokales Martingal, 

wenn F harmonisch ist (also △ F ≡ 0 gilt). 

Beweis. Ist F harmonisch, so ist F (Wt) =F (W0) + �d � t 

k=1 0 ∂kF (Ws) dW k s 

als Summe von Itô-Integralen ein stetiges lokales Martingal. 

Ist andererseits F ein lokales Martingal, so ist auch � t 

0 △ F (Ws) ds als Differenz 

� 

von stetigen lokalen Martingalen ein stetiges lokales Martingal. Da t ↦→ 

t 

0 △ F (Ws) ds von endlicher Variation ist, ist � t 

0 △ F (Ws) ds =0für alle t ≥ 0 

fast sicher (nach Korollar 21.72). Also ist △ F ≡ 0. ✷ 

Korollar 25.34 (Zeitabhängige Itô-Formel). Ist F ∈ C 2,1 (R d × R), sogilt 

F (WT ,T) − F (W0, 0) 

d� 

� T 

= 

k=1 

0 

∂kF (Ws,s) dW k � T 

s + 

0 

� 

∂d+1 + 1 

2 (∂2 1 + ...+ ∂ 2 � 

d) F (Ws,s) ds. 

Beweis. Wende Satz 25.32 an auf Y =(W 1 t ,...,W d t ,t)t≥0. ✷ 

Übung 25.3.1 (Satz von Fubini für Itô-Integrale). Sei X ∈ CqV und sei g : 

[0, ∞) 2 → R stetig und im Inneren nach der zweiten Koordinate stetig differenzierbar 

mit Ableitung ∂2g. Man zeige mit Hilfe der Produktregel (Korollar 25.31) 

� s �� t � � t �� s 

� 

g(u, v) du dXv = g(u, v) dXv du. 

0 

und � s 

0 

0 

�� v 

0 

� 

g(u, v) du dXv = 

0 

0 

� s �� s 

0 

u 

� 

g(u, v) dXv du. ♣ 

Übung 25.3.2 (Stratonovich-Integral). Sei P eine zulässige Zerlegungsfolge, X ∈ 

C P qV und f ∈ C1 (R) mit Stammfunktion F . Man zeige: Für jedes t ≥ 0 ist das 

Stratonovich-Integral 

� T 

0 

f(Xt) ◦ dXt := lim 

� 

f 

n→∞ 

t∈Pn T 

� Xt 

′ + Xt 

2 

wohldefiniert, und es gilt die klassische Substitutionsregel 

F (XT ) − F (X0) = 

� T 

0 

F ′ (Xt) ◦ dXt. 

� 

�Xt � 

′ − Xt 

Man zeige, dass im Gegensatz zum Itô-Integral das Stratonovich-Integral bezüglich 

eines stetigen lokalen Martingals im Allgemeinen kein lokales Martingal ist. ♣


25.4 Dirichlet-Problem und Brown’sche Bewegung 

Ähnlich wie für diskrete Markovketten (vergleiche Kapitel 19.1) lässt sich die 

Lösung des Dirichlet-Problems in einem Gebiet G ⊂ Rd durch eine am Rande 

von G gestoppte d-dimensionale Brown’sche Bewegung beschreiben. 

Sei im Folgenden G ⊂ Rd eine offene, beschränkte Menge. 

Definition 25.35 (Dirichlet-Problem). Sei f : ∂G → R stetig. Eine Funktion 

u : G → R heißt Lösung des Dirichlet-Problems auf G mit Randwert f, falls u 

stetig ist und in G zweimal stetig differenzierbar, sowie 

△ u(x) =0 für x ∈ G, 

u(x) =f(x) für x ∈ ∂G. 

(25.18) 

Für hinreichend glatte Gebiete existiert stets eine Lösung des Dirichlet-Problems 

(siehe etwa [80, Korollar 4.3.3]). Gibt es eine Lösung, so ist sie stets eindeutig (wie 

aus Satz 25.37 folgt). 

Sei im Folgenden W =(W1 ,...,Wd ) eine d-dimensionale Brown’sche Bewegung 

bezüglich der Filtration F, die den üblichen Bedingungen genügt. Wir schreiben 

Px und Ex für Wahrscheinlichkeiten und Erwartungswerte, wenn W in 

W0 = x =(x1 ,...,xd ) ∈ Rd gestartet wird. Ist A ⊂ Rd offen, so ist 

τAc := inf � t>0: Wt ∈ A c� 

eine F-Stoppzeit (siehe Übung 21.4.4). Da G beschränkt ist, ist G ⊂ (−a, a) × 

Rd−1 für gewisses a>0. AlsoistτGc ≤ τ ((−a,a)×Rd−1 (angewandt auf W 

) c. Nach Übung 21.2.4 

1 )istfür x ∈ G 

� 

Ex τGc � � 

≤ Ex τGc ≤ τ ((−a,a)×Rd−1 ) c 

� 1 1 

=(a− x )(a + x ) < ∞. (25.19) 

Speziell ist τG c < ∞ Px-fast sicher, also ist WτG c eine Px-fast sicher wohldefinierte 

Zufallsvariable mit Werten in ∂G. 

Definition 25.36. Für x ∈ G bezeichnen wir mit 

das harmonische Maß auf ∂G. 

μx,G = Px ◦ W −1 

τG c 

Satz 25.37. Ist u eine Lösung des Dirichlet-Problems auf G mit Randwert f, so 

ist 

� 

u(x) =Ex f(WτGc ) � � 

= f(y) μx,G(dy) für x ∈ G. (25.20) 

∂G 

Insbesondere ist die Lösung des Dirichlet-Problems stets eindeutig.

25.4 Dirichlet-Problem und Brown’sche Bewegung 547 

Beweis. Sei G1 ⊂ G2 ⊂ ... eine Folge offener Mengen mit x ∈ G1, Gn ↑ G 

und Gn ⊂ G für jedes n ∈ N. Speziell ist also jedes Gn kompakt und damit ∇u 

auf Gn beschränkt. Wir schreiben kurz τ := τG c und τn := τG c n . 

Da u harmonisch ist (das heißt, △ u =0), ist nach der Itô-Formel 

u(Wt) =u(W0)+ 

� t 

0 

∇u(Ws) dWs = 

d� 

k=1 

∂ku(Ws) dW k s 

für t


25.5 Rekurrenz und Transienz der Brown’schen Bewegung 

Die symmetrische einfache Irrfahrt (Xn)n∈N auf Z d ist nach dem Satz von Pólya 

(Satz 17.39) genau dann rekurrent (besucht also jeden Punkt unendlich oft), wenn 

d ≤ 2 ist. Ist d>2, so ist die Irrfahrt transient und verlässt jede endliche Menge 

A ⊂ Z d schließlich. Wir können dieses Verhalten beschreiben durch 

lim inf 

n→∞ �Xn� =0 f.s. ⇐⇒ d ≤ 2 

und 

lim 

n→∞ �Xn� = ∞ f.s. ⇐⇒ d>2. 

Hauptergebnis dieses Abschnitts ist es, dass eine ähnliche Dichotomie auch für die 

Brown’sche Bewegung gilt. 

Satz 25.38. Sei W = (W 1 ,...,W d ) eine d-dimensionale Brown’sche Bewegung. 

(i) Ist d ≤ 2, soist W rekurrent in dem Sinne, dass 

lim inf 

t→∞ �Wt − y� =0 f.s. für jedes y ∈ R d . 

Insbesondere liegt der Pfad {Wt : t ≥ 0} dicht in Rd fast sicher. 

(ii) Ist d>2, soistW transient in dem Sinne, dass 

lim 

t→∞ �Wt� = ∞ f.s., 

und für jedes y ∈ R d \{0} ist inf{�Wt − y� : t ≥ 0} > 0 fast sicher. 

Die Grundidee für den Beweis des Satzes besteht darin, mit Hilfe von geeigneten 

Dirichletproblemen und dem Ergebnis von Abschnitt 25.4 die Wahrscheinlichkeiten 

dafür auszurechnen, dass W gewisse Kugeln 

BR(x) := � y ∈ R d : �x − y�

25.5 Rekurrenz und Transienz der Brown’schen Bewegung 549 

� 

1, 

f(x) = 

0, 

falls �x� = r, 

falls �x� = R. 

(25.24) 

Sei ur,R : Gr,R → R definiert durch 

V (�x�) − V (R) 

ur,R(x) = 

V (r) − V (R) , 

wobei V :(0, ∞) → R die Newton’sche Potentialfunktion ist 

⎧ 

⎪⎨ 

s, falls d =1, 

V (s) =Vd(s) = log(s), 

⎪⎩ 

−s 

falls d =2, 

2−d , falls d>2. 

(25.25) 

Man prüft leicht nach, dass ϕ : Rd \{0} →R, x ↦→ Vd(�x�) harmonisch ist (also 

△ ϕ ≡ 0 erfüllt). Also ist ur,R die Lösung des Dirichlet-Problems auf Gr,R mit 

Randwert f. Nach Satz 25.37 ist für x ∈ Gr,R 

� � � 

Px τr,R = τr = Px �Wτr,R� = r� � 

= Ex f(Wτr,R )� = ur,R(x). (25.26) 

Satz 25.39. Für r>0 und x, y ∈ Rd mit �x − y� >r gilt 

� 

Px Wt ∈ Br(y) für ein t>0 � ⎧ 

⎨ 

1, falls d ≤ 2, 

= � �2−d ⎩ �x−y� 

r , falls d>2. 

Beweis. Ohne Einschränkung sei y =0.Dannist 

Px[τr < ∞] = lim 

R→∞ Px[τr,R 

V (�x�) − V (R) 

= τr] = lim 

R→∞ V (r) − V (R) 

� 

1, falls d =2, 

= 

Vd(�x�) 

Vd(r) , falls d>2, 

denn limR→∞ Vd(R) =∞, falls d ≤ 2 und =0, falls d>2. ✷ 

Beweis (von Satz 25.38). Unter Verwendung der starken Markoveigenschaft der 

Brown’schen Bewegung erhalten wir für r>0 

� 

Px lim inf 

t→∞ �Wt� 

� � 

�x� 

inf 

R>�x� Px 

� � 

�Wt� ≤s für ein t>τR 

inf 

R>�x� Px 

� 

PWτ [τs < ∞] 

R � .


Nach Satz 25.39 ist aber (wegen �WτR� = R für R>�x�) 

� 

1, falls d ≤ 2, 

PWτ [τs < ∞] = 

R 

(s/R) d−2 , falls d>2. 

Also ist 

� 

P lim inf 

t→∞ �Wt� 

� 

� 1, 

2. 

Hieraus folgt aber die Aussage des Satzes. ✷ 

Definition 25.40 (Polare Menge). Eine Menge A ⊂ Rd heißt polar, falls 

� 

Wt �∈ A für alle t>0 � =1 für alle x ∈ R d . 

Px 

Satz 25.41. Ist d =1, so ist nur die leere Menge polar. Ist d ≥ 2, soist {y} polar 

für jedes y ∈ R d . 

Beweis. Für d =1ist die Aussage klar, wegen 

lim sup Wt = ∞ und lim inf 

t→∞ 

t→∞ Wt = −∞ f.s. 

Aufgrund der Stetigkeit von W wird also jeder Punkt y ∈ R immer wieder getroffen. 

Sei nun d ≥ 2. Ohne Einschränkung sei y =0.Istx�= 0,soist 

� 

Px τ{0} < ∞ � � � 

= lim τ{0} 0 Px 

= lim 

R→∞ inf 

r>0 ur,R(x) =0, 

(25.27) 

weil Vd(r) r→0 

−→ −∞, falls d ≥ 2. 

Ist hingegen x =0, so gilt wegen der starken Markoveigenschaft der Brown’schen 

Bewegung (und weil P0[Wt =0]=0 ist für alle t>0) 

P0 

� 

τ{0} < ∞ � =supP0 

t>0 

=supP0 

t>0 

� Ws =0 für ein s ≥ t � 

� PWt [τ {0} < ∞] � =0, 

wobei wir im letzten Schritt (25.27) ausgenutzt haben. ✷

26 Stochastische Differentialgleichungen 

Stochastische Differentialgleichungen beschreiben die zeitliche Entwicklung von 

gewissen stetigen Markovprozessen mit Werten in Rn . Im Gegensatz zu klassischen 

Differentialgleichungen ist nicht nur die Ableitung einer Funktion angegeben, sondern 

zudem ein Term, der zufällige Fluktuationen beschreibt, die als Itô-Integral 

bezüglich einer Brown’schen Bewegung kodiert werden. Je nach dem, ob man die 

konkrete Brown’sche Bewegung als treibende Kraft des Rauschens ernst nimmt oder 

nicht, spricht man von starken oder schwachen Lösungen. Wir entwickeln im ersten 

Abschnitt die Theorie der starken Lösungen unter Lipschitz-Bedingungen an die 

Koeffizienten. Im zweiten Abschnitt lernen wir das (lokale) Martingalproblem als 

Methode zur Etablierung schwacher Lösungen kennen. Im dritten Abschnitt stellen 

wir die Methode der Dualität zur Sicherung der Eindeutigkeit von Lösungen an 

Beispielen vor. 

Da die Theorie der stochastischen Differentialgleichungen ein sehr weites Feld ist 

und die Dinge sehr schnell sehr technisch werden, bringen wir nur kursorisch ein 

paar der wichtigsten Ergebnisse, zum Teil ohne Beweis, um sie dann an Beispielen 

zu illustrieren. 

26.1 Starke Lösungen 

Wir betrachten eine stochastische Differentialgleichung (SDGL) von dem Typ 

X0 = ξ, 

dXt = σ(t, Xt) dWt + b(t, Xt) dt. 

(26.1) 

Dabei ist W = (W1 ,...,Wm ) eine m-dimensionale Brown’sche Bewegung, ξ 

eine von W unabhängige Rn � -wertige Zufallsvariable mit Verteilung μ, σ(t, x) = 

σij(t, x) � i=1,...,n eine reelle n × m Matrix sowie b(t, x) = 

j=1,...,m 

� bi(t, x) � 

i=1,...,n ein 

n-dimensionaler Vektor. Die Abbildungen (t, x) ↦→ σij(t, x) und (t, x) ↦→ bi(t, x) 

seien messbar. 

Unter einer Lösung X von (26.1) wollen wir natürlich einen stetigen, adaptierten 

stochastischen Prozess X mit Werten in R n verstehen, der die folgende Integralgleichung 

erfüllt

552 26 Stochastische Differentialgleichungen 

� t 

� t 

Xt = ξ + σ(s, Xs) dWs + b(s, Xs) ds P − f.s. für alle t ≥ 0. (26.2) 

0 

0 

Koordinatenweise ausgeschrieben heißt dies 

X i t = ξ i m� 

� t 

+ σij(s, Xs) dW 

j=1 0 

j � t 

s + 

0 

bi(s, Xs) ds für alle i =1,...,n. 

Nun ergibt sich folgendes Problem: An welche Filtration F soll X adaptiert sein? 

Soll F die Filtration sein, die von ξ und W erzeugt ist, oder darf F eine größere Filtration 

sein? Aus der Theorie der gewöhnlichen Differentialgleichungen ist bekannt, 

dass es, je nach Differentialgleichung, Lösungen geben kann, die aber nicht eindeutig 

sind (beispielsweise für f ′ = |f| 1/3 ). Wenn F größer als die von W erzeugte 

Filtration ist, können wir weitere Zufallsvariablen definieren, die unter mehreren 

Lösungen eine aussuchen. Wir haben also mehr Möglichkeiten, eine Lösung anzugeben 

als wenn F = σ(W ) ist. In der Tat wird sich herausstellen, dass man in 

manchen Fällen überhaupt erst eine Lösung einer SDGL angeben kann, wenn man 

eine größere Filtration zulässt. Grob gesprochen nennen wir X eine starke Lösung 

von (26.1), wenn (26.2) gilt und X an F = σ(W ) adaptiert ist, hingegen eine schwache 

Lösung, wenn X an eine größere Filtration F adaptiert ist, bezüglich der W aber 

immer noch ein Martingal ist. Schwache Lösungen behandeln wir in Abschnitt 26.2. 

Definition 26.1 (Starke Lösung). Wir sagen, dass die stochastische Differentialgleichung 

(SDGL) (26.1) eine starke Lösung X hat, falls es eine Abbildung 

F : R n × C([0, ∞); R m ) → C([0, ∞); R n ) gibt mit den Eigenschaften 

(i) (x, w) ↦→ F (x, w) ist für jedes t ≥ 0 messbar bezüglich B(Rn ) ⊗Gm t – 

Gn t , wobei (für k = m oder k = n) Gk t := σ(πs : s ∈ [0,t]) die von 

den Koordinatenabbildungen πs : C([0, ∞); Rk ) → R, w ↦→ w(s) erzeugte 

σ-Algebra ist. 

(ii) Der Prozess X = F (ξ,W) erfüllt (26.2). 

Bedingung (i) besagt, dass der Pfad (Xs) s∈[0,t] nur von ξ und (Ws) s∈[0,t] abhängt 

und sonst von keinen Informationen. Insbesondere ist X an Ft = σ(ξ, Ws : s ∈ 

[0,t]) adaptiert und progressiv messbar, sodass das Itô-Integral in (26.2) wohldefiniert 

ist, falls σ und b nicht zu stark wachsen für große x. 

Bemerkung 26.2. Offenbar ist eine starke Lösung einer SDGL stets eine verallgemeinerte 

n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig von 

t,soistdieLösung eine n-dimensionale Diffusion. ✸ 

Bemerkung 26.3. Sei X eine starke Lösung und F wie in Definition 26.1. ist W ′ 

eine m-dimensionale Brown’sche Bewegung auf einem Raum (Ω ′ , F ′ , P ′ ) mit Filtration 

F ′ , und ist ξ ′ unabhängig von W ′ und F ′ 0-messbar, so erfüllt X ′ = F (ξ ′ ,W ′ ) 

die Integralgleichung (26.2), ist also eine starke Lösung von (26.1) mit W ′ statt W .

26.1 Starke Lösungen 553 

Die Existenz einer starken Lösung hängt also nicht von der konkreten Realisierung 

der Brown’schen Bewegung oder der Filtration F ab. ✸ 

Definition 26.4. Wir sagen, dass die SDGL (26.1) eine eindeutige starke Lösung 

hat, falls es ein F wie in Definition 26.1 gibt, sodass gilt: 

(i) Ist W eine m-dimensionale Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum 

(Ω,F, P) mit Filtration F und ξ eine F0-messbare von W unabhängige 

Zufallsvariable mit P ◦ ξ−1 = μ, dann ist X := F (ξ,W) eine 

Lösung von (26.2). 

(ii) Für jede Lösung (X, W) von (26.2) gilt X = F (ξ,W). 

Beispiel 26.5. Seien m = n =1und b ∈ R sowie σ>0.DerOrnstein-Uhlenbeck 

Prozess 

Xt := e bt � t 

ξ + σ e (t−s)b dWs, t ≥ 0, (26.3) 

ist eine starke Lösung der SDGL X0 = ξ und 

0 

dXt = σdWt + bXt dt. 

In der Terminologie von Definition 26.1 ist (im Sinne des pfadweisen Itô-Integrals 

bezüglich w) 

� 

F (x, w) = t ↦→ e bt � t 

x + e (t−s)b � 

dw(s) 

für alle w ∈CqV (also mit stetiger quadratischer Variation). Wegen P[W ∈CqV] = 

1, können wir F (x, w) =0setzen für w ∈ C([0, ∞); R) \CqV. 

In der Tat gilt nach dem Satz von Fubini für Itô-Integrale (Übung 25.3.1) 

ξ + 

� t 

0 

� t 

σdWs + bXs ds 

0 

� t 

= ξ + σWt + be 

0 

bs � t �� s 

ξds+ σb e 

0 0 

b(s−r) � 

dWr ds 

= ξ + σWt + � e bt − 1 � � t �� t 

ξ + σ be 

0 r 

b(s−r) � 

ds dWr 

= e bt � t � 

ξ + σ + � e b(t−r) − 1 � � 

σ dWr 

= Xt. 

0 

Man kann zeigen (siehe Satz 26.8), dass diese Lösung auch (stark) eindeutig ist. ✸ 

Beispiel 26.6. Seien α, β ∈ R. Die eindimensionale SDGL X0 = ξ und 

0 

dXt = αXt dWt + βXt dt (26.4)


hat die starke Lösung 

� � 

Xt = ξ exp αWt + β − α2 

� � 

t . 

2 

In der Terminologie von Definition 26.1 ist σ(t, x) =αx, b(t, x) =βx und 

� � � 

F (x, w) = t ↦→ x exp αw(t)+ β − α2 

� �� 

t 

2 

für alle w ∈ C([0, ∞); R) und x ∈ R. In der Tat ist nach der zeitabhängigen Itô- 

Formel (Korollar 25.34) 

� t 

� t �� 

Xt = ξ + αXs dWs + β − α2 

� 

+ 

2 

1 

2 α2 

� 

Xs ds. 

0 

0 

Auch in diesem Fall gilt starke Eindeutigkeit der Lösung (siehe Satz 26.8). Der 

Prozess X heißt geometrische Brown’sche Bewegung und dient beispielsweise 

zur Modellierung von Aktienkursen im so genannten Black-Scholes Modell. ✸ 

Wir geben nun ein einfaches Kriterium für die Existenz und Eindeutigkeit starker 

Lösungen an. Für eine n × m Matrix A definieren wir die Hilbert-Schmidt Norm 

� 

�A� = Spur � AAT � � 

� 

� 

n� n� 

= � 

. (26.5) 

i=1 j=1 

Für b ∈ R n verwenden wir die euklidische Norm �b�. Da alle Normen auf endlichdimensionalen 

Vektorräumen äquivalent sind, spielt es keine wesentliche Rolle, 

welche Norm wir genau benutzen. Allerdings vereinfacht die hier eingeführte Norm 

die Rechnungen, wie das folgende Lemma zeigt. 

Lemma 26.7. Sei t ↦→ H(t) =(Hij(t))i=1,...,n, j=1,...,m progressiv messbar und 

E � � T 

0 H2 ij (t) dt� < ∞ für alle i, j. Dann gilt 

�� 

�� T 

E 

0 

� 

�2� 

H(t) dWt 

� 

� 

wobei �H� die Hilbert-Schmidt Norm aus (26.5) bezeichnet. 

Beweis. Für i =1,...,nist Ii(t) := � m 

mit Variationsprozess 〈Ii〉t = � t 

0 

A 2 i,j 

� � T 

= E �H(t)� 

0 

2 � 

dt , (26.6) 

j=1 

� m 

j=1 H2 ij 

E � (Ii(T )) 2� � � T 

= E 

0 

� t 

0 Hij(s) dW j s ein stetiges Martingal 

(s) ds. Daher ist 

m� 

j=1 

H 2 � 

ij(s) ds.

Die linke Seite in (26.6) ist aber gleich 

n� 

E � (Ii(T )) 2� � � T 

= E 

i=1 

0 

n� 

m� 

i=1 j=1 


H 2 � 

ij(s) ds. 

Die Behauptung folgt nun aus der Definition von �H(s)� 2 . ✷ 

Satz 26.8. Seien b und σ Lipschitz-stetig in der ersten Koordinate. Das heißt, es 

existiere eine Konstante K>0, sodass für alle x, x ′ ∈ R n und t ≥ 0 gilt, dass 

�σ(x, t) − σ(x ′ ,t)� + �b(x, t) − b(x ′ ,t)� ≤K �x − x ′ �. (26.7) 

Ferner gelte die Wachstumsbedingung 

�σ(t, x)� 2 + �b(t, x)� 2 ≤ K 2 (1 + �x� 2 ) für alle x ∈ R n ,t≥ 0. (26.8) 

Dann existiert für jeden Anfangswert X0 = x ∈ R n eine eindeutige starke 

Lösung X der SDGL (26.1). Diese Lösung ist ein Markovprozess und im Falle, 

wo σ und b nicht von t abhängen, ein starker Markovprozess. 

Als Hilfsmittel brauchen wir ein Lemma. 

Lemma 26.9 (Gronwall). Seien f,g :[0,T] → R integrierbar und C > 0 so, 

dass 

� t 

f(t) ≤ g(t)+C f(s) ds für alle t ∈ [0,T]. (26.9) 

Dann ist 

f(t) ≤ g(t)+C 

� t 

0 

0 

e C(t−s) g(s) ds für alle t ∈ [0,T]. 

Ist speziell g(t) ≡ G konstant, so ist f(t) ≤ Ge Ct für alle t ∈ [0,T]. 

Beweis. Seien F (t) = � t 

0 f(s) ds und h(t) =F (t) e−Ct . Dann ist nach (26.9) 

Integration liefert 

Einsetzen in (26.9) liefert 

d 

dt h(t) =f(t) e−Ct − CF(t) e −Ct ≤ g(t) e −Ct . 

F (t) =e Ct h(t) ≤ 

� t 

f(t) ≤ g(t)+CF(t) ≤ g(t)+C 

0 

e C(t−s) g(s) ds. 

� t 

0 

g(s) e C(t−s) ds. ✷


Beweis (von Satz 26.8). Es reicht zu zeigen, dass eine eindeutige starke Lösung 

bis T für jedes T

und 

� t 

Jt := 

0 

� N 

b(s, Xs ) − b(s, X N−1 

s ) � ds. 


Indem wir die Doob’sche L2 –Ungleichung auf das nichtnegative Submartingal 

(�It�2 )t≥0 , Lemma 26.7 sowie (26.7) anwenden, erhalten wir 

� � 

E 

≤ 4 E � �It� 2� 

sup �Is� 

s≤t 

2 

=4E 

≤ 4K 2 

�� t 

0 

� t 

0 

� 

� σ(s, X N s ) − σ(s, X N−1 

s 

E 

��X N 

s − X N−1 

� 

� 

s 

2� 

ds 

) � �2 � 

ds 

Für Jt bekommen wir mit der Cauchy-Schwarz’schen Ungleichung 

�Jt� 2 � t � 

≤ t � N 

b(s, Xs ) − b(s, X N−1 

s ) � �2 ds. 

Also ist 

� 

E 

sup �Js� 

s≤t 

2 

� 

≤ t E 

0 

≤ tK 2 

�� t 

0 

� t 

0 

� 

� b(s, X N s ) − b(s, X N−1 

s 

��X N 

E s − X N−1 

� 

�2� ds. 

s 

) � �2 � 

ds 

Setzen wir 

Δ N � 

� 

(t) :=E sup � N 

Xs − X 

s≤t 

N−1 

� 

� 

s 

2 

� 

, 

so erhalten wir mit C := 2K2 (4 + T ) ∨ 2(T +1)K2 (1 + �x�2 ) 

und 

Δ N+1 (t) ≤ C 

Δ 1 (t) ≤ 2t 

� t 

0 

� t 

0 

Δ N (s) ds für N ≥ 1 

�b(s, x)� 2 ds + 2 

� t 

≤ 2(T +1)K 2� 1+�x� 2� · t ≤ Ct 

0 

�σ(s, x)� 2 ds 

(26.12) 

(26.13) 

nach der Wachstumsvoraussetzung (26.8). Per Induktion folgt Δ N (t) ≤ (Ct)N 

N! .Es 

folgt mit der Markov’schen Ungleichung 

∞� 

� 

� 

P sup �X 

s≤t 

N s − X N−1 

� 

� 

s 

2 > 2 −N 

� 

≤ 

N=1 

≤ 

∞� 

2 

N=1 

N Δ N (t) 

∞� (2Ct) N 

N! ≤ e2Ct < ∞. 

N=1


Nach dem Lemma von Borel-Cantelli folgt sups≤t �XN s − XN−1 2 

s � 

N→∞ 

−→ 0 fast 

sicher. Mithin ist fast sicher (XN )N∈N eine Cauchy-Folge in dem Banachraum 

(C([0,T]), �·�∞). Also konvergiert XN fast sicher gleichmäßig gegen ein X. 

Gleichmäßige Konvergenz impliziert Konvergenz der Integrale, also ist X eine starke 

Lösung von (26.2). 

Markoveigenschaft Die starke Markoveigenschaft folgt direkt aus der starken 

Markoveigenschaft der Brown’schen Bewegung, die die SDGL antreibt. ✷ 

Wichtige Beispiele für diesen Satz haben wir oben schon kennen gelernt. Viele interessante 

Probleme führen jedoch auf stochastische Differentialgleichungen, bei 

denen die Koeffizienten nicht Lipschitz-stetig sind. Im eindimensionalen Fall kann 

man mit speziellen Vergleichsmethoden zeigen, dass es ausreicht, dass σ Hölder- 

in der Ortsvariablen ist. 

stetig von der Ordnung 1 

2 

Satz 26.10 (Yamada-Watanabe). Wir betrachten die eindimensionale Situation 

m = n =1.EsgebeK0 und a, b ≥ 0 Parameter sind. Die Bedingungen 

von Satz 26.10 sind mit α = 1 

2 und K = √ γ + a erfüllt. Die eindeutige 

starke Lösung X hat offenbar die Eigenschaft, nichtnegativ zu bleiben, wenn 

X0 ≥ 0 ist. (Tatsächlich kann man sogar zeigen dass Xt > 0 für alle t>0 gilt, 

falls 2ab/γ ≥ 1, und dass Xt die Null mit Wahrscheinlichkeit 1 beliebig häufig 

trifft, falls 2ab/γ < 1. Siehe etwa [78, Beispiel IV.8.2, Seite 237]. Vergleiche Beispiel 

26.16.) 

Dieser Prozess wird je nach Kontext gelegentlich als Feller’sche Verzweigungsdiffusion 

mit Immigration oder als Cox-Ingersoll-Ross Modell für die zeitliche 

Entwicklung von Zinsraten bezeichnet. 

Wir berechnen für den Fall a = b =0mit der Itô-Formel, dass 

e −λXt − e −λx − γ λ2 

2 

� t 

e 

0 

−λXs � t 

Xs ds = λ 

0 

e −λXs 

� 

γXs dWs

1.5 

1 

0.5 

0 


5 10 15 20 25 30 

Abb. 26.1. Cox-Ingersoll-Ross Diffusion mit Parametern γ =1, b =1und a =0.3. Der 

Pfad trifft die Null immer wieder, da 2ab/γ =0.6 < 1 ist. 

2.5 

2 

1.5 

1 

0.5 

0 

5 10 15 20 25 30 

Abb. 26.2. Cox-Ingersoll-Ross Diffusion mit Parametern γ =1, b =1und a =2.DerPfad 

trifft die Null nie, da 2ab/γ =4≥ 1 ist. 

ein Martingal ist. Indem wir Erwartungswerte bilden, erhalten wir für die Laplace- 

Transformierte ϕ(t, λ, x) =Ex[e −λXt ] die Differentialgleichung 

d 

λ2 

ϕ(t, λ, x) =γ 

dt 2 E�Xt e −λXt� = − γλ2 

2 

d 

ϕ(t, λ, x). 

dλ 

Diese partielle Differentialgleichung hat mit dem Anfangswert ϕ(0,λ,x)=e −λx 

die eindeutige Lösung


� 

λ 

ϕ(t, λ, x) =exp − 

(γ/2)λt +1 x 

� 

. 

Dies ist aber (für γ =2) genau die Laplace-Transformierte der Übergangswahrscheinlichkeiten 

des Markov-Prozesses, den wir in Satz 21.48 definiert hatten und 

den wir im Satz von Lindvall (Satz 21.51) als Grenzwert von reskalierten Galton- 

Watson Verzweigungsprozessen kennen gelernt haben. ✸ 

26.2 Schwache Lösungen und Martingalproblem 

Im letzten Abschnitt haben wir starke Lösungen der stochastischen Differentialgleichung 

dXt = σ(t, Xt) dWt + b(t, Xt) dt (26.15) 

kennen gelernt. Diese zeichnen sich dadurch aus, dass jedem Pfad der Brown’schen 

Bewegung W genau ein Pfad der Lösung X zugeordnet wird. Wir wollen nun zum 

Begriff der schwachen Lösung kommen, bei der zusätzliche Information (das heißt 

zusätzlicher Zufall) in die Lösung mit eingehen kann. 

Definition 26.12 (Schwache Lösung einer SDGL). Eine schwache Lösung von 

(26.15) mit Startverteilung μ ∈M1(R n ) ist ein Tripel 

wobei gilt: 

L = � (X, W), (Ω,F, P), F � , 

– (Ω,F, P) ist ein Wahrscheinlichkeitsraum, 

– F = (Ft)t≥0ist eine Filtration auf (Ω,F, P), die die üblichen Bedingungen 

erfüllt, 

– W ist eine Brown’sche Bewegung auf (Ω,F, P) und bezüglich F ein Martingal. 

– X ist stetig und adaptiert (also progressiv messbar), 

– P ◦ (X0) −1 = μ, 

– sowie 

Xt = X0 + 

� t 

0 

σ(s, Xs) dWs + 

� t 

0 

b(s, Xs) ds P-f.s. (26.16) 

Eine schwache Lösung L heißt (schwach) eindeutig, falls für jede weitere Lösung 

L ′ mit Startverteilung μ gilt: P ′ ◦ (X ′ ) −1 = P ◦ X −1 . 

Bemerkung 26.13. Offenbar ist eine schwache Lösung einer SDGL stets eine verallgemeinerte 

n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig 

von t,soistdieLösung eine n-dimensionale Diffusion. ✸

26.2 Schwache Lösungen und Martingalproblem 561 

Bemerkung 26.14. Offenbar wird durch jede starke Lösung von (26.15) eine schwache 

Lösung definiert. Die Umkehrung ist falsch, wie wir im folgenden Beispiel sehen 

werden. ✸ 

Beispiel 26.15. Betrachte die SDGL (mit Startwert X0 =0) 

dXt =sign(Xt) dWt, (26.17) 

wobei sign = (0,∞) − (−∞,0) die Vorzeichenfunktion ist. Es gilt genau dann 

wenn 

� t 

Wt = 

0 

Xt = X0 + 

dWs = 

� t 

0 

� t 

0 

sign(Xs) dWs für alle t ≥ 0, (26.18) 

sign(Xs) dXs für alle t ≥ 0. (26.19) 

Folgendermaßen gelangen wir zu einer schwachen Lösung von (26.17). Sei X 

eine Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum (Ω,F, P) und 

F = σ(X). Definieren wir W durch (26.19), dann ist W ein stetiges F-Martingal 

mit quadratischer Variation 

〈W 〉t = 

� 1 

0 

(sign(Xs)) 2 ds = t. 

Nach der Lévy’schen Charakterisierung (Satz 25.28) ist W damit eine Brown’sche 

Bewegung. Also ist ((X, W), (Ω,F, P), F) eine schwache Lösung von (26.3). 

Um zu zeigen, dass es keine starke Lösung gibt, nehmen wir eine beliebige schwache 

Lösung her und zeigen, dass X nicht an σ(W ) adaptiert ist. Da X nach 

(26.18) ein stetiges Martingal mit quadratischer Variation 〈X〉t = t ist, ist X eine 

Brown’sche Bewegung. 

Seien Fn ∈ C 2 (R) konvexe gerade Funktionen mit Ableitungen F ′ n und F ′′ 

n , sodass 

� 

sup �Fn(x) −|x| 

x∈R 

� � n→∞ 

−→ 0, 

|F ′ n(x)| ≤1 für alle x ∈ R und F ′ n(x) =sign(x) für |x| > 1 

n . Insbesondere gilt 

� t 

und damit � t 

F ′ n(Xs) dXs 

0 

0 

� F ′ n(Xs) − sign(Xs) � 2 ds n→∞ 

−→ 0 f.s. 

n→∞ 

−→ 

� t 

0 

sign(Xs) dXs in L 2 . (26.20) 

Indem wir gegebenenfalls zu einer Teilfolge übergehen, können wir annehmen, dass 

in (26.20) fast sichere Konvergenz gilt.


Weil F ′′ 

n gerade ist, gilt 

� t 

Wt = 

0 

sign(Xs) dXs = lim 

� t 

F 

n→∞ 

0 

′ n(Xs) dXs 

� 

= lim Fn(Xt) − Fn(0) − 

n→∞ 

1 

2 

1 

= |Xt|− lim 

n→∞ 2 

� t 

0 

� t 

0 

F ′′ 

n (|Xs|) ds. 

F ′′ 

� 

n (Xs) ds 

Da die rechte Seite nur von |Xs|, s ∈ [0,t] abhängt, ist W an G := (σ(|Xs| : s ∈ 

[0,t])) adaptiert. Also ist σ(W ) ⊂ G�σ(X), und damit ist X nicht an σ(W ) 

adaptiert. ✸ 

Beispiel 26.16. Sei n ∈ N und B =(B 1 ,...,B n ) eine n-dimensionale Brown’sche 

Bewegung mit Start in y ∈ R n . Setze x := �y� 2 , Xt := �Bt� 2 =(B 1 t ) 2 + ...+ 

(B n t ) 2 und 

n� 

� t 

1 

Wt := √ B 

i=1 0 Xs 

i s dB i s. 

Dann ist W ein stetiges lokales Martingal mit 〈W 〉t = t für jedes t ≥ 0 und 

� t � 

Xt = x + nt + Xs dWs. 

Das heißt, (X, W) ist eine schwache Lösung der SDGL dXt = √ 2Xt dWt + ndt. 

X wird auch n-dimensionaler Bessel-Prozess genannt. Nach Satz 25.41 trifft B 

(und damit X) den Ursprung für ein t>0 genau dann, wenn n =1ist. Offenbar 

kann man X auch für nicht-ganzzahlig n ≥ 0 definieren. Man kann zeigen, dass X 

genau dann die Null trifft, wenn n ≤ 1 ist. Vergleiche Beispiel 26.11. ✸ 

Für den Zusammenhang von Existenz und Eindeutigkeit von schwachen Lösungen 

und starken Lösungen zitieren hier lediglich den Satz von Yamada und Watanabe. 

Definition 26.17 (Pfadweise Eindeutigkeit). Wir sagen, dass die Lösung der SDGL 

(26.15) mit Startverteilung μ pfadweise eindeutig ist, falls für jedes μ ∈M1(R n ) 

und je zwei schwache Lösungen (X, W) und (X ′ ,W) auf dem selben Raum 

(Ω,F, P) mit der selben Filtration F gilt: P[Xt = X ′ t für alle t ≥ 0] = 1. 

Satz 26.18 (Yamada und Watanabe). Es sind äquivalent: 

(i) Die SDGL (26.15) hat eine eindeutige starke Lösung. 

(ii) Für jedes μ ∈M1(Rn ) hat (26.15) eine schwache Lösung, und es gilt pfadweise 

Eindeutigkeit. 

Gelten (i) und (ii), so ist die Lösung schwach eindeutig. 

0


Beweis. Siehe [161], [140, Seite 151ff] oder [78, Seite 163ff]. ✷ 

Beispiel 26.19. Sei X eine schwache Lösung von (26.17). Dann ist auch −X eine 

schwache Lösung, das heißt, es gilt keine pfadweise Eindeutigkeit (obwohl man 

zeigen kann, dass die Lösung schwach eindeutig ist, siehe Satz 26.25). ✸ 

Wir betrachten den eindimensionalen Fall m = n =1.IstX eine Lösung (stark 

oder schwach) von (26.15), so ist 

Mt := Xt − 

� t 

0 

b(s, Xs) ds 

ein stetiges lokales Martingal mit quadratischer Variation 

〈M〉t = 

� t 

0 

σ 2 (s, Xs) ds. 

Wir werden sehen, dass hierdurch eine schwache Lösung von (26.15) charakterisiert 

ist (jedenfalls unter milden Wachstumsbedingungen and σ und b). 

Sei für alle t ≥ 0 und x ∈ Rn die n×n Matrix a(t, x) symmetrisch und nichtnegativ 

definit, und sei (t, x) ↦→ a(t, x) messbar. 

Definition 26.20. Wir sagen, dass ein n-dimensionaler stetiger Prozess X eine 

Lösung des lokalen Martingalproblems zu a und b mit Startverteilung μ ∈M1(Rn ) 

(kurz: LMP(a, b, μ)) ist, falls P ◦ X −1 

0 = μ ist und für jedes i =1,...,n 

M i t := X i � t 

t − 

0 

bi(s, Xs) ds, t ≥ 0, 

ein stetiges lokales Martingal ist mit quadratischer Kovariation 

〈M i ,M j � t 

〉t = 

0 

aij(s, Xs) ds für alle t ≥ 0, i,j=1,...,n. 

Wir sagen, dass die Lösung von LMP(a, b, μ) eindeutig ist, wenn für je zwei 

Lösungen X und X ′ gilt: P ◦ X −1 = P ◦ (X ′ ) −1 . 

Mit σ T bezeichnen wir die transponierte Matrix zu σ. Offenbar ist a = σσ T dann 

eine nichtnegativ semidefinite symmetrische n × n Matrix. 

Satz 26.21. X ist genau dann eine Lösung von LMP(σσ T ,b,μ), wenn es (gegebenenfalls 

auf einer Erweiterung des Wahrscheinlichkeitsraums) eine Brown’sche 

Bewegung W gibt, sodass (X, W) eine schwache Lösung von (26.15) ist. 

Insbesondere existiert genau dann eine eindeutige schwache Lösung der SDGL 

(26.15) mit Startverteilung μ, wennLMP(σσ T ,b,μ) eindeutig lösbar ist.


Beweis. Wir zeigen die Aussage nur für den Fall m = n =1. Der allgemeine Fall 

erfordert ein paar Betrachtungen über Wurzeln von nichtnegativ semidefiniten symmetrischen 

Matrizen, die jedoch für die Stochastik keine tiefere Einsicht bringen. 

Wir verweisen hier lediglich auf [86, Proposition 5.4.6]. 

” ⇐= “ Ist (X, W) eine schwache Lösung, dann löst X nach Korollar 25.19 das 

lokale Martingalproblem. 

” =⇒ “ Sei X eine Lösung von LMP(σ2 ,b,μ). Nach Satz 25.29 existiert auf einer 

Erweiterung des Wahrscheinlichkeitsraums eine Brown’sche Bewegung ˜ � 

W , sodass 

�σ(s, Xs) � � d ˜ Ws gilt. Setzen wir 

Mt = � t 

0 

� t 

Wt := 

0 

sign(σ(s, Xs)) d ˜ Ws, 

so ist Mt = � t 

0 σ(s, Xs) dWs, also (X, W) eine schwache Lösung von (26.15). ✷ 

Ein lokales Martingalproblem ist in gewissem Sinne eine sehr natürliche Art und 

Weise, um eine stochastische Differentialgleichung zu schreiben, nämlich als: 

X hat lokal die Ableitung (Drift) b und zusätzlich zufällige normalverteilte 

Fluktuationen von der Größenordnung σ. 

Eine konkrete Brown’sche Bewegung taucht hier gar nicht mehr auf, und bei den 

meisten Problemen ist ihr Auftreten auch eher artifiziell. Genau wie man bei der 

Beschreibung von Markovketten meist nur die Übergangswahrscheinlichkeiten angibt, 

nicht aber die konkrete Realisierung, wie dies etwa in Satz 17.17 beschrieben 

wird, möchte man bei vielen stetigen (Zeit und Ort) Prozessen nur die Größe der 

Fluktuationen angeben, nicht aber eine konkrete Realisierung. 

Technisch gesehen ist die Formulierung von stochastischen Differentialgleichungen 

als lokale Martingalprobleme sehr bequem, weil sie Zugang zu einer Reihe von 

Techniken schafft wie Martingalungleichungen und Approximationssätze für Martingale, 

mit denen sich Existenz und Eindeutigkeit von Lösungen etablieren lässt. 

Wir zitieren hier nur zwei wichtige Ergebnisse. 

Satz 26.22 (Existenz von Lösungen). Es seien (t, x) ↦→ b(t, x) und (t, x) ↦→ 

a(t, x) stetig und beschränkt. Dann existiert für jedes μ ∈M1(R n ) eine Lösung 

X des LMP(a, b, μ). 

Beweis. Siehe [140, Theorem V.23.5]. ✷ 

Definition 26.23. Wir sagen, dass das LMP(a, b) gut gestellt ist, wenn es für jedes 

x ∈ R n eine eindeutige Lösung X von LMP(a, b, δx) gibt. 

Bemerkung 26.24. Erfüllen σ und b die Lipschitzbedingungen wie in Satz 26.8, so 

ist das LMP(σσ T ,b) gut gestellt. Dies folgt aus Satz 26.8 und Satz 26.18. ✸

Im Folgenden gelte stets: 


(t, x) ↦→ σ(t, x) bzw. (t, x) ↦→ a(t, x) ist beschränkt auf kompakten Mengen. 

(26.21) 

Diese Bedingung sichert die Äquivalenz des lokalen Martingalproblems zu dem 

etwas gebräuchlicheren Martingalproblem (siehe [86, Proposition 5.4.11]). 

Satz 26.25 (Eindeutigkeit im Martingalproblem). Es gelte (26.21).Für jedes x ∈ 

R n existiere eine Lösung X x von LMP(a, b, δx), deren Verteilung wir mit Px := 

P ◦ (X x ) −1 bezeichnen. 

Für je zwei Lösungen X x und Y x von LMP(a, b, δx) gelte 

P ◦ (X x T ) −1 = P ◦ (Y x T ) −1 

für jedes T ≥ 0. (26.22) 

Dann ist LMP(a, b) gut gestellt, und der kanonische Prozess X ist ein starker Markovprozess 

bezüglich (Px, x∈ R n ).Ista = σσ T ,soistX unter Px die eindeutige 

schwache Lösung der SDGL (26.15). 

Beweis. Siehe [48, Theorem 4.4.1 und Problem 49] und [86, Proposition 5.4.11].✷ 

Eine wesentliche Stärke dieses Satzes liegt darin, dass wir die Eindeutigkeit nicht 

des gesamten Prozesses, sondern in (26.22) nur der eindimensionalen Randverteilungen 

prüfen müssen. Wir werden in Abschnitt 26.3 Beispiele dafür angeben, wie 

dies ausgenutzt werden kann. 

Die Frage nach der Existenz von Lösungen einer stochastischen Differentialgleichung 

(oder äquivalent: eines lokalen Martingalproblems) ist leichter zu beantworten 

als die Frage nach der Eindeutigkeit von Lösungen. Wir wissen bereits, dass 

Eindeutigkeit unter Lipschitzbedingungen an die Koeffizienten b und σ (nicht σσT !) 

gilt (nach Satz 26.8 und Satz 26.18), da hier starke Eindeutigkeit der Lösungen gilt. 

Eine vielleicht auf den ersten Blick verwirrende Erkenntnis ist, dass der Zufall stabilisierend 

wirken kann, dass also eine deterministische Differentialgleichung, deren 

Lösung nicht eindeutig ist, durch stochastische Störterme eindeutig lösbar werden 

kann. Dazu folgendes eindimensionale Beispiel: 

dXt =sign(Xt) |Xt| 1/3 dt + σdWt, X0 =0. (26.23) 

Ist σ = 0, so haben wir es mit einer deterministischen Differentialgleichung zu 

tun, die ein Kontinuum von Lösungen mit Parametern v ∈{−1, +1} und T ≥ 0 

hat, nämlich Xt = v 2 √ 2(t − T ) 3/2 {t>T }. Ist σ > 0, so wird die Instabilität 

der Gleichung (26.23) an x =0durch Verrauschen aufgelöst. Wir zitieren hier den 

folgenden Satz für den zeitunabhängigen Fall aus [140, Satz V.24.1] (siehe auch 

[149, Kapitel 10]).


Satz 26.26 (Stroock-Varadhan). Sei aij : R n → R stetig und bi : R n → R 

messbar für i, j =1,...,n. Es gelte 

(i) a(x) =(aij(x)) ist symmetrisch und strikt positiv definit für jedes x ∈ Rn , 

(ii) es gibt ein C 0 und jedes beschränkte, 

messbare f : R n → R. 

Konkrete Beispiele geben wir in Abschnitt 26.3 an. Wir wollen hier nur festhalten, 

dass wir eine spezielle Methode entwickelt haben, um Markovprozesse zu konstruieren, 

nämlich als Lösung einer stochastischen Differentialgleichung oder eines lokalen 

Martingalproblems. Im Rahmen von Modellen in diskreter Zeit haben wir in 

Kapitel 17.2 und speziell in Übung 17.2.1 bereits Markovketten als Lösungen von 

Martingalproblemen charakterisiert. Dass dort die Angabe der Drift und der quadratischen 

Variation ausreichte, um den Prozess eindeutig zu bestimmen, lag daran, 

dass wir die Möglichkeiten für das Ziel eines Schrittes auf drei Punkte begrenzt 

hatten. Hier hingegen ist die entscheidende Begrenzung die Stetigkeit der Prozesse. 

Übung 26.2.1. Sei der zeithomogene eindimensionale Fall (m = n =1) betrachtet. 

Seien σ und b so, dass es für jedes X0 ∈ R eine eindeutige schwache Lösung von 

−∞ 

dXt = σ(Xt) dWt + b(Xt) dt 

existiert und ein starker Markovprozess ist. Ferner gebe es ein x0 ∈ R mit 

� ∞ 

1 

C := 

σ2 (x) exp 

�� x 

2b(r) 

σ2 (r) dr 

� 

dr < ∞. 

(i) Man zeige: Das Maß π ∈M1(R) mit Dichte 

x0 

π(dx) 

dx = C−1 1 

σ 2 (x) exp 

�� x 

x0 

2b(r) 

σ2 (r) dr 

� 

ist eine invariante Verteilung für X. 

(ii) Für welche Werte von b hat der Ornstein-Uhlenbeck Prozess dXt = σdWt + 

bXt dt eine invariante Verteilung? Man bestimme diese Verteilung und vergleiche 

das Ergebnis mit dem, was nach expliziter Rechnung mit der Darstellung 

in (26.3) zu erwarten war. 

(iii) Man bestimme die invariante Verteilung der Cox-Ingersoll-Ross SDGL (26.14) 

(alias Feller’sche Verzweigungsdiffusion).

26.3 Eindeutigkeit schwacher Lösungen via Dualität 567 

(iv) Seien γ,c > 0 und θ ∈ (0, 1). Man zeige, dass die invariante Verteilung der 

Lösung X der folgenden SDGL auf [0, 1] 

dXt = � γXt(1 − Xt) dWt + c(θ − Xt) dt 

gegeben ist durch die Betaverteilung β 2cγ/θ, 2cγ/(1−θ). ♣ 

Übung 26.2.2. Sei γ>0. Seien X 1 und X 2 Lösungen von dX i t = � γX i t dW i t , 

wo W 1 und W 2 zwei unabhängige Brown’sche Bewegungen sind, mit Startwerten 

X 1 0 = x 1 0 > 0 und X 2 0 = x 2 0 > 0. Man zeige, dass Z := X 1 + X 2 eine schwache 

Lösung ist von Z0 =0und dZt = √ γZt dWt. ♣ 

26.3 Eindeutigkeit schwacher Lösungen via Dualität 

Mit dem Satz von Stroock und Varadhan haben wir ein starkes Kriterium für die 

Existenz und Eindeutigkeit von Lösungen von stochastischen Differentialgleichungen. 

In vielen Fällen ist jedoch gerade die Bedingung der lokal gleichgradigen Elliptizität 

von a (Bedingung (i) in Satz 26.26) nicht erfüllt. Dies trifft insbesondere 

dann zu, wenn die Lösungen nur auf Teilmengen von Rn definiert sind. 

Wir werden hier ein mächtiges Hilfsmittel kennen lernen, das in vielen Spezialfällen 

schwache Eindeutigkeit von Lösungen sichert. 

Definition 26.27 (Dualität). Seien X =(X x ,x∈ E) und Y =(Y y ,y∈ E ′ ) Familien 

von stochastischen Prozessen mit Werten in den Räumen E beziehungsweise 

E ′ und so, dass X x 0 = x f.s. und Y y 

0 = y f.s. für alle x ∈ E und y ∈ E′ .Wirsagen, 

dass X und Y dual zueinander sind mit Dualitätsfunktion H : E × E ′ → C, 

falls für alle x ∈ E, y ∈ E ′ und t ≥ 0 die Erwartungswerte E � H(X x t ,y) � und 

E � H(x, Y y 

t ) � existieren und gleich sind: 

E � H(X x t ,y) � = E � H(x, Y y 

t ) � . 

Wir nehmen im Folgenden an, dass σij : R n → R und bi : R n → R beschränkt auf 

kompakten Mengen sind für alle i =1,...,n, j =1,...,m. Wir betrachten die 

zeithomogene stochastische Differentialgleichung 

dXt = σ(Xt) dWt + b(Xt) dt. (26.24) 

Satz 26.28 (Eindeutigkeit via Dualität). Für jedes x ∈ R n existiere eine Lösung 

des lokalen Martingalproblems zu (σσ T ,b,δx). Es gebe eine Familie (Y y ,y∈ E ′ ) 

von Markovprozessen mit Werten in dem Messraum (E ′ , E ′ ) und eine messbare Ab- 

bildung H : R n × E ′ → C, sodass für jedes y ∈ E ′ , x ∈ R n und t ≥ 0 der Erwar- 

tungswert E[H(x, Y y 

t )] existiert und endlich ist. Ferner sei (H( · ,y), y∈ E ′ ) eine 

trennende Funktionenklasse für M1(R n ) (siehe Definition 13.9).


Für jedes x ∈ R n und jede Lösung X x von LMP(σσ T ,b,δx) gelte die Dualitätsgleichung 

E[H(X x t ,y)] = E[H(x, Y y 

t )] für alle y ∈ E ′ ,t≥ 0. (26.25) 

Dann ist das lokale Martingalproblem zu (σσ T ,b) gut gestellt, also besitzt (26.24) 

eine eindeutige schwache Lösung und diese ist ein starker Markovprozess. 

Beweis. Nach Satz 26.25 reicht es zu prüfen, dass für jedes x ∈ R n , jede Lösung 

X x von LMP(σσ T ,b,δx) und jedes t ≥ 0 die Verteilung P ◦ (X x t ) −1 eindeutig 

ist. Da (H( · ,y), y∈ E ′ ) eine trennende Funktionenklasse ist, folgt dies aber aus 

(26.16). ✷ 

Beispiel 26.29 (Wright-Fisher Diffusion). Betrachte die Wright-Fisher SDGL 

dXt = [0,1](Xt) � γXt(1 − Xt) dWt, (26.26) 

wobei γ > 0 ein Parameter ist. Nach Satz 26.22 existiert für jedes x ∈ R eine 

schwache Lösung ( ˜ X,W) von (26.26). ˜ X ist ein stetiges lokales Martingal mit 

quadratischer Variation 

1 

0.8 

0.6 

0.4 

0.2 

0 

� � 

˜X 

t = 

� t 

0 

γ ˜ Xs(1 − ˜ Xs) [0,1]( ˜ Xs) ds. 

0.2 0.4 0.6 0.8 1 1.2 

Abb. 26.3. Simulation einer Wright-Fisher Diffusion mit Parameter γ =1. 

Sei τ := inf{t >0: ˜ Xt �∈ [0, 1]} und X := ˜ Xτ der in τ gestoppte Prozess. Dann 

ist X ein stetiges, beschränktes Martingal mit 

〈X〉t = 

� t 

0 

γXs(1 − Xs) [0,1](Xs) ds,


also ist (X, W) eine Lösung von (26.26). Nach Konstruktion ist Xt ∈ [0, 1] für alle 

t ≥ 0, falls X0 = ˜ X0 ∈ [0, 1] ist. 

Sei τ ′ := inf{t >0: ˜ Xt ∈ [0, 1]}. Ist ˜ X0 �∈ [0, 1], soistτ ′ > 0, weil ˜ X stetig ist. 

Weil ˜ ′ 

τ X 

ein stetiges lokales Martingal ist mit � ˜ X τ ′� ≡ 0, ist ˜ X τ ′ 

t = ˜ X0 für alle 

t ≥ 0. Daraus folgt aber, dass ˜ Xt = ˜ X0 ist für alle t0 und t ≥ 0 gilt wegen der Markov-Eigenschaft von Y 

g x,n � � � � Yt+h 

Yt (t + h) =En x = En EYh x �� 

= 

= 

n� 

m=1 

� Yt Pn[Yh = m] Em x � 

n� 

Pn[Yh = m] g x,m (t). 

m=1


Es folgt 

d 

dt gx,n � 

−1 

(t) = lim h g 

h↓0 x,n (t + h) − g x,n � 

(t) 

n� 

Pn[Yh = m] � g x,m (t) − g x,n � 

(t) 

= lim 

h↓0 h −1 

= 

m=1 

n� 

q(n, m) g x,m (t) 

m=1 

� � 

n 

� 

= γ g 

2 

x,n−1 (t) − g x,n � 

(t) . 

(26.29) 

Offenbar ist g x,1 (t) =x für alle x ∈ [0, 1] und t ≥ 0 und g x,n (0) = x n . Das heißt, 

g x,n löst (26.28), und daher gilt (26.27). 

Nach Satz 15.4 ist die Familie (H( · ,n), n ∈ N) ⊂ C([0, 1]) trennend für 

M1([0, 1]), also sind die Bedingungen von Satz 26.28 erfüllt, und X ist die eindeutige 

schwache Lösung von (26.26) und ist ein starker Markovprozess. ✸ 

Bemerkung 26.30. Das Martingalproblem für die Wright-Fisher Diffusion sieht 

fast genauso aus wie das diskrete Martingalproblem für das Moran-Modell (siehe 

Beispiel 17.22) M N =(M N n )n∈N0 mit Populationsgröße N: M N ist ein Martingal 

mit Werten in der Menge {0, 1/N,...,(N − 1)/N, 1} quadratischem Variations- 

prozess 

� M N � 

n 

2 

= 

N 2 

n−1 � 

k=0 

M N k 

� � N 

1 − Mk . 

In jedem Schritt kann M N nur entweder am Ort bleiben oder um 1/N nach oben 

oder unten springen. In Übung 17.2.1 hatten wir gesehen, dass dadurch der Prozess 

M N schon eindeutig beschrieben ist. Man kann zeigen, ähnlich wie in Satz 21.51 

für Verzweigungsprozesse, dass die zeitlich reskalierten Moran-Prozesse ˜ M N t = 

M N ⌊N 2t⌋ gegen die Wright-Fisher Diffusion mit γ =2konvergieren. Die Wright- 

Fisher Diffusion tritt also als Limes-Modell eines genealogischen Modells auf und 

beschreibt die Genfrequenz (das heißt, den relativen Anteil) eines bestimmten Allels 

in einer Population, die durch die Generationenfolge in zufälliger Weise fluktuiert. 

✸ 

Beispiel 26.31 (Feller’sche Verzweigungsdiffusion). Sei (ZN n )n∈N0 ein Galton- 

Watson Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung 

pk =2−k−1 , k ∈ N0 und ZN 0 = N für jedes N ∈ N. DannistZNein diskretes 

Martingal, und es gilt 

��ZN E n − Z N � � � 

2 ��Z N 

n−1 n−1 = Z N n−1 

� ∞ � 

k=0 

pk k 2 � 

− 1 =2Z N n−1.

3 

2 

1 

0 


1 2 3 4 5 

Abb. 26.4. Simulation einer Feller’schen Verzweigungsdiffusion mit Parameter γ =1. 

Daher hat Z N die quadratische Variation 

Sei nun 

〈Z N n−1 � 

〉n = 

k=0 

2Z N k . 

Z N t := � t − N −1 � � 

⌊tN⌋ Z N ⌊tN⌋+1 − ZN � 

⌊tN⌋ + 1 

n ZN ⌊tN⌋ 

eine linear interpolierte Version von N −1Z N ⌊tN⌋ . Nach dem Satz von Lindvall 

N N→∞ 

(Satz 21.51) gibt es einen stetigen Markovprozess Z, sodass Z −→ Z in Verteilung 

gilt. Da man zeigen kann, dass auch die Momente konvergieren, gilt, dass Z 

ein stetiges Martingal ist und quadratische Variation 

〈Z〉t = 

� t 

0 

2Zs ds 

hat. Tatsächlich hatten wir in Beispiel 26.11 bereits gezeigt, dass Z die Lösung der 

SDGL 

dZt = � 2Zt dWt 

(26.30) 

mit Start in Z0 =1ist. Dort hatten wir auch gezeigt, dass Z dual ist zu Y y 

t = 

� tγ 

2 

�−1 1 + y 

mit H(x, y) =e−xy . Hieraus folgt die Eindeutigkeit der Lösung von 

(26.30) und die starke Markoveigenschaft von Z. ✸ 

Man kann einwenden, dass in den Beispielen 26.29 und 26.31 nur eindimensionale 

Situationen betrachtet wurden, für die wir nach dem Satz von Yamada- 

Watanabe (Satz 26.10) sowieso schon um die Eindeutigkeit sogar einer starken


Lösung wissen. Die wahre Stärke der Methode der Dualität kann sich also erst in 

höherdimensionalen Problemen entfalten. Hierzu betrachten wir als Beispiel eine 

Erweiterung von Beispiel 26.29. 

Beispiel 26.32 (Wechselwirkende Wright-Fisher Diffusionen). 

Die Wright-Fisher Diffusion aus Beispiel 26.29 beschreibt die Fluktuationen der 

Genfrequenz eines Allels in einer großen Population. Wir wollen nun mehrere Populationen 

betrachten, die auf den Punkten i ∈ S := {1,...,N} leben, und miteinander 

durch Migration, die durch Wechselwirkungsraten r(i, j) ≥ 0 quantifiziert 

wird, in Wechselwirkung stehen. Als Modell für die Genfrequenzen Xt(i) 

am Ort i zur Zeit t stellen wir daher die folgende N-dimensionale SDGL für 

X =(X(1),...,X(N)) auf: 

dXt(i) = � γXt(i)(1 − Xt(i)) dW i N� 

t + r(i, j) � Xt(j) − Xt(i) � dt. (26.31) 

Dabei ist W =(W 1 ,...,W N ) eine N-dimensionale Brown’sche Bewegung. Diese 

SDGL hat nach Satz 26.22 schwache Lösungen, jedoch greift keines unserer 

allgemeinen Kriterien für schwache Eindeutigkeit. Wir werden daher die schwache 

Eindeutigkeit vermittels Dualität zeigen. 

Es ist, ähnlich wie in Beispiel 26.29, nicht schwer zu zeigen, dass Lösungen von 

(26.31), die in X0 = x ∈ E := [0, 1] S starten, in [0, 1] S bleiben. Die Diagonalterme 

r(i, i) tauchen in (26.31) nicht auf, daher können wir sie noch beliebig festsetzen 

und wählen r(i, i) = − � 

j�=i r(i, j). SeiY = (Yt)t≥0 der Markovprozess auf 

E ′ := SN0 mit der folgenden Q-Matrix 

⎧ 

j=1 

ϕ(i) r(i, j), falls η = ϕ − {i} + {j} für 

gewisse i, j ∈ S, i �= j, 

⎪⎨ 

q(ϕ, η) = 

γ 

⎪⎩ 

� � ϕ(i) 

2 , falls η = ϕ − {i} für ein i ∈ S, 

� � 

ϕ(i)r(i, i) − γ 

i∈S 

� � ϕ(i) 

2 

� 

, falls η = ϕ, 

0, sonst. 

Dabei bezeichnet ϕ ∈ E ′ einen generischen Zustand mit ϕ(i) Teilchen am Ort 

i ∈ S, und {i} ∈ E ′ bezeichnet den Zustand mit genau einem Teilchen am Ort 

i. Der Prozess Y beschreibt ein System von Teilchen, die unabhängig voneinander 

mit Rate r(i, j) vom Ort i zum Ort j springen. Sind mehrere Teilchen an einem Ort 

i, so verschmilzt jedes der � � ϕ(i) 

2 Paare von Teilchen mit der selben Rate γ zu einem 

Teilchen. Die gängige genealogische Interpretation dieses Prozesses ist, dass er (in 

umgekehrter Zeit) die Ahnenlinien einer Stichprobe von je Y0(i) Individuen ein den 

Orten i ∈ S, beschreibt. Durch Migration wechseln die Linien den Ort. Haben zwei 

Individuen den selben Vorfahren, so verschmelzen zwei Linien. Offenbar ist für 

einen gemeinsamen Vorfahren notwendig aber nicht hinreichend, dass beide Linien 

am selben Ort sind.


Für x ∈ R n und ϕ ∈ E ′ schreiben wir x ϕ := � 

i∈S x(i)ϕ(i) . Wir zeigen, dass X 

und Y dual zueinander sind mit der Dualitätsfunktion H(x, ϕ) =x ϕ : 

Ex[X ϕ 

t ]=Eϕ[x Yt ] für alle ϕ ∈ S N0 ,x∈ [0, 1] S ,t≥ 0. (26.32) 

Sei mx,ϕ (t) :=Ex[X ϕ 

t ] und gx,ϕ (t) :=Eϕ[xYt ]. Offenbar hat H die Ableitungen 

∂iH( · ,ϕ)(x) =ϕ(i)xϕ− {i} und ∂i∂iH( · ,ϕ)(x) =2 � � ϕ(i) ϕ−2 

2 x {i}. Nach der 

Itô-Formel ist 

X ϕ 

t − X ϕ 

0 − 

� t 

0 

� 

ϕ(i)r(i, j) � Xs(j) − Xs(i) � X ϕ− {i} 

ds 

i,j∈S 

− � 

i∈S 

� t 

0 

t 

� � 

ϕ(i) �Xs(i)(1 γ 

− Xs(i)) 

2 

� X ϕ−2 {i} 

s ds 

ein Martingal. Indem wir Erwartungswerte bilden, erhalten wir ein System von linearen 

Integralgleichungen 

m x,0 (t) =1 

m x,ϕ (t) =x ϕ � t � 

+ 

0 

i,j∈S 

� t 

+ 

0 

� 

ϕ(i)r(i, j) m x,ϕ+ � 

{j}− {i}(s) x,ϕ 

− m (s) ds 

γ � 

� � 

ϕ(i) 

� 

m 

2 

x,ϕ− � 

{i} x,ϕ 

(s) − m (s) ds. 

i∈S 

(26.33) 

Dieses System von Gleichungen lässt sich per Induktion über n = � 

i∈I ϕ(i) 

eindeutig lösen. Wir wollen die Lösung jedoch nicht explizit ausrechnen, sondern 

nur zeigen, dass sie mit g x,ϕ (t) übereinstimmt, indem wir zeigen, dass g ein 

äquivalentes System von Differentialgleichungen löst. 

Für g erhalten wir wie in (26.29) 

d 

dt gx,ϕ (t) = � 

η∈E ′ 

q(ϕ, η) g x,ϕ (t) 

= � � 

r(i, j) g x,ϕ+ � 

{j}− {i}(t) x,ϕ 

− g (t) 

i,j∈S 

+ � 

� � 

ϕ(i) 

� 

γ g 

2 

x,ϕ− � 

{i} x,ϕ 

(t) − g (t) . 

i∈S 

(26.34) 

Zusammen mit dem Startwert g x,0 (t) =1und g x,ϕ (0) = x ϕ ist das System (26.34) 

von Differentialgleichungen äquivalent zu (26.33). Also gilt die Dualität (26.32), 

und damit ist die SDGL (26.31) eindeutig schwach lösbar. (Tatsächlich kann man 

zeigen, dass es eine eindeutige starke Lösung gibt, sogar wenn S abzählbar unendlich 

ist und r gewisse Regularitätsannahmen erfüllt, beispielsweise die Q-Matrix 

einer Irrfahrt auf S = Z d ist, siehe [144].) ✸


Übung 26.3.1 (Aussterbewahrscheinlichkeit der Feller’schen Verzweigungsdiffusion). 

Sei γ > 0 und Z die Lösung von dZt := √ γZt dWt mit Anfangswert 

Z0 = z>0. Man zeige mit Hilfe der Dualität 

� 

Pz[Zt =0]=exp − 2z 

� 

. (26.35) 

γt 

Man bestimme mit Hilfe von Lemma 21.44 die Wahrscheinlichkeit, dass ein Galton- 

Watson Verzweigungsprozess X mit kritischer, geometrischer Nachkommenverteilung 

und X0 = N ∈ N bis zur Zeit n ∈ N ausgestorben ist und vergleiche das 

Ergebnis mit (26.35). ♣

Literatur 

1. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and 

continuity of connectivity functions for short and long range percolation. Comm. Math. 

Phys., 111(4):505–531, 1987. 

2. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and related 

results in percolation. In Percolation theory and ergodic theory of infinite particle 

systems (Minneapolis, Minn., 1984–1985), volume 8 of IMA Vol. Math. Appl., pages 

13–20. Springer, New York, 1987. 

3. David J. Aldous. Exchangeability and related topics. In École d’été de probabilités de 

Saint-Flour, XIII—1983, volume 1117 of Lecture Notes in Math., pages 1–198. Springer, 

Berlin, 1985. 

4. Krishna B. Athreya und Peter E. Ney. Branching Processes. Springer-Verlag, Berlin, 

1972. 

5. Jacques Azéma und Marc Yor. Le problème de Skorokhod: compléments à“Unesolution 

simple au problème de Skorokhod”. In Séminaire de Probabilités, XIII (Univ. 

Strasbourg, Strasbourg, 1977/78), volume 721 of Lecture Notes in Math., pages 625– 

633. Springer, Berlin, 1979. 

6. Jacques Azéma und Marc Yor. Une solution simple au problème de Skorokhod. In 

Séminaire de Probabilités, XIII (Univ. Strasbourg, Strasbourg, 1977/78), volume 721 

of Lecture Notes in Math., pages 90–115. Springer, Berlin, 1979. 

7. Martin Barner und Friedrich Flohr. Analysis. II. de Gruyter Lehrbuch. Walter de Gruyter 

& Co., Berlin, 2. Auflage, 1989. 

8. Martin Barner und Friedrich Flohr. Analysis. I. de Gruyter Lehrbuch. Walter de Gruyter 


9. Heinz Bauer. Maß - und Integrationstheorie. de Gruyter Lehrbuch. Walter de Gruyter 


10. Heinz Bauer. Wahrscheinlichkeitstheorie. de Gruyter Lehrbuch. Walter de Gruyter & 

Co., Berlin, 5. Auflage, 2002. 

11. Leonard E. Baum und Melvin Katz. Convergence rates in the law of large numbers. 

Trans. Amer. Math. Soc., 120:108–123, 1965. 

12. M Baxter und R. Rennie. Financial Calculus. Cambridge University Press, Cambridge, 

1997. 

13. Andrew C. Berry. The accuracy of the gaussian approximation to the sum of independent 

variates. Trans. Amer. Math. Soc., 49:122–136, 1941. 

14. Patrick Billingsley. Convergence of probability measures. John Wiley & Sons Inc., 

New York, 1968. 

15. Patrick Billingsley. Weak convergence of measures: Applications in probability. Society 

for Industrial and Applied Mathematics, Philadelphia, Pa., 1971. Conference Board of 

the Mathematical Sciences Regional Conference Series in Appl. Mathematics, No. 5.

576 Literatur 

16. Patrick Billingsley. Probability and measure. Wiley Series in Probability and Mathematical 

Statistics. John Wiley & Sons Inc., New York, 3. Auflage, 1995. A Wiley- 

Interscience Publication. 

17. Patrick Billingsley. Convergence of probability measures. Wiley Series in Probability 

and Statistics: Probability and Statistics. John Wiley & Sons Inc., New York, 2. Auflage, 

1999. A Wiley-Interscience Publication. 

18. K. Binder und D. W. Heermann. Monte Carlo simulation in statistical physics, An 

introduction, volume 80 of Springer Series in Solid-State Sciences. Springer-Verlag, 

Berlin,3.Auflage, 1997. 

19. R. M. Blumenthal. An extended Markov property. Trans. Amer. Math. Soc., 85:52–72, 

1957. 

20. Salomon Bochner. Vorlesungen über Fouriersche Integrale. Chelsea Publishing Company, 

New York, 1932. Nachdruck von 1948. 

21. Leo Breiman. Probability. Addison-Wesley Publishing Company, Reading, Mass., 

1968. 

22. Brockhaus. Die Enzyklopädie in 24 Bänden. F.A. Brockhaus, Mannheim, 20. Auflage, 

1998. 

23. Jörg Brüdern. Einführung in die analytische Zahlentheorie. Springer-Verlag, Berlin 

Heidelberg, 1995. 

24. Dirk Brüggemann. Starke Gesetze der großen Zahlen bei blockweisen Unabhängigkeitsbedingungen. 

Dissertation, Universität zu Köln, 2002. 

25. R. M. Burton und M. Keane. Density and uniqueness in percolation. Comm. Math. 

Phys., 121(3):501–505, 1989. 

26. Gustave Choquet und Jacques Deny. Sur l’équation de convolution μ = μ ∗ σ. C. R. 

Acad. Sci. Paris, 250:799–801, 1960. 

27. Yuan Shih Chow und Henry Teicher. Probability theory: Independence, interchangeability, 

martingales. Springer Texts in Statistics. Springer-Verlag, New York, 3. Auflage, 

1997. 

28. K. L. Chung und W. H. J. Fuchs. On the distribution of values of sums of random 

variables. Mem. Amer. Math. Soc., 1951(6):12, 1951. 

29. Peter Clifford und Aidan Sudbury. A model for spatial conflict. Biometrika, 60:581– 

588, 1973. 

30. Harald Cramér. Sur un nouveau théorème-limite de la théorie des probabilités. Actualités 

Scientifiques et Industrielles, 763:5–23, 1938. Colloque consacré àlathéorie des 

probabilités. 

31. Freddy Delbaen und Walter Schachermayer. A general version of the fundamental 

theorem of asset pricing. Math. Ann., 300(3):463–520, 1994. 

32. Amir Dembo und Ofer Zeitouni. Large deviations techniques and applications, volume 

38 of Applications of Mathematics (New York). Springer-Verlag, New York, 2. 

Auflage, 1998. 

33. Jean-Dominique Deuschel und Daniel W. Stroock. Large deviations, volume 137 of 

Pure and Applied Mathematics. Academic Press Inc., Boston, MA, 1989. 

34. J. Dieudonné. Foundations of Modern Analysis, volume X of Pure and Applied Mathematics. 

Academic Press, New York und London, 1960. 

35. Monroe D. Donsker. An invariance principle for certain probability limit theorems. 

Mem. Amer. Math. Soc.,, 1951(6):12, 1951. 

36. Peter G. Doyle und J. Laurie Snell. Random walks and electric networks, volume 22 of 

Carus Mathematical Monographs. Mathematical Association of America, Washington, 

DC, 1984.

Literatur 577 

37. R. M. Dudley. Real analysis and probability, volume 74 of Cambridge Studies in 

Advanced Mathematics. Cambridge University Press, Cambridge, 2002. Revidierter 

Nachdruck der Originalausgabe von 1989. 

38. Richard Durrett. Probability: theory and examples. Duxbury Press, Belmont, CA, 2. 


39. Aryeh Dvoretzky, Paul Erdős und Shizuo Kakutani. Nonincrease everywhere of the 

Brownian motion process. In Proc. 4th Berkeley Sympos. Math. Statist. and Prob., Vol. 

II, pages 103–116. Univ. California Press, Berkeley, Calif., 1961. 

40. Dmitri Egoroff. Sur les suites des fonctions measurables. C. R. Acad. Sci, Paris, 

152:135–157, 1911. 

41. Robert J. Elliott und P. Ekkehard Kopp. Mathematics of financial markets. Springer 

Finance. Springer-Verlag, New York, 1999. 

42. Richard S. Ellis. Entropy, large deviations, and statistical mechanics, volume 271 of 

Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, New York, 1985. 

43. Jürgen Elstrodt. Maß- und Integrationstheorie. Springer-Verlag, New York, 3. Auflage, 

1999. 

44. P. Erdős und R. L. Graham. On a linear diophantine problem of Frobenius. Acta Arith., 

21:399–408, 1972. 

45. Carl-Gustav Esseen. On the liapounoff limit of error in the theory of probability. Ark. 

Mat. Astr. och Fys., 28A(9):1–19, 1942. 

46. Nasrollah Etemadi. An elementary proof of the strong law of large numbers. Z. 

Wahrsch. Verw. Gebiete, 55(1):119–122, 1981. 

47. Alison Etheridge. A course in financial calculus. Cambridge University Press, Cambridge, 

2002. 

48. Stewart N. Ethier und Thomas G. Kurtz. Markov processes, Characterization and convergence. 

Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical 

Statistics. John Wiley & Sons Inc., New York, 1986. 

49. Steven N. Evans und Xiaowen Zhou. Identifiability of exchangeable sequences with 

identically distributed partial sums. Electron. Comm. Probab., 4:9–13 (electronic), 

1999. 

50. William Feller. Über den zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie I. 

Mathematische Zeitschrift, 40:521–559, 1935. 

51. William Feller. Über den zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie II. 


52. William Feller. An introduction to probability theory and its applications. Vol. I. John 

Wiley & Sons Inc., New York, 3. Auflage, 1968. 

53. William Feller. An introduction to probability theory and its applications. Vol. II. John 

Wiley & Sons Inc., New York, 2. Auflage, 1971. 

54. James Allen Fill. An interruptible algorithm for perfect sampling via Markov chains. 

Ann. Appl. Probab., 8(1):131–162, 1998. 

55. James Allen Fill, Motoya Machida, Duncan J. Murdoch und Jeffrey S. Rosenthal. Extension 

of Fill’s perfect rejection sampling algorithm to general chains. In Proceedings 

of the Ninth International Conference “Random Structures and Algorithms” (Poznan, 

1999), volume 17, pages 290–316, 2000. 

56. Hans Föllmer und Alexander Schied. Stochastic finance, volume 27 of de Gruyter 

Studies in Mathematics. Walter de Gruyter & Co., Berlin, 2002. 

57. Peter Gänssler und Winfried Stute. Wahrscheinlichkeitstheorie. Springer-Verlag, Berlin, 

1977. 

58. Hans-Otto Georgii. Stochastik. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin, 

2003.

578 Literatur 

59. Alison L. Gibbs und Francis Edward Su. On choosing and bounding probability metrics. 

International Statistical Review, 70(3):419–435, 2002. 

60. M. L. Glasser und I. J. Zucker. Extended Watson integrals for the cubic lattices. Proc. 

Nat. Acad. Sci. U.S.A., 74(5):1800–1801, 1977. 

61. B. V. Gnedenko und A. N. Kolmogorov. Limit distributions for sums of independent 

random variables. Addison-Wesley Publishing Co., Reading, Mass.-London-Don 

Mills., Ont., 1968. 

62. Geoffrey Grimmett. Percolation, volume 321 of Grundlehren der Mathematischen Wissenschaften. 

Springer-Verlag, Berlin, 2. Auflage, 1999. 

63. Geoffrey R. Grimmett und David R. Stirzaker. Probability and random processes. Oxford 

University Press, New York, 3. Auflage, 2001. 

64. E. Grosswald. The Student t-distribution of any degree of freedom is infinitely divisible. 

Z. Wahrscheinlichkeitstheorie und Verw. Gebiete, 36(2):103–109, 1976. 

65. Olle Häggström. Finite Markov chains and algorithmic applications, volume 52 of 

London Mathematical Society Student Texts. Cambridge University Press, Cambridge, 

2002. 

66. Takashi Hara und Gordon Slade. Mean-field critical behaviour for percolation in high 

dimensions. Comm. Math. Phys., 128(2):333–391, 1990. 

67. J. Michael Harrison und Stanley R. Pliska. Martingales and stochastic integrals in the 

theory of continuous trading. Stochastic Process. Appl., 11(3):215–260, 1981. 

68. Philip Hartman und Aurel Wintner. On the law of the iterated logarithm. Amer. J. Math., 

63:169–176, 1941. 

69. W.K. Hastings. Monte Carlo sampling methods using Markov chains and their applications. 

Biometrika, 57:97–109, 1970. 

70. Edwin Hewitt und Kenneth A. Ross. Abstract harmonic analysis. Vol. II: Structure and 

analysis for compact groups. Analysis on locally compact Abelian groups. Die Grundlehren 

der mathematischen Wissenschaften, Band 152. Springer-Verlag, New York, 

1970. 

71. Edwin Hewitt und Leonard J. Savage. Symmetric measures on Cartesian products. 

Trans. Math. Soc., 80:470–501, 1955. 

72. C.C. Heyde. On a property of the lognormal distribution. J. Royal Stat. Soc. B, 29:392– 

393, 1963. 

73. Friedrich Hirzebruch und Winfried Scharlau. Einführung in die Funktionalanalysis. 

Bibliographisches Institut, Mannheim, 1971. B. I.-Hochschultaschenbücher, No. 296. 

74. Frank den Hollander. Large deviations, volume 14 of Fields Institute Monographs. 

American Mathematical Society, Providence, RI, 2000. 

75. Richard A. Holley und Thomas M. Liggett. Ergodic theorems for weakly interacting 

infinite systems and the voter model. Ann. Probability, 3(4):643–663, 1975. 

76. Barry D. Hughes. Random walks and random environments. Vol. 1. Oxford Science 

Publications. The Clarendon Press Oxford University Press, New York, 1995. Random 

walks. 

77. Barry D. Hughes. Random walks and random environments. Vol. 2. Oxford Science 

Publications. The Clarendon Press Oxford University Press, New York, 1996. Random 

environments. 

78. Nobuyuki Ikeda und Shinzo Watanabe. Stochastic differential equations and diffusion 

processes, volume 24 of North-Holland Mathematical Library. North-Holland Publishing 

Co., Amsterdam, 2. Auflage, 1989. 

79. Albrecht Irle. Finanzmathematik. Teubner Studienbücher Mathematik. B. G. Teubner, 

Stuttgart, 1998.

Literatur 579 

80. Jürgen Jost. Partielle Differentialgleichungen. Springer, Berlin, 1998. 

81. G. S. Joyce. Singular behaviour of the lattice Green function for the d-dimensional 

hypercubic lattice. J. Phys. A, 36(4):911–921, 2003. 

82. Shizuo Kakutani. Examples of ergodic measure preserving transformations which are 

weakly mising but not strongly mixing. In Recent advances in topological dynamics 

(Proc. Conf., Yale Univ., New Haven, Conn., 1972; in honor of Gustav Arnold Hedlund), 

pages 143–149. Lecture Notes in Math., Vol. 318. Springer, Berlin. 

83. Olav Kallenberg. Random measures. Akademie-Verlag, Berlin, 4. Auflage, 1986. 

84. Olav Kallenberg. Foundations of Modern Probability. Probability and Its Applications. 

Springer Verlag, New York, Berlin, 2. Auflage, 2002. 

85. L. V. Kantorovič und G. ˇS. Rubinˇsteĭn. On a space of completely additive functions. 

Vestnik Leningrad. Univ., 13(7):52–59, 1958. 

86. Ioannis Karatzas und Steven E. Shreve. Brownian motion and stochastic calculus, volume 

113 of Graduate Texts in Mathematics. Springer-Verlag, New York, 2. Auflage, 

1991. 

87. Ioannis Karatzas und Steven E. Shreve. Methods of mathematical finance, volume 39 

of Applications of Mathematics (New York). Springer-Verlag, New York, 1998. 

88. Gerhard Keller. Equilibrium states in ergodic theory, volume 42 of London Mathematical 

Society Student Texts. Cambridge University Press, Cambridge, 1998. 

89. Gerhard Keller. Wahrscheinlichkeitstheorie. Vorlesungsskript. Universität Erlangen, 

2003. 

90. John L. Kelley. General topology. Springer-Verlag, New York, 1975. Nachdruck der 

Ausgabe von 1955 [Van Nostrand, Toronto, Ont.], Graduate Texts in Mathematics, No. 

27. 

91. Richard W. Kenyon, James G. Propp und David B. Wilson. Trees and matchings. Electron. 

J. Combin., 7:Research Paper 25, 34 pp. (electronic), 2000. 

92. Harry Kesten. Sums of stationary sequences cannot grow slower than linearly. Proc. 

Amer. Math. Soc., 49:205–211, 1975. 

93. Harry Kesten. The critical probability of bond percolation on the square lattice equals 

1 

. Comm. Math. Phys., 74(1):41–59, 1980. 

2 

94. Harry Kesten und Bernt P. Stigum. A limit theorem for multidimensional Galton- 

Watson processes. Ann. Math. Statist., 37:1211–1223, 1966. 

95. Aleksandr Khintchine. Über dyadische Brüche. Mathematische Zeitschrift, 18:109– 

116, 1923. 

96. J. F. C. Kingman. Poisson processes, volume 3 of Oxford Studies in Probability. The 

Clarendon Press Oxford University Press, New York, 1993. Oxford Science Publications. 

97. A. N. Kolmogorov. Sulla determinazione empirica di una legge di distibuzione. Giornale 

Istituto Italiano degli Attuari, 4:83–91, 1933. 

98. Ralf Korn und Elke Korn. Optionsbewertung und Portfolio-Optimierung. Friedr. Vieweg 

& Sohn, Braunschweig, 1999. 

99. Ulrich Krengel. Ergodic theorems, volume 6 of de Gruyter Studies in Mathematics. 

Walter de Gruyter & Co., Berlin, 1985. 

100. Ulrich Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik, volume 59 

of Vieweg Studium: Aufbaukurs Mathematik. Friedr. Vieweg & Sohn, Braunschweig, 

2003. 

101. S. Kullback und R. A. Leibler. On information and sufficiency. Ann. Math. Statistics, 

22:79–86, 1951.

580 Literatur 

102. Thomas Kurtz, Russell Lyons, Robin Pemantle und Yuval Peres. A conceptual proof 

of the Kesten-Stigum theorem for multi-type branching processes. In Classical and 

modern branching processes (Minneapolis, MN, 1994), volume 84 of IMA Vol. Math. 

Appl., pages 181–185. Springer, New York, 1997. 

103. Paul Lévy. Théorie de l’Addition des Variables Aléatoires. Gauthier-Villars, Paris, 

1937. 

104. Paul Lévy. Processus Stochastiques et Mouvement Brownien. Suivi d’une note de M. 

Loève. Gauthier-Villars, Paris, 1948. 

105. Jarl Waldemar Lindeberg. Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechnung. 


106. Jarl Waldemar Lindeberg. Sur la loi de Gauss. C.R. Acad. Sci. Paris, 174:1400–1402, 

1922. 

107. Torgny Lindvall. Convergence of critical Galton-Watson branching processes. J. Appl. 

Probability, 9:445–450, 1972. 

108. Russell Lyons, Robin Pemantle und Yuval Peres. Conceptual proofs of L log L criteria 

for mean behavior of branching processes. Ann. Probab., 23(3):1125–1138, 1995. 

109. Russell Lyons und Yuval Peres. Probability on Trees. 2005. Vorabversion im Internet 

unter http://mypage.iu.edu/ rdlyons/prbtree/prbtree.html. 

110. Neal Madras. Lectures on Monte Carlo methods, volume 16 of Fields Institute Monographs. 

American Mathematical Society, Providence, RI, 2002. 

111. Dimitri E. Menchoff. Sur les séries des fonctions orthogonales (première partie). Fund. 

Math., 4:92–105, 1923. 

112. N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller und E. Teller. Equation 

of state calculations by fast computing machines. Journal of Chemical Physics, 

21:1087–1092, 1953. 

113. Paul-A. Meyer. Probability and potentials. Blaisdell Publishing Co. Ginn and Co., 

Waltham, Mass.-Toronto, Ont.-London, 1966. 

114. Ferenc Móricz und Károly Tandori. An improved Menshov-Rademacher theorem. 

Proc. Amer. Math. Soc., 124(3):877–885, 1996. 

115. Rajeev Motwani und Prabhakar Raghavan. Randomized algorithms. Cambridge University 

Press, Cambridge, 1995. 

116. Alfred Müller und Dietrich Stoyan. Comparison methods for stochastic models and 

risks. Wiley Series in Probability and Statistics. John Wiley & Sons Ltd., Chichester, 

2002. 

117. J. R. Norris. Markov chains. Cambridge Series in Statistical and Probabilistic Mathematics. 

Cambridge University Press, Cambridge, 1998. Nachdruck der Originalausgabe 

von 1997. 

118. Raymond E.A.C. Paley, Norbert Wiener und Antoni Zygmund. Note on random functions. 

Math. Zeit., 38:647–688, 1933. 

119. Ronald F. Peierls. On Ising’s model of ferromagnetism. Proc. Cambridge Phil. Soc., 

36:477–481, 1936. 

120. Valentin V. Petrov. Sums of independent random variables. Springer-Verlag, New York, 

1975. Ergebnisse der Mathematik und ihrer Grenzgebiete, Band 82. 

121. Jim Pitman. Combinatorial stochastic processes. In École d’Été de Probabilités de 

Saint-Flour 2002, Erscheint in: Lecture Notes in Math. (Im Internet erhältlich unter 

www-stat.berkeley.edu/users/pitman). 

122. Jim Pitman. Exchangeable and partially exchangeable random partitions. Probab. 

Theory Related Fields, 102(2):145–158, 1995.

Literatur 581 

123. Jim Pitman und Marc Yor. Bessel processes and infinitely divisible laws. In Stochastic 

integrals (Proc. Sympos., Univ. Durham, Durham, 1980), volume 851 of Lecture Notes 

in Math., pages 285–370. Springer, Berlin, 1981. 

124. Jim Pitman und Marc Yor. The two-parameter Poisson-Dirichlet distribution derived 

from a stable subordinator. Ann. Probab., 25(2):855–900, 1997. 

125. Jim Pitman und Marc Yor. On the distribution of ranked heights of excursions of a 

Brownian bridge. Ann. Probab., 29(1):361–384, 2001. 

126. George Pólya. Über eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Irrfahrt 

im Straßennetz. Math. Ann., 84:139–160, 1921. 

127. George Pólya. Sur quelques points de la théorie de probabilités. Ann. Inst. H. Poincaré, 

1:117–161, 1931. 

128. Yu. V. Prohorov. Convergence of random processes and limit theorems in probability 

theory. Teor. Veroyatnost. i Primenen., 1:177–238, 1956. Russisch mit englischer 

Zusammenfassung. 

129. James Propp und David Wilson. Coupling from the past: a user’s guide. In Microsurveys 

in discrete probability (Princeton, NJ, 1997), volume 41 of DIMACS Ser. Discrete Math. 

Theoret. Comput. Sci., pages 181–192. Amer. Math. Soc., Providence, RI, 1998. 

130. James Gary Propp und David Bruce Wilson. Exact sampling with coupled Markov 

chains and applications to statistical mechanics. In Proceedings of the Seventh International 

Conference on Random Structures and Algorithms (Atlanta, GA, 1995), volume 

9, pages 223–252, 1996. 

131. James Gary Propp und David Bruce Wilson. How to get a perfectly random sample 

from a generic Markov chain and generate a random spanning tree of a directed graph. 

J. Algorithms, 27(2):170–217, 1998. 7th Annual ACM-SIAM Symposium on Discrete 

Algorithms (Atlanta, GA, 1996). 

132. Philip E. Protter. Stochastic integration and differential equations, volume 21 of Applications 

of Mathematics (New York). Springer-Verlag, Berlin, 2. Auflage, 2004. Stochastic 

Modelling and Applied Probability. 

133. Boto von Querenburg. Mengentheoretische Topologie. Springer-Verlag, Berlin, 1976. 

Korrigierter Nachdruck der ersten Auflage, Hochschultext. 

134. Hans Rademacher. Einige Sätze über Reihen von allgemeinen Orthogonalfunktionen. 

Math. Ann., 87:112–138, 1922. 

135. Pál Révész. Random walk in random and non-random environments. World Scientific 

Publishing Co. Pte. Ltd., Hackensack, NJ, second Auflage, 2005. 

136. D. Revuz. Markov chains, volume 11 of North-Holland Mathematical Library. North- 

Holland Publishing Co., Amsterdam, 2. Auflage, 1984. 

137. Daniel Revuz und Marc Yor. Continuous martingales and Brownian motion, volume 

293 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 3. 


138. R. Tyrrell Rockafellar. Convex analysis. Princeton Mathematical Series, No. 28. Princeton 

University Press, Princeton, N.J., 1970. 

139. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales. 

Vol. 1: Foundations. Cambridge Mathematical Library. Cambridge University Press, 

Cambridge, 2000. Nachdruck der zweiten Auflage von 1994. 

140. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales. 

Vol. 2: Itô calculus. Cambridge Mathematical Library. Cambridge University Press, 

Cambridge, 2000. Nachdruck der zweiten Auflage von 1994. 

141. Walter Rudin. Analysis. Oldenbourg Verlag, Müünchen, Wien, 1988. 

142. Ivan Nicolaevich Sanov. On the probability of large deviations of random magnitudes. 

Mat. Sb. N. S., 42 (84):11–44, 1957. Russisch.

582 Literatur 

143. Ivan Nicolaevich Sanov. On the probability of large deviations of random variables. In 

Select. Transl. Math. Statist. and Probability, Vol. 1, pages 213–244. Inst. Math. Statist. 

and Amer. Math. Soc., Providence, R.I., 1961. 

144. Tokuzo Shiga und Akinobu Shimizu. Infinite-dimensional stochastic differential equations 

and their applications. J. Math. Kyoto Univ., 20(3):395–416, 1980. 

145. Albert N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics. 

Springer-Verlag, New York, 2. Auflage, 1996. Übersetzung der ersten russischen Ausgabe 

von 1980. 

146. N.V. Smirnov. Sur les écarts de la courbe de distribution empirique. Matematicheskij 

Sbornik, Rossijskaya Akademiya Nauk, Moscow, 2:3–16, 1939. Russisch mit 

französicher Zusammenfassung. 

147. Frank Spitzer. Principles of random walks. Springer-Verlag, New York, 2. Auflage, 

1976. Graduate Texts in Mathematics, Vol. 34. 

148. Daniel W. Stroock und S. R. Srinivasa Varadhan. Diffusion processes with boundary 

conditions. Comm. Pure Appl. Math., 24, 1971. 

149. Daniel W. Stroock und S. R. Srinivasa Varadhan. Multidimensional diffusion processes, 

volume 233 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, 

Berlin, 1979. 

150. J. J. Sylvester. Mathematical questions with their solutions. Educational Times, 41:171– 

178, 1884. 

151. Károly Tandori. Über die orthogonalen Funktionen. I. Acta Sci. Math. Szeged, 18:57– 

130, 1957. 

152. Károly Tandori. Über die Divergenz der Orthogonalreihen. Publ. Math. Debrecen, 

8:291–307, 1961. 

153. Károly Tandori. Bemerkung über die paarweise unabhängigen zufälligen Größen. Acta 

Math. Hungar., 48(3-4):357–359, 1986. 

154. S. R. S. Varadhan. Asymptotic probabilities and differential equations. Comm. Pure 

Appl. Math., 19:261–286, 1966. 

155. G. N. Watson. Three triple integrals. Quart. J. Math., Oxford Ser., 10:266–276, 1939. 

156. Dirk Werner. Funktionalanalysis. Springer-Verlag, Berlin, 2000. 

157. David Williams. Probability with martingales. Cambridge Mathematical Textbooks. 

Cambridge University Press, Cambridge, 1991. 

158. David Bruce Wilson und James Gary Propp. How to get an exact sample from a generic 

Markov chain and sample a random spanning tree from a directed graph, both within the 

cover time. In Proceedings of the Seventh Annual ACM-SIAM Symposium on Discrete 

Algorithms (Atlanta, GA, 1996), pages 448–457, New York, 1996. ACM. 

159. Sewall Wright. Evolution in Mendelian populations. Genetics, 16:97–159, 1931. 

160. A. M. Yaglom. Certain limit theorems of the theory of branching random processes. 

Doklady Akad. Nauk SSSR (N.S.), 56:795–798, 1947. 

161. Toshio Yamada und Shinzo Watanabe. On the uniqueness of solutions of stochastic 

differential equations. J. Math. Kyoto Univ., 11:155–167, 1971. 

162. Kōsaku Yosida. Functional analysis. Classics in Mathematics. Springer-Verlag, Berlin, 

1995. Nachdruck der sechsten Auflage von 1980. 

163. Ofer Zeitouni. Random walks in random environment. In Lectures on probability 

theory and statistics, volume 1837 of Lecture Notes in Math., pages 189–312. Springer, 

Berlin, 2004.

Notation 

A 

Indikatorfunktion der Menge A 

2 Ω Potenzmenge, 1 

#A Kardinalität der Menge A 

A c Komplement Ω \ A der Menge A ⊂ Ω,1 

A ∩ B Schnittmenge 

A ∪ B Vereinigungsmenge 

A ⊎ B disjunkte Vereinigungsmenge (eigentlich ist hierin eine 

Aussage enthalten) 

A ⊂ B Aist (nicht notwendigerweise echte) Teilmenge von B 

A \ B Differenzmenge 

A △ B symmetrische Differenz zweier Mengen, 29 

A × B kartesisches Produkt von A und B 

A Teilmenge von 2 Ω , typischerweise eine σ-Algebra, 1 

A � � 

B 

Spur-Mengensystem auf B,10 

A⊗A ′ Produkt der σ-Algebren A und A, 260 

B(E) Borel’sche σ-Algebra von E, 8 

Berp 

βr,s 

bn,p 

b − r,p 

Bernoulliverteilung, 43 

Beta-Verteilung mit Parametern r und s, 46 

Binomialverteilung, 44, 289 

negative Binomialverteilung, 44, 289 

C(E),Cb(E),Cc(E) Raum der stetigen (beschränkten) Funktionen, bzw. mit 

kompakten Träger, 236 

CqV 

Funktionen mit stetiger quadratischer Variation, 467 

C Menge der komplexen Zahlen, 78 

Caua 

Cauchy Verteilung, 289

584 Notation 

Cov[X, Y ] Kovarianz der Zufallsvariablen X und Y ,98 

CPoiν 

δx 

zusammengesetzte Poisson-Verteilung, 317 

Dirac-Verteilung, 12 

E[X] Erwartungswert der Zufallsvariablen X,97 

E[X; A] =E[X A], 167 

E[X |F] bedingter Erwartungswert, 169 

exp θ 

F =(Ft)t∈I 

Exponentialverteilung, 45, 289 

Filtration, 185 

f.s, f.ü. fast sicher und fast überall, 31 

G(x, y) Greeenfunktion einer Markovkette, 351 

Γθ,r Gammaverteilung mit Größenparameter θ > 0 und 

Formparameter r>0, 46, 289 

γp = b − 1,p 

geometrische Verteilung mit Parameter p, 44 

ggT(M) größter gemeinsamer Teiler aller m ∈ M ⊂ N, 366 

H ·X diskretes stochastisches Integral von H bezüglich X, 192 

I Menge der invarianten Verteilungen einer Markovkette, 

360 

i.i.d. independent and identically distributed, 55 

Im(z) Imaginärteil von z ∈ C, 281 

λ, λ n Lebesgue-Maß, n-dimensionales, 25 

Lip(E) Raum der Lipschitz-stetigen Funktionen auf E, 237 

L p ,L p Lebesgue’sche Räume p-fach integrierbarer Funktionen, 

89, 139, 140 

L(X) Verteilung der Zufallsvariablen X 

M(E), Mf (E), 

M≤1, M1(E) Menge der (endlichen bzw. (Sub-)W-) Maße auf E, 17, 

235 

Mloc,c 

Raum der stetigen lokalen Martingale, 470 

μ ⊗ ν Produkt der Maße μ und ν, 27, 264 

μ ∗ ν Faltung der Maße μ und ν, 60, 266 

μ ⊗n n-faches Produktmaß, 264 

μ ∗n n-fache Faltungspotenz, 60 

μ ≪ ν μist absolutstetig bezüglich ν, 151

μ ⊥ ν μist singulär bezüglich ν, 151 

μ ≈ ν μund ν sind äquivalent, 151 

N, N0 

N = {1, 2, 3,...}, N0 = N ∪{0} 

N μ,σ 2 Normalverteilung, 45, 289 

dμ � dν Radon-Nikodym-Ableitung 152 

Notation 585 

Ω Raum der Elementarereignisse, auf dem P definiert ist 

P generisches Wahrscheinlichkeitsmaß 

P[A|B], P[A|F] bedingte Wahrscheinlichkeiten, 166, 169 

PX = P ◦ X −1 Verteilung der Zufallsvariablen X, 42 

Poiλ 

Poissonverteilung mit Parameter λ ≥ 0, 45, 289 

p n (x, y) =p (n) (x, y) n-Schritt-Übergangswahrscheinlichkeiten einer Markovkette, 

340 

P n S,T , Pn T 

ϕX 

ψX 

siehe Seite 467 

charakteristische Funktion der Zufallsvariablen X, 288 

Erzeugendenfunktion der Zufallsvariablen X, 75 

Q Menge der rationalen Zahlen 

R Menge der reellen Zahlen 

R = R ∪{−∞, +∞} Zweipunktkompaktifizierung der reellen Zahlen 

Re(z) Realteil von z ∈ C, 281 

sign(x) = (0,∞)(x) − (−∞,0)(x), Vorzeichen von x ∈ R, 37 

σ( · ) von · erzeugte σ-Algebra oder Filtration, 6, 34, 185 

τ k x 

Zeit des k-ten Besuches einer Markovkette in x, 349 

T ( · ) terminale σ-Algebra, 61 

UA 

uniforme Verteilung auf A, 12, 33, 289 

u.i.v. unabhängig und identisch verteilt, 55 

V 1 (G), V 2 (G) Variation und quadratische Variation von G, 466, 467 

Var[X] Varianz der Zufallsvariablen X, 97 

〈X〉 quadratischer Variationsprozess von X, 200, 467, 471, 

475 

f(t) ∼ g(t), t→ a : ⇐⇒ limt→a f(t)/g(t) =1 

X ∼ μ Die Zufallsvariable X hat Verteilung μ, 42 

x ∨ y, x ∧ y, x + ,x − Maximum, Minimum, Positivteil, Negativteil reeller Zahlen, 

37

586 Notation 

⌊x⌋, ⌈x⌉ Abgerundetes und Aufgerundetes von x,36 

z komplex konjugierte Zahl zu z ∈ C, 281 

Z Menge der ganzen Zahlen 

D 

= Gleichheit in Verteilung, 42 

D 

−→ 

n→∞ 

, n→∞ 

=⇒ Konvergenz der Verteilungen, 243 

n→∞ 

=⇒ 

fdd 

, n→∞ 

−→ 

fdd 

Konvergenz der endlichdimensionalen Verteilungen, 453

Glossar englischer Ausdrücke 

a.a. = almost all fast alle 

a.e. = almost everywhere fast überall 

a.s. = almost surely fast sicher 

array (of random variables) Schema von Zufallsvariablen 

backward martingale Rückwärtsmartingal 

bond, edge Kante (eines Graphen) 

Brownian motion Brown’sche Bewegung 

central limit theorem Zentraler Grenzwertsatz 

completion Vervollständigung 

compound Poisson zusammengesetzt Poisson 

conductivity Leitfähigkeit 

continuous stetig 

convolution Faltung 

decompostition Zerlegung 

density Dichte 

derivative Ableitung 

distribution Verteilung 

dominated convergence majorisierte Konvergenz 

dynamical system Dynamisches System 

expectation (conditional) Erwartungswert (bedingter) 

ergodic theorem Ergodensatz 

event Ereignis 

exchangeable austauschbar 

extension theorem Fortsetzungssatz, Erweiterungssatz 

flow (electric) Fluss (elektrischer) 

iff = if and only if dann und nur dann, wenn 

i.i.d. = independent and identically unabhängig und identisch verteilt 

distributed 

increment Zuwachs 

indistinguishable ununterscheidbar 

integer (number) ganze Zahl 

joint distribution gemeinsame Verteilung 

large deviation große Abweichung

588 Glossar englischer Ausdrücke 

law Verteilung 

level set Niveaumenge 

Markov chain Markovkette 

(strong) Markov property (starke) Markoveigenschaft 

map Abbildung 

marginal (distribution) Randverteilung 

mean Mittelwert 

measurable space Messraum 

measure Maß 

measure preserving maßerhaltend 

mixing mischend 

modulus (of a number) Absolutbetrag (einer Zahl) 

modulus of continuity Stetigkeitsmodul 

null array asymptotisch vernachlässigbares Schema 

partition function Zustandssumme 

p.d.f. = probability distribution function Verteilungsfunktion 

p.g.f. = probability generating function Erzeugendenfunktion 

phase transition Phasenübergang 

predictable, previsible previsibel, vorhersagbar 

probability Wahrscheinlichkeit 

random walk Irrfahrt 

random variable Zufallsvariable 

representation Darstellung 

semigroup Halbgruppe 

σ-field σ-Algebra 

size-biased (sampling) größenverzerrtes Ziehen einer Stichprobe 

tight straff 

trace Spur 

transition kernel Übergangskern 

uniform distribution Gleichverteilung 

uniformly integrable gleichgradig integrierbar 

urn model Urnenmodell 

(probability) weight (Wahrscheinlichkeits-)gewicht 

vertex Punkt/Knoten eines Graphen 

w.p. = with probability

Namensregister 

Banach, Stefan, 1892 (Krakau) – 1945 

(Lemberg, Ukraine), 147 

Bayes, Thomas, 1702 (London) – 1761 

(Tunbridge Wells, England), 166 

Bernoulli, Jakob, 1654 (Basel) – 1705 

(Basel), 18 

Bienaymé, Irénée-Jules, 1796 (Paris) – 1878 

(Paris), 100 

Blackwell, David, 1919, 103 

Bochner, Salomon, 1899 (Krakau) – 1982 

(Houston, Texas), 298 

Boltzmann, Ludwig, 1844 (Wien) – 1906 

(Duino bei Triest), 378 

Borel, Emile, 1871 (Saint-Affrique, 

Frankreich) – 1956 (Paris), 8 

Brown, Robert, 1773 (Montrose, Scotland) 

– 1858 (London), 436 

Cantelli, Francesco Paolo, 1875 (Palermo) – 

1966 (Rom), 51 

Carathéodory, Constantin, 1873 (Berlin) – 

1950 (München), 19 

Cauchy, Augustin Louis, 1789 (Paris) – 

1857 (bei Paris), 101 

Cesàro, Ernesto, 1859 (Neapel) – 1906 

(Torre Annunziata, Italien), 62 

Chebyshev, Pafnutij Lvovich (Qebyxev, 

Pafnuti� Lvoviq), 1821 (Okatavo, 

Russland) – 1894 (Sankt Petersburg), 

104 

Cramér, Harald, 1893 (Stockholm) – 1985 

(Stockholm), 312 

Curie, Pierre, 1859 (Paris) – 1906 (Paris), 

508 

Dieudonné, Jean Alexandre 1906 (Lille, 


Dirac, Paul Adrien Maurice, 1902 (Bristol) 

– 1984 (Tallahassee, Florida), 12 

Dirichlet, Lejeune, 1805 (Düren) – 1859 

(Göttingen), 391 

Doob, Joseph Leo, 1910 (Cincinnati, Ohio) 

– 2004 (Urbana, Illinois), 199 

Dynkin, Eugene, 1924 (Sankt Petersburg), 

4 

Egorov, Dmitrij Fedorovich 

(Egorov, Dmitri� Fedoroviq), 

1869 (Moskau) – 1931 (Kasan), 130 

Esseen, Carl-Gustav, 1918 (Linköping, 

Schweden) – 2001 (Uppsala ?), 311 

Fatou, Pierre, 1878 (Lorient, Frankreich) – 

1929 (Pornichet, Frankreich), 91 

Feller, William, 1906 (Zagreb) – 1970 (New 

York), 306 

Fischer, Ernst, 1875 (Wien) – 1954 (Köln), 

147 

Fourier, Jean Baptiste Joseph, 1768 

(Auxerre, Frankreich) – 1830 (Paris)., 

286 

Fréchet, Maurice René, 1878 (Maligny, 


Fubini, Guido, 1879 (Venedig) – 1943 (New 

York), 264 

Galton, Francis, 1822 (bei Birmingham) – 

1911 (Grayshott House, England), 81 

Gauß, Carl-Friedrich, 1777 (Braunschweig) 

– 1855 (Göttingen), 45 

Gibbs, Josiah Willard, 1839 (New Haven, 

Connecticut) – 1903 (New Haven, 

Connecticut), 381 

Green, George, 1793 (Nottingham) – 1841 

(Nottingham), 351

590 Namensregister 

Hahn, Hans, 1879 (Wien) – 1934 (Wien), 

156 

Helly, Eduard, 1884 (Wien) – 1943 

(Chicago), 250 

Hesse, Ludwig Otto, 1814 (Königsberg) – 

1874 München, 144 

Hewitt, Edwin, 1920 (Everett, Washington), 

228 

Hilbert, David, 1862 (Königsberg) – 1943 

(Göttingen), 147 

Hopf, Eberhard, 1902 (Salzburg) – 1983, 

418 

Hölder, Otto Ludwig, 1859 (Stuttgart) – 

1937 (Leipzig), 146 

Ionescu-Tulcea, Cassius, 1923, 273 

Ising, Ernst, 1900 (Köln) – 1988 (Peoria, 

Illinois), 377 

Itô, Kiyosi, 1915 (Hokusei-cho, Japan), 

449 

Jensen, Johan Ludwig, 1859 (Nakskov, 

Dänemark) – 1925 (Kopenhagen), 144 

Jordan, Camille, 1838 (bei Lyon) – 1922 

(Paris), 158 

Kesten, Harry, 1931, 70 

Khinchin, Aleksandr Jakovlevich 

(Hinqin, Aleksandr �kovleviq) 

1894 (Kondrovo, Russland) – 1959 

(Moskau), 320 

Kirchhoff, Gustav Robert, 1824 (Königsberg) 

– 1887 (Berlin), 394 

Kolmogorov, Andrej Nikolaevich 

(Kolmogorov, Andre� Nikolaeviq), 

1903 (Tambow, Russland) – 

1987 (Moskau), 63 

Laplace, Pierre-Simon, 1749 (Beaumonten-Auge, 

Normandie) – 1827 (Paris), 

137 

Lebesgue, Henri Léon, 1875 (Beauvais, 

Oise, Frankreich) – 1941 (Paris), 18 

Legendre, Adrien-Marie, 1752 (Paris) – 

1833 (Paris), 491 

Levi, Beppo, 1875 (Turin, Italien) – 1961 

(Rosario, Santa Fe, Argentinien), 91 

Lévy, Paul Pierre, 1886 (Paris) – 1971 

(Paris), 296, 480 

Lindeberg, Jarl Waldemar, 1876 – 1932, 

305 

Lipschitz, Rudolph, 1832 (Königsberg) – 

1903 (Bonn), 237 

Lusin, Nikolai Nikolaevich 

(Lusin, Nikola� Nikolaeviq), 

1883 (Irkutsk, Russland) – 1950 

(Moskau), 238 

Lyapunov, Aleksandr Mikhajlovich 

(L�punov Aleksandr Miha�loviq), 

1857 (Jaroslavl, Russland) 

– 1918 (Odessa), 305 

Markov, Andrej Andreevich (Markov, 

Andre� Andreeviq), 1856 (Ryazan, 

Russland) – 1922 (Sankt Petersburg), 

104 

Menshov, Dmitrij Evgen’evich 

(Menxov, Dmitri� Evgenъeviq), 

1892 (Moskau) – 1988 

(Moskau), 117 

Minkowski, Hermann, 1864 (Alexotas, heute: 

Kaunas, Litauen) – 1909 (Göttingen), 

146 

Neumann, John von, 1903 (Budapest) – 

1957 (Washington D.C.), 152 

Nikodym, Otton Marcin, 1889 (Zablotow, 

Galizien, Ukraine) – 1974 (Utica, New 

York), 152 

Ohm, Georg Simon, 1789 (Erlangen) – 1854 

(München), 394 

Ornstein, Leonard Salomon, 1880 

(Nijmegen) – 1941 (Utrecht), 553 

Paley, Raymond E.A.C., 1907 (Bournemouth, 

England) – 1933 (Banff, Alberta), 

439 

Parseval, Marc-Antoine, 

1755 (Rosières-aux-Salines, Frankreich) 

– 1836 (Paris), 447 

Pascal, Blaise, 1623 (Clermont-Ferrand, 


Plancherel, Michel, 1885 (Bussy (Fribourg), 

Schweiz) – 1967 (Zürich?), 287 

Poisson, Siméon Denis, 1781 (Pithiviers, 

Frankreich) – 1840 (bei Paris), 45 

Pólya, George, 1887 (Budapest) – 1985 

(Palo Alto), 297

Prohorov, Yurij Vasil’evich (Prohorov, 

�ri� Vasilьeviq), 1929, 248 

Rademacher, Hans, 1892 (Hamburg- 

Wandsbek) – 1969 (Haverford, 

Pennsylvania), 117 

Radon, Johann, 1887 (Tetschen, Böhmen) – 

1956 (Wien), 152 

Riemann, Georg Friedrich Bernhard, 1826 

(Breselenz, Kreis Lüchow-Dannenberg) 

– 1866 (Selasca, Italien), 50 

Riesz, Frigyes, 1880 (Györ, Ungarn) – 1956 

(Budapest), 147 

Saks, Stanislav (Saks, Stanislav), 

1897 (Kalish, Russland (heute Polen)) 

– 1942 (Warschau, von der Gestapo 

ermordet), 220 

Savage, Jimmie Leonard, 1917 (Detroit, 

Michigan) – 1971 (New Haven, 

Connecticut), 228 

Schwarz, Hermann Amandus, 1843 

(Hermsdorf, Schlesien) – 1921 (Berlin), 

101 

Slutzky, Evgenij Evgen’evich (Slutzky, 

Evgeni� Evgenъeviq), 1880 

(Novoe, Gouvernement Jaroslavl, 

Russland) – 1948 (Moskau), 243 

Stieltjes, Thomas Jan, 1856 (Zwolle, 

Overijssel) – 1894 (Toulouse), 26 

Stone, Marshall Harvey, 1903 (New York) – 

1989 (Madras, Indien), 282 

Namensregister 591 

Thomson, William (Lord Kelvin), 1824 

(Belfast) – 1907 (Largs, Ayrshire, 

Schottland), 398 

Uhlenbeck, George Eugene, 1900 (Batavia, 

heutiges Jakarta) – 1988 (Boulder, 

Colorado), 553 

Varadhan, S.R. Srinivasa, 1945 (Madras, 

Indien), 503 

Watson, George Neville, 1886 (Westward 

Ho, England) – 1965 (Leamington Spa, 

England), 358 

Watson, Henry William, 1827 (bei London) 

– 1903 (bei Coventry), 81 

Weierstraß, Karl, 1815 (Ostenfelde, 

Westfalen) – 1897 (Berlin), 282 

Weiss, Pierre-Ernest, 1865 (Mulhouse, 

Frankreich) – 1940 (Lyon), 506 

Wiener, Norbert, 1894 (Columbia, Missouri) 

– 1964 (Stockholm), 453 

Wintner, Aurel Friedrich, 1903 (Budapest) – 

1958 (Baltimore), 486 

Wright, Sewall, 1889 (Melrose, Massachusetts) 

– 1988 (Madison, Wisconsin), 

343 

Yaglom, Akiva Moiseevich (�glom, 

Akiva Moiseeviq), 1921 

(Kharkov), 220 

Zygmund, Antoni, 1900 (Warschau) – 1992 

(Chicago), 439

Sachregister 

0-1 Gesetze 

– Blumenthal 438 

–für invariante Ereignisse 427 

– Hewitt-Savage 228 

– Kolmogorov 63 

∅-stetig 15 

abgeschlossen 8 

Abschluss 234 

absolutstetig 151 

absorbierend 350 

adaptiert 185 

additiv 11 

Algebra 3, 282 

Anziehungsbereich einer Verteilung 329 

aperiodisch 366 

Approximationssatz für Maße 29 

äquivalente Maße 151 

äquivalentes Martingalmaß 196 

Arbitrage 196 

Arkussinus-Gesetz 442 

asymptotisch vernachlässigbar 305 

Aufkreuzung 211 

äußeres Maß 21 

austauschbar 221 

austauschbare σ-Algebra 223 

Auswertungsabbildung 451 

Azuma’sche Ungleichung 192 

Banachraum 147 

bedingte 

– Erwartung 169 

– Unabhängigkeit 229 

– Verteilung 176 

– Wahrscheinlichkeit 166, 169 

Benford’sches Gesetz 422 

Bernoulli-Maß 29 

Bernoulli-Verteilung 43 

Bernstein-Chernov Abschätzung 106 

Bernstein-Polynom 106 

Berry-Esseen, Satz von 311 

beschränkt in L p 

132 

Bessel-Prozess 562 

Beta-Verteilung 46, 232, 303, 519 

– Momente 104 

Bienaymé-Gleichung 100 

Bildmaß 40 

binäres Modell 195 

Binomialverteilung 44 

Black-Scholes Formel 197 

Black-Scholes Modell 554 

Blackwell-Girshick 103 

Blumenthal’sches 0-1 Gesetz 438 

Bochner 298 

Boltzmann-Verteilung 378, 505 

Borel-Cantelli Lemma 51 

– bedingte Version 219 

Borel-Maß 235 

Borel’scher Raum 179 

Borel’sche σ-Algebra 8 

Borel’sches Paradoxon 182 

Box-Muller Methode 60 

Brown’sche Bewegung 279, 436 

– Existenzsatz 436 

– kanonische 453 

–Lévy Charakterisierung 541 

– Skalierungseigenschaft 437 

Brown’sche Brücke 437, 450 

Brown’sches Blatt 451 

càdlàg 444 

Call 196 

Carathéodory 19 

Cauchy-Schwarz’sche Ungleichung 101 

– bedingte 174 

Cauchy-Verteilung 46, 289, 547

594 Sachregister 

Cesàro-Limes 62 

CFW 315 

Chapman-Kolmogorov’sche Gleichung 

277, 340 

charakteristische Funktion 285, 511 

– Inversionsformel 286 

Chebyshev Polynom 387 

Chebyshev’sche Ungleichung 104 

China-Restaurant Prozess 524 

Cholesky-Faktorisierung 313 

Chung-Fuchs, Satz von 357, 424 

Claim 196 

Continuous Mapping Theorem 245 

Cox-Ingersoll-Ross Modell 558 

Cox-Ross-Rubinstein’sches Modell 197 

Cramér-Lundberg’sche Ungleichung 207 

Cramér-Transformierte 492 

Cramér-Wold Device 312 

Curie-Temperatur 378, 508 

Curie-Weiss’sches Gesetz 508 

detaillierte Balance 392 

Diagonalfolgenargument 250 

dicht 234 

Dichte 13, 26, 45, 57, 89, 150 

Dichtetransformationsformel 

– mehrdimensional 41 

Differentiationslemma 137 

Diffusionsprozess 537 

Dirac-Maß 12 

Dirichlet-Problem 546 

– diskretes 391 

Dirichlet’sches Prinzip 398 

Dirichlet-Verteilung 519 

domain of attraction 329 

Donsker, Satz von 456 

Doob’sche Regularisierung 444 

Doob’sche Ungleichung 210 

Doob–Zerlegung 199 

Dreireihensatz 310 

Drift 537 

Dualität 567 

Dualraum 160 

dynamisches System 416 

Dynkin-System 4 

einfache Irrfahrt 393 

Einheitsmasse 12 

Einschluss- Ausschlussformel 15 

Einschränkung 10 

Eintrittszeit 349 

elektrischer Fluss 394 

Elementarfunktion 39 

empirische Verteilung 231 

empirische Verteilungsfunktion 111 

Entropie 112, 114, 499 

– relative 499 

Ereignis 17, 42 

– invariantes 71 

Ergodensatz 

– Individueller (Birkhoff) 419 

– Statistischer (von Neumann) 420 

ergodisch 416 

Erwartungswert 97 

Erzeugendenfunktion 75 

Erzeuger 6 

erzeugte σ-Algebra 6, 34 

Etemadi 

– Ungleichung von 118 

Euler’sche Primzahlformel 50 

Explosion 347 

Exponentialverteilung 45 

Faktorisierungslemma 40 

Falle 

Faltung 

390 

– Dichten 266 

– diskrete Verteilungen 59 

–MaßeaufR n 

60, 266 

Faltungshalbgruppe 280 

Färbungssatz 517 

fast alle 31 

fast sicher 31 

fast überall 31 

Fatou, Lemma von 91 

Feinheit 467 

Feller-Eigenschaft 445 

– starke 566 

Feller-Prozess 446 

Feller’sche Halbgruppe 445 

Feller’sche Verzweigungsdiffusion 

558, 570 

463, 

Filtration 185 

– rechtsstetige 444 

– übliche Bedingungen 444 

de Finetti, Satz von 229, 257 

Fischer-Riesz, Satz von 147 

Fluchtwahrscheinlichkeit 399

Fluss 394 

Fortsetzungssatz für Maße 19, 23 

Fourier-Inversionsformel 286 

freie Energie 506 

Frobenius Problem 367 

f.s. siehe fast sicher 

f.ü. siehe fast überall 

Fubini, Satz von 265 

–für Itô-Integrale 545 

–für Übergangskerne 270 

Funktionaler Zentraler Grenzwertsatz 456 

Galton-Watson-Prozess 81 

– Reskalierung 460 

Gambler’s Ruin 205, 385 

Gamma-Verteilung 46 

–Lévy-Maß 322 

– Subordinator 520 

Gedächtnislosigkeit der Exponentialverteilung 

168 

GEM-Verteilung 522, 524 

gemeinsame Verteilung 56 

gemeinsame Verteilungsfunktion 56 

Generator 345 

geometrische Brown’sche Bewegung 554 

geometrische Verteilung 44 

Gesetz der großen Zahl 

– Konvergenzraten 115 

– schwaches 104 

– starkes 104, 108, 227 

gestoppter Prozess 204 

Gewichtsfunktion 13 

Gibbs-Sampler 381 

gitterverteilt 294 

gleichgradig gleichmäßig stetig 295 

gleichgradig integrierbar 130 

Gleichverteilung 12, 33 

gleitendes Mittel 185, 416 

Graph 64 

Greenfunktion 351, 391 

– Tabelle 359 

Gronwall Lemma 555 

große Abweichungen 491 

größenverzerrte Verteilung 256 

Haar-Funktionen 448 

Hahn’scher Zerlegungssatz 156 

Halbring 3 

halbstetig von unten 494 

Sachregister 595 

haploid 343 

harmonische Funktion 360, 390 

harmonisches Maß 546 

Hartman-Wintner, Satz von 486 

Hauptsatz der Differential- und Integralrechnung 

239 

heat bath algorithm 381 

Hedge 196 

Helly, Satz von 250 

Helmholtz-Potential 506 

Hilbertraum 147 

Hilbert-Schmidt Norm 554 

Hilbert-Schmidt Operator 271 

Hölder’sche Ungleichung 146 

Hölder-stetig 430 

Hopf 418 

hypergeometrische Verteilung 45 

identisch verteilt 42 

i.i.d. siehe u.i.v. 

Indikatorfunktion 5 

Inhalt 12 

Inneres 234 

integrierbar 86 

Integral 83, 84, 86,87 

– Riemann 93 

– stochastisches 449, 450 

integrierbar 97 

– quadrat 97 

– stochastischer Prozess 184 

Intensitätsmaß 510 

invariantes Ereignis 416 

Invarianzprinzip von Donsker 457 

inverse Temperatur 505 

Inversionsformel 286 

Irrfahrt 334 

– auf einem Graphen 393 

– Greenfunktion (Tabelle) 359 

–inzufälliger Umgebung 414 

– Range 423 

– Rekurrenz 353 

– Satz von Chung-Fuchs 424 

– Satz von Pólya 353 

– symmetrische 184 

Ising-Modell 377, 382 

Iterierter Logarithmus 

– Brown’sche Bewegung 477 

– Hartman-Wintner 486 

ItoFormel


–Itô-Formel 

– – mehrdimensional 544 

Itô-Formel 539 

– diskrete 202 

– pfadweise 539 

Itô-Integral 531 

– Produktregel 544 

– Satz von Fubini 545 

Jensen’sche Ungleichung 144, 172 

Jordan, Satz von 158 

kanonische Brown’sche Bewegung 453 

kanonischer Prozess 261 

kanonisches Maß 320, 323, 516 

Kantenperkolation 65, 389 

Kaufoption 196 

Kelvin siehe Thomson 

Kesten-Stigum, Satz von 220 

Khinchin’sches Gesetz vom iterierten 

Logarithmus 486 

Kirchhoff’sches Gesetz 394 

Kolmogorov-Chentsov, Satz von 432 

Kolmogorov’sche Ungleichung 116 

Kolmogorov’scher Dreireihensatz 310 

Kolmogorov’scher Erweiterungssatz 275 

Kolmogorov’sches 0-1 Gesetz 63 

Kolmogorov’sches Kriterium für schwache 

Relativkompaktheit 455 

Kolmogorov-Smirnov Test 459 

komplementstabil 1 

konkave Funktion 142 

Kontraktionsprinzip 502 

Konvergenz 

– dem Maße nach 126 

– fast sichere 126 

–fastüberall 126 

– im Mittel 127 

–imp-ten Mittel 140 

– in Verteilung 243 

– majorisierte 135 

– schnelle 128 

– schwache 78, 240 

– stochastische 126 

– vage 240 

– von Verteilungsfunktionen 244 

konvexe Funktion 142 

konvexe Menge 141 

Koordinatenabbildung 260 

Kopplung 67, 369 

Kopplung aus der Vergangenheit 383 

korreliert 98 

Kovarianz 98 

Kovarianzfunktion 437 

Kullback-Leibler Information 499 

Ladungsverteilung 156 

λ-System siehe Dynkin-System 

langsam variierend 329 

Laplace-Operator 543 

Laplace-Raum 12 

Laplace-Transformation 137, 284, 461, 

511 

Large Deviations siehe Prinzip großer 

Abweichungen 

LDP siehe Prinzip großer Abweichungen 

Lebesgue-Borel-Maß siehe Lebesgue- 

Maß 

Lebesgue-Integral 89 

Lebesgue-Maß 25,32 

Lebesgue’scher Konvergenzsatz 135 

Lebesgue’scher Zerlegungssatz 152 

Lebesgue-Stieltjes Integral 466 

Lebesgue-Stieltjes-Maß 26 

Legendre-Transformierte 491 

Leistung (elektrisches Netzwerk) 397 

Leitfähigkeit 393 

Lévy-Abstand 246 

Lévy-Khinchin Formel 320, 323 

–für zufällige Maße 517 

Lévy-Maß 320, 323 

– allgemeine stabile Verteilung 328 

– Cauchy-Verteilung 326 

– Gamma-Verteilung 322 

– symmetrische stabile Verteilung 327 

Lévy’scher Stetigkeitsmodul 480 

Lévy’scher Stetigkeitssatz 296 

Limes inferior 5 

Lindeberg-Bedingung 305 

Lipschitz-stetig 237 

logarithmische momentenerzeugende 

Funktion 491 

Log-Normalverteilung 284 

lokal beschränkt 193 

lokal endlich 235 

lokales Martingal 470 

lokalisierende Folge 470 

lokalkompakt 234

Lokalzeit 201 

L p –beschränkt 132 

Lusin 238 

LV 156 

Lyapunov-Bedingung 305 

Markoveigenschaft 

– elementare 333 

– schwache 334 

– starke 338 

Markovkern 175 

Markovkette 334 

– aperiodische 366 

– diskrete 340 

– invariante Verteilung 360 

– invariantes Maß 360 

– irreduzibel 352 

– Konvergenzgeschwindigkeit 383 

– Konvergenzsatz 375 

– Kopplung 370 

– Monte Carlo Methode 376 

– nullrekurrent 350 

– Periode eines Punktes 366 

– positiv rekurrent 350 

– rekurrent 350 

– reversible 392 

– schwach irreduzibel 352 

– transient 350 

– unabhängiges Verschmelzen 371 

Markovprozess 334 

Markov’sche Halbgruppe 277 

Markov’sche Ungleichung 104 


Martingal 188 

– Konvergenzsatz (L 1 ) 213 

– Konvergenzsatz (L p ) 214 

– Konvergenzsatz (f.s.) 212 

– Konvergenzsatz (rückwärts) 226 

– Konvergenzsätze (RCLL) 446 

– lokales 470 

– quadratische Variation 200 

–Rückwärts- 226 

Martingaldarstellungssatz 542 

Martingalproblem 563 


– gut gestelltes 564 

Martingaltransformierte 192 

Maß 12 

– äußeres 21 


– Bernoulli 29 

– Borel 235 

– Einschränkung 32 

– harmonisches 546 

– invariantes 360 

– Lebesgue 25 

– lokal endliches 235 

– Produkt- 29, 276 

– Radon 235 

– reguläres 235 

– σ-endliches 12 

– signiertes 156 

– stationäres 360 

– Wahrscheinlichkeits- 12 

Maßraum 17 

maßtreue Abbildung 416 

Maximal-Ergodenlemma 418 

MCMC 376 

mean field 507 

mehrstufiges Binomialmodell 197 

Mellin-Transformierte 287 

messbar 

– Abbildung 33 

– Borel 8 

– Lebesgue 32 

– μ– 22 

– Menge 17 

Messraum 17 

– Isomorphie 179 

Metrik 

–aufC([0, ∞)) 451 

–Lévy 246 

– Prohorov 240 

– stochastische Konvergenz 127 

– vollständige 234 

– Wasserstein 370 

metrisierbar 234 

Metropolis-Algorithmus 377 

Minkowski’sche Ungleichung 146 

mischend 426 

Modifikation 429 

Momente 97 

– absolute 97 

Momentenproblem 301 

monoton 11 

Monotonieprinzip von Rayleigh 396 

Monte Carlo Simulation 111 

Moran-Gamma-Subordinator 520


Moran-Modell 343 

de Morgan’sche Regeln 2 

moving average 416 

negative Binomialverteilung 44, 77 

Niveaumenge 494 

Normalverteilung 45 

– mehrdimensionale 45, 312 

Nullmenge 31 

nullrekurrent 350 

offen 8 

Ohm’sches Gesetz 394 

Optional Sampling Theorem 203, 208 

– stetige Zeit 435 

Optional Stopping Theorem 204 

– stetige Zeit 435 

Ornstein-Uhlenbeck Prozess 553 

orthogonale Polynome 388 

orthogonales Komplement 148 

Parseval’sche Gleichung 447 

partiell stetig 296 

Partitionsfunktion 378, 505 

Pascal-Verteilung 44 

perfekte Simulation 382 

Periode 366 

Perkolation 64, 389 

Petersburger Spiel 92, 185, 193 

Pfad 431 

pfadweise eindeutig 562 

Phasenübergang 378, 508 

π-System siehe schnittstabil 

Plancherel’sche Gleichung 287 

Poisson-Approximation 79 

Poisson-Dirichlet-Verteilung 521, 524 

Poissonprozess 120, 335 

Poisson’sche Summationsformel 443 

Poisson’scher Punktprozess 511 

Poisson-Verteilung 45 

– zusammengesetzte 317 

polare Menge 550 

Polarisationsformel 468 

polnischer Raum 180, 235 

Pólya, Satz von 297, 353 

Pólya’sches Urnenmodell 232, 276, 519 

– verallgemeinertes 347, 349 

Portemanteau-Theorem 242 

positiv rekurrent 350 

positiv semidefinit 298 

Präfixcode 113 

Prämaß 12 

previsibel 185, 530 

Prinzip großer Abweichungen 495 

Produktmaß 27, 29, 264, 274, 276 

produktmessbar 530 

Produktraum 260 

Produkt-σ-Algebra 260 

Produkttopologie 260 

progressiv messbar 530 

Prohorov 248 

Prohorov-Metrik 240, 375 

projektive Familie 274 

projektiver Limes 275 

Propp-Wilson Algorithmus 382 

Punkte trennend 282 

Punktperkolation 65 

Q-Matrix 345 

Quader 9 

quadratintegrierbar 97 

quadratische Variation 468 

quadratischer Kovariationsprozess 475 

quadratischer Variationsprozess 200, 471 

Quellenkodierungssatz 114 

Radon-Maß 235 

Radon-Nikodym-Ableitung 152 

Rand 234 

random walk in random environment 414 

Ratenfunktion 490, 495 

Rayleigh’sches Monotonieprinzip 396 

RCLL 444 

Rechteckzylinder 262 

Reflexionsprinzip 339 

– Brown’sche Bewegung 442 

reguläre Version der bedingten Verteilung 

176 

Regularität von Maßen 31, 235 

Rejection Sampling 182 

rekurrent 350 

relativ kompakt 234 

replizierbar 196 

reversibel 377, 392 

Riemann-Integral 93 

Riemann’sche Zetafunktion 50 

Ring 3 

risikoneutral 196

Rückwärtsmartingal 226 

Satz 

– Approximation von Maßen 29 

– Arzelà-Ascoli 454 

– Beppo Levi 91 

– Berry-Esseen 311 

– Bochner 298 

– Borel-Cantelli Lemma 51 

– – bedingte Version 219 

– Carathéodory 19, 23 

– Choquet-Deny 374 

– Chung-Fuchs 357, 424 

– Continuous Mapping Theorem 245 

– Cramér 491, 497 

– Donsker 457 

– Dreireihen 310 

– Egorov 130 

– Etemadi 108 

– Fatou’sches Lemma 91 

– de Finetti 229, 257 

– Fischer-Riesz 147 

– Fortsetzung zu Maßen 19, 23 

– Fubini 265 

– Fubini für Itô-Integrale 545 

– Fubini für Übergangskerne 270 

– Glivenko-Cantelli 111 

– große Abweichungen 491 

– Hahn’scher Zerlegungssatz 156 

– Hartman-Wintner 486 

– Hauptsatz der Differential- und 

Integralrechnung 239 

– Helly 250 

– Hewitt-Savage 228 

– Ionescu-Tulcea 273 

– iterierter Logarithmus 478, 486 

– Jordan’scher Zerlegungssatz 158 

– Kantorovich-Rubinstein 370 

– Kesten-Stigum 220 

– Kolmogorov-Chentsov 432 

– Kolmogorov’sche Ungleichung 116 

– Kolmogorov’scher Dreireihensatz 310 

– Kolmogorov’scher Erweiterungssatz 

275 

– Kolmogorov’sches Kriterium für 

schwache Relativkompaktheit 455 

– Lebesgue’scher Zerlegungssatz 152 

–Lévy-Khinchin 320, 323 

– Lindeberg-Feller 306 


– Lusin 238 

– majorisierte Konvergenz 135 

– Martingalsdarstellung 542 

– monotone Konvergenz 91 

– Optional Sampling 203, 208 

– Optional Sampling, stetige Zeit 435 

– Optional Stopping 204 

– Optional Stopping, stetige Zeit 435 

– Paley-Wiener-Zygmund 439 

– π–λ 7 

– Poisson-Approximation 79 

–Pólya 297, 353 

– Portemanteau 242 

– Prohorov 248 

– Quellenkodierungssatz 114 

– Rademacher–Menshov 117 

– Radon-Nikodym 152, 217 

– Rayleigh’sches Monotonieprinzip 396 

– reguläre bedingte Verteilungen 176, 

180 

– Sanov 500 

– Shannon 112 

– Skorohod’sche Einbettung 480 

– Slutzky 243 

– Stetigkeitssatz von Lévy 296 

– Stone-Weierstraß 282 

– Stroock-Varadhan 566 

– Thomson’sches Prinzip 398 

– Varadhan’sches Lemma 503 

– Yamada-Watanabe 558 

Schauderfunktionen 448 

Schema von Zufallsvariablen 305 

schnittstabil 1 

schwache Konvergenz 240 

schwache Lösung 560 

schwache Topologie 240 

SDGL siehe stochastische Differentialgleichung 

Semiring 3 

separabel 234 

Shannon 112 

Shift 417 

σ-additiv 11 

σ-Algebra 2 

– austauschbare 223 

–derτ-Vergangenheit 187 

– invariante 416 

– Produkt- 260


– terminale 61, 224 

σ-kompakt 234 

σ-Ring 3 

σ-subadditiv 12 

signiertes Maß 156 

singulär 151 

Skalarprodukt 147 

Skorohod’scher Einbettungssatz 480 

Slutzky, Satz von 243 

Spannung 394 

Spektrallücke 384 

Spiegelungsprinzip 339 

Spielstrategie 193 

Spin 377 

Spur 10 

stabile Verteilung 298, 327 

– im weiteren Sinne 328 

Standardabweichung 97 

starke Lösung 552 

starke Lösung 552 

starke Markoveigenschaft 338 

stationär 415 

stetig von oben/ unten 15 

Stetigkeitslemma 136 

Stetigkeitsmodul, Lévy’scher 480 

Stetigkeitssatz, Lévy’scher 296 

Stirling’sche Formel 301, 491 

stochastisch größer 369 

Stochastische Differentialgleichung 

– pfadweise Eindeutigkeit 562 

– schwache Lösung 560 

– starke Lösung 552 

– starke Lösung unter Lipschitz- 

Bedingungen 555 

stochastische Differentialgleichung 551 

stochastische Kerne 

– Produkt 268 

stochastische Matrix 341 

stochastische Ordnung 369 

stochastischer Kern 175 

– Halbgruppe 277 

– konsistente Familie 276 

– Verkettung 269 

stochastischer Prozess 183 

– adaptiert 185 

– Dualität 567 

– Explosion 347 

– Galton-Watson 81, 219 

– Gauß’scher 184, 437 

– gestoppter 204 

– integrierbarer 184 

– Markoveigenschaft 333 

– Modifikation 429 

– Pfad 431 

– Poisson 335 

– previsibel 530 

– previsibler 185 

– produktmessbar 530 

– progressiv messbar 530 

– starke Markoveigenschaft 338 

– stationärer 184 

– stationäre Zuwächse 184 

– unabhängige Zuwächse 184 

– ununterscheidbar 429 

– Version 429 

– vorhersagbar 530 

– vorhersagbarer 185 

stochastisches Integral 449, 450 


Stone-Weierstraß, Satz von 282 

Stoppzeit 186 

straff 248 

Stratonovich-Integral 545 

Streuung 97 

Stromstärke 394 

Student’sche t-Verteilung 316 

Sub-Wahrscheinlichkeitsmaße 236 

subadditiv 11 

subharmonisch 360 

Submartingal 188 

Subordinator 516 

Supermartingal 188 

symmetrische Differenz 29 

symmetrische einfache Irrfahrt 184 

tail σ-field siehe terminale σ-Algebra 

terminale σ-Algebra 61, 224 

Thomson’sches Prinzip 398 

Topologie 8 

– schwache 240 

– vage 240 

topologischer Raum 8 

total beschränkt 235 

totale Wahrscheinlichkeit 166 

totalstetig 154 

Totalvariationsnorm 158 

Transformationsformel 41

transient 350 

translationsinvariant 342 

trennende Familie 237 

Tschebyscheff siehe Chebyshev 

Turmeigenschaft 170 

t-Verteilung 316 

Übergangskern 175 

Übergangsmatrix 340 

Übergangswahrscheinlichkeiten 334 

übliche Bedingungen 444 

u.i.v. 55 

unabhängige Inkremente siehe unabhängige 

Zuwächse 

unabhängige Kopie 369 

unabhängige Zuwächse 511 

Unabhängigkeit 


– von Ereignissen 49 

– von Mengensystemen 53 

– von Zufallsvariablen 55 

unbegrenzt teilbar 315 

–zufälliges Maß 516 

Ungleichung 

– Azuma 192 

– Bernstein-Chernov 106 

– Cauchy-Schwarz 101 

– Chebyshev 104 

– Doob 210 

– Etemadi 118 

–Hölder 146 

– Jensen 144 

– Kolmogorov 116 

–Markov siehe Chebyshev 

– Minkowski 146 

– Young 146 

uniforme Verteilung 33 

unkorreliert 98 

Unstetigkeitsstellen 11 

ununterscheidbar 429 

vage Konvergenz 240 

vage Topologie 240 

Varadhan’sches Lemma 503 

Varianz 97 

Variation 466 

– p 468 

– quadratische 468 

Verkettung von Kernen 269 


Version 429 

Verteilung 42 

– Anziehungsbereich 329 

– Bernoulli 43 

– Beta 46, 232, 303, 519 

– binomial 44 

– Boltzmann 378 

– Cauchy 46, 289, 547 

– compound Poisson 317 

– Exponential- 45 

– Gamma 46, 303 

– GEM 522, 524 

– geometrische 44 

– hypergeometrische 45 

– negativ binomial 44, 77 

– Normal 45 

– Pascal 44, 77 

– Poisson 45 

– Poisson-Dirichlet 519, 521, 524 

– stabile 327 

– t- 316 

– uniforme 12, 33 

– zusammengesetzt Poisson 317 

– zweiseitig exponential 289 

Verteilungsfunktion 21, 27 

– einer Zufallsvariablen 42 

– empirische 111 

Vervollständigung 32 

Verwerfungsmethode 182 

Verzweigungsprozess 81, 219 

Vitali-Menge 9 

vollständig 32, 234 

vorhersagbar 185, 530 

voter model siehe Wählermodell 

Wahrscheinlichkeitsmaß 12 

Wahrscheinlichkeitsraum 17 

Wahrscheinlichkeitsvektor 13 

Wald’sche Identität 99 

Wasserstein Metrik 370 

Watson Integral 358 

Weierstraß’scher Approximationssatz 106 

Weiss’scher Ferromagnet 506 

Widerstand 393 

Wiener-Prozess 453 

W-Maß siehe Wahrscheinlichkeitsmaß 

Wright’sches Evolutionsmodell 343 

Wright-Fisher Diffusion 568 

– wechselwirkende 572


Wählermodell 216 

Young’sche Ungleichung 146 

Zentraler Grenzwertsatz 304 

– Berry-Esseen 311 

– Lindeberg-Feller 306 

– mehrdimensional 313 

zentriert 97 

Zerlegungsfolge, zulässige 467 

zufälliges Maß 510 

Zufallsvariable 42 

zulässige Zerlegungsfolge 467 

zusammengesetzte Poissonverteilung 317 

Zustandssumme 378, 505 

Zweistufenexperiment 259 

Zylindermenge 18, 262 

Zählmaß 13

Klenke Wahrscheinlichkeitstheorie

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?