24.01.2013 Aufrufe

Klenke Wahrscheinlichkeitstheorie

Klenke Wahrscheinlichkeitstheorie

Klenke Wahrscheinlichkeitstheorie

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Klenke</strong><br />

<strong>Wahrscheinlichkeitstheorie</strong>


Achim <strong>Klenke</strong><br />

<strong>Wahrscheinlichkeitstheorie</strong><br />

Mit 34 Abbildungen<br />

123


Prof. Dr. Achim <strong>Klenke</strong><br />

Institut für Mathematik<br />

Johannes Gutenberg-Universität Mainz<br />

Staudingerweg 9<br />

55099 Mainz, Deutschland<br />

e-mail: math@aklenke.de<br />

Bibliografische Information der Deutschen Bibliothek<br />

Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;<br />

detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.<br />

Mathematics Subject Classification (2000): 60-01, 28-01, 60G05, 60J10, 60H05<br />

ISBN-10 3-540-25545-1 Springer Berlin Heidelberg New York<br />

ISBN-13 978-3-540-25545-1 Springer Berlin Heidelberg New York<br />

Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der<br />

Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung,<br />

der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in<br />

Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung<br />

dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen<br />

der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom<br />

9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig.<br />

Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.<br />

Springer ist ein Unternehmen von Springer Science+Business Media<br />

springer.de<br />

© Springer-Verlag Berlin Heidelberg 2006<br />

Printed in Germany<br />

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk<br />

berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne<br />

der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von<br />

jedermann benutzt werden dürften. Text und Abbildungen wurden mit größter Sorgfalt erarbeitet.<br />

Verlag und Autor können jedoch für eventuell verbliebene fehlerhafte Angaben und deren Folgen<br />

weder eine juristische Verantwortung noch irgendeine Haftung übernehmen.<br />

Umschlaggestaltung: design & production GmbH, Heidelberg<br />

Herstellung: LE-TEXJelonek,Schmidt&VöcklerGbR,Leipzig<br />

Satz: Datenerstellung durch den Autor unter Verwendung eines Springer TEX-Makropakets<br />

Gedruckt auf säurefreiem Papier 44/3100YL - 543210


Vorwort<br />

Das vorliegende Buch basiert auf den vierstündigen Vorlesungen Stochastik I und<br />

Stochastik II, die ich in den vergangenen Jahren an der Universität zu Köln und<br />

an der Johannes Gutenberg-Universität in Mainz gehalten habe, und die an eine<br />

Vorlesung über elementare Stochastik anschließen. Eine gewisse Vertrautheit mit<br />

den Ideen der elementaren Stochastik wird zwar nicht formal vorausgesetzt, dem<br />

Leser jedoch empfohlen.<br />

Ziel dieses Buches ist es, die zentralen Objekte und Konzepte der <strong>Wahrscheinlichkeitstheorie</strong><br />

vorzustellen: Zufallsvariablen, Unabhängigkeit, Gesetze der großen<br />

Zahl und zentrale Grenzwertsätze, Martingale, Austauschbarkeit und unbegrenzte<br />

Teilbarkeit, Markovketten und -prozesse sowie den Zusammenhang mit der diskreten<br />

Potentialtheorie, Kopplung, Ergodentheorie, die Brown’sche Bewegung und<br />

das Itô-Integral (nebst stochastischen Differentialgleichungen), den Poisson’schen<br />

Punktprozess, Perkolation und die Theorie der großen Abweichungen, sowie stochastische<br />

Differentialgleichungen.<br />

Die Maß- und Integrationstheorie wird entwickelt, soweit sie für das Verständnis<br />

und die Formulierung der <strong>Wahrscheinlichkeitstheorie</strong> notwendig ist: Konstruktion<br />

von Maßen und Integralen, Satz von Radon-Nikodym und reguläre bedingte Verteilungen,<br />

Konvergenzsätze für Funktionen (Lebesgue) und Maße (Prohorov) und<br />

Konstruktion von Maßen in Produkträumen. Die einzelnen maßtheoretischen Kapitel<br />

kommen nicht als Block am Anfang des Buches, obwohl sie so geschrieben sind,<br />

dass das möglich wäre, nämlich unabhängig von den wahrscheinlichkeitstheoretischen<br />

Kapiteln, sondern abwechselnd mit wahrscheinlichkeitstheoretischen Kapiteln,<br />

die so gebaut sind, dass sie mit den gerade zur Verfügung stehenden Begriffen<br />

auskommen (beispielsweise kann man Perkolation studieren, ohne einen Integralbegriff<br />

an der Hand zu haben). Als einzige Ausnahme wird die systematische Konstruktion<br />

von unabhängigen Zufallsvariablen erst im 14ten Kapitel nachgeliefert.<br />

Ich verspreche mir von diesem Vorgehen eine Auflockerung des maßtheoretischen<br />

Stoffes, der von manchen als etwas trocken empfunden wird. Letztlich ist dieses<br />

genauso eine Geschmacksfrage wie diejenige, welches der beiden Themen als linke<br />

und welches als rechte Hand anzusehen ist.<br />

Wer eine maßtheoretische Grundbildung hat, kann insbesondere das erste Kapitel<br />

beim ersten Lesen zunächst überspringen und braucht eventuell nur Einzelnes darin<br />

nachzuschlagen. Das Gleiche gilt für das vierte Kapitel (Integrationstheorie).


VI Vorwort<br />

In den ersten acht Kapiteln wird das Fundament gelegt, das in allen weiteren Kapiteln<br />

benötigt wird. Danach können die sieben inhaltlichen Einheiten von Kapitel<br />

9–12, 13, 14, 15–16, 17–19, 20, und 23 einigermaßen unabhängig voneinander gelesen<br />

werden. Das Kapitel zur Brown’schen Bewegung (21) greift auf die Kapitel<br />

9–15 zurück. Danach sind unabhängig voneinander die Blöcke 22, 24 und 25–26<br />

lesbar.<br />

Ich danke all denjenigen, die das Manuskript gelesen und zahlreiche Verbesserungsvorschläge<br />

und Korrekturen angebracht haben: Den Mitarbeitern und Studenten Roland<br />

Alkemper, Dirk Brüggemann, Anne Eisenbürger, Ortwin Lorenz, Mario Oeler,<br />

Marcus Schölpen, den Kollegen Wolfgang Bühler und Wolfgang König sowie besonders<br />

dem Münchener Kollegen Hans-Otto Georgii. Für weitere Hinweise auf<br />

Fehler unter math@aklenke.de wäre ich dankbar.<br />

Außerdem möchte ich mich beim Springer-Verlag für die gute Zusammenarbeit bedanken.<br />

Mainz, Achim <strong>Klenke</strong><br />

November 2005


Inhaltsverzeichnis<br />

1 Grundlagen der Maßtheorie .................................. 1<br />

1.1 Mengensysteme . . . . ........................................ 1<br />

1.2 Mengenfunktionen . ........................................ 11<br />

1.3 FortsetzungvonMaßen ..................................... 17<br />

1.4 Messbare Abbildungen . . .................................... 33<br />

1.5 Zufallsvariablen . . . . ........................................ 42<br />

2 Unabhängigkeit ............................................. 47<br />

2.1 UnabhängigkeitvonEreignissen.............................. 47<br />

2.2 Unabhängigkeit von Zufallsvariablen . . . . ...................... 54<br />

2.3 Kolmogorov’sches 0-1 Gesetz . . . ............................. 61<br />

2.4 Beispiel: Perkolation . . . . .................................... 64<br />

3 Erzeugendenfunktion ........................................ 75<br />

3.1 Definition und Beispiele . .................................... 75<br />

3.2 Poisson-Approximation . .................................... 78<br />

3.3 Verzweigungsprozesse . . .................................... 80<br />

4 Das Integral ................................................ 83<br />

4.1 KonstruktionundeinfacheEigenschaften ...................... 83<br />

4.2 Monotone Konvergenz und Lemma von Fatou .................. 91<br />

4.3 Lebesgue-Integral versus Riemann-Integral . . . .................. 93<br />

5 Momente und Gesetze der Großen Zahl ......................... 97<br />

5.1 Momente ................................................. 97<br />

5.2 Schwaches Gesetz der Großen Zahl . . . . . ......................104


VIII Inhaltsverzeichnis<br />

5.3 Starkes Gesetz der Großen Zahl . .............................107<br />

5.4 KonvergenzrateimstarkenGGZ..............................115<br />

5.5 Der Poissonprozess . ........................................118<br />

6 Konvergenzsätze ............................................ 125<br />

6.1 Fast-überall- und stochastische Konvergenz . . . ..................125<br />

6.2 Gleichgradige Integrierbarkeit . . . .............................130<br />

6.3 Vertauschung von Integral und Ableitung. ......................136<br />

7 Lp-Räume und Satz von Radon-Nikodym ....................... 139<br />

7.1 Definitionen...............................................139<br />

7.2 Ungleichungen und Satz von Fischer-Riesz . . . ..................141<br />

7.3 Hilberträume ..............................................147<br />

7.4 Lebesgue’scher Zerlegungssatz . . .............................150<br />

7.5 Ergänzung: Signierte Maße . . . . . .............................154<br />

7.6 Ergänzung: Dualräume......................................160<br />

8 Bedingte Erwartungen ....................................... 165<br />

8.1 Elementare bedingte Wahrscheinlichkeiten . . . ..................165<br />

8.2 Bedingte Erwartungen . . ....................................168<br />

8.3 Reguläre Version der bedingten Verteilung . . . ..................175<br />

9 Martingale ................................................. 183<br />

9.1 Prozesse, Filtrationen, Stoppzeiten . . . . . . ......................183<br />

9.2 Martingale ................................................188<br />

9.3 Diskretes stochastisches Integral . .............................192<br />

9.4 Diskreter Martingaldarstellungssatz und CRR Modell . ...........194<br />

10 Optional Sampling Sätze ..................................... 199<br />

10.1 Doob-Zerlegung und quadratische Variation . . ..................199<br />

10.2 Optional Sampling und Optional Stopping . . . . ..................203<br />

10.3 Gleichgradige Integrierbarkeit und Optional Sampling . ...........207<br />

11 Martingalkonvergenzsätze und Anwendungen ................... 209


Inhaltsverzeichnis IX<br />

11.1 Die Doob’sche Ungleichung . . . . .............................209<br />

11.2 Martingalkonvergenzsätze . . . . . . .............................211<br />

11.3 Beispiel: Verzweigungsprozess . . .............................219<br />

12 Rückwärtsmartingale und Austauschbarkeit..................... 221<br />

12.1 Austauschbare Familien von Zufallsvariablen . ..................221<br />

12.2 Rückwärtsmartingale .......................................226<br />

12.3 Satz von de Finetti . . ........................................228<br />

13 Konvergenz von Maßen ...................................... 233<br />

13.1 Wiederholung Topologie ....................................233<br />

13.2 Schwache und vage Konvergenz . .............................240<br />

13.3 Der Satz von Prohorov . . ....................................248<br />

13.4 Anwendung: Satz von de Finetti – anders angeschaut . . ...........257<br />

14 W-Maße auf Produkträumen ................................. 259<br />

14.1 Produkträume..............................................260<br />

14.2 Endliche Produkte und Übergangskerne........................263<br />

14.3 Satz von Ionescu-Tulcea und Projektive Familien . . . . . ...........272<br />

14.4 Markov’sche Halbgruppen . . . ................................276<br />

15 Charakteristische Funktion und Zentraler Grenzwertsatz ......... 281<br />

15.1 Trennende Funktionenklassen . . . .............................281<br />

15.2 Charakteristische Funktionen: Beispiele . . ......................288<br />

15.3 Der Lévy’sche Stetigkeitssatz . . . .............................294<br />

15.4 Charakteristische Funktion und Momente ......................299<br />

15.5 Der Zentrale Grenzwertsatz . . . . . .............................304<br />

15.6 Mehrdimensionaler Zentraler Grenzwertsatz . . ..................312<br />

16 Unbegrenzt teilbare Verteilungen .............................. 315<br />

16.1 Die Lévy-Khinchin Formel . . . . . .............................315<br />

16.2 Stabile Verteilungen ........................................327<br />

17 Markovketten .............................................. 333


X Inhaltsverzeichnis<br />

17.1 Begriffsbildung und Konstruktion . . . . . . . ......................333<br />

17.2 Diskrete Markovketten, Beispiele .............................340<br />

17.3 Diskrete Markovprozesse in stetiger Zeit . ......................344<br />

17.4 Diskrete Markovketten, Rekurrenz und Transienz . . . . . ...........349<br />

17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten . ...........353<br />

17.6 Invariante Verteilungen . . ....................................360<br />

18 Konvergenz von Markovketten ................................ 365<br />

18.1 Periodizität von Markovketten . . . .............................365<br />

18.2 Kopplung und Konvergenzsatz . . .............................369<br />

18.3 Markovketten Monte Carlo Methode . . . . ......................376<br />

18.4 Konvergenzgeschwindigkeit. . . . . .............................383<br />

19 Markovketten und elektrische Netzwerke ....................... 389<br />

19.1 Harmonische Funktionen ....................................389<br />

19.2 Reversible Markovketten ....................................392<br />

19.3 Elektrische Netzwerke . . ....................................393<br />

19.4 Rekurrenz und Transienz ....................................399<br />

19.5 Netzwerkreduktion . ........................................405<br />

19.6 Irrfahrt in zufälliger Umgebung . . .............................412<br />

20 Ergodentheorie ............................................. 415<br />

20.1 Begriffsbildung . . . . ........................................415<br />

20.2 Ergodensätze . . . . . . ........................................418<br />

20.3 Beispiele . . . ...............................................421<br />

20.4 Anwendung: Rekurrenz von Irrfahrten . . . ......................423<br />

20.5 Mischung . . ...............................................426<br />

21 Die Brown’sche Bewegung .................................... 429<br />

21.1 Stetige Modifikationen ......................................429<br />

21.2 Konstruktion und Pfadeigenschaften . . . . . ......................436<br />

21.3 Starke Markoveigenschaft . . . . . . .............................441<br />

21.4 Ergänzung: Feller Prozesse . . . . . .............................444


Inhaltsverzeichnis XI<br />

21.5 Konstruktion durch L2-Approximation ........................447<br />

21.6 Der Raum C([0, ∞)) .......................................451<br />

21.7 Konvergenz von W-Maßen auf C([0, ∞)) ......................453<br />

21.8 Satz von Donsker. ..........................................456<br />

21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗ .............460<br />

21.10Quadratische Variation und lokale Martingale . ..................465<br />

22 Gesetz vom iterierten Logarithmus ............................. 477<br />

22.1 Iterierter Logarithmus für die Brown’sche Bewegung . . ...........477<br />

22.2 Skorohod’scher Einbettungssatz . .............................480<br />

22.3 Satz von Hartman-Wintner . . . . . . .............................486<br />

23 Große Abweichungen ........................................ 489<br />

23.1 Satz von Cramér ...........................................490<br />

23.2 Prinzip der großen Abweichungen . . . . . . ......................494<br />

23.3 Satz von Sanov . . . . ........................................498<br />

23.4 Varadhan’sches Lemma und Freie Energie . . . . ..................502<br />

24 Der Poisson’sche Punktprozess ................................ 509<br />

24.1 Zufällige Maße . . . . ........................................509<br />

24.2 Eigenschaften des Poisson’schen Punktprozesses . . . . . ...........513<br />

24.3 Die Poisson-Dirichlet-Verteilung∗ .............................519<br />

25 Das Itô-Integral ............................................. 527<br />

25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung ...........527<br />

25.2 Itô-Integral bezüglich Diffusionen . . . . . . . ......................535<br />

25.3 Die Itô-Formel.............................................538<br />

25.4 Dirichlet-Problem und Brown’sche Bewegung ..................546<br />

25.5 Rekurrenz und Transienz der Brown’schen Bewegung . ...........548<br />

26 Stochastische Differentialgleichungen .......................... 551<br />

26.1 Starke Lösungen . . . ........................................551<br />

26.2 Schwache Lösungen und Martingalproblem . . ..................560<br />

26.3 Eindeutigkeit schwacher Lösungen via Dualität .................567


XII Inhaltsverzeichnis<br />

Literatur....................................................... 575<br />

Notation ....................................................... 583<br />

Glossar englischer Ausdrücke ..................................... 587<br />

Namensregister ................................................. 589<br />

Sachregister .................................................... 593


1 Grundlagen der Maßtheorie<br />

In diesem Kapitel führen wir die Mengensysteme ein, die eine systematische Betrachtung<br />

von Ereignissen und zufälligen Beobachtungen in der <strong>Wahrscheinlichkeitstheorie</strong><br />

erlauben. Ferner sollen Maße, insbesondere Wahrscheinlichkeitsmaße,<br />

auf solchen Mengensystemen konstruiert werden. Schließlich werden wir Zufallsvariablen<br />

als messbare Abbildungen definieren.<br />

1.1 Mengensysteme<br />

Im Folgenden ist stets Ω �= ∅ eine Menge und A⊂2 Ω (Potenzmenge von Ω)<br />

eine Familie von Teilmengen. Später wird die Menge Ω als Raum von Elementarereignissen<br />

interpretiert werden und A als ein System von beobachtbaren Ereignissen.<br />

Wir wollen in diesem Abschnitt Mengensysteme, die abgeschlossen sind unter<br />

einfachen mengentheoretischen Verknüpfungen, mit Namen versehen und einfache<br />

Beziehungen zwischen solchen Systemen herstellen.<br />

Definition 1.1. Das Mengensystem A heißt<br />

– ∩-stabil (sprich: schnittstabil) oder ein π-System, falls für je zwei Mengen<br />

A, B ∈Agilt, dass auch A ∩ B ∈A,<br />

– σ-∩-stabil (sigma-schnittstabil), falls für je abzählbar unendlich viele Mengen<br />

A1,A2,...∈Agilt, dass auch ∞�<br />

An ∈A,<br />

n=1<br />

– ∪-stabil (vereinigungsstabil), falls für je zwei Mengen A, B ∈Agilt, dass auch<br />

A ∪ B ∈A,<br />

– σ-∪-stabil (sigma-vereinigungsstabil), falls für je abzählbar unendlich viele Mengen<br />

A1,A2,...∈Agilt, dass auch ∞�<br />

An ∈A,<br />

n=1<br />

– \-stabil (differenzmengenstabil), falls für je zwei Mengen A, B ∈Agilt, dass<br />

auch A \ B ∈A,<br />

– komplementstabil, falls mit jeder Menge A ∈Aauch Ac := Ω \ A ∈Agilt.


2 1 Grundlagen der Maßtheorie<br />

Definition 1.2 (σ-Algebra). Ein Mengensystem A⊂2 Ω heißt σ-Algebra, falls<br />

die folgenden drei Bedingungen erfüllt sind.<br />

(i) Ω ∈A,<br />

(ii) A ist komplementstabil,<br />

(iii) A ist σ-∪-stabil.<br />

σ-Algebren sind die natürlichen Mengensysteme für zufällige Ereignisse, denn wie<br />

wir sehen werden, können wir diesen Ereignissen in konsistenter Weise Wahrscheinlichkeiten<br />

zuordnen.<br />

Satz 1.3. Ist A komplementstabil, so gelten die beiden folgenden Äquivalenzen.<br />

A ist ∩ -stabil ⇐⇒ A ist ∪ -stabil,<br />

A ist σ- ∩ -stabil ⇐⇒ A ist σ- ∪ -stabil.<br />

Beweis. Dies folgt direkt aus den de Morgan’schen Regeln (Erinnerung: ( � Ai) c =<br />

� A c i ). Ist beispielsweise A σ-∩-stabil und sind A1,A2,...∈A, so ist auch<br />

∞�<br />

n=1<br />

An =<br />

� ∞�<br />

n=1<br />

A c n<br />

� c<br />

∈A.<br />

Also ist A auch σ-∪-stabil. Die anderen Fälle folgen analog. ✷<br />

Satz 1.4. Ist A\-stabil, so gelten die folgenden Aussagen.<br />

(i) A ist ∩-stabil.<br />

(ii) Falls A σ-∪-stabil ist, dann ist A auch σ-∩-stabil.<br />

(iii) Jede abzählbare (beziehungsweise endliche) Vereinigung von Mengen aus A<br />

lässt sich als abzählbare (beziehungsweise endliche), disjunkte Vereinigung<br />

von Mengen in A schreiben.<br />

Beweis. (i) Seien A, B ∈A. Dann ist auch A ∩ B = A \ (A \ B) ∈A.<br />

(ii) Seien A1,A2,...∈A.Dannist<br />

∞�<br />

n=1<br />

An =<br />

∞�<br />

∞�<br />

∞�<br />

(A1 ∩ An) = A1 \ (A1 \ An) =A1 \ (A1 \ An) ∈A.<br />

n=2<br />

n=2<br />

(iii) Seien A1,A2,... ∈A.Dannist ∞�<br />

An als abzählbare, disjunkte Vereinigung<br />

in A darstellbar durch<br />

n=1<br />

n=2


1.1 Mengensysteme 3<br />

∞�<br />

An = A1 ⊎ (A2 \ A1) ⊎ ((A3 \ A1) \ A2) ⊎ (((A4 \ A1) \ A2) \ A3) ⊎ ... ✷<br />

n=1<br />

Bemerkung 1.5. Manchmal bezeichnen wir, wie im obigen Beweis, die Vereinigung<br />

paarweise disjunkter Mengen mit dem Symbol � . Dies soll lediglich der optischen<br />

Verdeutlichung dienen und ist keine neue Verknüpfung. ✸<br />

Definition 1.6. Ein Mengensystem A⊂2 Ω heißt Algebra, falls gilt:<br />

(i) Ω ∈A,<br />

(ii) A ist \-stabil,<br />

(iii) A ist ∪-stabil.<br />

Offenbar ist in einer Algebra stets ∅ = Ω \ Ω enthalten. Diese Eigenschaft ist im<br />

Allgemeinen jedoch schwächer als (i) in Definition 1.6.<br />

Satz 1.7. Ein Mengensystem A⊂2 Ω ist genau dann eine Algebra, wenn es folgende<br />

drei Eigenschaften hat:<br />

(i) Ω ∈A,<br />

(ii) A ist komplementstabil,<br />

(iii) A ist ∩-stabil.<br />

Beweis. Übung! ✷<br />

Definition 1.8. Ein Mengensystem A⊂2 Ω heißt Ring, falls gilt:<br />

(i) ∅∈A,<br />

(ii) A ist \-stabil,<br />

(iii) A ist ∪-stabil.<br />

Ein Ring heißt σ-Ring, falls er σ-∪-stabil ist.<br />

Definition 1.9. Ein Mengensystem A⊂2 Ω heißt Semiring (oder Halbring), falls<br />

gilt:<br />

(i) ∅∈A,<br />

(ii) für je zwei Mengen A, B ∈Aist B \ A endliche Vereinigung von paarweise<br />

disjunkten Mengen aus A,<br />

(iii) A ist ∩-stabil.


4 1 Grundlagen der Maßtheorie<br />

Definition 1.10. Ein Mengensystem A ⊂ 2 Ω heißt Dynkin-System (oder λ-System),<br />

falls gilt:<br />

(i) Ω ∈A,<br />

(ii) für je zwei Mengen A, B ∈Amit A ⊂ B ist B \ A ∈A,<br />

(iii) für<br />

�<br />

je abzählbar viele, paarweise disjunkte Mengen A1,A2,... ∈ A gilt<br />

∞<br />

n=1 An ∈A.<br />

Beispiele 1.11. (i) Ist Ω eine beliebige nichtleere Menge, so sind A = {∅,Ω} und<br />

A = 2 Ω die trivialen Beispiele für Algebren, σ-Algebren und Dynkin-Systeme.<br />

Hingegen sind A = {∅} und A =2 Ω die trivialen Beispiele für Semiringe, Ringe<br />

und σ-Ringe.<br />

(ii) Sei Ω = R. DannistA = {A ⊂ R : A ist abzählbar} ein σ-Ring.<br />

(iii) A = {(a, b] : a, b ∈ R, a≤ b} ist ein Semiring über Ω = R (aber kein<br />

Ring).<br />

(iv) Die Menge endlicher Vereinigungen von beschränkten Intervallen ist ein Ring<br />

über Ω = R (aber keine Algebra).<br />

(v) Die Menge endlicher Vereinigungen beliebiger (auch unbeschränkter) Intervalle<br />

ist eine Algebra über Ω = R (aber keine σ-Algebra).<br />

(vi) Sei E eine endliche, nichtleere Menge und Ω := E N die Menge aller Folgen<br />

ω =(ωn)n∈N mit Werten in E.Für ω1,...,ωn ∈ E sei<br />

[ω1,...,ωn] :={ω ′ ∈ Ω : ω ′ i = ωi für jedes i =1,...,n}<br />

die Menge aller Folgen, die mit den Werten ω1,...,ωn beginnen. Sei A0 = {∅}.<br />

Für n ∈ N setze<br />

An := {[ω1,...,ωn] : ω1,...,ωn ∈ E}. (1.1)<br />

Dann ist A := �∞ n=0 An ein Semiring, aber kein Ring (falls #E >1).<br />

(vii) Sei Ω eine beliebige nichtleere Menge. Dann ist<br />

A := {A ⊂ Ω : A oder A c ist endlich}<br />

eine Algebra. Ist #Ω = ∞, soistAjedoch keine σ-Algebra.<br />

(viii) Sei Ω eine beliebige nichtleere Menge. Dann ist<br />

A := {A ⊂ Ω : A oder A c ist abzählbar}<br />

eine σ-Algebra.<br />

(ix) Jede σ-Algebra ist auch ein Dynkin-System.<br />

(x) Sei Ω = {1, 2, 3, 4} und A = � ∅, {1, 2}, {1, 4}, {2, 3}, {3, 4}, {1, 2, 3, 4} � .<br />

Dann ist A ein Dynkin-System, aber keine Algebra. ✸


Satz 1.12 (Inklusionen zwischen Mengensystemen).<br />

1.1 Mengensysteme 5<br />

(i) Jede σ-Algebra ist ein Dynkin-System, eine Algebra und ein σ-Ring.<br />

(ii) Jeder σ-Ring ist ein Ring, jeder Ring ein Semiring.<br />

(iii) Jede Algebra ist auch ein Ring. Eine Algebra auf einer endlichen Menge Ω ist<br />

auch eine σ-Algebra.<br />

Beweis. (i) Das ist klar.<br />

(ii) Sei A ein Ring. Nach Satz 1.4 ist A schnittstabil und damit ein Semiring.<br />

(iii) Sei A eine Algebra, und seien A, B ∈A.DannistA \ B =(A c ∪ B) c ∈A,<br />

also ist A ein Ring. Ist zudem Ω endlich, so ist A endlich und damit jede abzählbare<br />

Vereinigung in A schon eine endliche Vereinigung. ✷<br />

Definition 1.13 (liminf und limsup). Es seien A1,A2,...Teilmengen von Ω. Dann<br />

heißen<br />

lim inf<br />

n→∞ An<br />

∞� ∞�<br />

∞� ∞�<br />

:= Am und lim sup An := Am<br />

n→∞<br />

n=1 m=n<br />

n=1 m=n<br />

Limes inferior beziehungsweise Limes superior der Folge (An)n∈N.<br />

Bemerkung 1.14. (i) Es gilt<br />

lim inf<br />

n→∞ An = � ω ∈ Ω :#{n ∈ N : ω �∈ An} < ∞ � ,<br />

lim sup An =<br />

n→∞<br />

� ω ∈ Ω :#{n ∈ N : ω ∈ An} = ∞ � .<br />

Der Limes inferior ist also das Ereignis, dass schließlich alle der An eintreten, der<br />

Limes superior hingegen das Ereignis, dass unendlich viele der An eintreten. Insbesondere<br />

ist A∗ := lim infn→∞ An ⊂ A ∗ := lim sup n→∞ An.<br />

(ii) Bezeichnen wir mit<br />

A(x) :=<br />

� 1, falls x ∈ A,<br />

0, falls x �∈ A,<br />

die Indikatorfunktion auf der Menge A,sogilt<br />

A∗<br />

= lim inf<br />

n→∞ An, A∗ = lim sup<br />

n→∞<br />

An.<br />

(1.2)<br />

(iii) Ist A⊂2 Ω eine σ-Algebra und An ∈Afür jedes n ∈ N, soistA∗ ∈Aund<br />

A ∗ ∈A. ✸<br />

Beweis. Übung! ✷


6 1 Grundlagen der Maßtheorie<br />

Satz 1.15 (Schnitt von Mengensystemen). Ist I eine beliebige Indexmenge und Ai<br />

eine σ-Algebra für jedes i ∈ I,soist<br />

AI := � A ⊂ Ω : A ∈Ai für jedes i ∈ I � = �<br />

eine σ-Algebra. Dies gilt analog für: Ringe, σ-Ringe, Algebren und Dynkin-Systeme;<br />

nicht aber für Semiringe.<br />

Beweis. Wir führen den Beweis hier nur für σ-Algebren durch. Wir prüfen für A<br />

die Punkte (i)-(iii) aus Definition 1.2.<br />

(i) Für jedes i ∈ I ist Ω ∈Ai.AlsoistΩ ∈A.<br />

(ii) Sei A ∈A.DannistA ∈Ai für jedes i ∈ I. Also ist auch A c ∈Ai für jedes<br />

i ∈ I. Mithin ist A c ∈A.<br />

(iii) Seien A1,A2,...∈A.DannistAn ∈Ai für jedes n ∈ N und jedes i ∈ I.Also<br />

ist auch A := � ∞<br />

n=1 An ∈Ai für jedes i ∈ I und damit A ∈A.<br />

Gegenbeispiel für Semiringe: Seien Ω = {1, 2, 3, 4}, A1 = {∅,Ω,{1}, {2, 3}, {4}}<br />

und A2 = {∅,Ω,{1}, {2}, {3, 4}}. Dann sind A1 und A2 Semiringe, aber A1 ∩<br />

A2 = {∅,Ω,{1}} ist keiner. ✷<br />

Satz 1.16 (Erzeugte σ-Algebra). Sei E ⊂ 2Ω Algebra σ(E) mit E⊂σ(E):<br />

. Dann existiert eine kleinste σ-<br />

�<br />

σ(E) :=<br />

A.<br />

A⊂2 Ω ist σ-Algebra<br />

A⊃E<br />

σ(E) heißt die von E erzeugte σ-Algebra. E heißt Erzeuger von σ(E). Analog wird<br />

das von E erzeugte Dynkin-System δ(E) definiert.<br />

Beweis. A =2 Ω ist eine σ-Algebra mit E⊂A. Also ist der Schnitt nicht leer. Nach<br />

Satz 1.15 ist σ(E) eine σ-Algebra, und dies ist offenbar die kleinste σ-Algebra, die<br />

E enthält. Für Dynkin-Systeme geht der Beweis genauso. ✷<br />

Bemerkung 1.17. Es gelten die folgenden einfachen Aussagen.<br />

(i) E⊂σ(E).<br />

(ii) Gilt E1 ⊂E2,soistσ(E1) ⊂ σ(E2).<br />

(iii) A ist genau dann σ-Algebra, wenn σ(A) =A.<br />

Die analogen Aussagen gelten für Dynkin-Systeme. Ferner ist stets δ(E) ⊂ σ(E).✸<br />

i∈I<br />

Ai


1.1 Mengensysteme 7<br />

Satz 1.18 (Schnittstabiles Dynkin-System). Ist D⊂2 Ω ein Dynkin-System, so gilt<br />

Beweis. ” ⇐= “ Dies ist klar.<br />

D ist ∩-stabil ⇐⇒ D ist eine σ-Algebra.<br />

” =⇒ “ Wir prüfen die Eigenschaften (i)-(iii) aus Definition 1.2.<br />

(i) Offensichtlich ist Ω ∈D.<br />

(ii) (Komplementstabilität) Sei A ∈D.DaΩ ∈Dgilt, und nach Eigenschaft (ii)<br />

des Dynkin-Systems, ist Ac = Ω \ A ∈D.<br />

(iii) (σ-∪-Stabilität) Seien A, B ∈D. Nach Voraussetzung ist A ∩ B ∈D, und es<br />

gilt trivialerweise A ∩ B ⊂ A. AlsoistA \ B = A \ (A ∩ B) ∈D. Mithin ist<br />

D\-stabil. Seien nun A1,A2,... ∈D. Nach Satz 1.4(iii) existieren paarweise<br />

disjunkte Mengen B1,B2,...∈Dmit ∞�<br />

An = ∞�<br />

Bn ∈D. ✷<br />

Satz 1.19 (Dynkin’scher π–λ–Satz). Sei E⊂2 Ω ein ∩-stabiles Mengensystem.<br />

Dann gilt<br />

σ(E) =δ(E).<br />

n=1<br />

Beweis. ” ⊃“ Dies ist klar nach Bemerkung 1.17.<br />

” ⊂“ Zu zeigen ist: δ(E) ist eine σ-Algebra. Nach Satz 1.18 reicht es zu zeigen,<br />

dass δ(E) ∩-stabil ist. Für B ∈ δ(E) sei<br />

n=1<br />

DB := {A ∈ δ(E) :A ∩ B ∈ δ(E)}.<br />

Für die Schnittstabilität von δ(E) reicht es zu zeigen, dass<br />

δ(E) ⊂DB für jedes B ∈ δ(E). (1.3)<br />

Wir zeigen, dass DE für jedes E ∈ δ(E) ein Dynkin-System ist, indem wir (i)-(iii)<br />

aus Definition 1.10) prüfen:<br />

(i) Offenbar ist Ω ∩ E = E ∈ δ(E), also ist Ω ∈DE.<br />

(ii) Für A, B ∈DE mit A ⊂ B ist (B \ A) ∩ E =(B∩ E) \ (A ∩ E) ∈ δ(E).<br />

(iii) Seien A1,A2,...∈DE paarweise disjunkt. Dann ist<br />

�<br />

∞�<br />

�<br />

∞�<br />

∩ E = (An ∩ E) ∈ δ(E).<br />

An<br />

n=1<br />

n=1


8 1 Grundlagen der Maßtheorie<br />

Nach Voraussetzung ist für A ∈Eauch A ∩ E ∈E, also ist E⊂DE, falls E ∈E<br />

gilt. Nach Bemerkung 1.17(ii) ist daher auch δ(E) ⊂DE für E ∈E.Für B ∈ δ(E)<br />

und E ∈Eist also B ∩ E ∈ δ(E). Mithin gilt E ∈DB für jedes B ∈ δ(E), also<br />

E⊂DB für jedes B ∈ δ(E), und damit gilt (1.3). ✷<br />

Von besonderer Bedeutung sind σ-Algebren, die von Topologien erzeugt werden.<br />

Hier wiederum spielt natürlich der euklidische Raum R n die prominenteste Rolle,<br />

aber wir wollen auch den (unendlichdimensionalen) Raum C([0, 1]) der stetigen<br />

Funktionen [0, 1] → R im Blick haben. Auf diesem Raum wird durch die Norm<br />

�f�∞ =sup x∈[0,1] |f(x)| eine Topologie erzeugt. Zur Erinnerung bringen wir hier<br />

das Axiomensystem der Topologie.<br />

Definition 1.20 (Topologie). Sei Ω �= ∅ eine beliebige Menge. Ein Mengensystem<br />

τ ⊂ Ω heißt Topologie auf Ω, falls folgende drei Eigenschaften gelten.<br />

(i) ∅,Ω ∈ τ.<br />

(ii) Sind A, B ∈ τ,soistauchA∩B∈τ. (iii) Ist F⊂τ eine beliebige Familie, so ist auch ��<br />

A∈F A� ∈ τ.<br />

Das Paar (Ω,τ) heißt dann topologischer Raum. Die Mengen A ∈ τ heißen offen,<br />

die Mengen A ⊂ Ω mit A c ∈ τ heißen abgeschlossen.<br />

Anders als bei σ-Algebren sind bei Topologien nur endliche Schnitte, jedoch auch<br />

überabzählbare Vereinigungen erlaubt. Ist d eine Metrik auf Ω, und bezeichnet<br />

Br(x) ={y ∈ Ω : d(x, y) 0, so wird eine Topologie erzeugt durch<br />

� �<br />

τ =<br />

(x,r)∈F Br(x)<br />

�<br />

: F ⊂ Ω × (0, ∞) .<br />

Dies ist das gewöhnliche System offener Mengen, das man in den meisten Analysisbüchern<br />

findet.<br />

Definition 1.21 (Borel’sche σ-Algebra). Sei (Ω,τ) ein topologischer Raum. Die<br />

von den offenen Mengen erzeugte σ-Algebra<br />

B(Ω) :=B(Ω,τ) :=σ(τ)<br />

heißt Borel’sche σ-Algebra auf Ω. Die Elemente A ∈B(Ω,τ) heißen Borel’sche<br />

Mengen oder Borel-messbare Mengen.<br />

Bemerkung 1.22. Wir sind meistens an B(R n ) interessiert, wobei wir auf R n den<br />

euklidischen Abstand annehmen:


1.1 Mengensysteme 9<br />

�<br />

�<br />

�<br />

d(x, y) =�x − y�2 = � n �<br />

(xi − yi) 2 .<br />

(i) Es gibt Teilmengen von R n , die keine Borel’schen Mengen sind. Diese sind<br />

kompliziert herzustellen, wie beispielsweise die Vitali-Mengen, die man in Analysisbüchern<br />

findet (siehe etwa [7]). Wir wollen hier auf diesen Aspekt nicht näher<br />

eingehen, sondern lediglich die - mathematisch unpräzise - Feststellung treffen, dass<br />

jede Menge, die man sich konstruktiv herstellen kann, auch Borel’sch ist.<br />

(ii) Jede abgeschlossene Menge C ⊂ R n ist in B(R n ),dennesistC c ∈ τ, also ist<br />

C =(C c ) c ∈ σ(τ). Speziell ist {x} ∈B(R n ) für jedes x ∈ R n .<br />

(iii) B(R n ) ist keine Topologie. Sei nämlich V ⊂ R n , V �∈ B(R n ).Wäre B(R n )<br />

eine Topologie, so wären beliebige Vereinigungen Borel’scher Mengen wieder Borel’sch,<br />

also auch V = �<br />

x∈V {x} ∈B(Rn ). ✸<br />

Das Mengensystem der offenen Mengen, das die Borel’sche σ-Algebra erzeugt, ist<br />

in vielen Fällen unhandlich groß. Wir wollen daher andere Mengensysteme als Erzeuger<br />

von B(Rn ) identifizieren, mit denen wir in der Praxis besser arbeiten können.<br />

Hierzu wollen wir einerseits Mengen von einfacher Struktur, Quader etwa, betrachten,<br />

andererseits aber auch die Größe des Systems einschränken, indem wir<br />

abzählbare Mengensysteme betrachten. Wir führen folgende Notationen ein. Mit<br />

Q bezeichnen wir die Menge der rationalen Zahlen, mit Q + die Menge der strikt<br />

positiven rationalen Zahlen. Für a, b ∈ Rn schreiben wir<br />

a


10 1 Grundlagen der Maßtheorie<br />

Beweis. Wir zeigen nur exemplarisch ein paar der Identitäten.<br />

(1) B(Rn )=σ(E1) gilt per Definition.<br />

(2) Sei A ∈E1. DannistA c ∈E2, also A =(A c ) c ∈ σ(E2). Daher gilt E1 ⊂<br />

σ(E2) und dann (wegen Bemerkung 1.17) auch σ(E1) ⊂ σ(E2). Analog folgt aber<br />

σ(E2) ⊂ σ(E1) und damit die Gleichheit.<br />

(3) Jede kompakte Menge ist abgeschlossen. Also gilt σ(E3) ⊂ σ(E2). Sei nun<br />

A ∈E2. Dann sind die Mengen AK := A ∩ [−K, K] n , K ∈ N, kompakt, also ist<br />

die abzählbare Vereinigung A = �∞ K=1 AK in σ(E3). Es gilt also E2 ⊂ σ(E3) und<br />

damit σ(E2) =σ(E3).<br />

(4) Offenbar ist E4 ⊂E1, also σ(E4) ⊂ σ(E1). Sei nun A ⊂ Rn offen. Für x ∈ A<br />

sei R(x) =min(1, sup{r >0: Br(x) ⊂ A}). DaA offen ist, folgt R(x) > 0.<br />

Sei r(x) ∈ (R(x)/2,R(x)) ∩ Q. Für jedes y ∈ A und x ∈ BR(y)/3 ∩ Qn ist nun<br />

R(x) ≥ R(y) −�x− y�2 > 2<br />

1<br />

3R(y), also r(x) > 3R(y), also y ∈ Br(x)(x). Also<br />

ist A = �<br />

x∈A∩Qn Br(x)(x) eine abzählbare Vereinigung von Mengen aus E4 und<br />

damit in σ(E3). Es gilt also auch σ(E1) ⊂ σ(E4).<br />

(5-12) Ähnliche Ausschöpfungsargumente wie in (4) funktionieren auch für die<br />

Quader. In (4) können statt der offenen Kugeln Br(x) offene Quader genommen<br />

werden. So folgt die Gleichheit mit σ(E5). Man bemerke beispielsweise, dass<br />

n<br />

× [ai,bi) =<br />

i=1<br />

∞�<br />

n<br />

× k=1 i=1<br />

�<br />

ai − 1<br />

k ,bi<br />

�<br />

∈ σ(E5).<br />

Die anderen Inklusionen Ei ⊂ σ(Ej) zeigt man analog. ✷<br />

Bemerkung 1.24. Jedes der Mengensystem E1, E2, E3, E5,...,E12 (nicht aber E4)<br />

ist schnittstabil, mithin ist die Borel’sche σ-Algebra jeweils gleich dem erzeugten<br />

Dynkin-System: B(R n ) = δ(Ei) für i = 1,...,12. Die Mengensysteme<br />

E4,...,E12 sind zudem abzählbar. Dies ist eine Eigenschaft, die wir an späterer<br />

Stelle wieder benötigen werden. ✸<br />

Definition 1.25 (Spur eines Mengensystems). Es sei A⊂2 Ω ein beliebiges System<br />

von Teilmengen von Ω und A ∈ 2 Ω \ {∅}. Das Mengensystem<br />

A � � := {A ∩ B : B ∈A}⊂2<br />

A<br />

A<br />

heißt Spur von A auf A, oder Einschränkung von A auf A.<br />

(1.6)<br />

Satz 1.26. Ist A eine σ-Algebra, oder eines der Mengensysteme aus den Definitionen<br />

1.6 – 1.10 auf Ω, soistA � � ein Mengensystem vom selben Typ, allerdings auf<br />

A<br />

A statt Ω.<br />

Beweis. Übung! ✷


1.2 Mengenfunktionen 11<br />

Übung 1.1.1. Sei A ein Semiring. Man zeige: Jede abzählbare (beziehungsweise<br />

endliche) Vereinigung von Mengen aus A lässt sich als abzählbare (beziehungsweise<br />

endliche), disjunkte Vereinigung von Mengen in A schreiben. ♣<br />

Übung 1.1.2. Man zeige durch ein Gegenbeispiel, dass im die Allgemeinen die Vereinigung<br />

A∪A ′ zweier σ-Algebren keine σ-Algebra ist. ♣<br />

Übung 1.1.3. Seien (Ω1,d1) und (Ω2,d2) metrische Räume, f : Ω1 → Ω2 eine<br />

beliebige Abbildung und Uf = � x ∈ Ω1 : f ist unstetig in x � die Menge der<br />

Unstetigkeitsstellen. Man zeige: Uf ∈B(Ω1).<br />

Hinweis: Man zeige zunächst, dass für ε>0 und δ>0 die Menge<br />

U δ,ε<br />

f := � x ∈ Ω1 : es gibt y, z ∈ Bε(x) mit d2(f(y),f(z)) >δ �<br />

(wobei Bε(x) ={y ∈ Ω1 : d1(x, y)


12 1 Grundlagen der Maßtheorie<br />

(v) σ-subadditiv, falls für je abzählbar viele A, A1,A2,... ∈Amit A ⊂ ∞�<br />

gilt, dass μ(A) ≤ ∞�<br />

μ(Ai).<br />

i=1<br />

Ai<br />

i=1<br />

Definition 1.28. Sei A ein Semiring und μ : A→[0, ∞] eine Mengenfunktion mit<br />

μ(∅) =0. μ heißt<br />

– Inhalt, falls μ additiv ist,<br />

– Prämaß, falls μσ-additiv ist,<br />

– Maß, falls μ ein Prämaß ist und A eine σ-Algebra,<br />

– Wahrscheinlichkeitsmaß (kurz W-Maß), falls μ ein Maß ist und μ(Ω) =1.<br />

Definition 1.29. Sei A ein Semiring. Ein Inhalt μ auf A heißt<br />

(i) endlich, falls μ(A) < ∞ für jedes A ∈A,<br />

(ii) σ-endlich, falls es Mengen Ω1,Ω2,... ∈ A gibt mit Ω = ∞�<br />

μ(Ωn) < ∞ für jedes n ∈ N.<br />

n=1<br />

Ωn und<br />

Beispiel 1.30 (Inhalte, Maße). (i) Sei ω ∈ Ω und δω(A) = A(ω) (siehe (1.2)).<br />

Dann ist δω ein Wahrscheinlichkeitsmaß auf jeder σ-Algebra A⊂2 Ω und heißt<br />

Dirac-Maß im Punkt ω, oder Einheitsmasse.<br />

(ii) Sei Ω eine endliche, nichtleere Menge. Durch<br />

μ(A) := #A<br />

#Ω<br />

für A ⊂ Ω,<br />

wird ein Wahrscheinlichkeitsmaß auf A =2 Ω definiert. μ heißt Gleichverteilung<br />

oder uniforme Verteilung auf Ω. Wirführen hierfür das Symbol UΩ := μ ein.<br />

Dersodefinierte Wahrscheinlichkeitsraum (Ω,A, UΩ) wird auch Laplace-Raum<br />

genannt.<br />

(iii) Sei Ω abzählbar unendlich und<br />

A := {A ⊂ Ω :#A


1.2 Mengenfunktionen 13<br />

(iv) Sei (μn)n∈N eine Folge von Maßen (Prämaßen, Inhalten) und (αn)n∈N ei-<br />

ne Folge von nichtnegativen Zahlen. Dann ist auch μ := � ∞<br />

n=1 αnμn ein Maß<br />

(Prämaß, Inhalt).<br />

(v) Sei Ω eine (höchstens) abzählbare, nichtleere Menge und A =2Ω . Ferner<br />

seien (pω)ω∈Ω nichtnegative Zahlen. Dann wird durch μ(A) := �<br />

ω∈A pω für jedes<br />

A ⊂ Ω, ein σ-endliches Maß auf 2Ω definiert. Wir nennen p =(pω)ω∈Ω die<br />

Gewichtsfunktion von μ.<br />

(vi) Ist in (v) speziell �<br />

ω∈Ω pω =1,soistμein Wahrscheinlichkeitsmaß. Wir interpretieren<br />

dann pω als Wahrscheinlichkeit des Elementarereignisses ω und nennen<br />

p =(pω)ω∈Ω auch einen Wahrscheinlichkeitsvektor.<br />

(vii) Ist in (v) speziell pω =1für jedes ω ∈ Ω, so heißt μ das Zählmaß auf Ω.<br />

Ist Ω endlich, so ist auch μ endlich.<br />

(viii) Sei A der Ring endlicher Vereinigungen von Intervallen (a, b] ⊂ R. Für<br />

a1


14 1 Grundlagen der Maßtheorie<br />

Beweis. (i) Es ist A∪B = A⊎(B \A) und B =(A∩B)⊎(B \A).Daμ additiv<br />

ist, folgt<br />

μ(A ∪ B) =μ(A)+μ(B \ A) und μ(B) =μ(A ∩ B)+μ(B \ A).<br />

Hieraus folgt sofort (i).<br />

(ii) Sei A ⊂ B. WegenA ∩ B = A folgt μ(B) =μ(A ⊎ (B \ A)) = μ(A) +<br />

μ(B \ A), falls B \ A ∈Aist, insbesondere also, falls A ein Ring ist. Ist nun A nur<br />

ein Semiring, so ist B \ A = � n<br />

i=1 Ci für gewisses n ∈ N und paarweise disjunkte<br />

Mengen C1,...,Cn ∈A. In diesem Fall ist μ(B) =μ(A)+ � n<br />

i=1 μ(Ci) ≥ μ(A),<br />

also ist μ monoton.<br />

(iii) Seien n ∈ N und A, A1,...,An ∈Amit A ⊂ � n<br />

i=1 Ai. Setze B1 = A1 und<br />

�<br />

k−1<br />

Bk = Ak \ Ai =<br />

i=1<br />

k−1 �<br />

(Ak \ (Ak ∩ Ai)) für k =2,...,n.<br />

i=1<br />

Per Definition des Semirings ist jedes Ak \(Ak ∩Ai) disjunkte Vereinigung endlich<br />

vieler Mengen in A, also existiert ein ck ∈ N und Mengen Ck,1,...,Ck,ck ∈Amit<br />

� ck<br />

i=1 Ck,i = Bk ⊂ Ak. Analog existieren dk ∈ N und Dk,1,...,Dk,dk ∈Amit<br />

Ak \ Bk = � dk<br />

i=1 Dk,i.Daμ additiv ist, gilt<br />

μ(Ak) =<br />

ck�<br />

i=1<br />

μ(Ck,i)+<br />

dk�<br />

i=1<br />

μ(Dk,i) ≥<br />

ck�<br />

i=1<br />

μ(Ck,i).<br />

Wiederum aufgrund von Additivität und Monotonie gilt<br />

�<br />

n� ck�<br />

�<br />

n� ck�<br />

μ(A) =μ (Ck,i ∩ A) = μ(Ck,i ∩ A)<br />

≤<br />

n�<br />

k=1 i=1<br />

ck�<br />

k=1 i=1<br />

μ(Ck,i) ≤<br />

n�<br />

μ(Ak).<br />

k=1<br />

k=1 i=1<br />

Also ist μ subadditiv. Die σ-Subadditivität folgt aus der σ-Additivität in analoger<br />

Weise.<br />

(iv) Sei A ein Ring und A = ∞�<br />

An ∈A.Daμadditiv (und damit monoton) ist,<br />

gilt nach (ii)<br />

n=1<br />

m�<br />

�<br />

m�<br />

μ(An) =μ<br />

�<br />

≤ μ(A) für jedes m ∈ N.<br />

Also ist<br />

n=1<br />

n=1<br />

An<br />

∞�<br />

μ(An) ≤ μ(A). ✷<br />

n=1


1.2 Mengenfunktionen 15<br />

Bemerkung 1.32. In (iv) kann strikte Ungleichheit herrschen (siehe etwa Beispiel<br />

1.30(iii)). Mit anderen Worten: Es gibt Inhalte, die keine Prämaße sind. ✸<br />

Satz 1.33 (Einschluss- Ausschlussformel). Sei A ein Ring und μ ein Inhalt. Dann<br />

gelten für n ∈ N und A1,...,An ∈Adie Einschluss- Ausschlussformeln<br />

μ(A1 ∪ ...∪ An) =<br />

μ(A1 ∩ ...∩ An) =<br />

n�<br />

(−1) k−1<br />

k=1<br />

n�<br />

(−1) k−1<br />

k=1<br />

�<br />

{i1,...,ik}⊂{1,...,n}<br />

�<br />

{i1,...,ik}⊂{1,...,n}<br />

μ(Ai1 ∩ ...∩ Aik ),<br />

μ(Ai1 ∪ ...∪ Aik ),<br />

wobei sich die Summen über alle k-elementigen Teilmengen von {1,...,n} erstrecken.<br />

Beweis. Übung! Hinweis: Man verwende vollständige Induktion über n. ✷<br />

Wir wollen die σ-Subadditivität durch eine Stetigkeitseigenschaft charakterisieren<br />

(Satz 1.36). Hierzu verabreden wir die folgende Sprechweise und Notation.<br />

Definition 1.34. Sind A, A1,A2,...Mengen, so schreiben wir<br />

– An ↑ A, falls A1 ⊂ A2 ⊂ ... und �∞ n=1 An = A,<br />

– An ↓ A, falls A1 ⊃ A2 ⊃ A3 ⊃ ... und �∞ n=1 An = A.<br />

Wir sagen dann, dass (An)n∈N gegen A aufsteigt beziehungsweise absteigt.<br />

Definition 1.35 (Stetigkeit von Inhalten). Sei μ ein Inhalt auf dem Ring A.<br />

(i) μ heißt stetig von unten, falls für jedes A ∈Aund jede Folge (An)n∈N in A<br />

mit An ↑ A gilt: μ(An) n→∞<br />

−→ μ(A).<br />

(ii) μ heißt stetig von oben, falls für jedes A ∈Aund jede Folge (An)n∈N in A<br />

mit An ↓ A sowie μ(An) < ∞ für jedes n ∈ N gilt: μ(An) n→∞<br />

−→ μ(A).<br />

(iii) μ heißt ∅-stetig, falls (ii) für A = ∅ gilt.<br />

Bei der Stetigkeit von oben wurde die Endlichkeitsbedingung eingeführt, weil sogar<br />

für das Zählmaß μ auf (N, 2 N ) und An := {n, n+1,...}↓∅sonst keine Gleichheit<br />

gelten kann.


16 1 Grundlagen der Maßtheorie<br />

Satz 1.36 (Stetigkeit und Prämaß). Sei μ ein Inhalt auf einem Ring A. Betrachte<br />

die folgenden fünf Eigenschaften.<br />

(i) μ ist σ-additiv (also ein Prämaß).<br />

(ii) μ ist σ-subadditiv.<br />

(iii) μ ist stetig von unten.<br />

(iv) μ ist ∅-stetig.<br />

(v) μ ist stetig von oben.<br />

Dann gelten die Implikationen (i) ⇐⇒ (ii) ⇐⇒ (iii)=⇒ (iv) ⇐⇒ (v).<br />

Ist μ endlich, so gilt auch (iv) =⇒ (iii).<br />

Beweis. (i) =⇒ (ii)“ Seien A, A1,A2,... ∈Amit A ⊂<br />

” �∞ i=1 Ai. Setze B1 =<br />

A1 und Bn = An \ �n−1 i=1 Ai ∈Afür n =2, 3,...Dann ist A = �∞ n=1 (A ∩ Bn),<br />

also wegen der Monotonie von μ und der σ-Additivität von μ<br />

∞�<br />

∞�<br />

μ(A) = μ(A ∩ Bn) ≤ μ(An).<br />

n=1<br />

Damit ist μ als σ-subadditiv erkannt.<br />

” (ii) =⇒ (i)“ Dies folgt aus Lemma 1.31(iv).<br />

” (i) =⇒ (iii)“ Sei μ ein Prämaß und A ∈Asowie (An)n∈N eine Folge in A mit<br />

An ↑ A sowie A0 = ∅. Dann gilt<br />

μ(A) =<br />

∞�<br />

μ(Ai \ Ai−1) = lim<br />

i=1<br />

n�<br />

n→∞<br />

i=1<br />

n=1<br />

μ(Ai \ Ai−1) = lim<br />

n→∞ μ(An).<br />

” (iii) =⇒ (i)“ Gelte nun (iii). Seien B1,B2,... ∈Apaarweise disjunkt, und<br />

gelte B = ∞�<br />

Bn ∈A. Setze An = n�<br />

Bi für jedes n ∈ N. Dann folgt aus (iii)<br />

n=1<br />

i=1<br />

μ(B) = lim<br />

n→∞ μ(An) =<br />

Also ist μσ-additiv und damit ein Prämaß.<br />

∞�<br />

μ(Bi).<br />

” (iv) =⇒ (v)“ Seien A, A1,A2,... ∈Amit An ↓ A und μ(A1) < ∞. Setze<br />

Bn = An \ A ∈Afür jedes n ∈ N. Dann gilt Bn ↓∅. Es gilt also μ(An) − μ(A) =<br />

μ(Bn) n→∞<br />

−→ 0.<br />

” (v) =⇒ (iv)“ Dies ist trivial.<br />

i=1


1.3 Fortsetzung von Maßen 17<br />

” (iii) =⇒ (iv)“ Seien A1,A2,... ∈Amit An ↓∅und μ(A1) < ∞. Dann gilt<br />

A1 \ An ∈Afür jedes n ∈ N und A1 \ An ↑ A1, also<br />

μ(A1) = lim<br />

n→∞ μ(A1 \ An) =μ(A1) − lim<br />

n→∞ μ(An).<br />

Wegen μ(A1) < ∞ ist lim<br />

n→∞ μ(An) =0.<br />

” (iv) =⇒ (iii)“ (für den Fall μ endlich) Es gelte nun μ(A) < ∞ für jedes A ∈A,<br />

und μ sei ∅-stetig. Seien A, A1,A2,...∈Amit An ↑ A. Dann gilt A \ An ↓∅und<br />

μ(A) − μ(An) =μ(A \ An) n→∞<br />

−→ 0.<br />

Also gilt (iii). ✷<br />

Beispiel 1.37. (Vergleiche Beispiel 1.30(iii).) Sei Ω abzählbar und<br />

A = {A ⊂ Ω :#A


18 1 Grundlagen der Maßtheorie<br />

Beispiel 1.39 (Lebesgue-Maß). Sei n ∈ N und<br />

A = {(a, b] : a, b ∈ R n ,a


d(ω, ω ′ )=<br />

1.3 Fortsetzung von Maßen 19<br />

� 2 − inf{n∈N: ωn�=ω ′<br />

n } , falls ω �= ω ′ ,<br />

0, falls ω = ω ′ .<br />

Dann ist (Ω,d) ein kompakter, metrischer Raum. Offenbar ist<br />

[ω1,...,ωn] =B 2 −n(ω) ={ω ′ ∈ Ω : d(ω, ω ′ ) < 2 −n }.<br />

(1.9)<br />

Das Komplement von [ω1,...,ωn] ist die Vereinigung von (#E) n − 1 offenen<br />

Kugeln<br />

[ω1,...,ωn] c =<br />

�<br />

[ω ′ 1,...,ω ′ n],<br />

(ω ′ 1 ,...,ω′ n )�=(ω1,...,ωn)<br />

also offen. Damit ist [ω1,...,ωn] abgeschlossen und kompakt, weil Ω kompakt ist.<br />

Ähnlich wie in Satz 1.23 kann man zeigen, dass σ(A) =B(Ω,d).<br />

Übung: Man zeige die obigen Aussagen. ✸<br />

Das Hauptergebnis dieses Kapitels ist der Fortsetzungssatz für Maße, den wir hier<br />

in der Form von Carathéodory formulieren.<br />

Satz 1.41 (Carathéodory). Sei A⊂2 Ω ein Ring und μ ein σ-endliches Prämaß<br />

auf A. Dann kann μ auf genau eine Weise zu einem Maß �μ auf σ(A) fortgesetzt<br />

werden, und ˜μ ist σ-endlich.<br />

Den Beweis dieses Satzes müssen wir mit einigen Lemmata vorbereiten. Wir zeigen<br />

dann in Satz 1.53 eine etwas stärkere Aussage. Dort wird auch die griffige Formulierung<br />

” kann fortgesetzt werden“ präzisiert.<br />

Lemma 1.42 (Eindeutigkeit durch schnittstabilen Erzeuger). Sei (Ω,A,μ) ein<br />

σ-endlicher Maßraum und E ⊂ A ein schnittstabiler Erzeuger von A. Esgebe<br />

E1,E2,... ∈Emit En ↑ Ω und μ(En) < ∞ für jedes n ∈ N. Dann ist μ durch<br />

die Werte μ(E), E ∈E, eindeutig festgelegt.<br />

Ist μ ein W-Maß, so gilt die Folgerung auch ohne die Existenz der Folge (En)n∈N.<br />

Beweis. Sei ν ein weiteres σ-endliches Maß auf (Ω,A) mit der Eigenschaft<br />

μ(E) =ν(E) für jedes E ∈E.<br />

Sei E ∈Emit μ(E) < ∞. Betrachte das Mengensystem<br />

DE = {A ∈A: μ(A ∩ E) =ν(A ∩ E)}.<br />

Um zu zeigen, dass DE ein Dynkin-System ist, prüfen wir die Eigenschaften aus<br />

Definition 1.10:<br />

(i) Offensichtlich ist Ω ∈DE.


20 1 Grundlagen der Maßtheorie<br />

(ii) Seien A, B ∈DE mit A ⊃ B.Dannist<br />

μ ((A \ B) ∩ E) =μ(A ∩ E) − μ(B ∩ E)<br />

= ν(A ∩ E) − ν(B ∩ E) =ν ((A \ B) ∩ E) .<br />

Also ist A \ B ∈DE.<br />

(iii) Seien A1,A2,...∈DE paarweise disjunkt sowie A = ∞�<br />

An. Dannist<br />

also A ∈DE.<br />

n=1<br />

n=1<br />

∞�<br />

∞�<br />

μ(A ∩ E) = μ(An ∩ E) = ν(An ∩ E) =ν(A ∩ E),<br />

Offenbar ist E⊂DE, also δ(E) ⊂DE.DaE schnittstabil ist, ist nach Satz 1.19<br />

n=1<br />

A⊃DE ⊃ δ(E) =σ(E) =A.<br />

Also ist DE = A.<br />

Für jedes A ∈Aund E ∈Emit μ(E) < ∞ gilt also μ(A ∩ E) =ν(A ∩ E). Seien<br />

nun E1,E2,...∈Emit En ↑ Ω und μ(En) < ∞ für jedes n ∈ N.Daμund ν von<br />

unten stetig sind, gilt für A ∈A<br />

μ(A) = lim<br />

n→∞ μ(A ∩ En) = lim<br />

n→∞ ν(A ∩ En) =ν(A).<br />

Der Zusatz ist trivial, denn ˜ E := E∪{Ω} ist ebenfalls ein schnittstabiler Erzeuger<br />

von A, und der Wert μ(Ω) =1ist bekannt. Es kann also die konstante Folge En =<br />

Ω, n ∈ N,gewählt werden. Man beachte jedoch, dass es nicht reicht zu fordern, dass<br />

μ endlich ist, weil dann im Allgemeinen die Gesamtmasse μ(Ω) nicht eindeutig<br />

festgelegt ist (siehe Beispiel 1.45(ii)). ✷<br />

Beispiel 1.43. Sei Ω = Z und E = � En : n ∈ Z � , wobei En =(−∞,n] ∩ Z. E<br />

ist schnittstabil und σ(E) =2 Ω . Also ist ein endliches Maß μ auf (Ω,2 Ω ) eindeutig<br />

festgelegt durch die Werte μ(En), n ∈ N.<br />

Ein σ-endliches Maß auf Z ist jedoch durch die Werte auf E noch nicht eindeutig<br />

bestimmt: Sei μ das Zählmaß auf Z und ν =2μ. Dannistμ(E) =∞ = ν(E) für<br />

jedes E ∈E.Umμ und ν zu unterscheiden, brauchen wir also einen Erzeuger, der<br />

Mengen endlichen Maßes (für μ) enthält. Tun es die Mengen ˜ Fn =[−n, n] ∩ Z,<br />

n ∈ N? InderTatistfür jedes σ-endliche Maß μ jetzt μ( ˜ Fn) < ∞ für jedes<br />

n ∈ N. Allerdings erzeugen die ˜ Fn nicht 2 Ω (sondern welche σ-Algebra?). Wir<br />

können aber die Definition so modifizieren: Fn =[−n/2, (n +1)/2] ∩ Z.Dannist<br />

σ({Fn, n∈ N}) =2 Ω , also E = {Fn, n∈ N} ein schnittstabiler Erzeuger von 2 Ω<br />

und μ(Fn) < ∞ für jedes n ∈ N. WegenFn ↑ Ω sind die Bedingungen des Satzes<br />

erfüllt. ✸


1.3 Fortsetzung von Maßen 21<br />

Beispiel 1.44 (Verteilungsfunktion). Ein W-Maß μ auf dem Raum (R n , B(R n )) ist<br />

durch Angabe der Werte μ((−∞,b]) auf den Mengen (−∞,b]=× n<br />

i=1(−∞,bi],<br />

b ∈ R n , eindeutig festgelegt, da diese Mengen einen schnittstabilen Erzeuger bilden<br />

(Satz 1.23). Speziell ist ein W-Maß μ auf R durch Angabe der Verteilungsfunktion<br />

F : R → [0, 1], x ↦→ μ((−∞,x]) eindeutig bestimmt. ✸<br />

Beispiel 1.45. (i) Sei Ω = {1, 2, 3, 4} und E = { � 1, 2}, {2, 3} � . Offenbar gilt<br />

σ(E) =2Ω , jedoch ist E nicht schnittstabil. Tatsächlich ist hier ein W-Maß μ durch<br />

Angabe der Werte μ({1, 2}) =μ({2, 3}) = 1<br />

2 nicht eindeutig festgelegt. Es gibt<br />

beispielsweise die Möglichkeiten μ = 1<br />

2δ1 + 1<br />

2δ3 oder μ ′ = 1<br />

2δ2 + 1<br />

2δ4. (ii) Sei Ω = {1, 2} und E = {{1}}. DannistEein schnittstabiler Erzeuger von<br />

2Ω , und ein W-Maß μ ist durch Angabe von μ({1}) eindeutig festgelegt. Allerdings<br />

gilt dies nicht für endliche Maße im Allgemeinen, denn μ =0und ν = δ2 sind zwei<br />

endliche Maße, die auf E übereinstimmen. ✸<br />

Definition 1.46 (Äußeres Maß). Eine Mengenfunktion μ ∗ : 2 Ω → [0, ∞] heißt<br />

äußeres Maß, falls gilt:<br />

(i) μ∗ (∅) =0,<br />

(ii) μ∗ ist monoton,<br />

(iii) μ∗ ist σ-subadditiv.<br />

Lemma 1.47. Sei A⊂2Ω ein beliebiges Mengensystem mit ∅∈Aund μ eine<br />

monotone Mengenfunktion auf A mit μ(∅) =0.Für A ⊂ Ω sei<br />

�<br />

U(A) = F⊂A: F ist höchstens abzählbar und A ⊂ �<br />

�<br />

F<br />

F ∈F<br />

die Menge der abzählbaren Überdeckungen F von A mit Mengen F aus A. Setze<br />

μ ∗ � �<br />

�<br />

(A) :=inf μ(F ): F∈U(A) ,<br />

F ∈F<br />

wobei inf ∅ = ∞. Dann ist μ ∗ (A) =μ(A) für jedes A ∈A, und μ ∗ ist ein äußeres<br />

Maß.<br />

Beweis. Wir weisen die Eigenschaften (i)-(iii) des äußeren Maßes nach.<br />

(i) Wegen ∅∈Aist {∅} ∈ U(∅), also ist μ ∗ (∅) =0.<br />

(ii) Ist A ⊂ B,soistU(A) ⊃U(B), also ist μ ∗ (A) ≤ μ ∗ (B).<br />

(iii) Sei An ⊂ Ω für jedes n ∈ N und A ⊂ � ∞<br />

n=1 An. Wirmüssen zeigen, dass<br />

μ ∗ (A) ≤ � ∞<br />

n=1 μ∗ (An). Ohne Einschränkung sei μ ∗ (An) < ∞ und damit


22 1 Grundlagen der Maßtheorie<br />

U(An) �= ∅ für jedes n ∈ N. Wähle ε > 0 und zu jedem n ∈ N eine<br />

Überdeckung Fn ∈U(An) mit<br />

�<br />

F ∈Fn<br />

Dann ist F := � ∞<br />

n=1 Fn ∈U(A) und<br />

F ∈F<br />

μ(F ) ≤ μ ∗ (An)+ε 2 −n .<br />

μ ∗ (A) ≤ �<br />

∞� �<br />

∞�<br />

μ(F ) ≤ μ(F ) ≤ μ ∗ (An)+ε. ✷<br />

n=1 F ∈Fn<br />

Definition 1.48 (μ ∗ -messbare Mengen). Sei μ ∗ ein äußeres Maß. Eine Menge A ∈<br />

2 Ω heißt μ ∗ -messbar, falls<br />

n=1<br />

μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) =μ ∗ (E) für jedes E ∈ 2 Ω . (1.10)<br />

Wir schreiben M(μ ∗ )={A ∈ 2 Ω : A ist μ ∗ -messbar}.<br />

Lemma 1.49. Es ist A ∈M(μ ∗ ) genau dann, wenn<br />

μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) ≤ μ ∗ (E) für jedes E ∈ 2 Ω .<br />

Beweis. Da μ ∗ subadditiv ist, gilt stets die andere Ungleichung. ✷<br />

Lemma 1.50. M(μ ∗ ) ist eine Algebra.<br />

Beweis. Wir prüfen die Eigenschaften (i)-(iii) der Algebra aus Satz 1.7.<br />

(i) Ω ∈M(μ∗ ) ist klar.<br />

(ii) (Komplementstabilität) Per Definition ist A ∈M(μ∗ ) ⇐⇒ Ac ∈M(μ∗ ).<br />

(iii) (Schnittstabilität) Seien A, B ∈M(μ∗ ) und E ∈ 2Ω .Dannist<br />

μ ∗ ((A ∩ B) ∩ E)+μ ∗ ((A ∩ B) c ∩ E)<br />

= μ ∗ (A ∩ B ∩ E)+μ ∗� (A c ∩ B ∩ E) ∪ (A c ∩ B c ∩ E) ∪ (A ∩ B c ∩ E) �<br />

≤ μ ∗ (A ∩ B ∩ E)+μ ∗ (A c ∩ B ∩ E)<br />

+ μ ∗ (A c ∩ B c ∩ E)+μ ∗ (A ∩ B c ∩ E)<br />

= μ ∗ (B ∩ E)+μ ∗ (B c ∩ E)<br />

= μ ∗ (E).<br />

Dabei haben wir in der vorletzten Gleichung A ∈M(μ ∗ ) benutzt und in der letzten<br />

B ∈M(μ ∗ ). ✷<br />

Lemma 1.51. Ein äußeres Maß μ ∗ ist σ-additiv auf M(μ ∗ ).


Beweis. Seien A, B ∈M(μ ∗ ) mit A ∩ B = ∅. Dannist<br />

1.3 Fortsetzung von Maßen 23<br />

μ ∗ (A ∪ B) =μ ∗ (A ∩ (A ∪ B)) + μ ∗ (A c ∩ (A ∪ B)) = μ ∗ (A)+μ ∗ (B).<br />

Induktiv folgt die (endliche) Additivität. Da μ ∗ per Definition σ-subadditiv ist, folgt<br />

nach Satz 1.36, dass μ ∗ auch σ-additiv ist. ✷<br />

Lemma 1.52. Ist μ ∗ ein äußeres Maß, so ist M(μ ∗ ) eine σ-Algebra. Speziell ist μ ∗<br />

ein Maß auf M(μ ∗ ).<br />

Beweis. Nach Lemma 1.50 ist M(μ ∗ ) eine Algebra, also insbesondere schnittstabil.<br />

Nach Satz 1.18 reicht es zu zeigen, dass M(μ ∗ ) ein Dynkin-System ist.<br />

Seien also A1,A2,... ∈M(μ ∗ ) paarweise disjunkt und A := ∞�<br />

ist A ∈M(μ ∗ ), also<br />

n=1<br />

An. Zu zeigen<br />

μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) ≤ μ ∗ (E) für jedes E ∈ 2 Ω . (1.11)<br />

Setze Bn = n�<br />

Ai für jedes n ∈ N. Es gilt für jedes n ∈ N<br />

i=1<br />

μ ∗ (E ∩ Bn+1) =μ ∗� (E ∩ Bn+1) ∩ Bn<br />

= μ ∗ (E ∩ Bn)+μ ∗ (E ∩ An+1),<br />

� ∗<br />

+ μ � (E ∩ Bn+1) ∩ B c �<br />

n<br />

und induktiv μ∗ (E ∩ Bn) = �n i=1 μ∗ (E ∩ Ai). Wegen der Monotonie von μ∗ folgt<br />

μ ∗ (E) =μ ∗ (E ∩ Bn)+μ ∗ (E ∩ B c n) ≥ μ ∗ (E ∩ Bn)+μ ∗ (E ∩ A c )<br />

n�<br />

=<br />

μ<br />

i=1<br />

∗ (E ∩ Ai)+μ ∗ (E ∩ A c ).<br />

Indem wir n →∞gehen lassen, folgt mit der σ-Subadditivität von μ ∗<br />

μ ∗ (E) ≥<br />

∞�<br />

i=1<br />

μ ∗ (E ∩ Ai)+μ ∗ (E ∩ A c ) ≥ μ ∗ (E ∩ A)+μ ∗ (E ∩ A c ).<br />

Also gilt (1.11), und der Beweis ist komplett. ✷<br />

Wir zeigen nun einen Satz, der mit schwächeren Voraussetzungen auskommt als der<br />

Satz von Carathéodory (Satz 1.41) und diesen impliziert.<br />

Satz 1.53 (Fortsetzungssatz für Maße). Sei A ein Semiring und μ : A→[0, ∞]<br />

eine additive, σ-subadditive, σ-endliche Mengenfunktion mit μ(∅) =0.<br />

Dann existiert ein eindeutig bestimmtes, σ-endliches Maß �μ : σ(A) → [0, ∞] mit<br />

�μ(A) =μ(A) für jedes A ∈A.


24 1 Grundlagen der Maßtheorie<br />

Beweis. Da A schnittstabil ist, folgt die Eindeutigkeit aus Lemma 1.42.<br />

Um die Existenz zu zeigen, definieren wir wie in Lemma 1.47<br />

μ ∗ � �<br />

�<br />

(A) :=inf μ(F ): F∈U(A) für jedes A ∈ 2 Ω .<br />

F ∈F<br />

Nach Lemma 1.31(ii) ist μ monoton, also ist μ∗ nach Lemma 1.47 ein äußeres Maß<br />

und μ∗ (A) =μ(A) für jedes A ∈A.Wirmüssen zeigen, dass M(μ∗ ) ⊃ σ(A) gilt.<br />

Da M(μ∗ ) eine σ-Algebra ist (Lemma 1.52), reicht es, A⊂M(μ∗ ) zu zeigen.<br />

Seien also A ∈ A und E ∈ 2Ω mit μ∗ (E) < ∞. Seiε > 0. Dann gibt es<br />

E1,E2,...∈Amit<br />

E ⊂<br />

∞�<br />

En und<br />

n=1<br />

∞�<br />

μ(En) ≤ μ ∗ (E)+ε.<br />

n=1<br />

Setze Bn := En ∩ A ∈A.DaA ein Semiring ist, gibt es zu jedem n ∈ N ein<br />

mn ∈ N sowie C1 n,...,Cmn n ∈Amit En \ A = En \ Bn = mn �<br />

Ck n.Alsoist<br />

∞�<br />

E ∩ A ⊂ Bn, E ∩ A c ∞�<br />

⊂<br />

n=1<br />

n=1<br />

mn �<br />

k=1<br />

k=1<br />

C k n und En = Bn ⊎<br />

μ∗ ist σ-subadditiv, und nach Voraussetzung ist μ additiv. Wegen μ∗� �A ≤ μ (es gilt<br />

sogar Gleichheit, wie wir gleich sehen) folgt<br />

μ ∗ (E ∩ A)+μ ∗ (E ∩ A c ) ≤<br />

n=1<br />

n=1<br />

k=1<br />

mn �<br />

k=1<br />

∞�<br />

μ ∗ ∞�<br />

(Bn)+ μ ∗� mn �<br />

μ(C k �<br />

n)<br />

∞�<br />

∞� mn �<br />

≤ μ(Bn)+ μ(C k n)<br />

=<br />

=<br />

n=1<br />

n=1 k=1<br />

∞�<br />

�<br />

mn �<br />

μ(Bn)+ μ(C k �<br />

n)<br />

n=1<br />

k=1<br />

∞�<br />

μ(En) ≤ μ ∗ (E)+ε.<br />

n=1<br />

Daher ist μ ∗ (E ∩ A) +μ ∗ (E ∩ A c ) ≤ μ ∗ (E) und damit A ∈M(μ ∗ ), also ist<br />

A⊂M(μ ∗ ). Setze nun �μ : σ(A) → [0, ∞], A ↦→ μ ∗ (A). Nach Lemma 1.51 ist �μ<br />

ein Maß und �μ ist σ-endlich, weil μσ-endlich ist. ✷<br />

Beispiel 1.54 (Lebesgue-Maß, Fortsetzung von Beispiel 1.39). Wir wollen das auf<br />

den Quadern A = {(a, b] : a, b ∈ R n ,a


1.3 Fortsetzung von Maßen 25<br />

� n<br />

i=1 (bi − ai) zu einem Maß auf der Borel’schen σ-Algebra B(R n ) fortsetzen. Um<br />

die Voraussetzungen von Satz 1.53 zu prüfen, müssen wir nur noch zeigen, dass μ<br />

σ-subadditiv ist. Seien also (a, b], (a(1),b(1)], (a(2),b(2)],...∈Amit<br />

Wir müssen zeigen, dass<br />

(a, b] ⊂<br />

μ((a, b]) ≤<br />

∞�<br />

(a(k),b(k)].<br />

k=1<br />

∞�<br />

μ((a(k),b(k)]). (1.12)<br />

k=1<br />

Hierzu benutzen wir ein Kompaktheitsargument, um (1.12) auf die endliche Additivität<br />

zurück zu führen. Sei also ε>0, und sei für jedes k ∈ N ein bε(k) >b(k) so<br />

gewählt, dass<br />

μ((a(k),bε(k)]) ≤ μ((a(k),b(k)]) + ε 2 −k−1 .<br />

Ferner sei aε ∈ (a, b) so gewählt, dass μ((aε,b]) ≥ μ((a, b]) − ε<br />

2 . Nun ist [aε,b]<br />

kompakt und<br />

∞�<br />

∞�<br />

(a(k),bε(k)) ⊃ (a(k),b(k)] ⊃ (a, b] ⊃ [aε,b].<br />

k=1<br />

k=1<br />

Also existiert ein K0 mit � K0<br />

k=1 (a(k),bε(k)) ⊃ (aε,b]. Daμ (endlich) subadditiv<br />

ist (Lemma 1.31(iii)), folgt<br />

μ((a, b]) ≤ ε<br />

2 + μ((aε,b]) ≤ ε<br />

2 +<br />

K0 �<br />

μ((a(k),bε(k)])<br />

k=1<br />

k=1<br />

≤ ε<br />

2 +<br />

K0 � � �<br />

∞�<br />

−k−1<br />

ε 2 + μ((a(k),b(k)]) ≤ ε + μ((a(k),b(k)]).<br />

Da ε>0 beliebig war, folgt (1.12) und damit die σ-Subadditivität von μ. ✸<br />

k=1<br />

Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt.<br />

Satz 1.55 (Lebesgue-Maß). Es existiert ein eindeutig bestimmtes Maß λ n auf<br />

(R n , B(R n )) mit der Eigenschaft<br />

λ n ((a, b]) =<br />

n�<br />

(bi − ai) für alle a, b ∈ R n mit a


26 1 Grundlagen der Maßtheorie<br />

Beispiel 1.56 (Lebesgue-Stieltjes-Maß). Sei Ω = R und A = {(a, b] : a, b ∈<br />

R, a ≤ b}. A ist ein Semiring und σ(A) = B(R), woB(R) die Borel’sche σ-<br />

Algebra auf R ist. Ferner sei F : R → R monoton wachsend und rechtsseitig stetig.<br />

Wir definieren eine Mengenfunktion<br />

˜μF : A→[0, ∞), (a, b] ↦→ F (b) − F (a).<br />

Offensichtlich ist ˜μF (∅) =0, und ˜μF ist additiv.<br />

Seien (a, b], (a(1),b(1)], (a(2),b(2)],... ∈Amit (a, b] ⊂ �∞ n=1 (a(n),b(n)]. Sei<br />

ε>0, und sei aε ∈ (a, b) so gewählt, dass F (aε) − F (a) b(k)<br />

so gewählt, dass F (bε(k)) − F (b(k)) 0,<br />

also hat (xn)n∈N keinen Häufungspunkt.<br />

(v) Gilt lim<br />

x→∞ F (x) − F (−x) =1,soistμF ein W-Maß. ✸<br />

� x<br />

Den Fall, wo μF ein W-Maß ist, wollen wir noch weiter untersuchen.


1.3 Fortsetzung von Maßen 27<br />

Definition 1.59 (Verteilungsfunktion). Eine rechtsseitig stetige, monoton wachsende<br />

Funktion F : R → [0, 1] mit F (−∞) := lim F (x) =0und F (∞) :=<br />

x→−∞<br />

lim F (x) =1heißt Verteilungsfunktion. Gilt statt F (∞) =1lediglich F (∞) ≤<br />

x→∞<br />

1, soheißtFuneigentliche Verteilungsfunktion.<br />

Ist μ ein (Sub-)W-Maß auf (R, B(R)), so heißt Fμ : x ↦→ μ((−∞,x]) die Verteilungsfunktion<br />

von μ.<br />

Offenbar ist Fμ rechtsseitig stetig und F (−∞) =0, weil μ stetig von oben und<br />

endlich ist (Satz 1.36). Auf Grund der Stetigkeit von unten ist F (∞) =μ(R), also<br />

ist Fμ tatsächlich eine (uneigentliche) Verteilungsfunktion, wenn μ ein (Sub-)W-<br />

Maß ist.<br />

Die Argumentation aus Beispiel 1.56 liefert nun den folgenden Satz.<br />

Satz 1.60. Die Abbildung μ ↦→ Fμ ist eine Bijektion von der Menge der W-Maße<br />

auf (R, B(R)) auf die Menge der Verteilungsfunktionen, beziehungsweise von der<br />

Menge der Sub-W-Maße auf die der uneigentlichen Verteilungsfunktionen.<br />

Wir sehen also, dass jedes endliche Maß auf (R, B(R)) ein Lebesgue-Stieltjes-Maß<br />

für eine gewisse Funktion F ist. Für σ-endliche Maße ist dies im Allgemeinen<br />

falsch, wie wir in Beispiel 1.58(iv) gesehen haben.<br />

Wir kommen nun zu einem Satz, der Satz 1.55 mit dem Lebesgue-Stieltjes-Maß<br />

kombiniert. Später werden wir sehen, dass dieser Satz in größerer Allgemeinheit<br />

gültig ist. Speziell kann man auf die Bedingung verzichten, dass die einzelnen Faktoren<br />

vom Lebesgue-Stieltjes-Typ sind.<br />

Satz 1.61 (Endliche Produkte von Maßen). Sei n ∈ N, und seien μ1,...,μn<br />

endliche Maße oder, allgemeiner, Lebesgue-Stieltjes-Maße auf (R, B(R)). Dann<br />

existiert ein eindeutig bestimmtes, σ-endliches Maß μ auf (R n , B(R n )) mit<br />

μ((a, b]) =<br />

Wir nennen μ =:<br />

n�<br />

μi((ai,bi]) für alle a, b ∈ R n mit a


28 1 Grundlagen der Maßtheorie<br />

Messräumen gilt. Wir können auch unendliche (sogar überabzählbare) Produkte betrachten,<br />

wenn wir voraussetzen, dass alle Faktoren Wahrscheinlichkeitsräume sind<br />

(Satz 14.36). ✸<br />

Beispiel 1.63 (Unendliches Produktmaß, Fortsetzung von Beispiel 1.40). Sei E<br />

eine endliche Menge und Ω = E N der Raum der Folgen mit Werten in E. Ferner sei<br />

(pe)e∈E ein Wahrscheinlichkeitsvektor. Der auf A = {[ω1,...,ωn] : ω1,...,ωn ∈<br />

E, n ∈ N} definierte Inhalt<br />

μ([ω1,...,ωn]) =<br />

soll nun zu einem Maß auf σ(A) fortgesetzt werden. Um die Voraussetzungen von<br />

Satz 1.53 zu prüfen, müssen wir zeigen, dass μσ-subadditiv ist. Wie im vorangehenden<br />

Beispiel geht dies mit Hilfe eines Kompaktheitsarguments.<br />

Seien also A, A1,A2,... ∈Aund A ⊂ �∞ n=1 An. Es reicht zu zeigen, dass es ein<br />

N ∈ N gibt mit der Eigenschaft<br />

A ⊂<br />

n�<br />

i=1<br />

pωi<br />

N�<br />

An. (1.13)<br />

n=1<br />

Dann ist nämlich aufgrund der endlichen Subadditivität von μ (Lemma 1.31(iii))<br />

schon μ(A) ≤ N�<br />

μ(An) ≤ ∞�<br />

μ(An), also ist μσ-subadditiv.<br />

n=1<br />

n=1<br />

Wir geben nun zwei Beweise für (1.13) an.<br />

1. Beweis Wie in Beispiel 1.40 angemerkt, ist Ω mit der von der Metrik d in<br />

(1.9) erzeugten Produkttopologie kompakt, und jedes A ∈ A ist abgeschlossen<br />

und damit auch kompakt. Da jedes der An zugleich offen ist, gibt es eine endliche<br />

Teilüberdeckung von A, mithin gilt (1.13).<br />

2. Beweis Wir zeigen nun auf elementare Weise die Gültigkeit von (1.13).<br />

Das Vorgehen imitiert den Beweis dafür, dass Ω kompakt ist. Wir setzen Bn :=<br />

A \ �n i=1 Ai, nehmen an, dass Bn �= ∅ für jedes n ∈ N und führen dies zum Widerspruch.<br />

Nach dem Dirichlet’schen Schubfachprinzip (E ist endlich) können wir<br />

ein ω1 ∈ E auswählen, sodass [ω1] ∩ Bn �= ∅ für unendlich viele n ∈ N. Wegen<br />

B1 ⊃ B2 ⊃ ...folgt<br />

[ω1] ∩ Bn �= ∅ für jedes n ∈ N.<br />

Wähle nun sukzessive ω2,ω3,...∈ E so aus, dass<br />

[ω1,...,ωk] ∩ Bn �= ∅ für alle k, n ∈ N.<br />

Bn ist disjunkte Vereinigung von gewissen Mengen Cn,1,...,Cn,mn ∈A.Daher<br />

existiert zu jedem n ∈ N ein in ∈{1,...,mn} mit [ω1,...,ωk] ∩ Cn,in �= ∅ für<br />

unendlich viele k ∈ N.Wegen[ω1] ⊃ [ω1,ω2] ⊃ ...folgt


1.3 Fortsetzung von Maßen 29<br />

[ω1,...,ωk] ∩ Cn,in �= ∅ für alle k, n ∈ N.<br />

Für festes n ∈ N und großes k ist [ω1,...,ωk] ⊂ Cn,in , also ist ω =(ω1,ω2,...) ∈<br />

Cn,in ⊂ Bn. Es folgt im Widerspruch zur Annahme, dass �∞ n=1 Bn �= ∅. ✸<br />

Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt.<br />

Satz 1.64 (Produktmaß, Bernoulli-Maß). Sei E eine endliche, nichtleere Menge<br />

und Ω = E N sowie (pe)e∈E ein Wahrscheinlichkeitsvektor. Dann gibt es ein<br />

eindeutig bestimmtes W-Maß μ auf σ(A) =B(Ω) mit<br />

μ([ω1,...,ωn]) =<br />

n�<br />

i=1<br />

pωi für alle ω1,...,ωn ∈ E und n ∈ N.<br />

Wir nennen μ das Produktmaß oder Bernoulli-Maß auf Ω mit Gewichten (pe)e∈E.<br />

Wir schreiben auch �� �⊗N := μ.<br />

e∈E peδe<br />

Ferner nennen wir (2E ) ⊗N := σ(A) die Produkt-σ-Algebra auf Ω.<br />

Auf Produktmaße gehen wir systematisch noch einmal in Kapitel 14 ein.<br />

Der Fortsetzungssatz liefert uns einen abstrakten Existenz- und Eindeutigkeitssatz<br />

für Maße, die wir zuvor nur auf einem Semiring A definiert hatten. Der folgende<br />

Satz zeigt, wie gut wir das Maß von σ(A)-messbaren Mengen durch endliche,<br />

beziehungsweise abzählbare Operationen mit Mengen aus A annähern können.<br />

Wir schreiben<br />

A △ B := (A \ B) ∪ (B \ A), für A, B ⊂ Ω, (1.14)<br />

für die symmetrische Differenz zweier Mengen A und B.<br />

Satz 1.65 (Approximationssatz für Maße). Sei A⊂2 Ω ein Semiring und μ ein<br />

Maß auf σ(A), das σ-endlich auf A ist.<br />

(i) Zu A ∈ σ(A) und ε>0 gibt es paarweise disjunkte Mengen A1,A2,...∈A<br />

mit A ⊂ ∞�<br />

�<br />

∞�<br />

�<br />

An und μ<br />

0 � gibt es n ∈ N und paarweise<br />

disjunkte Mengen A1,...,An ∈Amit μ A △ n�<br />

�<br />


30 1 Grundlagen der Maßtheorie<br />

Beweis. (ii) Da μ auf σ(A) mit dem äußeren Maß μ ∗ übereinstimmt und μ(A)<br />

endlich ist, gibt es nach Definition von μ ∗ (siehe Lemma 1.47) eine Überdeckung<br />

B1,B2,...∈Avon A mit<br />

Sei n ∈ N mit ∞�<br />

i=n+1<br />

Mengen C, D, E gilt<br />

μ(A) ≥<br />

μ(Bi) < ε<br />

2<br />

∞�<br />

μ(Bi) − ε/2.<br />

i=1<br />

(dies existiert, weil μ(A) < ∞). Für je drei<br />

C △D =(D \C)∪(C \D) ⊂ (D \C)∪(C \(D ∪E))∪E ⊂ (C △(D ∪E))∪E.<br />

Mit C = A, D = �n i=1 Bi und E = �∞ i=n+1 Bi erhalten wir<br />

�<br />

n�<br />

� �<br />

∞�<br />

� �<br />

∞�<br />

�<br />

μ A △ ≤ μ A △ + μ<br />

Schreibe nun<br />

i=1<br />

i=1<br />

Bi<br />

≤ μ<br />

� ∞�<br />

i=1<br />

Bi<br />

i=2 j=1<br />

i=1<br />

Bi<br />

i=n+1<br />

Bi<br />

�<br />

− μ(A)+ ε<br />

≤ ε.<br />

2<br />

n�<br />

n� i−1 �<br />

Bi = B1 ⊎ (Bi \ Bj) =:<br />

für ein gewisses k ∈ N und gewisse A1,...,Ak ∈A(Semiring-Eigenschaft).<br />

(i) Sei A ∈ σ(A) und En ↑ Ω, En ∈ σ(A) mit μ(En) < ∞ für jedes n ∈ N.<br />

Wähle zu n ∈ N eine Überdeckung (Bn,m)m∈N von A ∩ En mit<br />

∞�<br />

μ(A ∩ En) ≥ μ(Bn,m) − 2 −n ε.<br />

m=1<br />

(Dies ist möglich nach Definition des äußeren Maßes μ∗ , das auf A mit μ übereinstimmt.)<br />

Schreibe ∞�<br />

Bn,m = ∞�<br />

An für gewisse An ∈ A, n ∈ N<br />

m,n=1<br />

(Übung 1.1.1). Dann ist<br />

�<br />

∞�<br />

� �<br />

∞�<br />

μ An \ A = μ<br />

n=1<br />

≤ μ<br />

≤<br />

∞�<br />

n=1<br />

n=1 m=1<br />

� ∞�<br />

∞�<br />

n=1 m=1<br />

∞�<br />

��<br />

∞�<br />

n=1<br />

m=1<br />

Bn,m \ A<br />

�<br />

k�<br />

i=1<br />

Ai<br />

� Bn,m \ (A ∩ En) ��<br />

μ(Bn,m)<br />

�<br />

�<br />

− μ(A ∩ En) ≤ ε.


1.3 Fortsetzung von Maßen 31<br />

(iii) Sei A ∈M(μ ∗ ) und (En)n∈N wie oben. Wähle zu m, n ∈ N ein An,m ∈<br />

σ(A) mit An,m ⊃ A ∩ En und μ ∗ (An,m) ≤ μ ∗ (A ∩ En)+ 2−n<br />

m .<br />

Setze Am := ∞�<br />

A+ := ∞�<br />

m=1<br />

n=1<br />

An,m ∈ σ(A). DannistAm⊃ A und μ∗ (Am \ A) ≤ 1<br />

m . Setze<br />

Am. Dannistσ(A) ∋ A+ ⊃ A und μ ∗ (A+ \ A) =0.Wähle analog<br />

(A−) c ∈ σ(A) mit (A−) c ⊃ A c und μ ∗ ((A−) c \A c )=0.DannistA+ ⊃ A ⊃ A−<br />

und μ(A+ \ A−) =μ ∗ (A+ \ A−) =μ ∗ (A+ \ A)+μ ∗ (A \ A−) =0. ✷<br />

Bemerkung 1.67. (Regularität von Maßen) (Vergleiche auch Satz 13.6 auf Seite<br />

236.) Sei λ n das Lebesgue-Maß auf (R n , B(R n )). SeiA der Semiring der Quader<br />

der Form [a, b) ⊂ R n . Nach Satz 1.23 ist B(R n )=σ(A). Nach dem Approximationssatz<br />

gibt es zu A ∈B(R n ) und ε>0 abzählbar viele A1,A2,... ∈A<br />

mit<br />

λ n� ∞ �<br />

�<br />

Ai \ A


32 1 Grundlagen der Maßtheorie<br />

Definition 1.69. Ein Maßraum (Ω,A,μ) heißt vollständig, falls Nμ ⊂A.<br />

Bemerkung 1.70 (Vervollständigung eines Maßraums). Sei (Ω,A,μ) ein Maßraum.<br />

Es gibt genau eine kleinste σ-Algebra A ∗ ⊃ A und eine Fortsetzung<br />

μ ∗ von μ auf A ∗ , sodass (Ω,A ∗ ,μ ∗ ) vollständig ist. (Ω,A ∗ ,μ ∗ ) heißt die Ver-<br />

vollständigung von (Ω,A,μ). In der Notation des Beweises von Satz 1.53 ist<br />

�<br />

Ω,M(μ ∗ ),μ ∗� �<br />

� ∗<br />

M(μ )<br />

diese Vervollständigung.<br />

Ferner ist M(μ ∗ )=σ(A∪Nμ) ={A ∪ N : A ∈A,N∈Nμ} und μ ∗ (A ∪ N) =<br />

μ(A) für jedes A ∈Aund N ∈Nμ.<br />

Da wir diese Aussagen im Folgenden nicht benötigen werden, verzichten wir auf<br />

den Beweis und verweisen auf die gängigen Maßtheoriebücher, etwa [43].<br />

Beispiel 1.71. Ist λ das Lebesgue-Maß (genauer: das Lebesgue-Borel-Maß) auf<br />

(Rn , B(Rn )), solässt sich λ eindeutig fortsetzen zu einem Maß λ∗ auf<br />

B ∗ (R n )=σ(B(R n ) ∪N),<br />

wo N die Menge der Teilmengen der Lebesgue-Borel’schen Nullmengen bezeichnet.<br />

B ∗ (R n ) heißt σ-Algebra der Lebesgue-messbaren Mengen. Zur Unterscheidung<br />

wird manchmal λ das Lebesgue-Borel-Maß genannt und λ ∗ das Lebesgue-<br />

Maß. Wir werden diese Unterscheidung im Folgenden aber nicht benötigen. ✸<br />

Beispiel 1.72. Sei μ = δω auf einem Messraum (Ω,A). Ist{ω} ∈A, so ist die<br />

Vervollständigung A ∗ = 2 Ω , μ ∗ = δω. Im Extremfall der trivialen σ-Algebra<br />

A = {∅,Ω} hingegen ist Nμ = {∅}, also die Vervollständigung A ∗ = {∅,Ω},<br />

μ ∗ = δω. Man beachte, dass man auf dieser trivialen σ-Algebra die Dirac-Maße zu<br />

verschiedenen Punkten aus Ω nicht unterscheiden kann. ✸<br />

Definition 1.73. Sei (Ω,A,μ) ein Messraum und Ω ′ ∈A. Dann wird durch<br />

μ � � (A) :=μ(A) für A ∈A mit A ⊂ Ω′<br />

′<br />

Ω<br />

ein Maß auf der Spur-σ-Algebra A � � definiert. Dieses Maß nennen wir die Ein-<br />

′<br />

Ω<br />

schränkung von μ auf Ω ′ .<br />

Beispiel 1.74. Die Einschränkung des Lebesgue-Borel-Maßes λ von (R, B(R)) auf<br />

[0, 1] ist ein W-Maß auf ([0, 1], B(R) � � ). Allgemeiner nennen wir für messbares<br />

[0,1]<br />

A ∈B(R) die Einschränkung λ � � das Lebesgue-Maß auf A. Oftmals wird als Sym-<br />

A<br />

bol wieder λ verwendet, weil wir nicht zu viele kleinliche Unterscheidungen treffen<br />

wollen.<br />

Wir sehen später (Korollar 1.84), dass B(R) � � = B(A), wobei B(A) die Borel’sche<br />

A<br />

σ-Algebra auf A ist, die von den in A (relativ) offenen Mengen erzeugt wird. ✸


1.4 Messbare Abbildungen 33<br />

Beispiel 1.75 (Gleichverteilung). Ist A ∈B(Rn ) mit n-dimensionalem Lebesgue-<br />

Maß λn (A) ∈ (0, ∞), so wird durch<br />

μ(B) := λn (B)<br />

λn für B ∈B(R<br />

(A)<br />

n ),B⊂ A,<br />

ein W-Maß auf B(Rn ) � � definiert. Wir nennen μ die uniforme Verteilung oder<br />

A<br />

Gleichverteilung auf A und schreiben UA := μ. ✸<br />

Übung 1.3.1. Man zeige die folgende Verallgemeinerung von Beispiel 1.58(iv): Ein<br />

Maß �∞ αnδxn n=1 ist genau dann ein Lebesgue-Stieltjes Maß zu einer geeigneten<br />

Funktion F ,wenn �<br />

n: |xn|≤K αn < ∞ für jedes K>0 gilt. ♣<br />

Übung 1.3.2. Sei Ω eine überabzählbare Menge und ω0 ∈ Ω ein beliebiges Element.<br />

Sei A = σ({ω} : ω ∈{ω0}).<br />

(i) Charakterisiere A ähnlich wie in Übung 1.1.4 (Seite 11).<br />

(ii) Zeige, dass (Ω,A,δω0 ) vollständig ist. ♣<br />

Übung 1.3.3. Sei (μn)n∈N eine Folge von endlichen Maßen auf dem Messraum<br />

(Ω,A). Für jedes A ∈Aexistiere der Grenzwert μ(A) := lim<br />

n→∞ μn(A).<br />

Man zeige: μ ist ein Maß auf (Ω,A).<br />

Hinweis: Zu zeigen ist insbesondere die ∅-Stetigkeit von μ. ♣<br />

1.4 Messbare Abbildungen<br />

Eine Zwangshandlung in der Mathematik ist es, Homomorphismen zwischen Objekten<br />

anzugeben, also strukturerhaltende Abbildungen. Für topologische Räume<br />

sind dies die stetigen Abbildungen, für Messräume die messbaren Abbildungen.<br />

Seien im Folgenden stets (Ω,A) und (Ω ′ , A ′ ) Messräume.<br />

Definition 1.76 (Messbare Abbildungen).<br />

(i) Eine Abbildung X : Ω → Ω ′ heißt A – A ′ -messbar (oder kurz: messbar),<br />

falls X −1 (A ′ ):={X −1 (A ′ ):A ′ ∈A ′ }⊂Aist, falls also<br />

X −1 (A ′ ) ∈A für jedes A ′ ∈A ′ .<br />

Ist X messbar, so schreiben wir auch X :(Ω,A) → (Ω ′ , A ′ ).<br />

(ii) Ist Ω ′ = R und A ′ = B(R) die Borel’sche σ-Algebra auf R, soheißtX :<br />

(Ω,A) → (R, B(R)) kurz eine reelle A-messbare Abbildung.


34 1 Grundlagen der Maßtheorie<br />

Beispiel 1.77. (i) Die Identität id : Ω → Ω ist A – A-messbar.<br />

(ii) Ist A =2 Ω oder A ′ = {∅,Ω ′ }, so ist jede Abbildung X : Ω → Ω ′ schon A<br />

– A ′ -messbar.<br />

(iii) Sei A ⊂ Ω. Die Indikatorfunktion A : Ω →{0, 1} ist genau dann A –<br />

2 {0,1} -messbar, wenn A ∈A. ✸<br />

Satz 1.78 (Erzeugte σ-Algebra). Sei (Ω ′ , A ′ ) ein Messraum und Ω eine nichtleere<br />

Menge sowie X : Ω → Ω ′ eine Abbildung. Das Urbild<br />

X −1 (A ′ ):={X −1 (A ′ ): A ′ ∈A ′ } (1.15)<br />

ist die kleinste σ-Algebra, bezüglich der X messbar ist. Wir nennen σ(X) :=<br />

X −1 (A ′ ) die von X erzeugte σ-Algebra auf Ω.<br />

Beweis. Übung! ✷<br />

Wir wollen nun σ-Algebren betrachten, die von mehreren Abbildungen erzeugt werden.<br />

Definition 1.79 (Erzeugte σ-Algebra). Sei Ω eine nichtleere Menge. Sei I eine<br />

beliebige Indexmenge, und für jedes i ∈ I sei (Ωi, Ai) ein Messraum sowie Xi :<br />

Ω → Ωi eine beliebige Abbildung. Dann heißt<br />

� � � �<br />

�<br />

�<br />

σ(Xi, i∈ I) :=σ σ(Xi) = σ<br />

i∈I<br />

i∈I<br />

X −1<br />

i (Ai)<br />

die von (Xi, i∈ I) erzeugte σ-Algebra auf Ω. Dies ist die kleinste σ-Algebra,<br />

bezüglich der jedes Xi messbar ist.<br />

Wie bei stetigen oder linearen Abbildungen gibt es eine Verknüpfungseigenschaft.<br />

Satz 1.80 (Verknüpfung von Abbildungen). Sind (Ω,A), (Ω ′ , A ′ ) und (Ω ′′ , A ′′ )<br />

Messräume sowie X : Ω → Ω ′ messbar und X ′ : Ω ′ → Ω ′′ messbar, so ist die<br />

Abbildung Y := X ′ ◦ X : Ω → Ω ′′ , ω ↦→ X ′ (X(ω)) messbar bezüglich A – A ′′ .<br />

Beweis. Es ist Y −1 (A ′′ )=X −1 ((X ′ ) −1 (A ′′ )) ⊂ X −1 (A ′ ) ⊂A. ✷<br />

Praktisch kann man die Messbarkeit einer Abbildung X kaum prüfen, indem man<br />

sämtliche Urbilder X −1 (A ′ ), A ′ ∈A ′ auf Messbarkeit hin untersucht. Dafür sind<br />

die meisten σ-Algebren A ′ einfach zu groß. Glücklicherweise reicht hier die Betrachtung<br />

eines Erzeugers von A ′ aus:


1.4 Messbare Abbildungen 35<br />

Satz 1.81 (Messbarkeit auf einem Erzeuger). Für jedes System E ′ ⊂A ′ von<br />

A ′ -messbaren Mengen gilt σ(X −1 (E ′ )) = X −1 (σ(E ′ )) und damit<br />

X ist A – σ(E ′ )-messbar ⇐⇒ X −1 (E ′ ) ∈A für jedes E ′ ∈E ′ .<br />

Ist speziell σ(E ′ )=A ′ , dann gilt<br />

X ist A – A ′ -messbar ⇐⇒ X −1 (E ′ ) ⊂A.<br />

Beweis. Offenbar ist X −1 (E ′ ) ⊂ X −1 (σ(E ′ )) = σ(X −1 (σ(E ′ ))). Also ist auch<br />

σ(X −1 (E ′ )) ⊂ X −1 (σ(E ′ )).<br />

Für die andere Inklusion betrachten wir das Mengensystem<br />

A ′ 0 := � A ′ ∈ σ(E ′ ):X −1 (A ′ ) ∈ σ(X −1 (E ′ )) �<br />

und zeigen zunächst, dass A ′ 0 eine σ-Algebra ist, indem wir die Punkte (i)-(iii) aus<br />

Definition 1.2 prüfen:<br />

(i) Offensichtlich ist Ω ′ ∈A ′ 0.<br />

(ii) (Komplementstabilität) Ist A ′ ∈A ′ 0,soist<br />

X −1 ((A ′ ) c )=(X −1 (A ′ )) c ∈ σ(X −1 (E ′ )),<br />

also (A ′ ) c ∈A ′ 0.<br />

(iii) (σ-∪-Stabilität) Seien A ′ 1,A ′ 2,...∈A ′ 0.Dannist<br />

X −1<br />

�<br />

∞�<br />

n=1<br />

also ist � ∞<br />

n=1 A′ n ∈A ′ 0.<br />

A ′ n<br />

�<br />

∞�<br />

= X −1 (A ′ n) ∈ σ(X −1 (E ′ )),<br />

n=1<br />

Wegen E ′ ⊂A ′ 0 ist A ′ 0 = σ(E ′ ), also X −1 (A ′ ) ∈ σ(X −1 (E ′ )) für jedes A ′ ∈ σ(E ′ )<br />

und damit X −1 (σ(E ′ )) ⊂ σ(X −1 (E ′ )). ✷<br />

Korollar 1.82 (Messbarkeit von verknüpften Abbildungen). Sei I eine nichtleere<br />

Indexmenge sowie (Ω,A), (Ω ′ , A ′ ) und (Ωi, Ai) Messräume, i ∈ I. Sei ferner<br />

(Xi : i ∈ I) eine Familie messbarer Abbildungen Xi : Ω ′ → Ωi mit der Eigenschaft<br />

A ′ = σ(Xi : i ∈ I). Dann gilt: Eine Abbildung Y : Ω → Ω ′ ist genau dann<br />

A-A ′ messbar, wenn Xi ◦ Y messbar ist bezüglich A-Ai für jedes i ∈ I.<br />

Beweis. Ist Y messbar, so ist nach Satz 1.80 jedes Xi ◦ Y messbar. Sei nun jede<br />

der zusammengesetzten Abbildungen Xi ◦ Y messbar bezüglich A-Ai. Die Menge<br />

E ′ := {X −1<br />

i (A ′′ ): A ′′ ∈Ai, i∈ I} ist nach Voraussetzung ein Erzeuger von A ′ ,<br />

und es gilt Y −1 (A ′ ) ∈Afür jedes A ′ ∈E ′ wegen der Messbarkeit aller Xi ◦ Y .<br />

Nach Satz 1.81 ist also Y messbar. ✷


36 1 Grundlagen der Maßtheorie<br />

Wir erinnern an den Begriff der Spur eines Mengensystems aus Definition 1.25.<br />

Korollar 1.83 (Spur der erzeugten σ-Algebra). Ist E⊂2Ω und A ⊂ Ω nichtleer,<br />

so gilt σ � E � � �<br />

� = σ(E) �A<br />

A<br />

Beweis. Sei X : A↩→ Ω, ω ↦→ ω die Inklusionsabbildung. Dann ist X−1 (B) =<br />

A ∩ B für jedes B ∈ Ω. Nach Satz 1.81 ist<br />

σ � E � �<br />

� = σ({E ∩ A : E ∈E})<br />

A<br />

= σ({X −1 (E) : E ∈E})=σ(X −1 (E))<br />

= X −1 (σ(E)) = {A ∩ B : B ∈ σ(E)} = σ(E) � � A . ✷<br />

Zur Erinnerung: Für eine Teilmenge A ⊂ Ω eines topologischen Raums (Ω,τ) ist<br />

τ � � die Topologie der in A relativ offenen Mengen. Mit B(Ω,τ) =σ(τ) bezeichnen<br />

A<br />

wir die Borel’sche σ-Algebra auf (Ω,τ).<br />

Korollar 1.84 (Spur der Borel’schen σ-Algebra). Sei (Ω,τ) ein topologischer<br />

Raum und A ⊂ Ω eine beliebige Teilmenge von Ω. Dann gilt<br />

B(Ω,τ) � � = B<br />

A<br />

� A, τ � �<br />

� .<br />

A<br />

Beispiel 1.85. (i) Ist Ω ′ abzählbar, so ist X : Ω → Ω ′ genau dann A – 2Ω′ -<br />

messbar, wenn X−1 ({ω ′ }) ∈Afür jedes ω ′ ∈ Ω ′ .Für überabzählbare Ω ′ ist dies<br />

im Allgemeinen falsch. (Man betrachte etwa Ω = Ω ′ = R, A = B(R), X(ω) =ω<br />

für jedes ω ∈ Ω. Offenbar ist X−1 (ω) ={ω} ∈B(R). Ist andererseits A ⊂ R<br />

nicht in B(R), soistA∈ 2R , jedoch X−1 (A) �∈ B(R).)<br />

(ii) Für x ∈ R verabreden wir folgende Schreibweisen für das Ab- und Aufrunden<br />

⌊x⌋ := max{k ∈ Z : k ≤ x} und ⌈x⌉ :== min{k ∈ Z : k ≥ x}. (1.16)<br />

Die Abbildungen R → Z, x ↦→ ⌊x⌋ und x ↦→ ⌈x⌉ sind messbar bezüglich B(R)<br />

– 2 Z ,dennfür jedes k ∈ Z sind die Urbilder {x ∈ R : ⌊x⌋ = k} =[k, k +1)<br />

und {x ∈ R : ⌈x⌉ = k} = (k − 1,k] in B(R). Nach dem Verknüpfungssatz<br />

(Satz 1.80) sind dann für jede messbare Abbildung f :(Ω,A) → (R, B(R)) auch<br />

die Abbildungen ⌊f⌋ und ⌈f⌉ messbar bezüglich A – 2 Z .<br />

(iii) Eine Abbildung X : Ω → R d ist genau dann A – B(R d )-messbar, wenn<br />

X −1 ((−∞,a]) ∈A für jedes a ∈ R d ,<br />

denn σ((−∞,a], a∈ R d )=B(R d ) nach Satz 1.23. Analog gilt dies auch für die<br />

anderen Mengensysteme E1,...,E12 aus Satz 1.23. ✸


1.4 Messbare Abbildungen 37<br />

Beispiel 1.86. Sei d(x, y) =�x − y�2 der gewöhnliche euklidische Abstand auf Rn und B(Rn ,d)=B(Rn ) die Borel’sche σ-Algebra zu der von d erzeugten Topologie.<br />

Für jede Teilmenge A von Rn ist dann B(A, d) =B(Rn ,d) � � . ✸<br />

A<br />

Wir wollen die reellen Zahlen um die Punkte −∞ und +∞ erweitern und definieren<br />

R := R ∪{−∞, +∞}.<br />

Topologisch wollen wir R als die so genannte Zweipunktkompaktifizierung ansehen,<br />

indem wir R als topologisch isomorph zu [−1, 1] betrachten, beispielsweise<br />

vermöge der Abbildung<br />

⎧<br />

⎪⎨ tan(πx/2), falls x ∈ (−1, 1),<br />

ϕ :[−1, 1] → R, x ↦→<br />

⎪⎩<br />

−∞,<br />

∞,<br />

falls x = −1,<br />

falls x =+1.<br />

In der Tat wird durch ¯ d(x, y) = � �ϕ −1 (x)−ϕ −1 (y) � � für x, y ∈ R eine Metrik auf R<br />

definiert, sodass ϕ und ϕ −1 stetig sind (also ist ϕ ein topologischer Isomorphismus).<br />

Mit ¯τ bezeichnen wir die induzierte Topologie auf R, mit τ die gewöhnliche<br />

Topologie auf R.<br />

Korollar 1.87. Es gilt ¯τ � � R = τ, und daher gilt B(R) � � R = B(R).<br />

Ist speziell X :(Ω,A) → (R, B(R)) messbar, so ist X in kanonischer Weise auch<br />

eine R-wertige messbare Abbildung.<br />

Mit R haben wir also eine echte Erweiterung der reellen Zahlen geschaffen, und die<br />

Inklusion R ↩→ R ist messbar.<br />

Satz 1.88 (Messbarkeit stetiger Abbildungen). Sind (Ω,τ) und (Ω ′ ,τ ′ ) topologische<br />

Räume und f : Ω → Ω ′ stetig, dann ist f auch B(Ω) – B(Ω ′ )-messbar.<br />

Beweis. Wegen B(Ω ′ )=σ(τ ′ ) reicht es nach Satz 1.81 zu zeigen, dass f −1 (A ′ ) ∈<br />

σ(τ) für jedes A ′ ∈ τ ′ .Daf stetig ist, gilt aber sogar f −1 (A ′ ) ∈ τ für jedes<br />

A ′ ∈ τ ′ . ✷<br />

Für x, y ∈ R verabreden wir folgende Notationen<br />

x ∨ y =max(x, y) (Maximum),<br />

x ∧ y =min(x, y) (Minimum),<br />

x + =max(x, 0) (Positivteil),<br />

x − =max(−x, 0) (Negativteil),<br />

|x| =max(x, −x) =x − + x + (Absolutbetrag),<br />

sign(x) = {x>0} − {x


38 1 Grundlagen der Maßtheorie<br />

Analog bezeichnen wir für reelle messbare Abbildungen beispielsweise X + =<br />

max(X, 0). Die Abbildungen x ↦→ x + , x ↦→ x − und x ↦→ |x| sind stetig (und<br />

damit nach dem vorangehenden Satz messbar), die Abbildung x ↦→ sign(x) ist offenbar<br />

auch stetig. Wir erhalten also (zusammen mit Korollar 1.82):<br />

Korollar 1.89. Ist X eine reelle oder R-wertige messbare Abbildung, so sind auch<br />

die Abbildungen X − , X + , |X| und sign(X) messbar.<br />

Satz 1.90 (Koordinatenabbildungen sind messbar). Sei (Ω,A) ein Messraum<br />

und f1,...,fn : Ω → R Abbildungen, sowie f := (f1,...,fn) :Ω → R n . Dann<br />

gilt<br />

f ist A – B(R n )-messbar ⇐⇒ jedes fi ist A – B(R)-messbar.<br />

Die Aussage gilt analog für fi : Ω → R := R ∪{±∞}.<br />

Beweis. Für b ∈ R n ist f −1 ((−∞,b)) = n�<br />

i=1<br />

f −1<br />

i ((−∞,bi)). Ist jedes fi messbar,<br />

so ist also f −1 ((−∞,b)) ∈A. Die Quader (−∞,b), b ∈ R n , erzeugen aber B(R n ),<br />

und daher ist dann f messbar. Sei nun f messbar. Für i =1,...,nsei πi : R n → R,<br />

x ↦→ xi die i-te Projektion. Offenbar ist πi stetig also B(R n ) – B(R)-messbar. Nach<br />

Satz 1.80 ist auch fi = πi ◦ f messbar. ✷<br />

Für den folgenden Satz vereinbaren wir die Konvention x<br />

0 := 0 für jedes x ∈ R.<br />

Satz 1.91. Sei (Ω,A) ein Messraum und f,g : (Ω,A) → (R n , B(R n )) sowie<br />

h :(Ω,A) → (R, B(R)) messbar. Dann sind auch die Abbildungen f + g, f − g,<br />

f · h und f/h messbar.<br />

Beweis. Die Abbildung π : Rn × R → Rn , (x, α) ↦→ α · x ist stetig, also messbar.<br />

Nach Satz 1.90 ist (f,h) :Ω → Rn × R messbar, also auch die zusammengesetzte<br />

Abbildung f · h = π ◦ (f,h). Analog folgt die Messbarkeit von f + g und f − g.<br />

Um die Messbarkeit von f/h zu zeigen, definieren wir H : R → R, x ↦→ 1/x.<br />

Nach unserer Konvention ist H(0) = 0. Dannistf/h = f · H ◦ h. Es reicht also<br />

zu zeigen, dass H messbar ist. Offenbar ist H � � stetig. Für offenes U ⊂ R ist<br />

R\{0}<br />

auch U \{0} offen und damit H−1 (U \{0}) ∈B(R).FerneristH−1 ({0}) ={0}.<br />

Also ist schließlich H−1 (U) =H−1 (U \{0}) ∪ (U ∩{0}) ∈B(R). ✷<br />

Satz 1.92. Sind X1,X2,... messbare Abbildungen (Ω,A) → (R, B(Rq)), dann<br />

sind auch die folgenden Abbildungen messbar:<br />

inf<br />

n∈N Xn, sup Xn, lim inf<br />

n→∞ Xn, lim sup Xn.<br />

n∈N<br />

n→∞


Beweis. Für jedes a ∈ R gilt<br />

�<br />

inf<br />

n∈N Xn<br />

�−1 ([−∞,a)) =<br />

∞�<br />

n=1<br />

1.4 Messbare Abbildungen 39<br />

X −1<br />

n ([−∞,a)) ∈A.<br />

Nach Satz 1.81 folgt hieraus die Messbarkeit von inf<br />

n∈N Xn. Analog geht der Beweis<br />

für sup Xn.<br />

n∈N<br />

Für n ∈ N setzen wir Yn := inf<br />

m≥n Xm. DannistYnmessbar, und damit auch<br />

lim inf Yn. Analog folgt der Beweis für den Limes superior. ✷<br />

n→∞ Xn := sup<br />

n∈N<br />

Ein wichtiges Beispiel für messbare Abbildungen (Ω,A) → (R, B(R)) sind Elementarfunktionen.<br />

Definition 1.93 (Elementarfunktion). Sei (Ω,A) ein Messraum. Eine Abbildung<br />

f : Ω → R heißt Elementarfunktion, wenn es ein n ∈ N und paarweise disjunkte,<br />

messbare Mengen A1,...,An ∈A, sowie Zahlen α1,...,αn ∈ R gibt mit<br />

n�<br />

f = αi Ai .<br />

i=1<br />

Bemerkung 1.94. Eine messbare Abbildung, die nur endlich viele Werte annimmt<br />

ist eine Elementarfunktion. (Übung!) ✸<br />

Definition 1.95. Sind f,f1,f2,...Abbildungen Ω → R mit<br />

f1(ω) ≤ f2(ω) ≤ ... und lim<br />

n→∞ fn(ω) =f(ω) für jedes ω ∈ Ω,<br />

so schreiben wir fn ↑ f und sagen, dass (fn)n∈N punktweise monoton aufsteigend<br />

gegen f konvergiert. Analog schreiben wir fn ↓ f, falls (−fn) ↑ (−f).<br />

Satz 1.96. Sei (Ω,A) ein Messraum und f : Ω → [0, ∞] messbar. Dann gelten<br />

die folgenden Aussagen.<br />

(i) Es gibt eine Folge nichtnegativer Elementarfunktionen (fn)n∈N mit fn ↑ f.<br />

∞�<br />

(ii) Es gibt A1,A2,...∈Aund α1,α2,...≥ 0 mit f = αn An .<br />

Beweis. (i) Für n ∈ N0 definiere fn =(2 −n ⌊2 n f⌋) ∧ n. Dannistfn messbar<br />

(nach Satz 1.92 und Beispiel 1.85(ii)) und nimmt höchstens n2 n +1Werte an, ist<br />

also eine Elementarfunktion. Offenbar gilt fn ↑ f.<br />

n=1


40 1 Grundlagen der Maßtheorie<br />

(ii) Seien fn wie oben, Bn,i := {ω : fn(ω)−fn−1(ω) =i 2 −n } und βn,i = i 2 −n<br />

für n ∈ N und i =1,...,2n .Manüberlege sich, dass �2 n<br />

i=1 Bn,i = Ω. Dannist<br />

fn − fn−1 = 2n �<br />

βn,i Bn,i . Nach Umnummerierung (n, i) ↦→ m erhalten wir<br />

i=1<br />

(αm)m∈N und (Am)m∈N, sodass<br />

f = f0 +<br />

∞�<br />

(fn − fn−1) =<br />

n=1<br />

∞�<br />

m=1<br />

αm Am . ✷<br />

Als Korollar zu dieser Strukturaussage für messbare [0, ∞]-wertige Abbildungen<br />

zeigen wir das Faktorisierungslemma.<br />

Korollar 1.97 (Faktorisierungslemma). Seien (Ω ′ , A ′ ) ein Messraum und Ω eine<br />

nichtleere Menge. Sei f : Ω → Ω ′ eine Abbildung. Eine Abbildung g : Ω → R<br />

ist genau dann messbar bezüglich σ(f) – B(R), wenn es eine messbare Abbildung<br />

ϕ :(Ω ′ , A ′ ) → (R, B(R)) gibt mit g = ϕ ◦ f.<br />

Beweis. ” ⇐= “ Ist ϕ messbar und g = ϕ ◦ f, soistg messbar nach Satz 1.80.<br />

” =⇒ “ Sei nun g messbar bezüglich σ(f) – B(R). Wir betrachten zunächst den<br />

Fall, wo g nichtnegativ ist. Dann existieren messbare Mengen A1,A2 ... ∈ σ(f)<br />

sowie Zahlen α1,α2,...,∈ [0, ∞) mit g = �∞ n=1 αn An .NachderDefinition<br />

von σ(f) gibt es für jedes n ∈ N eine Menge Bn ∈A ′ mit f −1 (Bn) =An, also<br />

mit An = Bn ◦ f.Wirdefinieren nun ϕ : Ω′ → R durch<br />

ϕ =<br />

∞�<br />

αn Bn<br />

n=1<br />

.<br />

Offenbar ist ϕ messbar bezüglich A ′ – B(R), und es gilt g = ϕ ◦ f.<br />

Sei nun der allgemeine Fall betrachtet, wo g auch negative Werte annehmen kann.<br />

Dann existieren messbare Abbildungen ϕ − und ϕ + mit g − = ϕ − ◦ f und g + =<br />

ϕ + ◦ f. Daher leistet ϕ := ϕ + − ϕ − das Gewünschte. ✷<br />

Mit einer messbaren Abbildung wird auch ein Maß von einem Raum auf einen anderen<br />

transportiert.<br />

Definition 1.98 (Bildmaß). Seien (Ω,A) und (Ω ′ , A ′ ) Messräume und μ ein Maß<br />

auf (Ω,A). Ferner sei X :(Ω,A) → (Ω ′ , A ′ ) messbar. Das durch<br />

μ ◦ X −1 : A ′ → [0, ∞], A ′ ↦→ μ(X −1 (A ′ ))<br />

definierte Maß auf (Ω ′ , A ′ ) heißt Bildmaß von μ unter X.


1.4 Messbare Abbildungen 41<br />

Beispiel 1.99. Sei μ ein Maß auf Z2 und X : Z2 → Z, (x, y) ↦→ x + y. Dannist<br />

μ ◦ X −1 ({x}) = �<br />

μ({x − y, y}). ✸<br />

y∈Z<br />

Beispiel 1.100. Ist L : R n → R n eine bijektive lineare Abbildung und λ das<br />

Lebesgue-Maß auf (R n , B(R n )), soistλ ◦ L −1 = | det(L)| −1 λ. Dies ist klar, weil<br />

für a, b ∈ R n mit a


42 1 Grundlagen der Maßtheorie<br />

(i) Zeige: A = σ(Xn : n ∈ N).<br />

(ii) Zeige: U ist A–B([0, 1]) messbar.<br />

(iii) Bestimme das Bildmaß μ ◦ U −1 auf ([0, 1], B([0, 1])).<br />

(iv) Man gebe ein Ω0 ∈Aan, sodass Ũ := U�� bijektiv ist.<br />

Ω0<br />

(v) Man zeige, dass Ũ −1 messbar ist bezüglich B([0, 1])–A � � .<br />

Ω0<br />

(vi) Welche Interpretation hat die Abbildung Xn ◦ Ũ −1 ? ♣<br />

1.5 Zufallsvariablen<br />

In diesem Abschnitt werden wir messbare Abbildungen als Zufallsvariablen auffassen,<br />

die zufällige Beobachtungen beschreiben. Wir definieren den Begriff der<br />

Verteilung von Zufallsvariablen.<br />

Im Folgenden sei stets (Ω,A, P) ein Wahrscheinlichkeitsraum. Die Mengen A ∈A<br />

heißen Ereignisse. P[A] wird als die Wahrscheinlichkeit interpretiert, dass A eintritt.<br />

Oft ist allerdings nicht der Wahrscheinlichkeitsraum selbst betrachtbar, sondern<br />

nur gewisse Beobachtungsgrößen. Wir wollen also Wahrscheinlichkeiten dafür definieren,<br />

dass Zufallsgrößen bestimmte Werte annehmen und einen Kalkül für, zum<br />

Beispiel, Summen von Zufallsgrößen entwickeln.<br />

Definition 1.102 (Zufallsvariablen). Sei (Ω ′ , A ′ ) ein Messraum und X : Ω →<br />

Ω ′ messbar.<br />

(i) X heißt Zufallsvariable mit Werten in (Ω ′ , A ′ ).Ist(Ω ′ , A ′ )=(R, B(R)),so<br />

nennen wir X eine reelle Zufallsvariable oder schlicht Zufallsvariable.<br />

(ii) Ist A ′ ∈A ′ , so schreiben wir {X ∈ A ′ } := X−1 (A ′ ) und P[X ∈ A ′ ]:=<br />

P[X−1 (A ′ )]. Speziell schreiben wir {X ≥ 0} := X−1 ([0, ∞)) und analog<br />

{X ≤ b} und so weiter.<br />

Definition 1.103 (Verteilungen). Sei X eine Zufallsvariable.<br />

(i) Das W-Maß PX := P ◦ X−1 heißt Verteilung von X.<br />

(ii) Ist X eine reelle Zufallsvariable, so heißt die Abbildung FX : x ↦→ P[X ≤ x]<br />

die Verteilungsfunktion von X (eigentlich von PX). Ist μ = PX, soschreiben<br />

wir auch X ∼ μ und sagen, dass X nach μ verteilt ist.<br />

(iii) Eine Familie (Xi)i∈I heißt identisch verteilt, falls PXi = PXj für alle<br />

i, j ∈ I. Wir schreiben X D = Y , falls PX = PY (D für distribution).


1.5 Zufallsvariablen 43<br />

Satz 1.104. Zu jeder Verteilungsfunktion F existiert eine reelle Zufallsvariable X<br />

mit FX = F .<br />

Beweis. Wir müssen explizit einen Wahrscheinlichkeitsraum (Ω,A, P) und eine<br />

Zufallsvariable X : Ω → R angeben mit FX = F .<br />

Die einfachste Möglichkeit ist, (Ω,A) =(R, B(R)) zu wählen, X : R → R die<br />

identische Abbildung und P das Lebesgue-Stieltjes Maß mit Verteilungsfunktion F<br />

(siehe Beispiel 1.56).<br />

Eine andere Möglichkeit, die zudem etwas lehrreicher ist, beruht darauf, zunächst<br />

unabhängig vom konkreten F eine Art Standard-Wahrscheinlichkeitsraum zu definieren,<br />

auf dem eine uniform auf (0, 1) verteilte Zufallsvariable definiert ist, die<br />

dann vermöge der Umkehrabbildung F −1 zu einer Zufallsvariablen X mit Verteilungsfunktion<br />

F transformiert wird: Wir wählen Ω := (0, 1), A := B(R) � � und<br />

Ω<br />

P das Lebesgue-Maß auf (Ω,A) (siehe Beispiel 1.74). Definiere die (linkssstetige)<br />

Inverse von F<br />

Dann ist<br />

F −1 (t) :=inf{x ∈ R : F (x) ≥ t} für t ∈ (0, 1).<br />

F −1 (t) ≤ x ⇐⇒ t ≤ F (x).<br />

Speziell ist {t : F −1 (t) ≤ x} =(0,F(x)] ∩ (0, 1), also ist F −1 :(Ω,A) →<br />

(R, B(R)) messbar und<br />

P[{t : F −1 (t) ≤ x}] =F (x).<br />

Mithin ist X := F −1 die gewünschte Zufallsvariable. ✷<br />

Beispiel 1.105. Wir geben zu verschiedenen Wahrscheinlichkeitsverteilungen auf R<br />

reelle Zufallsvariablen X mit ebendieser Verteilung an. (Der konkrete Ort in diesem<br />

Buch dient lediglich als Vorwand, um ein paar der wichtigsten Verteilungen<br />

einzuführen, auf die wir bei späteren Gelegenheiten immer wieder zurückkommen.)<br />

(i) Ist p ∈ [0, 1] und P[X =1]=p, P[X =0]=1−p,soheißtPX =: Berp die<br />

Bernoulli-Verteilung mit Parameter p. Formal ist<br />

Berp =(1− p) δ0 + pδ1,<br />

und die Verteilungsfunktion ist<br />

⎧<br />

⎨ 0, falls x


44 1 Grundlagen der Maßtheorie<br />

so heißt PX =: bn,p die Binomialverteilung mit Parametern n und p. Formal ist<br />

bn,p =<br />

n�<br />

k=0<br />

(iii) Ist p ∈ (0, 1] und X : Ω → N0 mit<br />

P[X = n] =p (1 − p) n<br />

� �<br />

n<br />

p<br />

k<br />

k (1 − p) n−k δk.<br />

für jedes n ∈ N0,<br />

so heißt γp := b − 1,p := PX die geometrische Verteilung 1 mit Parameter p. Formal<br />

können wir schreiben:<br />

Die Verteilungsfunktion ist<br />

γp =<br />

n=0<br />

∞�<br />

p (1 − p) n δn.<br />

F (x) =1− (1 − p) ⌊x⌋∨0<br />

für x ∈ R.<br />

Wir können X +1als die Wartezeit auf den ersten Erfolg bei unabhängigen“<br />

”<br />

Zufallsexperimenten auffassen, die jeweils mit Wahrscheinlichkeit p zum Erfolg<br />

führen. In der Tat: Sei Ω = {0, 1} N und P das Produktmaß � �⊗N (1 − p)δ0 + pδ1<br />

(Satz 1.64), sowie A = σ([ω1,...,ωn] : ω1,...,ωn ∈{0, 1}, n∈ N). Wir setzen<br />

X(ω) :=inf{n ∈ N : ωn =1}−1,<br />

mit der Konvention inf ∅ = ∞. Offenbar ist jede der Abbildungen<br />

Xn : Ω → R,<br />

�<br />

n − 1,<br />

ω ↦→<br />

∞,<br />

falls ωn =1,<br />

falls ωn =0,<br />

A – B(R)-messbar und X = infn∈N Xn. AlsoistX auch A – B(R)-messbar,<br />

also eine Zufallsvariable. Sei ω 0 := (0, 0,...) ∈ Ω. DannistP[X ≥ n] =<br />

P[[ω 0 1,...,ω 0 n]] = (1 − p) n .Alsoist<br />

P[X = n] =P[X ≥ n] − P[X ≥ n +1]=(1− p) n − (1 − p) n+1 = p (1 − p) n .<br />

(iv) Seien r>0 (nicht notwendigerweise ganzzahlig) und p ∈ (0, 1]. Mit<br />

b − r,p :=<br />

∞�<br />

k=0<br />

� �<br />

−r<br />

(−1)<br />

k<br />

k p r (1 − p) k δk<br />

(1.17)<br />

bezeichnen wir die negative Binomialverteilung oder Pascal-Verteilung mit Parametern<br />

r und p. (Hierbei ist � � x x(x−1)···(x−k+1)<br />

k = für x ∈ R und k ∈ N der<br />

1<br />

Obacht: Manche Autoren nennen die um Eins verschobene Verteilung auf N die geometrische<br />

Verteilung.<br />

k!


1.5 Zufallsvariablen 45<br />

verallgemeinerte Binomialkoeffizient.) Für r ∈ N ist b − r,p, ähnlich wie im vorangehenden<br />

Beispiel, die Verteilung der Wartezeit auf den r-ten Erfolg bei unabhängigen<br />

Versuchen. Wir werden hierauf in Beispiel 3.4(iv) zurückkommen.<br />

(v) Ist λ ∈ [0, ∞) und X : Ω → N0 mit<br />

−λ λn<br />

P[X = n] =e<br />

n!<br />

für jedes n ∈ N0,<br />

so heißt PX =: Poiλ die Poisson-Verteilung mit Parameter λ.<br />

(vi) Die hypergeometrische Verteilung mit Parametern S, W, n ∈ N<br />

� �� S W �<br />

HypS,W,n({s}) =<br />

s n−s<br />

� , s ∈{0,...,n}, (1.18)<br />

� S+W<br />

n<br />

gibt die Wahrscheinlichkeit an, aus einer Urne mit S schwarzen und W weißen Kugeln<br />

bei n-maligen Ziehen ohne Zurücklegen genau s schwarze Kugeln zu ziehen.<br />

(vii) Seien μ ∈ R, σ 2 > 0 und X reell mit<br />

P[X ≤ x] =<br />

1<br />

√ 2πσ 2<br />

� x<br />

−∞<br />

(t−μ)2<br />

−<br />

e 2σ2 dt für x ∈ R,<br />

Dann heißt PX =: N μ,σ 2 Gauß’sche Normalverteilung mit Parametern μ und σ 2 .<br />

(viii) Ist X ≥ 0 reell und θ>0,sowie<br />

P[X ≤ x] =P[X ∈ [0,x]] =<br />

� x<br />

0<br />

θe −θt dt für x ≥ 0,<br />

so heißt PX Exponentialverteilung mit Parameter θ (kurz: exp θ).<br />

(ix) Ist X Rd-wertig, μ ∈ Rd , Σ eine positiv definite d × d Matrix und<br />

P[X ≤ x] = det(2πΣ) −1/2<br />

� �<br />

exp − 1<br />

�<br />

t − μ, Σ<br />

2<br />

−1 ��<br />

(t − μ) λ d (dt)<br />

(−∞,x]<br />

für x ∈ R d (wobei 〈 · , · 〉 das Skalarprodukt im R d bezeichnet), so heißt PX =:<br />

Nμ,Σ die d-dimensionale Normalverteilung mit Parametern μ und Σ. ✸<br />

Definition 1.106. Hat die Verteilungsfunktion F : R n → [0, 1] die Gestalt<br />

F (x) =<br />

� x1<br />

dt1 ···<br />

−∞<br />

� xn<br />

dtn f(t1,...,tn) für x =(x1,...,xn) ∈ R<br />

−∞<br />

n ,<br />

für eine integrierbare Funktion f : R n → [0, ∞), so heißt f die Dichte der Verteilung.


46 1 Grundlagen der Maßtheorie<br />

Beispiel 1.107. (i) Für θ, r > 0 heißt die Verteilung Γθ,r auf [0, ∞) mit Dichte<br />

x ↦→ θr<br />

Γ (r) xr−1 e −θx<br />

(wo Γ die Gamma-Funktion bezeichnet) Gamma-Verteilung mit Größenparameter<br />

θ und Formparameter r.<br />

(ii) Für r, s > 0 heißt die Verteilung βr,s auf [0, 1] mit Dichte<br />

x ↦→<br />

Γ (r + s)<br />

Γ (r)Γ (s) xr−1 (1 − x) s−1<br />

Beta-Verteilung mit Parametern r und s.<br />

(iii) Für a>0 heißt die Verteilung Caua auf R mit Dichte<br />

x ↦→ 1 1<br />

aπ 1+(x/a) 2<br />

Cauchy-Verteilung mit Parameter a. ✸<br />

Übung 1.5.1. Man leite (1.17) nach der Interpretation als Wartezeit kombinatorisch<br />

her unter Benutzung der Identität � � � � −n k n+k−1<br />

k (−1) = k . ♣<br />

Übung 1.5.2. Man gebe ein Beispiel an für zwei normalverteilte X und Y , sodass<br />

(X, Y ) nicht (zweidimensional) normalverteilt ist. ♣<br />

Übung 1.5.3. Man zeige mit Hilfe von Satz 1.101 (Transformationsformel für Dichten):<br />

(i) Ist X ∼N μ,σ 2 und sind a ∈ R\{0} und b ∈ R,soist(aX +b) ∼N aμ+b,a 2 σ 2.<br />

(ii) Ist X ∼ exp θ und a>0,soistaX ∼ exp θ/a. ♣


2 Unabhängigkeit<br />

Die Maßtheorie aus dem vorigen Kapitel ist eine lineare Theorie, die keine Abhängigkeitsstrukturen<br />

zwischen Ereignissen oder Zufallsvariablen kennt. Wir betreten<br />

das Gebiet der <strong>Wahrscheinlichkeitstheorie</strong> genau an dieser Stelle mit der Definition<br />

der Unabhängigkeit von Ereignissen und schließlich von Zufallsvariablen. Die<br />

Unabhängigkeit ist ein zentraler Begriff der <strong>Wahrscheinlichkeitstheorie</strong>, die Quantifizierung<br />

von Abhängigkeiten eines ihrer wichtigen Anliegen.<br />

Fortan ist stets (Ω,A, P) ein Wahrscheinlichkeitsraum, und die Mengen A ∈A<br />

sind die Ereignisse. Sobald wir die Phase hinter uns gelassen haben, in der wir W-<br />

Räume explizit konstruieren, wird der konkrete W-Raum in den Hintergrund treten,<br />

und die beobachtbaren Größen, also Zufallsvariablen, werden an Bedeutung gewinnen.<br />

Das fett gedruckte P steht dann für das universelle Objekt des W-Maßes, und<br />

Wahrscheinlichkeiten P[ · ] bezüglich P werden stets mit eckigen Klammern geschrieben.<br />

2.1 Unabhängigkeit von Ereignissen<br />

Wir wollen zwei Ereignisse A und B als (stochastisch) unabhängig betrachten, wenn<br />

das Eintreten von A nicht die Wahrscheinlichkeit beeinflusst, dass zudem B eintritt.<br />

Etwas formaler können wir diesen intuitiven Begriff fassen, indem wir A und B als<br />

unabhängig betrachten, wenn<br />

P[A ∩ B] =P[A] · P[B]. (2.1)<br />

Beispiel 2.1 (Zweifacher Würfelwurf). Wir betrachten das Zufallsexperiment des<br />

zweifachen Würfelwurfes. Es ist also Ω = {1,...,6} 2 mit der σ-Algebra A =2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)).<br />

(i) Zwei Ereignisse A und B sollten unabhängig sein, wenn A nur vom Ergebnis<br />

des ersten Wurfes abhängt, B hingegen nur vom Ergebnis des zweiten Wurfes.<br />

Formal beschreiben wir diese Situation, indem wir annehmen, dass es Mengen<br />

Ã, ˜ B ⊂{1,...,6} gibt mit<br />

A = Ã ×{1,...,6} und B = {1,...,6}× ˜ B.


48 2 Unabhängigkeit<br />

Wir prüfen jetzt, dass A und B tatsächlich (2.1) erfüllen. Dazu berechnen wir<br />

P[A] = #A #Ã<br />

#B<br />

36 = 6 und P[B] = 36 = # ˜ B<br />

6 . Ferner ist<br />

P[A ∩ B] = #(Ã × ˜ B)<br />

=<br />

36<br />

#Ã<br />

6 · # ˜ B<br />

= P[A] · P[B].<br />

6<br />

(ii) Stochastische Unabhängigkeit kann auch in weniger augenfälligen Situationen<br />

auftreten. Sei hierzu A das Ereignis, dass die Augensumme ungerade ist,<br />

A = � (ω1,ω2) ∈ Ω : ω1 + ω2 ∈ {3, 5, 7, 9, 11} � , und B das Ereignis, dass<br />

der erste Wurf höchstens eine Drei bringt, B = {(ω1,ω2) ∈ Ω : ω1 ∈{1, 2, 3} � .<br />

Obwohl beide Ereignisse anscheinend etwas miteinander zu tun haben, sind sie stochastisch<br />

unabhängig, denn es gilt, wie man leicht prüft, P[A] =P[B] = 1<br />

2 und<br />

P[A ∩ B] = 1<br />

4 . ✸<br />

Wann sind nun drei Ereignisse A1,A2,A3 unabhängig? Hierzu muss natürlich jedes<br />

der Paare (A1,A2), (A1,A3) und (A2,A3) unabhängig sein. Jedoch wollen<br />

wir auch sicherstellen, dass beispielsweise das Eintreten von A1 und A2 nicht die<br />

Wahrscheinlichkeit für das zusätzliche Eintreten von A3 beeinflusst. Wir müssen<br />

also mehr als nur Paare betrachten.<br />

Formal nennen wir daher drei Ereignisse A1,A2 und A3 (stochastisch) unabhängig,<br />

falls<br />

P[Ai ∩ Aj] =P[Ai] · P[Aj] für alle i, j ∈{1, 2, 3}, i�= j, (2.2)<br />

und<br />

P[A1 ∩ A2 ∩ A3] =P[A1] · P[A2] · P[A3]. (2.3)<br />

Man beachte, dass (2.3) nicht aus (2.2) folgt (und (2.2) nicht aus (2.3)).<br />

Beispiel 2.2 (Dreifacher Würfelwurf). Wir betrachten den dreifachen Wurf eines<br />

Würfels. Sei also Ω = {1,...,6} 3 ausgestattet mit der diskreten σ-Algebra A =<br />

2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)).<br />

(i) Hängt für i =1, 2, 3 das Ereignis Ai nur vom i-ten Wurf ab, so sind die Ereignisse<br />

A1, A2 und A3 unabhängig. In der Tat können wir sie wie im vorangehenden<br />

Beispiel für gewisse Mengen Ã1, Ã2, Ã3 ⊂{1,...6} schreiben als<br />

A1 = Ã1 ×{1,...,6} 2 ,<br />

A2 = {1,...,6}× Ã2 ×{1,...,6},<br />

A3 = {1,...,6} 2 × Ã3.<br />

Die Gültigkeit von (2.2) folgt wie in Beispiel 2.1(i). Um (2.3) zu zeigen, berechnen<br />

wir<br />

P[A1 ∩ A2 ∩ A3] = #(Ã1 × Ã2 × Ã3)<br />

216<br />

(ii) Wir betrachten nun die folgenden drei Ereignisse<br />

=<br />

3�<br />

i=1<br />

# Ãi<br />

6 =<br />

3�<br />

P[Ai].<br />

i=1


2.1 Unabhängigkeit von Ereignissen 49<br />

A1 := {ω ∈ Ω : ω1 = ω2},<br />

A2 := {ω ∈ Ω : ω2 = ω3},<br />

A3 := {ω ∈ Ω : ω1 = ω3}.<br />

Dann ist #A1 =#A2 =#A3 =36, also P[A1] =P[A2] =P[A3] = 1<br />

6 . Ferner<br />

ist #(Ai ∩ Aj) =6, falls i �= j, also P[Ai ∩ Aj] = 1<br />

36 . Daher gilt (2.2). Jedoch ist<br />

#(A1 ∩ A2 ∩ A3) =6, also P[A1 ∩ A2 ∩ A3] = 1 1 1 1<br />

36 �= 6 · 6 · 6 , mithin ist (2.3)<br />

verletzt, und die Ereignisse A1,A2,A3 sind nicht unabhängig. ✸<br />

Um für größere Familien von Ereignissen Unabhängigkeit zu definieren, müssen<br />

wir die Gültigkeit von Produktformeln wie (2.2) und (2.3) nunmehr nicht nur für<br />

Paare und Tripel fordern, sondern für alle endlichen Teilfamilien. Wir treffen daher<br />

die folgende Definition.<br />

Definition 2.3 (Unabhängigkeit von Ereignissen). Sei I eine beliebige Indexmenge,<br />

und sei (Ai)i∈I eine beliebige Familie von Ereignissen. Die Familie<br />

(Ai)i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊂ I gilt, dass<br />

� � �<br />

P = �<br />

P[Aj].<br />

j∈J<br />

Aj<br />

Das wichtigste Beispiel für eine unendlich große, unabhängige Familie von Ereignissen<br />

wird durch die unendliche (unabhängige) Wiederholung eines Zufallsexperiments<br />

gegeben.<br />

Beispiel 2.4. Sei E eine endliche Menge (die möglichen Ausgänge des einzelnen<br />

Experiments) und (pe)e∈E ein Wahrscheinlichkeitsvektor auf E. Sei (wie in<br />

Satz 1.64) der Wahrscheinlichkeitsraum Ω = EN ausgestattet mit der σ-Algebra<br />

A = σ({[ω1,...,ωn] :ω1,...,ωn ∈ E, n ∈ N}) und P = ��<br />

e∈E peδe<br />

�⊗N das<br />

Produktmaß (oder Bernoulli-Maß) auf (Ω,A), also P � [ω1,...,ωn] � n�<br />

= pωi .Sei<br />

Ãi ⊂ E für jedes i ∈ N, und Ai das Ereignis, dass Ãi im i-ten Durchgang des<br />

Experiments auftritt, also<br />

Ai = � ω ∈ Ω : ωi ∈ Ãi<br />

� �<br />

=<br />

[ω1,...,ωi].<br />

j∈J<br />

(ω1,...,ωi)∈E i−1 × Ãi<br />

Nach unserer Intuition sollte die Familie (Ai)i∈N unabhängig sein, wenn die Definition<br />

der Unabhängigkeit sinnvoll sein soll. Wir weisen jetzt nach, dass dies in der<br />

Tat richtig ist. Sei J ⊂ N endlich mit k := #J und n := max J. Wir setzen formal<br />

Bj = Aj und ˜ Bj = Ãj für j ∈ J und Bj = Ω und ˜ Bj = E für j ∈{1,...,n}\J.<br />

Dann ist<br />

i=1


50 2 Unabhängigkeit<br />

�<br />

�<br />

P<br />

j∈J<br />

Aj<br />

�<br />

�<br />

�<br />

= P<br />

= �<br />

j∈J<br />

e1∈ ˜ B1<br />

Bj<br />

�<br />

··· �<br />

�<br />

�n<br />

= P<br />

n�<br />

en∈ ˜ Bn<br />

j=1<br />

j=1<br />

Bj<br />

pej =<br />

�<br />

n�<br />

�<br />

�<br />

j=1<br />

e∈ ˜ Bj<br />

pe<br />

�<br />

= �<br />

�<br />

�<br />

j∈J<br />

e∈ Ãj<br />

Dies gilt speziell natürlich für #J =1, also ist P[Ai] = �<br />

e∈Ãi pe für jedes i ∈ N.<br />

Es folgt<br />

�<br />

�<br />

�<br />

P = �<br />

P[Aj]. (2.4)<br />

j∈J<br />

Aj<br />

Da dies für alle endlichen J ⊂ N gilt, ist die Familie (Ai)i∈N unabhängig. ✸<br />

Sind A und B unabhängig, so sind auch A c und B unabhängig, denn P[A c ∩ B] =<br />

P[B] − P[A ∩ B] =P[B] − P[A]P[B] =(1− P[A])P[B] =P[A c ]P[B]. Wir<br />

wollen diese Beobachtung etwas verallgemeinern und als Satz festhalten.<br />

Satz 2.5. Sei I eine beliebige Indexmenge, und sei (Ai)i∈I eine Familie von Ereignissen.<br />

Setze B0 i = Ai und B1 i = Aci für i ∈ I. Dann sind folgende drei Aussagen<br />

äquivalent.<br />

(i) Die Familie (Ai)i∈I ist unabhängig.<br />

(ii) Es gibt ein α ∈{0, 1} I , sodass die Familie (B αi<br />

i )i∈I unabhängig ist.<br />

(iii) Für jedes α ∈{0, 1} I ist die Familie (B αi<br />

i )i∈I unabhängig.<br />

Beweis Übung!<br />

Beispiel 2.6 (Euler’sche Primzahlformel). Die Riemann’sche Zetafunktion ist<br />

definiert durch die Dirichlet-Reihe<br />

∞�<br />

ζ(s) := n −s<br />

für s ∈ (1, ∞).<br />

n=1<br />

Die Euler’sche Primzahlformel ist die Produktdarstellung<br />

ζ(s) = � � −s<br />

1 − p �−1 , (2.5)<br />

p∈P<br />

wobei P := {p ∈ N : p ist Primzahl} ist.<br />

Wir beweisen die Produktdarstellung probabilistisch. Sei Ω = N und (für festes s)<br />

P definiert durch<br />

P[{n}] =ζ(s) −1 n −s<br />

für n ∈ N.<br />

Sei pN = {pn : n ∈ N} und Pn = {p ∈P: p ≤ n}. Wir fassen pN ⊂ Ω als<br />

Ereignis auf und bemerken, dass (pN, p∈P) unabhängig ist. In der Tat: Für k ∈ N<br />

und unterschiedliche p1,...,pk ∈P ist � k<br />

i=1 piN =(p1 ···pk)N, also<br />

j∈J<br />

pe<br />

�<br />

.


2.1 Unabhängigkeit von Ereignissen 51<br />

�<br />

k�<br />

�<br />

∞�<br />

P (piN) = P � {p1 ···pkn} �<br />

i=1<br />

n=1<br />

= ζ(s) −1 (p1 ···pk) −s<br />

=(p1 ···pk) −s =<br />

∞�<br />

n −s<br />

n=1<br />

k�<br />

P[ piN ].<br />

Nach Satz 2.5 ist nun auch ((pN) c ,p∈P) unabhängig. Deshalb gilt<br />

ζ(s) −1 �<br />

�<br />

= P[{1}] =P (pN) c<br />

�<br />

= lim<br />

n→∞ P<br />

� �<br />

= lim<br />

�<br />

n→∞<br />

p∈Pn<br />

p∈Pn<br />

p∈P<br />

(pN) c�<br />

i=1<br />

� � � � −s<br />

1 − P[ pN ] = 1 − p � .<br />

Damit ist (2.5) gezeigt. ✸<br />

Wenn wir einen Würfel unendlich oft werfen, wie groß ist die Wahrscheinlichkeit,<br />

dass unendlich oft (also: immer wieder mal) eine Sechs geworfen wird? Diese Wahrscheinlichkeit<br />

sollte Eins sein, denn sonst gäbe es einen letzten Zeitpunkt, zu dem<br />

eine Sechs fällt und danach nicht wieder. Dies wäre zumindest nicht sehr plausibel.<br />

Man erinnere sich daran, wie wir mit Hilfe des Limes superior (Definition 1.13)<br />

formalisiert hatten, dass unendlich viele Ereignisse aus einer Familie von Ereignissen<br />

eintreten. Der folgende Satz bestätigt nun unsere oben geäußerte Vermutung<br />

und gibt zudem Auskunft darüber, unter welchen Bedingungen wir nicht erwarten<br />

können, dass unendlich viele der Ereignisse eintreten.<br />

Satz 2.7 (Lemma von Borel-Cantelli). Seien A1,A2,...Ereignisse, und sei A∗ =<br />

lim sup An.<br />

n→∞<br />

(i) Ist �∞ n=1 P[An] < ∞, soistP[A∗ ]=0. (Hier kann P ein beliebiges Maß<br />

auf (Ω,A) sein.)<br />

(ii) Ist (An)n∈N unabhängig und �∞ n=1 P[An] =∞,soistP[A∗ ]=1.<br />

Beweis. (i) Da P stetig von oben und σ-subadditiv ist, ist nach Voraussetzung<br />

P[A ∗ ] = lim<br />

n→∞ P<br />

�<br />

∞�<br />

�<br />

∞�<br />

Am ≤ lim P[Am] =0.<br />

n→∞<br />

m=n<br />

p∈P<br />

m=n


52 2 Unabhängigkeit<br />

(ii) Offensichtlich ist log(1 − x) ≤−xfür x ∈ [0, 1]. Nach den de Morgan’schen<br />

Regeln und der Stetigkeit von P von unten gilt daher<br />

P � (A ∗ ) c� �<br />

∞�<br />

= P<br />

∞�<br />

A c �<br />

n = lim<br />

m→∞ P<br />

�<br />

∞�<br />

A c �<br />

n .<br />

m=1 n=m<br />

Nun ist aber für jedes m ∈ N<br />

�<br />

�∞<br />

P<br />

�<br />

=<br />

∞� �<br />

1 − P[An] �<br />

n=m<br />

A c n<br />

n=m<br />

�<br />

�∞<br />

=exp<br />

n=m<br />

log � 1 − P[An] ��<br />

�<br />

≤ exp −<br />

n=m<br />

∞�<br />

n=m<br />

�<br />

P[An] =0. ✷<br />

Beispiel 2.8. Wir betrachten den unendlich oft wiederholten Würfelwurf und fragen<br />

nach der Wahrscheinlichkeit, dass unendlich oft die Sechs auftritt. Es ist<br />

also Ω = {1,...,6} N , A = (2 {1,...,6} ) ⊗N die Produkt-σ-Algebra und P =<br />

� �<br />

e∈{1,...,6}<br />

1<br />

6 δe<br />

� ⊗N das Bernoulli-Maß (vergleiche Satz 1.64). Ferner sei An =<br />

{ω ∈ Ω : ωn = 6} das Ereignis, dass beim n-ten Wurf eine Sechs auftritt.<br />

Dann ist A∗ = lim sup An das Ereignis, dass unendlich oft eine Sechs auftritt (sie-<br />

n→∞<br />

he Beispiel 1.14). Ferner ist (An)n∈N eine unabhängige Familie mit ∞�<br />

P[An] =<br />

∞�<br />

n=1<br />

1<br />

6 = ∞ und deshalb nach dem Lemma von Borel-Cantelli P[A∗ ]=1. ✸<br />

Beispiel 2.9. Wir werfen einen Würfel nur einmal und definieren An für jedes n ∈<br />

N als das Ereignis, dass bei diesem (einen) Wurf eine Sechs geworfen wurde. Man<br />

bemerke, dass A1 = A2 = A3 = ... Dann ist �<br />

n∈N P[An] =∞, jedoch P[A∗ ]=<br />

P[A1] = 1<br />

6 . Dies zeigt, dass in Teil (ii) des Lemmas von Borel-Cantelli nicht ohne<br />

weiteres auf die Unabhängigkeit verzichtet werden kann. ✸<br />

Beispiel 2.10. Sei Λ ∈ (0, ∞) und 0 ≤ λn ≤ Λ für n ∈ N. Ferner seien Xn, n ∈ N,<br />

Poisson-verteilte Zufallsvariablen mit Parametern λn. Dann gilt<br />

Es ist nämlich<br />

∞�<br />

P[Xn ≥ n] =<br />

n=1<br />

P � Xn ≥ n für unendlich viele n � =0.<br />

=<br />

∞�<br />

n=1 m=n<br />

∞�<br />

∞�<br />

P[Xn = m] =<br />

m�<br />

e<br />

m=1 n=1<br />

−λn λmn m! ≤<br />

∞�<br />

m=1 n=1<br />

∞�<br />

m=1<br />

n=1<br />

m�<br />

P[Xn = m]<br />

m Λm<br />

m! = ΛeΛ < ∞. ✸


2.1 Unabhängigkeit von Ereignissen 53<br />

Da im obigen Satz, zumindest im Falle unabhängiger Ereignisse, nur die Wahrscheinlichkeiten<br />

P[A∗ ]=0und P[A∗ ]=1auftreten können, zählt das Lemma<br />

von Borel-Cantelli zu den so genannten 0-1 Gesetzen. Wir werden später weitere<br />

0-1 Gesetze kennen lernen (siehe beispielsweise Satz 2.37).<br />

Wir wollen jetzt den Begriff der Unabhängigkeit von Familien von Ereignissen auf<br />

Familien von Ereignissystemen ausdehnen.<br />

Definition 2.11 (Unabhängigkeit von Mengensystemen). Sei I eine beliebige<br />

Indexmenge und Ei ⊂A für jedes i ∈ I. Die Familie (Ei)i∈I heißt unabhängig,<br />

falls für jede endliche Teilmenge J ⊂ I und für jede Wahl von Ej ∈Ej, j ∈ J,<br />

gilt, dass<br />

�<br />

�<br />

�<br />

P = �<br />

P[Ej]. (2.6)<br />

j∈J<br />

Ej<br />

Beispiel 2.12. Sei (Ω,A, P) wie in Beispiel 2.4 der Produktraum der unendlichen<br />

Wiederholung des Experiments mit Ausgängen in der endlichen Menge E mit<br />

Wahrscheinlichkeitsvektor p =(pe)e∈E. Setze für i ∈ N<br />

j∈J<br />

Ei = � {ω ∈ Ω : ωi ∈ A} : A ⊂ E � .<br />

Dann ist für jede Wahl von Ai ∈Ei, i ∈ N, die Familie (Ai)i∈N unabhängig, also<br />

ist (Ei)i∈N unabhängig. ✸<br />

Satz 2.13. (i) Sei I endlich, und für jedes i ∈ I sei Ei ⊂Amit Ω ∈Ei. Dann<br />

gilt<br />

(Ei)i∈I ist unabhängig ⇐⇒ (2.6) gilt für J = I.<br />

(ii) (Ei)i∈I ist unabh. ⇐⇒ � (Ej)j∈J ist unabh. für alle endlichen J ⊂ I � .<br />

(iii) Ist (Ei ∪ {∅}) ∩-stabil, dann gilt<br />

(Ei)i∈I ist unabhängig ⇐⇒ (σ(Ei))i∈I ist unabhängig.<br />

(iv) Sei K eine beliebige Menge und (Ik)k∈K paarweise � �<br />

disjunkte Teilmengen<br />

von I.Ist(Ei)i∈Iunabhängig, dann ist auch i∈Ik Ei<br />

�<br />

k∈K unabhängig.<br />

Beweis. (i) ” =⇒ “ Dies ist trivial.<br />

(i) ” ⇐= “ Für J ⊂ I und j ∈ I \ J wähle Ej = Ω.<br />

(ii) Dies ist trivial.<br />

(iii) ” ⇐= “ Dies ist trivial.


54 2 Unabhängigkeit<br />

(iii) ” =⇒ “ Sei J ⊂ I endlich. Wir zeigen: Für je zwei endliche Mengen J und<br />

J ′ mit J ⊂ J ′ ⊂ I gilt<br />

�<br />

�<br />

P<br />

i∈J ′<br />

Ei<br />

�<br />

= �<br />

�<br />

Ei ∈ σ(Ei), falls i ∈ J,<br />

P[Ei] für jede Wahl<br />

Ei ∈Ei, falls i ∈ J ′ \ J.<br />

i∈J ′<br />

(2.7)<br />

Mit J ′ = J ist dies genau die zu zeigende Aussage.<br />

Wir führen den Beweis von (2.7) durch vollständige Induktion nach #J.Für #J =<br />

0 gilt (2.7) nach Voraussetzung des Satzes.<br />

Es gelte nun (2.7) für jedes J mit #J = n und jedes endliche J ′ ⊃ J. Sei solch ein<br />

J gewählt und j ∈ I \ J.SeiJ ′ ⊃ ˜ J := J ∪{j}. Wir zeigen nun die Gültigkeit von<br />

(2.7) mit ˜ J statt mit J.Wegen# ˜ J = n +1ist damit der Induktionsschritt gezeigt.<br />

Sei Ei ∈ σ(Ei) für jedes i ∈ J und Ei ∈Eifür jedes i ∈ J ′ \ (J ∪{j}). Wir<br />

definieren Maße μ und ν auf (Ω,A) durch<br />

�<br />

�<br />

�<br />

μ : Ej ↦→ P<br />

und ν : Ej ↦→ �<br />

P[Ei].<br />

i∈J ′<br />

Ei<br />

Nach Induktionsvoraussetzung (2.7) gilt μ(Ej) =ν(Ej) für jedes Ej ∈Ej∪{∅,Ω}.<br />

Da Ej ∪ {∅} schnittstabil ist, gilt nach Lemma 1.42 auch μ(Ej) =ν(Ej) für jedes<br />

Ej ∈ σ(Ej), das heißt, es gilt (2.7) mit J ∪{j} statt J.<br />

(iv) Dies ist trivial, weil (2.6) nur für J ⊂ I mit<br />

i∈J ′<br />

#(J ∩ Ik) ≤ 1 für jedes k ∈ K,<br />

nachgewiesen werden muss. ✷<br />

2.2 Unabhängigkeit von Zufallsvariablen<br />

Nachdem wir Unabhängigkeit von Ereignissen behandelt haben, wollen wir auch<br />

Unabhängigkeit von Zufallsvariablen betrachten. Auch hier läuft die Definition<br />

auf eine Produktformel hinaus. Formal können wir jedoch die Unabhängigkeit der<br />

von Zufallsvariablen erzeugten σ-Algebren als Definition heranziehen. Wir können<br />

dann Verteilungen von Summen unabhängiger Zufallsvariablen vermittels Faltung<br />

ausrechnen. Da wir an dieser Stelle noch keinen allgemeinen Integralbegriff zur<br />

Verfügung haben, bringen wir die Faltung zunächst nur für Zufallsvariablen mit<br />

ganzzahligen Werten.<br />

Sei I eine beliebige Indexmenge, und für jedes i ∈ I sei (Ωi, Ai) ein Messraum<br />

sowie Xi :(Ω,A) → (Ωi, Ai) eine Zufallsvariable mit erzeugter σ-Algebra<br />

σ(Xi) =X −1<br />

i (Ai).


2.2 Unabhängigkeit von Zufallsvariablen 55<br />

Definition 2.14 (Unabhängigkeit von Zufallsvariablen). Die Familie (Xi)i∈I<br />

von Zufallsvariablen heißt unabhängig, falls die Familie (σ(Xi))i∈I von σ-<br />

Algebren unabhängig ist.<br />

Wir schreiben, dass (Xi)i∈I ” u.i.v.“ ist, für ” unabhängig und identisch verteilt“<br />

(englisch: i.i.d.“ für independent and identically distributed“), falls (Xi)i∈I un-<br />

” ”<br />

abhängig ist und PXi = PXj für alle i, j ∈ I gilt.<br />

Bemerkung 2.15. (i) Ist ( Ãi)i∈I eine unabhängige Familie von σ-Algebren und<br />

ist jedes Xi messbar bezüglich Ãi – Ai, soist(Xi)i∈I unabhängig. Dies ist<br />

klar, weil σ(Xi) ⊂ Ãi, also die Bedingung an die Unabhängigkeit von (Xi)i∈I<br />

schwächer ist als die Bedingung an die Unabhängigkeit von ( Ãi)i∈I.<br />

(ii) Für jedes i ∈ I sei (Ω ′ i , A′ i ) ein weiterer Messraum, sowie fi :(Ωi, Ai) →<br />

(Ω ′ i , A′ i ) eine messbare Abbildung. Ist (Xi)i∈I unabhängig, so ist (fi ◦ Xi)i∈I un-<br />

abhängig. Diese Aussage ist ein Spezialfall von (i), weil fi◦Xi messbar ist bezüglich<br />

σ(Xi) – A ′ i (siehe Satz 1.80). ✸<br />

Satz 2.16 (Unabhängigkeit von Erzeugern). Für jedes i ∈ I sei Ei ⊂Ai ein<br />

schnittstabiler Erzeuger von Ai.Ist(X −1<br />

i (Ei))i∈I unabhängig, so ist (Xi)i∈I unabhängig.<br />

Beweis. Nach Satz 1.81(iii) ist X −1<br />

i (Ei) ist ein schnittstabiler Erzeuger der σ-<br />

Algebra X −1<br />

i (Ai) =σ(Xi). Mit Satz 2.13 folgt die Aussage. ✷<br />

Beispiel 2.17. Sei E eine höchstens abzählbare Menge, und seien (Xi)i∈I Zufallsvariablen<br />

mit Werten in (E,2E ). In diesem Falle ist (Xi)i∈I genau dann unabhängig,<br />

wenn für jede endliche Teilmenge J ⊂ I und jede Wahl von xj ∈ E,<br />

j ∈ J, gilt, dass<br />

P � Xj = xj für jedes j ∈ J � = �<br />

P[Xj = xj].<br />

Dies ist klar, weil � {x} : x ∈ E � ∪ {∅} ein schnittstabiler Erzeuger von 2E ist,<br />

also � X −1<br />

i ({xi}) : xi ∈ E � ∪ {∅} ein schnittstabiler Erzeuger von σ(Xi) ist<br />

(Satz 1.81). ✸<br />

Beispiel 2.18. Sei E eine endliche Menge und p =(pe)e∈E ein Wahrscheinlichkeitsvektor.<br />

Wir wollen das zu E und p gehörige Zufallsexperiment unendlich oft<br />

unabhängig wiederholen (siehe Beispiel 1.40 und Satz 1.64). Sei Ω = EN der unendliche<br />

Produktraum und A die von den endlichen Zylindermengen (siehe (1.8))<br />

erzeugte σ-Algebra, sowie P = ��<br />

e∈E peδe<br />

�⊗N das Bernoulli-Maß. Ferner sei für<br />

jedes n ∈ N<br />

j∈J


56 2 Unabhängigkeit<br />

Xn : Ω → E, (ωm)m∈N ↦→ ωn,<br />

die Projektion auf die n-te Koordinate. Mit anderen Worten: Zu jedem Elementarereignis<br />

ω ∈ Ω liefert Xn(ω) das Ergebnis des n-ten Experiments. Dann gilt nach<br />

(2.4) (in Beispiel 2.4) für n ∈ N und x ∈ En P � Xj = xj für jedes j =1,...,n � = P � [x1,...,xn] � �<br />

�n<br />

= P X −1<br />

�<br />

j ({xj})<br />

=<br />

n�<br />

j=1<br />

P � X −1<br />

j ({xj}) � =<br />

j=1<br />

n�<br />

P[Xj = xj],<br />

sowie P[Xj = xj] =pxj . Nach Satz 2.13(i) sind also (X1,...,Xn) unabhängig<br />

und nach Satz 2.13(ii) auch (Xn)n∈N. ✸<br />

Speziell haben wir den folgenden Satz gezeigt.<br />

Satz 2.19. Sei E eine endliche Menge und (pe)e∈E ein Wahrscheinlichkeitsvektor<br />

auf E. Dann existiert ein Wahrscheinlichkeitsraum (Ω,A, P) und eine unabhängige<br />

Familie (Xn)n∈N von E-wertigen Zufallsvariablen auf (Ω,A, P) mit<br />

P[Xn = e] =pe für jedes e ∈ E.<br />

Wir werden später sehen, dass wir auf die Endlichkeit von E verzichten können<br />

und auch unterschiedliche Verteilungen zulassen können. Für den Moment gibt uns<br />

dieser Satz aber genügend Beispiele für abzählbare Familien von unabhängigen Zufallsvariablen<br />

an die Hand.<br />

Wir wollen nun einfache Kriterien zur Prüfung der Unabhängigkeit von Zufallsvariablen<br />

herleiten, die sich mit Hilfe von Verteilungsfunktionen beziehungsweise<br />

Dichten ausdrücken lassen.<br />

Definition 2.20. Für jedes i ∈ I sei Xi eine reelle Zufallsvariable. Für jede endliche<br />

Teilmenge J ⊂ I sei<br />

FJ := F (Xj)j∈J : R J → [0, 1],<br />

x ↦→ P � Xj ≤ xj für jedes j ∈ J � �<br />

�<br />

= P<br />

j∈J<br />

j=1<br />

X −1�<br />

j (−∞,xj] ��<br />

.<br />

Dann heißt FJ die gemeinsame Verteilungsfunktion von (Xj)j∈J. Das W-Maß<br />

P (Xj)j∈J auf R J heißt gemeinsame Verteilung von (Xj)j∈J.<br />

Satz 2.21. Eine Familie (Xi)i∈I reeller Zufallsvariablen ist genau dann unabhängig,<br />

wenn für jedes endliche J ⊂ I und jedes x =(xj)j∈J ∈ RJ gilt, dass<br />

FJ(x) = �<br />

F {j}(xj). (2.8)<br />

j∈J


2.2 Unabhängigkeit von Zufallsvariablen 57<br />

Beweis. Das Mengensystem {(−∞,b], b∈ R} ist ein schnittstabiler Erzeuger der<br />

Borel’schen σ-Algebra B(R) (siehe Satz 1.23). Die Gleichung (2.8) besagt nun aber,<br />

dass für jede Wahl von reellen Zahlen (xi)i∈I die Ereignisse (X −1 ((−∞,xi]))i∈I<br />

unabhängig sind. Nach Satz 2.16 folgt daher die Aussage dieses Satzes. ✷<br />

Korollar 2.22. Zusätzlich zur Situation von Satz 2.21 nehmen wir an, dass jedes FJ<br />

eine stetige Dichte fJ<br />

fJ : R<br />

= f (Xj)j∈J hat, das heißt, es gibt eine stetige Abbildung<br />

J → [0, ∞) mit<br />

� xj1 � xjn<br />

FJ(x) = dt1 ··· dtn fJ(t1,...,tn) für jedes x ∈ R<br />

−∞<br />

−∞<br />

J ,<br />

(wobei J = {j1,...,jn}). Dann ist die Familie (Xi)i∈I genau dann unabhängig,<br />

wenn für jedes endliche J ⊂ I gilt<br />

fJ(x) = �<br />

fj(xj) für jedes x ∈ R J . (2.9)<br />

j∈J<br />

Korollar 2.23. Seien n ∈ N und μ1,...,μn W-Maße auf (R, B(R)). Dann existiert<br />

ein W-Raum (Ω,A, P) und eine unabhängige Familie von Zufallsvariablen<br />

(Xi)i=1,...,n auf (Ω,A, P) mit PXi = μi für jedes i =1,...,n.<br />

Beweis. Sei Ω = Rn und A = B(Rn ) sowie P = �n i=1 μi das Produktmaß der μi<br />

(siehe Satz 1.61). Ferner sei Xi : Rn → R, (x1,...,xn) ↦→ xi die Projektion auf<br />

die i-te Koordinate für jedes i =1,...,n.Dannistfür jedes i =1,...,n<br />

F {i}(x) = P[Xi ≤ x] = P � R i−1 × (−∞,x] × R n−i−1�<br />

� � �<br />

� �<br />

= μi (−∞,x] · μj(R) = μi (−∞,x] .<br />

j�=i<br />

Also gilt tatsächlich PXi = μi. Ferner ist für x1,...,xn ∈ R<br />

� n �<br />

F {1,...,n}(x1,...,xn) =P × (−∞,xi] =<br />

i=1<br />

n�<br />

i=1<br />

�<br />

μi (−∞,xi] � =<br />

n�<br />

F {i}(xi).<br />

Nach Satz 2.21 (und Satz 2.13(i)) folgt die Unabhängigkeit von (Xi)i=1,...,n. ✷<br />

Beispiel 2.24. Seien X1,...,Xn unabhängige, exponentialverteilte Zufallsvariablen<br />

mit Parametern θ1,...,θn ∈ (0, ∞). DannistF {i}(x) = � x<br />

0 θi exp(−θit) dt =<br />

1 − exp(−θix) für x ≥ 0 und daher<br />

�<br />

F {1,...,n} (x1,...,xn) � =<br />

n� � −θixi 1 − e � .<br />

Betrachte nun die Zufallsvariable Y =max(X1,...,Xn). Dannist<br />

i=1<br />

i=1


58 2 Unabhängigkeit<br />

FY (x) =P � Xi ≤ x für jedes i =1,...,n �<br />

� �<br />

= F {1,...,n} (x,...,x) =<br />

n� � −θix<br />

1 − e � .<br />

Für die Zufallsvariable Z := min(X1,...,Xn) hat die Verteilungsfunktion eine<br />

schöne geschlossene Form<br />

i=1<br />

FZ(x) =1− P[Z >x]<br />

=1− P � Xi >x für jedes i =1,...,n �<br />

n�<br />

=1− e −θix =1− exp � − (θ1 + ...+ θn) x � .<br />

i=1<br />

Mit anderen Worten: Z ist exponentialverteilt mit Parameter θ1 + ...+ θn. ✸<br />

Beispiel 2.25. Seien μi ∈ R und σ2 i > 0, i ∈ I, sowie(Xi)i∈Ireell mit gemeinsamen<br />

Dichtefunktionen (für endliches J ⊂ I)<br />

fJ(x) = �<br />

�<br />

− � (xj − μj) 2 �<br />

für x ∈ R J .<br />

j∈J<br />

� � 1<br />

2 − 2 2πσj exp<br />

Dann sind die (Xi)i∈I unabhängig und normalverteilt mit Parametern (μi,σ2 i ).<br />

Für jedes endliche I = {i1,...,in} (mit paarweise unterschiedlichen i1,...,in)<br />

ist der Vektor Y =(Xi1 ,...,Xin ) n-dimensional normalverteilt mit μ = μI :=<br />

(μi1 ,...,μin ) und Σ = ΣI die Diagonalmatrix mit Einträgen σ2 i1 ,...,σ2 in (vergleiche<br />

Beispiel 1.105(ix)). ✸<br />

Satz 2.26. Sei K eine beliebige Menge und Ik, k ∈ K, beliebige paarweise disjunkte<br />

Indexmengen sowie I = �<br />

Ik.<br />

k∈K<br />

Ist die Familie (Xi)i∈I unabhängig, dann sind auch die σ-Algebren (σ(Xj,j ∈<br />

Ik))k∈K unabhängig.<br />

Beweis. Sei für k ∈ K<br />

�<br />

�<br />

Zk =<br />

j∈Ik<br />

j∈J<br />

2σ 2 j<br />

�<br />

Aj : Aj ∈ σ(Xj), #{j ∈ Ik : Aj �= Ω} < ∞<br />

der Ring der endlichdimensionalen Zylinder. Offenbar ist Zk schnittstabil und<br />

σ(Zk) =σ(Xj,j ∈ Ik). Also reicht es nach Satz 2.13(iii) zu zeigen, dass (Zk)k∈K<br />

unabhängig ist. Nach Satz 2.13(ii) können wir sogar annehmen, dass K endlich ist.<br />

Für k ∈ K seien nun Bk ∈Zk und Jk ⊂ Ik endlich mit Bk = �<br />

gewisse Aj ∈ σ(Xj). Setze J = �<br />

k∈K Jk.Dannist<br />

j∈Jk Aj für


�<br />

�<br />

P<br />

k∈K<br />

Bk<br />

�<br />

2.2 Unabhängigkeit von Zufallsvariablen 59<br />

�<br />

�<br />

�<br />

= P Aj = �<br />

P[Aj] = � �<br />

P[Aj] = �<br />

P[Bk]. ✷<br />

j∈J<br />

j∈J<br />

k∈K j∈Jk<br />

Beispiel 2.27. Sind (Xn)n∈N unabhängige, reelle Zufallsvariablen, dann sind auch<br />

(Yn)n∈N =(X2n − X2n−1)n∈N unabhängig. In der Tat ist für jedes n ∈ N die<br />

Zufallsvariable Yn schon messbar bezüglich σ(X2n,X2n−1) nach Satz 1.91, und<br />

(σ(X2n,X2n−1))n∈N ist unabhängig nach Satz 2.26. ✸<br />

Beispiel 2.28. Seien (Xm,n) (m,n)∈N 2 unabhängige Bernoulli-Zufallsvariablen mit<br />

Parameter p ∈ (0, 1). Sei<br />

Ym := inf � n ∈ N : Xm,n =1 � − 1<br />

die Wartezeit auf den ersten ” Erfolg“ in der m-ten Zeile der Matrix (Xm,n)m,n.<br />

Dann sind (Ym)m∈N unabhängige, geometrisch verteilte Zufallsvariablen mit Parameter<br />

p (siehe Beispiel 1.105(iii)). Denn:<br />

k+1 �<br />

{Ym ≤ k} =<br />

l=1<br />

k∈K<br />

{Xm,l =1}∈σ(Xm,l, l=1,...,k+1)⊂ σ(Xm,l, l∈ N).<br />

Also ist Ym messbar bezüglich σ(Xm,l,l ∈ N), und damit ist (Ym)m∈N unabhängig.<br />

Ferner ist<br />

P[Ym >k]=P[Xm,l =0,l=1,...,k+1]=<br />

k+1 �<br />

l=1<br />

P[Xm,l =0]=(1− p) k+1 .<br />

Es folgt P[Ym = k] =P[Ym >k− 1] − P[Ym >k]=p(1 − p) k . ✸<br />

Definition 2.29 (Faltung). Seien μ und ν W-Maße auf (Z, 2 Z ).Wirdefinieren die<br />

Faltung μ ∗ ν als das W-Maß auf (Z, 2 Z ) mit<br />

(μ ∗ ν)({n}) =<br />

∞�<br />

m=−∞<br />

μ({m}) ν({n − m}).<br />

Wir definieren die n-te Faltungspotenz rekursiv durch μ ∗1 = μ und<br />

μ ∗(n+1) = μ ∗n ∗ μ.<br />

Bemerkung 2.30. Es gilt μ ∗ ν = ν ∗ μ ✸<br />

Satz 2.31. Sind X und Y unabhängige Z-wertige Zufallsvariablen, so gilt<br />

PX+Y = PX ∗ PY .


60 2 Unabhängigkeit<br />

Beweis. Für jedes n ∈ Z gilt<br />

PX+Y ({n}) =P[X + Y = n]<br />

�<br />

�<br />

= P<br />

m∈Z<br />

�<br />

�<br />

{X = m}∩{Y = n − m}<br />

�<br />

= �<br />

P � {X = m}∩{Y = n − m} �<br />

m∈Z<br />

= �<br />

PX[{m}] PY [{n − m}] = (PX∗PY )[{n}]. ✷<br />

m∈Z<br />

Auf Grund dieses Satzes liegt es nahe, die Faltung von zwei Wahrscheinlichkeitsmaßen<br />

auf R n (oder allgemeiner: auf abelschen Gruppen) als die Verteilung der<br />

Summe zweier unabhängiger Zufallsvariablen mit den entsprechenden Verteilungen<br />

zu definieren. Wir werden später eine andere Definition kennen lernen, die natürlich<br />

zu dieser äquivalent ist, jedoch auf den Integralbegriff zurückgreift, der hier noch<br />

nicht verfügbar ist (siehe Definition 14.17).<br />

Definition 2.32 (Faltung von Maßen). Seien μ und ν W-Maße auf R n , und seien<br />

X und Y unabhängige Zufallsvariablen mit PX = μ und PY = ν. Dann definieren<br />

wir die Faltung von μ und ν durch μ ∗ ν = PX+Y .<br />

Iterativ definieren wir die Faltungspotenzen μ ∗k für k ∈ N, sowie μ ∗0 = δ0.<br />

Beispiel 2.33. Seien X und Y unabhängig und Poisson-verteilt mit Parametern<br />

μ, λ ≥ 0. Dann gilt<br />

P[X + Y = n] =e −μ e −λ<br />

n�<br />

m=0<br />

−(μ+λ) 1<br />

= e<br />

n!<br />

μm λ<br />

m!<br />

n−m<br />

(n − m)!<br />

n�<br />

� �<br />

n<br />

μ<br />

m<br />

m λ n−m −(μ+λ) (μ + λ)n<br />

= e .<br />

n!<br />

m=0<br />

Also ist Poiμ ∗ Poiλ =Poiμ+λ. ✸<br />

Übung 2.2.1. Seien X und Y unabhängige Zufallsvariablen mit X ∼ exp θ und<br />

Y ∼ exp ρ für gewisse θ, ρ > 0. Man zeige:<br />

P[X


2.3 Kolmogorov’sches 0-1 Gesetz 61<br />

X := � −2log(U) cos(2πV ) und Y := � −2log(U) sin(2πV ).<br />

Man zeige: X und Y sind unabhängig und N0,1-verteilt.<br />

Hinweis: Man berechne zunächst die Verteilung von � −2log(U) und benutze die<br />

Transformationsformel für Dichten (Satz 1.101) sowie Polarkoordinatentransformation.<br />

♣<br />

2.3 Kolmogorov’sches 0-1 Gesetz<br />

Mit dem Lemma von Borel-Cantelli haben wir bereits ein 0-1 Gesetz für unabhängige<br />

Ereignisse kennen gelernt. Wir kommen jetzt zu einem weiteren 0-1 Gesetz<br />

für unabhängige Ereignisse, beziehungsweise σ-Algebren. Um dies zu formulieren,<br />

müssen wir zunächst den Begriff der terminalen σ-Algebra einführen.<br />

Definition 2.34 (Terminale σ-Algebra). Sei I eine abzählbar unendliche Indexmenge<br />

und (Ai)i∈I eine Familie von σ-Algebren. Dann heißt<br />

T � � �<br />

� � �<br />

(Ai)i∈I := σ Aj<br />

J⊂I<br />

#J


62 2 Unabhängigkeit<br />

Beweis. ” ⊂“ Dies ist klar.<br />

” ⊃“ Sei Jn ↑ I mit endlichen Mengen Jn ⊂ I, n ∈ N, und sei J ⊂ I endlich.<br />

Dann existiert ein N ∈ N mit J ⊂ JN , und es ist<br />

∞�<br />

N�<br />

n=1<br />

� � �<br />

σ<br />

Am<br />

m∈I\Jn<br />

⊂<br />

n=1<br />

� � �<br />

σ<br />

Am<br />

m∈I\Jn<br />

� � � � �<br />

= σ<br />

Am ⊂ σ<br />

m∈I\JN<br />

m∈I\J Am<br />

�<br />

.<br />

Die linke Seite hängt nicht von J ab, also können wir den Schnitt über alle endlichen<br />

J bilden und erhalten<br />

∞� � � �<br />

σ<br />

Am ⊂T<br />

m∈I\Jn<br />

� �<br />

(Ai)i∈I . ✷<br />

n=1<br />

Es ist vielleicht nicht so ohne weiteres klar, dass es überhaupt noch interessante Ereignisse<br />

in der terminalen σ-Algebra gibt. Vielleicht ist nicht einmal a priori klar,<br />

dass nicht etwa T = {∅,Ω} gilt. Daher geben wir jetzt erst einmal einfache Beispiele<br />

für terminale Ereignisse beziehungsweise terminal messbare Zufallsvariablen<br />

an. In Abschnitt 2.4 werden wir ein weiteres Beispiel kennen lernen.<br />

Beispiel 2.36. (i) Seien A1,A2,... Ereignisse. Dann sind die Ereignisse A∗ :=<br />

lim inf<br />

n→∞ An und A∗ := lim sup An in T ((An)n∈N). Setzen wir nämlich Bn :=<br />

n→∞<br />

∞�<br />

Am für n ∈ N, dann gilt Bn ↑ A∗ und Bn ∈ σ((Am)m≥N ) für jedes n ≥ N.<br />

m=n<br />

Also ist A∗ ∈ σ((Am)m≥N) für jedes N ∈ N und damit A∗ ∈T((An)n∈N). Für<br />

A∗ geht dies analog.<br />

(ii) Ist (Xn)n∈N eine Familie R-wertiger Zufallsvariablen, so sind auch die Abbildungen<br />

X∗ := lim infn→∞ Xn und X∗ := lim supn→∞ Xn messbar bezüglich<br />

T ((Xn)n∈N). In der Tat: Setzen wir Yn := supm≥n Xm, soistfür jedes N ∈ N<br />

die Zufallsvariable X∗ = infn≥1Yn = infn≥NYnmessbar bezüglich TN :=<br />

σ(Xn, n≥ N), also auch bezüglich T ((Xn)n∈N) = �∞ n=1 Tn.<br />

Für X∗ geht dies analog.<br />

(iii) Seien (Xn)n∈N reellwertige Zufallsvariablen. Dann sind die Cesàro-Limiten<br />

lim inf<br />

n→∞<br />

1<br />

n<br />

n�<br />

i=1<br />

Xi und lim sup<br />

n→∞<br />

messbar bezüglich T ((Xn)n∈N). Um dies zu zeigen, wählen wir ein N ∈ N und<br />

beachten, dass<br />

n�<br />

n�<br />

1<br />

1<br />

X∗ := lim inf Xi = lim inf Xi<br />

n→∞ n<br />

n→∞ n<br />

i=1<br />

1<br />

n<br />

n�<br />

i=1<br />

i=N<br />

Xi


2.3 Kolmogorov’sches 0-1 Gesetz 63<br />

σ((Xn)n≥N )-messbar ist. Da dies für jedes N gilt, ist X∗ auch T ((Xn)n∈N)messbar.<br />

Für den Limes superior geht das analog. ✸<br />

Satz 2.37 (Kolmogorov’sches 0-1 Gesetz). Sei I eine abzählbar unendliche Indexmenge,<br />

und sei (Ai)i∈I eine unabhängige Familie von σ-Algebren. Dann ist<br />

die terminale σ-Algebra P-trivial, das heißt, es gilt<br />

P[A] ∈{0, 1} für jedes A ∈T((Ai)i∈I).<br />

Beweis. Es reicht, den Fall I = N zu betrachten. Sei A ∈T := T � �<br />

(An)n∈N .Für<br />

n ∈ N sei<br />

�<br />

�n<br />

�<br />

Fn := Ak : A1 ∈A1,...,An ∈An .<br />

k=1<br />

Dann ist F := �∞ n=1 Fn ein Semiring und σ(F) =σ( �<br />

n∈N An). InderTatistfür<br />

jedes n ∈ N und An ∈An auch An ∈F, also σ( �<br />

n∈N An) ⊂ σ(F). Andererseits<br />

ist Fm ⊂ σ( �m n=1 An) ⊂ σ( �<br />

n∈N An) für jedes m ∈ N, also F⊂σ( �<br />

n∈N An).<br />

Sei A ∈T((An)n∈N), und sei ε>0. Nach dem Approximationssatz für Maße<br />

(Satz 1.65) existiert ein n ∈ N und ein Fn = ˜ F1 ⊎ ...⊎ ˜ FN mit ˜ F1,..., ˜ FN ∈Fn<br />

und mit P[A △ Fn] P[A \ Fn] =P[A ∩ (Ω \ Fn)] = P[A](1 − P[Fn]) ≥ P[A](1 − P[A] − ε).<br />

Da ε>0 beliebig war, folgt 0=P[A](1 − P[A]). ✷<br />

Korollar 2.38. Sei (An)n∈N eine Folge unabhängiger Ereignisse. Dann gilt<br />

� �<br />

� �<br />

P<br />

∈{0, 1} und P<br />

∈{0, 1}.<br />

lim sup An<br />

n→∞<br />

lim inf<br />

n→∞ An<br />

Beweis. Dies ist im Grunde eine Schlussfolgerung aus dem Lemma von Borel-<br />

Cantelli. Allerdings folgt es auch direkt aus dem Kolmogorov’schen 0-1 Gesetz,<br />

da Limes superior und Limes inferior in der terminalen σ-Algebra liegen. ✷<br />

Korollar 2.39. Sei (Xn)n∈N eine unabhängige Familie von R-wertigen Zufallsvariablen.<br />

Dann sind X∗ := lim infn→∞ Xn und X∗ := lim supn→∞ Xn fast sicher<br />

konstant, das heißt, es gibt x∗,x∗ ∈ R mit P[X∗ = x∗] =1und P[X∗ = x∗ ]=1.<br />

Falls alle Xi sogar reellwertig sind, so sind auch die Cesàro-Limiten<br />

fast sicher konstant.<br />

lim inf<br />

n→∞<br />

1<br />

n<br />

n�<br />

i=1<br />

Xi und lim sup<br />

n→∞<br />

1<br />

n<br />

n�<br />

i=1<br />

Xi


64 2 Unabhängigkeit<br />

Beweis. Sei X∗ := lim inf<br />

n→∞ Xn. Für jedes x ∈ R ist {X∗ ≤ x} ∈T((Xn)n∈N),<br />

also P[X∗ ≤ x] ∈{0, 1}. Setze<br />

Ist x∗ = ∞, so ist offenbar<br />

x∗ := inf{x ∈ R : P[X∗ ≤ x] =1}∈R.<br />

P[X∗ < ∞] = lim<br />

n→∞ P[X∗ ≤ n] =0.<br />

Ist x∗ ∈ R, soist<br />

P[X∗ ≤ x∗] = lim<br />

n→∞ P<br />

�<br />

X∗ ≤ x∗ + 1<br />

�<br />

=1<br />

n<br />

und<br />

P[X∗ −∞] = lim<br />

n→∞ P[X∗ > −n] =0.<br />

Für den Limes superior sowie für die Cesàro-Limiten geht dies analog. ✷<br />

Übung 2.3.1. Man zeige: Ist (Xn)n∈N eine unabhängige Familie von Zufallsvariablen<br />

mit P[Xn = −1] = P[Xn = +1] = 1<br />

2 , und ist Sn = X1 + ...+ Xn für jedes<br />

n ∈ N, soistlim supn→∞ Sn = ∞ fast sicher. ♣<br />

2.4 Beispiel: Perkolation<br />

Wir betrachten das d-dimensionale Gitter Z d , wobei jeder Punkt durch je eine Kante<br />

mit seinen 2d nächsten Nachbarpunkten verbunden ist. Sind x, y ∈ Z d nächste<br />

Nachbarn, das heißt �x − y�2 = 1, so schreiben wir k = 〈x, y〉 = 〈y, x〉 für<br />

die Kante, die x und y verbindet. Formal ist die Kantenmenge eine Teilmenge der<br />

zweielementigen Teilmengen von Z d :<br />

K = � {x, y} : x, y ∈ Z d mit�x − y�2 =1 � .<br />

Etwas allgemeiner ist ein (ungerichteter) Graph G ein Paar G =(V,K), wobei<br />

V eine Menge ist (die Menge der Knoten oder Punkte des Graphen) und K ⊂<br />

{{x, y} : x, y ∈ V, x �= y} eine Teilmenge aller zweielementigen Teilmengen von<br />

V (die Menge der Kanten).<br />

Da wir unter einer Kante intuitiv eine Verbindung zwischen zwei Punkten x und<br />

y verstehen (und nicht das ungeordnete Paar {x, y}), verwenden wir ein anderes<br />

Symbol als die Mengenklammern und schreiben 〈x, y〉 statt {x, y}.


2.4 Beispiel: Perkolation 65<br />

Dieses Gitter ist für uns der Ausgangspunkt für ein stochastisches Modell eines<br />

porösen Mediums. Wir stellen uns die Kanten als Röhren vor, entlang derer Wasser<br />

fließen kann. Nun soll das Medium allerdings nicht völlig homogen wasserdurchlässig<br />

sein, sondern eine amorphe Struktur besitzen, etwa wie Bimsstein. Zu<br />

diesem Zweck wollen wir zufällig einen gewissen Anteil 1 − p (wobei p ∈ [0, 1] ein<br />

Parameter ist) der Kanten zerstören, sodass das Wasser nur durch die verbliebenen<br />

Kanten fließen kann. Die Frage, die sich stellt, ist, bei welchen Werten von p die intakten<br />

Röhren unendlich große verbundene Systeme bilden und bei welchen Werten<br />

alle verbundenen Systeme nur endliche Größe haben.<br />

Wir kommen jetzt zur formalen Beschreibung des Modells. Wir wählen einen Parameter<br />

p ∈ [0, 1] und eine unabhängige Familie identisch verteilter Zufallsvariablen<br />

(X p<br />

k )k∈K mit X p<br />

k =Berp, also P[X p<br />

k =1]=1−P[Xp k =0]=p für jedes k ∈ K.<br />

Dann definieren wir<br />

K p := {k ∈ K : X p<br />

k =1} (2.10)<br />

als die Menge der intakten (oder offenen) Kanten. Entsprechend nennen wir die Kanten<br />

K \ Kp defekt (oder geschlossen). Auf diese Weise haben wir einen (zufälligen)<br />

Teilgraphen (Zd ,Kp ) von (Zd ,K) hergestellt. Wir nennen (Zd ,K) auch ein Perkolationsmodell<br />

(genauer: ein Modell für Kantenperkolation, im Gegensatz zu<br />

Punktperkolation, wo die einzelnen Punkte geschlossen oder offen sind). Ein (offener)<br />

Pfad (der Länge n) in diesem Teilgraphen ist eine Folge π =(x0,x1,...,xn)<br />

von Punkten in Zd mit 〈xi−1,xi〉 ∈Kp für jedes i =1,...,n. Wir sagen, dass zwei<br />

Punkte x, y ∈ Zd durch einen offenen Pfad verbunden werden können, wenn es ein<br />

n ∈ N und einen offenen Pfad (x0,x1,...,xn) mit x0 = x und xn = y gibt. In diesem<br />

Fall schreiben wir x ←→p y. Offenbar ist ←→p“ eine Äquivalenzrelation, je-<br />

”<br />

doch eine zufällige, weil sie von den Werten der Zufallsvariablen (X p<br />

k )k∈K abhängt.<br />

Für x ∈ Zd nennen wir<br />

C p (x) :={y ∈ Z d : x ←→p y} (2.11)<br />

den (zufälligen) offenen Cluster von x, also die Zusammenhangskomponente von x<br />

in dem Graphen (Z d ,K p ).<br />

Lemma 2.40. Für je zwei Punkte x, y ∈ Z d ist {x←→ py} eine Zufallsvariable.<br />

Insbesondere ist #C p (x) eine Zufallsvariable für jedes x ∈ Z d .<br />

Beweis. Ohne Einschränkung können wir annehmen, dass x =0ist. Wir setzen<br />

fn(y) =1, falls es einen offenen Pfad von 0 nach y der Länge höchstens n gibt, und<br />

fn(y) =0sonst. Offenbar ist fn(y) ↑ {0←→ py}, also reicht es, die Messbarkeit<br />

von fn zu zeigen. Sei Bn := {−n, −n +1,...,n − 1,n} d und Kn := {k ∈<br />

K : k ∩ Bn �= ∅}. DannistYn := (X p<br />

k : k ∈ Kn) :Ω →{0, 1} Kn messbar<br />

(bezüglich 2 ({0,1}Kn )) nach Satz 1.90. Nun ist aber fn eine Funktion von Yn, sagen<br />

wir fn = gn◦Yn für gewisses gn : {0, 1} Kn →{0, 1}. Nach dem Verknüpfungssatz<br />

(Satz 1.80) ist daher fn messbar.<br />

Der Zusatz folgt, weil #C p (x) = �<br />

y∈Z d {x←→ py}. ✷


66 2 Unabhängigkeit<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � �<br />

Abb. 2.1. Perkolation auf einem 15 × 15 Gitter, p =0.42<br />

Definition 2.41. Wir sagen, dass Perkolation eintritt, falls es (wenigstens) einen unendlich<br />

großen, offenen Cluster gibt und nennen<br />

ψ(p) :=P[es gibt einen unendlich großen, offenen Cluster]<br />

� �<br />

= P {#C p �<br />

(x) =∞}<br />

x∈Z d<br />

die Perkolationswahrscheinlichkeit. Wir definieren weiterhin die Funktion<br />

θ(p) :=P[#C p (0) = ∞]<br />

als die Wahrscheinlichkeit, dass der Ursprung in einem unendlich großen, offenen<br />

Cluster liegt.<br />

Auf Grund der Translationsinvarianz des Gitters ist<br />

θ(p) =P[#C p (y) =∞] für jedes y ∈ Z d . (2.12)


2.4 Beispiel: Perkolation 67<br />

Die Grundfrage lautet: Wie groß sind θ(p) und ψ(p) in Abhängigkeit von p?<br />

Wir machen die folgende, intuitiv leicht einsehbare Beobachtung.<br />

Satz 2.42. Die Abbildung [0, 1] → [0, 1], p ↦→ θ(p) ist monoton wachsend.<br />

Beweis. Obwohl die Aussage offensichtlich erscheint, wollen wir einen formalen<br />

Beweis geben, weil er ein wichtiges Beweisprinzip, das der Kopplung, verwendet.<br />

Seien p, p ′ ∈ [0, 1] mit p 0.<br />

Beweis. Ist θ(p) =0, so ist nach (2.12)<br />

ψ(p) ≤ �<br />

P[#C p (y) =∞] = �<br />

θ(p) =0.<br />

y∈Z d<br />

y∈Z d<br />

Sei nun A = �<br />

y∈Zd{#Cp (y) = ∞}. Offenbar ändert es nichts am Eintreten<br />

von A, wenn endlich viele Kanten ihren Zustand verändern. Das heißt A ∈<br />

σ((X p<br />

k ) k∈K\Kn<br />

) für jedes n ∈ N. Nach Satz 2.35 ist A also in der terminalen σ-<br />

Algebra T ((X p<br />

k )k∈K). Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) gilt<br />

also ψ(p) =P[A] ∈{0, 1}. Ist nun θ(p) > 0, so folgt wegen ψ(p) ≥ θ(p) schon<br />

ψ(p) =1. ✷


68 2 Unabhängigkeit<br />

Aufgrund der Monotonie können wir nun die folgende Definition treffen.<br />

Definition 2.44. Der kritische Wert pc für das Auftreten von Perkolation wird definiert<br />

als<br />

pc = inf{p ∈ [0, 1] : θ(p) > 0} = sup{p ∈ [0, 1] : θ(p) =0}<br />

= inf{p ∈ [0, 1] : ψ(p) =1} = sup{p∈ [0, 1] : ψ(p) =0}.<br />

Wir kommen zu einem Hauptsatz dieses Abschnitts.<br />

Satz 2.45. Für d =1 ist pc =1.Für d ≥ 2 ist pc(d) ∈ �<br />

1<br />

2d−1<br />

�<br />

2 , 3 .<br />

Beweis. Sei zunächst d =1und p


2.4 Beispiel: Perkolation 69<br />

Es reicht also, den Fall d =2zu betrachten. Hier zeigen wir pc ≤ 2<br />

3 . Wir geben ein<br />

Konturargument an, das von Peierls für ein Magnetismusmodell (das Ising Modell,<br />

siehe Beispiel 18.21 und speziell (18.13)) entwickelt wurde (siehe [119]).<br />

Für N ∈ N schreiben wir (vergleiche (2.11) mit x =(i, 0))<br />

CN :=<br />

N�<br />

C p� (i, 0) �<br />

i=0<br />

für die Menge der Punkte, die eine offene Verbindung in die Menge {0,...,N}×<br />

{0} haben. Dann ist wegen der Subadditivität der Wahrscheinlichkeit (und wegen<br />

P[#C p� (i, 0) � = ∞] =θ(p) für jedes i ∈ Z)<br />

θ(p) =<br />

1<br />

N +1<br />

N�<br />

P � #C p� (i, 0) � = ∞ � ≥<br />

i=0<br />

1<br />

N +1 P� #CN = ∞ � .<br />

Wir betrachten nun Konturen im dualen Graphen ( ˜ Z 2 , ˜ K), dieCN umschließen,<br />

falls #CN < ∞. Der duale Graph ist dabei definiert durch<br />

˜Z 2 �<br />

1 1<br />

�<br />

= , + Z<br />

2 2<br />

2 ,<br />

�<br />

˜K = {x, y} : x, y ∈ ˜ Z 2 �<br />

, �x − y�2 =1 .<br />

Eine Kante ˜ k im dualen Graphen ( ˜ Z2 , ˜ K) kreuzt also genau eine Kante k in<br />

(Z2 ,K). Wir nennen ˜ k offen, falls k offen ist, und sonst geschlossen. Ein Kreis<br />

γ ist ein selbstüberschneidungsfreier Pfad in ( ˜ Z2 , ˜ K), bei dem Anfangs- und Endpunkt<br />

übereinstimmen. Eine Kontur der Menge CN ist ein minimaler Kreis, der CN<br />

umschließt. Minimal heißt dabei, dass die umschlossene Fläche minimal ist (siehe<br />

Abb. 2.2). Für n ≥ 2N sei<br />

�<br />

�<br />

Γn = γ : γ ist ein Kreis der Länge n und umschließt {0,...,N}×{0} .<br />

Wir wollen eine obere Abschätzung für #Γn angeben. Dafür wählen wir für γ ∈<br />

Γn � einen Punkt � aus γ willkürlich als Startpunkt aus, nämlich den oberen Punkt<br />

1 1 m + 2 , 2 des rechtesten x-Achsendurchgangs von γ (in Abb. 2.2 ist dies der<br />

Punkt � 5+ 1<br />

�<br />

1<br />

2 , 2 ). Offenbar ist m ≥ N und m ≤ n weil der Ursprung von Γn<br />

umschlossen wird. Ausgehend von � m + 1<br />

�<br />

1<br />

2 , 2 gibt es für jede weitere Kante von γ<br />

jeweils höchstens drei Möglichkeiten. Also ist<br />

#Γn ≤ n · 3 n .<br />

Der Kreis γ heißt geschlossen, wenn er nur (in ˜ K) geschlossene Kanten benutzt.<br />

Eine Kontur von CN muss automatisch geschlossen sein und eine Länge größer als<br />

2N haben. Daher gilt für p> 2<br />

3


70 2 Unabhängigkeit<br />

1<br />

0<br />

−1<br />

� � � � � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � � � � �<br />

� � � � � � � � � � � � � � � � � �<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

� � � � � � �<br />

❜ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣<br />

❜ ❜ ❜ ❜ ♣<br />

� � � � � � �<br />

❜ ♣♣♣♣♣♣♣♣♣♣❜<br />

❜ ♣♣♣♣♣♣♣♣♣❜<br />

♣<br />

� � � � � � �<br />

❜ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣<br />

❜ ❜ ❜ ❜ ♣ ❜<br />

� � � � � � �<br />

❜ ❜<br />

� � � � � � �<br />

❜ ❜ ♣♣♣♣♣♣♣♣♣❜<br />

♣<br />

� � � � � � �<br />

❜ ❜ ♣♣♣♣♣♣♣♣♣♣❜<br />

♣ ❜<br />

� � � � � � �<br />

❜ ♣♣♣♣♣♣♣♣♣❜<br />

❜ ❜<br />

� � � � � � �<br />

♣♣♣♣♣♣♣♣♣ ❜ ❜<br />

� � � � � � �<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

−1 0 1 5<br />

P[#CN < ∞] =<br />

≤<br />

Abb. 2.2. Kontur des Clusters C5<br />

∞�<br />

n=2N<br />

∞�<br />

n=2N<br />

P � �<br />

es gibt einen geschlossenen Kreis γ ∈ Γn<br />

n · � 3(1 − p) � n N→∞<br />

−→ 0.<br />

Es folgt pc ≤ 2<br />

3 . ✷<br />

Im Allgemeinen ist der Wert von pc nicht bekannt und extrem schwer zu bestimmen.<br />

Im Fall der Kantenperkolation in Z 2 ist allerdings ein genaues Ergebnis bekannt,<br />

da man hier das starke Hilfsmittel der Selbstdualität des Graphen (Z 2 ,K)<br />

zur Verfügung hat. (Ist G =(V,K) ein planarer Graph, also einer, den man mit<br />

überschneidungsfreien Kanten in den R 2 einbetten kann, so hat der duale Graph als<br />

Punktmenge die Menge der Flächen von G und als Kante zwischen zwei solchen<br />

Punkten, diejenige Kante aus K, die die beiden Flächenstücke trennt. Offenbar ist<br />

das zweidimensionale Gitter als Graph isomorph zu seinem dualen Graphen. Man<br />

beachte, dass man die Kontur in Abb. 2.2 als geschlossenen Pfad im dualen Graphen<br />

auffassen kann.) Wir zitieren hier den Satz von Kesten [93].<br />

Satz 2.46 (Kesten (1980)). Für Kantenperkolation in Z 2 ist die kritische Wahrscheinlichkeit<br />

pc = 1<br />

2 , und es gilt θ(pc) =0.<br />

Beweis. Siehe etwa das Buch von Grimmett [62, Seite 287ff]. ✷


2.4 Beispiel: Perkolation 71<br />

Es wird vermutet, dass θ(pc) =0in jeder Dimension d ≥ 2 gilt. Rigoros bewiesen<br />

ist dies allerdings nur für d =2und d ≥ 19 (siehe [66]).<br />

Eindeutigkeit des unendlichen Clusters ∗<br />

Es sei p so gewählt, dass θ(p) > 0 ist. Wir haben gesehen, dass es mit Wahrscheinlichkeit<br />

1 mindestens einen unendlich großen, offenen Cluster gibt. Wir wollen nun<br />

zeigen, dass es genau einen gibt.<br />

Sei also N ∈{0, 1,...,∞} die (zufällige) Anzahl von unendlich großen Clustern.<br />

Satz 2.47 (Eindeutigkeit des unendlichen großen Clusters). Für jedes p ∈ [0, 1]<br />

gilt Pp[N ≤ 1] = 1.<br />

Beweis. Diese Aussage wurde erstmals von Aizenman, Kesten und Newman gezeigt<br />

[1, 2]. Wir folgen der einfacheren Beweisidee von Burton und Keane [25], wie<br />

sie etwa in [62, Abschnitt 8.2] beschrieben wird.<br />

In den Fällen p =1und θ(p) =0(speziell also im Fall p =0) ist die Aussage<br />

trivial. Seien nun also p ∈ (0, 1) und θ(p) > 0.<br />

1. Schritt Wir zeigen zunächst:<br />

Pp[N = m] =1 für ein m =0, 1,...,∞. (2.13)<br />

Wir benötigen ein 0-1 Gesetz, ähnlich dem Kolmogorov’schen. Allerdings ist N<br />

nicht messbar bezüglich der terminalen σ-Algebra, wir müssen also etwas subtiler<br />

vorgehen. Sei e1 =(1, 0,...,0) der erste Einheitsvektor in Zd . Auf der Kantenmenge<br />

K definieren wir die Translation τ : K → K durch τ(〈x, y〉) =〈x + e1,y+ e1〉.<br />

Sei<br />

K0 := � 〈(x1,...,xd), (y1,...,yd)〉 ∈K : x1 =0,y1≥ 0 �<br />

die Menge aller Kanten in Zd , die zwei Punkte in {0}×Zd−1 verbinden oder einen<br />

Punkt aus {0}×Zd−1 mit einem aus {1}×Zd−1 verbinden. Offenbar sind die Men-<br />

gen (τ n (K0), n∈ Z) disjunkt und K = �<br />

n∈Z τ n (K0). Daher sind die Zufallsva-<br />

riablen Yn := (X p<br />

τ n )k∈K0 (k) , n ∈ Z, unabhängig und identisch verteilt (mit Werten<br />

in {0, 1} K0 ). Setze Y =(Yn)n∈Zund τ(Y )=(Yn+1)n∈Z. SeiAm∈{0, 1} K<br />

definiert durch<br />

{Y ∈ Am} = {N = m}.<br />

Offenbar ändert sich der Wert von N nicht, wenn wir alle Kanten gleichzeitig verschieben.<br />

Es gilt also {Y ∈ Am} = {τ(Y ) ∈ Am}. Ein Ereignis mit dieser<br />

Eigenschaft nennen wir invariant. Mit einem Argument ähnlich dem für das Kolmogorov’sche<br />

0-1 Gesetz kann man zeigen, dass invariante Ereignisse (die durch<br />

u.i.v. Zufallsvariablen definiert werden) nur die Wahrscheinlichkeiten 0 oder 1 haben<br />

können (für einen formalen Beweis siehe Beispiel 20.26).


72 2 Unabhängigkeit<br />

2. Schritt Wir zeigen:<br />

Pp[N = m] =0 für jedes m ∈ N \{1}. (2.14)<br />

Sei also m =2, 3,... Wir nehmen an, dass P[N = m] =1gilt und führen dies<br />

zum Widerspruch.<br />

Für L ∈ N setzen wir BL := {−L,...,L} d und bezeichnen mit KL = {k =<br />

〈x, y〉 ∈K : x, y ∈ BL} die Menge der Kanten, deren beide Endpunkte in BL<br />

liegen. Für i =0, 1 sei Di L := {Xp k = i für alle k ∈ KL}. SeiN1 L die Anzahl der<br />

unendlichen Cluster, wenn wir (unabhängig vom Wert von X p<br />

k ) jede Kante k in KL<br />

als offen betrachten. Analog definieren wir N 0 L , wobei wir hier die Kanten in KL<br />

als geschlossen betrachten. Wegen Pp[Di L ] > 0, und wegen N = m fast sicher, gilt<br />

N i L = m fast sicher für i =0, 1.<br />

Sei<br />

A 2 � � � � p 1 p 2 p 1<br />

L:=<br />

C (x ) ∩ C (x )=∅ ∩ #C (x )=#Cp(x 2 )=∞ �<br />

x 1 ,x 2 ∈BL\BL−1<br />

das Ereignis, dass es zwei Punkte auf dem Rand von BL gibt, die in unterschiedlichen,<br />

unendlich großen, offenen Clustern sitzen. Offenbar gilt A2 L ↑{N ≥ 2} für<br />

L →∞.<br />

Sei A2 L,0 ähnlich wie A2L definiert, jedoch wollen wir alle Kanten k ∈ KL als<br />

geschlossen betrachten, egal ob X p<br />

k =1oder Xp<br />

k =0ist. Tritt A2L ein, so gibt es<br />

zwei Punkte x1 ,x2 auf dem Rand von BL und zu jedem i =1, 2 einen unendlich<br />

langen selbstüberschneidungsfreien, offenen Pfad πxi, der in xi startet und x3−i vermeidet. Es gilt also A2 L ⊂ A2L,0 .Wähle nun L so groß, dass P[A2L,0 ] > 0 ist.<br />

Tritt A 2 L,0 ein und werden alle Kanten in BL geöffnet, so werden mindestens zwei<br />

der unendlich großen, offenen Cluster durch Kanten in BL verbunden, die Gesamt-<br />

zahl der unendlich großen, offenen Cluster also um mindestens Eins verringert. Es<br />

folgt Pp[N 1 L ≤ N 0 L − 1] ≥ Pp[A2 L,0 ] > 0, was einen Widerspruch bedeutet.<br />

3. Schritt Da wir im zweiten Schritt bereits gezeigt haben, dass N fast sicher<br />

keinen endlichen Wert größer als 1 annimmt, brauchen wir nun nur noch zu zeigen,<br />

dass N fast sicher nicht den Wert ∞ annimmt. Wir zeigen hier, dass in der Tat gilt:<br />

Pp[N ≥ 3] = 0. (2.15)<br />

Dieses ist der schwierigste Teil. Wir nehmen an, dass Pp[N ≥ 3] > 0 gilt und<br />

führen dies zum Widerspruch.<br />

Wir nennen einen Punkt x ∈ Z d einen Trifurkationspunkt, falls x in einem unendlich<br />

großen, offenen Cluster C p (x) liegt, genau drei offene Kanten zu x führen und<br />

die Wegnahme dieser drei Kanten C p (x) in drei unendlich große, disjunkte Cluster<br />

zerteilt. Mit T bezeichnen wir die Menge der Trifurkationspunkte und schreiben<br />

TL := T ∩ BL. Seir := Pp[0 ∈ T ]. Aufgrund der Translationsinvarianz gilt<br />

(#BL) −1 Ep[#TL] =r für jedes L.


Sei<br />

A 3 L:=<br />

�<br />

x 1 ,x 2 ,x 3 ∈BL\BL−1<br />

� �<br />

i�=j<br />

2.4 Beispiel: Perkolation 73<br />

{C p (x i ) ∩ C p (x j � �<br />

�3<br />

)=∅} ∩ {#C p (x i �<br />

)=∞}<br />

das Ereignis, dass es drei Punkte auf dem Rand von BL gibt, die in unterschiedlichen,<br />

unendlich großen, offenen Clustern sitzen. Offenbar gilt A3 L ↑{N ≥ 3} für<br />

L →∞.<br />

Analog zu A2 L,0 definieren wir A3 L,0<br />

Rand von BL gibt, die in unterschiedlichen unendlich großen, offenen Clustern sitzen,<br />

wenn wir alle Kanten in KL als geschlossen ansehen. Wie oben ist A3 L ⊂ A3L,0 .<br />

i=1<br />

als das Ereignis, dass es drei Punkte auf dem<br />

Für drei unterschiedliche Punkte x 1 ,x 2 ,x 3 ∈ BL \BL−1 sei F x 1 ,x 2 ,x 3 das Ereignis,<br />

dass es zu jedem i =1, 2, 3 einen unendlich langen selbstüberschneidungsfreien,<br />

offenen Pfad π x i gibt, der in x i startet, nur Kanten aus K p \ KL benutzt und die<br />

anderen xj , j �= i, vermeidet. Dann gilt<br />

A 3 �<br />

L,0 ⊂<br />

x 1 ,x 2 ,x 3 ∈BL\BL−1<br />

paarweise unterschiedlich<br />

F x 1 ,x 2 ,x 3.<br />

Sei L so groß, dass Pp[A 3 L,0 ] ≥ Pp[N ≥ 3]/2 > 0 gilt. Wähle drei unterschiedliche<br />

Punkte x 1 ,x 2 ,x 3 ∈ BL \ BL−1 mit Pp[F x 1 ,x 2 ,x 3] > 0.<br />

Tritt F x 1 ,x 2 ,x 3 ein,sokönnen wir einen Punkt y ∈ BL finden, von dem aus drei<br />

disjunkte (nicht notwendigerweise offene) Pfade π1, π2 und π3 zu den Punkten x 1 ,<br />

x 2 und x 3 führen. Sei G y,x 1 ,x 2 ,x 3 das Ereignis, dass in KL genau diejenigen Kanten<br />

offen sind, die zu diesen Pfaden gehören, und alle anderen geschlossen. Die Ereignisse<br />

F x 1 ,x 2 ,x 3 und G y,x 1 ,x 2 ,x 3 sind unabhängig, und y ist ein Trifurkationspunkt,<br />

falls beide eintreten. Daher ist<br />

r = Pp[y ∈ T ] ≥ Pp[Fx1 ,x2 ,x3] · � p ∧ (1 − p) � #KL<br />

> 0.<br />

Wir zeigen nun, dass r =0sein muss, was die Annahme Pp[N ≥ 3] > 0 ad absurdum<br />

führt. Wir machen die Menge TL zu einem Graphen, indem wir zwei Punkte<br />

x, y ∈ TL als benachbart betrachten, falls es einen offenen Pfad von x nach y gibt,<br />

der keinen anderen Punkt in T trifft. Wir schreiben dann x ∼ y. Eine Schleife ist ein<br />

selbstüberschneidungsfreier, endlicher Pfad, der zu seinem Startpunkt zurückkehrt.<br />

Der Graph (TL, ∼) ist schleifenfrei. In der Tat: gäbe es einen in x ∈ TL startenden<br />

selbstüberschneidungsfreien Pfad, der, sagen wir, die beiden Punkte y, z ∈ TL trifft,<br />

so entstünden durch die Wegnahme der drei Kanten k ∈ Kp , die an x angrenzen,<br />

höchstens zwei Cluster - wobei einer y und z enthält.<br />

Wir schreiben degTL (x) für die Anzahl der Nachbarn von x in TL.DaTL schleifenfrei<br />

ist, ist #TL− 1 �<br />

2 x∈TL degTL (x) die Anzahl der Zusammenhangskomponenten<br />

von TL, also insbesondere nichtnegativ. Andererseits ist 3 − degTL (x) die Anzahl


74 2 Unabhängigkeit<br />

von Kanten k ∈ Kp , die an x angrenzen und deren Wegnahme einen unendlich<br />

großen, offenen Cluster erzeugt, in dem kein weiterer Punkt von TL liegt. Sei ML<br />

die Anzahl der unendlich großen, offenen Cluster, die entstehen, wenn wir von allen<br />

Punkten in TL die drei benachbarten offenen Kanten wegnehmen. Es ist dann<br />

ML = �<br />

(3 − degTL (x)) ≥ #TL.<br />

x∈TL<br />

Zu jedem dieser Cluster gehört aber (mindestens) ein Punkt auf BL \BL−1. Es folgt<br />

#TL<br />

#BL<br />

≤ #(BL \ BL−1)<br />

#BL<br />

≤ d<br />

L<br />

L→∞<br />

−→ 0.<br />

Wegen r =(#BL) −1 E[#TL] ≤ d/L folgt r =0. (Man beachte, dass wir hier im<br />

Vorgriff auf Kapitel 5 den Erwartungswert E[#TL] benutzt haben.) ✷


3 Erzeugendenfunktion<br />

Ein wichtiges Prinzip in der Mathematik ist es, eine Klasse von Objekten, die man<br />

betrachten möchte, in eine andere Klasse von Objekten, mit denen man besser rechnen<br />

kann, hinein abzubilden. Diese Abbildung kann eineindeutig sein, etwa bei der<br />

Zuordnung von Matrizen zu linearen Abbildungen, oder auch nur manche Eigenschaften<br />

eindeutig abbilden, etwa bei Determinanten.<br />

Zu der zweiten Kategorie gehören in der <strong>Wahrscheinlichkeitstheorie</strong> die Kenngrößen<br />

wie Median, Erwartungswert und Varianz von Zufallsvariablen. Zur ersten<br />

Kategorie hingegen charakteristische Funktionen, Laplace-Transformierte und Erzeugendenfunktionen,<br />

die enge Verwandte sind und ihre Nützlichkeit daraus ziehen,<br />

dass Addition von unabhängigen Zufallsvariablen in Multiplikation übergeht. Bevor<br />

wirinspäteren Kapiteln insbesondere die charakteristischen Funktionen ausgiebig<br />

behandeln, wollen wir wichtige Grundideen in der einfacheren Situation der Erzeugendenfunktionen,<br />

deren Anwendung auf N0-wertige Zufallsvariablen beschränkt<br />

ist, kennen lernen.<br />

3.1 Definition und Beispiele<br />

Definition 3.1 (Erzeugendenfunktion). Sei X eine N0-wertige Zufallsvariable.<br />

Die Abbildung ψPX = ψX, die erklärt wird durch<br />

ψX :[0, 1] → [0, 1], z ↦→<br />

∞�<br />

P[X = n] z n , (3.1)<br />

n=0<br />

heißt Erzeugendenfunktion von PX (oder etwas lax: von X).<br />

Satz 3.2. (i) ψX ist stetig und in (0, 1) unendlich oft stetig differenzierbar. Es<br />

gilt für n ∈ N und die n-te Ableitung ψ (n)<br />

X<br />

lim ψ<br />

z↑1 (n)<br />

X<br />

(z) =<br />

∞�<br />

P[X = k] · k(k − 1) ···(k − n +1), (3.2)<br />

k=n<br />

wobei beide Seiten =+∞ sein können.


76 3 Erzeugendenfunktion<br />

(ii) Die Verteilung PX von X ist durch ψX eindeutig charakterisiert.<br />

(iii) ψX ist durch die Angabe von abzählbar vielen Werten ψX(xi), xi ∈ [0, 1],<br />

i ∈ N, eindeutig festgelegt. Konvergiert die Reihe in (3.1) auch für ein z>1,<br />

so gilt<br />

lim X (z) =ψ(n)<br />

X (1) < ∞ für n ∈ N,<br />

z↑1 ψ (n)<br />

und ψX ist durch Angabe von ψ (n)<br />

X (1), n ∈ N, eindeutig charakterisiert.<br />

Beweis. Das folgt aus der elementaren Theorie der Potenzreihen. ✷<br />

Satz 3.3 (Multiplikativität der Erzeugendenfunktion). Sind X1,...,Xn unabhängig<br />

und N0-wertig, so ist<br />

n�<br />

ψX1+...+Xn =<br />

i=1<br />

ψXi .<br />

Beweis. Für z ∈ [0, 1) können wir ψX1 (z) ψX2 (z) als Cauchy-Produkt schreiben<br />

�<br />

∞�<br />

ψX1 (z) ψX2 (z) = P[X1 = n] z n<br />

��<br />

∞�<br />

P[X2 = n] z n<br />

�<br />

=<br />

=<br />

=<br />

n=0<br />

n=0<br />

∞�<br />

z n<br />

�<br />

n�<br />

�<br />

P[X1 = m] P[X2 = n − m]<br />

n=0<br />

∞�<br />

z n<br />

n=0<br />

∞�<br />

n=0<br />

m=0<br />

n�<br />

P[X1 = m, X2 = n − m]<br />

m=0<br />

P[X1 + X2 = n] z n = ψX1+X2 (z).<br />

Induktiv folgt die Aussage für jedes n ≥ 2. ✷<br />

Beispiel 3.4. (i) Sei Xbn,p-verteilt für gewisse n ∈ N und p ∈ [0, 1]. Dannist<br />

ψX(z) =<br />

n�<br />

m=0<br />

� �<br />

n<br />

p<br />

m<br />

m (1 − p) n−m z m = � pz +(1−p) �n . (3.3)<br />

(ii) Sind X, Y unabhängig und bm,p beziehungsweise bn,p-verteilt, so ist nach<br />

Satz 3.3<br />

ψX+Y (z) = � pz +(1−p) �m � �n pz +(1−p) � �m+n. = pz +(1−p) Also ist nach Satz 3.2(ii) X + Ybm+n,p-verteilt und damit (nach Satz 2.31)


m,p ∗ bn,p = bm+n,p.<br />

3.1 Definition und Beispiele 77<br />

(iii) Seien X und Y unabhängig und Poisson-verteilt mit Parametern λ ≥ 0 und<br />

μ ≥ 0, also P[X = n] =e −λ λ n /n! für n ∈ N0. Dannist<br />

ψPoiλ (z) =<br />

∞�<br />

n=0<br />

Also hat X + Y die Erzeugendenfunktion<br />

−λ (λz)n<br />

e<br />

n! = eλ(z−1) . (3.4)<br />

ψPoiλ (z) · ψPoiμ (z) =eλ(z−1) e μ(z−1) = ψPoiλ+μ (z),<br />

und daher ist X + Y ∼ Poiλ+μ. Es folgt<br />

Poiλ ∗ Poiμ =Poiλ+μ. (3.5)<br />

(iv) Seien X1,...,Xn ∼ γp unabhängig und geometrisch verteilt mit Parameter<br />

p ∈ (0, 1). Wir setzen Y = X1 + ...+ Xn.Esistfür z ∈ [0, 1]<br />

ψX1 (z) =<br />

∞�<br />

k=0<br />

p(1 − p) k z k =<br />

p<br />

. (3.6)<br />

1 − (1 − p)z<br />

Nach der verallgemeinerten binomischen Formel (siehe Lemma 3.5 mit α = −n),<br />

Satz 3.3 und (3.6) ist<br />

ψY (z) =ψX1 (z)n p<br />

=<br />

n<br />

(1 − (1 − p)z) n<br />

∞�<br />

= p n<br />

� �<br />

−n<br />

(−1)<br />

k<br />

k (1 − p) k z k<br />

=<br />

k=0<br />

∞�<br />

b − n,p({k}) z k ,<br />

k=0<br />

wobei für beliebiges r ∈ (0, ∞) und p ∈ (0, 1]<br />

b − r,p =<br />

∞�<br />

k=0<br />

� �<br />

−r<br />

(−1)<br />

k<br />

k p r (1 − p) k δk<br />

(3.7)<br />

die negative Binomialverteilung mit Parametern r und p ist. Nach dem Eindeutigkeitssatz<br />

für Erzeugendenfunktionen ist damit Y ∼ b− n,p, also (siehe Definition 2.29<br />

für die n-te Faltungspotenz) b− n,p = γ∗n p . ✸<br />

Lemma 3.5 (Verallgemeinerter binomischer Lehrsatz). Für α ∈ R und k ∈ N0<br />

definieren wir den Binomialkoeffizienten


78 3 Erzeugendenfunktion<br />

� �<br />

α<br />

:=<br />

k<br />

Es gilt die erweiterte binomische Formel:<br />

Speziell gilt<br />

(1 + x) α =<br />

1<br />

√ 1 − x =<br />

∞�<br />

n=0<br />

∞�<br />

k=0<br />

α · (α − 1) ···(α − k +1)<br />

. (3.8)<br />

k!<br />

� �<br />

α<br />

x<br />

k<br />

k<br />

� �<br />

2n<br />

4<br />

n<br />

−n x n<br />

für jedes x ∈ C mit |x| < 1. (3.9)<br />

für jedes x ∈ C mit |x| < 1. (3.10)<br />

Beweis. Die Abbildung f : x ↦→ (1 + x) α ist holomorph bis auf eventuell eine<br />

Singularität bei x = −1, ist also um 0 in eine Potenzreihe entwickelbar mit Radius<br />

mindestens 1:<br />

f(x) =<br />

∞�<br />

k=0<br />

f (k) (0)<br />

k!<br />

x k<br />

für |x| < 1.<br />

Für k ∈ N0 ist die k-te Ableitung f (k) (0) = α(α − 1) ···(α − k +1), also folgt<br />

(3.9).<br />

Der Zusatz folgt, weil für α = −1/2 gilt, dass � � � � −1/2 2n −n<br />

n = n (−4) . ✷<br />

Übung 3.1.1. Man zeige b − r,p ∗ b − s,p = b − r+s,p für r, s ∈ (0, ∞) und p ∈ (0, 1]. ♣<br />

3.2 Poisson-Approximation<br />

Lemma 3.6. Seien μ und (μn)n∈N W-Maße auf (N0, 2N0 ) mit Erzeugendenfunktionen<br />

ψμ und ψμn ,n∈ N. Dann sind äquivalent<br />

(i) μn({k}) n→∞<br />

−→ μ({k}) für jedes k ∈ N0,<br />

(ii) μn(A) n→∞<br />

−→ μ(A) für jedes A ⊂ N0,<br />

(iii) ψn(z) n→∞<br />

−→ ψ(z) für jedes z ∈ [0, 1],<br />

(iv) ψn(z) n→∞<br />

−→ ψ(z) für jedes z ∈ [0,η) für ein η>0.<br />

Gilt eine der vier Bedingungen, so schreiben wir μn<br />

konvergiere schwach gegen μ.<br />

n→∞<br />

−→ μ und sagen (μn)n∈N<br />

Beweis. (i) =⇒ (ii) Sei ε>0 und N ∈ N so gewählt, dass μ({N +1,N +<br />

2,...}) < ε<br />

4 .Für hinreichend großes n0 ∈ N ist ferner


N� �<br />

�μn({k}) − μ({k}) � �<br />

ε<br />

<<br />

4<br />

k=0<br />

3.2 Poisson-Approximation 79<br />

für jedes n ≥ n0.<br />

Speziell ist für n ≥ n0 auch μn({N +1,N +2,...}) < ε<br />

2 .Alsoistfür n ≥ n0<br />

�<br />

�μn(A) − μ(A) � � ≤ μn({N +1,N +2,...})+μ({N +1,N +2,...})<br />

n). Für jedes n ∈ N sei (Xn,k)k∈N eine unabhängige<br />

Familie von Zufallsvariablen mit Xn,k ∼ Berpn,k . Setze<br />

S n :=<br />

∞�<br />

l=1<br />

Xn,l und S n k :=<br />

k�<br />

Xn,l für k ∈ N.<br />

Satz 3.7 (Poisson-Approximation). Unter den obigen Annahmen konvergieren<br />

die Verteilungen (PS n)n∈N schwach gegen die Poisson-Verteilung Poiλ.<br />

Beweis. Die Poisson-Verteilung hat die Erzeugendenfunktion ψ(z) =eλ(z−1) (siehe<br />

(3.4)). Andererseits sind Sn − Sn k und Sn k unabhängig für jedes k ∈ N, also<br />

.Nunistfür jedes z ∈ [0, 1]<br />

ψS n = ψS n k · ψS n −S n k<br />

1 ≥<br />

ψS n(z)<br />

l=1<br />

ψS n k (z) = ψS n −S n k (z) ≥ 1 − P[Sn − S n k ≥ 1] ≥ 1 −<br />

∞�<br />

l=k+1<br />

pn,l<br />

k→∞<br />

−→ 1,


80 3 Erzeugendenfunktion<br />

also<br />

ψSn(z) = lim<br />

k→∞ ψSn(z) =<br />

k<br />

∞�<br />

l=1<br />

=exp<br />

(pn,lz +(1− pn,l))<br />

� ∞�<br />

l=1<br />

log � 1+pn,l(z − 1) ��<br />

.<br />

Für |x| < 1<br />

2 ist | log(1 + x) − x| ≤x2 . Nach Voraussetzung gilt max<br />

l∈N pn,l → 0 für<br />

n →∞, also ist für hinreichend großes n<br />

��<br />

� �∞<br />

�<br />

� log<br />

l=1<br />

� 1+pn,l(z − 1) ��<br />

� ∞�<br />

��<br />

���<br />

− (z − 1) pn,l<br />

l=1<br />

∞�<br />

≤ p 2 �<br />

∞�<br />

�<br />

n→∞<br />

n,l ≤<br />

−→ 0.<br />

Zusammen mit (3.11) folgt<br />

lim ψSn(z) = lim<br />

n→∞ n→∞ exp<br />

3.3 Verzweigungsprozesse<br />

l=1<br />

l=1<br />

�<br />

∞�<br />

(z − 1)<br />

l=1<br />

pn,l<br />

pn,l<br />

max<br />

l∈N pn,l<br />

�<br />

= e λ(z−1) . ✷<br />

Seien T,X1,X2,...unabhängige, N0-wertige Zufallsvariablen. Wie sieht die Verteilung<br />

von S := �T n=1 Xn aus? Zunächst bemerken wir, dass S messbar ist, denn<br />

∞�<br />

{S = k} = {T = n}∩{X1 + ...+ Xn = k}.<br />

n=0<br />

Satz 3.8. Sind die X1,X2,...zusätzlich identisch verteilt, so ist die Erzeugendenfunktion<br />

von S gegeben durch ψS(z) =ψT (ψX1 (z)).<br />

Beweis.<br />

ψS(z) =<br />

=<br />

=<br />

∞�<br />

P[S = k] z k<br />

k=0<br />

∞�<br />

k=0 n=0<br />

∞�<br />

n=0<br />

∞�<br />

P[T = n] P[X1 + ...+ Xn = k] z k<br />

P[T = n] ψX1 (z)n �<br />

= ψT ψX1 (z)� . ✷


3.3 Verzweigungsprozesse 81<br />

Wir nehmen jetzt an, dass p0,p1,p2,... ∈ [0, 1] sind mit � ∞<br />

k=0 pk = 1.Sei<br />

(Xn,i)n,i∈N0 eine unabhängige Familie von Zufallsvariablen mit P[Xn,i = k] =pk<br />

für jedes k ∈ N0 und jedes i ∈ N.<br />

Setze Z0 =1und<br />

Zn =<br />

Zn−1 �<br />

i=1<br />

Xn−1,i für n ∈ N.<br />

Wir geben die folgende Interpretation an: Zn ist die Anzahl von Individuen in der<br />

n-ten Generation einer sich zufällig entwickelnden Population. Das i-te Individuum<br />

aus der n-ten Generation hat Xn,i Nachkommen (in der (n +1)-ten Generation).<br />

Definition 3.9. (Zn)n∈N0 heißt Galton-Watson-Prozess oder Verzweigungsprozess<br />

mit Nachkommenverteilung (pk)k∈N0 .<br />

Ein wichtiges Hilfsmittel bei der Untersuchung von Verzweigungsprozessen sind<br />

Erzeugendenfunktionen. Sei also<br />

ψ(z) =<br />

∞�<br />

k=0<br />

pk z k<br />

die Erzeugendenfunktion der Nachkommenverteilung und ψ ′ deren Ableitung. Wir<br />

definieren die n-te Iterierte von ψ durch<br />

ψ1 := ψ, ψn := ψ ◦ ψn−1 für n =2, 3,...<br />

Sei schließlich ψZn die Erzeugendenfunktion von Zn.<br />

Lemma 3.10. Es gilt ψn = ψZn<br />

für jedes n ∈ N.<br />

Beweis. Für n =1ist dies per Definition richtig. Für n ∈ N folgt mit Satz 3.8<br />

induktiv ψZn+1 = ψ ◦ ψZn = ψ ◦ ψn = ψn+1. ✷<br />

Offenbar ist die Wahrscheinlichkeit qn := P[Zn =0],dassZ zur Zeit n schon<br />

ausgestorben ist, wachsend in n. Wir bezeichnen mit<br />

q := lim<br />

n→∞ P[Zn =0]<br />

die Aussterbewahrscheinlichkeit.<br />

Unter welchen Bedingungen ist q =0, q =1, oder q ∈ (0, 1)? Offenbar ist q ≥ p0.<br />

Ist andererseits p0 =0,soistZn wachsend in n, also q =0.


82 3 Erzeugendenfunktion<br />

Satz 3.11 (Aussterbewahrscheinlichkeit des Galton-Watson-Prozesses).<br />

Sei p1 �= 1.<br />

(i) Es gilt {r ∈ [0, 1] : ψ(r) =r} = {q, 1}.<br />

(ii) Es gelten die Äquivalenzen<br />

q 1 ⇐⇒<br />

∞�<br />

kpk > 1.<br />

Beweis. ψ ist strikt konvex und monoton wachsend und ψ(1) = 1. Istlim ψ<br />

z↑1 ′ (z) ≤<br />

1, soistψ(z) >zfür jedes z ∈ [0, 1). Istlim ψ<br />

z↑1 ′ (z) > 1, so gibt es genau ein<br />

r ∈ [0, 1) mit ψ(r) =r. Offenbar ist<br />

q =0 ⇐⇒ p0 =0 ⇐⇒ ψ(0) = 0 ⇐⇒ ψ(z) 0 angenommen. Offenbar gilt<br />

qn = ψn(0) = ψ(qn−1).<br />

Wir wissen, dass qn ↑ q. Daψ stetig ist, gilt<br />

k=1<br />

ψ(q) =ψ( lim<br />

n→∞ qn) = lim<br />

n→∞ ψ(qn) = lim<br />

n→∞ qn+1 = q.<br />

Also ist q ein Fixpunkt von ψ, und wir müssen im Fall ψ ′ (1) > 1 noch ausschließen,<br />

dass q =1ist. Ist r = ψ(r), soistr≥ ψ(0) = q0, also r = ψ(r) ≥ ψ(q0) =q1<br />

und induktiv r ≥ qn für jedes n ∈ N0, also r ≥ q. Mithin ist q die kleinste Lösung<br />

in [0, 1] von ψ(r) =r.<br />

Die zweite Äquivalenz in (ii) folgt aus (3.2). ✷


4 Das Integral<br />

Nach dem Begriff des Maßraums und der messbaren Abbildung ist das Integral<br />

messbarer reeller Abbildungen bezüglich allgemeiner Maße, nicht nur des<br />

Lebesgue-Maßes, wie es in den meisten Analysis-Vorlesungen behandelt wird, ein<br />

Eckstein der systematischen <strong>Wahrscheinlichkeitstheorie</strong>, der es uns beispielsweise<br />

erlaubt, Erwartungswerte und höhere Momente zu definieren.<br />

In diesem Kapitel definieren wir das Integral durch Approximation mit Elementarfunktionen<br />

und leiten einfache Eigenschaften her wie das Lemma von Fatou. Die<br />

anderen Konvergenzsätze für Integrale folgen in den Kapiteln 6 und 7.<br />

4.1 Konstruktion und einfache Eigenschaften<br />

Sei im Folgenden stets (Ω,A,μ) ein Maßraum. Wir bezeichnen mit E den Vektorraum<br />

der Elementarfunktionen (siehe Definition 1.93) auf (Ω,A) und mit E + :=<br />

{f ∈ E : f ≥ 0} den Kegel (woher der Name?) der nichtnegativen Elementarfunktionen.<br />

Gilt<br />

m�<br />

f = αi Ai (4.1)<br />

i=1<br />

für gewisses m ∈ N und für α1,...,αm ∈ (0, ∞) sowie paarweise disjunkte Mengen<br />

A1,...,Am ∈A, so sagen wir, dass (4.1) eine Normaldarstellung der Elementarfunktion<br />

f ist.<br />

Lemma 4.1. Sind f = �m i=1 αi Ai und f = �n j=1 βj Bj<br />

lungen von f ∈ E + , so gilt<br />

m�<br />

αi μ(Ai) =<br />

i=1<br />

n�<br />

βj μ(Bj).<br />

j=1<br />

zwei Normaldarstel-<br />

Beweis. Ist μ(Ai ∩ Bj) > 0 für gewisse i und j, soistAi∩Bj �= ∅, und für jedes<br />

ω ∈ Ai ∩ Bj ist f(ω) =αi = βj. Außerdem ist offenbar Ai ⊂ �n j=1 Bj, falls<br />

αi �= 0und Bj ⊂ �m i=1 Ai, falls βj �= 0. Es folgt


84 4 Das Integral<br />

m�<br />

m� n�<br />

αi μ(Ai) = αi μ(Ai ∩ Bj)<br />

i=1<br />

=<br />

i=1 j=1<br />

m�<br />

i=1 j=1<br />

n�<br />

βj μ(Ai ∩ Bj) =<br />

n�<br />

βj μ(Bj). ✷<br />

Dieses Lemma erlaubt uns, die folgende Definition zu treffen (weil der definierte<br />

Wert I(f) von der gewählten Normaldarstellung nicht abhängt).<br />

Definition 4.2. Wir definieren eine Abbildung I : E + → [0, ∞] durch<br />

I(f) =<br />

m�<br />

i=1<br />

αi μ(Ai),<br />

falls f die Normaldarstellung f = � m<br />

i=1 αi Ai hat.<br />

Lemma 4.3. Die Abbildung I ist positiv linear und monoton: Seien f,g ∈ E + und<br />

α ≥ 0. Dann gelten die folgenden Aussagen.<br />

(i) I(αf) =αI(f).<br />

(ii) I(f + g) =I(f)+I(g).<br />

(iii) Ist f ≤ g,soistI(f) ≤ I(g).<br />

Beweis. Übung. ✷<br />

Definition 4.4 (Integral). Ist f : Ω → [0, ∞] messbar, so definieren wir das Integral<br />

von f bezüglich μ durch<br />

�<br />

fdμ:= sup � I(g) : g ∈ E + ,g≤ f � .<br />

Bemerkung 4.5. Nach Lemma 4.3(iii) ist I(f) = � fdμfür jedes f ∈ E + .Also<br />

ist das Integral eine Fortsetzung der Abbildung I von E + auf die Menge der nichtnegativen<br />

messbaren Funktionen. ✸<br />

Sind f,g : Ω → R Abbildungen, so schreiben wir f ≤ g, falls f(ω) ≤ g(ω)<br />

für jedes ω ∈ Ω gilt. Analog verwenden wir die Schreibweise f ≥ 0 und so fort.<br />

Hingegen schreiben wir ” f ≤ g fast überall“, falls die schwächere Bedingung gilt,<br />

dass eine μ-Nullmenge N existiert mit f(ω) ≤ g(ω) für jedes ω ∈ N c .<br />

j=1


4.1 Konstruktion und einfache Eigenschaften 85<br />

Lemma 4.6. Seien f,g,f1,f2,...messbare Abbildungen Ω → [0, ∞]. Dann gilt<br />

(i) (Monotonie) Ist f ≤ g, dann ist � fdμ≤ � gdμ.<br />

(ii) (Monotone Konvergenz) Gilt fn ↑ f, dann konvergieren auch die Integrale<br />

� fn dμ ↑ � fdμ.<br />

(iii) (Linearität) Sind α, β ∈ [0, ∞], so gilt<br />

�<br />

�<br />

(αf + βg) dμ = α<br />

wobei wir die Konvention ∞·0:=0benutzen.<br />

�<br />

fdμ+ β<br />

Beweis. (i) Dies folgt direkt aus der Definition des Integrals.<br />

(ii) Nach (i) gilt<br />

�<br />

lim<br />

n→∞<br />

�<br />

fn dμ =sup<br />

n∈N<br />

gdμ,<br />

�<br />

fn dμ ≤ fdμ.<br />

Wir müssen also nur noch � �<br />

fdμ≤ sup fn dμ zeigen.<br />

n∈N<br />

Sei g ∈ E + mit g ≤ f. Es reicht zu zeigen, dass<br />

� �<br />

sup<br />

n∈N<br />

fn dμ ≥ gdμ. (4.2)<br />

Die Elementarfunktion g habe die Normaldarstellung g = �N i=1 αi Ai , wobei<br />

α1,...,αN ∈ (0, ∞) sind und A1,...,AN ∈Apaarweise disjunkt sind. Für jedes<br />

ε>0 und n ∈ N definieren wir die Menge<br />

B ε n = {fn ≥ (1 − ε) g}.<br />

Wegen fn ↑ f ≥ g gilt Bε n ↑ Ω für jedes ε>0. Also gilt nach (i) für ε>0<br />

� �<br />

�(1<br />

fn dμ ≥ − ε) g Bε �<br />

dμ n<br />

=<br />

N�<br />

(1 − ε) αi μ(Ai ∩ B<br />

i=1<br />

ε n)<br />

n→∞<br />

−→<br />

N�<br />

�<br />

(1 − ε) αi μ(Ai) = (1−ε) gdμ.<br />

i=1<br />

Da ε>0 beliebig war, folgt (4.2) und damit die Aussage (ii).<br />

(iii) Nach Satz 1.96 ist jede nichtnegative messbare Abbildung monotoner Limes<br />

von Elementarfunktionen. Es gibt also Folgen (fn)n∈N und (gn)n∈N in E + mit


86 4 Das Integral<br />

fn ↑ f und gn ↑ g. Es gilt dann aber auch (αfn + βgn) ↑ αf + βg. Nach (ii)<br />

und Lemma 4.3 gilt daher<br />

�<br />

�<br />

(αf + βg) dμ = lim<br />

n→∞<br />

(αfn + βgn) dμ<br />

�<br />

�<br />

� �<br />

= α lim<br />

n→∞<br />

fn dμ + β lim<br />

n→∞<br />

gn dμ = α fdμ+ β gdμ. ✷<br />

Für messbares f : Ω → R ist f + ≤|f| und f − ≤|f|, also gilt auch � f ± dμ ≤<br />

� |f| dμ. Ist speziell � |f| dμ < ∞, so ist auch � f − dμ < ∞ und � f + dμ < ∞.<br />

Daher können wir die folgende Definition treffen, die abschließend das Integral für<br />

messbare Funktionen erklärt.<br />

Definition 4.7 (Integral für messbare Funktionen). Eine messbare Funktion<br />

f : Ω → R heißt μ-integrierbar, falls � |f| dμ < ∞. Wir schreiben<br />

L 1 (μ) :=L 1 �<br />

(Ω,A,μ):= f : Ω → R : f ist messbar und � �<br />

|f| dμ < ∞ .<br />

Für f ∈L1 (μ) definieren wir das Integral von f bezüglich μ durch<br />

�<br />

� �<br />

f(ω) μ(dω) := fdμ:= f + �<br />

dμ − f − dμ. (4.3)<br />

Ist lediglich � f − dμ < ∞ oder � f + dμ < ∞,sodefinieren wir ebenfalls � fdμ<br />

durch (4.3), wobei wir dann die Werte +∞ beziehungsweise −∞ zulassen.<br />

� �<br />

Ist A ∈A, so schreiben wir fdμ:= (f A) dμ.<br />

Satz 4.8. Sei f : Ω → [0, ∞] messbar.<br />

A<br />

(i) Es ist f =0 fast überall genau dann, wenn � fdμ=0gilt.<br />

(ii) Ist � fdμ


4.1 Konstruktion und einfache Eigenschaften 87<br />

(ii) Sei A = {ω : f(ω) =∞}. Für n ∈ N ist 1<br />

n f {f≥n} ≥ {f≥n}, also nach<br />

Lemma 4.6(i)<br />

� �<br />

μ(A) = A dμ ≤<br />

{f≥n} dμ ≤ 1<br />

�<br />

n<br />

f {f≥n} dμ ≤ 1<br />

�<br />

n<br />

Satz 4.9 (Eigenschaften des Integrals). Seien f,g ∈L 1 (μ).<br />

(i) (Monotonie) Ist f ≤ g fast überall, so ist � fdμ≤ � gdμ.<br />

Ist speziell f = g fast überall, so ist � fdμ= � gdμ.<br />

(ii) (Dreiecksungleichung) Es gilt stets � � � fdμ � � ≤ � |f| dμ.<br />

(iii) (Linearität) Sind α, β ∈ R, dann ist αf + βg ∈L1 (μ) und<br />

�<br />

� �<br />

(αf + βg) dμ = α fdμ+ β gdμ.<br />

fdμ n→∞<br />

−→ 0. ✷<br />

Diese Gleichung gilt auch, wenn höchstens eines der Integrale � fdμund<br />

� gdμeinen der Werte ±∞ annimmt.<br />

Beweis. (i) Es gilt f + ≤ g + und f − ≥ g − f.ü., also ist nach Lemma 4.6(i)<br />

�<br />

Es folgt<br />

�<br />

fdμ =<br />

f + dμ ≤<br />

�<br />

�<br />

f + �<br />

dμ −<br />

g + dμ und<br />

f − dμ ≤<br />

�<br />

�<br />

f − dμ ≥<br />

g + �<br />

dμ −<br />

�<br />

g − dμ.<br />

g − dμ =<br />

(ii) Wegen f + + f − = |f| ist nach Lemma 4.6(iii)<br />

� �<br />

�<br />

�<br />

� � �<br />

� �<br />

fdμ�<br />

= � f + �<br />

dμ − f − � �<br />

�<br />

dμ�<br />

≤ f + �<br />

dμ + f − dμ<br />

�<br />

gdμ.<br />

�<br />

�f + −<br />

= + f � �<br />

dμ = |f| dμ.<br />

(iii) Wegen |αf + βg| ≤ |α| ·|f| + |β| ·|g| ist nach Lemma 4.6(i) und (iii)<br />

auch αf + βg ∈L 1 (μ). Um die Linearität zu zeigen, reicht es die drei folgenden<br />

Eigenschaften zu prüfen.<br />

(a) � (f + g) dμ = � fdμ+ � gdμ.<br />

(b) Für α ≥ 0 ist � αf dμ = α � fdμ.<br />

(c) � (−f) dμ = − � fdμ.


88 4 Das Integral<br />

Zu (a): Es ist (f + g) + − (f + g) − = f + g = f + − f − + g + − g− , also ist<br />

(f + g) + + f − + g− =(f + g) − + f + + g + . Nach Lemma 4.6(iii) gilt<br />

�<br />

(f + g) + �<br />

dμ + f − �<br />

dμ + g − �<br />

dμ = (f + g) − �<br />

dμ + f + �<br />

dμ + g + dμ,<br />

also ist<br />

�<br />

�<br />

(f + g) dμ =<br />

�<br />

=<br />

�<br />

=<br />

Zu (b):<br />

�<br />

Für α ≥ 0 ist<br />

�<br />

αf dμ = αf + �<br />

dμ −<br />

Zu (c): Es ist<br />

�<br />

�<br />

(−f) dμ =<br />

�<br />

=<br />

(f + g) + �<br />

dμ − (f + g) − dμ<br />

f + �<br />

dμ − f − �<br />

dμ + g + �<br />

dμ −<br />

fdμ+ gdμ.<br />

αf − �<br />

dμ = α<br />

f + �<br />

dμ − α<br />

(−f) + �<br />

dμ − (−f) − dμ<br />

f − �<br />

dμ − f + �<br />

dμ = −<br />

�<br />

g − dμ<br />

f − �<br />

dμ = α<br />

fdμ.<br />

fdμ.<br />

Der Zusatz ist simpel und verbleibt zur Übung. ✷<br />

Satz 4.10 (Bildmaß). Seien (Ω,A) und (Ω ′ , A ′ ) Messräume, μ ein Maß auf (Ω,A)<br />

und X : Ω → Ω ′ messbar. Sei μ ′ = μ ◦ X −1 das Bildmaß von μ unter X und<br />

f : Ω ′ → R integrierbar bezüglich μ ′ . Dann ist f ◦ X ∈L1 (μ) und<br />

�<br />

�<br />

(f ◦ X) dμ = fd(μ◦ X −1 ).<br />

Ist speziell X eine Zufallsvariable auf (Ω,A, P),soist<br />

�<br />

�<br />

� �<br />

f(x) P[X ∈ dx] := f(x) PX[dx] = fdPX = f(X(ω)) P[dω].<br />

Beweis. Übung! ✷<br />

Beispiel<br />

�<br />

4.11 (Diskreter Maßraum). Sei (Ω,A) ein diskreter Messraum und μ =<br />

αωδω für gewisse Zahlen αω ≥ 0, ω ∈ Ω. Eine Abbildung f : Ω → R ist<br />

ω∈Ω<br />

genau dann integrierbar, wenn �<br />

|f(ω)| αω < ∞ ist. In diesem Fall gilt<br />

ω∈Ω<br />

�<br />

fdμ= �<br />

f(ω) αω. ✸<br />

ω∈Ω


4.1 Konstruktion und einfache Eigenschaften 89<br />

Definition 4.12 (Lebesgue-Integral). Sei λ das Lebesgue-Maß auf R n und f :<br />

R n → R messbar bezüglich B ∗ (R n ) – B(R) (wobei B ∗ (R n ) die Lebesgue’sche<br />

σ-Algebra ist, siehe Beispiel 1.71) und λ-integrierbar. Dann nennen wir<br />

�<br />

fdλ<br />

das Lebesgue-Integral von f. IstA∈B(Rn ) und f : Rn → R messbar (oder<br />

f : A → R messbar bezüglich B∗ (Rn ) � � – B(R) und damit f A messbar bezüglich<br />

A<br />

B ∗ (R n ) – B(R)), so schreiben wir<br />

�<br />

A<br />

�<br />

fdλ:= f A dλ.<br />

Definition 4.13. Sei μ ein Maß auf (Ω,A) und f : Ω → [0, ∞) messbar. Wir sagen,<br />

dass das durch<br />

�<br />

ν(A) := ( A f) dμ für A ∈A<br />

definierte Maß fμ := ν die Dichte f bezüglich μ hat.<br />

Bemerkung 4.14. Wir müssen noch zeigen, dass ν ein Maß ist und prüfen hierzu<br />

die Bedingung von Satz 1.36 nach. Offenbar ist ν(∅) =0. Endliche Additivität folgt<br />

aus der Additivität des Integrals (Lemma 4.6(iii)) und Stetigkeit von unten aus dem<br />

Satz von der monotonen Konvergenz (Satz 4.20). ✸<br />

Satz 4.15. Es ist g ∈L1 (fμ) genau dann, wenn (gf) ∈L1 (μ). In diesem Fall gilt<br />

�<br />

�<br />

gd(fμ)= (gf) dμ.<br />

Beweis. Die Aussage gilt zunächst für Indikatorfunktionen und wird dann mit den<br />

üblichen Argumenten auf Elementarfunktionen, nichtnegative Funktionen sowie<br />

schließlich auf messbare Funktionen fortgesetzt. ✷<br />

Definition 4.16. Für messbares f : Ω → R definieren wir<br />

��<br />

�f�p := |f| p �1/p dμ , falls p ∈ [1, ∞),<br />

und<br />

�f�∞ := inf � K ≥ 0:μ({|f| >K}) =0 � .<br />

Ferner definieren wir für jedes p ∈ [1, ∞] den Vektorraum<br />

L p �<br />

�<br />

(μ) := f : Ω → R ist messbar und �f�p < ∞ .


90 4 Das Integral<br />

Satz 4.17. Die Abbildung � · �1 ist eine Pseudonorm auf L 1 (μ), das heißt, es gilt<br />

für f,g ∈L 1 (μ) und α ∈ R<br />

�αf�1 = |α|·�f�1<br />

�f + g�1 ≤�f�1 + �g�1<br />

�f�1 ≥ 0 für alle f und �f�1 =0, falls f =0 f.ü.<br />

(4.4)<br />

Beweis. Die erste und dritte Aussage folgen aus Satz 4.9(iii) und Satz 4.8(i). Die<br />

zweite folgt aus Satz 4.9(i), denn es ist |f + g| ≤|f| + |g|, also<br />

�<br />

� �<br />

�f + g�1 = |f + g| dμ ≤ |f| dμ + |g| dμ = �f�1 + �g�1. ✷<br />

Bemerkung 4.18. Tatsächlich ist � · �p für jedes p ∈ [1, ∞] eine Pseudonorm auf<br />

L p (μ). Linearität und Positivität sind klar, und die Dreiecksungleichung ist die Minkowski’sche<br />

Ungleichung, die wir in Satz 7.17 zeigen werden. ✸<br />

Satz 4.19. Seien μ(Ω) < ∞ und 1 ≤ p ′ ≤ p ≤∞. Dann ist Lp (μ) ⊂Lp′ (μ), und<br />

die kanonische Inklusion i : Lp (μ) ↩→ Lp′ (μ), f ↦→ f ist stetig.<br />

Beweis. Sei f ∈L∞ (μ) und p ′ ∈ [1, ∞). Dannist|f| p′<br />

�<br />

|f| p′<br />

�<br />

dμ ≤<br />

�f� p′<br />

∞ dμ = �f� p′<br />

∞ · μ(Ω) < ∞.<br />

≤�f� p′<br />

∞ fast überall, also<br />

Für f,g ∈L∞ (μ) ist also �f − g�p ′ ≤ μ(Ω)1/p′ �f − g�∞ und damit ist i stetig.<br />

Seien nun p, p ′ ∈ [1, ∞) mit p ′ 0 ist<br />

|f − g| p′<br />

= |f − g| p′<br />

{|f−g|≤c} + |f − g| p′<br />

Speziell erhalten wir mit c = �f − g�p<br />

{|f−g|>c} ≤ c p′<br />

+ c p′ −p p<br />

|f − g| .<br />

�<br />

�f − g�p ′ ≤ c p′<br />

μ(Ω)+c p′ � ′<br />

1/p<br />

−p p<br />

�f − g�p =(1+μ(Ω)) 1/p′<br />

�f − g�p.<br />

Also ist i auch in diesem Falle stetig. ✷<br />

Übung 4.1.1 (Folgenräume). Wir nehmen jetzt nicht mehr an, dass μ(Ω) < ∞ ist.<br />

Man zeige: Gibt es ein a>0, sodass für jedes A ∈Aentweder μ(A) =0oder<br />

μ(A) ≥ a gilt, so gilt die zu Satz 4.19 umgekehrte Inklusion<br />

L p′<br />

(μ) ⊂L p (μ), falls 1 ≤ p ′ ≤ p ≤∞. (4.5)<br />


4.2 Monotone Konvergenz und Lemma von Fatou 91<br />

Übung 4.1.2. Sei 1 ≤ p ′


92 4 Das Integral<br />

Beispiel 4.22 (Petersburger Spiel). Wir wollen durch ein Beispiel zeigen, dass auf<br />

die Voraussetzung der Existenz einer integrierbaren Minorante im Lemma von Fatou<br />

nicht verzichtet werden kann. Wir betrachten ein Glücksspiel in einem Casino,<br />

bei dem in jeder Runde ein vom Spieler gewählter Einsatz entweder verdoppelt<br />

zurückgezahlt wird oder verloren geht. Dies ist etwa beim Roulette der Fall, wo der<br />

Spieler zum Beispiel auf Rot“ setzen kann. Kommt eine rote Zahl, so gewinnt der<br />

”<br />

Spieler seinen Einsatz verdoppelt zurück, ansonsten verliert er ihn. Es gibt 37 Felder,<br />

von denen 18 rot sind und 18 schwarz, sowie die Null, die grün ist. Die Gewinnchance<br />

sollte also p = 18 1<br />

37 < 2 betragen. Dieses Glücksspiel werde unendlich oft unabhängig<br />

hintereinander ausgeführt. Wir können es also auf einem Wahrscheinlichkeitsraum<br />

(Ω,A, P) realisieren, wobei (Ω = {−1, 1} N , A =(2 {−1,1} ) ⊗N die von<br />

den Zylindern [ω1,...,ωn] erzeugte σ-Algebra ist und P =((1−p)δ−1 + pδ1) ⊗N<br />

das Produktmaß. Wir bezeichnen mit Dn : Ω →{−1, 1}, ω ↦→ ωn das Ergebnis der<br />

n-ten Runde für jedes n ∈ N. Macht der Spieler in der n-ten Runde den (zufälligen)<br />

Einsatz Hn, so beträgt die Summe der Gewinne nach der n-ten Runde<br />

n�<br />

Sn = HnDn.<br />

i=1<br />

Wir nehmen nun an, dass der Spieler die folgende Strategie verfolgt: In der ersten<br />

Runde ist der Einsatz H1 =1. Gewinnt er, so setzt er in den folgenden Spielen gar<br />

nicht mehr, also ist Hn =0für jedes n ≥ 2, falls D1 =1. Verliert er hingegen, so<br />

setzt er in der zweiten Runde den doppelten Einsatz, also ist H2 =2, falls D1 = −1.<br />

Gibt die zweite Runde einen Gewinn, so setzt er ab der dritten Runde gar nicht<br />

mehr, andernfalls verdoppelt er wiederum seinen Einsatz in der dritten Runde und<br />

so weiter. Wir erhalten also als Strategie<br />

�<br />

0, falls es ein i ∈{1,...,n− 1} gibt mit Di =1,<br />

Hn =<br />

2n−1 , sonst.<br />

Man beachte, dass Hn nur von D1,...,Dn−1 abhängt, also messbar ist bezüglich<br />

σ(D1,...,Dn−1). Dies ist offenbar ein wichtige Forderung an jede Spielstrategie,<br />

da man die Entscheidung über den Einsatz aufgrund der vorhandenen Kenntnis zum<br />

jeweiligen Zeitpunkt treffen muss und nicht in die Zukunft blicken kann.<br />

Die Wahrscheinlichkeit, dass bis zum Zeitpunkt n kein Spiel gewonnen wurde ist<br />

(1 − p) n , also ist P[Sn =1−2n ]=(1−p) n und P[Sn =1]=1− (1 − p) n .Man<br />

erwartet also im Mittel einen Gewinn von<br />

�<br />

Sn dP =(1−p) n (1 − 2 n )+(1− (1 − p) n )=1− � 2(1− p) �n ≤ 0,<br />

da p ≤ 1<br />

2 ist (in den profitablen Spielbanken). Wir setzen nun<br />

�<br />

−∞, falls − 1=D1 = D2 = ...,<br />

S =<br />

1, sonst.


4.3 Lebesgue-Integral versus Riemann-Integral 93<br />

n→∞<br />

�<br />

Dann gilt Sn −→ S f.s., jedoch ist limn→∞ Sn dP < � SdP =1, weil S =1<br />

fast sicher gilt. Nach dem Lemma von Fatou ist dies nur möglich, wenn es keine<br />

integrierbare Minorante zur Folge (Sn)n∈N gibt. Setzen wir ˜ S := inf{Sn : n ∈ N},<br />

so gilt in der Tat P[ ˜ S =1−2n−1 ]=P[D1 = ...= Dn−1 = −1 undDn =1}] =<br />

p(1 − p) n−1 , also � SdP ˜<br />

�∞ = n=1 (1 − 2n−1 ) p(1 − p) n−1 = −∞, weil p ≤ 1<br />

2 .✸<br />

Übung 4.2.1. Sei (Ω,A,μ) ein Maßraum und f ∈L 1 (μ). Man zeige: Zu jedem<br />

ε>0 gibt es ein A ∈Amit μ(A) < ∞ und � � �<br />

A fdμ− � fdμ � �


94 4 Das Integral<br />

Satz 4.23 (Riemann-Integral und Lebesgue-Integral). Sei f : I → R Riemannintegrierbar<br />

auf I =[a, b]. Dann ist f Lebesgue-integrierbar auf I mit Integral<br />

�<br />

I<br />

fdλ=<br />

� b<br />

a<br />

f(x) dx.<br />

Beweis. Sei t so gewählt, dass (4.6) gilt. Nach Voraussetzung gibt es ein n ∈ N<br />

mit |U t n(f)| < ∞ und |O t n(f)| < ∞. Alsoistf beschränkt. Indem wir f durch<br />

f + �f�∞ ersetzen, können wir annehmen, dass f ≥ 0 gilt. Setze<br />

gn := f(b) {b} +<br />

hn := f(b) {b} +<br />

n�<br />

i=1<br />

n�<br />

i1<br />

(inf f([t n i−1,t n i ))) [t n i−1 ,t n i ),<br />

(sup f([t n i−1,t n i ))) [t n i−1 ,t n i ).<br />

Da t n+1 eine Verfeinerung von t n ist, gilt gn ≤ gn+1 ≤ hn+1 ≤ hn. Also existieren<br />

g und h mit gn ↑ g und hn ↓ h. Nach Konstruktion gilt g ≤ h und<br />

�<br />

�<br />

gdλ= lim<br />

I<br />

n→∞<br />

gn dλ = lim<br />

I<br />

n→∞ U t n(f)<br />

� �<br />

hn dλ = hdλ.<br />

= lim<br />

n→∞ Ot n(f) = lim<br />

n→∞<br />

Also ist λ-fast überall h = g. Nach Konstruktion ist g ≤ f ≤ h, und g und h sind als<br />

Limiten von Elementarfunktionen messbar bezüglich B(I) – B(R). Es folgt, dass<br />

für jedes α ∈ R<br />

{f ≤ α} = � {g ≤ α}∩{g = h} � ⊎ � {f ≤ α}∩{g �= h} �<br />

die Vereinigung einer B(I)-Menge mit einer Teilmenge einer Nullmenge ist, also in<br />

B(I) ∗ (der Lebesgue’schen Vervollständigung von B(I)) liegt. Mithin ist f messbar<br />

bezüglich B(I) ∗ . Nach dem Satz über monotone Konvergenz (Satz 4.20) ist<br />

�<br />

I<br />

�<br />

fdλ= lim gn dλ =<br />

n→∞<br />

I<br />

� b<br />

a<br />

I<br />

f(x) dx. ✷<br />

Beispiel 4.24. Sei f :[0, 1] → R, x ↦→ Q. Dannistfoffenbar nicht Riemannintegrierbar,<br />

weil Un(f) =0und On(f) =1für jedes n ∈ N. Andererseits ist f<br />

Lebesgue-integrierbar mit Integral �<br />

fdλ=0,dennQ∩ [0, 1] ist eine Nullmen-<br />

[0,1]<br />

ge. ✸<br />

I


4.3 Lebesgue-Integral versus Riemann-Integral 95<br />

Bemerkung 4.25. Eine uneigentlich Riemann-integrierbare Funktion f auf einem<br />

halboffenen Intervall I =(a, b] oder I =[0, ∞) ist nicht notwendigerweise auch<br />

Lebesgue-integrierbar. Hier wird nämlich das uneigentliche Integral � ∞<br />

f(x) dx :=<br />

� 0<br />

n<br />

limn→∞ f(x) dx durch eine Grenzwertprozedur definiert, die Rücksicht auf die<br />

0<br />

Geometrie von R nimmt. Dies tut das Lebesgue-Integral nicht. So ist die Funktion<br />

f :[0, ∞) → R, x ↦→ 1<br />

1+x sin(x) (uneigentlich) Riemann-integrierbar, jedoch nicht<br />

Lebesgue-integrierbar, weil �<br />

|f| dλ = ∞ ist. ✸<br />

[0,∞)<br />

Wir haben schon gesehen, dass uneigentlich Riemann-integrierbare Funktionen<br />

nicht notwendigerweise auch Lebesgue-integrierbar sind. Andererseits gibt es Lebesgue-integrierbare<br />

Funktionen, die nicht Riemann-integrierbar sind (wie etwa<br />

Q). Geometrisch lässt sich dies so interpretieren, dass das Riemann-Integral die<br />

Geometrie des Integrationsbereiches respektiert, indem es als Grenzwert von Flächen<br />

schmaler senkrechter Streifen entsteht, während das Lebesgue-Integral als Grenzwert<br />

mit flachen waagerechten Streifen gedacht werden kann. Insbesondere macht<br />

dieses Integral gar keine Annahmen an den Definitionsbereich des Integranden, weshalb<br />

es eben universeller einsetzbar ist. Um dies zu unterstreichen, bringen wir einen<br />

Satz, der uns auch ansonsten noch nützlich sein wird.<br />

Satz 4.26. Sei f : Ω → R messbar und f ≥ 0 fast überall. Dann gelten<br />

∞�<br />

μ({f ≥ n}) ≤<br />

�<br />

fdμ ≤<br />

∞�<br />

μ({f >n}) (4.7)<br />

n=1<br />

und �<br />

fdμ =<br />

� ∞<br />

0<br />

n=0<br />

μ({f ≥ t}) dt. (4.8)<br />

Beweis. Setze f ′ = ⌊f⌋ und f ′′ = ⌈f⌉. Dannistf ′ ≤ f ≤ f ′′ und deshalb<br />

� f ′ dμ ≤ � fdμ≤ � f ′′ dμ. Nun ist<br />

�<br />

Analog ist<br />

f ′ dμ =<br />

�<br />

∞�<br />

μ({f ′ = k}) · k =<br />

k=1<br />

f ′′ dμ =<br />

=<br />

=<br />

∞�<br />

k=1 n=1<br />

∞�<br />

n=1 k=n<br />

k�<br />

μ({f ′ = k})<br />

∞�<br />

μ({f ′ = k})<br />

∞�<br />

μ({f ′ ≥ n}) =<br />

n=1<br />

∞�<br />

μ({f ′′ ≥ n}) =<br />

n=1<br />

∞�<br />

μ({f ≥ n}).<br />

n=1<br />

∞�<br />

μ({f >n−1}). n=1


96 4 Das Integral<br />

Hieraus folgt (4.7).<br />

Gilt g(t) :=μ({f ≥ t}) =∞ für ein t>0, so sind beide Seiten in (4.8) gleich ∞.<br />

Sei im Folgenden also g(t) < ∞ für alle t>0.<br />

Für ε>0 und k ∈ N setze f ε := f {f≥ε} sowie f ε k =2kfε und<br />

Dann gilt α ε k<br />

α ε k =2 −k<br />

≤ 2 −k<br />

∞�<br />

α ε k := 2 −k<br />

μ({f<br />

n=1<br />

ε ≥ n2 −k }).<br />

k→∞<br />

−→ � ∞<br />

ε g(t) dt. Ferner gilt nach (4.7) (mit f ε k statt f)<br />

∞�<br />

μ({f ε �<br />

k ≥ n}) ≤ f ε dμ<br />

n=1<br />

∞�<br />

Wegen 2 −k g(ε) k→∞<br />

∞�<br />

μ({f<br />

n=0<br />

ε k >n}) =2 −k<br />

μ({f<br />

n=0<br />

ε >n2 −k }) ≤ α ε k +2 −k g(ε).<br />

−→ 0 folgt � ∞<br />

ε g(t) dt = � f ε dμ. Wegenfε↑f für ε ↓ 0 folgt<br />

(4.8) aus dem Satz über monotone Konvergenz. ✷<br />

Übung 4.3.1. Sei f :[0, 1] → R beschränkt. Zeige: f ist genau dann (eigentlich)<br />

Riemann-integrierbar, wenn fλ-f.ü. stetig ist. ♣<br />

Übung 4.3.2. Ist f :[0, 1] → R Riemann-integrierbar, so ist f Lebesgue-messbar.<br />

Man zeige durch ein Beispiel, dass f nicht Borel-messbar sein muss. (Hinweis: Man<br />

verwende ohne Beweis die Existenz einer Teilmenge von [0, 1], die nicht Borelmessbar<br />

ist und konstruiere hieraus eine nicht-Borel’sche Menge, deren Abschluss<br />

eine Nullmenge ist.) ♣


5 Momente und Gesetze der Großen Zahl<br />

Die wichtigsten Kenngrößen für Zufallsvariablen sind Median, Erwartungswert und<br />

Varianz. Der Erwartungswert beschreibt für großes n den typischen ungefähren<br />

Wert des arithmetischen Mittels (X1 + ... + Xn)/n von u.i.v. Zufallsvariablen<br />

(Gesetz der Großen Zahl). In Kapitel 15 werden wir sehen, wie die Varianz hingegen<br />

die typischen Abweichungen des arithmetischen Mittels vom Erwartungswert<br />

determiniert.<br />

5.1 Momente<br />

Im Folgenden sei (Ω,A, P) ein Wahrscheinlichkeitsraum.<br />

Definition 5.1. Sei X eine Zufallsvariable.<br />

(i) Ist X ∈L1 (P),soheißtXintegrierbar, und wir nennen<br />

�<br />

E[X] := XdP<br />

den Erwartungswert von X. IstE[X] =0,soheißtXzentriert. Etwas allgemeiner<br />

schreiben wir auch E[X] = � XdP, falls nur X− oder X + integrierbar<br />

ist.<br />

(ii) Ist n ∈ N und X ∈Ln (P), so heißen die Größen<br />

mk := E � X k� , Mk := E � |X| k�<br />

für jedes k =1,...,n,<br />

die k-ten Momente beziehungsweise absoluten Momente von X.<br />

(iii) Ist X ∈L2 (P),soheißtXquadratintegrierbar, und wir nennen<br />

Var[X] :=E � X 2� − E[X] 2<br />

die Varianz von X. Die Zahl σ := √ Var[X] heißt die Streuung oder Standardabweichung<br />

von X. Formal setzen wir manchmal Var[X] = ∞, falls<br />

E[X 2 ]=∞ ist.


98 5 Momente und Gesetze der Großen Zahl<br />

(iv) Sind X, Y ∈L 2 (P), sodefinieren wir die Kovarianz von X und Y durch<br />

Cov[X, Y ]:=E �� X − E[X] �� Y − E[Y ] �� .<br />

X und Y heißen unkorreliert, falls Cov[X, Y ]=0ist.<br />

Bemerkung 5.2. (i) Die Definition in (ii) ist sinnvoll, denn für X ∈L n (P) ist<br />

nach Satz 4.19 Mk < ∞ für jedes k =1,...,n.<br />

(ii) Sind X, Y ∈L 2 (P), soistwegen|XY |≤X 2 + Y 2 auch XY ∈L 1 (P).<br />

Deshalb ist die Definition in (iv) sinnvoll, und es gilt<br />

Cov[X, Y ]=E[XY ] − E[X] E[Y ].<br />

Speziell ist Var[X] =Cov[X, X]. ✸<br />

Wir fassen die wichtigsten Rechenregeln für Erwartungswerte als Satz zusammen.<br />

Alle aufgeführten Eigenschaften folgen direkt aus den Eigenschaften des Integrals.<br />

Satz 5.3 (Rechenregeln für den Erwartungswert). Seien X, Y, Xn,Yn, n ∈ N,<br />

reelle integrierbare Zufallsvariablen auf (Ω,A, P). Dann gilt<br />

(i) Ist PX = PY ,soistE[X] =E[Y ].<br />

(ii) (Linearität) Sei c ∈ R. Dann gelten cX ∈L 1 (P) und X + Y ∈L 1 (P) sowie<br />

E[cX] =cE[X] und E[X + Y ]=E[X]+E[Y ].<br />

(iii) Ist X ≥ 0 fast sicher, so gilt<br />

E[X] =0 ⇐⇒ X =0 fast sicher.<br />

(iv) (Monotonie) Gilt X ≤ Y fast sicher, so gilt E[X] ≤ E[Y ] mit Gleichheit<br />

genau dann, wenn X = Y fast sicher.<br />

(v) (Dreiecksungleichung) Es ist � � � �<br />

�E[X] � ≤ E |X| .<br />

�<br />

� ∞�<br />

(vi) Ist Xn ≥ 0 fast sicher für jedes n ∈ N, soistE (vii) Gilt Yn ↑ Y , so gilt E[Y ] = limn→∞ E[Yn].<br />

Xn<br />

n=1<br />

= ∞�<br />

E[Xn].<br />

Die <strong>Wahrscheinlichkeitstheorie</strong> beginnt wieder an der Stelle, wo die Unabhängigkeit<br />

ins Spiel kommt, wir also den Bereich der linearen Integrationstheorie verlassen.<br />

Satz 5.4 (Unabhängige Zufallsvariablen sind unkorreliert).<br />

Seien X, Y ∈ L 1 (P) unabhängig. Dann ist (XY) ∈ L 1 (P) und E[XY ] =<br />

E[X] E[Y ]. Speziell sind unabhängige Zufallsvariablen unkorreliert.<br />

n=1


5.1 Momente 99<br />

Beweis. Wir nehmen zunächst an, dass X und Y nur endlich viele Werte annehmen.<br />

Dann nimmt auch XY nur endlich viele Werte an, speziell ist offenbar<br />

XY ∈L1 (P). Es folgt<br />

E[XY ]= �<br />

z P[XY = z]<br />

z∈R\{0}<br />

= �<br />

�<br />

z∈R\{0} x∈R\{0}<br />

= �<br />

�<br />

y∈R\{0} x∈R\{0}<br />

x∈R<br />

x z<br />

P[X = x, Y = z/x]<br />

x<br />

xy P[X = x] P[Y = y]<br />

�<br />

�<br />

��<br />

�<br />

�<br />

= x P[X = x] y P[Y = y]<br />

= E[X] E[Y ].<br />

Für N ∈ N sind auch die Zufallsvariablen XN := � 2 −N � 2 N |X| �� ∧ N und YN :=<br />

� 2 −N � 2 N |Y | �� ∧ N, die nur endlich viele Werte annehmen, unabhängig, und es<br />

gilt XN ↑|X| sowie YN ↑|Y |. Nach dem Satz von der monotonen Konvergenz<br />

(Satz 4.20) ist daher<br />

y∈R<br />

E[|XY |] = lim<br />

N→∞ E[XN YN ] = lim<br />

N→∞ E[XN ] E[YN ]<br />

�<br />

= lim<br />

N→∞ E[XN<br />

��<br />

] lim<br />

N→∞ E[YN<br />

�<br />

] = E[|X|] E[|Y |] < ∞.<br />

Also ist XY ∈L 1 (P). Außerdem haben wir damit den Satz gezeigt für den Fall,<br />

wo X und Y nichtnegativ sind. Daher (und weil jede der Familien {X + ,Y + },<br />

{X − ,Y + }, {X + ,Y − } und {X − ,Y − } unabhängig ist) gilt<br />

E[XY ]=E[(X + − X − )(Y + − Y − )]<br />

= E[X + Y + ] − E[X − Y + ] − E[X + Y − ]+E[X − Y − ]<br />

= E[X + ] E[Y + ] − E[X − ] E[Y + ] − E[X + ] E[Y − ]+E[X − ] E[Y − ]<br />

= E[X + − X − ] E[Y + − Y − ]=E[X] E[Y ]. ✷<br />

Satz 5.5 (Wald’sche Identität). Seien T,X1,X2,... unabhängige, reelle Zufallsvariablen<br />

in L1 (P). EsseiP[T ∈ N0] =1, und es seien X1,X2,... identisch<br />

verteilt. Wir setzen<br />

T�<br />

ST := Xi.<br />

i=1<br />

Dann ist ST ∈L 1 (P) und E[ST ]=E[T ] E[X1].<br />

Beweis. Setze Sn = �n i=1 Xi für n ∈ N0. DannistST = �∞ n=1 Sn {T =n}.<br />

Nach Bemerkung 2.15 sind Sn und {T =n} unabhängig für jedes n ∈ N und damit<br />

unkorreliert. Es folgt (mit Hilfe der Dreiecksungleichung, siehe Satz 5.3(v))


100 5 Momente und Gesetze der Großen Zahl<br />

E � |ST | � =<br />

≤<br />

∞�<br />

n=1<br />

E � �<br />

|Sn| {T =n} =<br />

∞�<br />

n=1<br />

E � |Sn| � E � �<br />

{T =n}<br />

∞�<br />

E � |X1| � n P[T = n] =E[|X1|] E[T ].<br />

n=1<br />

Die selbe Rechnung ohne Betragstriche liefert den Rest der Behauptung. ✷<br />

Wir stellen hier ein paar einfache Eigenschaften der Varianz zusammen.<br />

Satz 5.6. Sei X ∈L 2 (P). Dann gilt:<br />

(i) Var[X] =E � (X − E[X]) 2� ≥ 0,<br />

(ii) Var[X] =0 ⇐⇒ X = E[X] fast sicher,<br />

(iii) Die Abbildung f : R → R, x ↦→ E � (X −x) 2� ist minimal genau in x0 = E[X]<br />

mit f(E[X]) = Var[X].<br />

Beweis. (i) Klar nach Bemerkung 5.2(ii).<br />

(ii) Nach Satz 5.3(iii) ist E � (X − E[X]) 2� =0 ⇐⇒ (X − E[X]) 2 =0f.s.<br />

(iii) Es ist f(x) =E[X 2 ] − 2x E[X]+x 2 = Var[X]+(x − E[X]) 2 . ✷<br />

Satz 5.7. Die Abbildung Cov : L2 (P) ×L2 (P) → R ist eine positiv semidefinite<br />

symmetrische Bilinearform, und es gilt Cov[X, Y ]=0, falls Y fast sicher konstant<br />

ist. Ausgeschrieben heißt dies: Für X1,..., Xm, Y1,..., Yn ∈L2 (P) und<br />

α1,...,αm, β1,...,βn ∈ R, sowie d, e ∈ R gilt<br />

⎡<br />

⎤<br />

m�<br />

n�<br />

Cov ⎣d + αiXi,e+ ⎦ = �<br />

αiβj Cov[Xi,Yj]. (5.1)<br />

i=1<br />

βjYj<br />

j=1<br />

Speziell gilt die Bienaymé-Gleichung<br />

�<br />

m�<br />

�<br />

m�<br />

Var = Var[Xi]+<br />

Xi<br />

i=1<br />

i=1<br />

i,j<br />

m�<br />

i,j=1<br />

i�=j<br />

Cov[Xi,Xj]. (5.2)<br />

Für unkorrelierte X1,...,Xm gilt Var [ � m<br />

i=1 Xi] = � m<br />

i=1 Var[Xi].


Beweis.<br />

� m�<br />

Cov d + αi Xi, e+<br />

i=1<br />

n�<br />

j=1<br />

��<br />

�m<br />

= E<br />

=<br />

=<br />

m�<br />

i=1<br />

i=1 j=1<br />

m�<br />

i=1 j=1<br />

βj Yj<br />

�<br />

��<br />

�n<br />

αi(Xi − E[Xi])<br />

j=1<br />

5.1 Momente 101<br />

��<br />

βj(Yj − E[Yj])<br />

n�<br />

αiβj E � (Xi − E[Xi])(Yj − E[Yj]) �<br />

n�<br />

αiβj Cov[Xi,Yj]. ✷<br />

Satz 5.8 (Cauchy-Schwarz’sche Ungleichung). Sind X, Y ∈L2 (P), sogilt<br />

� �2 Cov[X, Y ] ≤ Var[X] Var[Y ].<br />

Es gilt genau dann Gleichheit, wenn es a, b, c ∈ R gibt aX + bY + c =0 f.s.<br />

Beweis. Die Cauchy-Schwarz’sche Ungleichung gilt für jede positiv semidefinite<br />

Bilinearform 〈 · , · 〉 auf einem Vektorraum V . Es gilt jeweils genau dann Gleichheit<br />

〈x, y〉 2 = 〈x, x〉〈y, y〉, wenn es Zahlen a, b ∈ R gibt mit 〈ax − by, ax − by〉 =0.<br />

Wenden wir dies auf die positiv semidefinite Bilinearform Cov[ · , · ] auf L2 (P)<br />

an, so erhalten wir die Cauchy-Schwarz’sche Ungleichung für X, Y ∈L2 (P) mit<br />

Gleichheit genau dann, wenn Var[aX + bY ]=0, also genau dann, wenn (vergleiche<br />

Satz 5.6(ii)) aX + bY = c := E[aX + bY ] fast sicher.<br />

Zeigen wir nun also die Aussage für die allgemeine positiv semidefinite Bilinearform<br />

auf R. Ohne Einschränkung gilt 〈y, y〉 > 0 (sonst ist die Aussage trivial). Es<br />

gilt dann mit θ = − 〈x,y〉<br />

〈y,y〉<br />

0 ≤ � x + θy, x + θy � �<br />

〈y, y〉 = 〈x, x〉 +2θ〈x, y〉 + θ 2 �<br />

〈y, y〉 〈y, y〉<br />

= 〈x, x〉〈y, y〉−〈x, y〉 2 . ✷<br />

Beispiel 5.9. (i) Es sei p ∈ [0, 1] und X ∼ Berp. DannistE[X 2 ]=E[X] =<br />

P[X =1]=p und damit Var[X] =p(1 − p).<br />

(ii) Seien n ∈ N und p ∈ [0, 1] sowie X binomialverteilt X ∼ bn,p. Dannist


102 5 Momente und Gesetze der Großen Zahl<br />

Ferner ist<br />

E[X] =<br />

n�<br />

kP[X = k] =<br />

k=0<br />

= np ·<br />

E[X(X − 1)] =<br />

=<br />

n�<br />

k=1<br />

n�<br />

� �<br />

n<br />

k p<br />

k<br />

k (1 − p) n−k<br />

k=0<br />

� �<br />

n − 1<br />

p<br />

k − 1<br />

k−1 (1 − p) (n−1)−(k−1) = np.<br />

n�<br />

k(k − 1) P[X = k]<br />

k=0<br />

n�<br />

� �<br />

n<br />

k(k − 1) p<br />

k<br />

k (1 − p) n−k<br />

k=0<br />

= np ·<br />

n�<br />

� �<br />

n − 1<br />

(k − 1) p<br />

k − 1<br />

k−1 (1 − p) (n−1)−(k−1)<br />

k=1<br />

= n(n − 1)p 2 ·<br />

= n(n − 1)p 2 .<br />

n�<br />

k=2<br />

� �<br />

n − 2<br />

p<br />

k − 2<br />

k−2 (1 − p) (n−2)−(k−2)<br />

Also ist E[X 2 ]=E[X(X − 1)] + E[X] =n 2 p 2 + np(1 − p) und damit Var[X] =<br />

np(1 − p).<br />

Etwas einfacher als durch die direkte Berechnung sehen wir dies ein, indem wir<br />

bemerken (siehe nach Beispiel 3.4(ii)), dass bn,p = b ∗n<br />

1,p. Das heißt, es gilt (siehe<br />

Satz 2.31) PX = PY1+...+Yn ,woY1,...,Yn unabhängig sind und Yi ∼ Berp für<br />

jedes i =1,...,n. Es folgt<br />

E[X] = nE[Y1] = np<br />

Var[X] = nVar[Y1] = np(1 − p).<br />

(iii) Seien μ ∈ R und σ 2 > 0 sowie X normalverteilt X ∼N μ,σ 2.Dannist<br />

E[X] =<br />

=<br />

1<br />

√ 2πσ 2<br />

1<br />

√ 2πσ 2<br />

= μ +<br />

� ∞<br />

−∞<br />

� ∞<br />

1<br />

√ 2πσ 2<br />

−∞<br />

� ∞<br />

xe −(x−μ)2 /(2σ 2 ) dx<br />

(x + μ) e −x2 /(2σ 2 ) dx<br />

−∞<br />

Ähnlich folgt Var[X] =E[X 2 ] − μ 2 = ...= σ 2 .<br />

xe −x2 /(2σ 2 ) dx = μ<br />

(5.3)<br />

(5.4)


(iv) Sei θ>0 und X exponentialverteilt X ∼ exp θ.Dannist<br />

E[X] =θ<br />

� ∞<br />

Var[X] =−θ −2 + θ<br />

0<br />

xe −θx dx = 1<br />

θ ,<br />

� ∞<br />

x<br />

0<br />

2 e −θx dx = θ −2<br />

�<br />

−1+<br />

� ∞<br />

0<br />

5.1 Momente 103<br />

x 2 e −x �<br />

dx = θ −2 . ✸<br />

Satz 5.10 (Blackwell-Girshick). Seien T,X1,X2,...unabhängige, reelle Zufallsvariablen<br />

in L2 (P). EsseiP[T ∈ N0] =1, und es seien X1,X2,... identisch<br />

verteilt. Wir setzen<br />

T�<br />

ST := Xi.<br />

Dann ist ST ∈L 2 (P) und<br />

i=1<br />

Var[ST ]=E[X1] 2 Var[T ]+E[T ] Var[X1].<br />

Beweis. Wir setzen Sn = � n<br />

i=1 Xi für n ∈ N. Dann sind (wie beim Beweis der<br />

Wald’schen Identität) Sn und {T =n} unabhängig, also S 2 n und {T =n} unkorreliert<br />

und damit<br />

E � S 2 �<br />

T =<br />

=<br />

=<br />

=<br />

∞�<br />

n=0<br />

∞�<br />

n=0<br />

E � {T =n} S 2� n<br />

E[ {T =n}] E � S 2� n<br />

∞�<br />

P[T = n] � Var[Sn]+E[Sn] 2�<br />

n=0<br />

∞�<br />

n=0<br />

�<br />

P[T = n] n Var[X1]+n 2 E[X1] 2�<br />

= E[T ] Var[X1]+E � T 2� E[X1] 2 .<br />

Nach der Wald’schen Identität (Satz 5.5) ist E[ST ]=E[T ] E[X1], also ist<br />

Var[ST ]=E � S 2 �<br />

T − E[ST ] 2 = E[T ] Var[X1]+ � E � T 2� − E[T ] 2� E[X1] 2 .<br />

Dies ist aber die Behauptung. ✷<br />

Übung 5.1.1. Man zeige (mit Satz 4.15): Ist X eine integrierbare reelle Zufallsvariable,<br />

deren Verteilung PX die Dichte f (bezüglich des Lebesgue-Maßes λ) besitzt,<br />

so gilt<br />

�<br />

E[X] = xf(x) λ(dx). ♣<br />

R


104 5 Momente und Gesetze der Großen Zahl<br />

Übung 5.1.2. Sei X ∼ βr,s eine Beta-verteilte Zufallsvariable mit Parametern<br />

r, s > 0 (vergleiche Beispiel 1.107(ii)). Man zeige<br />

E[X n ]=<br />

n−1 �<br />

k=0<br />

r + k<br />

r + s + k<br />

für jedes n ∈ N. ♣<br />

Übung 5.1.3. Es seien X1,X2,...u.i.v. nichtnegative Zufallsvariablen. Man zeige<br />

mit Hilfe des Lemmas von Borel-Cantelli:<br />

1<br />

lim sup<br />

n→∞ n Xn<br />

�<br />

0 f.s., falls E[X1] < ∞,<br />

=<br />

♣<br />

∞ f.s., falls E[X1] =∞.<br />

Übung 5.1.4. Es seien X1,X2,... u.i.v. nichtnegative Zufallsvariablen Man zeige<br />

mit Hilfe des Lemmas von Borel-Cantelli: Für jedes c ∈ (0, 1) gilt<br />

∞�<br />

lim sup e<br />

n→∞<br />

Xn c n<br />

�<br />

< ∞ f.s., falls E[X1] < ∞,<br />

♣<br />

= ∞ f.s., falls E[X1] =∞.<br />

n=1<br />

5.2 Schwaches Gesetz der Großen Zahl<br />

Satz 5.11 (Markov’sche Ungleichung, Chebyshev’sche Ungleichung).<br />

Sei X eine Zufallsvariable und f :[0, ∞) → [0, ∞) monoton wachsend. Dann<br />

gilt für jedes ε>0 mit f(ε) > 0 die Markov’sche Ungleichung<br />

P � |X| ≥ε � ≤ E[f(|X|)]<br />

.<br />

f(ε)<br />

Im Spezialfall f(x) =x 2 erhalten wir P � |X| ≥ε � ≤ ε −2 E � X 2� und, falls<br />

X ∈L 2 (P), insbesondere die Chebyshev’sche Ungleichung<br />

Beweis. Es gilt<br />

P � |X − E[X]| ≥ε � ≤ ε −2 Var[X].<br />

E[f(|X|)] ≥ E � �<br />

f(|X|) {f(|X|)≥f(ε)}<br />

≥ E � �<br />

f(ε) {f(|X|)≥f(ε)}<br />

≥ f(ε) P � |X| ≥ε � . ✷


5.2 Schwaches Gesetz der Großen Zahl 105<br />

Definition 5.12. Sei (Xn)n∈N eine Folge reeller Zufallsvariablen in L 1 (P) und<br />

�Sn = � n<br />

i=1 (Xi − E[Xi]).<br />

(i) Wir sagen, (Xn)n∈N genüge dem schwachen Gesetz der großen Zahl, falls<br />

lim<br />

n→∞ P<br />

��<br />

��� 1<br />

n � �<br />

�<br />

Sn�<br />

� >ε<br />

�<br />

=0 für jedes ε>0.<br />

(ii) Wir sagen, (Xn)n∈N genüge dem starken Gesetz der großen Zahl, falls<br />

� �<br />

�<br />

P lim sup �<br />

1<br />

�<br />

n→∞ n � �<br />

�<br />

Sn�<br />

� =0<br />

�<br />

=1.<br />

Bemerkung 5.13. Das starke Gesetz der großen Zahl impliziert das schwache. Ist<br />

nämlich Aε ��� 1<br />

n := n � � � � �<br />

Sn�<br />

>ε und A = lim sup � 1<br />

n<br />

n→∞<br />

� � �<br />

Sn�<br />

> 0 , so gilt offenbar<br />

A = �<br />

lim sup A<br />

n→∞<br />

m∈N<br />

1/m<br />

n ,<br />

�<br />

also P lim sup A<br />

n→∞<br />

ε �<br />

n =0für ε>0. Nach dem Lemma von Fatou (Satz 4.21) ist<br />

�<br />

lim sup P [A<br />

n→∞<br />

ε n]=1− lim inf<br />

n→∞ E � (Aε n )c<br />

�<br />

≤ 1 − E lim inf<br />

n→∞<br />

(Aε n )c<br />

�<br />

�<br />

= E lim sup<br />

n→∞<br />

Aε n<br />

�<br />

= 0. ✷<br />

Satz 5.14. Seien X1,X2,... unkorrelierte Zufallsvariablen in L2 (P) mit V :=<br />

supn∈N Var[Xn] < ∞. Dann genügt (Xn)n∈N dem schwachen Gesetz der großen<br />

Zahl. Es gilt sogar für jedes ε>0<br />

��<br />

��� 1<br />

P<br />

n � � �<br />

�<br />

Sn�<br />

� ≥ ε<br />

≤ V<br />

ε 2 n<br />

für jedes n ∈ N. (5.5)<br />

Beweis. Ohne Einschränkung sei E[Xi] = 0 für jedes i ∈ N und damit Sn =<br />

X1 + ···+ Xn. Nach der Formel von Bienaymé (Satz 5.7) ist<br />

Var<br />

� 1<br />

n � Sn<br />

�<br />

= n −2<br />

n�<br />

i=1<br />

Var [Xi] ≤ V<br />

n .<br />

Nach der Chebyshev’schen Ungleichung (Satz 5.11) gilt für ε>0<br />

P � | � Sn/n| >ε � ≤ V<br />

ε 2 n<br />

n→∞<br />

−→ 0. ✷


106 5 Momente und Gesetze der Großen Zahl<br />

Beispiel 5.15 (Weierstraß’scher Approximationssatz). Sei f :[0, 1] → R eine<br />

stetige Abbildung. Nach dem Weierstraß’schen Approximationssatz existieren Polynome<br />

fn vom Grad höchstens n, sodass<br />

�fn − f�∞<br />

n→∞<br />

−→ 0,<br />

wobei �f�∞ := sup{|f(x)| : x ∈ [0, 1]} die Supremumsnorm von f ∈ C([0, 1])<br />

bezeichnet.<br />

Wir führen hier einen probabilistischen Beweis dieser Aussage vor. Für n ∈ N sei<br />

das Polynom fn definiert durch<br />

n�<br />

� �<br />

n<br />

fn(x) := f(k/n) x<br />

k<br />

k (1 − x) n−k<br />

für x ∈ [0, 1].<br />

k=0<br />

Dieses Polynom heißt Bernstein-Polynom der Ordnung n.<br />

Sei ε>0 fest gewählt. Da f auf [0, 1] stetig ist, ist f sogar gleichmäßig stetig. Es<br />

existiert also ein δ>0, sodass<br />

|f(x) − f(y)|


5.3 Starkes Gesetz der Großen Zahl 107<br />

P � Sn ≥ (1 + δ)m � �<br />

e<br />

≤<br />

δ<br />

(1 + δ) 1+δ<br />

�m<br />

und<br />

P � Sn ≤ (1 − δ)m � �<br />

≤ exp − δ2 �<br />

m<br />

.<br />

2<br />

Hinweis: Verwende für Sn die Markov’sche Ungleichung mit f(x) =eλx für gewisses<br />

λ>0 und finde dasjenige λ, das die Abschätzung optimiert. ♣<br />

5.3 Starkes Gesetz der Großen Zahl<br />

Wir kommen nun zu einem starken Gesetz der großen Zahl, nämlich dem in der<br />

Form von Etemadi für identisch verteilte, paarweise unabhängige Zufallsvariablen.<br />

Es gibt viele verschiedene Formen von starken Gesetzen der großen Zahl, die unterschiedliche<br />

Voraussetzungen machen. So kann man darauf verzichten, dass die<br />

Zufallsvariablen identisch verteilt sind, wenn man stärkere Annahmen, etwa beschränkte<br />

Varianzen, macht und so weiter. Wir werden hier nicht bis in alle Tiefen<br />

gehen, sondern nur exemplarisch ein paar Aussagen vorstellen. Um die Methode für<br />

den Beweis des Satzes von Etemadi zu illustrieren, stellen wir zunächst ein Starkes<br />

Gesetz der großen Zahl unter stärkeren Annahmen vor.<br />

Satz 5.16. Sind X1,X2,... ∈L 2 (P) paarweise unabhängig (das heißt, Xi und<br />

Xj sind unabhängig für alle i, j ∈ N mit i �= j) und identisch verteilt, so genügt<br />

(Xn)n∈N dem starken Gesetz der großen Zahl.<br />

Beweis. Es sind (X + n )n∈N und (X− n )n∈N wieder paarweise unabhängige Familien<br />

quadratintegrierbarer Zufallsvariablen (vergleiche Bemerkung 2.15(ii)). Es reicht<br />

daher, (X + n )n∈N zu betrachten. Wir nehmen also im Folgenden an, dass Xn ≥ 0 ist<br />

fast sicher für jedes n ∈ N.<br />

Sei Sn = X1 + ...+ Xn für n ∈ N. Wähle ε>0. Für jedes n ∈ N setzen wir<br />

kn = ⌊(1 + ε) n⌋≥ 1<br />

2 (1 + ε)n . Dann ist nach der Chebyshev’schen Ungleichung<br />

(Satz 5.11)<br />

∞�<br />

n=1<br />

��<br />

��� Skn<br />

P<br />

kn<br />

�<br />

�<br />

�<br />

∞�<br />

− E[X1] �<br />

� ≥ (1 + ε)−n/4 ≤ (1 + ε) n/2 Var � k −1<br />

=<br />

n=1<br />

∞�<br />

n Skn<br />

(1 + ε)<br />

n=1<br />

n/2 k −1<br />

n Var[X1]<br />

≤ 2 Var[X1]<br />

∞�<br />

(1 + ε) −n/2 < ∞.<br />

n=1<br />

�<br />

(5.6)


108 5 Momente und Gesetze der Großen Zahl<br />

Nach dem Lemma von Borel-Cantelli gibt es daher für P-f.a. ω ein n0 = n0(ω) mit<br />

�<br />

�<br />

�Skn<br />

�<br />

�<br />

� − E[X1] �<br />

� < (1 + ε)−n/4 für jedes n ≥ n0.<br />

kn<br />

Also gilt<br />

�<br />

�<br />

lim sup �k<br />

n→∞<br />

−1<br />

�<br />

�<br />

n Skn − E[X1] � =0 fast sicher.<br />

Für hinreichend großes n ∈ N ist kn+1 ≤ (1 + 2ε)kn. Für l ∈{kn,...,kn+1} ist<br />

dann<br />

1<br />

1+2ε k−1<br />

n Skn<br />

≤ k−1<br />

n+1 Skn ≤ l−1 Sl ≤ k −1<br />

n Skn+1<br />

≤ (1 + 2ε) k−1 Skn+1 n+1 .<br />

Wegen 1 − (1 + 2ε) −1 ≤ 2ε folgt<br />

�<br />

�<br />

lim sup �l<br />

l→∞<br />

−1 �<br />

�<br />

�<br />

�<br />

Sl − E[X1] � ≤ lim sup �k<br />

n→∞<br />

−1<br />

�<br />

�<br />

n Skn − E[X1] � +2ε lim sup<br />

n→∞<br />

≤ 2ε E[X1] fast sicher,<br />

k −1<br />

n Skn<br />

und damit gilt das starke Gesetz der großen Zahl. ✷<br />

Die Ähnlichkeit der Varianzabschätzungen im schwachen Gesetz der großen Zahl<br />

und in (5.6) legen nahe, dass im vorangehenden Satz auf die Bedingung verzichtet<br />

werden kann, dass die Zufallsvariablen X1,X2,... identisch verteilt sind, wenn<br />

man nur fordert, dass die Varianzen beschränkt sind (siehe Übung 5.3.1).<br />

Wir können die Bedingung in Satz 5.16 in anderer Weise abschwächen, indem wir<br />

nur Integrierbarkeit statt Quadratintegrierbarkeit der Zufallsvariablen fordern.<br />

Satz 5.17 (Starkes Gesetz der großen Zahl von Etemadi (1981)). Es seien<br />

X1,X2,... ∈L 1 (P) paarweise unabhängig und identisch verteilt. Dann genügt<br />

(Xn)n∈N dem starken Gesetz der großen Zahl.<br />

Wir folgen dem Beweis in [38]. Setze im Folgenden μ = E[X1]. Zur Vorbereitung<br />

des Beweises stellen wir ein paar Lemmata bereit.<br />

Lemma 5.18. Für n ∈ N seien Yn := Xn {|Xn|≤n} und Tn = Y1 + ···+ Yn. Die<br />

Folge (Xn)n∈N erfüllt das starke Gesetz der großen Zahl, falls Tn/n n→∞<br />

−→ μ f.s.<br />

Beweis. Nach Satz 4.26 ist ∞�<br />

P<br />

n=1<br />

� |Xn| >n � ≤ E � |X1| � < ∞. Nach dem Lemma<br />

von Borel-Cantelli ist daher<br />

P � Xn �= Yn für unendlich viele n � =0.<br />

Es gibt also ein n0 = n0(ω) mit Xn = Yn für jedes n ≥ n0. Daher gilt für n ≥ n0<br />

Tn − Sn<br />

n<br />

= Tn0 − Sn0<br />

n<br />

n→∞<br />

−→ 0. ✷


5.3 Starkes Gesetz der Großen Zahl 109<br />

Lemma 5.19. Für jedes x ≥ 0 ist 2x �<br />

n −2 ≤ 4.<br />

n>x<br />

Beweis. Für m ∈ N ist nach dem Integralvergleichskriterium<br />

Lemma 5.20. Es gilt<br />

∞�<br />

n<br />

n=m<br />

−2 ≤ m −2 � ∞<br />

+<br />

m<br />

∞�<br />

n=1<br />

E � Y 2 �<br />

n<br />

n2 ≤ 4 E[|X1|].<br />

t −2 dt = m −2 + m −1 ≤ 2<br />

. ✷<br />

m<br />

Beweis. Nach Satz 4.26 ist E � Y 2 � � ∞<br />

n = 0 P�Y 2 n > t � dt. Mit der Substitution<br />

x = √ t erhalten wir<br />

E � Y 2� n =<br />

� ∞<br />

0<br />

2x P[|Yn| >x] dx ≤<br />

� n<br />

0<br />

2x P[|X1| >x] dx.<br />

Nach dem Satz über monotone Konvergenz und Lemma 5.19 gilt für m →∞<br />

�<br />

m�<br />

�<br />

fm(x) =<br />

2x P[|X1| >x] ↑ f(x) ≤ 4 P[|X1| >x].<br />

n=1<br />

n −2 {xx] dx =4E[|X1|]. ✷<br />

Beweis von Satz 5.17 Wie im Beweis von Satz 5.16 reicht es, Xn ≥ 0 zu betrachten.<br />

Wähle ε>0 und setze α =1+ε.Für n ∈ N setzen wir kn = ⌊α n ⌋ und haben<br />

speziell kn ≥ α n /2. Es ist also (mit n0 = ⌈log m/ log α⌉)<br />

�<br />

n: kn≥m<br />

k −2<br />

n ≤ 4<br />

∞�<br />

n=n0<br />

α −2n =4α −2n0 (1 − α −2 ) −1 ≤ 4(1 − α −2 ) −1 m −2 . (5.7)<br />

Unser Ziel ist es, mit Hilfe von Lemma 5.20 die Abschätzung (5.6) für (Yn)n∈N<br />

und (Tn)n∈N zu verfeinern. Die Chebyshev’sche Ungleichung liefert (zusammen<br />

mit (5.7)) wiederum für δ>0


110 5 Momente und Gesetze der Großen Zahl<br />

∞�<br />

P �� �Tkn − E� �� �<br />

Tkn<br />

� −2<br />

>δkn ≤ δ<br />

n=1<br />

= δ −2<br />

∞�<br />

n=1<br />

k −2<br />

n<br />

∞�<br />

n=1<br />

Var [Tkn ]<br />

k 2 n<br />

kn�<br />

Var[Ym] =δ −2<br />

m=1<br />

≤ 4(1 − α −2 ) −1 δ −2<br />

∞�<br />

m=1<br />

∞�<br />

Var[Ym] �<br />

m=1<br />

n: kn≥m<br />

k −2<br />

n<br />

m −2 E � Y 2 �<br />

m < ∞ nach Lemma 5.20.<br />

(Im dritten Schritt durften wir die Summationsreihenfolge vertauschen, weil alle<br />

Summanden nichtnegativ sind.) Da δ>0 beliebig war, folgt (mit dem Lemma von<br />

Borel-Cantelli)<br />

Tkn − E [Tkn ]<br />

lim<br />

=0<br />

n→∞ kn<br />

fast sicher. (5.8)<br />

Nach dem Satz über monotone Konvergenz (Satz 4.20) gilt<br />

E[Yn] =E � X1<br />

� n→∞<br />

{|X1|≤n} −→ E[X1].<br />

n→∞<br />

Also gilt E[Tkn ]/kn −→ E[X1] und wegen (5.8) auch Tkn /kn<br />

Wie im Beweis von Satz 5.16 gilt jetzt auch (weil Yn ≥ 0)<br />

Tl<br />

lim<br />

l→∞ l = E[X1] fast sicher.<br />

n→∞<br />

−→ E[X1] f.s.<br />

Nach Lemma 5.18 folgt hieraus die Behauptung von Satz 5.17. ✷<br />

Beispiel 5.21 (Monte Carlo Integration). Betrachte eine Funktion f :[0, 1] → R,<br />

deren Integral I := � 1<br />

f(x) dx numerisch bestimmt werden soll. Wir nehmen an,<br />

0<br />

dass uns der Computer Zahlen X1,X2,... generiert, die wir als unabhängige Zufallszahlen<br />

auffassen können, die auf [0, 1] gleichverteilt sind. Für n ∈ N definieren<br />

wir den Schätzwert<br />

�In := 1<br />

n�<br />

f(Xi).<br />

n<br />

i=1<br />

Unter der Annahme, dass f ∈L1 ([0, 1]) ist, liefert das starke Gesetz der großen<br />

Zahl � n→∞<br />

In −→ I fast sicher.<br />

Allerdings haben wir im letzten Satz keine Aussage zur Geschwindigkeit der Konvergenz,<br />

also zur Größe P[| � In − I| >ε] bekommen. Um genauere Schätzungen für<br />

das Integral zu bekommen, benötigen wir zusätzliche Information, etwa den Wert<br />

V1 := � f 2 (x) dx − I2 , falls f ∈L2 ([0, 1]) ist. (Für beschränktes f etwa lässt sich<br />

V1 leicht nach oben abschätzen.) Dann ist nämlich Var[ � In] =V1/n, also ist nach<br />

der Chebyshev’schen Ungleichung<br />

�<br />

P | � In − I| >εn −1/2�<br />

≤ V1/ε 2 .


5.3 Starkes Gesetz der Großen Zahl 111<br />

Der Fehler ist mithin maximal von der Größenordnung n−1/2 . Der Zentrale Grenzwertsatz<br />

wird uns zeigen, dass der Fehler exakt von dieser Ordnung ist.<br />

Wenn über f minimale Glattheitseigenschaften bekannt sind, so liefern die gängigen<br />

numerischen Verfahren sehr viel bessere Konvergenzordnungen. Die hier beschriebene<br />

Monte Carlo Simulation sollte also nur angewandt werden, wenn alle anderen<br />

Verfahren ungeeignet sind. Speziell ist dies der Fall, wenn statt [0, 1] ein Gebiet<br />

G ⊂ Rd für sehr großes d betrachtet wird. ✸<br />

Definition 5.22 (Empirische Verteilungsfunktion). Seien X1,X2,... reelle Zufallsvariablen.<br />

Dann heißt die Abbildung F : R → [0, 1], x ↦→ 1<br />

n�<br />

n<br />

i=1 (−∞,x](Xi)<br />

die empirische Verteilungsfunktion von X1,...,Xn.<br />

Satz 5.23 (Glivenko-Cantelli). Seien X1,X2,...u.i.v. reelle Zufallsvariablen mit<br />

Verteilungsfunktion F , und seien Fn, n ∈ N, die empirischen Verteilungsfunktionen.<br />

Dann gilt<br />

lim sup<br />

n→∞<br />

�<br />

sup �Fn(x) − F (x)<br />

x∈R<br />

� � =0 fast sicher.<br />

Beweis. Wähle ein x ∈ R und setze Yn(x) = (−∞,x](Xn) und Zn(x) =<br />

(−∞,x)(Xn) für n ∈ N. Wirdefinieren außerdem die linksseitigen Limiten<br />

F (x−) = limy↑x F (y) und analog für Fn. Dann sind (Yn(x))n∈N und (Zn(x))n∈N<br />

jeweils unabhängige Familien und E[Yn(x)] = P[Xn ≤ x] = F (x) sowie<br />

E[Zn(x)] = P[Xn


112 5 Momente und Gesetze der Großen Zahl<br />

und<br />

Also gilt<br />

Fn(x) ≥ Fn(xj−1) ≥ F (xj−1) − Rn ≥ F (x) − Rn − 1<br />

N .<br />

lim sup<br />

n→∞<br />

�<br />

sup �Fn(x) − F (x)<br />

x∈R<br />

� �<br />

1<br />

≤<br />

N<br />

+ lim sup Rn =<br />

n→∞<br />

1<br />

N .<br />

Indem wir N →∞gehen lassen, folgt die Behauptung. ✷<br />

Beispiel 5.24 (Satz von Shannon). Wir betrachten eine Informationsquelle, die<br />

zufällig (und unabhängig) hintereinander Zeichen X1,X2,... eines endlichen Alphabets<br />

E (also einer beliebigen endlichen Menge) ausgibt. Dabei soll pe die<br />

Wahrscheinlichkeit für das Auftreten des Zeichens e ∈ E sein. Formal sind also<br />

X1,X2,...u.i.v. E-wertige Zufallsvariablen mit P[Xi = e] =pe für e ∈ E.<br />

Sei für jedes ω ∈ Ω und n ∈ N<br />

πn(ω) :=<br />

n�<br />

pXi(ω) die Wahrscheinlichkeit, dass die beobachtete Sequenz X1(ω),...,Xn(ω) auftritt.<br />

Wir setzen Yn := − log(pXn(ω)). Dannist(Yn)n∈Nu.i.v. und E[Yn] = H(p),<br />

wobei<br />

H(p) :=− �<br />

pe log(pe)<br />

i=1<br />

e∈E<br />

die Entropie der Verteilung p =(pe)e∈E ist. Aus dem starken Gesetz der großen<br />

Zahl folgt der Satz von Shannon:<br />

− 1<br />

n log πn = 1<br />

n<br />

n�<br />

i=1<br />

Yi<br />

Entropie und Quellenkodierungssatz ∗<br />

n→∞<br />

−→ H(p) fast sicher. ✸<br />

Wir wollen kurz auf die Bedeutung von πn und der Entropie eingehen. Wie groß ist<br />

die ” Information“, die in einer Nachricht X1(ω),...,Xn(ω) steckt? Diese Information<br />

kann man messen durch die Länge der kürzesten Folge von Nullen und Einsen,<br />

mit der man die Nachricht kodieren kann. Wir wollen jetzt natürlich nicht für jede<br />

Nachricht eine eigene Kodierung erfinden, und auch nicht für jede mögliche Nachrichtenlänge.<br />

Stattdessen ordnen wir jedem einzelnen Zeichen e ∈ E eine Folge<br />

von Nullen und Einsen zu, die dann aneinander gereiht die Nachricht ergeben. Die<br />

Länge l(e) der Folge, die das Zeichen e kodiert, darf dabei von e abhängen. So geben<br />

wir Zeichen, die häufiger auftreten, einen kürzeren Code als den selteneren Zeichen,<br />

um einen möglichst effizienten Code zu bekommen. Beim Morse-Alphabet ist dies


5.3 Starkes Gesetz der Großen Zahl 113<br />

so ähnlich eingerichtet ( e“ und t“, die im Englischen häufig vorkommen, haben<br />

” ”<br />

die Codes kurz“ und lang“, der seltenere Buchstabe q“ hat den Code lang-lang-<br />

” ” ” ”<br />

kurz-lang“), allerdings besteht der Morse-Code nicht nur aus kurzen und langen<br />

Signalen, sondern auch noch aus Pausenzeichen, die das Ende eines Buchstabens<br />

signalisieren. Wenn wir nur Nullen und Einsen verwenden dürfen, haben wir keine<br />

solchen Pausenzeichen und müssen den Code so anlegen, dass der Code eines<br />

Zeichens nicht gleichzeitig der Anfang eines Codes eines anderen Zeichens ist. Wir<br />

dürfen also nicht etwa ein Zeichen mit 0110 kodieren und ein anderes mit 011011.<br />

Ein Code, der diese Bedingung erfüllt, heißt ein binärer Präfixcode. Wir bezeichnen<br />

mit c(e) ∈{0, 1} l(e) den Code von e, wobei l(e) die Länge ist. Wir können die<br />

Codes aller Zeichen in einem Baum darstellen.<br />

Wir wollen nun einen Code C =(c(e), e∈ E) herstellen, der effizient ist in dem<br />

Sinne, dass die erwartete Länge des Codes (für ein zufälliges Zeichen)<br />

Lp(C) := �<br />

e∈E<br />

pe l(e)<br />

möglichst klein ist.<br />

Wir konstruieren zunächst einen Code und zeigen dann, dass dieser fast optimal ist.<br />

Als ersten Schritt nummerieren wir E = {e1,...,eN } so, dass pe1 ≥ pe2 ≥ ... ≥<br />

gilt. Wir definieren ℓ(e) ∈ N für jedes e ∈ E durch<br />

peN<br />

2 −ℓ(e) ≤ pe < 2 −ℓ(e)+1 .<br />

Setze ˜pe =2−ℓ(e) für jedes e ∈ E und ˜qk = �<br />

˜pel lk, also ist<br />

� c1(ek),...,c ℓ(ek)(ek) � �= � c1(el),...,c ℓ(ek)(el) �<br />

für alle l ≥ k.<br />

Daher ist C =(c(e) : e ∈ E) ein Präfixcode.<br />

Wir schreiben für jedes b>0 und x>0logb(x) := log(x)<br />

log(b) für den Logarithmus<br />

von x zur Basis b. Nach Konstruktion ist − log2(pe) ≤ l(e) ≤ 1 − log2(pe). Also<br />

ist die erwartete Länge<br />

− �<br />

pe log2(pe) ≤ Lp(C) ≤ 1 − �<br />

pe log2(pe). e∈E<br />

e∈E


114 5 Momente und Gesetze der Großen Zahl<br />

Die Länge dieses Codes für die ersten n Zeichen unserer zufälligen Quelle ist also<br />

ungefähr �n k=1 log2(pXk(ω)) = log2 πn(ω), womit wir den Anknüpfungspunkt<br />

zum Satz von Shannon haben. Dieser trifft also eine Aussage über die Länge eines<br />

Binärcodes, der zur Übertragung einer langen Nachricht gebraucht wird.<br />

Ist nun der oben angegebene Code optimal, oder gibt es Codes mit geringerer erwarteter<br />

Länge? Antwort gibt der Quellenkodierungssatz, den wir hier mit einer<br />

Definition und einem Lemma vorbereiten.<br />

Definition 5.25 (Entropie). Sei p = (pe)e∈E eine Wahrscheinlichkeitsverteilung<br />

auf einer höchstens abzählbaren Menge E.Für b>0 definieren wir<br />

Hb(p) :=− �<br />

pe logb(pe), e∈E<br />

wobei wir 0log b(0) := 0 festlegen. Wir nennen H(p) :=He(p) (e die Euler’sche<br />

Zahl) die Entropie und H2(p) die binäre Entropie von p.<br />

Man beachte, dass nur für endliches E die Entropie stets endlich ist.<br />

Lemma 5.26 (Entropie-Ungleichung). Seien b und p wie oben. Ferner sei q eine<br />

Sub-Wahrscheinlichkeitsverteilung, also qe ≥ 0 für jedes e ∈ E und �<br />

e∈E qe ≤ 1.<br />

Dann gilt<br />

Hb(p) ≤− �<br />

pe logb(qe) (5.9)<br />

e∈E<br />

mit Gleichheit genau dann, wenn Hb(p) =∞ oder q = p.<br />

Beweis. Ohne Einschränkung können wir mit b = e, also mit dem natürlichen Logarithmus<br />

rechnen. Es gilt log(1 + x) ≤ x für x>−1 mit Gleichheit genau dann,<br />

wenn x =0ist. Ist in (5.9) die linke oder die rechte Seite endlich, so können wir<br />

die rechte von der linken Seite abziehen und erhalten<br />

H(p)+ �<br />

pe log(qe) = �<br />

pe log(qe/pe)<br />

e∈E<br />

e: pe>0<br />

= �<br />

e: pe>0<br />

≤ �<br />

�<br />

pe log 1+ qe<br />

�<br />

− pe<br />

pe<br />

qe − pe<br />

pe<br />

pe<br />

e: pe>0<br />

= �<br />

e∈E<br />

� �<br />

qe − pe ≤ 0.<br />

Ist q �= p, soistqe �= pe für ein e ∈ E mit pe > 0. Ist dies nun der Fall, so gilt<br />

strikte Ungleichheit, falls H(p) < ∞. ✷<br />

Satz 5.27 (Quellenkodierungssatz). Sei p =(pe)e∈E eine Wahrscheinlichkeitsverteilung<br />

auf dem endlichen Alphabet E. Für jeden binären Präfixcode C =<br />

(c(e), e ∈ E) gilt Lp(C) ≥ H2(p), und es gibt einen solchen Code C mit<br />

Lp(C) ≤ H2(p)+1.


5.4 Konvergenzrate im starken GGZ 115<br />

Beweis. Der zweite Teil des Satzes wurde durch die obige Konstruktion schon gezeigt.<br />

Sei nun also ein Präfixcode gegeben. Sei L =maxe∈E l(e). Für e ∈ E sei<br />

CL(e) ={c ∈{0, 1} L : ck = ck(e) für k ≤ l(e)} die Menge aller Binärfolgen<br />

der Länge L, diewiec(e) beginnen. Da wir einen Präfixcode vorliegen haben, sind<br />

die CL(e), e ∈ E, paarweise disjunkt und �<br />

e∈E CL(e) ⊂{0, 1} L . Setzen wir also<br />

qe := 2−l(e) , so ist (beachte: #CL(e) =2L−l(e) )<br />

� �<br />

−L<br />

qe =2 #CL(e) ≤ 1.<br />

e∈E<br />

e∈E<br />

Nach Lemma 5.26 gilt Lp(C) = �<br />

pe l(e) =− �<br />

pe log2(qe) ≥ H2(p). ✷<br />

e∈E<br />

Übung 5.3.1. Man zeige die folgende Verbesserung von Satz 5.16: Sind X1,X2,...<br />

∈L 2 (P) paarweise unabhängig mit beschränkten Varianzen, so genügt (Xn)n∈N<br />

dem starken Gesetz der großen Zahl. ♣<br />

Übung 5.3.2. Man zeige: Ist (Xn)n∈N eine unabhängige Folge identisch verteilter<br />

Zufallsvariablen mit 1<br />

n (X1 + ...+ Xn) n→∞<br />

−→ Y fast sicher für eine Zufallsvariable<br />

Y ,soistX1∈L1 (P) und Y = E[X1] fast sicher.<br />

Hinweis: Man zeige zunächst<br />

P � |Xn| >n für unendlich viele n � =0 ⇐⇒ X1 ∈L 1 (P). ♣<br />

Übung 5.3.3. Sei E endlich und p ein Wahrscheinlichkeitsvektor auf E. Man zeige,<br />

dass die Entropie H(p) minimal ist (nämlich Null), falls p = δe für ein e ∈ E und<br />

maximal (nämlich log(#E)), falls p die Gleichverteilung auf E ist. ♣<br />

Übung 5.3.4. Sei b ∈{2, 3, 4,...}. Ein b-adischer Präfixcode ist ähnlich definiert<br />

wie ein binärer Präfixcode, jedoch sind jetzt als Zeichen die Zahlen 0, 1,...,b− 1<br />

zugelassen. Man zeige, dass die Aussage des Quellenkodierungssatzes sinngemäß<br />

für b-adische Präfixcodes gilt, mit Hb(p) statt H2(p). ♣<br />

5.4 Konvergenzrate im starken GGZ<br />

Im schwachen Gesetz der großen Zahl hatten wir auch eine Aussage über die Konvergenzgeschwindigkeit<br />

gemacht (Satz 5.14), im starken Gesetz der großen Zahl<br />

hingegen nicht. Da wir hier nur erste Momente der Zufallsvariablen gefordert hatten,<br />

können wir auch keine brauchbaren allgemein gültigen Aussagen erwarten. Nehmen<br />

wir hingegen höhere Momente an, so bekommen wir nützliche Aussagen zur Konvergenzgeschwindigkeit.<br />

Das Herzstück des schwachen Gesetzes der großen Zahl ist die Chebyshev’sche<br />

Ungleichung. Hier geben wir eine schärfere Ungleichung an, die mit der gleichen<br />

e∈E


116 5 Momente und Gesetze der Großen Zahl<br />

oberen Schranke nun das Maximum über alle Partialsummen bis zu einer bestimmten<br />

Grenze abschätzt.<br />

Satz 5.28 (Kolmogorov’sche Ungleichung). Seien n ∈ N und X1,X2,...,Xn<br />

unabhängige Zufallsvariablen mit E[Xi] =0und Var[Xi] 0<br />

P � max{Sk : k =1,...,n}≥t � ≤<br />

sowie die Kolmogorov’sche Ungleichung<br />

Var[Sn]<br />

t 2 + Var[Sn]<br />

(5.10)<br />

P � max{|Sk| : k =1,...,n}≥t � ≤ t −2 Var[Sn]. (5.11)<br />

In Satz 11.2 werden wir mit der Doob’schen Ungleichung eine Verallgemeinerung<br />

der Kolmogorov’schen Ungleichung kennen lernen.<br />

Beweis. Wir führen eine Zerlegung durch nach dem ersten Zeitpunkt τ, zu dem die<br />

Partialsummen t überschreiten. Sei also<br />

τ := min � k ∈{1,...,n} : Sk ≥ t �<br />

und Ak = {τ = k} für k =1,...,nsowie<br />

n�<br />

A = Ak = � max{Sk : k =1,...,n}≥t � .<br />

k=1<br />

Sei c ≥ 0. Die Zufallsvariable (Sk + c) Ak ist messbar bezüglich σ(X1,...,Xk),<br />

und Sn − Sk ist messbar bezüglich σ(Xk+1,...,Xn). Nach Satz 2.26 sind die<br />

beiden Zufallsvariablen unabhängig, und es gilt<br />

E � (Sk + c) Ak (Sn − Sk) � = E � � � �<br />

(Sk + c) Ak E Sn − Sk =0.<br />

Offenbar sind die Ereignisse A1,...,An paarweise disjunkt, also �n k=1 Ak =<br />

A ≤ 1. Wir erhalten so<br />

Var[Sn]+c 2 = E � (Sn + c) 2�<br />

�<br />

n�<br />

≥ E (Sn + c) 2 �<br />

n�<br />

Ak = E � (Sn + c) 2 �<br />

Ak<br />

=<br />

=<br />

≥<br />

k=1<br />

k=1<br />

k=1<br />

n�<br />

E � (Sk + c) 2 �<br />

Ak .<br />

k=1<br />

k=1<br />

n�<br />

E �� (Sk + c) 2 +2(Sk + c)(Sn − Sk)+(Sn − Sk) 2� �<br />

Ak<br />

n�<br />

E � (Sk + c) 2 �<br />

n�<br />

Ak + E � (Sn − Sk) 2 (5.12)<br />

�<br />

Ak<br />

k=1


5.4 Konvergenzrate im starken GGZ 117<br />

Wegen c ≥ 0 ist (Sk + c) 2 Ak ≥ (t + c)2 Ak , also können wir (5.12) fortsetzen<br />

durch<br />

≥<br />

n�<br />

E � (t + c) 2 � 2<br />

Ak =(t + c) P[A].<br />

k=1<br />

Für c = Var[Sn]/t ≥ 0 erhalten wir<br />

P[A] ≤<br />

Var[Sn]+c 2<br />

(t + c) 2<br />

= c(t + c)<br />

tc<br />

=<br />

(t + c) 2 t2 Var[Sn]<br />

=<br />

+ tc t2 + Var[Sn] .<br />

Damit ist (5.10) gezeigt. Um (5.11) zu zeigen, wähle ¯τ := min � k ∈{1,...,n} :<br />

|Sk| ≥t � und Āk = {¯τ = k} sowie Ā = {¯τ ≤ n}. Die obige Fortsetzung von<br />

(5.12) mit c>0 ist jetzt nicht zulässig. Wenn wir aber c =0wählen, gilt S2 k ≥<br />

t2 Āk . Mit der selben Rechnung wie in (5.12) erhalten wir P[Ā] ≤ t−2Var[Sn].✷ Wir folgern aus der Kolmogorov’schen Ungleichung eine erste Verschärfung des<br />

starken Gesetzes der großen Zahl.<br />

Satz 5.29. Seien X1,X2,...unabhängige Zufallsvariablen mit E[Xn] =0für jedes<br />

n ∈ N und V := sup{Var[Xn] : n ∈ N} < ∞. Dann gilt für jedes ε>0<br />

lim sup<br />

n→∞<br />

|Sn|<br />

n1/2 =0 fast sicher.<br />

(log(n)) (1/2)+ε<br />

Beweis. Setze kn =2 n und l(n) =n 1/2 (log(n)) (1/2)+ε für n ∈ N. Für k ∈ N mit<br />

kn ≤ k ≤ kn+1 ist |Sk|/k ≤ 2|Sk|/kn+1. Also reicht es, für δ>0 zu zeigen, dass<br />

lim sup l(kn)<br />

n→∞<br />

−1 max{|Sk| : k ≤ kn} ≤δ fast sicher. (5.13)<br />

Für δ > 0 und n ∈ N setze Aδ n := � max{|Sk| : k ≤ kn} > δl(kn) � .Die<br />

Kolmogorov’sche Ungleichung liefert<br />

∞�<br />

n=1<br />

P � A δ �<br />

n ≤<br />

∞�<br />

n=1<br />

δ −2 (l(kn)) −2 Vkn =<br />

V<br />

δ 2 (log 2) 1+2ε<br />

∞�<br />

n −1−2ε < ∞.<br />

Das Borel Cantelli Lemma liefert nun P � lim supn→∞ Aδ �<br />

n =0, also (5.13). ✷<br />

Wir werden in Kapitel 22 sehen, dass für unabhängige, identisch verteilte, quadratintegrierbare,<br />

zentrierte Zufallsvariablen X1,X2,...die folgende Verschärfung gilt<br />

lim sup<br />

n→∞<br />

n=1<br />

|Sn|<br />

� =1 fast sicher.<br />

2n Var[X1] log(log(n))<br />

Die Konvergenzrate ist also in diesem Fall genau bekannt. Sind die X1,X2,...nicht<br />

unabhängig, sondern nur paarweise unabhängig, so verschlechtert sich die Konvergenzrate,<br />

wenngleich nicht drastisch: Wir geben hier ohne Beweis einen Satz an,<br />

den Rademacher 1922 [134] und Menshov 1923 [111] unabhängig voneinander gefunden<br />

haben.


118 5 Momente und Gesetze der Großen Zahl<br />

Satz 5.30 (Rademacher–Menshov). Seien X1,X2,... unkorrelierte quadratintegrierbare<br />

zentrierte Zufallsvariablen und (an)n∈N eine wachsende Folge nichtnegativer<br />

Zahlen mit<br />

∞�<br />

(log n) 2 a −2<br />

n Var[Xn] < ∞. (5.14)<br />

Dann gilt lim sup<br />

n→∞<br />

�<br />

�<br />

�<br />

�<br />

n=1<br />

n�<br />

� a−1 n Xk<br />

k=1<br />

�<br />

�<br />

�<br />

� =0 fast sicher.<br />

�<br />

Beweis. Siehe etwa [120]. ✷<br />

Bemerkung 5.31. Die Bedingung (5.14) ist scharf in dem Sinne, dass es für jede<br />

wachsende Folge (an)n∈N mit �∞ n=1 a−2 n (log n) 2 = ∞ eine Folge paarweise<br />

unabhängiger, quadratintegrierbarer, zentrierter Zufallsvariablen X1,X2,...mit<br />

Var[Xn] =1für jedes n ∈ N gibt, sodass<br />

�<br />

�<br />

�<br />

lim sup �<br />

n→∞ � a−1<br />

n�<br />

�<br />

�<br />

�<br />

n Xk�<br />

= ∞ fast sicher.<br />

�<br />

k=1<br />

Siehe [24]. Dort wird ein Beispiel von Tandori [151] für so genannte orthogonale<br />

Reihen weiter entwickelt. Siehe auch [114]. ✸<br />

Für Zufallsvariablen mit unendlicher Varianz werden Aussagen über die Konvergenzgeschwindigkeit<br />

naturgemäß schwächer. Es gilt beispielsweise (siehe [11]):<br />

Satz 5.32 (Baum und Katz (1965)). Sei γ>1, und seien X1,X2,... u.i.v. sowie<br />

Sn = X1 + ...+ Xn für n ∈ N. Dann gilt<br />

∞�<br />

n γ−2 P[|Sn|/n>ε] < ∞ für jedes ε>0 ⇐⇒ E[|X1| γ ]0 die Ungleichung<br />

von Etemadi gilt:<br />

�<br />

P max<br />

k=1,...,n |Sk|<br />

�<br />

≥t<br />

5.5 Der Poissonprozess<br />

≤ 3 max<br />

k=1,...,n P� |Sk| ≥t/3 � . ♣<br />

Wir wollen ein Modell für die Anzahl der Klicks entwickeln, die ein Geigerzähler<br />

in einem (Zeit-)Intervall I =(a, b] macht. Die Anzahl der Klicks soll dabei


5.5 Der Poissonprozess 119<br />

– zufällig sein und unabhängig für disjunkte Intervalle,<br />

– zeitlich homogen in dem Sinne, dass die Anzahl der Klicks in I =(a, b] die selbe<br />

Verteilung hat, wie die Anzahl der Klicks in c + I =(a + c, b + c],<br />

– einen Erwartungswert besitzen,<br />

– keine Doppelpunkte aufweisen: der Zähler macht zu jedem Zeitpunkt nur einen<br />

Klick.<br />

Wir formalisieren diese Forderungen, indem wir die Notation einführen:<br />

I := {(a, b] : a, b ∈ [0, ∞), a≤ b}.<br />

ℓ((a, b]) := b − a (die Länge des Intervalls I =(a, b]).<br />

Für I ∈Isei NI die Anzahl der Klicks nach Zeitpunkt a und nicht später als b.<br />

Speziell setzen wir Nt := N (0,t] für die Gesamtzahl aller Klicks bis zur Zeit t. Die<br />

obigen Forderungen lassen sich nun übersetzen zu: (NI, I ∈I) ist eine Familie<br />

von Zufallsvariablen mit Werten in N0 mit den Eigenschaften<br />

(P1) NI∪J = NI + NJ, falls I ∩ J = ∅ und I ∪ J ∈Iist.<br />

(P2) Die Verteilung von NI hängt nur von der Länge von I ab: PNI = PNJ für<br />

alle I,J ∈Imit ℓ(I) =ℓ(J).<br />

(P3) Ist J ⊂ I mit I ∩ J = ∅ für alle I,J ∈Jmit I �= J, soist(NJ, J∈J)<br />

eine unabhängige Familie.<br />

(P4) Für jedes I ∈Igilt E[NI] < ∞.<br />

(P5) Es gilt lim supε↓0 ε−1 P[Nε ≥ 2] = 0.<br />

Die Bedeutung von (P5) erklärt sich durch die folgende Rechnung: Setzen wir λ :=<br />

lim supε↓0 ε−1 k k→∞<br />

P[Nε ≥ 2],soist(wegen(1 − ak/k) −→ e−a , falls ak<br />

P � es gibt einen Doppelklick in (0, 1] � = lim<br />

n→∞ P<br />

=1− lim<br />

n→∞ P<br />

2<br />

=1− lim<br />

n→∞<br />

n −1<br />

k=0<br />

=1− lim<br />

n→∞<br />

=1− e −λ .<br />

� 2 n �−1<br />

k→∞<br />

−→ a)<br />

� N(k 2 −n ,(k+1)2 −n ] ≥ 2 ��<br />

k=0<br />

� 2 n �−1<br />

�<br />

N(k 2−n ,(k+1)2−n ] ≤ 1 ��<br />

�<br />

k=0<br />

P � N (k 2 −n ,(k+1)2 −n ] ≤ 1 �<br />

� 1 − P[N2 −n ≥ 2] � 2 n<br />

Wir müssen also λ =0fordern; dies ist aber gerade (P5).


120 5 Momente und Gesetze der Großen Zahl<br />

Der nächste Satz zeigt, dass die Bedingungen (P1) – (P5) die Zufallsvariablen<br />

(NI, I∈I) eindeutig charakterisieren und zwar als Poissonprozess.<br />

Definition 5.33 (Poissonprozess). Eine Familie (Nt, t≥ 0) von N0–wertigen Zufallsvariablen<br />

heißt Poissonprozess mit Intensität α ≥ 0, falls N0 =0und:<br />

(i) Für jedes n ∈ N und je n +1Zahlen 0=t0 s≥ 0 ist Nt − Ns Poisson-verteilt mit Parameter α(t − s), also<br />

−α(t−s) (α(t − s))k<br />

P[Nt − Ns = k] =e<br />

k!<br />

für jedes k ∈ N0.<br />

Die Existenz eines Poissonprozesses ist an dieser Stelle noch nicht gesichert. Darauf<br />

kommen wir in Satz 5.35 zurück.<br />

Satz 5.34. Erfüllt (NI, I∈I) die Bedingungen (P1) – (P5), so ist (N (0,t], t≥ 0)<br />

ein Poissonprozess mit Intensität α := E[N (0,1]]. Ist umgekehrt (Nt, t≥ 0) ein<br />

Poissonprozess, so erfüllt (Nt − Ns, (s, t] ∈I) die Bedingungen (P1)–(P5).<br />

Beweis. Sei zunächst (Nt, t≥ 0) ein Poissonprozess mit Intensität α ≥ 0. Dann<br />

ist für I =(a, b] offenbar PNI =Poi α(b−a) =Poi αℓ(I). Also gilt (P2). Wegen (i)<br />

gilt (P3). Offenbar ist E[NI] =αℓ(I) < ∞, also gilt (P4). Schließlich ist P[Nε ≥<br />

2] = 1 − e −αε − αεe −αε = f(0) − f(αε), wobei f(x) :=e −x + xe −x . Wir bilden<br />

die Ableitung f ′ (x) =−xe −x . Dann ist offenbar<br />

lim ε<br />

ε↓0 −1 P[Nε ≥ 2] = −αf ′ (0) = 0.<br />

Also gilt auch (P5).<br />

Erfülle nun (NI, I∈I) die Bedingungen (P1) – (P5). Setze α(t) :=E[Nt]. Dann<br />

ist (wegen (P2))<br />

α(s + t) =E � � � � � �<br />

N (0,s] + N (s,s+t] = E N(0,s] + E N(0,t] = α(s)+α(t).<br />

Da t ↦→ α(t) monoton wachsend ist, folgt hieraus sogar α(t) =tα(1) für jedes t ≥<br />

0. Wir setzen α := α(1) und erhalten E[NI] =αℓ(I).Wirmüssen nur noch zeigen,<br />

dass PNt =Poiαt gilt. Um den Satz über die Poissonapproximation (Satz 3.7) zu<br />

verwenden, zerlegen wir für festes n ∈ N, das Intervall (0,t] in 2 n disjunkte gleich<br />

lange Intervalle<br />

I n (k) := � (k − 1)2 −n t, k2 −n t � , k =1,...,2 n ,<br />

und setzen Xn (k) :=NIn (k) sowie<br />

X n �<br />

n 1, falls X (k) ≥ 1,<br />

(k) :=<br />

0, sonst.


5.5 Der Poissonprozess 121<br />

Nach den Annahmen (P2) und (P3) sind (X n (k), k=1,...,2 n ) unabhängig und<br />

identisch verteilt. Daher ist auch (X n (k), k=1,...,2 n ) unabhängig und identisch<br />

verteilt, nämlich X n (k) ∼ Berpn , wobei pn = P[N 2 −n t ≥ 1].<br />

Schließlich setzen wir N n t := �2 n<br />

k=1 Xn (k). DannistNn t ∼ b2n ,pn . Offenbar ist<br />

N n+1<br />

t − N n t ≥ 0. Nun gilt nach (P5)<br />

P [Nt �= N n �<br />

t ] ≤ P [X n (k) ≥ 2] = 2 n P [N2−nt ≥ 2] n→∞<br />

−→ 0. (5.15)<br />

2 n<br />

k=1<br />

�<br />

Also ist P Nt = lim<br />

n→∞ N n t<br />

�<br />

=1. Nach dem Satz über monotone Konvergenz gilt<br />

αt= E [Nt] = lim<br />

n→∞ E [N n t ] = lim<br />

n→∞ pn 2 n .<br />

Nach dem Satz über Poisson-Approximation (Satz 3.7) gilt daher für jedes l ∈ N0<br />

P[Nt = l] = lim<br />

n→∞ P [N n t = l] =Poiαt({l}).<br />

Also ist PNt =Poiαt. ✷<br />

Bislang steht noch der Nachweis aus, dass es überhaupt Poissonprozesse gibt. In Kapitel<br />

24 werden wir ein allgemeines Konstruktionsprinzip kennen lernen, das auch<br />

für allgemeinere Räume als [0, ∞) funktioniert (siehe auch Übung 5.5.1).<br />

Eine weitere, instruktive Konstruktion basiert auf den Wartezeiten zwischen den<br />

Klicks, oder formal zwischen den Unstetigkeitsstellen der Abbildung t ↦→ Nt(ω).<br />

Wie groß ist die Wahrscheinlichkeit, dass wir zur Zeit s auf den nächsten Klick des<br />

Zählers länger als t Zeiteinheiten warten müssen? Wenn wir die Klicks als Poissonprozess<br />

mit Intensität α modellieren, ist diese Wahrscheinlichkeit<br />

P � N (s,s+t] =0 � = e −αt .<br />

Mithin ist die Wartezeit auf den nächsten Klick exponentialverteilt mit Parameter<br />

α. Außerdem sollten die Wartezeiten unabhängig voneinander sein. Wir nehmen<br />

nun die Wartezeiten als Startpunkt der Betrachtung und konstruieren hieraus den<br />

Poissonprozess.<br />

Sei W1,W2,...eine unabhängige Familie von exponentialverteilten Zufallsvariablen<br />

mit Parameter α>0, also P[Wn >x]=e−αx . Wir setzen<br />

n�<br />

Tn := Wk<br />

k=1<br />

und interpretieren Wn als die Wartezeit zwischen dem (n − 1)-ten und dem nten<br />

Klick. Tn ist der Zeitpunkt des n-ten Klicks. In Anlehnung an diese Intuition<br />

definieren wir


122 5 Momente und Gesetze der Großen Zahl<br />

Nt := #{n ∈ N0 : Tn ≤ t}<br />

als die Anzahl der Klicks bis zur Zeit t. Es ist dann<br />

Speziell ist also Nt eine Zufallsvariable.<br />

{Nt = k} = {Tk ≤ t


� ∞<br />

0<br />

···<br />

� ∞<br />

dxk+1 ··· dxk+l {s


6 Konvergenzsätze<br />

Im starken und schwachen Gesetz der großen Zahl hatten wir implizit schon die<br />

Begriffe von fast sicherer und stochastischer Konvergenz von Folgen von Zufallsvariablen<br />

kennen gelernt und gesehen, dass die fast sichere die stochastische Konvergenz<br />

impliziert. In diesem Kapitel definieren wir die Begriffe von fast sicherer<br />

und stochastischer Konvergenz sowie Konvergenz im Mittel von Folgen messbarer<br />

Abbildungen und setzen sie in Beziehung zueinander. Eine Schlüsselrolle kommt<br />

dabei dem Konzept der gleichgradigen Integrierbarkeit zu.<br />

6.1 Fast-überall- und stochastische Konvergenz<br />

Im Folgenden ist (Ω,A,μ) stets ein σ-endlicher Maßraum. Wir definieren zunächst<br />

Fast-überall-Konvergenz und stochastische Konvergenz in metrischen Räumen und<br />

vergleichen dann beide Konzepte miteinander. Hierfür benötigen wir zunächst zwei<br />

Lemmata, die sicher stellen, dass die Abstandsfunktion zweier messbarer Abbildungen<br />

wieder messbar ist. Sei im Folgenden (E,d) ein separabler, metrischer Raum<br />

mit Borel’scher σ-Algebra B(E). ” Separabel“ heißt dabei bekanntlich, dass es eine<br />

abzählbare, dichte Teilmenge gibt. Für x ∈ E und r>0 bezeichnen wir mit<br />

Br(x) ={y ∈ E : d(x, y)


126 6 Konvergenzsätze<br />

Seien f,f1,f2,... : Ω → E messbar bezüglich A – B(E).<br />

Definition 6.2. Wir sagen: (fn)n∈N konvergiert gegen f<br />

stoch<br />

(i) μ-stochastisch (oder dem Maße nach), in Formeln fn −→ f,wennfür jedes<br />

A ∈Amit μ(A) < ∞ und für jedes ε>0 gilt, dass<br />

μ({d(f,fn) >ε}∩A) n→∞<br />

−→ 0.<br />

f.ü.<br />

(ii) μ-fast überall, in Formeln fn −→ f, wenn es eine μ-Nullmenge N ∈Agibt,<br />

sodass für jedes ω ∈ Ω \ N gilt, dass<br />

d(f(ω),fn(ω)) n→∞<br />

−→ 0.<br />

Ist μ ein W-Maß, so sagen wir in diesem Fall auch, dass (fn)n∈N fast sicher<br />

f.s.<br />

konvergiert und schreiben fn −→ f. Gelegentlich werden die Hinweise fast<br />

”<br />

überall“ und fast sicher“ auch weglassen.<br />

”<br />

Bemerkung 6.3. Fast-überall-Konvergenz ist äquivalent zur Fast-überall-Konvergenz<br />

auf allen Mengen endlichen Maßes. ✸<br />

Bemerkung 6.4. Fast-überall-Konvergenz impliziert die stochastische: Sei zu ε>0<br />

Dn(ε) ={d(f,fm) >ε für ein m ≥ n}.<br />

Dann gilt D(ε) := �∞ n=1 Dn(ε) ⊂ N, wobei N die Nullmenge aus der Definition<br />

der F.ü.-Konvergenz ist. Die σ-Stetigkeit von oben von μ impliziert μ(Dn(ε) ∩<br />

A) n→∞<br />

−→ μ(D(ε) ∩ A) =0für jedes A ∈Amit μ(A) < ∞. ✸<br />

Bemerkung 6.5. Stochastische oder Fast-überall-Konvergenz legen den Grenzwert<br />

stoch<br />

stoch<br />

eindeutig fest bis auf Gleichheit fast überall. In der Tat: Sei fn −→ f und fn −→ g.<br />

Seien A1,A2,... ∈Amit An ↑ Ω und μ(An) < ∞ für jedes n ∈ N. Dannist<br />

(wegen d(f,g) ≤ d(f,fn)+d(g, fn)) für jedes m ∈ N und ε>0<br />

μ � Am ∩{d(f,g) >ε} �<br />

≤ μ � Am ∩{d(f,fn) >ε/2} � + μ � Am ∩{d(g, fn) >ε/2} � n→∞<br />

−→ 0.<br />

Also ist μ � {d(f,g) > 0} � =0. ✸<br />

Bemerkung 6.6. Im Allgemeinen impliziert stochastische Konvergenz nicht F.ü.-<br />

Konvergenz. In der Tat: Sei (Xn)n∈N eine unabhängige Familie von Zufallsvari-<br />

stoch<br />

ablen mit Xn ∼ Ber1/n. Dann gilt Xn −→ 0, jedoch ist nach dem Lemma von<br />

Borel-Cantelli lim supn→∞ Xn =1fast sicher. ✸


6.1 Fast-überall- und stochastische Konvergenz 127<br />

Satz 6.7. Seien A1,A2,... ∈Amit AN ↑ Ω und μ(AN ) < ∞ für jedes N ∈ N.<br />

Für messbare f,g : Ω → E setze<br />

˜d(f,g) :=<br />

∞�<br />

N=1<br />

2 −N<br />

1+μ(AN )<br />

�<br />

AN<br />

� 1 ∧ d(f(ω),g(ω)) � μ(dω). (6.1)<br />

Dann ist ˜ d eine Metrik, die die stochastische Konvergenz erzeugt: Sind f,f1,f2,...<br />

messbar, so gilt<br />

fn<br />

Beweis. Für N ∈ N setze<br />

�<br />

˜dN (f,g) :=<br />

stoch<br />

−→ f ⇐⇒ ˜ d(f,fn) n→∞<br />

−→ 0.<br />

AN<br />

� 1 ∧ d(f(ω),g(ω)) � μ(dω).<br />

Genau dann gilt ˜ d(f,fn) n→∞<br />

−→ 0,wenn˜ dN(f,fn) n→∞<br />

−→ 0 für jedes N ∈ N.<br />

” =⇒ “ Es gelte fn<br />

stoch<br />

−→ f. Dannistfür jedes ε ∈ (0, 1)<br />

˜dN (f,fn) ≤ μ � AN ∩{d(f,fn) >ε} � + εμ(AN ) n→∞<br />

−→ εμ(AN ).<br />

Da ε ∈ (0, 1) beliebig war, gilt ˜ dN (f,fn) n→∞<br />

−→ 0.<br />

” ⇐= “ Es gelte ˜ d(f,fn) n→∞<br />

−→ 0. SeiB ∈Amit μ(B) < ∞. Wähle δ>0 und<br />

N ∈ N so groß, dass μ(B \ AN ) ε} � ≤ δ + μ � AN ∩{d(f,fn) >ε} �<br />

≤ δ + ε −1 ˜ dN (f,fn) n→∞<br />

−→ δ.<br />

Da δ>0 beliebig war, folgt μ � B ∩{d(f,fn) >ε} � n→∞<br />

stoch<br />

−→ 0, also fn −→ f. ✷<br />

Wir betrachten nun den wichtigen Fall E = R mit der euklidischen Metrik. Hier<br />

haben wir durch das Integral einen weiteren Konvergenzbegriff zur Verfügung.<br />

Definition 6.8 (Konvergenz im Mittel). Seien f,f1,f2,... ∈L 1 (μ). Wir sagen<br />

(fn)n∈N konvergiere im Mittel gegen f, in Formeln<br />

falls �fn − f�1<br />

n→∞<br />

−→ 0.<br />

Bemerkung 6.9. Gilt fn<br />

fn<br />

L 1<br />

−→ f,<br />

L 1<br />

−→ f, so gilt insbesondere � fn dμ n→∞<br />

−→ � fdμ. ✸


128 6 Konvergenzsätze<br />

L 1<br />

Bemerkung 6.10. Gilt fn −→ f und fn −→ g, soistf = g fast überall. In der Tat<br />

n→∞<br />

ist nach der Dreiecksungleichung �f − g�1 ≤�fn− f�1 + �fn − g�1 −→ 0. ✸<br />

Bemerkung 6.11. L 1 -Konvergenz und F.ü.-Konvergenz implizieren jeweils stochastische<br />

Konvergenz. Alle anderen Implikationen sind im Allgemeinen falsch. ✸<br />

Satz 6.12 (Schnelle Konvergenz). Sei (E,d) ein separabler, metrischer Raum.<br />

Damit die Folge (fn)n∈N messbarer Abbildungen Ω → E fast überall konvergiert,<br />

ist hinreichend, dass eine der folgenden Bedingungen gilt.<br />

L 1<br />

(i) Es gilt E = R, es gibt ein p ∈ [1, ∞) mit fn ∈Lp (μ) für jedes n ∈ N, und<br />

es gibt ein f ∈Lp ∞�<br />

(μ) mit �fn − f�p < ∞.<br />

(ii) Es gibt ein messbares f mit<br />

n=1<br />

∞�<br />

μ(A ∩{d(f,fn) >ε}) < ∞ für jedes ε>0<br />

n=1<br />

und für jedes A ∈Amit μ(A) < ∞.<br />

In beiden Fällen gilt fn<br />

n→∞<br />

−→ f fast überall.<br />

(iii) E ist vollständig, und es gibt eine summierbare Folge (εn)n∈N, sodass<br />

∞�<br />

μ(A ∩{d(fn,fn+1) >εn}) < ∞ für jedes A ∈A mit μ(A) < ∞.<br />

n=1<br />

Beweis. Offenbar impliziert (i) schon (ii), denn nach der Markov’schen Ungleichung<br />

ist μ({|f − fn| >ε}) ≤ ε−p�f − fn�p p.<br />

Nach Bemerkung 6.3 reicht es, den Fall μ(Ω) < ∞ zu betrachten.<br />

Gelte nun (ii). Sei Bn(ε) = {d(f,fn) > ε} und B(ε) = lim sup Bn(ε). Das<br />

n→∞<br />

Lemma von Borel-Cantelli liefert μ(B(ε)) = 0.SeiN = �∞ n=1 B (1/n). Dann gilt<br />

μ(N) =0und fn(ω) n→∞<br />

−→ f(ω) für jedes ω ∈ Ω \ N.<br />

Gelte (iii). Sei Bn = {d(fn+1,fn) >εn} und B = lim sup Bn. Dannistμ(B) =<br />

n→∞<br />

0, und für jedes ω ∈ Ω\B ist (fn(ω))n∈N eine Cauchy-Folge in E.DaE vollständig<br />

ist, existiert der Limes f(ω) := limn→∞ fn(ω). Für ω ∈ B setze f(ω) =0. ✷<br />

Korollar 6.13. Sei (E,d) vollständig und separabel. Seien f,f1,f2,... messbare<br />

Abbildungen Ω → E. Dann sind die beiden folgenden Aussagen äquivalent.<br />

(i) fn<br />

n→∞<br />

−→ f stochastisch,<br />

(ii) Zu jeder Teilfolge von (fn)n∈N existiert eine gegen f fast überall konvergente<br />

Teilfolge.


6.1 Fast-überall- und stochastische Konvergenz 129<br />

Beweis. ” (ii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Dann gibt es ein ε>0<br />

und eine Teilfolge (fnk )k∈N mit ˜ d(fn,k,f) >εfür jedes k ∈ N. Offenbar konvergiert<br />

keine Teilfolge von (fnk )k∈N stochastisch gegen f, also auch nicht f.ü.<br />

” (i) =⇒ (ii)“ Gelte nun (i). Nach Bemerkung 6.3 können wir ohne Einschrän-<br />

stoch<br />

kung annehmen, dass μ(Ω) < ∞ gilt. Sei nk ↑∞beliebig. Wegen fnk −→ f für<br />

k →∞,können wir eine Teilfolge (fnk )l∈N wählen, sodass<br />

l<br />

∞�<br />

l=1<br />

�<br />

μ<br />

|f − fnk l | > 1<br />

l<br />

�<br />

< ∞.<br />

Nach Satz 6.12(ii) konvergiert (fnk l )l∈N fast überall gegen f. ✷<br />

Korollar 6.14. Ist (Ω,A,μ) ein Maßraum, bei dem stochastische und F.ü.-Konvergenz<br />

nicht zusammenfallen, so gibt es keine Topologie auf der Menge der messbaren<br />

Abbildungen Ω → E, die die F.ü.-Konvergenz erzeugt.<br />

Beweis. Wir nehmen an, dass es eine Topologie gibt, die die F.ü.-Konvergenz er-<br />

stoch<br />

zeugt. Seien f,f1,f2,...messbare Abbildungen mit der Eigenschaft, dass fn −→<br />

n→∞<br />

f, jedoch nicht fn −→ f fast überall. Sei nun U eine offene Menge, die f enthält,<br />

für die jedoch fn �∈ U für unendlich viele n ∈ N gilt. Sei also (fnk )k∈N eine Teil-<br />

k→∞<br />

folge mit fnk �∈ U für jedes k ∈ N. Wegenfnk−→<br />

f stochastisch, gibt es nach<br />

Korollar 6.13 wiederum eine Teilfolge (fnk )l∈N von (fnk l )k∈N<br />

l→∞<br />

mit fnk −→ f<br />

l<br />

fast überall. Es ist dann aber fnk ∈ U für alle bis auf endlich viele l, was einen<br />

l<br />

Widerspruch darstellt. ✷<br />

Korollar 6.15. Sei (E,d) ein separabler, vollständiger metrischer Raum. Es sei<br />

(fn)n∈N eine stochastische Cauchy-Folge in E, das heißt, für jedes A ∈ A mit<br />

μ(A) < ∞ und jedes ε>0 gilt<br />

μ � A ∩{d(fn,fm) >ε} � −→ 0 für m, n →∞.<br />

Dann konvergiert (fn)n∈N stochastisch.<br />

Beweis. Ohne Einschränkung kann μ(Ω) < ∞ angenommen werden. Wähle eine<br />

Teilfolge (fnk )k∈N, sodass<br />

μ �� d(fn,fnk ) > 2−k�� < 2 −k<br />

für jedes n ≥ nk.<br />

k→∞<br />

Nach Satz 6.12(iii) gibt es ein f mit fnk −→ f fast überall, also insbesondere<br />

k→∞<br />

μ({d(fnk ,f) >ε/2}) −→ 0 für jedes ε>0. Nun ist aber<br />

μ({d(fn,f) >ε}) ≤ μ({d(fnk ,fn) >ε/2})+μ({d(fnk ,f) >ε/2}).<br />

Ist k so groß, dass 2−k ε}) n→∞<br />

−→ 0, das heißt, es gilt fn<br />

stoch<br />

−→ f. ✷


130 6 Konvergenzsätze<br />

Übung 6.1.1. Man zeige: Ist Ω höchstens abzählbar, so folgt aus stochastischer<br />

Konvergenz schon F.ü.-Konvergenz. ♣<br />

Übung 6.1.2. Man gebe jeweils ein Beispiel an für eine Folge, die<br />

(i) in L1 konvergiert, aber nicht fast überall,<br />

(ii) fast überall konvergiert, aber nicht in L1 . ♣<br />

Übung 6.1.3. (Satz von Egorov (1911)) Sei (Ω,A,μ) ein endlicher Maßraum,<br />

und seien f1,f2,...messbare Funktionen, die fast überall gegen ein f konvergieren.<br />

Man zeige: Zu jedem ε>0 gibt es eine Menge A ∈Amit μ(Ω \ A) �g}<br />

Ist μ(Ω) < ∞, so ist die gleichgradige Integrierbarkeit äquivalent zu jeder der<br />

beiden folgenden Bedingungen<br />

(i) inf<br />

a∈[0,∞) sup<br />

�<br />

(|f|−a)<br />

f∈F<br />

+ dμ =0,<br />

(ii) inf<br />

a∈[0,∞) sup<br />

�<br />

|f| dμ =0.<br />

f∈F<br />

{|f|>a}


6.2 Gleichgradige Integrierbarkeit 131<br />

Beweis. Offenbar gilt (|f|−g) + ≤|f|·<br />

gradige Integrierbarkeit.<br />

{|f|>g}, also impliziert (6.3) die gleich-<br />

Gelte nun (6.2). Für jedes ε>0 sei gε ∈L1 (μ) so gewählt, dass<br />

�<br />

sup<br />

f∈F<br />

(|f|−gε) + dμ ≤ ε. (6.4)<br />

Setze �gε =2gε/2. Dannistfür f ∈F<br />

�<br />

�<br />

|f| dμ ≤ (|f|−gε/2) + dμ +<br />

{|f|> �gε}<br />

{|f|> �gε}<br />

�<br />

{|f|> �gε}<br />

g ε/2 dμ.<br />

Per Konstruktion ist �<br />

{|f|> �gε} (|f|−gε/2) + dμ ≤ ε/2 und gε/2 {|f|> �gε} ≤ (|f|−<br />

gε/2) + {|f|> �gε}, also auch �<br />

{|f|> �gε} gε/2 dμ ≤ �<br />

|f|> �gε (|f| −gε/2) + dμ ≤ ε/2.<br />

Insgesamt haben wir also<br />

�<br />

sup |f| dμ ≤ ε. (6.5)<br />

f∈F<br />

{|f|> �gε}<br />

Offenbar impliziert (ii) schon (i), und (i) impliziert die gleichgradige Integrierbarkeit<br />

von F, denn das Infimum wird hier ja über die kleinere Menge der konstanten<br />

Funktionen gebildet. Wir müssen noch zeigen, dass gleichgradige Integrierbarkeit<br />

(ii) impliziert. Sei also F gleichgradig integrierbar und μ(Ω) < ∞. Zu gegebenem<br />

ε>0 (und gε und ˜gε wie oben) wählen wir aε so, dass �<br />

{�g ε/2>aε} �g ε/2 dμ < ε<br />

2 .<br />

Dann ist<br />

�<br />

{|f|>aε}<br />

�<br />

|f| dμ ≤<br />

{|f|>�g ε/2}<br />

�<br />

|f| dμ + �g ε/2 dμ < ε. ✷<br />

{�g ε/2>aε}<br />

Satz 6.18. (i) Ist F ⊂ L 1 (μ) eine endliche Menge, so ist F gleichgradig integrierbar.<br />

(ii) Sind F, G⊂L 1 (μ) gleichgradig integrierbar, dann sind auch (f + g : f ∈<br />

F, g∈G) und (f − g : f ∈F,g∈G) sowie {|f| : f ∈F}gleichgradig<br />

integrierbar.<br />

(iii) Ist F gleichgradig integrierbar und existiert zu jedem g ∈Gein f ∈Fmit<br />

|g| ≤|f|, soistauchG gleichgradig integrierbar.<br />

Beweis. Der einfache Beweis verbleibt zur Übung. ✷<br />

Der folgende Satz beschreibt ein sehr gut anwendbares Kriterium für gleichgradige<br />

Integrierbarkeit. Wir werden diesen Satz an vielen Stellen einsetzen.


132 6 Konvergenzsätze<br />

Satz 6.19. Für endliches μ ist F⊂L1 (μ) genau dann gleichgradig integrierbar,<br />

wenn es eine Funktion H :[0, ∞) → [0, ∞) gibt mit limx→∞ H(x)/x = ∞ und<br />

�<br />

sup H(|f|) dμ < ∞.<br />

f∈F<br />

H kann sogar monoton wachsend und konvex gewählt werden.<br />

Beweis. ⇐= “ Es existiere H mit den angegebenen Eigenschaften. Dann gilt<br />

”<br />

Ka := infx≥a H(x)<br />

x ↑∞,wenna↑∞.Alsoistfür a>0<br />

sup<br />

f∈F<br />

�<br />

|f| dμ ≤<br />

{|f|≥a}<br />

1<br />

Ka<br />

sup<br />

f∈F<br />

�<br />

H(|f|) dμ<br />

{|f|≥a}<br />

�<br />

H (|f|) dμ a→∞<br />

−→ 0.<br />

≤ 1<br />

Ka<br />

sup<br />

f∈F<br />

” =⇒ “ Sei F gleichgradig integrierbar. Da μ(Ω) < ∞ gilt, gibt es (nach<br />

Satz 6.17) eine Folge an ↑∞mit<br />

�<br />

sup (|f|−an)<br />

f∈F<br />

+ dμ < 2 −n .<br />

Wir setzen<br />

H(x) =<br />

∞�<br />

(x − an) +<br />

n=1<br />

für jedes x ≥ 0.<br />

Dann ist H als Summe konvexer Funktionen konvex. Ferner gilt für jedes n ∈ N<br />

und x ≥ 2an, dassH(x)/x ≥ �n k=1 (1 − ak/x) + ≥ n/2, also gilt H(x)/x ↑∞.<br />

Schließlich ist nach dem Satz über monotone Konvergenz für jedes f ∈F<br />

�<br />

∞�<br />

�<br />

H(|f(ω)|) μ(dω) = (|f|−an) + ∞�<br />

dμ ≤ 2 −n =1. ✸<br />

n=1<br />

Zur Notation � · �p erinnere man sich an Definition 4.16.<br />

Definition 6.20. Sei p ∈ [1, ∞]. Eine Familie F ⊂ L p (μ) heißt beschränkt in<br />

L p (μ), falls sup{�f�p : f ∈F}< ∞ gilt.<br />

Korollar 6.21. Ist μ(Ω) < ∞ und p>1 sowie F beschränkt in L p (μ), dann ist F<br />

gleichgradig integrierbar.<br />

Beweis. Wende Satz 6.19 an mit der konvexen Abbildung H(x) =x p . ✷<br />

n=1


6.2 Gleichgradige Integrierbarkeit 133<br />

Korollar 6.22. Ist (Xi)i∈I eine Familie von Zufallsvariablen mit sup{|E[Xi]| : i ∈<br />

I} < ∞ und sup{Var[Xi] : i ∈ I} < ∞, dann ist (Xi)i∈I gleichgradig integrierbar.<br />

Beweis. Dies folgt aus Korollar 6.21 mit p =2,dennE[X 2 i ]=E[Xi] 2 + Var[Xi]<br />

ist in i ∈ I beschränkt. ✷<br />

Lemma 6.23. Es existiert eine Abbildung h ∈L 1 (μ) mit h>0 fast überall.<br />

Beweis. Seien A1,A2,...,∈Amit An ↑ Ω und μ(An) < ∞ für n ∈ N. Setze<br />

∞�<br />

h = 2 −n� 1+μ(An)) −1 An .<br />

n=1<br />

Dann ist h>0 fast überall und � hdμ≤ ∞�<br />

n=1<br />

2−n μ(An)<br />

1+μ(An) ≤ 1. ✷<br />

Satz 6.24. Eine Familie F⊂L1 (μ) ist genau dann gleichgradig integrierbar, wenn<br />

die beiden folgenden Bedingungen erfüllt sind.<br />

�<br />

(i) C := sup<br />

f∈F<br />

|f| dμ < ∞.<br />

(ii) Es gibt eine Funktion 0 ≤ h ∈L1 (μ), sodass für jedes ε>0 ein δ(ε) > 0<br />

existiert mit<br />

�<br />

�<br />

sup<br />

f∈F<br />

|f| dμ ≤ ε für jedes A ∈A mit hdμ0 gibt es ein δ(ε) > 0, sodass<br />

�<br />

sup<br />

f∈F<br />

|f| dμ ≤ ε für jedes A ∈A mit μ(A) 0<br />

fast überall. Sei ε>0 und �g ε/3 eine ε/3–Schranke für F (wie in (6.5)). Wegen<br />

� �gε/3 ≥ αh � ↓∅für α →∞, gilt für hinreichend großes α = α(ε)<br />

�<br />

�g ε/3≥αh<br />

�g ε/3 dμ < ε<br />

3 .<br />

Mit δ(ε) := ε<br />

�<br />

3α(ε) gilt dann für jedes A ∈Amit hdμ


134 6 Konvergenzsätze<br />

�<br />

|f| dμ ≤<br />

A<br />

�<br />

{|f|>�g ε/3}<br />

≤ ε<br />

3<br />

A<br />

�<br />

|f| dμ +<br />

�<br />

+ α hdμ +<br />

A<br />

�g ε/3 dμ<br />

�<br />

�g ε/3≥αh<br />

�g ε/3 dμ ≤ ε.<br />

Damit ist (ii) gezeigt. Setzen wir in die Rechnung A = Ω ein, so erhalten wir<br />

�<br />

|f| dμ ≤ 2ε<br />

Damit ist auch (i) gezeigt.<br />

�<br />

+ α<br />

3<br />

hdμ0. Wähle h und δ(ε) > 0 wie in (ii) und C<br />

wie in (i). Setze �h = C<br />

δ(ε) h. Dann ist<br />

�<br />

hdμ= δ(ε)<br />

C<br />

�<br />

�<br />

�<br />

δ(ε)<br />

hdμ≤<br />

C<br />

|f| dμ ≤ δ(ε),<br />

{|f|> � h}<br />

also nach Voraussetzung<br />

�<br />

{|f|> � h}<br />

{|f|> � h}<br />

|f| dμ < ε.<br />

” (ii) =⇒ (iii)“ Es gelte (ii). Sei ε>0 und δ = δ(ε) wie in (ii) gewählt. Sei<br />

K


Beweis. ” (i) =⇒ (ii)“ Dies ist klar.<br />

6.2 Gleichgradige Integrierbarkeit 135<br />

” (ii) =⇒ (iii)“ Für jedes ε>0 gibt es ein nε ∈ N, sodass �fn − fnε�1 ε}) ≤ ε −1 �fm − fn�1 −→ 0 für m, n →∞.<br />

Deshalb ist (fn)n∈N auch eine stochastische Cauchy-Folge, also stochastisch konvergent<br />

nach Korollar 6.15.<br />

” (iii) =⇒ (i)“ Sei f der stochastische Grenzwert der Folge (fn)n∈N. Wir nehmen<br />

an, dass (fn)n∈N nicht in L1 gegen f konvergiert. Dann gibt es ein ε>0 und eine<br />

Teilfolge (fnk )k∈N mit<br />

�f − fnk�1 > 2ε für jedes k ∈ N, (6.6)<br />

wobei wir �f − fnk�1 = ∞ setzen, falls f �∈ L1 (μ) ist. Nach Korollar 6.13 gibt<br />

es eine Teilfolge (fn ′ k )k∈N von (fnk )k∈N mit fn ′ k→∞<br />

−→ f fast überall. Nach dem<br />

k<br />

Lemma von Fatou (Satz 4.21) mit 0 als Minorante gilt daher<br />

�<br />

�<br />

|f| dμ ≤ lim inf<br />

k→∞<br />

|fn ′ | dμ < ∞.<br />

k<br />

Also ist f ∈L 1 (μ). Nach Satz 6.18(ii) (mit G = {f})ist(f −fn ′ k )n∈N gleichgradig<br />

integrierbar, also gibt es ein 0 ≤ g ∈L 1 (μ), sodass � (|f − fn ′ k |−g)+ dμ < ε.<br />

Setze<br />

k→∞<br />

gk = |fn ′ k<br />

− f|∧g für jedes k ∈ N.<br />

Dann gilt gk −→ 0 fast überall und g − gk ≥ 0. Nach dem Lemma von Fatou ist<br />

� �<br />

�<br />

lim sup<br />

k→∞<br />

gk dμ =<br />

�<br />

gdμ− lim inf<br />

k→∞<br />

� �<br />

(g − gk) dμ<br />

�<br />

≤ gdμ− lim (g − gk)<br />

k→∞<br />

dμ = 0.<br />

Wegen {|f − fn ′ k | >gk} = {|f − fn ′ k<br />

lim sup �f − fn<br />

k→∞<br />

′ k �1 ≤ lim sup<br />

k→∞<br />

{|f−fn ′ |>g}<br />

k<br />

| >g} ist also<br />

�<br />

|f − fn ′ �<br />

| dμ + lim sup<br />

k<br />

k→∞<br />

gk dμ ≤ ε,<br />

im Widerspruch zu (6.6). ✷<br />

Korollar 6.26 (Lebesgue’scher Konvergenzsatz, majorisierte Konvergenz). Sei<br />

f messbar und (fn)n∈N eine Folge in L1 (μ) mit fn<br />

n→∞<br />

−→ f stochastisch. Es existiere<br />

eine integrierbare Majorante 0 ≤ g ∈L1 (μ) mit |fn| ≤g fast überall für<br />

jedes n ∈ N. Dann gilt f ∈L1 (μ) und fn<br />

n→∞<br />

−→ f in L1 �<br />

fn dμ<br />

, also insbesondere<br />

n→∞<br />

−→ � fdμ.


136 6 Konvergenzsätze<br />

Beweis. Das folgt aus Satz 6.25, weil die Majorante die gleichgradige Integrierbarkeit<br />

der Folge (fn)n∈N sichert. ✷<br />

Übung 6.2.1. Sei H ∈L 1 (μ) mit H>0 μ-f.ü. (siehe Lemma 6.23) und (E,d) ein<br />

separabler metrischer Raum. Man zeige:<br />

(i) Durch<br />

�<br />

�1 �<br />

dH(f,g) := ∧ d(f(ω),g(ω)) H(ω) μ(dω)<br />

wird eine Metrik definiert, die die stochastische Konvergenz erzeugt.<br />

(ii) Ist (E,d) vollständig, so ist dH vollständig. ♣<br />

6.3 Vertauschung von Integral und Ableitung<br />

Wir wollen untersuchen, wie sich Eigenschaften wie Stetigkeit und Differenzierbarkeit<br />

von Zweiparameterfunktionen unter Integration nach einer Variablen erhalten.<br />

Satz 6.27 (Stetigkeitslemma). Sei (E,d) ein metrischer Raum, x0 ∈ E und f :<br />

Ω × E → R eine Abbildung mit den Eigenschaften<br />

(i) für jedes x ∈ E ist die Abbildung ω ↦→ f(ω, x) in L1 (μ),<br />

(ii) für fast alle ω ∈ Ω ist die Abbildung x ↦→ f(ω, x) stetig im Punkte x0,<br />

(iii) die Abbildung h : ω ↦→ supx∈E |f(ω, x)| ist in L1 (μ).<br />

�<br />

Dann ist die Abbildung F : E → R, x ↦→ f(ω, x) μ(dω) stetig in x0.<br />

Beweis. Sei (xn)n∈N eine Folge in E mit lim<br />

n→∞ xn = x0. Setze fn = f( · ,xn).<br />

n→∞<br />

Nach Voraussetzung ist |fn| ≤h und fn −→ f( · ,x0) fast überall. Nach dem<br />

Satz von der majorisierten Konvergenz (Korollar 6.26) ist<br />

�<br />

F (xn) = fn dμ n→∞<br />

�<br />

−→ f( · ,x0) dμ = F (x0).<br />

Also ist F stetig in x0. ✷


6.3 Vertauschung von Integral und Ableitung 137<br />

Satz 6.28 (Differentiationslemma). Sei I ⊂ R ein nichttriviales, offenes Intervall<br />

und f : Ω × I eine Abbildung mit den Eigenschaften<br />

(i) für jedes x ∈ I ist (ω ↦→ f(ω, x)) ∈L1 (μ),<br />

(ii) für fast alle ω ∈ Ω ist I → R, x ↦→ f(ω, x) differenzierbar, wobei wir die<br />

Ableitung mit f ′ bezeichnen,<br />

(iii) h := supx∈I |f ′ ( · ,x)| ∈L1 (μ).<br />

Dann gilt: Für jedes x ∈ I ist f ′ ( · ,x) ∈ L1 � (μ). Die Funktion F : x ↦→<br />

f(ω, x) μ(dω) ist differenzierbar mit Ableitung<br />

F ′ �<br />

(x) = f ′ (ω, x) μ(dω).<br />

Beweis. Sei x0 ∈ I und (xn)n∈N eine Folge in I mit xn �= x0 für jedes n ∈ N,<br />

sowie lim<br />

n→∞ xn = x0. Wir zeigen, dass entlang der Folge (xn)n∈N die Differenzenquotienten<br />

konvergieren. Setze<br />

gn(ω) = f(ω, xn) − f(ω, x0)<br />

xn − x0<br />

Nach Voraussetzung (ii) gilt<br />

gn<br />

für jedes ω ∈ Ω.<br />

n→∞<br />

−→ f ′ ( · ,x0) μ − fast überall.<br />

Nach dem Zwischenwertsatz der Differentialrechnung existiert zu jedem n ∈ N und<br />

fast jedem ω ∈ Ω ein yn(ω) ∈ I mit gn(ω) =f ′ (ω, yn(ω)). Speziell ist |gn| ≤h<br />

für jedes n ∈ N. Nach dem Satz von der majorisierten Konvergenz (Korollar 6.26)<br />

ist also die Grenzfunktion f ′ ( · ,x0) in L1 (μ) und<br />

F (xn) − F (x0)<br />

lim<br />

= lim<br />

n→∞ xn − x0 n→∞<br />

�<br />

�<br />

gn(ω) μ(dω) = f ′ (ω, x0) μ(dω). ✷<br />

Beispiel 6.29. (Laplace-Transformation) Sei X eine nichtnegative Zufallsvariable<br />

auf (Ω,A, P), I =[0, ∞) und f(x, λ) =e−λx für λ ∈ I. Dannist<br />

F (λ) =E � e −λX�<br />

in (0, ∞) unendlich oft differenzierbar. Die ersten Ableitungen sind F ′ (λ) =<br />

−E[Xe −λX ] und F ′′ (λ) =E[(X 2 )e −λX ]. Sukzessive erhalten wir die n-te Ableitung<br />

F (n) (λ) =E[(−X) n e −λX ]. Es gilt (monotone Konvergenz)<br />

E[X] =− lim<br />

λ↓0 F ′ (λ) (6.7)


138 6 Konvergenzsätze<br />

und<br />

E[X n ]=(−1) n lim<br />

λ↓0 F (n) (λ) für jedes n ∈ N. (6.8)<br />

In der Tat: Für ε>0 und I =(ε, ∞) ist sup<br />

x≥0,λ∈I<br />

�<br />

� d<br />

dλ f(x, λ)� � = sup<br />

x≥0,λ∈I<br />

xe −λx =<br />

ε −1 e −1 < ∞. Damit gelten die Voraussetzungen des Satzes für F . Iterativ erhalten<br />

wir die Aussage für F (n) ,denn � � d n<br />

dλ n f(x, λ) � � ≤ (n/ε) n e −n < ∞ für x ≥ 0 und<br />

λ ≥ ε. ✸<br />

Übung 6.3.1. Sei X eine Zufallsvariable auf (Ω,A, P) und<br />

Λ(t) :=log � E � e tX��<br />

für jedes t ∈ R.<br />

Man zeige, dass D := {t ∈ R : Λ(t) < ∞} ein nichtleeres Intervall ist, und dass Λ<br />

im Inneren von D unendlich oft differenzierbar ist. ♣


7 L p -Räume und Satz von Radon-Nikodym<br />

In diesem Kapitel wollen wir die Räume der Funktionen untersuchen, deren p-te<br />

Potenz integrierbar ist. Wir leiten in Abschnitt 7.2 zunächst wichtige Ungleichungen<br />

her (Hölder, Minkowski, Jensen) und untersuchen dann in Abschnitt 7.3 den<br />

Fall p =2, wo wir Hilberträume vorliegen haben, im Detail. Neben den genannten<br />

Ungleichungen sind die wichtigsten Ergebnisse für die Stochastik der Zerlegungssatz<br />

von Lebesgue sowie der Satz von Radon-Nikodym in Abschnitt 7.4. Der Leser<br />

mag beim ersten Lesen die anderen, eher analytisch als stochastisch ausgerichteten,<br />

Teile dieses Kapitels überschlagen.<br />

7.1 Definitionen<br />

In Definition 4.16 hatten wir für messbares f : Ω → R definiert<br />

��<br />

�f�p := |f| p �1/p dμ für p ∈ [1, ∞),<br />

und<br />

�f�∞ := inf � K ≥ 0: μ(|f| >K)=0 � .<br />

Ferner hatten wir die Räume definiert, wo diese Ausdrücke endlich sind<br />

L p (Ω,A,μ)=L p (A,μ)=L p (μ) ={f : Ω → R ist messbar und �f�p < ∞}.<br />

Wir hatten gesehen, dass � · �1 eine Pseudonorm auf L 1 (μ) ist. Unser erstes Ziel<br />

ist es hier, � · �p zu einer echten Norm zu machen, und zwar für jedes p ∈ [1, ∞].<br />

Abgesehen davon, dass die Dreiecksungleichung noch zu zeigen ist, müssen wir zu<br />

diesem Zwecke auch den Raum verändern, denn es gilt nur<br />

�f − g�p =0 ⇐⇒ f = g μ-f.ü.<br />

Bei einer echten (also nicht nur Pseudo-)Norm muss aus der linken Seite schon<br />

Gleichheit (nicht nur f.ü.) von f und g gelten. Wir sehen daher f und g als äquivalent<br />

an, falls f = g fast überall. Sei also<br />

N = {f ist messbar und f =0 μ-f.ü.}.


140 7 L p -Räume und Satz von Radon-Nikodym<br />

Für jedes p ∈ [1, ∞] ist N ein Untervektorraum von L p (μ).Wirkönnen also formal<br />

den Quotientenraum bilden. Dies ist das Standardverfahren, um aus einer Pseudonorm,<br />

eine Norm zu machen.<br />

Definition 7.1 (Quotientenraum). Für jedes p ∈ [1, ∞] definieren wir<br />

L p (Ω,A,μ):=L p (Ω,A,μ)/N = { ¯ f := f + N : f ∈L p (μ)}.<br />

Für ¯ f ∈ L p (μ) setzen wir � � ¯ f � �p = �f�p für ein f ∈ ¯ f und � ¯ fdμ= � fdμ, falls<br />

dieser Ausdruck für f definiert ist.<br />

Man beachte, dass � � ¯ f � �p nicht von der Wahl des Repräsentanten f ∈ ¯ f abhängt.<br />

Wir wollen jetzt zunächst die Konvergenz bezüglich � · �p untersuchen und erweitern<br />

dazu den entsprechenden Satz (Satz 6.25) über die Konvergenz bezüglich<br />

� · �1.<br />

Definition 7.2. Seien p ∈ [1, ∞] und f,f1,f2,... ∈Lp n→∞<br />

(μ). Falls �fn − f�p −→<br />

0 gilt, so sagen wir, dass (fn)n∈N im p-ten Mittel gegen f konvergiere und schreiben<br />

L p<br />

−→ f.<br />

fn<br />

Satz 7.3. Seien p ∈ [1, ∞] und f1,f2,...∈L p (μ). Dann sind äquivalent:<br />

(i) Es gibt ein f ∈Lp L<br />

(μ) mit fn<br />

p<br />

−→ f.<br />

(ii) (fn)n∈N ist eine Cauchy-Folge in Lp (μ).<br />

Ist p


7.2 Ungleichungen und Satz von Fischer-Riesz 141<br />

stochastisch, und (gn)n∈N ist gleichgradig integrierbar, da gn ≤ 2p (|fn| p + |f| p ).<br />

Also gilt (nach Satz 6.25) �fn − f�p p = �gn�1<br />

n→∞<br />

−→ 0. ✷<br />

Übung 7.1.1. Seien (Xi)i∈N unabhängige, quadratintegrierbare Zufallsvariablen mit<br />

E[Xi] =0für jedes i ∈ N.<br />

(i) Man zeige: Gilt �∞ i=1 Var[Xi] < ∞, so existiert eine reelle Zufallsvariable<br />

X mit �n i=1 Xi<br />

n→∞<br />

−→ X fast sicher.<br />

(ii) Gilt in (i) auch die Umkehrung? ♣<br />

Übung 7.1.2. Sei f : Ω → R messbar. Zeige:<br />

(i) Gilt � |f| p dμ < ∞ für ein p ∈ (0, ∞), so gilt �f�p<br />

p→∞<br />

−→ �f�∞.<br />

(ii) Auf die Integrierbarkeitsbedingung in (i) kann nicht verzichtet werden. ♣<br />

Übung 7.1.3. Sei p ∈ (1, ∞), f ∈L p (λ), wobei λ das Lebesgue-Maß auf R ist,<br />

und T : R → R, x ↦→ x +1. Man zeige:<br />

n−1<br />

1 �<br />

n<br />

k=0<br />

f ◦ T k n→∞<br />

−→ 0 in L p (λ). ♣<br />

7.2 Ungleichungen und Satz von Fischer-Riesz<br />

Wir wollen eine der wichtigsten Ungleichungen der <strong>Wahrscheinlichkeitstheorie</strong>, die<br />

Jensen’sche Ungleichung für konvexe Funktionen, herleiten. Aus dieser kann man<br />

die Hölder’sche Ungleichung und die Minkowski’sche Ungleichung folgern, die uns<br />

die Dreiecksungleichung für � · �p liefern sowie den Dualraum zu bestimmen helfen.<br />

Allerdings geben wir hier direkte (und einfachere) Beweise für die beiden letztgenannten<br />

Ungleichungen.<br />

Bevor wir zur Jensen’schen Ungleichung kommen, wiederholen wir kurz Grundsätzliches<br />

zur Konvexität von Mengen und Funktionen.<br />

Definition 7.4. Eine Teilmenge G eines Vektorraums (beziehungsweise eines affinlinearen<br />

Raums) heißt konvex, falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1]<br />

auch λx +(1− λ)y ∈ G ist.<br />

Beispiele 7.5. (i) Die konvexen Teilmengen von R sind die Intervalle.<br />

(ii) Ein linearer Unterraum eines Vektorraums ist konvex.<br />

(iii) Die Menge aller W-Maße auf einem Messraum ist eine konvexe Menge ✸


142 7 L p -Räume und Satz von Radon-Nikodym<br />

Definition 7.6. Sei G eine konvexe Menge. Eine Abbildung ϕ : G → R heißt konvex,<br />

falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] gilt<br />

f heißt konkav, falls −f konvex ist.<br />

ϕ(λx +(1− λ)y) ≤ λϕ(x)+(1− λ)ϕ(y).<br />

Ist I ⊂ R ein Intervall und ϕ : I → R stetig und im Inneren I ◦ zweimal stetig differenzierbar<br />

mit zweiter Ableitung ϕ ′′ ,soistϕ genau dann konvex, wenn ϕ ′′ (x) ≥ 0<br />

ist für alle x ∈ I ◦ . Anders ausgedrückt: Die erste Ableitung ϕ ′ einer konvexen<br />

Funktion ist eine monoton wachsende Funktion. Wir werden im nächsten Satz sehen,<br />

dass dies auch dann noch gilt, wenn ϕ nicht zweimal stetig differenzierbar ist,<br />

wenn wir zur rechtsseitigen Ableitung D + ϕ übergehen (oder zur linksseitigen), von<br />

der wir zeigen, dass sie immer existiert.<br />

Satz 7.7. Sei I ⊂ R ein Intervall mit Innerem I ◦ , sowie ϕ : I → R eine konvexe<br />

Abbildung. Dann gilt:<br />

(i) ϕ ist stetig in I◦ und insbesondere messbar bezüglich B(I).<br />

(ii) Für x ∈ I◦ definiere die Funktion der Differenzenquotienten<br />

ϕ(y) − ϕ(x)<br />

gx(y) := für y ∈ I \{x}.<br />

y − x<br />

Dann ist gx monoton wachsend, und es existieren die links- und rechtsseitigen<br />

Ableitungen<br />

und<br />

D − ϕ(x) := lim<br />

y↑x gx(y) =sup{gx(y) : yx}.<br />

(iii) Für x ∈ I ◦ gilt D − ϕ(x) ≤ D + ϕ(x) und<br />

ϕ(x)+(y − x)t ≤ ϕ(y) für jedes y ∈ I ⇐⇒ t ∈ [D − ϕ(x),D + ϕ(x)].<br />

D−ϕ(x) und D + ϕ(x) sind also die minimale und die maximale Tangentensteigung<br />

in x.<br />

(iv) Die Abbildungen x ↦→ D−ϕ(x) und x ↦→ D + ϕ(x) sind monoton wachsend.<br />

x ↦→ D−ϕ(x) ist linksstetig und x ↦→ D + ϕ(x) ist rechtsstetig. Es gilt<br />

D−ϕ(x) =D + ϕ(x) in allen Stetigkeitspunkten von D−ϕ und D + ϕ.<br />

(v) ϕ ist genau dann in x differenzierbar, wenn D−ϕ(x) =D + ϕ(x) ist. In diesem<br />

Fall ist die Ableitung ϕ ′ (x) =D + ϕ(x).<br />

(vi) ϕ ist fast überall differenzierbar, und es gilt ϕ(b) − ϕ(a) = � b<br />

a D+ ϕ(x) dx für<br />

a, b ∈ I ◦ .


7.2 Ungleichungen und Satz von Fischer-Riesz 143<br />

Beweis. (i) Sei x ∈ I ◦ . Wir nehmen an, dass lim infn→∞ ϕ(x−1/n) ≤ ϕ(x)−ε<br />

für ein ε>0 gilt. Da ϕ konvex ist, gilt<br />

ϕ(y) ≥ ϕ(x)+n(y − x)(ϕ(x) − ϕ(x − 1/n)) für jedes y>x und n ∈ N.<br />

Zusammen mit der obigen Annahme folgt ϕ(y) = ∞ für jedes y > x. Mithin<br />

war die Annahme falsch. Die analoge Überlegung für die rechte Seite liefert die<br />

Stetigkeit von ϕ in x.<br />

(ii) Die Monotonie folgt aus der Konvexität. Die anderen Aussagen sind klar.<br />

(iii) Aufgrund der Monotonie von gx gilt D−ϕ(x) ≤ D + ϕ(x). Per Konstruktion<br />

ist ϕ(x)+(y − x)t ≤ ϕ(y) für alle yxgenau dann, wenn t ≤ D + ϕ(x) ist.<br />

(iv) Für ε>0 ist aufgrund der Konvexität x ↦→ gx(x + ε) monoton wachsend<br />

und nach (i) stetig. Als Infimum monotoner, stetiger Funktionen ist x ↦→ D + ϕ(x)<br />

monoton wachsend und rechtsstetig. Analog folgt die Aussage für D−ϕ.Dax ↦→<br />

gx(y) monoton ist, folgt D + ϕ(x ′ ) ≥ D−ϕ(x ′ ) ≥ D + ϕ(x) für x ′ >x.IstD + ϕ<br />

stetig in x,soistD−ϕ(x) =D + ϕ(x).<br />

(v) Dies ist klar, da D−ϕ und D + ϕ die Limiten der linksseitigen und rechtsseitigen<br />

Sekantensteigungsfolgen sind.<br />

(vi) Für ε>0 sei Aε = {x ∈ I : D + ϕ(x) ≥ ε + limy↑x D + ϕ(y)} die Menge<br />

der Unstetigkeitsstellen der Höhe mindestens ε. Für je zwei Punkte a, b ∈ I mit<br />

a


144 7 L p -Räume und Satz von Radon-Nikodym<br />

Beweis. ” (ii) =⇒ (iii) ⇐⇒ (iv)“ Dies ist klar.<br />

” (iii) =⇒ (i)“ Das Supremum konvexer Funktionen ist konvex, und jede affin<br />

lineare Funktion ist konvex. Also ist sup L(ϕ) konvex, falls L(ϕ) �= ∅.<br />

” (i) =⇒ (ii)“ Nach Satz 7.7(iii) ist für jedes x0 ∈ I die Abbildung x ↦→ ϕ(x0)+<br />

(x − x0)D + ϕ(x0) in L(ϕ). ✷<br />

Satz 7.9 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall und X eine Zufallsvariable<br />

mit Werten in I und E[|X|] < ∞.Istϕ konvex, dann gilt E[ϕ(X) − ] < ∞<br />

und<br />

E[ϕ(X)] ≥ ϕ(E[X]).<br />

Beweis. Da nach Korollar 7.8(iii) L(ϕ) �= ∅ ist, können wir a, b ∈ R so wählen,<br />

dass ax + b ≤ ϕ(x) gilt für alle x ∈ I. Es ist dann<br />

E[ϕ(X) − ] ≤ E[(aX + b) − ] ≤|b| + |a|·E[|X|] < ∞.<br />

Wir unterscheiden die Fälle, wo E[X] im Inneren I◦ oder am Rand ∂I liegt.<br />

1. Fall Ist E[X] ∈ I◦ ,soseit + := D + ϕ(E[X]) die maximale Tangentensteigung<br />

von ϕ in E[X]. Dannistϕ(x) ≥ t + · (x − E[X]) + ϕ(E[X]) für jedes x ∈ I, also<br />

E[ϕ(X)] ≥ t + E[X − E[X]] + E[ϕ(E[X])] = ϕ(E[X]).<br />

2. Fall Ist E[X] ∈ ∂I, soistX = E[X] f.s., also E[ϕ(X)] = E[ϕ(E[X])] =<br />

ϕ(E[X]). ✷<br />

Die Jensen’sche Ungleichung lässt sich auf den R n ausweiten. Hierfür benötigen<br />

wir eine Darstellung konvexer Funktionen mehrerer Veränderlicher als Supremum<br />

von affin linearen Funktionen. Dabei heißt eine Funktion g : R n → R affin linear,<br />

wenn es ein a ∈ R n und ein b ∈ R gibt mit g(x) =〈a, x〉 + b für jedes x. Hierbei<br />

bezeichnet 〈 · , · 〉 das gewöhnliche Skalarprodukt auf R n .<br />

Satz 7.10. Sei G ⊂ R n offen und konvex und ϕ : G → R eine Abbildung. Dann gilt<br />

Korollar 7.8 sinngemäß mit I = G. Istϕ konvex, so ist ϕ stetig und insbesondere<br />

messbar. Ist ϕ zweimal stetig differenzierbar, so ist ϕ genau dann konvex, wenn die<br />

Hesse-Matrix positiv semidefinit ist.<br />

Beweis. Da wir die Aussagen nur für den Beweis der mehrdimensionalen Jensen’schen<br />

Ungleichung benötigen, die aber im weiteren Verlaufe keine tragende<br />

Bedeutung hat, geben wir nur die Literatur an: Im Buch von Rockafellar [138] folgt<br />

die Stetigkeit aus Theorem 10.1, die Aussage von 7.8 aus Theorem 12.1 beziehungsweise<br />

Theorem 18.8. Die Aussage über die Hesse-Matrix steht in Theorem 4.5. ✷


7.2 Ungleichungen und Satz von Fischer-Riesz 145<br />

Satz 7.11 (Jensen’sche Ungleichung im R n ). Sei G ⊂ R n konvex, und seien<br />

X1,...,Xn integrierbare reelle Zufallsvariablen mit P[(X1,...,Xn) ∈ G] =1.<br />

Sei ferner ϕ : G → R konvex. Dann ist E[ϕ(X1,...,Xn) − ] < ∞ und<br />

E � ϕ(X1,...,Xn) � ≥ ϕ(E[X1],...,E[Xn]).<br />

Beweis. Wir betrachten zunächst den Fall, wo G offen ist. Die Argumentation läuft<br />

hier ähnlich wie beim Beweis von Satz 7.9.<br />

Sei g ∈ L(ϕ) mit g(E[X1],...,E[Xn]) = ϕ(E[X1],...,E[Xn]). Dag ≤ ϕ linear<br />

ist, folgt<br />

E � ϕ(X1,...,Xn) � ≥ E[g(X1,...,Xn)] = g(E[X1],...,E[Xn]).<br />

Die Integrierbarkeit von ϕ(X1,...,Xn) − folgt völlig analog wie im eindimensionalen<br />

Fall. Sei jetzt der allgemeine Fall betrachtet, das heißt derjenige, wo G nicht<br />

notwendigerweise offen ist. Hier ist das Problem, wenn (E[X1],...,E[Xn]) ∈ ∂G<br />

liegt, etwas kniffliger als im eindimensionalen Fall, weil ∂G flache Stücke haben<br />

kann, die aber selbst notwendigerweise wieder konvex sind. Man kann also nicht<br />

schließen, dass (X1,...,Xn) fast sicher gleich dem Erwartungswert ist. Wir skizzieren<br />

nur das Argument: Zunächst kann man nur folgern, dass (X1,...,Xn) fast<br />

sicher in einem solchen flachen Stück liegt. Dieses ist dann notwendigerweise von<br />

Dimension kleiner als n ist (oder Null, falls das Stück schon ein Punkt ist). Jetzt<br />

muss man ϕ auf das flache Stück einschränken und sich iterativ in der Dimension<br />

herunter arbeiten. Die Details finden sich beispielsweise in [37, Theorem 10.2.6].✷<br />

Beispiel 7.12. Sei X eine reelle Zufallsvariable mit E[X 2 ] < ∞, I = R und<br />

ϕ(x) =x 2 . Aus der Jensen’schen Ungleichung folgt<br />

Var[X] =E[X 2 ] − (E[X]) 2 ≥ 0. ✸<br />

Beispiel 7.13. G =[0, ∞) × [0, ∞), und α ∈ (0, 1), sowieϕ(x, y) =x α y 1−α .<br />

ϕ ist konkav (Übung!), daher gilt für nichtnegative Zufallsvariablen X und Y mit<br />

endlicher Erwartung (nach Satz 7.11)<br />

E � X α Y 1−α� ≤ (E[X]) α (E[Y ]) 1−α . ✸<br />

Beispiel 7.14. Seien G, X und Y wie in Beispiel 7.13. Sei p ∈ (1, ∞). Dannist<br />

ψ(x, y) = � x 1/p + y 1/p�p konkav. Daher gilt (nach Satz 7.11)<br />

�<br />

E[X] 1/p + E[Y ] 1/p� p<br />

��<br />

≥ E X 1/p + Y 1/p� p�<br />

. ✸<br />

Wir kommen nun zu den beiden weiteren wichtigen Ungleichungen, der Hölder’schen<br />

Ungleichung und der Minkowski’schen Ungleichung. Zur Vorbereitung bringen<br />

wir ein Lemma.


146 7 L p -Räume und Satz von Radon-Nikodym<br />

Lemma 7.15 (Young’sche Ungleichung). Für p, q ∈ (1, ∞) mit 1<br />

p<br />

x, y ∈ [0, ∞) gilt<br />

xy ≤ xp<br />

p<br />

1 + q =1und für<br />

yq<br />

+ . (7.1)<br />

q<br />

Beweis. Wir halten y ∈ [0, ∞) fest und definieren f(x) := xp<br />

p<br />

+ yq<br />

q<br />

− xy für<br />

x ∈ [0, ∞). f ist zweimal stetig differenzierbar in (0, ∞) mit Ableitungen f ′ (x) =<br />

x p−1 − y und f ′′ (x) =(p − 1)x p−2 . Speziell ist f strikt konvex und besitzt daher<br />

eine eindeutige Minimalstelle bei x0 = y 1/(p−1) . Nach Voraussetzung ist q = p<br />

p−1 ,<br />

also x p<br />

0 = yq und daher<br />

f(x0) =<br />

� �<br />

1 1<br />

+ y<br />

p q<br />

q − y 1/(p−1) y =0. ✷<br />

Satz 7.16 (Hölder’sche Ungleichung). Seien p, q ∈ [1, ∞] mit 1<br />

p<br />

f ∈L p (μ), g∈L q (μ). Dann gilt (fg) ∈L 1 (μ) und<br />

�fg�1 ≤�f�p ·�g�q.<br />

+ 1<br />

q =1und<br />

Beweis. Die Fälle p =1und p = ∞ sind trivial. Sei also nun p ∈ (1, ∞) und<br />

f ∈ L p (μ) und g ∈ L q (μ) nicht fast überall Null. Indem wir zu f/�f�p und<br />

g/�g�q übergehen, können wir �f�p = �g�q =1annehmen. Nach Lemma 7.15 ist<br />

�<br />

�fg�1 = |f|·|g| dμ ≤ 1<br />

�<br />

|f|<br />

p<br />

p dμ + 1<br />

�<br />

|g|<br />

q<br />

q dμ<br />

= 1 1<br />

+<br />

p q =1 = �f�p ·�g�q. ✷<br />

Satz 7.17 (Minkowski’sche Ungleichung). Für p ∈ [1, ∞] und f,g ∈L p (μ) gilt<br />

�f + g�p ≤�f�p + �g�p. (7.2)<br />

Beweis. Der Fall p = ∞ ist wiederum trivial. Sei also p ∈ [1, ∞). Die linke Seite<br />

in (7.2) wird nicht kleiner, wenn wir f und g durch |f| und |g| ersetzen. Wir können<br />

also ohne Einschränkung annehmen, dass f ≥ 0 und g ≥ 0 gelten.<br />

Nun ist (f + g) p ≤ 2 p (f p ∨ g p ) ≤ 2 p (f p + g p ), also ist f + g ∈L p (μ). Mit Hilfe<br />

der Hölder’schen Ungleichung, angewandt auf f ·(f +g) p−1 und auf g ·(f +g) p−1 ,<br />

erhalten wir<br />

�f + g� p p =<br />

�<br />

(f + g) p �<br />

dμ =<br />

f(f + g) p−1 �<br />

dμ +<br />

≤�f�p ·�(f + g) p−1 �q + �g�p ·�(f + g) p−1 �q<br />

=(�f�p + �g�p) ·�f + g� p−1<br />

p ,<br />

g(f + g) p−1 dμ


7.3 Hilberträume 147<br />

wobei wir im letzten Schritt ausgenutzt haben, dass p − p/q =1ist. Teilen wir nun<br />

beide Seiten durch �f + g� p−1<br />

p , so folgt (7.2). ✷<br />

Wir haben in Satz 7.17 die Dreiecksungleichung gezeigt und damit, dass � · �p<br />

eine Norm ist. In Satz 7.3 wurde hingegen gezeigt, dass diese Norm vollständig<br />

ist (jede Cauchy-Folge konvergiert). Ein vollständiger normierter Vektorraum heißt<br />

Banachraum. Wir haben also den folgenden Satz gezeigt:<br />

Satz 7.18 (Fischer-Riesz). Für p ∈ [1, ∞] ist (L p (μ), � · �p) ein Banachraum.<br />

Übung 7.2.1. Zeige die Hölder’sche Ungleichung mit Hilfe der Jensen’schen Ungleichung<br />

mit der Funktion aus Beispiel 7.13. ♣<br />

Übung 7.2.2. Zeige die Minkowski’sche Ungleichung mit Hilfe der Jensen’schen<br />

Ungleichung mit der Funktion aus Beispiel 7.14. ♣<br />

Übung 7.2.3. Sei X eine reelle Zufallsvariable und p, q ∈ (1, ∞) mit 1<br />

p<br />

+ 1<br />

q =1.<br />

Zeige: X ist genau dann in L p (P), wenn es ein C 0 für jedes x ∈ V \{0}.<br />

Gelten lediglich (i), (ii) und 〈x, x〉 ≥0 für jedes x, soheißt〈 · , · 〉 eine positiv<br />

semidefinite symmetrische Bilinearform.<br />

Ist 〈 · , · 〉 ein Skalarprodukt, so heißt (V,〈 · , · 〉) ein (reeller) Hilbertraum, falls<br />

die durch �x� := 〈x, x〉 1/2 definierte Norm vollständig ist, falls also (V,� · �) ein<br />

Banachraum ist.


148 7 L p -Räume und Satz von Radon-Nikodym<br />

Definition 7.20. Für f,g ∈L2 (μ) definieren wir<br />

�<br />

〈f,g〉 := fgdμ.<br />

Für ¯ f,¯g ∈ L 2 (μ) definieren wir 〈 ¯ f,¯g〉 := 〈f,g〉, wobei f ∈ ¯ f und g ∈ ¯g.<br />

Man beachte, dass diese Definition unabhängig von der Wahl der Repräsentanten f<br />

und g ist.<br />

Satz 7.21. 〈 · , · 〉 ist ein Skalarprodukt auf L 2 (μ) und eine positiv semidefinite symmetrische<br />

Bilinearform auf L 2 (μ). Es gilt �f�2 = 〈f,f〉 1/2 .<br />

Beweis. Übung! ✷<br />

Als Korollar zu Satz 7.18 erhalten wir:<br />

Korollar 7.22. (L 2 (μ), 〈 · , · 〉) ist ein reeller Hilbertraum.<br />

Lemma 7.23. Ist 〈 · , · 〉 eine positiv semidefinite Bilinearform auf dem reellen Vektorraum<br />

V ,soist〈 · , · 〉 : V × V → R stetig (bezüglich der Produkttopologie der<br />

Topologie auf V , die von der Pseudometrik d(x, y) =〈x − y, x − y〉 1/2 erzeugt<br />

wird).<br />

Beweis. Klar. ✷<br />

Definition 7.24 (Orthogonales Komplement). Sei V ein reeller Vektorraum mit<br />

Skalarprodukt 〈 · , · 〉.IstW ⊂ V , so bezeichnen wir den Untervektorraum<br />

W ⊥ := � v ∈ V : 〈v, w〉 =0 für alle w ∈ W �<br />

als das orthogonale Komplement von W .<br />

Satz 7.25 (Orthogonale Zerlegung). Sei (V,〈 · , · 〉) ein Hilbertraum und W ⊂ V<br />

ein abgeschlossener linearer Unterraum. Für jedes x ∈ V existiert eine eindeutige<br />

Darstellung x = y + z, wobei y ∈ W und z ∈ W ⊥ ist.<br />

Beweis. Sei x ∈ V und c := inf{�x − w� : w ∈ W }. Sei ferner (wn)n∈N eine<br />

Folge in W mit �x − wn� n→∞<br />

−→ c. Die Parallelogrammgleichung ergibt<br />

�wm − wn� 2 =2�wm − x� 2 +2�wn − x� 2 �<br />

�<br />

− 4 �<br />

1<br />

�2<br />

(wm<br />

�2<br />

�<br />

+ wn) − x�<br />

� .<br />

Da W linear ist, ist (wm + wn)/2 ∈ W , also � 1<br />

2 (wm + wn) − x� ≥c. Alsoist<br />

(wn)n∈N eine Cauchy-Folge: �wm − wn� −→0, falls m, n →∞.


7.3 Hilberträume 149<br />

Da V vollständig ist und W abgeschlossen, ist auch W vollständig, also gibt es ein<br />

n→∞<br />

y ∈ W mit wn −→ y. Setze nun z := x−y.Dannist�z� = limn→∞ �wn−x� =<br />

c aufgrund der Stetigkeit der Norm (Lemma 7.23).<br />

Betrachte ein beliebiges w ∈ W \{0}. Wir setzen ϱ := −〈z,w〉/�w�2 und erhalten<br />

y + ϱw ∈ W , also<br />

c 2 ≤ �x − (y + ϱw)� 2 = �z� 2 + ϱ 2 �w� 2 +2ϱ 〈z,w〉 = c 2 − ϱ 2 �w� 2 .<br />

Folglich ist 〈z,w〉 =0für alle w ∈ W und damit z ∈ W ⊥ .<br />

Die Eindeutigkeit der Darstellung klar: Ist x = y ′ + z ′ eine weitere orthogonale<br />

Zerlegung, so ist y − y ′ ∈ W und z − z ′ ∈ W ⊥ sowie y − y ′ + z − z ′ =0, also ist<br />

0 = �y − y ′ + z − z ′ � 2 = �y − y ′ � 2 + �z − z ′ � 2 +2〈y − y ′ ,z− z ′ 〉<br />

= �y − y ′ � 2 + �z − z ′ � 2 .<br />

Es folgt y = y ′ und z = z ′ . ✷<br />

Satz 7.26 (Darstellungssatz von Riesz-Fréchet). Sei (V,〈 · , · 〉) ein Hilbertraum<br />

und F : V → R eine Abbildung. Dann sind äquivalent:<br />

(i) F ist stetig und linear.<br />

(ii) Es gibt ein f ∈ V mit F (x) =〈x, f〉 für alle x ∈ V .<br />

Das Element f ∈ V in (ii) ist eindeutig bestimmt.<br />

Beweis. ” (ii) =⇒ (i)“ Für jedes f ∈ V ist per Definition des Skalarprodukts die<br />

Abbildung x ↦→ 〈x, f〉 linear. Nach Lemma 7.23 ist diese Abbildung auch stetig.<br />

” (i) =⇒ (ii)“ Ist F ≡ 0, sowähle f =0. Sei nun F nicht identisch Null. Da F<br />

stetig ist, ist der Kern W := F −1 ({0}) ein abgeschlossener echter linearer Unterraum<br />

von V .Seiv∈ V \W und v = y +z für y ∈ W und z ∈ W ⊥ die orthogonale<br />

Zerlegung von v. Dannistz�= 0, und F (z) =F (v) − F (y) =F (v) �= 0, und<br />

wir können u := z/F(z) ∈ W ⊥ definieren. Offenbar ist F (u) =1, und für jedes<br />

x ∈ V ist F (x − F (x)u) =F (x) − F (x)F (u) =0, also x − F (x)u ∈ W<br />

und damit 〈x − F (x)u, u〉 =0. Folglich ist F (x) =〈x, u〉/�u�2 . Setzen wir nun<br />

f := u/�u�2 ,soistF (x) =〈x, f〉 für alle x ∈ V .<br />

” Eindeutigkeit“ Sei 〈x, f〉 = 〈x, g〉 für alle x ∈ V . Setzen wir x = f − g, so<br />

erhalten wir 0=〈f − g, f − g〉, also f = g. ✷<br />

Wir werden den Darstellungssatz im folgenden Abschnitt für den Raum L 2 (μ) brauchen<br />

statt für den Hilbertraum L 2 (μ). Mit ein bisschen abstract nonsense lässt sich<br />

aber der vorangehende Satz auf diese Situation anwenden. Wir erinnern daran, dass<br />

N = {f ∈L 2 (μ) : 〈f,f〉 =0} der Unterraum der Funktionen ist, die fast sicher<br />

Null sind, und L 2 (μ) =L 2 (μ)/N der Quotientenraum. Dies ist ein Spezialfall der


150 7 L p -Räume und Satz von Radon-Nikodym<br />

Situation, wo (V,〈 · , · 〉) ein linearer Raum mit vollständiger positiv semidefiniter<br />

symmetrischer Bilinearform ist. In diesem Fall ist N := {v ∈ V : 〈v, v〉 =0} und<br />

V0 = V/N := {f + N : f ∈ V }. Wir schreiben 〈v + N ,w+ N〉0 := 〈v, w〉 und<br />

erhalten so einen Hilbertraum (V0, 〈 · , · 〉0).<br />

Korollar 7.27. Sei (V,〈 · , · 〉) ein linearer Vektorraum mit vollständiger positiv semidefiniter<br />

symmetrischer Bilinearform. Die Abbildung F : V → R ist genau dann<br />

stetig und linear, wenn es ein f ∈ V gibt mit F (x) =〈x, f〉 für alle x ∈ V .<br />

Beweis. Die eine Implikation ist trivial. Sei also F stetig und linear. Dann ist<br />

F (0) = 0, weil F linear ist, und für jedes v ∈Nist F (v) =F (0) = 0, weil<br />

F stetig ist (klar: v liegt in jeder offenen Umgebung von 0, also muss F in v denselben<br />

Wert annehmen wie in 0). Also induziert F eine stetige lineare Abbildung<br />

F0 : V0 → R durch F0(x + N )=F (x). Nach Satz 7.26 existiert ein f + N∈V0<br />

mit F0(x + N )=〈x + N ,f+ N〉0 für jedes x + N∈V0. Nach Definition von F0<br />

und 〈 · , · 〉0 ist nun aber F (x) =〈x, f〉 für jedes x ∈ V . ✷<br />

Korollar 7.28. Die Abbildung F : L 2 (μ) → R ist genau dann stetig und linear,<br />

wenn es ein f ∈L 2 (μ) gibt mit F (g) = � gf dμ für alle g ∈L 2 (μ).<br />

Beweis. Der Raum L 2 (μ) erfüllt die Bedingungen des vorangehenden Korollars.✷<br />

7.4 Lebesgue’scher Zerlegungssatz<br />

In diesem Abschnitt benutzen wir die eben gewonnen Aussagen über Hilberträume,<br />

um ein Maß zu zerlegen in einen singulären und einen absolutstetigen Anteil bezüglich<br />

eines zweiten Maßes. Für den absolutstetigen Anteil zeigen wir, dass er eine<br />

Dichte besitzt. Seien μ und ν Maße auf (Ω,A). Nach Definition 4.13 heißt eine<br />

messbare Funktion f : Ω → [0, ∞) eine Dichte von ν bezüglich μ, falls<br />

�<br />

ν(A) := f A dμ für jedes A ∈A. (7.3)<br />

Andererseits definiert für jedes messbare f : Ω → [0, ∞) Gleichung (7.3) ein Maß<br />

ν auf (Ω,A). Wir schreiben in diesem Fall auch<br />

ν = fμ und f = dν<br />

. (7.4)<br />

dμ<br />

Beispielsweise hat die Normalverteilung ν = N0,1 die Dichte f(x) = 1<br />

√ 2π e −x2 /2<br />

bezüglich des Lebesgue-Maßes μ = λ auf R.<br />

Ist g : Ω → [0, ∞] messbar, so gilt (nach Satz 4.15)


7.4 Lebesgue’scher Zerlegungssatz 151<br />

� �<br />

gdν = gf dμ. (7.5)<br />

Wir erhalten so, dass genau dann g ∈L 1 (ν) ist, wenn gf ∈L 1 (μ) gilt, und in<br />

diesem Fall ist (7.5) erfüllt.<br />

Gilt ν = fμ, so ist offenbar ν(A) =0für jedes A ∈Amit μ(A) =0. In gewissem<br />

Sinne komplementär ist die Situation beispielsweise bei der Poissonverteilung μ =<br />

Poiϱ mit Parameter ϱ>0 und ν = N0,1. Hier ist N0 ⊂ R eine ν-Nullmenge mit<br />

μ(R \ N0) =0. Wir sagen, dass ν singulär zu μ ist.<br />

Das Ziel dieses Kapitels ist es, im allgemeinen Fall zu zeigen, dass ein beliebiges<br />

σ-endliches Maß ν auf einem Messraum (Ω,A) zerlegt werden kann in einen Teil,<br />

der singulär zum σ-endlichen Maß μ ist, und einen Teil, der eine Dichte bezüglich<br />

μ hat (Lebesgue’scher Zerlegungssatz, Satz 7.33).<br />

Satz 7.29 (Eindeutigkeit der Dichte). Sei νσ-endlich. Sind f1 und f2 Dichten von<br />

ν bezüglich μ, sogiltf1 = f2 μ-fast überall. Speziell ist die Dichtefunktion dν<br />

dμ<br />

eindeutig bis auf Gleichheit μ-fast überall.<br />

Beweis. Sei En ↑ Ω mit ν(En) < ∞, n ∈ N. SeiAn = En ∩{f1 >f2} für<br />

n ∈ N. Dannistν(An) < ∞, also<br />

�<br />

0=ν(An) − ν(An) = f1 − f2 dμ.<br />

Nach Satz 4.8(i) gilt f2 An = f1 An μ–f.ü., also μ(An) =0und μ({f1 >f2}) =<br />

μ( �<br />

n∈N An) =0. Analog folgt μ({f1 0, soistμ(A) = �<br />

fdλ>0 falls λ(A) > 0,<br />

A<br />

also μ ≈ λ.Istλ({f =0}) > 0,soist(wegenμ({f =0}) =0) λ �≪ μ.


152 7 L p -Räume und Satz von Radon-Nikodym<br />

(ii) Betrachte die Bernoulli-Verteilungen Berp und Berq für p, q ∈ [0, 1]. Istp∈ (0, 1), so gilt Berq ≪ Berp. Istp ∈{0, 1}, soistBerq ≪ Berp genau dann, wenn<br />

p = q, und Berq ⊥ Berp genau dann, wenn q =1− p.<br />

(iii) Betrachte die Poisson-Verteilungen Poiα und Poiβ für α, β ≥ 0. Es ist genau<br />

dann Poiα ≪ Poiβ,wennβ>0 oder α =0.<br />

(iv) Betrachte die unendlichen Produktmaße (siehe Satz 1.64) Ber ⊗N<br />

p<br />

auf Ω = {0, 1} N .DannistBer ⊗N<br />

p<br />

und Ber ⊗N<br />

q<br />

⊥ Ber ⊗N<br />

q , falls p �= q. In der Tat: Sei<br />

Xn((ω1,ω2,...)) = ωn für jedes n ∈ N die Projektion von Ω auf die n-te Koordinate.<br />

Dann ist (Xn)n∈N unabhängig und Bernoulli-verteilt (siehe Beispiel 2.18)<br />

mit Parameter r unter Ber ⊗N<br />

r . Nach dem starken Gesetz der großen Zahl gibt es also<br />

für r ∈{p, q} eine messbare Menge Ar ⊂ Ω mit Ber ⊗N<br />

r (Ω \ Ar) =0und<br />

1<br />

lim<br />

n→∞ n<br />

n�<br />

Xi(ω) =r für jedes ω ∈ Ar.<br />

i=1<br />

Speziell ist also Ap ∩ Aq = ∅, falls p �= q, und damit Ber ⊗N<br />

p ⊥ Ber ⊗N<br />

q . ✸<br />

Satz 7.33 (Zerlegungssatz von Lebesgue). Seien μ und νσ-endliche Maße auf<br />

(Ω,A). Dann lässt sich ν auf eindeutige Weise zerlegen in den (bezüglich μ) absolutstetigen<br />

Anteil νa und den singulären Anteil νs:<br />

ν = νa + νs, wobei νa ≪ μ und νs ⊥ μ.<br />

νa hat eine Dichte bezüglich μ, und dνa<br />

dμ<br />

ist A-messbar und μ–f.ü. endlich.<br />

Korollar 7.34 (Satz von Radon-Nikodym). Seien μ und νσ-endliche Maße auf<br />

(Ω,A). Dann gilt<br />

ν hat eine Dichte bezüglich μ ⇐⇒ ν ≪ μ.<br />

In diesem Fall ist dν<br />

dν<br />

dμ A-messbar und μ–f.ü. endlich. dμ heißt Radon-Nikodym-<br />

Ableitung von ν nach μ.<br />

Beweis. Die eine Richtung ist trivial. Sei also ν ≪ μ. Mit Satz 7.33 bekommen<br />

wir, dass ν = νa eine Dichte bezüglich μ hat. ✷<br />

Beweis (Satz 7.33). Die Idee geht auf v. Neumann zurück, wir folgen der Darstellung<br />

in [37].<br />

Wir können uns durch die üblichen Ausschöpfungsargumente auf den Fall beschränken<br />

wo μ und ν endlich sind. Nach Satz 4.19 ist die kanonische Inklusion


7.4 Lebesgue’scher Zerlegungssatz 153<br />

i : L2 (Ω,A,μ+ ν) ↩→ L1 (Ω,A,μ+ ν) stetig. Wegen ν ≤ μ + ν ist also auch<br />

die Linearform L2 (Ω,A,μ + ν) → R, h ↦→ � hdν stetig. Nach dem Satz von<br />

Riesz-Fréchet (hier: Korollar 7.28) existiert daher ein g ∈L2 (Ω,A,μ+ ν) mit<br />

� �<br />

hdν = hg d(μ + ν) für jedes h ∈L 2 (Ω,A,μ+ ν), (7.7)<br />

oder äquivalent dazu<br />

�<br />

f(1 − g) d(μ + ν) =<br />

�<br />

fdμ für jedes f ∈L 2 (Ω,A,μ+ ν). (7.8)<br />

Wählen wir in (7.7) speziell h = {g1}, in (7.8) dass (μ + ν)-fast überall g ≤ 1 gilt,<br />

also ist 0 ≤ g ≤ 1. Sei nun f ∈L 1 (Ω,A,μ+ ν), und seien (fn)n∈N nichtnegative<br />

Funktionen in L 2 (Ω,A,μ + ν) mit fn ↑ f. Nach dem Satz von der monotonen<br />

Konvergenz (angewandt auf das Maß (1 − g)(μ + ν), dem Maß mit Dichte (1 − g)<br />

bezüglich μ + ν) erhalten wir, dass (7.8) für alle messbaren f ≥ 0 gilt. Analog folgt<br />

die Gültigkeit von (7.7) für alle messbaren h ≥ 0.<br />

Sei E := g −1 ({1}). Setzen wir f = E in (7.8) ein, so erhalten wir μ(E) =0.Wir<br />

definieren jetzt zwei Maße νa und νs für A ∈Adurch<br />

νa(A) :=ν(A \ E) und νs(A) :=ν(A ∩ E).<br />

Offenbar gilt ν = νa + νs und νs(Ω \ E) =0, also νs ⊥ μ. Ist nun A ∩ E = ∅<br />

und μ(A) =0,soist � A dμ =0, also nach (7.8) auch �<br />

(1 − g) d(μ + ν) =0.<br />

A<br />

Andererseits ist 1−g >0 auf A, also μ(A)+ν(A) =0und damit νa(A) =ν(A) =<br />

0. Ist allgemeiner B messbar mit μ(B) =0,soistμ(B \ E) =0, also nach dem<br />

Gezeigten νa(B) =νa(B \ E) =0. Folglich ist νa ≪ μ und ν = νa + νs die<br />

gewünschte Zerlegung.<br />

Um die Dichte von νa bezüglich μ zu erhalten, setzen wir f := g<br />

1 − g Ω\E. Für<br />

jedes A ∈Aist nun nach (7.8) und (7.7) mit h = A\E<br />

�<br />

A<br />

�<br />

fdμ =<br />

A∩E c<br />

gd(μ + ν) =ν(A \ E) =νa(A).<br />

Also ist f = dνa<br />

dμ . ✷<br />

Übung 7.4.1. Wir definieren eine Abbildung F : (0, 1] → (0, 1] an der Stelle<br />

x ∈ (0, 1] mit nicht abbrechender Binärdarstellung x = (0,x1x2x3 �<br />

...) :=<br />

∞<br />

n=1 xn2−n durch<br />

∞�<br />

F (x) =(0,x1x1x2x2x3x3 ...)= 3 xn 4 −n .<br />

Man zeige, dass F die stetige Verteilungsfunktion eines W-Maßes μ auf B((0, 1])<br />

ist, und dass μ singulär zum Lebesgue-Maß λ � � ist. ♣<br />

(0,1]<br />

n=1


154 7 L p -Räume und Satz von Radon-Nikodym<br />

Übung 7.4.2. Sei n ∈ N und p, q ∈ [0, 1]. Unter welchen Bedingungen gilt für die<br />

Binomialverteilungen bn,p ≪ bn,q? Man bestimme die Radon-Nikodym Ableitung<br />

dbn,p<br />

. ♣<br />

dbn,q<br />

7.5 Ergänzung: Signierte Maße<br />

In diesem Abschnitt bringen wir die Zerlegungssätze für signierte Maße (Hahn, Jordan)<br />

und liefern einen alternativen Beweis für den Lebesgue’schen Zerlegungssatz.<br />

Definition 7.35. Seien μ und ν zwei Maße auf (Ω,A). ν heißt totalstetig bezüglich<br />

μ, falls es für jedes ε>0 ein δ>0 gibt, sodass für jedes A ∈Agilt<br />

μ(A) 0.<br />

k=n<br />

∞�<br />

2 −k = 0.<br />

Also ist ν �≪ μ. ✷


7.5 Ergänzung: Signierte Maße 155<br />

Beispiel 7.38. Die Endlichkeitsannahme ist für die Umkehrung im vorigen Satz essenziell.<br />

Sei beispielsweise μ = N0,1 die Standardnormalverteilung auf R und ν<br />

das Lebesgue-Maß auf R. Dann hat ν bezüglich μ die Dichte f(x) = √ 2πex2 /2 .<br />

Speziell gilt ν ≪ μ. Andererseits gilt μ([n, ∞)) n→∞<br />

−→ 0 und ν([n, ∞)) = ∞ für<br />

jedes n ∈ N. Mithin ist ν nicht totalstetig bezüglich μ. ✸<br />

Beispiel 7.39. Sei (Ω,A) ein Messraum, und seien μ und ν endliche Maße auf<br />

(Ω,A). MitZbezeichnen wir die Menge der endlichen Zerlegungen von Ω in disjunkte,<br />

messbare Mengen. Das heißt, Z ∈Zist eine endliche Teilmenge von A so,<br />

dass die Mengen C ∈ Z paarweise disjunkt sind und �<br />

C∈Z C = Ω für jedes Z.<br />

Für Z ∈Zdefinieren wir eine Funktion fZ : Ω → R durch<br />

fZ(ω) =<br />

�<br />

C∈Z: μ(C)>0<br />

ν(C)<br />

μ(C) C(ω).<br />

Wir zeigen, dass die folgenden drei Aussagen äquivalent sind:<br />

(i) Die Familie (fZ : Z ∈ Z) ist gleichgradig integrierbar in L 1 (μ) und<br />

� fZ dμ = ν(Ω) für jedes Z ∈Z.<br />

(ii) Es gilt ν ≪ μ.<br />

(iii) ν ist totalstetig bezüglich μ.<br />

Die Äquivalenz von (ii) und (iii) wurde im vorigen Satz bewiesen. Gilt (ii), so ist<br />

für jedes Z ∈Z �<br />

fZ dμ =<br />

�<br />

ν(C) =ν(Ω),<br />

C∈Z: μ(C)>0<br />

weil ν(C) =0ist für diejenigen C, die in der Summe nicht auftauchen. Sei nun<br />

ε>0 gegeben. Da aus (iii) aus (ii) folgt, gibt es ein δ ′ > 0, sodass ν(A)


156 7 L p -Räume und Satz von Radon-Nikodym<br />

Es folgt schließlich für A ∈Amit μ(A) 0<br />

�<br />

0ν(C)<br />

μ(A ∩ C) ν(C)<br />

μ(C) +<br />

�<br />

Kμ(C)>ν(C)<br />

Kμ(A ∩ C) ≤ ε<br />

+ Kμ(A) < ε.<br />

2<br />

Also ist (fZ, Z∈Z) gleichgradig integrierbar nach Satz 6.24(iii).<br />

μ(A ∩ C) ν(C)<br />

μ(C)<br />

Gelte nun (i). Ist μ =0,soist � fdμ=0für jedes f, also ν(Ω) =0und damit<br />

ν ≪ μ. Sei also μ �= 0.SeiA ∈Amit μ(A) =0.DannistZ = {A, A c }∈Zund<br />

fZ = A cν(Ac )/μ(A c ). Nach Voraussetzung ist ν(Ω) = � fdμ = ν(A c ), also<br />

ν(A) =0und damit ν ≪ μ. ✸<br />

Definition 7.40 (Ladungsverteilung, signiertes Maß). Eine Mengenfunktion ϕ :<br />

A → R heißt signiertes Maß oder Ladungsverteilung auf (Ω,A), falls sie σ–<br />

additiv ist, falls also für jede Folge paarweise disjunkter Mengen A1,A2,... ∈A<br />

gilt, dass<br />

�<br />

∞�<br />

�<br />

∞�<br />

ϕ = ϕ(An). (7.10)<br />

n=1<br />

An<br />

Die Menge aller Ladungsverteilungen bezeichnen wir mit LV = LV(Ω,A).<br />

Bemerkung 7.41. (i) Ist ϕ ein signiertes Maß, so liegt in (7.10) automatisch schon<br />

absolute Konvergenz vor. Tatsächlich ändert sich ja der Wert der linken Seite nicht,<br />

wenn wir die Mengen A1,A2,... umnummerieren. Damit dies für die rechte Seite<br />

auch gilt, muss nach dem Weierstraß’schen Umordnungssatz die Reihe absolut<br />

konvergieren. Speziell gilt für jede Folge (An)n∈N �<br />

paarweise disjunkter Mengen<br />

∞<br />

lim<br />

n→∞<br />

k=n |ϕ(Ak)| =0.<br />

(ii) Ist ϕ ∈LV,soistϕ(∅) =0,daR ∋ ν(∅) = �<br />

n∈N ν(∅).<br />

(iii) ϕ ∈LVist im Allgemeinen nicht σ-subadditiv. ✸<br />

Beispiel 7.42. Sind μ + ,μ − endliche Maße, so ist ϕ := μ + −μ − ∈LV. Wir werden<br />

sehen, dass jedes signierte Maß eine solche Darstellung besitzt. ✸<br />

Satz 7.43 (Zerlegungssatz von Hahn). Sei ϕ ein signiertes Maß. Dann gibt es<br />

eine Menge Ω + ∈Amit ϕ(A) ≥ 0 für jedes A ∈A, A ⊂ Ω + und ϕ(A) ≤ 0 für<br />

jedes A ∈A, A ⊂ Ω − := Ω \ Ω + . Eine solche Darstellung Ω = Ω − ⊎ Ω + wird<br />

auch Hahn-Zerlegung von Ω (bezüglich ϕ) genannt.<br />

n=1


7.5 Ergänzung: Signierte Maße 157<br />

Beweis. Sei α := sup � ϕ(A) : A ∈A � .Wirmüssen zeigen, dass ϕ das Maximum<br />

α tatsächlich annimmt, dass es also ein Ω + ∈Agibt mit ϕ(Ω + )=α. Dannist<br />

nämlich α ∈ R, und für A ⊂ Ω + , A ∈Agilt<br />

α ≥ ϕ(Ω + \ A) =ϕ(Ω + ) − ϕ(A) =α − ϕ(A),<br />

also ϕ(A) ≥ 0. Für A ⊂ Ω − , A ∈Aist ϕ(A) ≤ 0,denn<br />

α ≥ ϕ(Ω + ∪ A) =ϕ(Ω + )+ϕ(A) =α + ϕ(A).<br />

Wir konstruieren nun Ω + mit ϕ(Ω + ) = α. Sei(An)n∈Neine Folge in A mit<br />

α = lim<br />

n→∞ ϕ(An). Setze A := �∞ n=1 An. Da jedes An noch Anteile mit negati-<br />

”<br />

ver Masse“ enthalten kann, können wir nicht einfach Ω + = A wählen. Vielmehr<br />

müssen wir Schicht für Schicht die negativen Anteile abfischen.<br />

Setze A 0 n := An und A 1 n := A \ An sowie<br />

�<br />

n�<br />

Pn :=<br />

i=1<br />

A s(i)<br />

i<br />

: s ∈{0, 1} n<br />

�<br />

die Partition von A,dievonA1,...,An erzeugt wird. Offensichtlich gilt für B,C ∈<br />

Pn entweder B = C oder B ∩ C = ∅. Außerdem gilt An = �<br />

B. Setze<br />

und<br />

B∈Pn<br />

B⊂An<br />

P − n := {B ∈Pn : ϕ(B) < 0}, P + n := Pn \P − n ,<br />

B∈Pn<br />

B⊂An<br />

Cn := �<br />

B∈P +<br />

n<br />

B⊂An<br />

B∈P + n<br />

Wegen der endlichen Additivität von ϕ ist<br />

ϕ(An) = �<br />

ϕ(B) ≤ �<br />

ϕ(B) ≤ �<br />

ϕ(B) =ϕ(Cn).<br />

B.<br />

B∈P + n<br />

Für m ≤ n setze En m = Cm ∪ ...∪ Cn.Für m


158 7 L p -Räume und Satz von Radon-Nikodym<br />

Wir setzen jetzt Ω + = �∞ m=1 Em, also Em ↓ Ω + .Dannist<br />

⎛<br />

ϕ(Em) =ϕ ⎝Ω + ⊎ �<br />

⎞<br />

(En \ En+1) ⎠<br />

= ϕ(Ω + )+<br />

n≥m<br />

∞�<br />

n=m<br />

ϕ(En \ En+1) m→∞<br />

−→ ϕ(Ω + ),<br />

wobei wir im letzten Schritt Bemerkung 7.41(i) ausgenutzt haben. Insgesamt ist<br />

α = lim<br />

m→∞ ϕ(Am) ≤ lim<br />

m→∞ ϕ(Em) =ϕ(Ω + ).<br />

Per Definition ist aber α ≥ ϕ(Ω + ), also α = ϕ(Ω + ), was zu zeigen war. ✷<br />

Korollar 7.44 (Zerlegungssatz von Jordan). Sei ϕ ∈LV(Ω,A) ein signiertes<br />

Maß. Dann gibt es eindeutig bestimmte endliche Maße ϕ + ,ϕ − mit ϕ = ϕ + − ϕ −<br />

und ϕ + ⊥ ϕ − .<br />

Beweis. Sei Ω = Ω + ⊎ Ω − die Hahn-Zerlegung. Setze ϕ + (A) :=ϕ(A ∩ Ω + ) und<br />

ϕ − (A) :=−ϕ(A ∩ Ω − ).<br />

Die Eindeutigkeit der Zerlegung ist trivial. ✷<br />

Korollar 7.45. Sei ϕ ∈LV(Ω,A) und ϕ = ϕ + − ϕ− die Jordan-Zerlegung von ϕ,<br />

sowie Ω = Ω + ⊎ Ω− die Hahn-Zerlegung von Ω. Dann definiert<br />

�ϕ�TV := sup � ϕ(A) − ϕ(Ω \ A) : A ∈A �<br />

= ϕ(Ω + ) − ϕ(Ω − )<br />

= ϕ + (Ω)+ϕ − (Ω)<br />

eine Norm auf LV(Ω,A), die so genannte Totalvariationsnorm.<br />

Beweis. Zu zeigen ist nur die Dreiecksungleichung. Seien ϕ1,ϕ2 ∈LV.SeiΩ =<br />

Ω + ⊎ Ω − die Hahn-Zerlegung bezüglich ϕ := ϕ1 + ϕ2 und Ω = Ω +<br />

i<br />

bezüglich ϕi, i =1, 2. Dann gilt<br />

�ϕ1 + ϕ2�TV = ϕ1(Ω + ) − ϕ1(Ω − )+ϕ2(Ω + ) − ϕ2(Ω − )<br />

≤ ϕ1(Ω + 1 ) − ϕ1(Ω − 1 )+ϕ2(Ω + 2 ) − ϕ2(Ω − 2 )<br />

⊎ Ω−<br />

i die<br />

= �ϕ1�TV + �ϕ2�TV. ✷<br />

Wir wollen jetzt einen alternativen Beweis des Zerlegungssatzes von Lebesgue<br />

(Satz 7.33) angeben und bereiten dies mit einem Lemma vor.


7.5 Ergänzung: Signierte Maße 159<br />

Lemma 7.46. Seien μ, ν endliche Maße auf (Ω,A), die nicht singulär zueinander<br />

sind, kurz: μ �⊥ ν. Dann gibt es ein A ∈Amit μ(A) > 0 und ein ε>0 mit<br />

εμ(E) ≤ ν(E) für jedes E ∈A mit E ⊂ A.<br />

Beweis. Für n ∈ N sei Ω = Ω + n ⊎Ω− n eine Hahn-Zerlegung zu (ν− 1<br />

nμ) ∈LV. Setze<br />

M := �<br />

n∈N Ω− n .Offenbarist(ν−1 1<br />

nμ)(M) ≤ 0, also ν(M) ≤ nμ(M) für jedes<br />

n ∈ N und deshalb ν(M) =0.Wegenμ�⊥ ν folgt μ � Ω \M) =μ( �<br />

n∈N Ω+ �<br />

n > 0,<br />

also μ(Ω + n0 ) > 0 für ein n0 ∈ N. Setze A := Ω + 1<br />

n0 und ε := . Damit ist dann<br />

n0<br />

μ(A) > 0 und (ν − εμ)(E) ≥ 0 für jedes E ⊂ A, E ∈A. ✷<br />

Alternativer Beweis von Satz 7.33 Wir zeigen hier nur die Existenz der Zerlegung.<br />

Indem wir eine geeignete Folge Ωn ↑ Ω betrachten, können wir annehmen, dass ν<br />

schon endlich ist. Betrachte die Menge der Funktionen<br />

�<br />

�<br />

�<br />

G := g : Ω → [0, ∞] : g ist messbar und gdμ≤ ν(A) für alle A ∈A<br />

A<br />

und setze<br />

�<br />

γ := sup<br />

�<br />

�<br />

gdμ: g ∈G .<br />

Unser Ziel ist es, ein maximales Element f in G zu konstruieren (also eines mit<br />

� fdμ= γ), das dann die gesuchte Dichte von νa ist.<br />

Offenbar ist 0 ∈G, also G �= ∅. Weiter gilt<br />

f,g ∈G impliziert f ∨ g ∈G. (7.11)<br />

Mit E := {f ≥ g} ist nämlich für A ∈A<br />

�<br />

�<br />

�<br />

f ∨ gdμ = fdμ+ gdμ ≤ ν(A ∩ E)+ν(A \ E) = ν(A).<br />

A<br />

A∩E<br />

A\E<br />

Wähle eine Folge (gn)n∈N in G mit � gn dμ n→∞<br />

−→ γ und setze fn = g1 ∨ ...∨ gn.<br />

Wegen (7.11) ist fn ∈G. Der Satz von der monotonen Konvergenz liefert für f :=<br />

sup{fn : n ∈ N}<br />

�<br />

�<br />

fdμ = sup<br />

A<br />

n∈N<br />

(das heißt f ∈G) und weiter<br />

�<br />

fdμ = sup<br />

n∈N<br />

fn dμ ≤ ν(A) für jedes A ∈A,<br />

A<br />

�<br />

�<br />

fn dμ ≥ sup<br />

n∈N<br />

gn dμ = γ,<br />

also � fdμ= γ ≤ ν(Ω).Wirdefinieren nun für jedes A ∈A


160 7 L p -Räume und Satz von Radon-Nikodym<br />

�<br />

νa(A) := fdμ, νs(A) :=ν(A) − νa(A).<br />

A<br />

Nach Konstruktion ist nun νa ≪ μ ein endliches Maß mit Dichte f bezüglich μ.<br />

Wegen f ∈Gist νs(A) =ν(A) − �<br />

fdμ≥ 0 für jedes A ∈A, also ist auch νs<br />

A<br />

ein endliches Maß. Es bleibt zu zeigen, dass νs ⊥ μ.<br />

An dieser Stelle benutzen wir Lemma 7.46. Wir nehmen an, dass νs �⊥ μ gälte.<br />

Dann gäbe es ein ε>0 und ein A ∈Amit μ(A) > 0 so, dass εμ(E) ≤ νs(E) für<br />

jedes E ⊂ A, E ∈A.Für B ∈Awäre dann<br />

�<br />

�<br />

(f + ε A) dμ = fdμ+ εμ(A ∩ B)<br />

B<br />

B<br />

≤ νa(B)+νs(A ∩ B) ≤ νa(B)+νs(B) = ν(B).<br />

Mit anderen Worten: (f + ε A) ∈Gund damit � (f + ε A) dμ = γ + εμ(A) >γ,<br />

was im Widerspruch zur Definition von γ steht. Also ist tatsächlich νs ⊥ μ. ✷<br />

Übung 7.5.1. Sei μ ein σ-endliches Maß auf (Ω,A) und ϕ ein signiertes Maß auf<br />

(Ω,A). Man zeige, dass, analog zum Satz von Radon-Nikodym, die beiden folgenden<br />

Aussagen äquivalent sind:<br />

(i) Für jedes A ∈Amit μ(A) =0ist ϕ(A) =0.<br />

(ii) Es gibt ein f ∈L1 (μ) mit ϕ = fμ, also �<br />

fdμ= ϕ(A) für jedes A ∈A. ♣<br />

Übung 7.5.2. Seien μ, ν, α endliche Maße auf (Ω,A) mit ν ≪ μ ≪ α.<br />

(i) Zeige, dass die Kettenregel für die Radon-Nikodym-Ableitung gilt:<br />

dν<br />

dα<br />

= dν<br />

dμ<br />

dμ<br />

dα<br />

A<br />

α-f.ü.<br />

(ii) Zeige, dass f := dν<br />

dν f<br />

d(μ+ν) existiert und dass μ-f.ü. dμ = 1−f gilt. ♣<br />

7.6 Ergänzung: Dualräume<br />

Nach dem Darstellungssatz von Riesz-Fréchet (Satz 7.26) hat jede stetige Linearform<br />

F : L 2 (μ) → R eine Darstellung F (g) =〈f,g〉 für ein f ∈ L 2 (μ). Andererseits<br />

ist für jedes f ∈ L 2 (μ) die Abbildung L 2 (μ) → R, g ↦→ 〈f,g〉 stetig und<br />

linear. Daher ist L 2 (μ) in kanonischer Weise isomorph zu seinem topologischen<br />

Dualraum (L 2 (μ)) ′ . Dieser ist allgemein wie folgt definiert.<br />

Definition 7.47 (Dualraum). Sei (V,� · �) ein Banachraum. Der Dualraum V ′ von<br />

V ist definiert durch


V ′ := {F : V → R ist stetig und linear}.<br />

Für F ∈ V ′ setzen wir �F � ′ := sup{|F (f)| : �f� =1}.<br />

7.6 Ergänzung: Dualräume 161<br />

Bemerkung 7.48. Da F stetig ist, existiert für jedes δ > 0 ein ε > 0, sodass<br />

|F (f)|


162 7 L p -Räume und Satz von Radon-Nikodym<br />

Beweis. Für den Beweis greifen wir zurück auf den Satz von Radon-Nikodym (Korollar<br />

7.34). Allerdings skizzieren wir den Beweis nur, weil wir die Theorie der<br />

signierten Maße und Inhalte nicht vertiefen wollen. Ein signierter Inhalt ν ist eine<br />

additive Mengenfunktion, die sich als Differenz ν = ν + − ν − zweier endlicher<br />

Inhalte darstellen lässt, also auch negative Werte annehmen kann. (Diese Begriffsbildung<br />

ist analog zu der des signierten Maßes, das sich ja als Differenz zweier<br />

Maße darstellen lässt.)<br />

Da κ eine Isometrie ist, ist κ insbesondere injektiv. Wir müssen also nur noch zeigen,<br />

dass κ surjektiv ist. Sei F ∈ (L p (μ)) ′ .Dannistν(A) =F ( A) ein signierter Inhalt<br />

auf A, und es gilt<br />

|ν(A)| ≤�F � ′ p (μ(A)) 1/p .<br />

Da μ ∅-stetig ist, ist also auch ν ∅-stetig und daher ein signiertes Maß auf A. Es gilt<br />

sogar ν ≪ μ. Nach dem Satz von Radon-Nikodym (Korollar 7.34) (angewandt auf<br />

die Maße ν − und ν + , vergleiche Übung 7.5.1) besitzt ν eine Dichte bezüglich μ,<br />

also eine messbare Funktion f mit ν = fμ.<br />

Sei Ee := {g : g ist Elementarfunktion mit μ(g �= 0)< ∞} und E + e := {g ∈<br />

Ee : g ≥ 0}. Dannistfür g ∈ Ee<br />

�<br />

F (g) = gf dμ. (7.13)<br />

Um zu zeigen, dass (7.13) für alle g ∈L p (μ) gilt, müssen wir zunächst zeigen, dass<br />

f ∈L q (μ) liegt. Wir unterscheiden zwei Fälle.<br />

Fall 1: p =1. Für jedes α>0 ist<br />

μ({|f| >α}) ≤ 1<br />

ν({|f| >α})<br />

α<br />

= 1<br />

α F ( {|f|>α}) ≤ 1<br />

α �F �′ 1 ·� {|f|>α}�1 = 1<br />

α �F �′ 1 · μ({|f| >α}).<br />

Es folgt μ({|f| >α}) =0, falls α>�F � ′ 1, also �f�∞ ≤�F � ′ 1 < ∞.<br />

Fall 2: p ∈ (0, ∞). Nach Satz 1.96 existieren g1,g2,... ∈ E + e so, dass gn ↑|f|<br />

μ–f.ü. Setzen wir hn =sign(f)(gn) q−1 ∈ Ee,sogilt<br />

�gn� q �<br />

q ≤ hnf dμ = F (hn)<br />

≤ �F � ′ p ·�hn�p = �F � ′ p · (�gn�q) q−1 ,<br />

also ist �gn�q ≤ �F � ′ p. Monotone Konvergenz (Satz 4.20) liefert nun �f�q ≤<br />

�F � ′ p < ∞ also f ∈L q (μ).<br />

Daher ist die Abbildung � F : g ↦→ � gf dμ in (L p (μ)) ′ und � F (g) =F (g) für jedes<br />

g ∈ Ee.Da � F stetig ist und Ee ⊂ L p (μ) dicht liegt, gilt schon � F = F . ✷


7.6 Ergänzung: Dualräume 163<br />

Bemerkung 7.51. Die Aussage von Satz 7.50 ist für p = ∞ im Allgemeinen falsch.<br />

(Für endliches A ist die Aussage trivialerweise auch für p = ∞ richtig.) Sei beispielsweise<br />

Ω = N, A =2Ω und μ das Zählmaß. Wir betrachten also Folgenräume<br />

ℓp = Lp (N, 2N ,μ). Für den Unterraum ℓK ⊂ ℓ∞ der konvergenten Folgen ist<br />

F : ℓK → R, (an)n∈N ↦→ lim<br />

n→∞ an ein stetiges lineares Funktional. Nach den<br />

Hahn-Banach Sätzen der Funktionalanalysis (siehe etwa [73] oder [156]) kann F<br />

zu einem stetigen linearen Funktional auf ℓ∞ fortgesetzt werden. Offenbar gibt es<br />

jedoch kein (bn)n∈N ∈ ℓ1 mit F ((an)n∈N) = ∞�<br />

ambm. ✸<br />

m=1<br />

Übung 7.6.1. Man zeige, dass Ee ⊂ L p (μ) dicht liegt, falls p ∈ [1, ∞). ♣


8 Bedingte Erwartungen<br />

Wenn über den Ausgang eines Zufallsexperimentes eine Teilinformation vorhanden<br />

ist, ändern sich die Wahrscheinlichkeiten für die möglichen Ereignisse. Das Konzept<br />

der bedingten Wahrscheinlichkeiten und bedingten Erwartungen formalisiert den<br />

zugehörigen Kalkül.<br />

8.1 Elementare bedingte Wahrscheinlichkeiten<br />

Beispiel 8.1. Wir werfen einen fairen sechsseitigen Würfel und betrachten die Ereignisse<br />

A := {Augenzahl drei oder kleiner},<br />

B := {Augenzahl ungerade}.<br />

Offenbar ist P[A] = 1<br />

1<br />

2 und P[B] = 2 . Wie groß ist aber die Wahrscheinlichkeit,<br />

dass B eintritt, wenn wir schon wissen, dass A eintritt?<br />

Wir modellieren das Experiment auf einem Wahrscheinlichkeitsraum (Ω,A, P),<br />

wobei Ω = {1,...,6}, A =2Ω und P die Gleichverteilung auf Ω ist. Dann ist<br />

A = {1, 2, 3} und B = {1, 3, 5}.<br />

Wenn wir nur wissen, dass A eingetreten ist, liegt es nahe, auf {1, 2, 3} die Gleichverteilung<br />

zu vermuten. Wir definieren also auf (A, 2 A ) ein neues W-Maß PA durch<br />

PA[C] = #C<br />

#A<br />

für C ⊂ A.<br />

Indem wir Punkten in Ω \ A die Wahrscheinlichkeit Null geben (die können ja nicht<br />

eingetreten sein, wenn A eingetreten ist), können wir PA auf Ω fortsetzen durch<br />

P[C |A] := PA[C ∩ A] =<br />

So erhalten wir P[B |A] =<br />

#{1, 3}<br />

#{1, 2, 3}<br />

#(C ∩ A)<br />

#A<br />

für C ⊂ Ω.<br />

2<br />

= . ✸<br />

3


166 8 Bedingte Erwartungen<br />

Durch das Beispiel motiviert treffen wir die folgende Definition.<br />

Definition 8.2 (Bedingte Wahrscheinlichkeit). Sei (Ω,A, P) ein Wahrscheinlichkeitsraum<br />

und A ∈A. Dann definieren wir die bedingte Wahrscheinlichkeit<br />

gegeben A für jedes B ∈Adurch<br />

⎧<br />

⎨ P[A ∩ B]<br />

, falls P[A] > 0,<br />

P[B |A] = P[A]<br />

(8.1)<br />

⎩<br />

0, sonst.<br />

Bemerkung 8.3. Die genaue Festsetzung in (8.1) für den Fall P[A] =0ist willkürlich<br />

und unerheblich. ✸<br />

Satz 8.4. Ist P[A] > 0, soistP[ · |A] ein W-Maß auf (Ω,A).<br />

Beweis. Trivial! ✷<br />

Satz 8.5. Seien A, B ∈Amit P[A], P[B] > 0. Dann gilt<br />

A, B sind unabhängig ⇐⇒ P[B |A] =P[B] ⇐⇒ P[A|B] =P[A].<br />

Beweis. Trivial! ✷<br />

Satz 8.6 (Formel von der totalen Wahrscheinlichkeit).<br />

Sei I eine höchstens abzählbare Menge und (Bi)i∈I paarweise disjunkte Mengen<br />

mit P ��<br />

i∈I Bi<br />

�<br />

=1. Dann gilt für jedes A ∈A<br />

P[A] = �<br />

P[A|Bi] P[Bi]. (8.2)<br />

i∈I<br />

Beweis. Wegen der σ-Additivität von P ist<br />

� �<br />

�<br />

P[A] =P (A ∩ Bi) = �<br />

P[A ∩ Bi] = �<br />

P[A|Bi]P[Bi]. ✷<br />

i∈I<br />

i∈I<br />

Satz 8.7 (Bayes’sche Formel). Sei I eine höchstens abzählbare Menge sowie<br />

(Bi)i∈I paarweise disjunkte Mengen mit P ��<br />

i∈I Bi<br />

�<br />

=1. Dann gilt für jedes<br />

A ∈Amit P[A] > 0 und jedes k ∈ I<br />

i∈I<br />

P[Bk |A] = P[A|Bk] P[Bk]<br />

�<br />

i∈I P[A|Bi] P[Bi]<br />

(8.3)


Beweis. Es gilt<br />

P[Bk |A] = P[Bk ∩ A]<br />

P[A]<br />

8.1 Elementare bedingte Wahrscheinlichkeiten 167<br />

= P[A|Bk] P[Bk]<br />

.<br />

P[A]<br />

Setze jetzt (8.2) für P[A] ein. ✷<br />

Beispiel 8.8. Bei der Produktion gewisser elektronischer Bauteile sind 2% der Ware<br />

defekt. Ein schnelles Testverfahren erkennt ein defektes Bauteil mit Wahrscheinlichkeit<br />

95%, meldet aber bei 10% der intakten Bauteile falschen Alarm.<br />

Mit welcher Wahrscheinlichkeit ist ein als defekt erkanntes Bauteil wirklich defekt?<br />

Wir formalisieren die obige Beschreibung. Seien<br />

A := {Bauteil wird als defekt deklariert},<br />

B := {Bauteil ist defekt},<br />

sowie<br />

P[B] =0.02, P[Bc ]=0.98,<br />

P[A|B] =0.95, P[A|B c ]=0.1.<br />

Die Bayes’sche Formel liefert nun<br />

P[B |A] =<br />

P[A|B] P[B]<br />

P[A|B] P[B]+P[A|B c ] P[B c ]<br />

0.95 · 0.02 19<br />

=<br />

= ≈ 0.162.<br />

0.95 · 0.02 + 0.1 · 0.98 117<br />

Andererseits ist die Wahrscheinlichkeit, dass ein nicht als defekt erkanntes Bauteil<br />

dennoch defekt ist<br />

P[B |A c ] =<br />

0.05 · 0.02<br />

0.05 · 0.02 + 0.9 · 0.98<br />

= 1<br />

883<br />

≈ 0.00113. ✸<br />

Sei nun X ∈L 1 (P).IstA ∈A, so ist offenbar auch AX ∈L 1 (P), und wir setzen<br />

E[X; A] :=E[ A X]. (8.4)<br />

Ist P[A] > 0, soistP[ · |A] ein W-Maß. Wegen AX ∈L 1 (P) ist auch X ∈<br />

L 1 (P[ · |A]). Alsokönnen wir den Erwartungswert von X bezüglich P[ · |A] definieren.<br />

Definition 8.9. Sei X ∈L1 (P) und A ∈A. Dann setzen wir<br />

E[X |A] :=<br />

�<br />

X(ω) P[dω|A] =<br />

⎧<br />

⎨ E[ AX]<br />

,<br />

P[A]<br />

⎩<br />

0,<br />

falls P[A] > 0,<br />

sonst.<br />

(8.5)


168 8 Bedingte Erwartungen<br />

Offenbar ist P[B |A] =E[ B |A] für jedes B ∈A.<br />

Wir betrachten nun die Situation, die wir bei der Formel von der totalen Wahrscheinlichkeit<br />

untersucht hatten. Sei also I eine höchstens abzählbare Menge, und<br />

seien (Bi)i∈I paarweise disjunkte Ereignisse mit �<br />

Bi = Ω. Wirdefinieren F :=<br />

σ(Bi, i∈ I). Für X ∈L 1 (P) definieren wir eine Abbildung E[X |F]:Ω → R<br />

durch<br />

E[X |F](ω) =E[X |Bi] ⇐⇒ Bi ∋ ω. (8.6)<br />

Lemma 8.10. Die Abbildung E[X |F] hat die folgenden Eigenschaften:<br />

(i) E[X |F] ist F-messbar,<br />

(ii) E[X |F] ∈L1 �<br />

(P), und für jedes A ∈Fgilt<br />

Beweis. (i) Sei f die Abbildung f : Ω → I, mit<br />

i∈I<br />

f(ω) =i ⇐⇒ Bi ∋ ω.<br />

A<br />

�<br />

E[X |F] dP =<br />

A<br />

XdP.<br />

Ferner sei g : I → R, i ↦→ E[X |Bi]. DaI diskret ist, ist g messbar. Da f messbar<br />

ist bezüglich F, ist auch E[X |F]=g ◦ f messbar bezüglich F.<br />

(ii) Sei A ∈Fund J ⊂ I mit A = �<br />

j∈J Bj. SeiJ ′ := {i ∈ J : P[Bi] > 0}.<br />

Dann ist<br />

�<br />

E[X |F] dP = �<br />

P[Bi] E[X |Bi] = �<br />

E[ BiX]= �<br />

XdP. ✷<br />

A<br />

i∈J ′<br />

Übung 8.1.1 (Gedächtnislosigkeit der Exponentialverteilung). Sei X eine nichtnegative<br />

Zufallsvariable und θ>0. Man zeige: Genau dann ist X exponentialverteilt,<br />

wenn<br />

i∈J ′<br />

P[X >t+ s|X >s]=P[X >t] für alle s, t ≥ 0.<br />

Insbesondere gilt für θ>0: Genau dann ist X ∼ exp θ,wennP[X >t+ s|X ><br />

s] =e −θt für alle s, t ≥ 0 gilt. ♣<br />

8.2 Bedingte Erwartungen<br />

Wir nehmen an, dass X eine uniform auf [0, 1] verteilte Zufallsvariable ist, und dass<br />

bei Kenntnis des Wertes X = x die Zufallsvariablen Y1,...,Yn unabhängig und<br />

Berx-verteilt sind. Mit unserem Apparat können wir bisher bedingte Wahrscheinlichkeiten<br />

vom Typ P[ · |X ∈ [a, b]], a < b, ausrechnen. Wie sieht es aber aus<br />

A


8.2 Bedingte Erwartungen 169<br />

mit P[Y1 = ... = Yn =1 � �X = x]? Intuitiv sollte dies xn sein. Wir brauchen<br />

einen Begriff der bedingten Wahrscheinlichkeit, der auch für Ereignisse mit Wahrscheinlichkeit<br />

Null in konsistenter Weise unserer Intuition entspricht. Wir werden<br />

(im nächsten Abschnitt) sehen, dass dies im vorliegenden Beispiel mit Hilfe von<br />

Übergangskernen möglich ist. Zunächst aber betrachten wir die allgemeine Situation.<br />

Sei im Folgenden stets F ⊂ A eine Unter-σ-Algebra und X ∈L1 (Ω,A, P). In<br />

Anlehnung an Lemma 8.10 treffen wir die folgende Definition.<br />

Definition 8.11 (Bedingte Erwartung). Eine Zufallsvariable Y heißt bedingte<br />

Erwartung von X gegeben F, symbolisch E[X |F]:=Y , falls gilt:<br />

(i) Y ist F-messbar.<br />

(ii) Für jedes A ∈Fgilt E[X A] =E[Y A].<br />

Für B ∈Aheißt P[B |F]:=E[ B |F] die bedingte Wahrscheinlichkeit von B<br />

gegeben F.<br />

Satz 8.12. E[X |F] existiert und ist eindeutig (bis auf Gleichheit fast sicher).<br />

Da bedingte Erwartungen nur bis auf Gleichheit f.s. definiert sind, sind alle Gleichheiten<br />

mit bedingten Erwartungen immer nur als Gleichheiten f.s. zu verstehen, auch<br />

wenn nicht explizit darauf hingewiesen wird.<br />

Beweis. Eindeutigkeit. Seien Y und Y ′ Zufallsvariablen, die (i) und (ii) erfüllen.<br />

Setze A = {Y > Y ′ }∈F. Dann ist nach Bedingung (ii)<br />

0 = E[Y A] − E[Y ′ A] = E[(Y − Y ′ ) A].<br />

Wegen (Y − Y ′ ) A ≥ 0, ist dann P[A] =0, also Y ≤ Y ′ fast sicher. Analog folgt<br />

Y ≥ Y ′ fast sicher.<br />

Existenz. Seien X + = X ∨ 0 und X − = X + − X. Durch<br />

Q ± (A) :=E[X ± A] für jedes A ∈F,<br />

werden zwei endliche Maße auf (Ω,F) definiert. Offenbar ist Q ± ≪ P, also liefert<br />

der Satz von Radon-Nikodym (Korollar 7.34) die Existenz von Dichten Y ± , sodass<br />

Q ± �<br />

(A) = Y ± dP = E[Y ± A].<br />

A<br />

Setze nun Y = Y + − Y − . ✷<br />

Definition 8.13. Ist Y eine Zufallsvariable und X ∈ L 1 (P), sodefinieren wir<br />

E[X |Y ]:=E[X |σ(Y )].


170 8 Bedingte Erwartungen<br />

Satz 8.14 (Eigenschaften der bedingten Erwartung). Seien (Ω,A, P) und X<br />

wie oben sowie G⊂F⊂Aσ-Algebren. Ferner sei Y ∈L 1 (Ω,A, P). Dann gilt:<br />

(i) (Linearität) E[λX + Y |F]=λE[X |F]+E[ Y |F].<br />

(ii) (Monotonie) Ist X ≥ Y f.s., so ist E[X |F] ≥ E[ Y |F].<br />

(iii) Ist E[|XY |] < ∞ und Y messbar bezüglich F, dann ist<br />

E[XY |F]=Y E[X |F] und E[ Y |F]=E[ Y |Y ]=Y.<br />

(iv) (Turmeigenschaft) E[E[X |F]|G]=E[E[X |G]|F]=E[X |G].<br />

(v) (Dreiecksungleichung) E[|X| � �F] ≥ � �E[X |F] � �.<br />

(vi) (Unabhängigkeit) Sind σ(X) und F unabhängig, so ist E[X |F]=E[X].<br />

(vii) Gilt P[A] ∈{0, 1} für jedes A ∈F,soistE[X |F]=E[X].<br />

(viii) (Majorisierte Konvergenz) Ist Y ≥ 0 und ist (Xn)n∈N eine Folge von Zu-<br />

n→∞<br />

fallsvariablen mit |Xn| ≤Y für n ∈ N sowie Xn −→ X f.s., so gilt<br />

lim<br />

n→∞ E[Xn |F]=E[X |F] f.s. und in L 1 (P). (8.7)<br />

Beweis. (i) Die rechte Seite ist F-messbar, und für A ∈Fist<br />

E � � �� �<br />

A λE[X |F]+E[Y |F] = λE A E[X |F] � + E � A E[Y |F] �<br />

= λE[ A X]+E[ A Y ]<br />

= E � A (λX + Y ) � .<br />

(ii) Sei A = {E[X |F] < E[Y |F]} ∈F.WegenX ≥ Y ist E[ A (X − Y )] ≥ 0,<br />

also P[A] =0.<br />

(iii) Sei zunächst X ≥ 0 und Y ≥ 0. Für n ∈ N setze Yn =2 −n ⌊2 n Y ⌋. Dannist<br />

Yn ↑ Y sowie Yn E[X |F] ↑ Y E[X |F] (da E[X |F] ≥ 0 nach (ii)). Es gilt nach<br />

dem Satz von der monotonen Konvergenz (Lemma 4.6(ii))<br />

Andererseits ist<br />

E � A Yn E[X |F] � n→∞<br />

−→ E � A Y E[X |F] � .<br />

E � A Yn E[X |F] � =<br />

=<br />

∞�<br />

E � A {Yn=k 2−n } k 2 −n E[X |F] �<br />

k=1<br />

∞�<br />

E � A {Yn=k 2−n } k 2 −n X �<br />

k=1<br />

= E � A YnX � n→∞<br />

−→ E[ A YX].


8.2 Bedingte Erwartungen 171<br />

Also gilt E[ A Y E[X |F]] = E[ A YX]. Im allgemeinen Fall schreiben wir X =<br />

X + − X − und Y = Y + − Y − und nutzen die Linearität der bedingten Erwartung<br />

aus.<br />

(iv) Die zweite Gleichung folgt aus (iii) mit Y = E[X |G] und X =1. Sei nun<br />

A ∈G. Dann ist insbesondere auch A ∈F, also<br />

E � AE[E[X |F]|G] � = E � AE[X |F] � = E[ A X] = E � A E[X |G] � .<br />

(v) Das folgt aus (i) und (ii) mit X = X + − X − .<br />

(vi) Trivialerweise ist E[X] messbar bezüglich F. SeiA ∈F. Dann sind X und<br />

A unabhängig, also ist E[E[X |F] A] =E[X A] =E[X] E[ A].<br />

(vii) Für jedes A ∈Fund B ∈Agilt P[A ∩ B] =0, falls P[A] =0ist, und<br />

P[A∩B] =P[B], falls P[A] =1ist. Also ist F von A unabhängig und damit auch<br />

von jeder Teil-σ-Algebra von A. Speziell ist F von σ(X) unabhängig. Die Aussage<br />

folgt also aus (vi).<br />

n→∞<br />

(viii) Sei |Xn| ≤Y für jedes n ∈ N und Xn −→ X fast sicher. Setze Zn :=<br />

supk≥n |Xk − X|. Dannist0≤ Zn ≤ 2Y und Zn<br />

f.s.<br />

−→ 0. Nach Korollar 6.26<br />

(majorisierte Konvergenz) gilt E[Zn] n→∞<br />

−→ 0, also nach der Dreiecksungleichung<br />

E �� �E[Xn |F]−E[X |F] � � � ≤ E[E[|Xn−X| � �F]] = E[|Xn−X|] ≤ E[Zn] n→∞<br />

−→ 0.<br />

Dies ist aber die L1 �<br />

(P)-Konvergenz in (8.7). Sei Z := lim supn→∞ E[Zn<br />

�F].<br />

Nach dem Lemma von Fatou ist<br />

E[Z] ≤ lim<br />

n→∞ E[Zn] = 0,<br />

�<br />

also Z =0und damit E[Zn<br />

�F] n→∞<br />

−→ 0 fast sicher. Nach (v) ist aber<br />

� � � �<br />

�E[Xn<br />

�F] − E[X �F] � ≤ E[Zn]. ✷<br />

Bemerkung 8.15. Intuitiv ist E[X |F] die beste Vorhersage, die wir für den Wert<br />

von X machen können, wenn uns die Information aus der σ-Algebra F zur Verfügung<br />

steht. Ist beispielsweise σ(X) ⊂ F, kennen wir also X schon, dann ist<br />

E[X |F] =X, wie in (iii) gezeigt. Am anderen Ende der Skala ist der Fall, wo<br />

X und F unabhängig sind, wir also durch Kenntnis von F keine Information über<br />

X gewinnen. Hier ist die beste Vorhersage für X der Erwartungswert selber, also<br />

E[X] =E[X |F] wie in (vii) gezeigt.<br />

Was heißt dabei aber eigentlich genau ” beste Vorhersage“? Wir wollen dies für quadratintegrierbare<br />

Zufallsvariablen X als diejenige F-messbare Zufallsvariable verstehen,<br />

die den L 2 –Abstand zu X minimiert. Dass dies die bedingte Erwartung<br />

tatsächlich tut, ist der Inhalt des folgenden Korollars. ✸


172 8 Bedingte Erwartungen<br />

Korollar 8.16 (Bedingte Erwartung als Projektion). Sei F⊂Aeine σ-Algebra<br />

und X eine Zufallsvariable mit E[X2 ] < ∞. Dann ist E[X |F] die orthogonale<br />

Projektion von X auf L2 (Ω,F, P). Es gilt also für jedes F-messbare Y mit<br />

E[Y 2 ] < ∞<br />

E � (X − Y ) 2� ≥ E � (X − E[X |F]) 2�<br />

mit Gleichheit genau dann, wenn Y = E[X |F].<br />

Beweis. Sei Y messbar bezüglich F. Dann ist (mit der Turmeigenschaft) E[XY ]=<br />

E[E[X |F]Y ] und E � XE[X |F] � = E � E[XE[X |F] � �F] � = E � E[X |F] 2� , also<br />

E � (X − Y ) 2� ��X �� �<br />

2<br />

− E − E[X |F<br />

�<br />

= E X 2 − 2XY + Y 2 − X 2 +2XE[X |F] − E[X |F] 2�<br />

�<br />

= E Y 2 − 2Y E[X |F]+E[X |F] 2�<br />

��Y � �<br />

2<br />

= E − E[X |F] ≥ 0. ✷<br />

Beispiel 8.17. Seien X, Y ∈L 1 (P) unabhängig. Dann ist<br />

E[X + Y |Y ]=E[X |Y ]+E[Y |Y ]=E[X]+Y. ✸<br />

Beispiel 8.18. Seien X1,...,XN unabhängig mit E[Xi] =0, i =1,...,N. Setze<br />

Fn := σ(X1,...,Xn) und Sn := X1 + ...+ Xn für n =1,...,N.Dannistfür<br />

n ≥ m<br />

�<br />

�<br />

�<br />

E[Sn<br />

�Fm] =E[X1<br />

�Fm]+...+ E[Xn<br />

�Fm] = X1 + ...+ Xm + E[Xm+1]+...+ E[Xn]<br />

= Sm<br />

Nach Satz 8.14(iv) ist wegen σ(Sm) ⊂Fm auch<br />

E[Sn |Sm] = E � E[Sn |Fm] � �<br />

�Sm = E[Sm |Sm] = Sm. ✸<br />

Wir kommen nun zur Jensen’schen Ungleichung für bedingte Erwartungen.<br />

Satz 8.19 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall, und sei ϕ : I →<br />

R konvex und X eine Zufallsvariable auf (Ω,A, P) mit Werten in I. Ferner sei<br />

E[|X|] < ∞ und F⊂Aeine σ-Algebra. Dann gilt<br />

∞ ≥ E[ϕ(X)|F] ≥ ϕ(E[X |F]).<br />

Beweis. (Man erinnere sich der Definition 1.68 zur Sprechweise ” fast sicher auf<br />

A“.) Auf dem Ereignis {E[X |F] ist ein Randpunkt von I} ist X = E[X |F] fast


8.2 Bedingte Erwartungen 173<br />

sicher, und die Aussage ist trivial. In der Tat: Ohne Einschränkung sei 0 der linke<br />

Randpunkt von I und A := {E[X |F]=0}. DaX Werte in I ⊂ [0, ∞) annimmt,<br />

ist 0 ≤ E[X A] =E[E[X |F] A] =0, also ist X A =0. Der Fall eines rechten<br />

Randpunktes geht analog.<br />

Sei also nun das Ereignis B := {E[X |F] ist innerer Punkt von I} betrachtet.<br />

Für jeden inneren Punkt x ∈ I sei D + ϕ(x) die maximale Tangentensteigung von ϕ<br />

in x, also der maximale Wert t mit ϕ(y) ≥ (y − x)t + ϕ(x) für alle y ∈ I (siehe<br />

Satz 7.7). Die Abbildung x ↦→ D + ϕ(x) ist monoton wachsend, also messbar, und<br />

daher ist D + ϕ(E[X |F]) eine F-messbare Zufallsvariable. Es folgt<br />

E � ϕ(X)|F � ��X � � � +<br />

≥ E − E[X |F] D ϕ(E[X |F]) + ϕ E[X |F] � �<br />

�<br />

�F<br />

= ϕ � E[X |F] �<br />

f.s auf B. ✷<br />

Korollar 8.20. Sei p ∈ [1, ∞] und F ⊂ A eine Teil-σ-Algebra. Dann ist die<br />

Abbildung Lp (Ω,A, P) → Lp (Ω,F, P), X ↦→ E[X |F] eine Kontraktion (das<br />

heißt: �E[X |F]�p ≤ �X�p) und damit insbesondere stetig. Es gilt also für<br />

X, X1,X2,...∈Lp n→∞<br />

(Ω,A, P) mit �Xn − X�p −→ 0 auch<br />

�<br />

�E[Xn |F] − E[X |F] � � p<br />

n→∞<br />

−→ 0.<br />

Beweis. Für p ∈ [1, ∞) benutze die Jensen’sche Ungleichung mit ϕ(x) =|x| p �<br />

.Für<br />

p = ∞ beachte, dass |E[X |F]| ≤E[|X||F] ≤ E[�X�∞ �F] =�X�∞. ✷<br />

Korollar 8.21. Ist (Xi, i∈ I) gleichgradig integrierbar � und (Fj, j∈ J) eine Familie<br />

von Teil-σ-Algebren von A, sowie Xi,j := E[Xi<br />

�Fj], dann ist (Xi,j, (i, j) ∈<br />

I × J) gleichgradig integrierbar. Insbesondere ist für X ∈ L1 (P) die Familie<br />

(E[X |Fj], j∈ J) gleichgradig integrierbar.<br />

Beweis. Nach Satz 6.19 existiert eine wachsende, konvexe Funktion f mit der Eigenschaft<br />

f(x)/x →∞, x →∞und L := sup i∈I E[f(|Xi|)] < ∞. Dannist<br />

x ↦→ f(|x|) konvex, also nach der Jensen’schen Ungleichung<br />

E � f(|Xi,j|) � = E � f �� �E[Xi |Fj] � � �� ≤ L < ∞.<br />

Nach Satz 6.19 ist daher (Xi,j, (i, j) ∈ I × J) gleichgradig integrierbar. ✷<br />

Beispiel 8.22. Seien μ und ν endliche Maße mit ν ≪ μ.Seif = dν/dμ die Radon-<br />

Nikodym-Ableitung, und sei I = {F ⊂ A : F ist eine σ-Algebra}. Betrachte die<br />

auf F eingeschränkten Maße μ � � und ν<br />

F<br />

� � .Dannistν<br />

F<br />

� � ≪ μ<br />

F<br />

� � (klar, denn in<br />

F<br />

F gibt es ja weniger μ–Nullmengen), also existiert die Radon-Nikodym-Ableitung<br />

fF := dν � � /dμ<br />

F<br />

� � .Dannist(fF : F ∈ I) gleichgradig integrierbar (bezüglich<br />

F<br />

μ). (Für endliche σ-Algebren F wurde dies schon in Beispiel 7.39 gezeigt.) In der


174 8 Bedingte Erwartungen<br />

Tat: Sei P = μ/μ(Ω) und Q = ν/μ(Ω). DannistfF = dQ � � /dP<br />

F<br />

� � .Für jedes<br />

F<br />

F ∈ F ist also E[fF F ] = �<br />

F fF dP = Q(F ) = �<br />

F fdP = E[f F ], also<br />

fF = E[f |F]. Nach dem vorangehenden Korollar ist (fF : F∈I) gleichgradig<br />

integrierbar bezüglich P und damit auch bezüglich μ. ✸<br />

Übung 8.2.1. (Bayes’sche Formel) Seien A ∈Aund B ∈F. Man zeige<br />

�<br />

P[A|F] dP<br />

B P[B |A] = � .<br />

P[A|F] dP<br />

Wird F von paarweise disjunkten Mengen B1,B2,... erzeugt, so ist dies gerade<br />

die Bayes’sche Formel aus Satz 8.7. ♣<br />

Übung 8.2.2. Man zeige durch ein Beispiel, dass E[E[X |F]|G] �= E[E[X |G]|F]<br />

gelten kann. ♣<br />

Übung 8.2.3. Man zeige die bedingte Markov’sche Ungleichung: Für monoton<br />

wachsendes f :[0, ∞) → [0, ∞) und ε>0 mit f(ε) > 0 ist<br />

P � |X| ≥ε|F � ≤ E�f(|X|) � �<br />

�F . ♣<br />

f(ε)<br />

Übung 8.2.4. Man zeige die bedingte Cauchy-Schwarz’sche Ungleichung: Für quadratintegrierbare<br />

Zufallsvariablen X, Y gilt<br />

E[XY |F] 2 ≤ E[X 2 |F] E[Y 2 |F]. ♣<br />

Übung 8.2.5. Seien X1,...,Xn integrierbar, unabhängig und identisch verteilt. Sei<br />

Sn = X1 + ...+ Xn. Zeige:<br />

E[Xi |Sn] = 1<br />

n Sn für jedes i =1,...,n. ♣<br />

Übung 8.2.6. Seien X1 und X2 unabhängig und exponentialverteilt mit Parameter<br />

θ>0. Man bestimme E[X1 ∧ X2 |X1]. ♣<br />

Übung 8.2.7. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichte f,<br />

und sei h : R → R messbar mit E[|h(X)|] < ∞. Es bezeiche λ das Lebesgue-Maß<br />

auf R.<br />

(i) Zeige, dass fast sicher gilt:<br />

E[h(X)|Y ]=<br />

� h(x)f(x, Y ) λ(dx)<br />

� f(x, Y ) λ(dx)<br />

(ii) Seien speziell X und Y unabhängig und exp θ-verteilt für ein θ>0. Bestimme<br />

E[X |X + Y ] und P[X ≤ x|X + Y ] für x ≥ 0. ♣<br />

.


8.3 Reguläre Version der bedingten Verteilung 175<br />

8.3 Reguläre Version der bedingten Verteilung<br />

Ist X eine Zufallsvariable mit Werten in einem Messraum (E,E),sokönnen wir mit<br />

unserem Apparat bisher für festes A ∈Adie bedingte Wahrscheinlichkeit P[A|X]<br />

angeben. Können wir die Situation aber auch so einrichten, dass wir für jedes x ∈ E<br />

ein W-Maß P[ · |X = x] angeben können, sodass für jedes A ∈Agilt P[A|X] =<br />

P[A|X = x] auf {X = x}?<br />

Wir sind beispielsweise an einem zweistufigen Zufallsexperiment interessiert: Im<br />

ersten Schritt wird eine Münze in zufälliger Weise so gefälscht, dass sie die Erfolgswahrscheinlichkeit<br />

X hat. Danach werden unabhängige Würfe Y1,...,Yn mit<br />

dieser Münze durchgeführt. Die ” bedingte Verteilung von (Y1,...,Yn) gegeben<br />

{X = x}“ sollte also (Berx) ⊗n sein.<br />

Sei X wie oben und Z eine σ(X)-messbare, reelle Zufallsvariable. Nach dem Faktorisierungslemma<br />

(Korollar 1.97) existiert eine E – B(R)-messbare Abbildung<br />

ϕ : E → R mit ϕ(X) =Z. IstX surjektiv, so ist ϕ eindeutig festgelegt. Wir<br />

schreiben dann Z ◦ X −1 := ϕ (auch wenn die Umkehrabbildung X −1 selber nicht<br />

existiert).<br />

Definition 8.23. Sei Y ∈L1 (P) und X :(Ω,A) → (E,E). Dann definieren wir<br />

die bedingte Erwartung von Y gegeben X = x, kurz E[Y |X = x], als die Funktion<br />

ϕ aus dem Faktorisierungslemma mit Z = E[Y |X].<br />

�<br />

Wir setzen analog P[A|X = x] =E[ �X A = x] für A ∈A.<br />

Für eine Menge B ∈Amit P[B] > 0 ist die bedingte Wahrscheinlichkeit P[ · |B]<br />

ein W-Maß. Gilt das Gleiche für P[ · |X = x]? Der Fall liegt hier komplizierter, da<br />

wir für jedes A ∈Aden Ausdruck P[A|X = x] für x nur bis auf eine Ausnahmemenge,<br />

die allerdings von A abhängt, definiert haben. Wenn wir die σ-Algebra<br />

A nun durch abzählbar viele A genügend gut approximieren können, besteht Hoffnung,<br />

dass die Ausnahmemengen sich zu einer Nullmenge vereinigen. Wir fassen<br />

zunächst die Begriffe genauer und zeigen dann das angedeutete Ergebnis.<br />

Definition 8.24 (Übergangskern, Markovkern). Sind (Ω1, A1), (Ω2, A2) Messräume,<br />

so heißt κ : Ω1 ×A2 → [0, ∞] ein (σ–)endlicher Übergangskern (von Ω1<br />

nach Ω2), falls<br />

(i) ω1 ↦→ κ(ω1,A2) ist A1-messbar für jedes A2 ∈A2.<br />

(ii) A2 ↦→ κ(ω1,A2) ist ein (σ–)endliches Maß auf (Ω2, A2) für jedes ω1 ∈ Ω1.<br />

Ist das Maß in (ii) ein W-Maß für jedes ω1 ∈ Ω1, soheißtκ stochastischer Kern<br />

oder Markovkern. Wird in (ii) zusätzlich κ(ω1,Ω2) ≤ 1 für jedes ω1 ∈ Ω1 gefordert,soheißtκ<br />

sub-Markov’sch oder substochastisch.


176 8 Bedingte Erwartungen<br />

Bemerkung 8.25. Es reicht, in Definition 8.24 die Eigenschaft (i) nur für Mengen<br />

A2 aus einem schnittstabilen Erzeuger E von A2, derΩ2oder eine Folge En ↑ Ω2<br />

enthält, zu fordern. Es ist nämlich stets<br />

D := � A2 ∈A2 : ω1 ↦→ κ(ω1,A2) ist A1-messbar �<br />

ein Dynkin-System (Übung!). Wegen E⊂Dist (Satz 1.19) D = σ(E) =A2. ✸<br />

Beispiel 8.26. (i) Sind (Ω1, A1) und (Ω2, A2) diskrete Messräume, so liefert jede<br />

Matrix (Kij) i∈Ω1 j∈Ω2 mit nichtnegativen Einträgen und endlichen Zeilensummen<br />

Ki := �<br />

Kij < ∞ für i ∈ Ω1,<br />

j∈Ω2<br />

einen endlichen Übergangskern von Ω1 nach Ω2 vermöge κ(i, A) = �<br />

Kij. Der<br />

Kern ist stochastisch, falls Ki =1für jedes i ∈ N und substochastisch, falls Ki ≤ 1<br />

für jedes i ∈ Ω1.<br />

(ii) Ist μ2 ein endliches Maß auf Ω2, dannistκ(ω1, · ) ≡ μ2 ein endlicher Übergangskern.<br />

(iii) κ(x, · )=Poix ist ein stochastischer Kern von [0, ∞) nach N0 (beachte: für<br />

jedes A ⊂ N0 ist x ↦→ Poix(A) stetig, also insbesondere messbar).<br />

(iv) Sei μ eine Verteilung auf R n und X eine Zufallsvariable mit PX = μ. Dann<br />

definiert κ(x, · )=P[X + x ∈ · ]=δx ∗ μ einen stochastischen Kern von R n nach<br />

R n . In der Tat: Die Mengen (−∞,y], y ∈ R n , bilden einen schnittstabilen Erzeuger<br />

von B(R n ) und x ↦→ κ(x, (−∞,y]) = μ((−∞,y−x]) ist linksstetig, also messbar.<br />

Nach Bemerkung 8.25 ist daher x ↦→ κ(x, A) messbar für jedes A ∈B(R n ). ✸<br />

Definition 8.27. Sei Y eine Zufallsvariable mit Werten in einem Messraum (E,E)<br />

und F⊂Aeine Unter-σ-Algebra. Ein stochastischer Kern κY,F von (Ω,F) nach<br />

(E,E) heißt reguläre Version der bedingten Verteilung von Y gegeben F, falls<br />

κY,F(ω, B) =P[{Y ∈ B}|F](ω) für P-fast alle ω ∈ Ω und für jedes B ∈E.<br />

Sei speziell F = σ(X) für eine Zufallsvariable X (in einem beliebigen Messraum<br />

(E ′ , E ′ )). Dann heißt der stochastische Kern (x, A) ↦→ κY,X(x, A) =P[{Y ∈<br />

A}|X = x] =κ Y,σ(X)(X −1 (x),A) (die Funktion aus dem Faktorisierungslemma<br />

mit beliebiger Festsetzung für x �∈ X(Ω)) eine reguläre Version der bedingten<br />

Verteilung von Y gegeben X.<br />

Satz 8.28 (Reguläre bedingte Verteilungen in R). Ist Y :(Ω,A) → (R, B(R))<br />

reellwertig, dann existiert eine reguläre Version κY,F der bedingten Verteilungen<br />

P[{Y ∈ · }|F].<br />

j∈A


8.3 Reguläre Version der bedingten Verteilung 177<br />

Beweis. Die Strategie besteht darin, eine messbare Version der Verteilungsfunktion<br />

der bedingten Verteilung von Y zu konstruieren, indem diese zunächst für rationale<br />

Werte festgelegt wird (bis auf eine Nullmenge) und dann auf die reellen Zahlen<br />

fortgesetzt wird.<br />

Für r ∈ Q sei F (r, · ) eine Version der bedingten Wahrscheinlichkeit P[Y ∈<br />

(−∞,r]|F]. Für r ≤ s ist offenbar {Y ∈(−∞,r]} ≤ {Y ∈(−∞,s]}, also gibt es<br />

nach Satz 8.14(ii) (Monotonie der bedingten Erwartung) eine Nullmenge Ar,s ∈F<br />

mit<br />

F (r, ω) ≤ F (s, ω) für jedes ω ∈ Ω \ Ar,s.<br />

Nach Satz 8.14(viii) (majorisierte Konvergenz) gibt es Nullmengen (Br)r∈Q ∈F<br />

und C ∈F, sodass<br />

lim<br />

n→∞ F<br />

�<br />

r + 1<br />

n ,ω<br />

�<br />

= F (r, ω) für jedes ω ∈ Ω \ Br und<br />

lim F (−n, ω) =0, lim F (n, ω) =1 für jedes ω ∈ Ω \ C.<br />

n→∞ n→∞<br />

Setze N := �<br />

r,s∈Q Ar,s ∪ �<br />

r∈Q Br ∪ C.Für ω ∈ Ω \ N definieren wir<br />

˜F (z,ω) :=inf � F (r, ω) : r ∈ Q, r≥ z �<br />

für alle z ∈ R.<br />

Da F ( · ,ω) monoton wachsend ist, ist ˜ F ( · ,ω) monoton wachsend und rechtsstetig<br />

in jedem z ∈ R \ Q. DaF ( · ,ω) zudem rechtsstetig ist, ist ˜ F ( · ,ω) rechtsstetig in<br />

jedem z ∈ Q. Alsoist˜ F ( · ,ω) eine Verteilungsfunktion für jedes ω ∈ Ω \ N. Für<br />

ω ∈ N setze ˜ F ( · ,ω)=F0, wobei F0 eine beliebige fest gewählte Verteilungsfunktion<br />

ist.<br />

Für jedes ω ∈ Ω definieren wir κ(ω, · ) als das durch die Verteilungsfunktion<br />

˜F ( · ,ω) definierte W-Maß auf (Ω,A). Für r ∈ Q und B =(−∞,r] ist dann<br />

ω ↦→ κ(ω, B) =P[Y ∈ B |F](ω) N c(ω)+F0(r) N (ω) (8.8)<br />

F-messbar. Nun ist {(−∞,r], r∈ Q} ein schnittstabiler Erzeuger von B(R). Nach<br />

Bemerkung 8.25 gilt die Messbarkeit also für jedes B ∈B(R), und damit ist κ als<br />

stochastischer Kern erkannt.<br />

Wir müssen noch zeigen, dass κ eine Version der bedingten Verteilungen ist. Für<br />

A ∈F, r ∈ Q und B =(−∞,r] ist nach (8.8)<br />

�<br />

�<br />

κ(ω, B) P[dω] = P � Y ∈ B |F � dP = P � A ∩{Y ∈ B} � .<br />

A<br />

A<br />

Als Funktion von B sind beide Seiten endliche Maße auf B(R), die auf dem schnittstabilen<br />

Erzeuger � (−∞,r],r∈ Q � übereinstimmen. Nach dem Eindeutigkeitssatz<br />

(Lemma 1.42) gilt daher für jedes B ∈B(R) Gleichheit und damit P-fast sicher<br />

κ( · ,B)=P[Y ∈ B |F], also κ = κY,F. ✷


178 8 Bedingte Erwartungen<br />

Beispiel 8.29. Seien Z1,Z2 unabhängig und Poisson-verteilt mit den Parametern<br />

λ1,λ2 ≥ 0. Dann kann man zeigen (Übung!), dass (mit Y = Z1 und X = Z1 + Z2)<br />

P[Z1 = k � � Z1 + Z2 = n] =bn,p(k) für k =0,...,n,<br />

wobei p = λ1<br />

ist. ✸<br />

λ1+λ2<br />

Dieses Beispiel ließ sich aber im Grunde genommen auch noch mit elementaren<br />

Mitteln bearbeiten. Die volle Stärke des Ergebnisses nutzen wir in den folgenden<br />

Beispielen aus.<br />

Beispiel 8.30. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichtefunktion<br />

f (bezüglich des Lebesgue-Maßes λ2 auf R2 ). Für x ∈ R setzen wir<br />

�<br />

fX(x) = f(x, y) λ(dy).<br />

R<br />

Offenbar ist fX(x) > 0 für PX-f.a. x ∈ R und f −1<br />

X ist die Dichte des absolutstetigen<br />

Anteils des Lebesgue-Maßes λ bezüglich PX. Die reguläre Version der bedingten<br />

Verteilung von Y gegeben X hat die Dichte<br />

P[Y ∈ dy|X = x]<br />

dy<br />

= f Y |X(x, y) :=<br />

f(x, y)<br />

fX(x)<br />

für PX[dx]-f.a. x ∈ R. (8.9)<br />

In � der Tat ist nach dem Satz von Fubini (siehe Satz 14.16) die Abbildung x ↦→<br />

B fY |X(x, y) λ(dy) messbar für jedes B ∈B(R), und für A, B ∈B(R) gilt<br />

�<br />

�<br />

P[X ∈ dx] fY |X(x, y) λ(dy)<br />

A<br />

B�<br />

= P[X ∈ dx] fX(x)<br />

A<br />

−1<br />

�<br />

f(x, y) λ(dy)<br />

� �<br />

B<br />

= λ(dx) f(x, y) λ(dy)<br />

A<br />

�<br />

B<br />

= fdλ 2 = P[X ∈ A, Y ∈ B]. ✸<br />

.<br />

A×B<br />

Beispiel 8.31. Seien μ1,μ2 ∈ R, σ1,σ2 > 0 und Z1,Z2 unabhängig und N μi,σ 2 i<br />

verteilt (i =1, 2). Dann existiert eine reguläre Version der bedingten Verteilung<br />

P[Z1 ∈ · |Z1 + Z2 = x] für x ∈ R.<br />

Setzen wir X = Z1+Z2 und Y = Z1,soist(X, Y ) ∼Nμ,Σ �<br />

bivariat normalverteilt<br />

2 σ1 + σ<br />

mit Kovarianzmatrix Σ :=<br />

2 2 σ2 �<br />

� �<br />

1<br />

μ1 + μ2<br />

und mit μ :=<br />

.Wegen<br />

σ 2 1<br />

σ 2 1<br />

μ1


8.3 Reguläre Version der bedingten Verteilung 179<br />

Σ −1 = � σ 2 1σ 2 �<br />

� 2<br />

−1 σ1 2<br />

−σ2 −σ<br />

1<br />

2 1 σ2 1 + σ2 �<br />

2<br />

= (σ 2 1σ 2 2) −1 B T B,<br />

� �<br />

σ1 −σ1<br />

wo B =<br />

ist, hat (X, Y ) die Dichte (siehe Beispiel 1.105(ix))<br />

0 σ2<br />

f(x, y) = det(2πΣ) −1/2 �<br />

exp − 1<br />

2σ2 1σ2 �<br />

�<br />

�<br />

�<br />

2<br />

B<br />

� ��2 x − (μ1 + μ2) ���<br />

y − μ1<br />

�<br />

= � 4π 2 σ 2 1σ 2 �<br />

�−1/2 2 exp − σ2 1(y − (x − μ1)) 2 + σ2 2(y − μ2) 2<br />

2σ2 1σ2 �<br />

2<br />

= Cx exp � − (y − μx) 2 /2σ 2� x ,<br />

wobei Cx eine Normalisierungskonstante ist und<br />

μx = μ1 + σ2 1<br />

σ2 1 + σ2 (x − μ1 − μ2)<br />

2<br />

und σ 2 x = σ2 1σ2 2<br />

σ2 1 + σ2 .<br />

2<br />

Nach (8.9) hat P[Z1 ∈ · |Z1 + Z2 = x] die Dichte<br />

also ist<br />

y ↦→ fY |X(x, y) = Cx<br />

fX(x) exp<br />

�<br />

−<br />

(y − μx) 2<br />

2σ 2 x<br />

P[Z1 ∈ · |Z1 + Z2 = x] =N μx,σ 2 x für fast alle x ∈ R. ✸<br />

Beispiel 8.32. Sind X und Y unabhängige, reelle Zufallsvariablen, so ist für PXfast<br />

alle x ∈ R<br />

P[X + Y ∈ · |X = x] =δx ∗ PY . ✸<br />

Die Situation ist noch nicht vollends zufriedenstellend, da wir die sehr starke Annahme<br />

gemacht haben, dass Y reellwertig ist. Ursprünglich waren wir aber auch an<br />

einer Situation interessiert, wo Y Werte in R n annimmt, oder sogar in allgemeineren<br />

Räumen. Wir dehnen nun das Ergebnis auf eine größere Klasse von Wertebereichen<br />

von Y aus.<br />

Definition 8.33. Zwei Messräume (E,E) und (E ′ , E ′ ) heißen isomorph, falls es eine<br />

bijektive Abbildung ϕ : E → E ′ gibt, sodass ϕ messbar ist bezüglich E–E ′ und<br />

die Umkehrabbildung ϕ −1 messbar ist bezüglich E ′ –E. Wir nennen dann ϕ einen<br />

Messraum-Isomorphismus. Sind zudem μ und μ ′ Maße auf (E,E) und (E ′ , E ′ )<br />

und gilt μ ′ = μ ◦ ϕ −1 ,soistϕ ein Maßraum-Isomorphismus, und die Maßräume<br />

(E,E,μ) und (E ′ , E ′ ,μ ′ ) heißen isomorph.<br />

Definition 8.34. Ein Messraum (E,E) heißt Borel’scher Raum, falls es eine Borel’sche<br />

Menge B ∈B(R) gibt, sodass (E,E) und (B,B(B)) isomorph sind.<br />

�<br />

,


180 8 Bedingte Erwartungen<br />

Ein separabler topologischer Raum, dessen Topologie durch eine vollständige Metrik<br />

erzeugt wird, heißt polnischer Raum. Speziell sind R d , Z d , R N , (C([0, 1]), � ·<br />

�∞) und so fort polnisch. Abgeschlossene Teilmengen von polnischen Räumen sind<br />

ebenfalls polnisch. Wir kommen auf polnische Räume im Zusammenhang mit der<br />

Konvergenz von Maßen in Kapitel 13 zurück. Ohne Beweis bringen wir das folgende<br />

topologische Ergebnis (siehe etwa [37, Theorem 13.1.1]).<br />

Satz 8.35. Ist E ein polnischer Raum mit Borel’scher σ-Algebra E, dann ist (E,E)<br />

ein Borel’scher Raum.<br />

Satz 8.36 (Reguläre bedingte Verteilungen). Sei F⊂Aeine Unter-σ-Algebra.<br />

Sei Y eine Zufallsvariable mit Werten in einem Borel’schen Raum (E,E) (also<br />

zum Beispiel E polnisch, E = R d , E = R ∞ , E = C([0, 1]) usw.). Dann existiert<br />

eine reguläre Version κY,F der bedingten Verteilungen P[{Y ∈ · }|F].<br />

Beweis. Sei B ∈ B(R) und ϕ : E → B ein Messraum-Isomorphismus. Mit<br />

Satz 8.28 erhalten wir die regulären bedingten Verteilungen κY ′ ,F der reellen Zufallsvariablen<br />

Y ′ = ϕ ◦ Y . Wir setzen nun κY,F(ω, A) = κY ′ ,F(ω, ϕ(A)) für<br />

A ∈E. ✷<br />

Abschließend greifen wir das eingangs betrachtete Beispiel wieder auf und können<br />

nun die dort in Anführungszeichen gemachte Aussage formal hinschreiben. Sei also<br />

X uniform auf [0, 1] verteilt, und gegeben den Wert X = x seien (Y1,...,Yn)<br />

unabhängig Berx–verteilt. Wir setzen Y =(Y1,...,Yn). Nach Satz 8.36 (mit E =<br />

{0, 1} n ⊂ R n ) existieren die regulären bedingten Verteilungen<br />

κY,X(x, · )=P[Y ∈ · |X = x] für x ∈ [0, 1].<br />

In der Tat ist für fast alle x ∈ [0, 1]<br />

P[Y ∈ · |X = x] =(Berx) ⊗n .<br />

Satz 8.37. Sei X ein Zufallsvariable auf (Ω,A, P) mit Werten in einem Borel’schen<br />

Raum (E,E). SeiF ⊂ A eine σ-Algebra und κX,F eine Version der regulären<br />

bedingten Verteilungen von X gegeben F. Sei ferner f : E → R messbar und<br />

E[|f(X)|] < ∞. Dann ist<br />

�<br />

E[f(X)|F](ω) = f(x) κY,F(ω, dx) für P-fast alle ω. (8.10)<br />

Beweis. Wir rechnen nach, dass die rechte Seite in (8.10) die Eigenschaften des<br />

bedingten Erwartungswertes hat.<br />

Es reicht, den Fall f ≥ 0 zu betrachten. Indem wir f durch Elementarfunktionen<br />

approximieren, sehen wir, dass die rechte Seite in (8.10) messbar bezüglich F ist


8.3 Reguläre Version der bedingten Verteilung 181<br />

(siehe Lemma 14.20 für ein formales Argument). Nach Satz 1.96 existieren dann<br />

Mengen A1,A2,...∈Eund Zahlen α1,α2,...≥ 0 mit<br />

gn :=<br />

Für jedes n ∈ N und B ∈Fist nun<br />

E[gn(X) B] =<br />

=<br />

=<br />

n�<br />

i=1<br />

αi Ai<br />

n→∞<br />

−→ f.<br />

n�<br />

αi P[{X ∈ Ai}∩B]<br />

i=1<br />

n�<br />

i=1<br />

n�<br />

i=1<br />

�<br />

=<br />

�<br />

=<br />

αi<br />

αi<br />

B i=1<br />

B<br />

�<br />

�<br />

B<br />

B<br />

P[{X ∈ Ai}|F] P[dω]<br />

κX,F(ω, Ai) P[dω]<br />

n�<br />

αi κX,F(ω, Ai) P[dω]<br />

��<br />

�<br />

gn(x) κX,F(ω, dx) P[dω].<br />

Nach dem Satz von der monotonen Konvergenz konvergiert für fast jedes ω das<br />

innere Integral gegen � f(x)κX,F(ω, dx). Erneute Anwendung des Satzes von der<br />

monotonen Konvergenz liefert<br />

E[f(X) B] = lim<br />

n→∞ E[gn(X)<br />

� �<br />

B] = f(x) κX,F(ω, dx) P[dω]. ✷<br />

Übung 8.3.1. Sei (E,E) ein Borel’scher Raum und μ ein atomloses Maß (das heißt,<br />

μ({x}) =0für jedes x ∈ E). Man zeige: Für jedes A ∈Eund jedes n ∈ N<br />

existieren paarweise disjunkte Mengen A1,...,An ∈Emit �n k=1 Ak = A und<br />

μ(Ak) =μ(A)/n für jedes k =1,...,n. ♣<br />

Übung 8.3.2. Seien p, q ∈ (1, ∞) mit 1<br />

p<br />

B<br />

+ 1<br />

q = 1, und seien X ∈ Lp (P) und<br />

Y ∈L q (μ). SeiF⊂Aeine σ-Algebra. Man zeige mit Hilfe des vorangehenden<br />

Satzes die bedingte Version der Hölder’schen Ungleichung:<br />

E � |XY | � � F � ≤ E � |X| p � �F � 1/p E � |Y | q � �F � 1/q<br />

fast sicher. ♣<br />

Übung 8.3.3. Sei (X, Y ) uniform verteilt auf B := {(x, y) ∈ R 2 : x 2 + y 2 ≤ 1}<br />

beziehungsweise auf [−1, 1] 2 .<br />

(i) Man bestimme jeweils die bedingte Verteilung von Y gegeben X = x.<br />

(ii) Sei R := √ X 2 + Y 2 und Θ = arctan(Y/X). Man bestimme jeweils die<br />

bedingte Verteilung von Θ gegeben R = r. ♣


182 8 Bedingte Erwartungen<br />

Übung 8.3.4. Sei (X, Y ) uniform verteilt auf G := {(x, y) ∈ R 2 : x 2 + y 2 ≤ 1}.<br />

Man bestimme die bedingte Verteilung von Y gegeben X = x. ♣<br />

Übung 8.3.5. Sei A ⊂ R n eine Borel-messbare Menge mit endlichem Lebesgue-<br />

Maß λ(A) ∈ (0, ∞), und sei B ⊂ A messbar mit λ(B) > 0. Zeige: Ist X uniform<br />

verteilt (siehe Beispiel 1.75) auf A, so ist die bedingte Verteilung von X gegeben<br />

{X ∈ B} die uniforme Verteilung auf B. ♣<br />

Übung 8.3.6. (Borel’sches Paradoxon) Wir wollen die Erde als Kugel ansehen und<br />

betrachten einen zufälligen uniform auf der Erdoberfläche verteilten Punkt X. Wir<br />

wollen die Koordinaten von X durch die geografische Länge Θ und Breite Φ angeben.<br />

Allerdings soll, entgegen der üblichen Konvention, Θ die Werte in [0,π)<br />

annehmen und Φ in [−π, π). Damit wird für festes Θ ein kompletter Großkreis beschrieben,<br />

wenn Φ seinen Wertebereich durchläuft. Ist nun Φ gegeben Θ uniform<br />

verteilt auf [−π, π)? Man sollte annehmen, dass jeder Punkt auf dem Großkreis<br />

gleich wahrscheinlich ist. Dies ist jedoch nicht der Fall! Der etwas ” aufgedickte“<br />

Großkreis, mit Längen zwischen Θ und Θ + ε (für kleines ε)istamÄquator dicker<br />

als an den Polen. Lassen wir ε → 0 gehen, so sollten wir, zumindest intuitiv, die<br />

bedingten Wahrscheinlichkeiten erhalten.<br />

(i) Man zeige: P[{Φ ∈ · }|Θ = θ] hat für fast alle θ die Dichte 1<br />

4 | cos(φ)| für<br />

φ ∈ [−π, π).<br />

(ii) Man zeige: P[{Θ ∈ · }|Φ = φ] =U [0,π) für fast alle φ.<br />

Hinweis: Man zeige, dass Θ und Φ unabhängig sind und bestimme die Verteilungen<br />

von Θ und Φ. ♣<br />

Übung 8.3.7 (Verwerfungmethode zur Erzeugung von Zufallsvariablen). Sei<br />

E höchstens abzählbar und P und Q Wahrscheinlichkeitsmaße auf E. Esgebe<br />

ein c > 0 mit f(e) := Q({e})<br />

P ({e}) ≤ c für jedes e ∈ E mit P ({e}) > 0. Seien<br />

X1,X2,... unabhängige Zufallsvariablen mit Verteilung P und U1,U2,... davon<br />

unabhängige u.i.v. Zufallsvariablen, die uniform auf [0, 1] verteilt sind. Wähle N<br />

als die (zufällige) kleinste natürliche Zahl n, sodass Un ≤ f(Xn)/c, und setze<br />

Y := XN .<br />

Man zeige: Y hat die Verteilung Q.<br />

Anmerkung: Dieses Verfahren zur Erzeugung einer Zufallsvariable mit einer gewünschten<br />

Verteilung Q wird auch Verwerfungsmethode (rejection sampling) genannt,<br />

denn man kann es so interpretieren: Die Zufallsvariable X1 ist ein Vorschlag<br />

für den möglichen Wert von Y . Dieser Vorschlag wird mit Wahrscheinlichkeit<br />

f(X1)/c angenommen, ansonsten wird X2 betrachtet und so weiter. ♣<br />

Übung 8.3.8. Sei E ein polnischer Raum und P, Q ∈M1(R), sowiec>0 mit<br />

≤ cP-fast sicher. Zeige die analoge Aussage zu Übung 8.3.7. ♣<br />

f := dQ<br />

dP


9 Martingale<br />

Einer der wichtigsten Begriffe der modernen <strong>Wahrscheinlichkeitstheorie</strong> ist das<br />

Martingal, das die Idee eines fairen Spiels (Xn)n∈N0 formalisiert. In diesem Kapitel<br />

wird der Begriffsapparat für die Beschreibung allgemeiner stochastischer Prozesse<br />

aufgebaut. Danach werden Martingale und das diskrete stochastische Integral<br />

eingeführt und auf ein Modell der Finanzmathematik angewandt.<br />

9.1 Prozesse, Filtrationen, Stoppzeiten<br />

Wir führen die grundlegenden technischen Begriffe für die Behandlung stochastischer<br />

Prozesse, darunter Martingale, ein. Um die Begriffe später in einem anderen<br />

Kontext weiter verwenden zu können, streben wir eine größere Allgemeinheit an als<br />

für die Behandlung von Martingalen notwendig wäre.<br />

Im Folgenden sei stets (E,τ) ein polnischer Raum mit Borel’scher σ-Algebra E.<br />

Weiter sei (Ω,F, P) ein W-Raum und I ⊂ R beliebig. Meistens interessieren uns<br />

die Fälle I = N0, I = Z, I =[0, ∞) und I ein Intervall.<br />

Definition 9.1 (Stochastischer Prozess). Sei I ⊂ R. Eine Familie von Zufallsvariablen<br />

X =(Xt, t∈ I) (auf (Ω,F, P)) mit Werten in (E,E) heißt stochastischer<br />

Prozess mit Zeitbereich I und Zustandsraum E.<br />

Bemerkung 9.2. Etwas allgemeiner werden manchmal auch beliebig indizierte Familien<br />

von Zufallsvariablen stochastischer Prozess genannt. Beispielsweise ist dies<br />

beim Poisson’schen Punktprozess aus Kapitel 24 der Fall. ✸<br />

Bemerkung 9.3. Oftmals werden wir (gewissen Traditionen folgend) einen stochastischen<br />

Prozess auch als X =(Xt)t∈I schreiben, wenn wir weniger den Aspekt<br />

betonen wollen, dass X eine Familie von Zufallsvariablen ist, sondern den zeitlichen<br />

Verlauf der Beobachtungen stärker gewichten. Formal sollen beide Objekte<br />

identisch sein. ✸<br />

Beispiel 9.4. Sei I = N0 und (Yn, n∈ N) eine Familie von u.i.v. Zufallsvariablen<br />

auf einem W-Raum (Ω,F, P), mit P[Yn =1]=1− P[Yn = −1] = 1<br />

2 . Setze


184 9 Martingale<br />

E = Z (mit der diskreten Topologie) und<br />

Xt =<br />

t�<br />

Yn für jedes t ∈ N0.<br />

n=1<br />

(Xt, t∈ N0) heißt symmetrische einfache Irrfahrt auf Z. ✸<br />

Beispiel 9.5. Der Poissonprozess X =(Xt)t≥0 mit Intensität α>0 (siehe Kapitel<br />

5.5) ist ein stochastischer Prozess mit Wertebereich N0. ✸<br />

Wir führen weitere Begriffe ein:<br />

Definition 9.6. Ist X eine Zufallsvariable (oder ein stochastischer Prozess), so<br />

schreiben wir auch L[X] = PX für die Verteilung von X. IstG ⊂ F eine σ-<br />

Algebra, so schreiben wir L[X |G] für eine reguläre Version der bedingten Verteilung<br />

von X gegeben G.<br />

Definition 9.7. Ein stochastischer Prozess X =(Xt)t∈I mit Werten in E heißt<br />

(i) reellwertig, falls E = R,<br />

(ii) Prozess mit unabhängigen Zuwächsen, falls X reellwertig ist und für jedes<br />

n ∈ N und alle t0,...,tn ∈ I mit t0


9.1 Prozesse, Filtrationen, Stoppzeiten 185<br />

(iii) Sei (Xn)n∈Z reellwertig und stationär, und seien k ∈ N und c1,...,ck ∈ R.<br />

Dann definiert<br />

k�<br />

Yn :=<br />

i=1<br />

ciXn−i<br />

einen stationären Prozess Y =(Yn)n∈Z. Gilt c1,...,ck ≥ 0 und c1 + ...+ ck =1,<br />

so wird Y das gleitende Mittel von X (mit Gewichten c1,...,ck) genannt. ✸<br />

Die beiden folgenden Definitionen sind auch für allgemeinere halbgeordnete Mengen<br />

I sinnvoll, wir beschränken uns jedoch weiterhin auf den Fall I ⊂ R.<br />

Definition 9.9 (Filtration). Eine Familie F =(Ft, t∈ I) von σ-Algebren mit<br />

Ft ⊂Ffür jedes t ∈ I, heißt Filtration, falls Fs ⊂Ft für alle s, t ∈ I mit s ≤ t.<br />

Definition 9.10 (adaptiert). Ein stochastischer Prozess X =(Xt, t∈ I) heißt<br />

adaptiert an die Filtration F, falls Xt bezüglich Ft messbar ist für jedes t ∈ I.<br />

Gilt Ft = σ(Xs, s≤ t) für jedes t ∈ I, so schreiben wir F = σ(X) und nennen<br />

F die von X erzeugte Filtration.<br />

Bemerkung 9.11. Offenbar ist ein stochastischer Prozess stets an seine erzeugte<br />

Filtration adaptiert. Die erzeugte Filtration ist die ” kleinste“ Filtration, an die ein<br />

Prozess adaptiert ist. ✸<br />

Definition 9.12 (vorhersagbar / previsibel). Ein stochastischer Prozess X =<br />

(Xn, n ∈ N0) heißt vorhersagbar (oder previsibel) bezüglich der Filtration<br />

F =(Fn, n∈ N0), falls X0 konstant ist und für jedes n ∈ N gilt:<br />

Xn ist Fn−1-messbar.<br />

Beispiel 9.13. Seien I = N0, und seien Y1,Y2,... reelle Zufallsvariablen sowie<br />

Xn := � n<br />

m=1 Ym. Setze<br />

F0 = {∅,Ω} und Fn = σ(Y1,...,Yn) für n ∈ N.<br />

Dann ist F =(Fn, n∈ N0) =σ(Y ) die von Y =(Yn)n∈N erzeugte Filtration,<br />

und X ist an F adaptiert, also ist σ(X) ⊂ F. Offenbar ist (Y1,...,Yn) messbar<br />

bezüglich σ(X1,...,Xn), also σ(Y ) ⊂ σ(X), und daher gilt auch F = σ(X).<br />

Sei nun � Xn := � n<br />

m=1 [0,∞)(Ym). Dann ist auch � X an F adaptiert, jedoch ist im<br />

Allgemeinen F�σ( � X). ✸<br />

Beispiel 9.14. Sei I = N0, und seien D1,D2,...unabhängig und identisch verteilt<br />

mit P[Di = −1] = P[Di =1]= 1<br />

2 für jedes i ∈ N. Setze D =(Di)i∈N und


186 9 Martingale<br />

F = σ(D). Wir interpretieren Di als das Ergebnis einer Wette, die uns pro Spielschein<br />

einen Gewinn oder Verlust von einer Geldeinheit bringt. Vor jedem Spiel entscheiden<br />

wir, wie viele Spielscheine wir einsetzen wollen. Die Anzahl Hn der in der<br />

n-ten Runde eingesetzten Spielscheine darf nur von den Ergebnissen der bisherigen<br />

Spiele abhängen, nicht aber von Dn und auch nicht von einem Dm für m>n.Mit<br />

anderen Worten: Es muss eine Funktion Fn : {−1, 1} n−1 → N geben mit Hn =<br />

Fn(D1,...,Dn−1). (Für das Petersburger Spiel (Beispiel 4.22) galt beispielsweise<br />

Fn(x1,...,xn−1) =2 n−1 {x1=x2=...=xn−1=0}.) Damit ist H dann vorhersagbar.<br />

Andererseits besitzt jedes vorhersagbare H die Gestalt Hn = Fn(D1,...,Dn−1),<br />

n ∈ N, für gewisse Funktionen Fn : {−1, 1} n−1 → N, kommt also als Spielstrategie<br />

in Betracht. ✸<br />

Definition 9.15 (Stoppzeit). Eine Zufallsvariable τ mit Werten in I ∪ {∞} heißt<br />

Stoppzeit (bezüglich F), falls für jedes t ∈ I gilt, dass<br />

{τ ≤ t} ∈Ft.<br />

Die Idee hinter dieser Definition ist, dass Ft den Kenntnisstand eines Beobachters<br />

zur Zeit t wiedergibt. Der Wahrheitsgehalt der Aussage {τ ≤ t} kann also aufgrund<br />

der Beobachtungen bis zur Zeit t bestimmt werden.<br />

Satz 9.16. Ist I abzählbar, so ist τ genau dann eine Stoppzeit, wenn {τ = t} ∈Ft<br />

für jedes t ∈ I gilt.<br />

Beweis. Übung! ✷<br />

Beispiel 9.17. Seien I ⊂ [0, ∞) abzählbar und K ⊂ R messbar, sowie X ein reeller,<br />

adaptierter stochastischer Prozess. Wir betrachten den Zeitpunkt, zu dem X<br />

erstmals in K ist:<br />

τK := inf{t ≥ 0: Xt ∈ K}.<br />

Intuitiv ist klar, dass τK eine Stoppzeit ist, denn ob {τ ≤ t} eintritt oder nicht,<br />

können wir aufgrund der Beobachtungen von X bis zur Zeit t entscheiden. Formal<br />

können wir argumentieren, indem wir bemerken, dass {Xs ∈ K} ∈Fs ⊂Ftfür s ≤ t gilt. Also ist auch die abzählbare Vereinigung dieser Mengen wieder in Ft:<br />

{τK ≤ t} = �<br />

{Xs ∈ K} ∈ Ft.<br />

s∈I∩[0,t]<br />

Betrachte nun den zufälligen Zeitpunkt �τ := sup{t ≥ 0: Xt ∈ K} des letzten<br />

Aufenthalts von X in K. Zu fester Zeit t können wir aufgrund der bisherigen Beobachtungen<br />

nicht entscheiden, ob X bereits das letzte Mal in K war. Hierzu bedürfte<br />

es der Prophetie. Also ist �τ im Allgemeinen keine Stoppzeit. ✸


Lemma 9.18. Seien σ und τ Stoppzeiten. Dann gilt:<br />

(i) σ ∨ τ und σ ∧ τ sind Stoppzeiten.<br />

(ii) Gilt σ, τ ≥ 0, dann ist auch σ + τ eine Stoppzeit.<br />

9.1 Prozesse, Filtrationen, Stoppzeiten 187<br />

(iii) Ist s ≥ 0, dann ist τ + s eine Stoppzeit, jedoch im Allgemeinen nicht τ − s.<br />

Bevor wir zum einfachen formalen Beweis kommen, wollen wir festhalten, dass insbesondere<br />

(i) und (iii) Eigenschaften sind, die wir von Stoppzeiten erwarten konnten:<br />

Bei (i) ist die Interpretation klar. Für (iii) beachte man, dass τ − s um s in die<br />

Zukunft blickt (denn {τ −s ≤ t} ∈Ft+s), während τ +s um s in die Vergangenheit<br />

schaut. Stoppzeiten ist aber nur der Blick in die Vergangenheit erlaubt.<br />

Beweis. (i) Für t ∈ I ist {σ ∨ τ ≤ t} = {σ ≤ t}∩{τ ≤ t} ∈Ft und {σ ∧ τ ≤<br />

t} = {σ ≤ t}∪{τ ≤ t} ∈Ft.<br />

(ii) Sei t ∈ I. Nach (i) sind τ ∧ t und σ ∧ t Stoppzeiten für jedes t ∈ I. Speziell<br />

ist für jedes s ≤ t dann {τ ∧ t ≤ s} ∈Fs ⊂Ft. Andererseits ist für s>tstets<br />

τ ∧ t ≤ s. Alsosindτ ′ := (τ ∧ t)+ {τ>t} und σ ′ := (σ ∧ t)+ {σ>t} messbar<br />

bezüglich Ft und damit auch τ ′ + σ ′ . Es folgt {τ + σ ≤ t} = {τ ′ + σ ′ ≤ t} ∈Ft.<br />

(iii) Für τ + s folgt dies aus (ii) (mit der Stoppzeit σ ≡ s). Für τ − s beachte man,<br />

dass in der Definition der Stoppzeit für jedes t ∈ I lediglich gefordert wird, dass<br />

{τ − s ≤ t} = {τ ≤ t + s} ∈Ft+s. Im Allgemeinen ist aber Ft+s eine echte<br />

Obermenge von Ft, also τ − s keine Stoppzeit. ✷<br />

Definition 9.19. Ist τ eine Stoppzeit, so heißt<br />

Fτ := � A ∈F: A ∩{τ ≤ t} ∈Ft für jedes t ∈ I �<br />

die σ-Algebra der τ-Vergangenheit.<br />

Beispiel 9.20. Sei I höchstens abzählbar, X ein adaptierter, reellwertiger stochastischer<br />

Prozess, K ∈ R und τ = inf{t : Xt ≥ K} die Stoppzeit des ersten<br />

Eintretens in [K, ∞). Betrachte die Ereignisse A = {sup{Xt : t ∈ I} >K− 5}<br />

und B = {sup{Xt : t ∈ I} >K+5}.<br />

Für jedes t ∈ I ist {τ ≤ t} ⊂A, also ist A ∩{τ ≤ t} = {τ ≤ t} ∈Ft. Es folgt<br />

A ∈Fτ . Jedoch ist im Allgemeinen B/∈Fτ , denn wir können bis zur Zeit τ eben<br />

nicht entscheiden, ob X auch die Hürde K +5noch nehmen wird oder nicht. ✸<br />

Lemma 9.21. Sind σ und τ Stoppzeiten mit σ ≤ τ, so gilt Fσ ⊂Fτ .<br />

Beweis. Sei A ∈Fσ und t ∈ I. DannistA∩{σ ≤ t} ∈Ft. Daτ eine Stoppzeit<br />

ist, ist auch {τ ≤ t} ∈Ft.Wegenσ≤τ ist also<br />

A ∩{τ ≤ t} = � A ∩{σ ≤ t} � ∩{τ ≤ t} ∈ Ft. ✷


188 9 Martingale<br />

Definition 9.22. Ist τs.<br />

Bemerkung 9.25. Offenbar ist für Martingale t ↦→ E[Xt] konstant, für Submartingale<br />

monoton wachsend und für Supermartingale monoton fallend. ✸<br />

Bemerkung 9.26. Die Etymologie des Begriffs Martingal ist nicht völlig geklärt.<br />

Das französische la martingale (ursprünglich provenzalisch martegalo nach der


9.2 Martingale 189<br />

Stadt Martiques) bedeutet im Reitsport einen ” beim Spring- und Geländereiten verwendeten<br />

Hilfszügel“ als Teil des Zaumzeugs ([22]). Manchmal wird die verzweigte<br />

Form, insbesondere des Jagdmartingals (französisch: la martingale à anneaux,<br />

englisch: running martingale), als sinnbildlich für die Verdoppelungsstrategie im<br />

Petersburger Spiel angesehen. Eben diese Verdoppelungsstrategie ist die zweite Bedeutung<br />

von la martingale. Von hier aus scheint eine Bedeutungsverschiebung hin<br />

zum mathematischen Begriff durchaus möglich. Eine andere Herleitung geht, statt<br />

vom Aussehen, von der Funktion des Zaumzeugs aus und nennt das Bestreben einer<br />

Spielstrategie, den Zufall im Zaume zu halten. So wird der Begriff des Martingals<br />

zunächst auf Spielstrategien im Allgemeinen, dann auf die Verdoppelungsstrategie<br />

im Speziellen übertragen. ✸<br />

Bemerkung 9.27. Ist I = N, I = N0 oder I = Z, so reicht es, jeweils nur<br />

t = s +1zu betrachten, denn nach der Turmeigenschaft der bedingten Erwartung<br />

(Satz 8.14(iv)) ist<br />

�<br />

E[Xs+2<br />

�Fs] =E � �<br />

E[Xs+2<br />

�Fs+1] � �<br />

�Fs ,<br />

und wenn die definierende Gleichung (beziehungsweise Ungleichung) in einem<br />

Zeitschritt gilt, dann zieht sie sich durch in den zweiten Zeitschritt und so fort. ✸<br />

Bemerkung 9.28. Geben wir die Filtration F nicht explizit an, so nehmen wir stillschweigend<br />

an, dass F die von X erzeugte Filtration Ft = σ(Xs, s≤ t) ist. ✸<br />

Bemerkung 9.29. Sind F und F ′ Filtrationen mit Ft ⊂F ′ t für jedes t, und ist X an<br />

F adaptiert und ein F ′ -(Sub-, Super-)Martingal, dann ist X auch ein (Sub-, Super-)<br />

Martingal bezüglich der kleineren Filtration F. Es gilt nämlich für ssist E[Yr �Fs] =0.Alsoistfür t>s<br />

�<br />

�<br />

�<br />

E[Xt<br />

�Fs] = E[Xs<br />

�Fs]+E[Xt − Xs<br />

�Fs] = Xs +<br />

Es folgt, dass X ein F-Martingal ist.<br />

t�<br />

r=s+1<br />

�<br />

E[Yr<br />

�Fs] = Xs.<br />

Analog ist X ein Submartingal, falls E[Yt] ≥ 0 für jedes t gilt beziehungsweise ein<br />

Supermartingal, falls E[Yt] ≤ 0 für jedes t gilt. ✸


190 9 Martingale<br />

Beispiel 9.31. Wir betrachten die Situation des vorangehenden Beispiels, jedoch mit<br />

E[Yt] =1und Xt = �t s=1 Ys für t ∈ N0. Nach Satz 5.4 ist Y1 · Y2 integrierbar.<br />

Iterativ erhalten wir E[|Xt|] < ∞ für jedes t ∈ N0. Offenbar ist X an F adaptiert,<br />

und für s ∈ N0 gilt<br />

�<br />

�<br />

�<br />

E[Xs+1 �Fs] = E[XsYs+1 �Fs] = Xs E[Ys+1 �Fs] = Xs.<br />

Also ist X ein F-Martingal. ✸<br />

Satz 9.32. (i) X ist genau dann ein Supermartingal, wenn (−X) ein Submartingal<br />

ist.<br />

(ii) Seien X und Y Martingale und a, b ∈ R. Dann ist (aX + bY ) ein Martingal.<br />

(iii) Seien X und Y Supermartingale und a, b ≥ 0. Dann ist (aX + bY ) ein<br />

Supermartingal.<br />

(iv) Seien X und Y Supermartingale. Dann ist Z := X ∧ Y =(min(Xt,Yt))t∈I<br />

ein Supermartingal.<br />

(v) Ist (Xt)t∈N0 ein Supermartingal und E[XT ] ≥ E[X0] für ein T ∈ N0, dann<br />

ist (Xt) t∈{0,...,T } ein Martingal. Gibt es eine Folge TN →∞mit E[XTN ] ≥<br />

E[X0], dann ist X ein Martingal.<br />

Beweis. (i), (ii) und (iii) Dies ist klar.<br />

(iv) Wegen |Zt| ≤ |Xt| + |Yt| ist E[|Zt|] < ∞ für jedes � t ∈ I. Wegen � der<br />

Monotonie der bedingten Erwartung (Satz 8.14(ii)) ist E[Zt<br />

�Fs] ≤ E[Xt<br />

�<br />

� �<br />

�<br />

Fs] ≤<br />

Xs für t>sund E[Zt<br />

�Fs] ≤ E[Yt<br />

�Fs] ≤ Ys, also E[Zt<br />

�Fs] ≤ Xs ∧ Ys = Zs.<br />

�<br />

(v) Für t ≤ T setze Yt := E[XT<br />

�Ft]. DannistYein Martingal und Yt ≤ Xt.<br />

Daher ist<br />

E[X0] ≤ E[XT ]=E[YT ]=E[Yt] ≤ E[Xt] ≤ E[X0].<br />

(Die erste Ungleichung gilt hierbei nach Voraussetzung.) Es folgt Yt = Xt fast<br />

sicher für jedes t, und daher ist (Xt) t∈{0,...,T } ein Martingal.<br />

Sei TN →∞mit E[XTN ] ≥ E[X0] für� jedes N ∈ N. Dann gibt es für t>s≥ 0<br />

ein N ∈ N mit TN >t. Daher ist E[Xt<br />

�Fs] =E[Xs], also X ein Martingal. ✷<br />

Bemerkung 9.33. Viele Aussagen über Supermartingale gelten mutatis mutandis<br />

auch für Submartingale. So gilt im vorangehenden Satz Aussage (i) mit vertauschten<br />

Rollen, Aussage (iv) gilt für Submartingale, wenn das Minimum durch ein Maximum<br />

ersetzt wird, und so fort. Wir geben die Aussagen nicht stets sowohl für Submartingale<br />

wie für Supermartingale an, sondern wählen pars pro toto einen Fall aus.<br />

Man beachte aber, dass die Aussagen, die explizit über Martingale gemacht werden,<br />

nicht ohne weiteres auf Sub- oder Supermartingale übertragen werden können (vergleiche<br />

etwa (ii) im vorangehenden Satz). ✸


9.2 Martingale 191<br />

Korollar 9.34. Sei X ein Submartingal und a ∈ R. Dann ist (X − a) + ein Submartingal.<br />

Beweis. Offenbar sind 0 und Y = X − a Submartingale. Nach (iv) ist daher auch<br />

(X − a) + = Y ∨ 0 ein Submartingal. ✷<br />

Satz 9.35. Sei X ein Martingal und ϕ : R → R eine konvexe Funktion.<br />

(i) Ist<br />

E[ϕ(Xt) + ] < ∞ für jedes t ∈ I, (9.1)<br />

dann ist (ϕ(Xt))t∈I ein Submartingal.<br />

(ii) Ist t∗ := sup(I) ∈ I, so impliziert E[ϕ(Xt∗)+ ] < ∞ schon (9.1).<br />

(iii) Ist speziell p ≥ 1 und E[|Xt| p ] < ∞ für jedes t ∈ I, dann ist (|Xt| p )t∈I ein<br />

Submartingal.<br />

Beweis. (i) Es ist stets E[ϕ(Xt) − ] < ∞ (Satz 8.19), also nach Voraussetzung<br />

E[|ϕ(Xt)|] < ∞ für jedes t ∈ I. Die Jensen’sche Ungleichung (Satz 8.19) liefert<br />

für t>s<br />

E[ϕ(Xt) � �<br />

�Fs] ≥ ϕ(E[Xt<br />

�Fs]) = ϕ(Xs).<br />

(ii) Da ϕ konvex ist, ist auch x ↦→ ϕ(x) + konvex. Weiter ist nach Voraussetzung<br />

E[ϕ(Xt∗)+ ] < ∞, also gilt nach der Jensen’schen Ungleichung für jedes t ∈ I:<br />

E[ϕ(Xt) + ]=E � ϕ � E[Xt∗ �<br />

�Ft] � +� �<br />

≤ E E[ϕ(Xt∗)+ � �Ft] � = E � ϕ(Xt∗)+� < ∞.<br />

(iii) Dies ist klar, weil x ↦→ |x| p konvex ist. ✷<br />

Beispiel 9.36. (Siehe Beispiel 9.4.) Die symmetrische einfache Irrfahrt X auf Z ist<br />

ein quadratintegrierbares Martingal. Also ist (X2 n)n∈N0 ein Submartingal. ✸<br />

Übung 9.2.1. Sei Y eine Zufallsvariable mit E[|Y |] < ∞ und F eine Filtration<br />

sowie<br />

Xt := E[Y � �Ft] für jedes t ∈ I.<br />

Man zeige, dass X ein F-Martingal ist. ♣<br />

Übung 9.2.2. Sei (Xn)n∈N0 ein vorhersagbares F-Martingal. Man zeige, dass dann<br />

für jedes n ∈ N0 fast sicher Xn = X0 gilt. ♣<br />

Übung 9.2.3. Man zeige, dass die Aussage von Satz 9.35 auch gilt, wenn X nur<br />

ein Submartingal, ϕ jedoch zusätzlich monoton wachsend ist. Man zeige durch ein<br />

Beispiel, dass hier auf die Monotonie im Allgemeinen nicht verzichtet werden kann.<br />

(Vergleiche Korollar 9.34.) ♣


192 9 Martingale<br />

Übung 9.2.4 (Ungleichung von Azuma). Man zeige:<br />

(i) Ist X eine Zufallsvariable mit |X| ≤1 f.s., so gibt es eine Zufallsvariable Y<br />

mit Werten in {−1, +1} und mit E[Y |X] =X.<br />

(ii) Für X wie in (i) mit E[X] =0folgere man (mit Hilfe der Jensen’schen Ungleichung)<br />

E � e λX� ≤ cosh(λ) ≤ e λ2 /2<br />

für alle λ ∈ R.<br />

(iii) Ist (Mn)n∈N0 ein Martingal mit M0 = 0, und gibt es eine Folge (ck)k∈N<br />

nichtnegativer Zahlen mit |Mn − Mn−1| ≤cn f.s. für jedes n ∈ N, sogilt<br />

E � e λMn� �<br />

1<br />

≤ exp<br />

2 λ2<br />

n�<br />

c 2 �<br />

k .<br />

(iv) Unter den Bedingungen von (iii) gilt die Azuma’sche Ungleichung<br />

P � |Mn| ≥λ � �<br />

≤ 2exp−<br />

λ2 �<br />

für alle λ ≥ 0.<br />

k=1<br />

2 � n<br />

k=1 c2 k<br />

Hinweis: Verwende die Markov’sche Ungleichung für f(x) =e γx und wähle<br />

γ optimal. ♣<br />

9.3 Diskretes stochastisches Integral<br />

Bisher haben wir das Martingal als Partialsummenprozess eines fairen Spiels kennen<br />

gelernt. Dies kann beispielsweise auch der Kurs einer Aktie sein, die zu diskreten<br />

Zeitpunkten an einer Börse gehandelt wird. Bei dieser Interpretation ist es<br />

besonders evident, dass es natürlich ist, neue stochastische Prozesse zu generieren,<br />

indem man Anlagestrategien für die entsprechende Aktie betrachtet. Die Wertentwicklung<br />

des neuen Prozesses ist dann die mit der jeweilig im Portefeuille befindlichen<br />

Anzahl von Aktien zu multiplizierende Wertentwicklung des Aktienkurses.<br />

Dies führt zu der folgenden Begriffsbildung.<br />

Definition 9.37 (Diskretes Stochastisches Integral). Sei (Xn)n∈N0 ein reeller, Fadaptierter<br />

Prozess und (Hn)n∈N reellwertig und F-vorhersagbar. Wir definieren<br />

den stochastischen Prozess H ·X durch<br />

(H ·X)n :=<br />

n�<br />

Hm(Xm − Xm−1) für n ∈ N0, (9.2)<br />

m=1<br />

und nennen H·X das diskrete stochastische Integral von H bezüglich X.IstX ein<br />

Martingal, so nennen wir H ·X auch die Martingaltransformierte von X.


9.3 Diskretes stochastisches Integral 193<br />

Bemerkung 9.38. Offenbar ist H ·X adaptiert an F. ✸<br />

Sei X ein (möglicherweise unfaires) Spiel, wobei Xn − Xn−1 den Spielgewinn pro<br />

Spielschein in der n-ten Runde bezeichnet. Wir interpretieren Hn als die Anzahl<br />

der Spielscheine, die für das n-te Spiel eingesetzt werden, und verstehen H als<br />

Spielstrategie. Offenbar muss die Entscheidung, wie groß Hn sein soll, zur Zeit<br />

n − 1, also vor der Bekanntgabe des Ergebnisses Xn fallen. Das heißt, H muss<br />

vorhersagbar sein.<br />

Ist nun X ein faires Spiel, also ein Martingal, und ist H lokal � beschränkt (das<br />

heißt, jedes Hn ist beschränkt), dann ist (wegen E[Xn+1 − Xn<br />

�Fn] =0)<br />

�<br />

E[(H ·X)n+1<br />

�Fn] =E[(H ·X)n + Hn+1(Xn+1 − Xn) � �Fn]<br />

�<br />

�Fn] =(H ·X)n + Hn+1 E[Xn+1 − Xn<br />

=(H ·X)n.<br />

Also ist H · X ein Martingal. Im folgenden Satz zeigen wir, dass auch die Umkehrung<br />

gilt, also X ein Martingal ist, wenn für hinreichend viele vorhersagbare<br />

Prozesse das stochastische Integral ein Martingal ist.<br />

Satz 9.39 (Stabilitätssatz für Stochastische Integrale).<br />

Sei (Xn)n∈N0 ein adaptierter, reeller stochastischer Prozess mit E[|X0|] < ∞.<br />

(i) X ist genau dann ein Martingal, wenn für jeden lokal beschränkten, vorhersagbaren<br />

Prozess H das stochastische Integral H ·X ein Martingal ist.<br />

(ii) X ist genau dann ein Submartingal (Supermartingal), wenn H ·X ein Submartingal<br />

(Supermartingal) ist für jedes beschränkte, vorhersagbare H ≥ 0.<br />

Beweis. (i) ” =⇒ “ Dies hat die obige Diskussion schon gezeigt.<br />

” ⇐= “ Wähle n0 ∈ N. Setze Hn = {n=n0}. Dannist(H ·X)n0−1 =0, also<br />

0 = E � � � � � �<br />

(H ·X)n0<br />

�Fn0−1 = E Xn0<br />

�Fn0−1 − Xn0−1.<br />

(ii) Dies geht analog wie in (i). ✷<br />

Der vorangehende Satz sagt uns insbesondere, dass wir keine (beschränkte) Spielstrategie<br />

finden können, die aus einem Martingal (oder schlimmer: einem Supermartingal)<br />

ein Submartingal machte. Genau dies wird einem aber natürlich durch<br />

diverse Aufforderungen zum so genannten ” Systemlotto“ und Ähnlichem nahe gelegt.<br />

Beispiel 9.40 (Petersburger Spiel). Wir führen Beispiel 9.14 fort (siehe auch Beispiel<br />

4.22). Setzen wir Xn := D1 + ...+ Dn für n ∈ N0, soistX ein Martingal.<br />

Die Spielstrategie Hn := 2 n−1 {D1=D2=...=Dn−1=−1} für n ∈ N und H0 =1ist


194 9 Martingale<br />

vorhersagbar und lokal beschränkt. Sei Sn = �n i=1 HiDi =(H·X)n der Zugewinn<br />

nach n Runden. Dann ist S nach dem vorangehenden Satz ein Martingal. Speziell<br />

erhalten wir das bereits in Beispiel 4.22 gezeigte Ergebnis, dass E[Sn] =0ist für<br />

jedes n ∈ N. Dass dies, wie dort gezeigt, in zumindest vordergründigem Kontrast zu<br />

n→∞<br />

der Aussage Sn −→ 1 f.s. steht, wird uns später noch einmal beschäftigen (siehe<br />

Beispiel 11.6).<br />

Für den Moment sei angemerkt, dass das Martingal S ′ = (1 − Sn)n∈N0 wie in<br />

Beispiel 9.31 die Struktur eines Produkts unabhängiger Zufallsvariablen mit Erwartungswert<br />

1 hat. Es gilt nämlich S ′ n = �n i=1 (1 − Di). ✸<br />

9.4 Diskreter Martingaldarstellungssatz und CRR Modell<br />

Wir haben nun gesehen, dass wir vermittels des stochastischen Integrals aus einem<br />

Martingal X durch eine Spielstrategie H ein neues Martingal H ·X herstellen<br />

können. Welche Martingale Y (mit Y0 =0) sind nun durch eine geeignete Spielstrategie<br />

H = H(Y ) aus X zu gewinnen? Womöglich alle? Dies ist sicher nicht<br />

der Fall, wie das folgende Beispiel zeigt. Allerdings sind alle Martingale darstellbar,<br />

wenn für die Zuwächse Xn+1 − Xn immer nur zwei Werte in Frage kommen<br />

(gegeben X1,...,Xn). Wir geben für diesen Fall einen Darstellungssatz an und<br />

diskutieren in der Folge den fairen Preis der europäischen Kaufoption (europäischer<br />

Call) in dem Aktienkursmodell von Cox-Ross-Rubinstein. Wir wollen dabei einen<br />

naiven Standpunkt einnehmen und einen in vielerlei Hinsicht idealisierten Markt<br />

voraussetzen (keine Handelskosten, gebrochene Anzahlen handelbar, und so fort).<br />

Für eine umfassendere Lektüre zum Thema Finanzmathematik eignen sich etwa die<br />

Lehrbücher [41], [79], [98], [56], [12] oder [47].<br />

Beispiel 9.41. Wir betrachten ein ganz einfaches Martingal X =(Xn)n=0,1 mit nur<br />

zwei Zeitpunkten. Es sei X0 =0fast sicher und P[X1 = −1] = P[X1 =0]=<br />

P[X1 =1]= 1<br />

3 .SeiY0 =0sowie Y1 =2, falls X1 =1und Y1 = −1 sonst. Dann<br />

ist Y offenbar ein σ(X)-Martingal. Allerdings können wir keine Zahl H1 angeben,<br />

sodass H1X1 = Y1 wäre. ✸<br />

Sei T ∈ N ein fester Zeitpunkt. Ist (Yn)n=0,1,...,T �<br />

ein F-Martingal, dann ist<br />

Yn = E[YT<br />

�Fn] für jedes n ≤ T . Durch die Angabe von YT ist ein F-Martingal Y<br />

also eindeutig festgelegt (und umgekehrt). Da (H ·X) ein Martingal ist, falls X ein<br />

Martingal ist, reduziert sich das Darstellungsproblem für Martingale auf das Problem,<br />

eine integrierbare Zufallsvariable V := YT darzustellen als v0 +(H ·X)T ,<br />

wobei v0 = E[YT ] ist, falls X ein Martingal ist.<br />

Wir haben eben schon gesehen, dass dies im Allgemeinen nicht möglich ist, wenn<br />

die Differenzen Xn+1 − Xn drei (oder mehr) unterschiedliche Werte annehmen<br />

können. Wir betrachten nun also den Fall, wo nur zwei Werte möglich sind. Hier<br />

muss in jedem Schritt ein lineares Gleichungssystem mit zwei Gleichungen und


9.4 Diskreter Martingaldarstellungssatz und CRR Modell 195<br />

zwei Unbekannten gelöst werden. Im Falle von drei möglichen Werten von Xn+1 −<br />

Xn wären dies drei Gleichungen für zwei Unbekannte, und im Allgemeinen ist<br />

dieses Gleichungssystem dann nicht lösbar.<br />

Definition 9.42 (Binäres Modell). Ein stochastischer Prozess X0,...,XT heißt<br />

binäres Modell, falls es Zufallsvariablen D1,...,DT mit Werten in {−1, +1} gibt<br />

und Funktionen fn : R n−1 ×{−1, +1} →R für n =1,...,T, sowie x0 ∈ R,<br />

sodass X0 = x0 und<br />

Xn = fn(X1,...,Xn−1,Dn) für jedes n =1,...,T.<br />

Mit F = σ(X) bezeichnen wir dann die von X erzeugte Filtration.<br />

Man beachte, dass Xn nur von X1,...,Xn−1 und Dn abhängt und nicht von der<br />

vollen Information der Werte D1,...,Dn. Man mache sich klar, dass im letzteren<br />

Fall eine mehr als binäre Aufspaltung der Werte in einem Zeitschritt möglich wäre.<br />

Satz 9.43 (Darstellungssatz). Sei X ein binäres Modell und VT eine FT -messbare<br />

Zufallsvariable. Dann existiert ein beschränkter, vorhersagbarer Prozess H und ein<br />

v0 ∈ R mit VT = v0 +(H ·X)T .<br />

Man beachte, dass F die von X erzeugte Filtration ist, nicht die im Allgemeinen<br />

größere, von D1,...,DT erzeugte. Für diese ist die Aussage des Satzes im Allgemeinen<br />

nicht zutreffend, weil wir eben mit H nicht auf die Di sondern nur auf X<br />

wetten können.<br />

Beweis. Wir zeigen, dass es FT −1-messbare Zufallsvariablen VT −1 und HT gibt,<br />

sodass VT = VT −1 + HT (XT − XT −1). Dies liefert per Rückwärtsinduktion die<br />

gewünschte Aussage.<br />

Da VT messbar ist bezüglich FT , existiert nach dem Faktorisierungslemma (Korollar<br />

1.97) eine Funktion gT : RT → R mit VT = gT (X1,...,XT ). Wir setzen<br />

X ±<br />

T = fT (X1,...,XT−1, ±1) und V ±<br />

T<br />

= gT (X1,...,XT −1,X ±<br />

T ).<br />

Jede dieser vier Zufallsvariablen ist offenbar FT −1-messbar. Wir suchen nun also<br />

VT −1 und HT , die das folgende lineare Gleichungssystem lösen<br />

Per Konstruktion ist X +<br />

T<br />

auflösen und erhalten<br />

VT −1 + HT (X −<br />

T − XT −1) =V −<br />

T ,<br />

VT −1 + HT (X +<br />

T − XT −1) =V +<br />

T .<br />

HT :=<br />

− X−<br />

T<br />

⎧<br />

⎨<br />

⎩<br />

�=0, falls V +<br />

T<br />

− V −<br />

T<br />

V + −<br />

T −VT X +<br />

T −X−<br />

, falls X<br />

T<br />

+<br />

T<br />

0, sonst,<br />

(9.3)<br />

�=0.Alsokönnen wir (9.3)<br />

�= X−<br />

T ,<br />

und VT −1 = V +<br />

T − HT (X +<br />

T − XT −1) =V −<br />

T − HT (X −<br />

T − XT −1). ✷


196 9 Martingale<br />

Wir wollen nun X als Kurs einer Aktie auffassen und VT als Auszahlungsfunktion<br />

eines Finanzderivats auf X, eines so genannten Claims. Beispielsweise kann<br />

VT eine europäische Kaufoption (Call) mit Fälligkeitszeitpunkt (maturity) T und<br />

Ausübungspreis (strike price) K ≥ 0 sein. In diesem Fall wäre VT =(XT − K) + .<br />

Ökonomisch ausgedrückt gibt diese Option dem Käufer das Recht (aber nicht die<br />

Pflicht) vom Herausgeber der Option zum Zeitpunkt T die Eingehung eines Kaufvertrages<br />

über eine Aktie zum Preis K einzufordern. Von diesem Recht macht man<br />

sinnvollerweise nur dann Gebrauch, wenn XT ≥ K ist. In diesem Fall kann man<br />

die erworbene Aktie zum Preis XT wieder an der Börse verkaufen und hat einen<br />

Gewinn von VT gemacht.<br />

An den Börsen werden nun aber nicht nur Aktien, sondern auch Derivate auf Aktien<br />

gehandelt. Welches ist also der faire Preis π(VT ) für den eine Börsenhändlerin<br />

den Claim VT anbieten kann? Gibt es eine Strategie H und ein v0, sodass VT =<br />

v0 +(H ·X)T ist, dann kann die Händlerin gegen Bezahlung von v0 risikolos VT<br />

nachbilden, indem sie H als Handelsstrategie an der Börse benutzt. Wir nennen den<br />

Claim VT dann replizierbar und die Strategie H einen Hedge. Ein Markt, in dem<br />

jeder Claim replizierbar ist, heißt vollständig. In diesem Sinne ist das Binärmodell<br />

also ein vollständiger Markt.<br />

Gäbe es nun eine zweite Strategie H ′ und ein zweites v ′ 0 mit v ′ 0 +(H ′ ·X)T = VT ,<br />

so wäre insbesondere v0 − v ′ 0 =((H ′ − H)·X)T .Wäre v0 >v ′ 0,sokönnte die<br />

Händlerin risikolos durch Verfolgen der Strategie H ′ − H einen Gewinn v0 − v ′ 0<br />

machen, im Falle v0


9.4 Diskreter Martingaldarstellungssatz und CRR Modell 197<br />

Das Maß PX ′ wird auch äquivalentes Martingalmaß genannt. Während es hier<br />

für uns nur von rechnerischem Interesse ist, hat es eine ökonomische Interpretation<br />

als Maß für die Preisbildung, falls alle Händler sich risikoneutral verhalten, also den<br />

Wert einer künftigen Auszahlung allein nach deren Erwartungswert bemessen (was<br />

typischerweise nicht der Fall ist; die meisten Anleger sind risikoavers, lassen sich<br />

also Unsicherheiten durch einen Aufschlag bezahlen).<br />

Nun wollen wir aber ein Modell im Detail betrachten.<br />

Definition 9.44. Seien T ∈ N, a ∈ (−1, 0) und b>0 sowie p ∈ (0, 1). Ferner<br />

seien D1,...,DT u.i.v. mit P[D1 =1]=1− P[D1 = −1] = p. Wirdefinieren<br />

X0 = x0 > 0 und für n =1,...,T<br />

�<br />

(1 + b) Xn−1, falls Dn =+1,<br />

Xn =<br />

(1 + a) Xn−1, falls Dn = −1.<br />

X heißt mehrstufiges Binomialmodell oder Cox-Ross-Rubinstein’sches Modell<br />

(ohne Verzinsung).<br />

Nach dem bisher Gezeigten ist das CRR Modell vollständig. Ferner können wir<br />

den Prozess X zu einem Martingal machen. Mithin ist<br />

durch die Wahl p∗ = a<br />

a−b<br />

das Modell auch arbitragefrei (für jedes p ∈ (0, 1)). Wir wollen nun den Preis des<br />

europäischen Calls VT := (XT − K) + explizit ausrechnen. Hierzu können wir<br />

wieder p = p∗ annehmen. Wir erhalten dann mit A := min{i ∈ N0 :(1+b) i (1 +<br />

a) T −ix0 >K},<br />

π(VT )=Ep ∗[VT ]=<br />

= x0<br />

T�<br />

i=A<br />

T�<br />

bT,p∗({i}) � (1 + b) i (1 + a) T −i x0 − K �+<br />

i=0<br />

� �<br />

T<br />

(p<br />

i<br />

∗ ) i (1 − p ∗ ) T −i � (1 + b) i (1 + a) T −i� − K<br />

T�<br />

i=A<br />

bT,p ∗({i}).<br />

Setzen wir p ′ =(1+b)p ∗ ,dannistp ′ ∈ (0, 1) und 1 − p ′ =(1− p ∗ )(1 + a). Wir<br />

erhalten so die Cox-Ross-Rubinstein’sche Formel<br />

π(VT )=x0 bT,p ′({A,...,T}) − KbT,p∗({A,...,T}). (9.5)<br />

Dies ist das diskrete Analogon zur berühmten Black–Scholes Formel für die Optionsbewertung<br />

in gewissen zeitkontinuierlichen Märkten.


10 Optional Sampling Sätze<br />

Wir haben im vorigen Kapitel gesehen, dass aus Martingalen wieder Martingale<br />

werden, wenn man gewisse Spielstrategien anwendet. Wir wollen in diesem Kapitel<br />

ähnliche Stabilitätseigenschaften für zufällig gestoppte Martingale zeigen. Um die<br />

Aussagen auch für Submartingale und Supermartingale zu bekommen, geben wir<br />

im ersten Abschnitt einen Zerlegungssatz für adaptierte Prozesse an. Im zweiten<br />

Abschnitt kommen dann die Optional Sampling und Optional Stopping Sätze.<br />

10.1 Doob-Zerlegung und quadratische Variation<br />

Sei X =(Xn)n∈N0 ein adaptierter Prozess mit E[|Xn|] < ∞ für jedes n ∈ N0.Wir<br />

wollen X zerlegen in eine Summe aus einem Martingal und einem vorhersagbaren<br />

Prozess. Dazu definieren wir für n ∈ N0<br />

und<br />

Mn := X0 +<br />

n�<br />

An :=<br />

k=1<br />

n�<br />

k=1<br />

� �<br />

Xk − E[Xk<br />

�Fk−1] �<br />

� �<br />

�<br />

E[Xk �Fk−1] − Xk−1 .<br />

(10.1)<br />

Offenbar ist Xn = Mn + An. Per Konstruktion ist A vorhersagbar mit A0 =0, und<br />

M ist ein Martingal, denn<br />

�<br />

E[Mn − Mn−1<br />

�Fn−1] = E � �<br />

Xn − E[Xn �Fn−1] � �<br />

�Fn−1 = 0.<br />

Satz 10.1 (Doob-Zerlegung). Sei X =(Xn)n∈N0 ein adaptierter, integrierbarer<br />

Prozess. Dann existiert eine eindeutige Zerlegung X = M + A, wobei A vorhersagbar<br />

ist mit A0 =0und M ein Martingal. Diese Darstellung von X heißt<br />

Doob–Zerlegung. X ist genau dann ein Submartingal, wenn A monoton wachsend<br />

ist.<br />

Beweis. Nur die Eindeutigkeit ist zu zeigen. Seien also X = M + A = M ′ + A ′<br />

zwei Zerlegungen mit den genannten Eigenschaften. Dann ist M −M ′ = A ′ −A ein


200 10 Optional Sampling Sätze<br />

vorhersagbares Martingal, also ist (siehe Übung 9.2.2) Mn − M ′ n = M0 − M ′ 0 =0<br />

für jedes n ∈ N0. ✷<br />

Beispiel 10.2. Sei I = N0 oder I = {0,...,N}. Sei(Xn)n∈Iein quadratisch integrierbares<br />

F–Martingal (das heißt E[X2 n] < ∞ für jedes n ∈ I). Nach Satz 9.32<br />

ist Y := (X2 n)n∈I ein Submartingal. Sei Y = M + A die Doob-Zerlegung<br />

von Y . Es ist dann (X2 �<br />

n − An)n∈I ein Martingal. Ferner ist E[Xi−1Xi<br />

�Fi−1]<br />

�<br />

=<br />

Xi−1E[Xi<br />

, also (wie in (10.1))<br />

An =<br />

�Fi−1] =X 2 i−1<br />

=<br />

=<br />

n�<br />

i=1<br />

�<br />

E[X 2 �<br />

�Fi−1] i − X 2 �<br />

i−1<br />

n� �<br />

E[(Xi − Xi−1) 2 � �Fi−1] − 2X 2 �<br />

i−1 +2E[Xi−1Xi<br />

i=1<br />

n�<br />

i=1<br />

� Fi−1]<br />

E � (Xi − Xi−1) 2 � �<br />

�Fi−1 . ✸<br />

Definition 10.3. Sei (Xn)n∈I ein quadratisch integrierbares F-Martingal. Der<br />

eindeutig bestimmte vorhersagbare Prozess A, mit dem (X 2 n − An)n∈I ein Martingal<br />

wird, heißt quadratischer Variationsprozess von X und wird in Formeln mit<br />

(〈X〉n)n∈I := A bezeichnet.<br />

Aus dem vorangehenden Beispiel ergibt sich sofort der folgende Satz.<br />

Satz 10.4. Sei X wie in Definition 10.3. Dann ist für n ∈ N0<br />

und<br />

〈X〉n =<br />

n�<br />

i=1<br />

E � (Xi − Xi−1) 2 � �<br />

�Fi−1 �<br />

(10.2)<br />

E[〈X〉n] =Var[Xn − X0]. (10.3)<br />

Bemerkung 10.5. Sind Y und A wie in Beispiel 10.2, dann ist A monoton wachsend,<br />

weil (X 2 n)n∈I ein Submartingal ist (vergleiche Satz 10.1). Deshalb wird A<br />

manchmal auch der wachsende Prozess von Y genannt. ✸<br />

Beispiel 10.6. Seien Y1,Y2,... unabhängige, quadratisch integrierbare, zentrierte<br />

Zufallsvariablen. Dann wird durch Xn := Y1 + ... + Yn ein quadratisch integrierbares<br />

Martingal definiert mit 〈X〉n = �n 2<br />

i=1 E[Yi ],dennesistAn �<br />

=<br />

n �<br />

2<br />

i=1 E[Y �Y1,...,Yi−1] i<br />

= �n 2<br />

i=1 E[Yi ] (wie in Beispiel 10.2).<br />

Man beachte, dass es für diese einfache Darstellung von 〈X〉 nicht ausreicht, dass<br />

die Y1,Y2,... unkorreliert sind. ✸


10.1 Doob-Zerlegung und quadratische Variation 201<br />

Beispiel 10.7. Seien Y1,Y2,... unabhängige, quadratisch integrierbare Zufallsvariablen<br />

mit E[Yn] = 1 für n ∈ N. Setze Xn := �n i=1 Yi für n ∈ N0. Dann<br />

ist X =(Xn)n∈N0 ein quadratisch integrierbares Martingal (warum?) bezüglich<br />

F = σ(X) und<br />

E � (Xn − Xn−1) 2 � � �<br />

�Fn−1 = E (Yn − 1) 2 X 2 � �<br />

�<br />

n−1 Fn−1 = Var[Yn] X 2 n−1.<br />

Also ist 〈X〉n = �n i=1 Var[Yi] X2 i−1 . Wir sehen, dass der quadratische Variationsprozess<br />

also durchaus ein echt zufälliger Prozess sein kann. ✸<br />

Beispiel 10.8. Sei (Xn)n∈N0 die eindimensionale symmetrische einfache Irrfahrt:<br />

n�<br />

Xn = Ri für jedes n ∈ N0,<br />

i=1<br />

wobei R1,R2,R3,... u.i.v. sind mit P[Ri =1]=1− P[Ri = −1] = 1<br />

2 .<br />

Offenbar ist X ein Martingal, also |X| ein Submartingal. Sei |X| = M + A die<br />

Doob-Zerlegung von |X|. Dannist<br />

n� �<br />

An = E[|Xi| � �Fi−1] −|Xi−1| � .<br />

Nun ist<br />

Also gilt<br />

i=1<br />

⎧<br />

⎪⎨<br />

|Xi−1| + Ri, falls Xi−1 > 0,<br />

|Xi| = |Xi−1|−Ri,<br />

⎪⎩<br />

1,<br />

falls Xi−1 < 0,<br />

falls Xi−1 =0.<br />

E[|Xi| � �<br />

|Xi−1|, falls |Xi−1| �= 0,<br />

�Fi−1] =<br />

1, falls |Xi−1| =0.<br />

Mithin ist<br />

An =# � i ≤ n − 1:|Xi| =0 �<br />

die Lokalzeit von X in 0. Es folgt (wegen P[X2j =0]= � � 2j −j<br />

j 4 und P[X2j+1 =<br />

0] = 0):<br />

E[|Xn|] =E � #{i ≤ n − 1: Xi =0} �<br />

n−1 �<br />

= P[Xi =0]=<br />

i=0<br />

⌊(n−1)/2⌋ �<br />

j=0<br />

� �<br />

2j<br />

4<br />

j<br />

−j . ✸<br />

Beispiel 10.9. Wir wollen das vorangehende Beispiel jetzt noch etwas verallgemeinern.<br />

Offenbar brauchten wir (außer in der letzten Formel) nicht, dass X eine Irrfahrt<br />

ist, sondern lediglich, dass die Differenzen (ΔX)n := Xn − Xn−1 nur die Werte


202 10 Optional Sampling Sätze<br />

−1 und +1 annehmen können. Sei also jetzt X ein Martingal mit |Xn − Xn−1| =1<br />

fast sicher für jedes n ∈ N und mit X0 = x0 ∈ Z fast sicher. Sei f : Z → R eine<br />

beliebige Abbildung. Dann ist Y := (f(Xn))n∈N0 ein integrierbarer, adaptierter<br />

Prozess (weil |f(Xn)| ≤maxx∈{x0−n,...,x0+n} |f(x)|). Um die Doob-Zerlegung<br />

von Y zu bestimmen, definieren wir die erste und zweite (diskrete) Ableitung von f<br />

und<br />

f ′ (x) :=<br />

f(x +1)− f(x − 1)<br />

2<br />

f ′′ (x) :=f(x − 1) + f(x +1)− 2f(x).<br />

Wir setzen noch F ′ n := f ′ (Xn−1) und F ′′<br />

n := f ′′ (Xn−1). Durch Unterscheidung<br />

der Fälle Xn = Xn−1 − 1 und Xn = Xn−1 +1sehen wir, dass für jedes n ∈ N<br />

f(Xn) − f(Xn−1) = f(Xn−1 +1)−f(Xn−1 − 1)<br />

(Xn − Xn−1)<br />

2<br />

+ 1<br />

2 f(Xn−1 − 1) + 1<br />

2 f(Xn−1 +1)− f(Xn−1)<br />

= f ′ (Xn−1)(Xn − Xn−1)+ 1<br />

2 f ′′ (Xn−1)<br />

= F ′ n · (Xn − Xn−1)+ 1 ′′<br />

F n .<br />

2<br />

Insgesamt erhalten wir also die diskrete Itô-Formel<br />

f(Xn) =f(x0)+<br />

n�<br />

i=1<br />

= f(x0)+(F ′ ·X)n +<br />

f ′ (Xi−1)(Xi − Xi−1)+<br />

n�<br />

i=1<br />

1 ′′<br />

F i .<br />

2<br />

n�<br />

i=1<br />

1<br />

2 f ′′ (Xi−1)<br />

(10.4)<br />

Hierbei ist F ′ ·X das diskrete stochastische Integral (siehe Definition 9.37). Nun ist<br />

M := f(x0)+F ′ ·X ein Martingal nach Satz 9.39, weil F ′ vorhersagbar ist (und<br />

|F ′ n|≤maxx∈{x0−n,...,x0+n} |F ′ (x)|), und A := ��n i=1 1<br />

�<br />

′′<br />

2F i ist vorhersag-<br />

n∈N0<br />

bar. Also ist f(X) :=(f(Xn))n∈N0 = M + A die Doob-Zerlegung von f(X).<br />

Speziell ist natürlich f(X) ein Submartingal, wenn f ′′ (x) ≥ 0 für alle x ∈ Z,wenn<br />

also f konvex ist. Dies wussten wir zwar schon aus Satz 9.35, allerdings haben wir<br />

hier auch noch quantifiziert, wie weit f(X) von einem Martingal abweicht.<br />

In den Spezialfällen f(x) =x2 und f(x) =|x| ist f ′′ (x) =2beziehungsweise<br />

f ′′ (x) =2· {0}(x), und wir erhalten aus (10.4) die Aussagen von Satz 10.4 und<br />

Beispiel 10.8.<br />

Später werden wir eine zu (10.4) vergleichbare Formel auch für stochastische Prozesse<br />

in stetiger Zeit herleiten (siehe Kapitel 25.3). ✸


10.2 Optional Sampling und Optional Stopping 203<br />

10.2 Optional Sampling und Optional Stopping<br />

Lemma 10.10. Sei I ⊂ R höchstens abzählbar, (Xt)t∈I � ein Martingal, T ∈ I und τ<br />

eine Stoppzeit mit τ ≤ T . Dann gilt Xτ = E[XT<br />

�Fτ ] und speziell E[Xτ ]=E[X0].<br />

Beweis. Es reicht zu zeigen, dass E[XT A] =E[Xτ A] für jedes A ∈Fτ gilt.<br />

Nach der Definition von Fτ ist {τ = t}∩A ∈Ft für jedes t ∈ I, also<br />

E[Xτ A] = �<br />

E[Xt {τ=t}∩A] = �<br />

E � �<br />

�<br />

E[XT<br />

�Ft] {τ=t}∩A<br />

t≤T<br />

t≤T<br />

= �<br />

E[XT A {τ=t}] = E[XT A]. ✷<br />

t≤T<br />

Satz 10.11 (Optional Sampling Theorem). Sei X =(Xn)n∈N0 ein Supermartingal,<br />

und seien σ ≤ τ Stoppzeiten.<br />

(i) Gibt es ein T ∈ N mit τ ≤ T , dann ist<br />

�<br />

Xσ ≥ E[Xτ<br />

�Fσ] und speziell E[Xσ] ≥ E[Xτ ].IstX ein Martingal, so gilt jeweils Gleichheit.<br />

(ii) Ist X nichtnegativ und τ < ∞ f.s., �so<br />

gelten E[Xτ ] ≤ E[X0] < ∞,<br />

E[Xσ] ≤ E[X0] < ∞ und Xσ ≥ E[Xτ �Fσ].<br />

(iii) Ist allgemeiner X lediglich adaptiert und integrierbar, so ist X genau dann<br />

ein Martingal, wenn E[Xτ ]=E[X0] für jede beschränkte Stoppzeit τ gilt.<br />

Beweis. (i) Sei X = M + A die Doob-Zerlegung von X, also A vorhersagbar<br />

und monoton fallend, A0 =0, und M ein Martingal. Dann ist nach Lemma 10.10,<br />

angewandt auf M,<br />

�<br />

Xσ = Aσ + Mσ = E[Aσ + MT �Fσ]<br />

�<br />

�<br />

≥ E[Aτ + MT<br />

�Fσ] = E[Aτ + E[MT<br />

�Fτ ] � �Fσ]<br />

�<br />

�<br />

= E[Aτ + Mτ<br />

�Fσ] = E[Xτ<br />

�Fσ]. Wir haben dabei Fτ ⊃Fσ, die Turmeigenschaft und die Monotonie der bedingten<br />

Erwartung (Satz 8.14) ausgenutzt.<br />

n→∞<br />

(ii) Es gilt Xτ∧n −→ Xτ fast sicher. Nach (i) gilt E[Xτ∧n] ≤ E[X0] für jedes<br />

n ∈ N. Nach dem Lemma von Fatou ist also<br />

Analog zeigt man E[Xσ] ≤ E[X0].<br />

E[Xτ ] ≤ lim inf<br />

n→∞ E[Xτ∧n] ≤ E[X0] < ∞.


204 10 Optional Sampling Sätze<br />

Seien nun m, n ∈ N mit m ≥ n. Teil (i) mit den beschränkten Stoppzeiten τ ∧ m ≥<br />

σ ∧ n liefert<br />

�<br />

Xσ∧n ≥ E[Xτ∧m<br />

�Fσ∧n].<br />

Für A ∈Fσ ist {σ


10.2 Optional Sampling und Optional Stopping 205<br />

Also ist X τ ein F-Submartingal. Da X τ an F τ adaptiert und F τ die kleinere Filtration<br />

ist, ist X auch ein F τ –Submartingal (siehe Bemerkung 9.29). ✷<br />

Beispiel 10.16. Sei X die symmetrische einfache Irrfahrt aus Beispiel 10.8. Seien<br />

a, b ∈ Z, a0 sowie<br />

τa =inf{t ≥ 0:Xt = a}, τb =inf{t ≥ 0:Xt = b} und τa,b = τa ∧ τb.<br />

τa,b ist eine Stoppzeit nach Lemma 9.18. Sei A = {τa,b = τa} das Ereignis, dass<br />

X in a ist bevor es in b ist. Wir wollen P[A] bestimmen. Nach Übung 2.3.1 ist<br />

fast sicher lim supn→∞ Xn = ∞ und lim infn→∞ Xn = −∞. Also ist fast sicher<br />

τa < ∞ und τb < ∞. Nach dem Optional Stopping Theorem Xτa,b ein Martingal.<br />

Wegen τa,b ∧ n n→∞<br />

−→ τa,b fast sicher, gilt X τa,b n→∞<br />

n −→ Xτa,b fast sicher. Da |Xτa,b n |<br />

durch b − a beschränkt ist, gilt X τa,b n→∞<br />

n −→ Xτa,b auch in L1 .Alsoist<br />

0 = lim<br />

n→∞ E � X τa,b�<br />

� �<br />

n = E Xτa,b = a · P [τa,b = τa]+b · P [τa,b = τb]<br />

= b +(a− b) P[τa,b = τa].<br />

Es folgt P [τa,b = τa] = b<br />

. ✸<br />

b − a<br />

Beispiel 10.17. Schließlich wollen wir unsere Maschinerie benutzen, um E[τa,b]<br />

und E[τa] zu berechnen. Der quadratische Variationsprozess 〈X〉 (vergleiche Definition<br />

10.3) ist gegeben durch<br />

〈X〉n =<br />

n�<br />

i=1<br />

E � (Xi − Xi−1) 2 � �<br />

�Fi−1 = n,<br />

also ist � X2 n − n �<br />

ein Martingal. Nach dem Optional Stopping Theorem ist<br />

n∈N0<br />

0=E � X 2 τa,b∧n − (τa,b ∧ n) �<br />

für jedes n ∈ N0.<br />

Monotone Konvergenz liefert<br />

E [τa,b] =E � X 2 � 2<br />

τa,b = a P [τa,b = τa]+b 2 P [τa,b = τb] =|a|·b.<br />

Um E[τa] zu berechnen, bemerken wir, dass τa,b ↑ τa fast sicher gilt, falls b →∞.<br />

Der Satz von der monotonen Konvergenz liefert also E[τa] = lim<br />

b→∞ E[τa,b] =∞. ✸<br />

Bemerkung 10.18. Offenbar ist Xτb = b>0, also X0 < E � � �<br />

Xτb<br />

�F0 = b. Die<br />

Aussage des Optional Sampling Theorems gilt also im Allgemeinen nicht, falls die<br />

Stoppzeit unbeschränkt ist. ✸<br />

Beispiel 10.19 (Gambler’s Ruin Problem). Wir betrachten ein Spiel zwischen<br />

zwei Personen A und B. In jeder Runde wird eine Münze geworfen. Je nach Ergebnis<br />

erhält A von B eine Geldeinheit oder B von A. Gespielt wird so lange, bis


206 10 Optional Sampling Sätze<br />

einer der beiden Spieler ruiniert ist. Wir nehmen der Einfachheit halber an, dass A<br />

zum Spielbeginn kA ∈ N Geldeinheiten hat, B hingegen kB = N − kA, wobei<br />

N ∈ N, N ≥ kA. Gesucht ist die Ruinwahrscheinlichkeit von B. In Beispiel 10.16<br />

haben wir für den Fall einer fairen Münze bereits ausgerechnet, dass die Ruinwahrscheinlichkeit<br />

kA/N ist. Nun wollen wir den Fall einer unfairen Münze betrachten.<br />

Seien also Y1,Y2,... unabhängig und P[Yi =1]=1− P[Yi = −1] = p für alle<br />

i ∈ N und für gewisses p ∈ (0, 1) \{ 1<br />

2 }.MitXn := kB + �n i=1 Yi bezeichnen<br />

wir den Kontostand von B nach n Runden, wobei wir formal annehmen, dass die<br />

Spiele weiter gehen, auch wenn ein Spieler bereits ruiniert ist. Wir definieren noch<br />

wie oben τ0, τN und τ0,N als die ersten Eintreffzeiten von X in 0, N beziehungs-<br />

weise {0,N}. Die Ruinwahrscheinlichkeit von B ist nun p N B := P[τ0,N = τ0].<br />

Da X kein Martingal ist (außer im Falle p = 1<br />

2 , den wir hier ausschließen wollen),<br />

behelfen wir uns mit einem Trick: Wir definieren einen neuen Prozess Z durch<br />

Zn := rXn = rkB �n i=1 rYi , wobei wir r>0 noch geeignet wählen müssen, sodass<br />

Z ein Martingal wird. Nach Beispiel 9.31 ist dies genau dann der Fall, wenn<br />

E[rY1 ]=pr +(1− p)r−1 =1ist, also wenn r =1oder r = 1−p<br />

p ist. Offenbar<br />

ist die Wahl r = 1 nutzlos, also nehmen wir r = 1−p<br />

p an. Wir erhalten so<br />

τ0 =inf{n ∈ N0 : Zn =1} und τN =inf{n ∈ N0 : Zn = rN }.<br />

(Man beachte, dass wir hier nicht wie oben argumentieren können, um zu zeigen,<br />

dass τ0 < ∞ und τN < ∞ fast sicher gilt. In der Tat ist für p �= 1<br />

2 auch stets<br />

nur genau eine der beiden Aussagen richtig. Allerdings erhält man, beispielsweise<br />

durch das starke Gesetz der großen Zahl, dass lim infn→∞ Xn = ∞ (und damit<br />

τN < ∞) fast sicher, falls p> 1<br />

2 . Analog ist τ0 < ∞ fast sicher, falls p< 1<br />

2 .)<br />

Wie in Beispiel 10.16 liefert der Optional Stopping Satz r kB = Z0 = E[Zτ0,N ]=<br />

p N B +(1− pN B )rN , also ist die Ruinwahrscheinlichkeit von B<br />

p N B = rkB − rN . (10.5)<br />

1 − rN Ist das Spiel vorteilhaft für B, also p> 1<br />

2 ,soistr


10.3 Gleichgradige Integrierbarkeit und Optional Sampling 207<br />

Übung 10.2.2. Wir betrachten hier eine allgemeinere Situation als im vorangehenden<br />

Beispiel, indem wir nur noch annehmen, dass Y1,Y2,... u.i.v. integrierbare<br />

Zufallsvariablen sind, die nicht fast sicher konstant sind (und Xn = Y1 + ...+ Yn).<br />

Weiter nehmen wir an, dass es ein δ > 0 gibt mit E[exp(θY1)] < ∞ für jedes<br />

θ ∈ (−δ, δ). Wirdefinieren eine Abbildung ψ : (−δ, δ) → R durch θ ↦→<br />

log � E[exp(θY1)] � und setzen Z θ n := exp(θXn − nψ(θ)) für n ∈ N0. Man zeige:<br />

(i) Für jedes θ ∈ (−δ, δ) ist Zθ ist ein Martingal.<br />

(ii) ψ ist strikt konvex.<br />

(iii) E �� Zθ � n→∞<br />

n −→ 0 für θ �= 0.<br />

(iv) Z θ n<br />

n→∞<br />

−→ 0 fast sicher.<br />

Interpretieren wir Yn als die Differenz zwischen Prämieneinnahmen und Schadensauszahlungen<br />

einer Versicherungsgesellschaft zur Zeit n,sogibtk0+Xn den Kontostand<br />

der Versicherung zur Zeit n wieder, wenn das Anfangskapital k0 > 0 beträgt.<br />

Wir interessieren uns für die Ruinwahrscheinlichkeit<br />

p(k0) =P � inf{Xn + k0 : n ∈ N0} < 0 �<br />

in Abhängigkeit vom Startkapital.<br />

Man kann davon ausgehen, dass die Prämien so kalkuliert sind, dass E[Y1] > 0.<br />

Man zeige: Falls die Gleichung ψ(θ) =0eine Lösung θ∗ �=0hat, so ist θ∗ < 0.<br />

Man zeige, dass in diesem Fall die Cramér-Lundberg’sche Ungleichung gilt:<br />

p(k0) ≤ exp(θ ∗ k0). (10.8)<br />

In dem Fall, wo Yi nur die Werte −1 und 1 annimmt und k0 ∈ N ist, gilt Gleichheit,<br />

und wir erhalten Gleichung (10.6) mit r =exp(θ ∗ ). ♣<br />

10.3 Gleichgradige Integrierbarkeit und Optional Sampling<br />

Wir wollen jetzt das Optional Sampling Theorem auf unbeschränkte Stoppzeiten<br />

ausweiten. Dies geht, falls das zugrunde liegende Martingal gleichgradig integrierbar<br />

ist (vergleiche Definition 6.16).<br />

Lemma 10.20. Sei X ein gleichgradig integrierbares Martingal. Dann ist die Familie<br />

(Xτ : τ ist endliche Stoppzeit) gleichgradig integrierbar.<br />

Beweis. Nach Satz 6.19) eine monoton wachsende, konvexe Funktion f :[0, ∞) →<br />

[0, ∞) mit lim infx→∞ f(x)/x = ∞ und L := supn∈N0 E[f(|Xn|)] < ∞. Ist<br />

τ


208 10 Optional Sampling Sätze<br />

E � � � �<br />

f(|Xτ |) {τ≤n} = E f(|Xτ∧n|) {τ≤n}<br />

≤ E � E � f(|Xn|) � � �<br />

�Fτ∧n {τ≤n}<br />

= E � �<br />

f(|Xn|) {τ≤n} ≤ L.<br />

Also ist E[f(|Xτ |)] ≤ L. Nach Satz 6.19 ist (Xτ ,τ ist endliche Stoppzeit) gleichgradig<br />

integrierbar. ✷<br />

Satz 10.21 (Optional Sampling und gleichgradige Integrierbarkeit).<br />

Ist (Xn, n ∈ N0) ein gleichgradig integrierbares Martingal (beziehungsweise<br />

Supermartingal), und sind σ ≤ τ Stoppzeiten, dann gilt E[|Xτ |] < ∞ und Xσ �<br />

�<br />

=<br />

E[Xτ<br />

�Fσ] (beziehungsweise Xσ ≥ E[Xτ<br />

�Fσ]). Beweis. Sei zunächst X ein Martingal. Für A ∈Fσ ist {σ ≤ n}∩A ∈Fσ∧n, also<br />

nach dem Optional Sampling Theorem (Satz 10.11)<br />

E � � � �<br />

Xτ∧n {σ≤n}∩A = E Xσ∧n {σ≤n}∩A .<br />

Nach Lemma 10.20 ist (Xσ∧n, n ∈ N0) und damit (Xσ∧n {σ≤n}∩A, n ∈ N0)<br />

gleichgradig integrierbar. Analog gilt dies für Xτ . Nach Satz 6.25 gilt daher<br />

E[Xτ A] = lim<br />

n→∞ E�Xτ∧n �<br />

{σ≤n}∩A = lim<br />

n→∞ E�Xσ∧n �<br />

{σ≤n}∩A = E[Xσ A].<br />

�<br />

Es folgt E[Xτ �Fσ] =Xσ.<br />

Sei nun X ein Supermartingal. Dann hat X die Doob-Zerlegung X = M + A,<br />

wobei M ein Martingal ist und A ≤ 0 vorhersagbar und fallend. Wegen<br />

E[|An|] =E[−An] ≤ E[|Xn − X0|] ≤ E[|X0|]+ supE[|Xm|]<br />

< ∞,<br />

m∈N0<br />

gilt An ↓ A∞ für ein A∞ ≤ 0 mit E[−A∞] < ∞. AlsoistA damit auch M =<br />

X − A gleichgradig integrierbar (Satz 6.19). Es folgt<br />

Ferner ist<br />

E[|Xτ |] ≤ E[−Aτ ]+E[|Mτ |] ≤ E[−A∞]+E[|Mτ |] < ∞.<br />

�<br />

E[Xτ �Fσ] =E[Mτ<br />

�<br />

�<br />

�Fσ]+E[Aτ �Fσ]<br />

= Mσ + Aσ + E[(Aτ − Aσ) � �Fσ]<br />

≤ Mσ + Aσ = Xσ. ✷<br />

Korollar 10.22. Ist X ein gleichgradig integrierbares Martingal (beziehungsweise<br />

Supermartingal), und sind τ1 ≤ τ2 ≤ ...endliche Stoppzeiten, so ist (Xτn )n∈N ein<br />

Martingal (beziehungsweise Supermartingal).


11 Martingalkonvergenzsätze und Anwendungen<br />

Wir haben Martingale X =(Xn)n∈N0 als faire Spiele kennen gelernt und festgestellt,<br />

dass sie unter gewissen Transformationen (Optionales Stoppen, diskretes stochastisches<br />

Integral) wieder zu Martingalen werden. In diesem Kapitel werden wir<br />

sehen, dass unter schwachen Bedingungen (Nichtnegativität oder gleichgradige Integrierbarkeit)<br />

Martingale fast sicher konvergieren. Zudem impliziert die Martingalstruktur<br />

die Lp-Konvergenz schon unter formal schwächeren Annahmen als denen,<br />

die wir in Kapitel 7 gesehen haben. Die grundlegenden Ideen dieses Kapitels liegen<br />

in der Doob’schen Ungleichung (Satz 11.2) und in der Aufkreuzungsungleichung<br />

(Lemma 11.3).<br />

11.1 Die Doob’sche Ungleichung<br />

Wir haben mit der Kolmogorov’schen Ungleichung (Satz 5.28) eine Ungleichung<br />

kennen gelernt, die analog zur Chebyshev’schen Ungleichung die Wahrscheinlichkeit<br />

für große Werte des Maximums eines quadratisch integrierbaren Prozesses mit<br />

unabhängigen, zentrierten Zuwächsen nach oben abschätzt. An dieser Stelle wollen<br />

wir die Ungleichung in mehrere Richtungen verbessern. Einerseits wollen wir<br />

Martingale betrachten. Andererseits wollen wir mit weniger als zweiten Momenten<br />

auskommen, beziehungsweise bei Anwesenheit höherer Momente die Ungleichung<br />

verschärfen.<br />

Sei I ⊂ N0 und X =(Xn)n∈I ein stochastischer Prozess. Wir schreiben für n ∈ N<br />

X ∗ n =sup{Xk : k ≤ n} und |X| ∗ n =sup{|Xk| : k ≤ n}.<br />

Lemma 11.1. Ist X ein Submartingal, dann gilt für jedes λ>0<br />

λ P � X ∗ n ≥ λ � ≤ E � Xn {X∗ n≥λ} � � �<br />

≤ E |Xn| {X∗ n≥λ} .<br />

Beweis. Die zweite Ungleichung ist trivial. Für die erste betrachte<br />

τ := inf � k ∈ I : Xk ≥ λ � ∧ n.<br />

Nach Satz 10.11 (Optional Sampling Theorem) ist


210 11 Martingalkonvergenzsätze und Anwendungen<br />

E[Xn] ≥ E[Xτ ]=E � Xτ {X∗ n≥λ} � �<br />

+ E Xτ {X∗ n


E � (|X| ∗ n ∧ K) p� ≤<br />

11.2 Martingalkonvergenzsätze 211<br />

p<br />

p − 1 E� (|X| ∗ n ∧ K) p� (p−1)/p · E � |Xn| p� 1/p .<br />

Indem wir beide Seiten zur p-ten Potenz erheben und durch E � (|X| ∗ n ∧ K) p�p−1 teilen (hier wird das Abschneiden bei K gebraucht, damit wir sicher durch eine<br />

endliche Zahl teilen), erhalten wir<br />

E � (|X| ∗ n ∧ K) p� � �p p<br />

≤<br />

E<br />

p − 1<br />

� |Xn| p� .<br />

Jetzt lassen wir K nach ∞ gehen. ✷<br />

Übung 11.1.1. Sei (Xn)n∈N0 ein Submartingal oder Supermartingal. Man zeige mit<br />

Hilfe von Satz 11.2 und der Doob-Zerlegung, dass für jedes n ∈ N und λ>0<br />

λ P � |X| ∗ n ≥ λ � ≤ 12 E[|X0|]+9E[|Xn|]. ♣<br />

11.2 Martingalkonvergenzsätze<br />

In diesem Abschnitt zeigen wir die gängigen Martingalkonvergenzsätze und geben<br />

ein paar kleinere Beispiele an. Wir beginnen mit dem Herzstück der Martingalkonvergenzsätze,<br />

der Aufkreuzungsungleichung.<br />

� �<br />

Sei F =(Fn)n∈N0 eine Filtration und F∞ = σ<br />

n∈N0 Fn<br />

� .Sei(Xn)n∈N0 re-<br />

ellwertig und an F adaptiert. Seien a, b ∈ R mit a < b. Stellen wir uns X als<br />

Aktienkurs vor, so wäre es eine sinnvolle Handelsstratgie, immer dann die Aktie<br />

zu kaufen, wenn ihr Kurs unter a gefallen ist, und zu verkaufen, sobald der Kurs<br />

wieder über b gestiegen ist – jedenfalls dann, wenn wir sicher wissen, dass der Kurs<br />

immer wieder über b steigt. Jedes Mal, wenn der Kurs der Aktie eine solche Aufkreuzung<br />

von a nach b macht, erhalten wir einen Gewinn von mindestens b − a.<br />

Indem wir den maximal möglichen Gewinn nach oben abschätzen, erhalten wir eine<br />

obere Abschätzung für die Zahl der Aufkreuzungen. Ist diese aber endlich für je<br />

zwei Werte a


212 11 Martingalkonvergenzsätze und Anwendungen<br />

Lemma 11.3 (Aufkreuzungsungleichung). Es sei (Xn)n∈N0 ein Submartingal.<br />

Dann ist<br />

E � U a,b�<br />

E[(Xn − a)<br />

n ≤ + ] − E[(X0 − a) + ]<br />

.<br />

b − a<br />

Beweis. Wir erinnern an das diskrete stochastische Integral (Definition 9.37) H ·X<br />

und beschreiben formal die oben angedeutete Handelsstrategie H durch m ∈ N0<br />

�<br />

1, falls m ∈{τk +1,...,σk} für ein k ∈ N,<br />

Hm :=<br />

0, sonst.<br />

H ist nichtnegativ und vorhersagbar, denn für m ∈ N ist<br />

{Hm =1} =<br />

∞� �<br />

{τk ≤ m − 1}∩{σk >m− 1} � ,<br />

k=1<br />

und jedes der Ereignisse liegt in Fm−1. Setze Y = max(X, a). Istk∈ N und<br />

σk < ∞, so ist offenbar Yσi − Yτi = Yσi − a ≥ b − a für jedes i ≤ k , also ist<br />

(H ·Y )σk =<br />

k�<br />

σi �<br />

i=1 j=τi+1<br />

(Yj − Yj−1) =<br />

k�<br />

(Yσi − Yτi ) ≥ k(b − a).<br />

Für j ∈{σk,...,τk+1} ist (H ·Y )j =(H ·Y )σk , und für j ∈{τk +1,...,σk} ist<br />

(H ·Y )j ≥ (H ·Y )τk =(H ·Y )σk−1 .Für n ∈ N ist daher (H ·Y )n ≥ (b − a)U a,b<br />

n .<br />

Nach Korollar 9.34 ist Y ein Submartingal, und damit (nach Satz 9.39) auch H ·Y<br />

und (1 − H)·Y . Nun ist Yn − Y0 =(1·Y )n =(H ·Y )n + ((1 − H)·Y )n, also<br />

E[Yn − Y0] ≥ E � � � � a,b<br />

(H ·Y )n ≥ (b − a)E Un . ✷<br />

Satz 11.4 (Martingalkonvergenzsatz).<br />

Sei (Xn)n∈N0 ein Submartingal mit sup{E[X+ n ]: n ≥ 0} < ∞. Dann existiert<br />

n→∞<br />

eine F∞-messbare Zufallsvariable X∞ mit E[|X∞|] < ∞ und Xn −→ X∞<br />

fast sicher.<br />

Beweis. Für a


und<br />

C = �<br />

a,b∈Q<br />

a


214 11 Martingalkonvergenzsätze und Anwendungen<br />

Bemerkung 11.8. Die Aussage von Satz 11.7 lässt sich so ausdrücken: Der Prozess<br />

(Xn) n∈N0∪{∞} ist ein (Sub-, Super-) Martingal bezüglich (Fn) n∈N0∪{∞}. ✸<br />

Beweis. Wir führen den Beweis für den Fall, wo X ein Submartingal ist. Gleichgradige<br />

Integrierbarkeit impliziert sup{E[X + n ]: n ≥ 0} < ∞. Nach Satz 11.4 existiert<br />

der fast sichere Limes X∞. Nach Satz 6.25 gilt dann E[|Xn − X∞|] n→∞<br />

−→ 0.<br />

Nach Korollar 8.20 impliziert diese L1-Konvergenz schon die L1-Konvergenz der<br />

bedingten Erwartungen E �� �<br />

�<br />

�E[Xn �Fm] − E[X∞<br />

�Fm] � � � n→∞<br />

−→ 0. DaX ein Submartingal<br />

ist, ist � � �− E[Xn<br />

�Fm] − Xm =0für n ≥ m. Die Dreiecksungleichung<br />

liefert also<br />

� �E[X∞ � � �<br />

−<br />

E �Fm] − Xm = lim<br />

n→∞ E<br />

� �E[Xn � � �<br />

− �Fm] − Xm =0.<br />

�<br />

Es folgt, dass E[X∞ �Fm] − Xm ≥ 0 fast sicher. ✷<br />

Korollar 11.9. Sei X ≥ 0 ein Martingal und X∞ = lim<br />

n→∞ Xn. Genau dann ist<br />

E[X∞] =E[X0], wennX gleichgradig integrierbar ist.<br />

Beweis. Das folgt direkt aus Satz 6.25. ✷<br />

Sei p ∈ [1, ∞). Ein reellwertiger stochastischer Prozess (Xi)i∈I heißt L p –beschränkt,<br />

falls sup i∈I E[|Xi| p ] < ∞ (Definition 6.20). Im Allgemeinen folgt aus<br />

der L p –Beschränktheit eines Prozesses (Xi)i∈I nicht, dass (|Xi| p )i∈I gleichgradig<br />

integrierbar wäre. Ist X ein Martingal und p > 1, so folgt dies jedoch aus<br />

der Doob’schen Ungleichung. Insbesondere folgt dann aus fast sicherer Konvergenz<br />

schon die Konvergenz in L p .<br />

Satz 11.10 (Lp-Konvergenzsatz für Martingale).<br />

Sei p>1 und (Xn)n∈N0 ein Lp-beschränktes Martingal. Dann existiert eine F∞messbare<br />

Zufallsvariable X∞ mit E[|X∞| p n→∞<br />

] < ∞, sowie Xn −→ X∞ fast<br />

gleichgradig integrierbar.<br />

sicher und in L p . Speziell ist (|Xn| p )n∈N0<br />

Beweis. Nach Korollar 6.21 ist X gleichgradig integrierbar. Also existiert der fast<br />

sichere Limes X∞. Nach der Doob’schen Ungleichung (Satz 11.2) ist für n ∈ N<br />

E � sup � |Xk| p : k ≤ n �� � �p p<br />

≤<br />

E<br />

p − 1<br />

� |Xn| p� .<br />

Also ist<br />

�<br />

E sup � |Xk| p �<br />

: k ∈ N0<br />

� � �p p<br />

�<br />

≤<br />

sup E<br />

p − 1<br />

� |Xn| p� �<br />

: n ∈ N0 < ∞.<br />

Insbesondere ist (|Xn| p )n∈N0 also gleichgradig integrierbar.<br />

Majorisierte Konvergenz liefert (wegen |Xn − X∞| p ≤ 2p sup{|Xn| p : n ∈ N0})<br />

E � |X∞| p� < ∞ und E � |Xn − X∞| p� n→∞<br />

−→ 0. ✷


11.2 Martingalkonvergenzsätze 215<br />

Für den Fall quadratintegrierbarer Martingale gibt es ein handliches Kriterium für<br />

die L 2 -Beschränktheit, das wir hier als Korollar festhalten (siehe Definition 10.3).<br />

Korollar 11.11. Sei X ein quadratintegrierbares Martingal X mit quadratischem<br />

Variationsprozess 〈X〉. Dann sind folgende vier Aussagen äquivalent:<br />

(i) supn∈N E[X2 n] < ∞,<br />

(ii) limn→∞ E[〈X〉n] < ∞,<br />

(iii) X konvergiert in L2 ,<br />

(iv) X konvergiert fast sicher und in L2 .<br />

Beweis. (i) ⇐⇒ (ii)“ Wegen Var[Xn − X0] =E[〈X〉n] (siehe Satz 10.4) ist<br />

”<br />

X genau dann in L2 beschränkt, wenn (ii) gilt.<br />

” (iv) =⇒ (iii) =⇒ (i)“ Dies ist trivial.<br />

” (i) =⇒ (iv)“ Dies ist die Aussage von Satz 11.10. ✷<br />

Bemerkung 11.12. Die Aussage von Satz 11.10 ist für p = 1 im Allgemeinen<br />

falsch. Siehe Übung 11.2.1. ✸<br />

Lemma 11.13. Sei X ein quadratintegrierbares Martingal mit quadratischem Variationsprozess<br />

〈X〉, und sei τ eine Stoppzeit. Dann hat der gestoppte Prozess X τ<br />

den quadratischen Variationsprozess 〈X τ 〉 = 〈X〉 τ := (〈X〉τ∧n)n∈N0 .<br />

Beweis. Übung! ✷<br />

Nehmen wir statt wie in Korollar 11.11 nicht die Beschränktheit der Erwartungswerte<br />

der quadratischen Variation an, sondern lediglich die fast sichere Beschränktheit,<br />

so erhalten wir immerhin noch fast sichere Konvergenz von X, im Allgemeinen<br />

nicht jedoch L 2 -Konvergenz.<br />

Satz 11.14. Sei X ein quadratintegrierbares Martingal mit sup n∈N〈X〉n < ∞ fast<br />

sicher. Dann konvergiert X fast sicher.<br />

Beweis. Ohne Einschränkung können wir annehmen, dass X0 =0ist, sonst betrachten<br />

wir das Martingal (Xn − X0)n∈N0 , das den selben quadratischen Variationsprozess<br />

hat. Betrachte für K>0<br />

τK := inf{n ∈ N : 〈X〉n+1 ≥ K}.<br />

Dies ist eine Stoppzeit, da 〈X〉 vorhersagbar ist. Offenbar ist supn∈N〈X〉τK∧n ≤ K<br />

fast sicher. Nach Korollar 11.11 konvergiert der gestoppte Prozess XτK fast sicher<br />

(und in L2 ) gegen eine Zufallsvariable, die wir XτK ∞ nennen wollen. Nach Voraussetzung<br />

gilt P[τK = ∞] → 1 für K →∞, also konvergiert X fast sicher. ✷


216 11 Martingalkonvergenzsätze und Anwendungen<br />

Beispiel 11.15. Sei X die symmetrische einfache Irrfahrt auf Z, das heißt Xn �<br />

=<br />

n<br />

k=1 Rk, wobei R1,R2,... u.i.v. sind mit P[R1 =1]=1− P[R1 = −1] = 1<br />

2 .<br />

Dann ist X ein Martingal, jedoch ist lim supn→∞ Xn = ∞ und lim infn→∞ Xn =<br />

−∞, also X nicht einmal uneigentlich konvergent. Dies geht nach dem Martingalkonvergenzsatz<br />

einher damit, dass X nicht gleichgradig integrierbar ist. ✸<br />

Beispiel 11.16 (Wählermodell). Wir betrachten ein einfaches Modell zum Verhalten<br />

von opportunistischen Wählern, die nur einer von zwei Meinungen (zu einem<br />

politischen Thema) fähig sind, sagen wir 0 und 1. Wir betrachten eine Menge<br />

Λ ⊂ Zd , die wir als die Menge der Orte auffassen, an denen je ein Individuum<br />

sitzt. Zur Einfachheit nehmen wir an, dass Λ = {0,...,L− 1} d für ein L ∈ N.Mit<br />

x ∈{0, 1} Λ bezeichnen wir einen generischen Zustand des gesamten Wahlvolkes,<br />

wobei x(i) ∈{0, 1} die Meinung des Individuums i ∈ Λ ist. Wir stellen uns nun<br />

vor, dass sich die Meinungen in diskreten Zeitschritten ändern. Zu jedem Zeitpunkt<br />

n vergisst ein zufällig gewähltes Individuum In seine Meinung und übernimmt stattdessen<br />

die Meinung eines zufällig gewählten Nachbarn In + Nn, wobei wir die<br />

Addition als komponentenweise modulo L verstehen (manchmal wird dies auch<br />

periodische Randbedingungen genannt, weil wir Λ als diskreten Torus auffassen).<br />

So erhalten wir eine zufällige Folge (Xn)n∈N0 von Zuständen in {0, 1}Λ , die die<br />

zufällige Entwicklung der Meinungen darstellt.<br />

Um noch einmal formal zu fassen, was wir gerade beschrieben haben: Wir betrachten<br />

unabhängige Zufallsvariablen (In)n∈N und (Nn)n∈N. Für jedes n ∈ N sei In<br />

uniform verteilt auf Λ und Nn uniform verteilt auf den 2d direkten Nachbarn des<br />

Ursprungs N := {i ∈ Zd : �i�2 =1}. Zudem ist x = X0 ∈{0, 1} Λ der ursprüngliche<br />

Zustand. Die weiteren Zustände definieren wir induktiv durch<br />

�<br />

Xn−1(i), falls In �= i,<br />

Xn(i) =<br />

Xn−1(In + Nn), falls In = i.<br />

Wir interessieren uns jetzt für das Langzeitverhalten von (Xn)n∈N0 .Wirdesauf<br />

lange Sicht einen Konsens unter allen Individuen geben, oder können zwei konkurrierende<br />

Meinungen koexistieren? Wir betrachten dazu die Gesamtzahl aller Individuen<br />

mit Meinung 1 zur Zeit n, nämlich Mn := �<br />

i∈Λ Xn(i). SeiFdie Filtration<br />

F =(Fn)n∈N0 , wobei Fn = σ(Ik, Nk : k ≤ n) ist für jedes n ∈ N0. DannistM<br />

an F adaptiert und<br />

�<br />

E[Mn<br />

�Fn−1] =Mn−1 − E[Xn−1(In) � �Fn−1]+E[Xn−1(In + Nn) � �Fn−1] = Mn−1 + �<br />

P[In = i] Xn−1(i) − �<br />

P[In + Nn = i] Xn−1(i)<br />

= Mn−1,<br />

i∈Λ<br />

weil P[In = i] = P[In + Nn = i] = L −d für jedes i ∈ Λ. AlsoistM ein<br />

beschränktes F-Martingal und damit fast sicher und in L 1 konvergent gegen eine<br />

Zufallsvariable M∞.DaM nur ganzzahlige Werte annimmt, gibt es ein (zufälliges)<br />

i∈Λ


11.2 Martingalkonvergenzsätze 217<br />

n0, sodass Mn = Mn0 für jedes n ≥ n0. Damit ist aber auch Xn = Xn0 für jedes<br />

n ≥ n0. Offenbar ist jedoch kein Zustand x mit x �≡ 0 und x �≡ 1 stabil, denn hier<br />

gilt, falls i und j in Λ benachbart sind und x(i) �= x(j),<br />

�<br />

P[Xn �= Xn−1<br />

�Xn−1 = x] ≥ P[In−1 = i, Nn−1 = j − i] =L −d (2d) −1 .<br />

Es muss also M∞ ∈{0,L d } gelten. Nun ist aber E[M∞] =M0, also gilt<br />

P � M∞ = L d � = M0<br />

Ld und P � M∞ =0 � =1− M0<br />

.<br />

Ld Etwas formaler sehen wir den Sachverhalt, dass nur die beiden extremen Zustände<br />

stabil sind, so ein: Wir betrachten den quadratischen Variationsprozess 〈M〉 von M.<br />

Dann ist<br />

n�<br />

n�<br />

〈M〉n = {Mk�=Mk−1} =<br />

Also ist<br />

k=1<br />

k=1<br />

L 2d ≥ Var[Mn] =E[〈M〉n]<br />

n�<br />

=<br />

k=1<br />

{Xk−1(Ik)�=Xk−1(Ik+Nk)}.<br />

P[Xk−1(Ik) �= Xk−1(Ik + Nk)]<br />

≥ (2d) −1 L −d<br />

n�<br />

k=1<br />

P[Mk−1 �∈ {0,L d }].<br />

Es folgt, dass � ∞<br />

k=1 P[Mk−1 �∈ {0,L d }] ≤ 2dL 3d < ∞, also ist nach dem Lemma<br />

von Borel-Cantelli M∞ ∈{0,L d }. ✸<br />

Beispiel 11.17 (Satz von Radon-Nikodym). Wir wollen mit Hilfe des Martingalkonvergenzsatzes<br />

einen alternativen Beweis des Satzes von Radon-Nikodym (Korollar<br />

7.34) angeben.<br />

Sei (Ω,F, P) ein W-Raum und Q ein weiteres W-Maß auf (Ω,A). Wir nehmen<br />

zudem an, dass F abzählbar erzeugt ist, dass es also (höchstens) abzählbar viele<br />

Mengen A1,A2,...∈Fgibt, sodass F = σ({A1,A2,...}). Dies ist beispielsweise<br />

dann richtig, wenn F die Borel’sche σ-Algebra auf einem polnischen Raum ist.<br />

Speziell können wir für den Fall Ω = Rd offene Kugeln mit rationalen Radien und<br />

rationalen Zentren nehmen.<br />

Wir bilden nun eine Filtration F =(Fn)n∈N, indem wir Fn := σ({A1,...,An})<br />

setzen. Offenbar ist #Fn < ∞ für jedes n ∈ N. Genauer gilt, dass es eine endliche<br />

(eindeutig bestimmte) Teilmenge Zn ⊂Fn \ {∅} gibt mit B = �<br />

C für jedes<br />

C∈Zn<br />

C⊂B<br />

B ∈Fn. Zn ist die Zerlegung von Fn in ” Atome“. Schließlich definieren wir einen<br />

stochastischen Prozess (Xn)n∈N durch


218 11 Martingalkonvergenzsätze und Anwendungen<br />

Xn :=<br />

�<br />

C∈Zn: P[C]>0<br />

Q(C)<br />

P[C] C.<br />

Offenbar ist X an F adaptiert. Sei B ∈Fnund m ≥ n. Für jedes C ∈ Zm gilt<br />

entweder C ∩ B = ∅ oder C ⊂ B.Alsoist<br />

E[Xm B] = � Q(C)<br />

P[C ∩B] =<br />

P[C] �<br />

Q(C) =Q(B). (11.1)<br />

C∈Zm: P[C]>0<br />

Insbesondere ist X also ein F-Martingal.<br />

C∈Zm: C⊂B<br />

Wir nehmen nun an, dass Q absolutstetig bezüglich P ist. Nach Beispiel 7.39 ist X<br />

dann gleichgradig integrierbar. Nach dem Martingalkonvergenzsatz konvergiert X<br />

fast sicher und in L1 gegen eine Zufallsvariable X∞. Nach (11.1) ist E[X∞ B] =<br />

Q(B) für jedes B ∈ �<br />

n∈N Fn, also auch für jedes B ∈F. Mithin ist X∞ die<br />

Radon-Nikodym-Dichte von Q bezüglich P.<br />

Man beachte, dass wir für diesen Beweis des Satzes von Radon-Nikodym nirgends<br />

die Existenz bedingter Erwartungen vorausgesetzt haben, also nicht in versteckter<br />

Weise auf den Satz selber zurückgegriffen haben.<br />

Man könnte einwenden, dass wir hier nur den Spezialfall von W-Maßen behandeln<br />

konnten. Dieser Mangel kann jedoch sehr leicht behoben werden: Sind μ und ν<br />

beliebige (jedoch von Null verschiedene) σ-endliche Maße, dann gibt es messbare<br />

Funktionen g, h : Ω → (0, ∞) mit � gdμ =1und � hdν =1. Wir setzen nun<br />

P = gμ und Q = hν. Offenbar gilt genau dann Q ≪ P, wennν≪μ. In diesem<br />

Fall ist g<br />

hX∞ eine Version der Radon-Nikodym-Ableitung dν<br />

dμ .<br />

Auf die Einschränkung, dass F abzählbar erzeugt werden kann, kann man ebenfalls<br />

verzichten. Mit Hilfe der Approximationssätze für Maße kann man zeigen, dass es<br />

stets eine abzählbar erzeugte σ-Algebra G⊂Fgibt, sodass für jedes A ∈Fein<br />

B ∈Gexistiert mit P[A △ B] =0. Hiermit lässt sich der allgemeine Fall beweisen.<br />

Wir führen dies hier nicht aus, sondern verweisen auf [157, Kapitel 14.13]. ✸<br />

Übung 11.2.1. Die Aussage von Satz 11.10 ist für p =1im Allgemeinen falsch.<br />

Man gebe ein Beispiel an für ein nichtnegatives Martingal X mit E[Xn] =1für<br />

n→∞<br />

jedes n ∈ N, aber Xn −→ 0 fast sicher. ♣<br />

Übung 11.2.2. Seien X1,X2,...unabhängige, quadratisch integrierbare Zufallsvariablen<br />

mit �∞ n=1 1<br />

n2 Var[Xn] < ∞. Man zeige mit Hilfe des Martingalkonvergenzsatzes<br />

das starke Gesetz der großen Zahl für (Xn)n∈N. ♣<br />

Übung 11.2.3. Man gebe ein Beispiel an für ein quadratisch integrierbares Martingal,<br />

das fast sicher konvergiert, aber nicht in L 2 . ♣<br />

Übung 11.2.4. Man zeige: In Satz 11.14 gilt im Allgemeinen nicht die Umkehrung.<br />

Das heißt, es gibt ein quadratintegrierbares Martingal X, das fast sicher konvergiert,<br />

für das aber nicht gilt, dass lim<br />

n→∞ 〈X〉n < ∞ fast sicher. ♣


11.3 Beispiel: Verzweigungsprozess 219<br />

Übung 11.2.5. Man zeige: In Satz 11.14 gilt die Umkehrung unter der zusätzlichen<br />

Annahme, dass es ein K>0 gibt mit |Xn − Xn−1| ≤K f.s. für jedes n ∈ N. ♣<br />

Übung 11.2.6. Sei (Fn)n∈N0 eine Filtration und (An)n∈N Ereignisse. Setze A∗ =<br />

lim supn→∞ An und A∞ = � �∞ n=1 P[An |Fn−1] =∞ � . Man zeige die bedingte<br />

Version des Borel-Cantelli Lemmas: P[A∞ △ A∗ ]=0.<br />

Hinweis: Wende Übung 11.2.5 an auf Xn = �∞ n=1 ( An − P[An |Fn−1]). ♣<br />

Übung 11.2.7. Sei p ∈ [0, 1] und X =(Xn)n∈N0 ein stochastischer Prozess mit<br />

Werten in [0, 1]. Für jedes n ∈ N0 gelte: Gegeben X0,...,Xn ist<br />

�<br />

1 − p + pXn mit Wahrscheinlichkeit Xn,<br />

Xn+1 =<br />

pXn mit Wahrscheinlichkeit 1 − Xn.<br />

Man zeige, dass X ein Martingal ist und fast sicher konvergiert. Man bestimme die<br />

Verteilung des fast sicheren Grenzwerts limn→∞ Xn. ♣<br />

Übung 11.2.8. Sei f ∈L1 (λ), wobei λ die Einschränkung des Lebesgue-Maßes auf<br />

[0, 1] bezeichnet. Sei In,k =[k2−n , (k +1)2−n ) für n ∈ N und k =0,...,2n − 1.<br />

Definiere fn :[0, 1] → R durch<br />

fn(x) =2 n<br />

�<br />

fdλ, falls k so gewählt ist, dass x ∈ Ik,n.<br />

Ik,n<br />

Zeige: Für λ-fast alle x ∈ [0, 1] gilt fn(x) n→∞<br />

−→ f(x). ♣<br />

Übung 11.2.9. Sei (Ω,A, P) ein Wahrscheinlichkeitsraum mit einer Filtration F =<br />

(Fn)n∈N. SeiF∞ := σ(Fn : n ∈ N), und sei M der Vektorraum der gleichgradig<br />

integrierbaren F-Martingale. Man zeige: die Abbildung Φ : L 1 (F∞) →M, X∞ ↦→<br />

(E[X∞ |Fn])n∈N ist ein Vektorraumisomorphismus. ♣<br />

11.3 Beispiel: Verzweigungsprozess<br />

Sei p =(pk)k∈N0 ein Wahrscheinlichkeitsvektor auf N0 und (Zn)n∈N0 der Galton-<br />

Watson-Prozess mit einem Urahn und Nachkommenverteilung p (siehe Definition<br />

3.9). Zur Erinnerung geben wir die Konstruktion von Z an. Seien (Xn,i)n∈N0,i∈N<br />

u.i.v. Zufallsvariablen P[X1,1 = k] =pk für k ∈ N0. Setze Z0 =1und induktiv<br />

Zn<br />

Zn+1 =<br />

i=1<br />

�<br />

Xn,i für n ∈ N0.<br />

Wir interpretieren Zn als Größe einer Population zur Zeit n und Xn,i als Anzahl der<br />

Nachkommen des i-ten Individuums aus der n-ten Generation.<br />

Seien m := E[X1,1] < ∞ die erwartete Kinderanzahl pro Individuum und σ 2 :=<br />

Var[X1,1] ∈ (0, ∞) die Varianz der Kinderzahl. Setze Fn := σ(Xk,i : k


220 11 Martingalkonvergenzsätze und Anwendungen<br />

Lemma 11.18. W ist ein Martingal. Speziell ist E[Z n ]=m n für jedes n ∈ N.<br />

Beweis. Wir berechnen die bedingte Erwartung für n ∈ N0:<br />

�<br />

E[Wn+1<br />

�Fn] =m −(n+1) �<br />

E[Zn+1<br />

�Fn] = m −(n+1) � �<br />

Zn � �<br />

E Xn,i<br />

�Fn<br />

= m −(n+1)<br />

= m −n<br />

i=1<br />

∞�<br />

E � � �<br />

{Zn=k}k · Xn,i<br />

�Fn<br />

k=1<br />

∞�<br />

E � � �<br />

k · �Fn<br />

{Zn=k}<br />

k=1<br />

= m −n Zn = Wn. ✷<br />

Satz 11.19. Sei Var[X1,1] ∈ (0, ∞). Es existiert der fast sichere Limes W∞ =<br />

lim<br />

n→∞ Wn, und es gilt<br />

m>1 ⇐⇒ E[W∞] =1 ⇐⇒ E[W∞] > 0.<br />

Beweis. W∞ existiert, weil W ≥ 0 ein Martingal ist. Ist m ≤ 1, so folgt, dass<br />

(Zn)n∈N f.s. gegen ein Z∞ konvergiert. Wegen σ2 > 0 kommt nur Z∞ =0in<br />

Frage.<br />

Sei nun m>1. Es gilt nach dem Satz von Blackwell-Girshick (Satz 5.10) wegen<br />

E[Zn−1] =mn−1 (Lemma 11.18)<br />

Var[Wn] =m −2n � σ 2 E[Zn−1]+m 2 Var[Zn−1] �<br />

= σ 2 m −(n+1) + Var[Wn−1].<br />

Induktiv folgt Var[Wn] =σ 2<br />

n+1 �<br />

m<br />

k=2<br />

−k ≤ σ2 m<br />

m − 1 < ∞. AlsoistWin L2 beschränkt,<br />

und Satz 11.10 liefert, dass Wn → W∞ in L2 und damit auch in L1 .<br />

Speziell ist E[W∞] =E[W0] =1. ✷<br />

Unter der Annahme der endlichen Varianz waren die Aussagen von Satz 11.19 nicht<br />

schwer zu zeigen. Es gilt aber eine viel stärkere Aussage, die wir hier nur zitieren<br />

(siehe [94], beziehungsweise [108] für einen modernen Beweis).<br />

Satz 11.20 (Kesten-Stigum (1966)). Sei m>1. Dann sind äquivalent<br />

(i) E[W∞] =1,<br />

(ii) E[W∞] > 0,<br />

(iii) E[X1,1 log(X1,1) + ] < ∞.


12 Rückwärtsmartingale und Austauschbarkeit<br />

Bei vielen Datenerhebungen, etwa Telefonumfragen, ist die Reihenfolge, in der die<br />

Daten kommen, unerheblich. Mathematisch sprechen wir von austauschbaren Zufallsvariablen,<br />

wenn sich die gemeinsame Verteilung unter endlichen Vertauschungen<br />

nicht ändert. Der Struktursatz für austauschbare Zufallsvariablen von de Finetti<br />

besagt, dass sich eine unendlich große austauschbare Familie von Zufallsvariablen<br />

mit Werten im Raum E als Zweistufenexperiment beschreiben lässt: In der ersten<br />

Stufe wird eine zufällige Wahrscheinlichkeitsverteilung Ξ auf E ausgewürfelt. In<br />

der zweiten Stufe werden die Zufallsvariablen u.i.v. mit Verteilung Ξ realisiert.<br />

Wir definieren zunächst den Begriff der Austauschbarkeit. Danach betrachten wir<br />

Rückwärtsmartingale und zeigen den Konvergenzsatz für Rückwärtsmartingale.<br />

Dieser ist der Eckstein für den Beweis des Satzes von de Finetti.<br />

12.1 Austauschbare Familien von Zufallsvariablen<br />

Definition 12.1. Sei I eine beliebige Indexmenge und E ein polnischer Raum. Eine<br />

Familie (Xi)i∈I von Zufallsvariablen mit Werten in E heißt austauschbar, falls für<br />

jede endliche Permutation ϱ : I → I gilt, dass<br />

L<br />

��Xϱ(i) �<br />

i∈I<br />

�<br />

= L � �<br />

(Xi) i∈I .<br />

Als endliche Permutation bezeichnen wir dabei eine Bijektion ϱ : I → I, die alle<br />

bis auf endlich viele Koordinaten unverändert lässt.<br />

Bemerkung 12.2. Offenbar sind äquivalent:<br />

(i) (Xi)i∈I ist austauschbar.<br />

(ii) Für n ∈ N und paarweise unterschiedliche i1,...,in ∈ I sowie paarweise<br />

unterschiedliche j1,...,jn ∈ I gilt L[(Xi1 ,...,Xin )] = L[(Xj1 ,...,Xjn )].<br />

Insbesondere sind austauschbare Zufallsvariablen stets identisch verteilt (dies ist (ii)<br />

mit n =1). ✸


222 12 Rückwärtsmartingale und Austauschbarkeit<br />

Beispiel 12.3. (i) Ist (Xi)i∈I u.i.v., so ist (Xi)i∈I austauschbar.<br />

(ii) In einer Urne seien N Kugeln, davon M schwarz. Wir ziehen sukzessive ohne<br />

Zurücklegen alle Kugeln und setzen<br />

�<br />

1, falls die n-te Kugel schwarz ist,<br />

Xn :=<br />

0, sonst.<br />

Dann ist (Xn)n=1,...,N austauschbar. Dies folgt aus elementarer Kombinatorik,<br />

denn für jede Wahl von x1,...,xN ∈{0, 1} mit x1 + ...+ xN = M ist offenbar<br />

P � � 1<br />

X1 = x1,...,XN = xN = �.<br />

Diese Formel können wir aber auch formal durch eine kleine Rechnung mit bedingten<br />

Wahrscheinlichkeiten herleiten, die wir in ähnlicher Form für das Pólya’sche<br />

Urnenmodell in Beispiel 12.29 noch einmal durchführen werden. Setze dazu sk =<br />

x1 + ...+ xk für k =0,...,N und<br />

�<br />

M − sk, falls x =1,<br />

gk(x) =<br />

N − M + sk − k, falls x =0.<br />

Dann ist P[X1 = x1] =g0(x1)/N und<br />

P[Xk+1 = xk+1 |X1 = x1,...,Xk = xk] = gk(xk+1)<br />

N − k<br />

� N<br />

M<br />

für k =1,...,N − 1.<br />

Ferner ist offenbar gk(0) = N − M − l, wobei l =#{i


12.1 Austauschbare Familien von Zufallsvariablen 223<br />

Sei X =(Xn)n∈N ein stochastischer Prozess mit Werten in einem polnischen Raum<br />

E.SeiS(n) die Menge der Permutationen ϱ : {1,...,n}→{1,...,n}. Wir fassen<br />

ϱ ebenfalls als Abbildung N → N auf durch ϱ(k) =k für k>n.Für ϱ ∈ S(n)<br />

und x =(x1,...,xn) ∈ E n schreiben wir x ϱ =(x ϱ(1),...,x ϱ(n)). Für x ∈ E N<br />

schreiben wir analog x ϱ =(x ϱ(1),x ϱ(2),...) ∈ E N .IstE ′ ein weiterer polnischer<br />

Raum, so definieren wir für messbare Abbildungen f : E n → E ′ und F : E N → E ′<br />

die Abbildungen f ϱ und F ϱ durch f ϱ (x) =f(x ϱ ) und F ϱ (x) =F (x ϱ ). Ferner<br />

schreiben wir f(x) =f(x1,...,xn) auch, falls x ∈ E N .<br />

Definition 12.4. (i) Eine Abbildung f : En → E ′ heißt symmetrisch, falls f ϱ =<br />

f ist für jedes ϱ ∈ S(n).<br />

(ii) Eine Abbildung F : EN → E ′ heißt n-symmetrisch, falls F ϱ = F für jedes<br />

ϱ ∈ S(n). F heißt symmetrisch, falls Fn-symmetrisch ist für jedes n ∈ N.<br />

Beispiel 12.5. (i) Für x ∈ RN definieren wir das n-te arithmetische Mittel durch<br />

an(x) = 1 �n n i=1 xi. Offenbar ist an eine n-symmetrische Abbildung (aber nicht<br />

m-symmetrisch für ein m>n). Weiter definiert ā(x) := lim sup an(x) eine sym-<br />

n→∞<br />

metrische Abbildung RN → R ∪{−∞, +∞}.<br />

(ii) Die Abbildung s : RN → [0, ∞], x ↦→ �∞ i=1 |xi| ist symmetrisch. Anders als<br />

ā hängt der Wert von s von jeder einzelnen Koordinate ab, falls er endlich ist.<br />

(iii) Für x ∈ EN �<br />

definieren wir die n-te empirische Verteilung durch ξn(x) =<br />

1 n<br />

n i=1 δxi . Offenbar ist ξn eine n-symmetrische Abbildung.<br />

(iv) Sei k ∈ N und ϕ : Ek → R eine Abbildung. Das n-te symmetrisierte Mittel<br />

An(ϕ) :E N → R, x ↦→ 1<br />

n!<br />

�<br />

ϕ(x ϱ ) (12.1)<br />

ϱ∈S(n)<br />

ist eine n-symmetrische Abbildung. ✸<br />

Definition 12.6. Sei X =(Xn)n∈N ein stochastischer Prozess mit Werten in E.Für<br />

n ∈ N sei En := σ(F ◦ X : F : E N → R ist messbar und n-symmetrisch) die<br />

σ-Algebra der unter allen Permutation ϱ ∈ S(n) invarianten Ereignisse. Ferner sei<br />

E :=<br />

∞�<br />

En = σ � F ◦ X : F : E N → R ist messbar und symmetrisch �<br />

n=1<br />

die σ-Algebra der austauschbaren Ereignisse für X, oder kurz die austauschbare<br />

σ-Algebra.<br />

Bemerkung 12.7. Ist A ∈ σ(Xn, n∈ N) ein Ereignis, so gibt es ein messbares<br />

B ⊂ E N mit A = {X ∈ B}. Schreiben wir A ϱ = {X ϱ ∈ B} für ϱ ∈ S(n), soist<br />

En = {A : A ϱ = A für alle ϱ ∈ S(n)}. Dies rechtfertigt den Namen ” austauschbares<br />

Ereignis“. ✸


224 12 Rückwärtsmartingale und Austauschbarkeit<br />

Bemerkung 12.8. Schreiben wir Ξn(ω) :=ξn(X(ω)) = 1 �n n i=1 δXi(ω) für die<br />

n-te empirische Verteilung, so ist nach Übung 12.1.1 En = σ(Ξn). ✸<br />

Bemerkung 12.9. Bezeichnen wir mit T = �<br />

n∈N σ(Xn+1,Xn+2,...) die terminale<br />

σ-Algebra, so ist T ⊂ E, wobei im Falle #E ≥ 2 strikte Inklusion gilt.<br />

In der Tat: Offenbar ist σ(Xn+1,Xn+2,...) ⊂En für n ∈ N, alsoT ⊂ E. Sei nun<br />

#E ≥ 2.Wähle ein messbares B ⊂ E mit B �= ∅ und B c �= ∅. Die Zufallsvariable<br />

S := � ∞<br />

n=1 B(Xn) ist messbar bezüglich E, nicht aber bezüglich T . ✸<br />

Satz 12.10. Sei X = (Xn)n∈N austauschbar. Ist ϕ : E k → R messbar und<br />

E[|ϕ(X)|] < ∞, dann gilt für jedes n ≥ k und jedes ϱ ∈ S(n)<br />

Speziell ist<br />

E[ϕ(X)|En] =E[ϕ(X ϱ )|En]. (12.2)<br />

E[ϕ(X) � � En] =An(ϕ) := 1<br />

n!<br />

�<br />

ϱ∈S(n)<br />

ϕ(X ϱ ). (12.3)<br />

Beweis. Sei A ∈En und F = X(A). DannistF ◦ X = A. Nach der Definition<br />

von En ist also F : E N → R messbar, n-symmetrisch und beschränkt. Daher ist<br />

E � ϕ(X)F (X) � = E � ϕ(X ϱ )F (X ϱ ) � = E � ϕ(X ϱ )F (X) � ,<br />

wobei wir in der ersten Gleichung die Austauschbarkeit von X benutzt haben, in der<br />

zweiten hingegen die Symmetrie von F . Hieraus folgt (12.2). Nun ist aber An(ϕ)<br />

schon En-messbar, also ist<br />

⎡<br />

⎤<br />

E � ϕ(X) � �<br />

�En = E ⎣ 1<br />

n!<br />

�<br />

ϱ∈S(n)<br />

ϕ(X ϱ �<br />

�<br />

) �<br />

� En<br />

Heuristik zur Struktur austauschbarer Familien<br />

⎦ = 1<br />

n!<br />

�<br />

ϱ∈S(n)<br />

ϕ(X ϱ ). ✷<br />

Wir betrachten eine endliche, austauschbare Familie X1,...,XN von E-wertigen<br />

Zufallsvariablen. Wie sieht für n ≤ N die bedingte Verteilung von (X1,...,Xn)<br />

gegeben ΞN aus? Für jedes messbare A ⊂ E kommt {Xi ∈ A} für genau NΞN(A)<br />

viele i ∈{1,...,N} vor, wobei die Reihenfolge des Auftretens keinen Einfluss auf<br />

die Wahrscheinlichkeit hat. Wir sind also in der Situation des Ziehens von gefärbten<br />

Kugeln ohne Zurücklegen. Genauer gesagt können wir annehmen, dass die paarweise<br />

unterschiedlichen e1,...,ek ∈ E die Atome von ΞN mit Häufigkeiten<br />

N1,...,Nk sind, dass also ΞN = �k i=1 =(Ni/N )δei gilt. Wir haben es also mit<br />

Kugeln in k Farben zu tun, wobei von der i-ten Farbe genau Ni Kugeln vorhanden<br />

sind. Wir ziehen n dieser Kugeln ohne Zurücklegen, aber mit Beachtung der Reihenfolge.<br />

Bis auf die Beachtung der Reihenfolge ist die resultierende Verteilung also


12.1 Austauschbare Familien von Zufallsvariablen 225<br />

die allgemeine hypergeometrische Verteilung (siehe etwa [58, Abschnitt 2.3.2]). Es<br />

gilt also für paarweise disjunkte, messbare Mengen A1,...,Ak mit �k l=1 Al = E,<br />

für i1,...,in ∈{1,...,k}, paarweise unterschiedliche j1,...,jn ∈{1,...,N}<br />

und mit der Festlegung ml := #{r ∈{1,...,n} : ir = l} für l ∈{1,...,k}<br />

P � Xjr ∈ Air für jedes r =1,...,n� �<br />

k� 1 �<br />

�ΞN = NΞN(Al)<br />

(N)n l=1<br />

�ml , (12.4)<br />

wobei wir (n)l := n(n − 1) ···(n − l +1)definieren.<br />

Was passiert nun, wenn wir N →∞gehen lassen? Wir nehmen hier der Einfachheit<br />

halber an, dass der Limes Ξ∞(Al) = limN→∞ ΞN(Al) für jedes l =1,...,k in<br />

einem geeigneten Sinne existiert. Dann wird aus (12.4) formal<br />

P � Xjr ∈ Air für jedes r =1,...,n� �<br />

n�<br />

�Ξ∞ = Ξ∞(Al) ml . (12.5)<br />

Aus dem Ziehen der Kugeln ohne Zurücklegen wird nun also asymptotisch für<br />

große Kugelanzahl das Ziehen mit Zurücklegen. Damit sind die Zufallsvariablen<br />

X1,X2,...unabhängig mit Verteilung Ξ∞ gegeben Ξ∞.<br />

Einen formalen Beweis, der entlang der von dieser Heuristik vorgezeichneten Linie<br />

verläuft, bringen wir in Kapitel 13.4.<br />

Um diese Aussage, den so genannten Satz von de Finetti, in Abschnitt 12.3 rigoros<br />

zu formulieren und zu beweisen, brauchen wir noch etwas Begriffsbildung (etwa<br />

bedingte Unabhängigkeit). Als technisches Hilfsmittel verwenden wir in diesem<br />

Kapitel den Konvergenzsatz für Rückwärtsmartingale, den wir in Abschnitt 12.2<br />

formulieren.<br />

Übung 12.1.1. Sei n ∈ N. Man zeige, dass sich jede symmetrische Funktion f :<br />

En → R schreiben lässt als f(x) =g � � 1 n<br />

n i=1 δxi<br />

�<br />

, wobei g (abhängig von f)<br />

geeignet zu wählen ist. ♣<br />

Übung 12.1.2. Man leite (12.4) formal her. ♣<br />

Übung 12.1.3. Seien X1,...,Xn austauschbare quadratintegrierbare Zufallsvariablen.<br />

Man zeige<br />

Cov[X1,X2] ≥− 1<br />

n − 1 Var[X1]. (12.6)<br />

Man gebe für n ≥ 2 ein (nichttriviales) Beispiel für Gleichheit in (12.6) an. ♣<br />

Übung 12.1.4. Seien X1,X2,X3 ...austauschbare, quadratintegrierbare Zufallsvariablen.<br />

Man zeige, dass Cov[X1,X2] ≥ 0 gilt. ♣<br />

Übung 12.1.5. Man zeige: Für jedes n ∈ N\{1} gibt es eine austauschbare Familie<br />

von Zufallsvariablen X1,...,Xn, die nicht zu einer unendlichen, austauschbaren<br />

Familie X1,X2,... fortgesetzt werden kann. ♣<br />

l=1


226 12 Rückwärtsmartingale und Austauschbarkeit<br />

12.2 Rückwärtsmartingale<br />

Die Begriffe der Filtration und des Martingals haben nirgends vorausgesetzt, dass<br />

die Zeitmenge I ⊂ [0, ∞) wäre. Wir wollen jetzt den Fall I = −N0 betrachten.<br />

Definition 12.11 (Rückwärtsmartingal). Sei F =(Fn)n∈−N0 eine Filtration und<br />

X = (Xn)n∈−N0 ein F-Martingal. Dann nennen wir X = (X−n)n∈N0ein Rückwärtsmartingal.<br />

Bemerkung 12.12. Ein Rückwärtsmartingal ist stets gleichgradig � integrierbar. Dies<br />

folgt aus Korollar 8.21 und der Tatsache, dass X−n = E[X0<br />

�F−n] für jedes n ∈<br />

N0. ✸<br />

Beispiel 12.13. Seien X1,X2,...austauschbare, reelle Zufallsvariablen. Für n ∈ N<br />

setze F−n = En und<br />

Y−n = 1<br />

n�<br />

Xi.<br />

n<br />

i=1<br />

Die folgende Rechnung zeigt, dass (Y−n)n∈N ein F-Rückwärtsmartingal ist: Adaptiertheit<br />

ist klar. Außerdem ist nach Satz 12.10 (mit k = n und ϕ(X1,...,Xn) =<br />

1<br />

n−1 (X1 + ...+ Xn−1))<br />

E � � �<br />

Y−n+1<br />

�<br />

1<br />

F−n =<br />

n!<br />

�<br />

ϱ∈S(n)<br />

1 � �<br />

Xϱ(1) + ...+ Xϱ(n−1) = Y−n.<br />

n − 1<br />

Betrachten wir statt F die kleinere Filtration G =(Gn)n∈−N, diefür n ∈ N durch<br />

G−n = σ(Y−n,Xn+1,Xn+2,...) = σ(Y−n,Y−n−1,Y−n−2,...) definiert wird,<br />

also die von Y erzeugte Filtration, so ist Y natürlich auch bezüglich G ein Rückwärtsmartingal<br />

(siehe Bemerkung 9.29). ✸<br />

Seien a


1<br />

n<br />

n�<br />

i=1<br />

Xi<br />

In der Tat: Setzen wir Y−n := 1<br />

n<br />

�<br />

−→ E[X1 �E] f.s. und in L1 .<br />

n→∞<br />

12.2 Rückwärtsmartingale 227<br />

n�<br />

Xi, so ist (nach Beispiel 12.13) (Y−n)n∈N ein<br />

i=1<br />

Rückwärtsmartingal bezüglich (Fn)n∈−N =(E−n)n∈−N, und daher gilt<br />

Y−n<br />

�<br />

−→ Y−∞ = E[X1<br />

� 1 E] f.s. und in L .<br />

n→∞<br />

Nun ist nach Beispiel 2.36(ii) Y−∞ schon T -messbar, also � (wegen T ⊂ E und der<br />

Turmeigenschaft der bedingten Erwartung) Y−∞ = E[X1<br />

�T ]. ✸<br />

Beispiel 12.16 (Starkes Gesetz der großen Zahl). Sind Z1,Z2,...reell und u.i.v.<br />

mit E[|Z1|] < ∞, dann gilt<br />

1<br />

n<br />

n�<br />

Zi<br />

i=1<br />

n→∞<br />

−→ E[Z1] fast sicher.<br />

Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist die terminale σ-Algebra T<br />

nämlich trivial, also gilt<br />

�<br />

E[Z1<br />

�T ]=E[Z1] fast sicher.<br />

In Korollar 12.19 werden wir sehen, dass � im Falle unabhängiger Zufallsvariablen<br />

auch E schon P-trivial ist, woraus E[Z1<br />

�E]=E[Z1] folgt. ✸<br />

Wir schließen diesen Abschnitt, indem wir Beispiel 12.15 auf Mittelwerte von Funktionen<br />

von k ∈ N Variablen verallgemeinern. Diese Schlussfolgerung aus dem Konvergenzsatz<br />

für Rückwärtsmartingale wird im folgenden Abschnitt in essenzieller<br />

Weise benötigt.<br />

Satz 12.17. Sei X =(Xn)n∈N eine austauschbare Familie von Zufallsvariablen mit<br />

Werten in E, seik∈ N und ϕ : Ek → R messbar mit E[|ϕ(X1,...,Xk)|] < ∞.<br />

Wir schreiben ϕ(X) =ϕ(X1,...,Xk) und setzen An(ϕ) := 1 �<br />

n! ϱ∈S(n) ϕ(Xϱ ).<br />

Dann gilt<br />

E[ϕ(X) � � E]=E[ϕ(X) � �T ] = lim<br />

n→∞ An(ϕ) f.s. und in L 1 . (12.7)<br />

Beweis. Nach Satz 12.10 ist An(ϕ) =E[ϕ(X) � �En]. Alsoist(A−n(ϕ)) n≥k ein<br />

Rückwärtsmartingal bezüglich (E−n)<br />

n∈−N . Nach Satz 12.14 ist also<br />

An(ϕ) n→∞<br />

−→ E � ϕ(X) � �<br />

�E f.s. und in L1 . (12.8)<br />

Wir können wie für das arithmetische Mittel (Beispiel 12.16) argumentieren, dass<br />

limn→∞ An(ϕ) schon T -messbar ist. In der Tat ist


228 12 Rückwärtsmartingale und Austauschbarkeit<br />

#<br />

lim sup<br />

n→∞<br />

� ϱ ∈ S(n) : ϱ−1 (i) ≤ l für ein i ∈{1,...,k} �<br />

=0<br />

n!<br />

für jedes l ∈ N.<br />

Der Wert von An(ϕ) hängt für große n also in zu vernachlässigender Weise von den<br />

ersten l Koordinaten ab. Zusammen mit (12.8) folgt (12.7). ✷<br />

Korollar 12.18. Sei X =(Xn)n∈N austauschbar. Dann gibt es für jedes A ∈Eein<br />

B ∈T mit P[A △ B] =0.<br />

Man beachte, dass T ⊂ E ist, dass also die Aussage trivialerweise gilt, wenn wir<br />

die Rollen von E und T vertauschen.<br />

Beweis. Wegen E ⊂ σ(X1,X2,...) existiert nach dem Approximationssatz für<br />

Maße eine Folge von messbaren Mengen (Ak)k∈N mit Ak ∈ σ(X1,...,Xk) und<br />

P[A △ Ak] k→∞<br />

−→ 0. SeiCk∈ Ek messbar mit Ak = {(X1,...,Xk) ∈ Ck} für<br />

jedes k ∈ N. Mitϕk := Ck folgt aus Satz 12.17<br />

�<br />

A = E[ A |E]=E lim<br />

k→∞ ϕk(X)<br />

� �<br />

�<br />

�E = lim<br />

k→∞ E[ϕk(X)|E]<br />

= lim<br />

k→∞ E[ϕk(X)|T ]=:ψ fast sicher.<br />

Es gibt also eine T -messbare Funktion ψ mit ψ = A fast sicher. Wir können nun<br />

annehmen, dass ψ = B für ein B ∈T. ✷<br />

Als weitere Anwendung erhalten wir das 0-1 Gesetz von Hewitt und Savage [71].<br />

Korollar 12.19 (0-1 Gesetz von Hewitt-Savage). Seien X1,X2,... u.i.v. Zufallsvariablen.<br />

Dann ist die austauschbare σ-Algebra P-trivial, also P[A] ∈{0, 1} für<br />

jedes A ∈E.<br />

Beweis. Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist T trivial. Die Aussage<br />

folgt also ohne weiteres aus Korollar 12.18. ✷<br />

12.3 Satz von de Finetti<br />

Wir zeigen in diesem Abschnitt den Struktursatz für (abzählbar) unendliche, austauschbare<br />

Familien, den wir heuristisch schon am Ende von Abschnitt 12.1 motiviert<br />

hatten. Es soll also gezeigt werden, dass eine unendliche, austauschbare Familie<br />

von Zufallsvariablen eine unabhängige, identisch verteilte Familie ist gegeben<br />

die austauschbare σ-Algebra E. Ferner berechnen wir die bedingte Verteilung der<br />

einzelnen Zufallsvariablen. Als ersten Schritt geben wir eine Definition der bedingten<br />

Unabhängigkeit an.


12.3 Satz von de Finetti 229<br />

Definition 12.20 (Bedingte Unabhängigkeit). Seien (Ω,F, P) ein W-Raum, A⊂<br />

F eine Teil-σ-Algebra sowie (Ai)i∈I eine beliebige Familie von Teil-σ-Algebren<br />

von F. Die Familie (Ai)i∈I heißt unabhängig gegeben A, falls für jedes endliche<br />

J ⊂ I und jede Wahl von Aj ∈Aj für j ∈ J gilt<br />

� �<br />

P<br />

j∈J<br />

� �<br />

Aj �A<br />

= �<br />

j∈J<br />

P � �<br />

Aj �A �<br />

fast sicher. (12.9)<br />

Eine Familie (Xi)i∈I von Zufallsvariablen auf (Ω,F, P) heißt unabhängig (und<br />

identisch verteilt) gegeben A, falls die erzeugten σ-Algebren (σ(Xi))i∈I unabhängig<br />

gegeben A sind (und die bedingten Verteilungen P[Xi ∈ · |A] alle gleich sind).<br />

Beispiel 12.21. Jede beliebige Familie (Ai)i∈I von σ-Algebren von F ist unabhängig<br />

gegeben F. In der Tat ist in diesem Fall nämlich (mit A = �<br />

j∈J Aj)<br />

P[A|F] = A = �<br />

j∈J<br />

Aj<br />

= �<br />

j∈J<br />

P � �<br />

Aj �F �<br />

fast sicher. ✸<br />

Beispiel 12.22. Ist (Ai)i∈I eine unabhängige Familie von σ-Algebren, und ist A<br />

trivial, dann ist (Ai)i∈I unabhängig gegeben A. ✸<br />

Beispiel 12.23. Es gibt keine ” Monotonie“ bei der bedingten Unabhängigkeit in folgendem<br />

Sinne: Sind F1, F2 und F3 σ-Algebren mit F1 ⊂F2 ⊂F3, und ist (Ai)i∈I<br />

unabhängig sowohl gegeben F1 wie auch gegeben F3, so folgt noch nicht die Unabhängigkeit<br />

gegeben F2.<br />

Um dies zu illustrieren, nehmen wir an, dass X und Y nichttriviale, unabhängige,<br />

reelle Zufallsvariablen sind. Wir wählen F1 = {∅,Ω}, F2 = σ(X + Y ) und F3 =<br />

σ(X, Y ). Dann sind σ(X) und σ(Y ) unabhängig gegeben F1 und gegeben F3, nicht<br />

jedoch gegeben F2. ✸<br />

Sei X =(Xn)n∈N ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum<br />

(Ω,F, P) mit Werten in einem polnischen Raum E. SeiE die austauschbare σ-<br />

Algebra und T die terminale σ-Algebra.<br />

Satz 12.24 (de Finetti). Die Familie X =(Xn)n∈N ist genau dann austauschbar,<br />

wenn es eine σ-Algebra A⊂Fgibt, sodass (Xn)n∈N u.i.v. gegeben A ist. In<br />

diesem Fall kann A = E oder A = T gewählt werden.<br />

Beweis. ” =⇒ “ Sei X austauschbar, und sei A = E oder A = T .Für jedes<br />

n ∈ N sei fn : E → R eine messbare und beschränkte Abbildung. Setze<br />

ϕk(x1,...,xk) =<br />

k�<br />

fi(xi) für jedes k ∈ N.<br />

i=1


230 12 Rückwärtsmartingale und Austauschbarkeit<br />

Dann ist (wobei An(ϕ) das symmetrisierte Mittel aus Satz 12.17 ist)<br />

wobei<br />

�<br />

An(ϕk−1)An(fk) = 1<br />

n!<br />

� Rn,k<br />

= 1<br />

n!<br />

�<br />

ϱ∈S(n)<br />

�<br />

ϱ∈S(n)<br />

� � �<br />

� ≤ 2 �ϕk−1�<br />

·<br />

∞ � �<br />

�fk � ·<br />

∞ 1 1<br />

n! n<br />

=2 � �<br />

�ϕk−1 � ·<br />

∞ � �<br />

�fk � ·<br />

∞<br />

Es folgt zusammen mit Satz 12.17<br />

ϕk−1(X ϱ ) 1<br />

n<br />

n�<br />

fk(Xi)<br />

i=1<br />

ϕk(X ϱ )+Rn,k = An(ϕk)+Rn,k,<br />

k − 1<br />

n<br />

�<br />

n�<br />

ϱ∈S(n) i=1<br />

n→∞<br />

−→ 0.<br />

{i∈{ϱ(1),...,ϱ(k−1)}}<br />

An(ϕk−1) An(fk) n→∞<br />

−→ E � ϕk(X1,...,Xk) � � A � f.s. und in L 1 .<br />

Andererseits gilt nach Satz 12.17<br />

und<br />

also<br />

An(ϕk−1) n→∞<br />

−→ E � ϕk−1 (X1,...,Xk−1) � � A �<br />

An(fk) n→∞<br />

−→ E � fk(X1) � �A � ,<br />

E � ϕk(X1,...,Xk) � � A � = E � ϕk−1(X1,...,Xk−1) � � A � E � fk(X1) � � A �<br />

und induktiv<br />

�<br />

k� �<br />

�<br />

E fi(Xi) �<br />

�A �<br />

=<br />

i=1<br />

Mithin ist X u.i.v. gegeben A.<br />

k�<br />

E � fi(X1) � �A � .<br />

” ⇐= “ Sei nun X u.i.v. gegeben A für eine geeignete σ-Algebra A⊂F.Für<br />

jede beschränkte, messbare Funktion ϕ : En → R und für jedes ϱ ∈ S(n) ist dann<br />

E[ϕ(X) � �<br />

� ϱ A]=E[ϕ(X ) �A], also<br />

E[ϕ(X)] = E � E[ϕ(X) � �A] � = E � E[ϕ(X ϱ ) � �A] � = E[ϕ(X ϱ )].<br />

Mithin ist X austauschbar. ✷<br />

Mit M1(E) bezeichnen wir die Menge der W-Maße auf E, ausgestattet mit der Topologie<br />

der schwachen Konvergenz (siehe Definition 13.12 und Bemerkung 13.14),<br />

i=1


12.3 Satz von de Finetti 231<br />

das heißt: Eine Folge (μn)n∈N in M1(E) konvergiert genau dann schwach gegen<br />

ein μ ∈ M1(E), wenn � n→∞<br />

fdμn −→ � fdμfür jede stetige und beschränkte<br />

Funktion f : E → R. Wir werden die schwache Konvergenz in Kapitel 13 genauer<br />

untersuchen. An dieser Stelle wollen wir die Topologie lediglich verwenden,<br />

um M1(E) zu einem Messraum zu machen, nämlich mit der Borel’schen<br />

σ-Algebra B(M1(E)). Wirkönnen jetzt Zufallsvariablen mit Werten in M1(E)<br />

betrachten, so genannte zufällige Maße (vergleiche Kapitel 24.1). Für x ∈ EN sei<br />

ξn(x) = 1 �n δxi n i=1 ∈M1(E).<br />

Definition 12.25. Das zufällige Maß Ξn := ξn(X) := 1<br />

n<br />

Verteilung von X1,...,Xn.<br />

Wir betrachten die selben Voraussetzung wie in Satz 12.24.<br />

n�<br />

i=1<br />

δXi<br />

heißt empirische<br />

Satz 12.26 (de Finetti Darstellungssatz). Die Familie X =(Xn)n∈N ist genau<br />

dann austauschbar, wenn es eine σ-Algebra A⊂Fgibt und eine A-messbare Zufallsvariable<br />

Ξ∞ : Ω →M1(E) mit der Eigenschaft: gegeben Ξ∞ ist (Xn)n∈N<br />

u.i.v. mit L[X1 |Ξ∞] =Ξ∞. In diesem Fall kann A = E oder A = T gewählt<br />

werden.<br />

Beweis. ” ⇐= “ Dies ist klar wie im Beweis von Satz 12.24.<br />

” =⇒ “ Sei X austauschbar. Dann existiert nach Satz 12.24 eine σ-Algebra A⊂<br />

F, sodass (Xn)n∈N u.i.v. gegeben A ist. Da E polnisch ist, existiert � eine reguläre<br />

Version der bedingten Verteilung (siehe Satz 8.36) Ξ∞ := L[X1 �A].Für messbare<br />

A1,...,An ⊂ E ist P[Xi ∈ Ai |A]=Ξ∞(Ai) für jedes i =1,...,n, also<br />

� n �<br />

� �<br />

P {Xi ∈ Ai} �<br />

�Ξ∞ � � � n �<br />

� �<br />

= E P {Xi ∈ Ai} �<br />

�A �� �<br />

���<br />

Ξ∞<br />

i=1<br />

i=1<br />

i=1<br />

�<br />

�n<br />

�<br />

�<br />

= E Ξ∞(Ai) �<br />

� Ξ∞<br />

�<br />

=<br />

n�<br />

Ξ∞(Ai).<br />

Mithin ist L[X |Ξ∞] =Ξ ⊗N<br />

∞ . ✷<br />

Bemerkung 12.27. In dem beschriebenen Fall ist nach dem starken Gesetz der<br />

großen Zahl für jede stetige und beschränkte Funktion f : E → R<br />

�<br />

�<br />

fdΞn<br />

n→∞<br />

−→ fdΞ∞ fast sicher.<br />

Ist E zudem lokalkompakt (zum Beispiel E = R d ), so kann man sogar zeigen, dass<br />

Ξn<br />

i=1<br />

n→∞<br />

−→ Ξ∞ fast sicher. ✸


232 12 Rückwärtsmartingale und Austauschbarkeit<br />

Beispiel 12.28. Seien (Xn)n∈N austauschbar und Xn ∈{0, 1}. Dann existiert eine<br />

Zufallsvariable Y : Ω → [0, 1], sodass für endliches J ⊂ N<br />

P � Xj =1 für jedes j ∈ J � � Y � = Y #J .<br />

Mit anderen Worten: Gegeben Y ist (Xn)n∈N unabhängig und BerY -verteilt. Vergleiche<br />

Beispiel 12.3(iii). ✸<br />

Beispiel 12.29. (Pólya’sches Urnenmodell) (Siehe Beispiel 14.38 und [127].) In<br />

einer Urne seien anfangs N Kugeln, davon M schwarz und N − M weiß. In jedem<br />

Schritt wird eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben<br />

Farbe wieder zurückgelegt. Sei<br />

�<br />

1, falls die n-te Kugel schwarz ist,<br />

Xn :=<br />

0, sonst,<br />

und Sn = �n i=1 Xi. Dannist<br />

P � Xn =1 � � Sn−1 �<br />

+ M<br />

X1,X2,...,Xn−1 =<br />

N + n − 1 .<br />

Sukzessive erhält man für x1,...,xn ∈{0, 1} und sk = �k i=1 xi<br />

P � Xi = xi für jedes i =1,...,n �<br />

= �<br />

�<br />

= (N − 1)!<br />

i≤n: xi=1<br />

M + si−1<br />

N + i − 1<br />

i≤n: xi=0<br />

(N − 1+n)! · (M + sn − 1)!<br />

(M − 1)!<br />

N + i − 1 − M − si−1<br />

N + i − 1<br />

�<br />

N − M − 1+(n− sn) � !<br />

.<br />

(N − M − 1)!<br />

Die rechte Seite hängt nur von sn und nicht von der Reihenfolge der x1,...,xn ab.<br />

1<br />

Also ist (Xn)n∈N austauschbar. Sei Z = lim<br />

n→∞ nSn.Dannist(Xn)n∈Nunabhängig und identisch BerZ-verteilt gegeben Z. Also ist (siehe Beispiel 12.28)<br />

E [Z n ]=E � P � X1 = ···= Xn =1 � ��<br />

�Z = P [Sn = n]<br />

= (N − 1)!<br />

(M − 1)!<br />

(M + n − 1)!<br />

(N + n − 1)!<br />

für jedes n ∈ N.<br />

Nach Übung 5.1.2 sind dies sind aber gerade die Momente der Beta-Verteilung<br />

βM,N−M auf [0, 1] mit Parametern (M,N − M) (siehe Beispiel 1.107(ii)). Durch<br />

Angabe der Momente ist eine Verteilung auf [0, 1] eindeutig bestimmt (Satz 15.4).<br />

Also gilt Z ∼ βM,N−M . ✸


13 Konvergenz von Maßen<br />

In der <strong>Wahrscheinlichkeitstheorie</strong> interessiert man sich für Verteilungen, die durch<br />

das Zusammenwirken vieler zufälliger Einflüsse zustandekommen. Oftmals lässt<br />

sich eine brauchbare Idealisierung erreichen, indem man Grenzwerte solcher Verteilungen<br />

anschaut, zum Beispiel, wenn die Anzahl der Einflüsse nach Unendlich geht.<br />

Ein Beispiel ist die Konvergenz der Anzahl eingetretener Ereignisse bei vielen seltenen<br />

Ereignissen gegen die Poisson-Verteilung (siehe Satz 3.7). Vielfach sind aber<br />

auch Skalierungen der ursprünglichen Verteilung notwendig, um das wesentliche<br />

Fluktuationsverhalten zu erfassen, etwa im Zentralen Grenzwertsatz. Während diese<br />

Sätze mit reellen Zufallsvariablen auskommen, werden wir auch Grenzwertsätze<br />

kennen lernen, bei denen die Zufallsvariablen Werte in allgemeineren Räumen annehmen,<br />

beispielsweise im Raum aller stetigen Funktionen, wenn wir die zufällige<br />

zeitliche Bewegung eines Teilchens modellieren.<br />

In diesem Kapitel wird der Begriff der schwachen Konvergenz von W-Maßen auf<br />

allgemeinen (meist polnischen) Räumen eingeführt und untersucht. Hierzu ist eine<br />

solide Kenntnis von mengentheoretischer Topologie notwendig. Wir beginnen daher<br />

mit einem kurzen Überblick über die verwendeten topologischen Begriffe und<br />

Sätze.<br />

Dieses Kapitel soll nur eine knappe Einführung in die für die <strong>Wahrscheinlichkeitstheorie</strong><br />

wichtigsten Sätze liefern. Als ausführlichere Darstellungen seien [17] und<br />

[83] empfohlen.<br />

Beim ersten Lesen mag der Leser dieses eher analytisch geprägte Kapitel vielleicht<br />

überspringen. In diesem Fall genügt es fürs Erste, sich mit den Definitionen von<br />

schwacher Konvergenz und Straffheit (Definition 13.12 und 13.26) vertraut zu machen,<br />

sowie mit den Aussagen des Portemanteau Theorems (Satz 13.16) und des<br />

Satzes von Prohorov (Satz 13.29).<br />

13.1 Wiederholung Topologie<br />

Wir geben kursorisch einige Definitionen und Aussagen der mengentheoretischen<br />

Topologie an. Zum Nachlesen eignen sich etwa [90] oder [133].


234 13 Konvergenz von Maßen<br />

Im Folgenden sei stets (E,τ) ein topologischer Raum mit der Borel’schen σ-<br />

Algebra E = B(E) (vergleiche Definition 1.20 und 1.21).<br />

(E,τ) heißt Hausdorffraum, falls zu je zwei Punkten x, y ∈ E mit x �= y offene<br />

Mengen U, V existieren mit x ∈ U, y ∈ V und U ∩ V = ∅. IstA⊂ E, so<br />

bezeichnen wir mit A den Abschluss von A, mit A◦ das Innere und mit ∂A den<br />

Rand von A. Eine Menge A ⊂ E heißt dicht, falls A = E.<br />

(E,τ) heißt metrisierbar, falls es eine Metrik d auf E gibt, sodass τ durch die<br />

offenen Kugeln Bε(x) :={y ∈ E : d(x, y) 0, die ganz in U liegt und relativ kompakt ist. Indem<br />

man εx eventuell nochmal halbiert, kann man annehmen, dass sogar der Abschluss<br />

dieser Kugel in U liegt. Da K kompakt ist, gibt es endlich viele x1,...,xn ∈ K<br />

mit K ⊂ V := �n i=1 Bεx (xi). Nach Konstruktion ist L = V ⊂ U kompakt.)<br />

i<br />

Einen in der <strong>Wahrscheinlichkeitstheorie</strong> wichtigen Typ von topologischen Räumen<br />

stellen wir in einer separaten Definition vor.


13.1 Wiederholung Topologie 235<br />

Definition 13.1. Ein topologischer Raum (E,τ) heißt polnischer Raum, falls er<br />

vollständig metrisierbar und separabel ist.<br />

Polnische Räume sind beispielsweise abzählbare, diskrete Räume (nicht jedoch Q<br />

mit der üblichen Topologie), die euklidischen Räume Rn , aber auch der Raum<br />

C([0, 1]) der stetigen Funktionen [0, 1] → R, ausgestattet mit der Supremumsnorm<br />

� · �∞. Praktisch sind alle Räume, die in der <strong>Wahrscheinlichkeitstheorie</strong> bedeutsam<br />

sind, polnische Räume.<br />

Sei (E,d) ein metrischer Raum. Eine Menge A ⊂ E heißt total beschränkt, falls<br />

n�<br />

es zu jedem ε>0 endlich viele Punkte x1,...,xn ∈ A gibt mit A ⊂ Bε(xi).<br />

Kompakte Mengen sind offenbar total beschränkt. In polnischen Räumen gilt sogar:<br />

Lemma 13.2. Sei (E,τ) polnisch mit vollständiger Metrik d. Eine Teilmenge A ⊂<br />

E ist genau dann total beschränkt bezüglich d,wennA relativ kompakt ist.<br />

Beweis. Übung! ✷<br />

Im Folgenden sei stets (E,τ) ein topologischer Raum mit Borel’scher σ-Algebra<br />

E = B(E) :=σ(τ) und vollständiger Metrik d.Für Maße auf (E,E) führen wir die<br />

folgenden Regularitätsbegriffe ein.<br />

Definition 13.3. Ein σ-endliches Maß μ auf (E,E) heißt<br />

(i) lokal endlich oder Borel-Maß, falls es zu jedem Punkt x ∈ E eine offene<br />

Menge U ∋ x gibt mit μ(U) < ∞,<br />

(ii) regulär von innen, falls<br />

μ(A) =sup � μ(K) : K ⊂ A ist kompakt �<br />

(iii) regulär von außen, falls<br />

μ(A) =inf � μ(U) : U ⊃ A ist offen �<br />

(iv) regulär, falls μ von innen und von außen regulär ist,<br />

(v) Radon-Maß, falls μ ein von innen reguläres Borel-Maß ist.<br />

i=1<br />

für jedes A ∈E, (13.1)<br />

für jedes A ∈E, (13.2)<br />

Definition 13.4. Wir führen die folgenden Mengen von Maßen auf E ein.<br />

M(E) := � Radon-Maße auf (E,E) � ,<br />

Mf (E) := � endliche Maße auf (E,E) � ,<br />

M1(E) := � μ ∈Mf (E) :μ(E) =1 � ,<br />

M≤1(E) := � μ ∈Mf (E) :μ(E) ≤ 1 � .


236 13 Konvergenz von Maßen<br />

Die Elemente von M≤1(E) nennen wir Sub-Wahrscheinlichkeitsmaße auf E.<br />

Ferner vereinbaren wir die folgende Notation für Mengen von stetigen Funktionen<br />

C(E) := � f : E → R ist stetig � ,<br />

Cb(E) := � f ∈ C(E) ist beschränkt � ,<br />

Cc(E) := � f ∈ C(E) hat kompakten Träger � ⊂ Cb(E).<br />

Der Träger einer reellen Funktion f ist dabei f −1 (R \{0}).<br />

Ist nichts anderes vereinbart, so sind die Vektorräume C(E), Cb(E) und Cc(E) mit<br />

der Supremumsnorm ausgestattet.<br />

Lemma 13.5. Ist E polnisch und μ ∈Mf (E), so existiert zu jedem ε>0 eine<br />

kompakte Menge K ⊂ E mit μ(E \ K) 0. Zu jedem n ∈ N existieren xn 1 ,xn 2 ,... ∈ E mit E =<br />

∞�<br />

B1/n(xn i ).Wähle Nn<br />

� Nn �<br />

∈ N so, dass μ E \ B1/n (x n �<br />

i ) < ε<br />

. Setze<br />

2n i=1<br />

A :=<br />

∞�<br />

Nn �<br />

n=1 i=1<br />

i=1<br />

B 1/n (x n i ) .<br />

Nach Konstruktion ist A total beschränkt. Da E polnisch ist, ist also A kompakt.<br />

Außerdem folgt μ � E \ A � ≤ μ � E \ A � < ∞�<br />

ε 2−n = ε. ✷<br />

Satz 13.6. Ist E polnisch und μ ∈ Mf (E), soistμ regulär. Speziell ist dann<br />

Mf (E) ⊂M(E).<br />

Beweis. Sei B ∈ E und ε > 0. Nach dem Approximationssatz (Satz 1.65 mit<br />

A = τ) gibt es eine offene Menge U ⊃ B mit μ(U \ B)


13.1 Wiederholung Topologie 237<br />

Da jedes Kn beschränkt ist, ist λ(Kn) < ∞. Es existiert also nach dem vorangehenden<br />

Satz zu jedem n ∈ N eine offene Menge Un ⊃ A ∩ Kn mit λ(Un \ A) 0 LipK(E; F ) den Raum der Lipschitzstetigen<br />

Funktionen auf E.<br />

Wir schreiben kurz LipK(E) :=LipK(E; R) und Lip(E) :=Lip(E; R).<br />

Definition 13.9. Sei F ⊂ M(E) eine Familie von Radon-Maßen. Eine Familie C<br />

messbarer Abbildungen E → R heißt trennende Familie für F, falls für je zwei<br />

Maße μ, ν ∈Fgilt:<br />

�� �<br />

fdμ= fdν für jedes f ∈C∩L 1 (μ) ∩L 1 �<br />

(ν) =⇒ μ = ν.<br />

Lemma 13.10. Sei (E,d) ein metrischer Raum. Zu jeder abgeschlossenen Menge<br />

A ⊂ E und jedem ε>0 gibt es eine Lipschitz-stetige Abbildung ρA,ε : E → [0, 1]<br />

mit<br />

�<br />

1, falls x ∈ A,<br />

ρA,ε(x) =<br />

0, falls d(x, A) ≥ ε.<br />

Beweis. Sei ϕ : R → [0, 1], t ↦→ (t ∨ 0) ∧ 1. Für x ∈ E setze ρA,ε(x) =<br />

1 − ϕ � ε −1 d(x, A) � . ✷<br />

Satz 13.11. Sei (E,d) ein metrischer Raum.<br />

(i) Lip1(E;[0, 1]) ist trennend für M(E).<br />

(ii) Ist E zudem lokalkompakt, so ist Cc(E) ∩ Lip1(E;[0, 1]) trennend für M(E).


238 13 Konvergenz von Maßen<br />

Beweis. (i) Seien μ1,μ2 ∈ M(E) mit � fdμ1 = � fdμ2 für jedes f ∈<br />

Lip 1(E;[0, 1]). IstA ∈E,soistμi(A) =sup{μi(K) : K ⊂ A ist kompakt},<br />

da das Radon-Maß μi von innen regulär ist (i =1, 2). Es reicht also zu zeigen, dass<br />

μ1(K) =μ2(K) für jede kompakte Menge K.<br />

Sei nun K ⊂ E kompakt. Da μ1 und μ2 lokal endlich sind, existiert zu jedem<br />

x ∈ K eine offene Menge Ux ∋ x mit μ1(Ux) < ∞ und μ2(Ux) < ∞. Da<br />

K kompakt ist, können wir endlich viele Punkte x1,...,xn ∈ K finden, sodass<br />

K ⊂ U := �n j=1 Uxj . Nach Konstruktion ist μi(U) < ∞, also U ∈ L1 (μi) für<br />

i =1, 2. DaUc abgeschlossen ist, und U c ∩ K = ∅, istδ := d(U c ,K) > 0. Für<br />

die Abbildung ρK,ε aus Lemma 13.10 ist also K ≤ ρK,ε ≤ U ∈ L1 ε→0<br />

(μi), falls<br />

ε ∈ (0,δ). WegenρK,ε −→ K �folgt aus dem Satz über majorisierte Konvergenz<br />

(Korollar 6.26) μi(K) = limε→0 ρK,ε dμi. Nun ist aber ερK,ε ∈ Lip1(E;[0, 1])<br />

für jedes ε>0, also nach Voraussetzung<br />

�<br />

ρK,ε dμ1 = ε −1<br />

�<br />

(ερK,ε) dμ1 = ε −1<br />

�<br />

�<br />

(ερK,ε) dμ2 = ρK,ε dμ2.<br />

Es folgt μ1(K) =μ2(K), also μ1 = μ2.<br />

(ii) Ist E lokalkompakt, so können wir in (i) die Umgebungen Ux zusätzlich relativ<br />

kompakt wählen. Es ist dann U relativ kompakt, also hat ρK,ε für ε ∈ (0,δ) einen<br />

kompakten Träger, ist also in Cc(E). ✷<br />

Übung 13.1.1. (i) Man zeige, dass C([0, 1]) eine abzählbare, dichte Teilmenge<br />

besitzt.<br />

(ii) Man zeige, dass der Raum (Cb([0, ∞)), � · �∞) der stetigen, beschränkten<br />

Funktionen mit der Supremumsnorm nicht separabel ist.<br />

(iii) Man zeige, dass der Raum Cc([0, ∞)) der stetigen Funktionen mit kompaktem<br />

Träger, ausgestattet mit der Supremumsnorm, separabel ist. ♣<br />

Übung 13.1.2. Man zeige: Ist μ ein lokal endliches Maß, so ist μ(K) < ∞ für jede<br />

kompakte Menge K. ♣<br />

Übung 13.1.3 (Satz von Lusin). Sei Ω ein polnischer Raum, μ ein σ-endliches<br />

Maß auf (Ω,B(Ω)) und f : Ω → R eine Abbildung. Man zeige, dass die beiden<br />

folgenden Aussagen äquivalent sind:<br />

(i) Es gibt eine Borel-messbare Abbildung g : Ω → R mit f = g μ-fast überall.<br />

(ii) Zu jedem ε>0 gibt es eine kompakte Menge Kε mit μ(Ω \ Kε)


13.1 Wiederholung Topologie 239<br />

Übung 13.1.4. Sei U eine Familie offener Intervalle in R so, dass W := �<br />

U∈U U<br />

endliches Lebesgue-Maß λ(W ) hat. Man zeige: Für jedes ε>0 gibt es endlich<br />

viele, paarweise disjunkte Mengen U1,...,Un ∈Umit<br />

n�<br />

λ(Ui) ><br />

i=1<br />

1 − ε<br />

3<br />

λ(W ).<br />

Hinweis: Man wähle eine endliche Familie U ′ ⊂ U, sodass �<br />

U∈U<br />

mindestens (1 − ε)λ(W ) hat. Hieraus wähle man eine nach absteigender Länge<br />

sortierte maximale Folge U ′′ disjunkter Intervalle aus und zeige, dass jedes U ∈U ′<br />

in (x − 3a, x +3a) liegt für ein (x − a, x + a) ∈U ′′ . ♣<br />

′ U das Maß<br />

Übung 13.1.5. Sei C ⊂ Rd eine offene, beschränkte und konvexe Menge und<br />

U ⊂ {x + rC : x ∈ Rd ,r > 0} so gewählt, dass W := �<br />

U∈U U endliches<br />

Lebesgue-Maß λd (W ) hat. Man zeige: Für jedes ε>0 gibt es endlich viele, paarweise<br />

disjunkte Mengen U1,...,Un ∈Umit<br />

n�<br />

λ d 1 − ε<br />

(Ui) > λ(W ).<br />

3d i=1<br />

Man überlege sich ein Gegenbeispiel, das zeigt, dass man auf die Bedingung der<br />

Ähnlichkeit der offenen Mengen aus U nicht ohne Weiteres verzichten kann. ♣<br />

Übung 13.1.6. Sei μ ein Radon-Maß auf R d und A ∈B(R d ) eine μ-Nullmenge.<br />

Man zeige mit Hilfe von Übung 13.1.5, dass für jede beschränkte, konvexe und<br />

offene Menge C ⊂ R d mit 0 ∈ C gilt:<br />

μ(x + rC)<br />

lim<br />

r↓0 rd =0 für λ d – fast alle x ∈ A.<br />

Man folgere: Ist F die Verteilungsfunktion eines Stieltjes-Maßes μ auf R und A ∈<br />

F (x) =0für λ – fast alle x ∈ A. ♣<br />

B(R) eine μ-Nullmenge, so gilt d<br />

dx<br />

Übung 13.1.7 (Hauptsatz der Differential- und Integralrechnung). Sei f ∈<br />

L 1 (R d ), μ = fλ d und C ⊂ R d offen, konvex und beschränkt mit 0 ∈ C. Man<br />

zeige:<br />

μ(x + rC)<br />

lim<br />

r↓0 rd λd (C) = f(x) für λd – fast alle x ∈ R d .<br />

Man folgere für den Fall d =1den Hauptsatz der Differential- und Integralrechnung:<br />

�<br />

d<br />

fdλ= f(x)<br />

dx [0,x]<br />

für λ – fast alle x ∈ R.<br />

Hinweis: Verwende Übung 13.1.6 mit μq(dx) =(f(x) − q) + λd (dx) für q ∈ Q,<br />

sowie die Ungleichung<br />

μ(x + rC)<br />

. ♣<br />

rd λd (C) ≤ q + μq(x + rC)<br />

rd λd (C)


240 13 Konvergenz von Maßen<br />

13.2 Schwache und vage Konvergenz<br />

Nachdem wir in Satz 13.11 gesehen haben, dass Integrale stetiger, beschränkter<br />

Funktionen, beziehungsweise für lokalkompaktes E sogar stetiger Funktionen mit<br />

kompaktem Träger, ein Radon-Maß vollständig bestimmen, liegt es nahe, Cb(E)<br />

und Cc(E) auch als Klassen von Testfunktionen für Konvergenzbegriffe für Maße<br />

heranzuziehen.<br />

Definition 13.12 (Schwache und vage Konvergenz). Sei E ein metrischer Raum.<br />

(i) Seien μ, μ1,μ2,... ∈Mf (E). Wir sagen, dass (μn)n∈N schwach (weakly)<br />

gegen μ konvergiere, in Formeln μn<br />

n→∞<br />

−→ μ schwach oder μ =w-lim<br />

n→∞ μn,<br />

falls �<br />

�<br />

fdμn<br />

n→∞<br />

−→ fdμ für jedes f ∈ Cb(E).<br />

(ii) Es seien μ, μ1,μ2,...∈M(E). Wir sagen, dass (μn)n∈N vag (vaguely) gegen<br />

μ konvergiert, in Formeln μn<br />

n→∞<br />

−→ μ vag oder μ =v-lim<br />

n→∞ μn, falls<br />

�<br />

�<br />

fdμn<br />

n→∞<br />

−→ fdμ für jedes f ∈ Cc(E).<br />

Bemerkung 13.13. Ist E polnisch, so ist nach Satz 13.6 und 13.11 der schwache<br />

Limes eindeutig. Das Gleiche gilt für den vagen Limes, falls E lokalkompakt ist.✸<br />

Bemerkung 13.14. (i) In der Funktionalanalysis wird die hier eingeführte schwache<br />

Konvergenz die Schwach ∗ -Konvergenz genannt.<br />

(ii) Die schwache Konvergenz erzeugt auf Mf (E) die schwache Topologie τw<br />

(oder Schwach ∗ -Topologie in der Funktionalanalysis). Dies ist die gröbste Topologie,<br />

sodass für jedes f ∈ Cb(E) die Abbildung Mf (E) → R, μ ↦→ � fdμstetig<br />

ist. Ist E separabel, so kann man zeigen, dass (Mf (E),τw) metrisierbar ist, zum<br />

Beispiel mit der so genannten Prohorov-Metrik<br />

wobei<br />

dP (μ, ν) :=max{d ′ P (μ, ν),d ′ P (ν, μ)}, (13.3)<br />

d ′ P (μ, ν) :=inf{ε >0: μ(B) ≤ ν(B ε )+ε für jedes B ∈B(E)}, (13.4)<br />

und wo B ε = {x : d(x, B)


13.2 Schwache und vage Konvergenz 241<br />

lokalkompakt, so ist (M(E),τv) ein Hausdorffraum. Ist E zudem polnisch, so ist<br />

(M(E),τv) ebenfalls polnisch (siehe etwa [83, Sektion 15.7]). ✸<br />

Während bei der schwachen Konvergenz stets auch Konvergenz der Gesamtmassen<br />

gilt (schließlich ist 1 ∈ Cb(E)), kann bei der vagen Konvergenz ein Massendefekt<br />

im Limes auftreten, jedoch kein Massenzuwachs, wie das folgende Lemma zeigt.<br />

Lemma 13.15. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1,μ2,...<br />

n→∞<br />

∈Mf (E) mit μn −→ μ vag. Dann gilt<br />

μ(E) ≤ lim sup μn(E).<br />

n→∞<br />

Beweis. Sei (fN )N∈N eine Folge in Cc(E; [0, 1]) mit fN ↑ 1. Dann gilt<br />

�<br />

�<br />

μ(E) =sup<br />

N∈N<br />

fN dμ =suplim<br />

N∈N n→∞<br />

�<br />

fN dμn<br />

≤ lim sup sup<br />

n→∞<br />

N∈N<br />

fN dμn = lim sup μn(E). ✸<br />

n→∞<br />

Die Folge (δ 1/n)n∈N von W-Maßen auf R konvergiert offenbar schwach gegen δ0,<br />

nicht jedoch in der Totalvariationsnorm: Für die abgeschlossene Menge (−∞, 0]<br />

gilt nämlich limn→∞ δ 1/n((−∞, 0]) = 0 < 1=δ0((−∞, 0]). Etwas lax gesagt,<br />

kann in abgeschlossene Mengen im schwachen Limes Masse an der Rändern einwandern<br />

(nicht jedoch auswandern). Die komplementäre Aussage gilt für offene<br />

Mengen, denn limn→∞ δ 1/n((0, ∞)) = 1 > 0=δ0((0, ∞)), hier kann also Masse<br />

auswandern, nicht jedoch einwandern. Tatsächlich kann man die schwache Konvergenz<br />

über diese Eigenschaft charakterisieren. Im folgenden Satz werden wir ein<br />

ganzes Bündel solcher Aussagen ” auf einen Kleiderbügel (französisch: portemanteau)<br />

hängen“.<br />

Für messbares g : Ω → R sei Ug die Menge der Unstetigkeitsstellen von g. Beachte,<br />

dass Ug Borel-messbar ist (nach Übung 1.1.3).


242 13 Konvergenz von Maßen<br />

Satz 13.16 (Portemanteau Theorem). Sei E ein metrischer Raum, und seien<br />

μ, μ1, μ2,...∈M≤1(E). Dann sind äquivalent:<br />

(i) μ =w-lim<br />

n→∞ μn.<br />

(ii) � fdμn<br />

(iii) � fdμn<br />

n→∞<br />

−→ � fdμ für alle beschränkten, Lipschitz-stetigen f.<br />

n→∞<br />

−→ � fdμfür alle beschränkten, messbaren f mit μ(Uf )=0.<br />

(iv) Es gilt lim inf<br />

n→∞ μn(E) ≥ μ(E) und lim sup μn(F ) ≤ μ(F ) für alle abge-<br />

n→∞<br />

schlossenen F ⊂ E.<br />

(v) Es gilt lim sup<br />

G ⊂ E.<br />

n→∞<br />

μn(E) ≤ μ(E) und lim inf<br />

n→∞ μn(G) ≥ μ(G) für alle offenen<br />

(vi) lim<br />

n→∞ μn(A) =μ(A) für alle messbaren A mit μ(∂A) =0.<br />

Ist E auch lokalkompakt und polnisch, so sind zudem jeweils äquivalent<br />

(vii) μ =v-lim<br />

n→∞ μn und μ(E) = lim<br />

n→∞ μn(E).<br />

(viii) μ =v-lim<br />

n→∞ μn und μ(E) ≥ lim<br />

n→∞ μn(E).<br />

Beweis. ” (iv) ⇐⇒ (v) =⇒ (vi)“ Dies ist trivial.<br />

” (iii) =⇒ (i) =⇒ (ii)“ Dies ist trivial.<br />

” (ii) =⇒ (iv)“ Die Konvergenz der Gesamtmassen folgt mit der Testfunktion<br />

1 ∈ Lip(E;[0, 1]). SeiFabgeschlossen und ρF,ε wie in Lemma 13.10. Dann ist<br />

�<br />

�<br />

lim sup μn(F ) ≤ inf<br />

n→∞<br />

ε>0 lim<br />

n→∞<br />

weil ρF,ε(x) ε→0<br />

−→ F (x) für jedes x ∈ E.<br />

ρF,ε dμn =inf<br />

ε>0<br />

” (vii) =⇒ (viii)“ Dies ist klar nach Lemma 13.15.<br />

ρF,ε dμ = μ(F ),<br />

” (i) =⇒ (vii)“ Wegen Cc(E) ⊂ Cb(E) und 1 ∈ Cb(E) ist dies klar.<br />

” (vii) =⇒ (v)“ Sei G offen und ε>0. Daμ von innen regulär ist (Satz 13.6),<br />

gibt es ein Kompaktum K ⊂ G mit μ(G) − μ(K) 0 und ρK,δ wie<br />

in Lemma 13.10. Dann ist K ≤ ρK,δ ≤ L, also ρK,δ ∈ Cc(E) und daher<br />

�<br />

�<br />

ρK,δ dμn = ρK,δ dμ ≥ μ(K) ≥ μ(G) − ε.<br />

lim inf<br />

n→∞ μn(G) ≥ lim inf<br />

n→∞<br />

Indem wir ε → 0 gehen lassen, folgt die Aussage von (v).


13.2 Schwache und vage Konvergenz 243<br />

” (vi) =⇒ (iii)“ Sei f : E → R beschränkt und messbar mit μ(Uf )=0.Wir<br />

machen die elementare Beobachtung, dass für jedes D ⊂ R gilt<br />

∂f −1 (D) ⊂ f −1 (∂D) ∪ Uf . (13.5)<br />

In der Tat: Falls f in x ∈ E stetig ist, so existiert zu jedem δ>0 ein ε(δ) > 0 mit<br />

f(Bε(δ)(x)) ⊂ Bδ(f(x)). Istx∈ ∂f−1 (D), so existieren y ∈ f −1 (D) ∩ Bε(δ)(x) und z ∈ f −1 (Dc ) ∩ Bε(δ)(x). Alsoistf(y) ∈ Bδ(f(x)) ∩ D �= ∅ und f(z) ∈<br />

Bδ(f(x)) ∩ Dc �= ∅, also f(x) ∈ ∂D.<br />

Sei ε>0. Offenbar ist die Menge A := � y ∈ R : μ � f −1 ({y}) � > 0 � der Atome<br />

des endlichen Maßes μ ◦ f −1 höchstens abzählbar. Daher gibt es N ∈ N und y0 ≤<br />

−�f�∞


244 13 Konvergenz von Maßen<br />

�<br />

lim sup�E[f(Yn)]<br />

− E[f(X)]<br />

n→∞<br />

� �<br />

�<br />

≤ lim sup �E[f(X)] − E[f(Xn)]<br />

n→∞<br />

� �<br />

� + lim sup �E[f(Xn) − f(Yn)]<br />

n→∞<br />

� � =0. ✷<br />

n→∞<br />

Korollar 13.19. Gilt Xn −→ X stochastisch, so gilt auch Xn<br />

Die Umkehrung ist im Allgemeinen falsch.<br />

D<br />

−→ X, n →∞.<br />

Beispiel 13.20. Sind X, X1,X2,...u.i.v. (mit nicht-trivialer Verteilung), so gilt trivialerweise<br />

Xn<br />

D<br />

−→ X, jedoch nicht Xn<br />

n→∞<br />

−→ X stochastisch. ✸<br />

Man erinnere sich an die Definition der Verteilungsfunktion eines Wahrscheinlichkeitsmaßes<br />

in Definition 1.59.<br />

Definition 13.21. Seien F, F1,F2,... Verteilungsfunktionen von W-Maßen auf R.<br />

n→∞<br />

Wir sagen (Fn)n∈N konvergiere schwach gegen F , in Formeln Fn =⇒ F ,<br />

Fn<br />

D<br />

−→ F oder F =w-lim<br />

n→∞ Fn,wenn<br />

F (x) = lim<br />

n→∞ Fn(x) für alle Stetigkeitspunkte x von F. (13.6)<br />

Sind F, F1,F2,... Verteilungsfunktionen von Sub-Wahrscheinlichkeitsmaßen, so<br />

setzen wir F (∞) := limx→∞ F (x) und fordern für die schwache Konvergenz<br />

zusätzlich F (∞) ≥ lim supn→∞ Fn(∞).<br />

Man beachte, dass aus (13.6) stets F (∞) ≤ lim infn→∞ Fn(∞) folgt. Gilt nun<br />

D<br />

−→ F , so ist also F (∞) = limn→∞ Fn(∞).<br />

Fn<br />

Beispiel 13.22. Ist F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes auf<br />

R und Fn(x) :=F (x + n) für x ∈ R,sokonvergiert(Fn)n∈N punktweise gegen 1.<br />

Dies ist jedoch keine Verteilungsfunktion, da diese für x →−∞gegen Null konvergieren.<br />

Ist andererseits Gn(x) =F (x − n),sokonvergiert(Gn)n∈N punktweise<br />

gegen G ≡ 0. Nun ist aber G(∞) =0< lim sup n→∞ Gn(∞) =1, also liegt auch<br />

in diesem Falle keine schwache Konvergenz vor. In der Tat: es tritt jeweils im Limes<br />

ein Massendefekt ein (bei den Fn nach links, bei den Gn nach rechts). Die Definition<br />

der schwachen Konvergenz von Verteilungsfunktionen ist aber so angelegt, dass<br />

kein Massendefekt im Limes eintreten darf. ✸<br />

Satz 13.23. Seien μ, μ1,μ2,... ∈M≤1(R) mit zugehörigen Verteilungsfunktionen<br />

F, F1,F2,... Dann sind äquivalent<br />

(i) μ =w-lim<br />

n→∞ μn,<br />

(ii) Fn<br />

D<br />

−→ F .


13.2 Schwache und vage Konvergenz 245<br />

Beweis. (i) =⇒ (ii)“ Sei F in x stetig. Dann ist μ<br />

” � ∂(−∞,x] � = μ({x}) =0.<br />

Nach Satz 13.16 gilt Fn(x) =μn ((−∞,x]) n→∞<br />

−→ μ((−∞,x]) = F (x).<br />

” (ii) =⇒ (i)“ Sei f ∈ Lip1(R;[0, 1]). Nach Satz 13.16 reicht es zu zeigen, dass<br />

�<br />

fdμn<br />

n→∞<br />

−→<br />

�<br />

fdμ. (13.7)<br />

Sei ε>0. Wähle N ∈ N und N +1Stetigkeitspunkte y0


246 13 Konvergenz von Maßen<br />

Beweis. Nach Übung 1.1.3 ist Uϕ ⊂ E1 Borel-messbar. Also sind die angegebenen<br />

Bedingungen sinnvoll.<br />

(i) Sei f ∈ Cb(E2).Dannistf◦ϕ beschränkt und messbar, und es ist Uf◦ϕ ⊂ Uϕ,<br />

also μ(Uf◦ϕ) =0. Nach Satz 13.16 ist<br />

�<br />

�<br />

lim<br />

n→∞<br />

fd � μn ◦ ϕ −1� = lim<br />

n→∞<br />

(f ◦ ϕ) dμn<br />

�<br />

�<br />

= (f ◦ ϕ) dμ = fd � μ ◦ ϕ −1� .<br />

(ii) Dies ist klar, wegen P ϕ(X) = PX ◦ ϕ −1 . ✷<br />

Übung 13.2.1. Man zeige: Für d ′ P aus (13.4) und μ, ν ∈M1(E) gilt: dP (μ, ν) =<br />

d ′ P (μ, ν) =d′ P (ν, μ). ♣<br />

Übung 13.2.2. Man zeige: Die Topologie der schwachen Konvergenz auf Mf (E)<br />

ist gröber als die von der Totalvariation (siehe Korollar 7.45) erzeugte Topologie auf<br />

n→∞<br />

n→∞<br />

Mf (E). Das heißt, es gilt �μn − μ�TV −→ 0,sogiltμn−→<br />

μ schwach. ♣<br />

Übung 13.2.3. Sei E = R und μn = 1 �n n k=0 δk/n sowie μ = λ � � das auf [0, 1]<br />

[0,1]<br />

eingeschränkte Lebesgue-Maß. Man zeige, dass μ =w-lim<br />

n→∞ μn. ♣<br />

Übung 13.2.4. Sei E = R und λ das Lebesgue-Maß auf R. Für n ∈ N sei μn =<br />

λ � � . Man zeige: λ =v-lim<br />

[−n,n]<br />

n→∞ μn, jedoch ist (μ)n∈N nicht schwach konvergent. ♣<br />

Übung 13.2.5. Sei E = R und μn = δn für n ∈ N. Man zeige: v-lim<br />

n→∞ μn =0,<br />

jedoch ist (μn)n∈N nicht schwach konvergent. ♣<br />

Übung 13.2.6 (Lévy-Abstand). Für zwei Verteilungsfunktionen F und G von<br />

Wahrscheinlichkeitsmaßen auf R wird der Lévy-Abstand definiert als<br />

d(F, G) =inf � ε ≥ 0: G(x − ε) − ε ≤ F (x) ≤ G(x + ε)+ε für alle x ∈ R � .<br />

Zeige:<br />

(i) d ist eine Metrik auf der Menge der Verteilungsfunktionen.<br />

(ii) Es gilt Fn<br />

n→∞<br />

=⇒ F genau dann, wenn d(Fn,F) n→∞<br />

−→ 0.<br />

(iii) Zu jedem P ∈M1(R) gibt es eine Folge (Pn)n∈N in M1(R), sodass jedes Pn<br />

endlichen Träger hat, und sodass Pn<br />

n→∞<br />

=⇒ P . ♣


13.2 Schwache und vage Konvergenz 247<br />

Übung 13.2.7. Wir können die Begriffe schwache Konvergenz und vage Konvergenz<br />

auf Ladungsverteilungen ausdehnen, also auf Differenzen ϕ := μ + −μ− von Maßen<br />

aus Mf (E) beziehungsweise M(E), indem wir den Wortlaut von Definition 13.12<br />

auf diese Klassen anwenden. Man zeige, dass man hier die schwache Konvergenz<br />

im Allgemeinen nicht metrisieren kann.<br />

Anleitung: Man betrachte E =[0, 1].<br />

(i) Für n ∈ N definiere ϕn = δ1/n − δ2/n. Zeige: Für jedes C>0 konvergiert<br />

(Cϕn)n∈N schwach gegen das Nullmaß.<br />

(ii) Man nehme an, dass es eine Metrik gäbe, die die schwache Konvergenz erzeugt.<br />

Man zeige: Dann gäbe es eine Folge (Cn)n∈N mit Cn ↑ ∞ und<br />

0=w-lim<br />

n→∞ (Cnϕn).<br />

(iii) Wähle ein f ∈ C([0, 1]) mit f(2−n )=(−1) nC −1/2<br />

n<br />

� � �<br />

zeige: fd(Cnϕn)<br />

n∈N<br />

konvergiert nicht gegen Null.<br />

für jedes n ∈ N und<br />

(iv) Man führe diese Konstruktion zum Widerspruch mit der Metrisierbarkeitsannahme.<br />

♣<br />

Übung 13.2.8. Man zeige, dass durch (13.3) eine Metrik auf M1(E) definiert wird,<br />

und dass diese die Topologie der schwachen Konvergenz erzeugt. ♣<br />

Übung 13.2.9. Man zeige die Implikation ” (vi) =⇒ (iv)“ aus Satz 13.16 direkt. ♣<br />

Übung 13.2.10. Seien X, X1,X2,... und Y1,Y2,... reelle Zufallsvariablen. Es<br />

gelte PYn = N0,1/n für jedes n ∈ N. Man zeige: Es gilt genau dann Xn<br />

D<br />

−→ X,<br />

wenn Xn + Yn<br />

D<br />

−→ X. ♣<br />

Übung 13.2.11. Betrachte die Maße μn := 1<br />

n (δ 1/n +...+δ (n−1)/n +δ1) auf [0, 1].<br />

Zeige, dass μn schwach gegen das Lebesgue-Maß auf [0, 1] konvergiert. ♣<br />

Übung 13.2.12. Für jedes n ∈ N sei Xn eine geometrisch verteilte Zufallsvariable<br />

mit Parameter pn ∈ (0, 1). Wie muss die Folge (pn)n∈N gewählt sein, damit P Xn/n<br />

schwach gegen die Exponentialverteilung mit Parameter α>0 konvergiert? ♣<br />

Übung 13.2.13. Seien X, X1,X2,... reelle Zufallsvariablen mit Xn<br />

Zeige:<br />

(i) E[|X|] ≤ lim infn→∞ E[|Xn|].<br />

n→∞<br />

=⇒ X.<br />

(ii) Ist p > 0 und sup n∈N E[|Xn| r ] < ∞ für eine r > p, so gilt E[|X| p ] =<br />

limn→∞ E[|Xn| p ]. ♣


248 13 Konvergenz von Maßen<br />

13.3 Der Satz von Prohorov<br />

Sei E stets ein polnischer Raum mit Borel’scher σ-Algebra E. Eine grundlegende<br />

Frage ist, wann eine Folge (μn)n∈N von Maßen auf (E,E) einen schwachen Grenzwert<br />

besitzt, oder wenigstens einen schwachen Häufungspunkt. Eine offensichtlich<br />

notwendige Bedingung ist, dass (μn(E))n∈N beschränkt ist, deshalb werden wir<br />

ohne Beschränkung der Allgemeinheit nur Folgen in M≤1(E) betrachten. Dies ist<br />

allerdings nicht hinreichend, denn beispielsweise konvergiert die Folge (δn)n∈N von<br />

W-Maßen auf R nicht schwach. Wir müssen also zusätzlich noch sicher stellen, dass<br />

keine Masse ins Unendliche auswandert“. Dies liefert gerade die Bedingung der<br />

”<br />

Straffheit.<br />

Wir beginnen diesen Abschnitt, indem wir zunächst als Hauptsatz den Satz von<br />

Prohorov [128] vorstellen. Wir geben den Beweis erst in dem Spezialfall E = R an<br />

und kommen dann zu Anwendungen, bevor wir den Satz am Ende des Abschnitts<br />

in voller Allgemeinheit beweisen.<br />

Definition 13.26 (Straffheit). Eine Familie F ⊂ Mf (E) heißt straff, falls zu<br />

jedem ε>0 eine kompakte Menge K ⊂ E existiert mit<br />

sup � μ(E \ K) : μ ∈F � 0 und K =[−C/ε,C/ε] ist<br />

nach der Markov’schen Ungleichung PXi (R \ K) =P[|Xi| >C/ε] ≤ ε.<br />

(iii) Die Familie (δn)n∈N von W-Maßen auf R ist nicht straff.<br />

(iv) Die Familie (U [−n,n])n∈N von uniformen Verteilungen auf den Intervallen<br />

[−n, n] ist nicht straff. ✸


13.3 Der Satz von Prohorov 249<br />

Satz 13.29 (Satz von Prohorov (1956)). Sei (E,d) ein metrischer Raum und F⊂<br />

M≤1(E).<br />

(i) Es gilt<br />

F ist straff =⇒ F ist schwach relativ folgenkompakt.<br />

(ii) Ist E zudem polnisch, so gilt auch die Umkehrung<br />

F ist straff ⇐= F ist schwach relativ folgenkompakt.<br />

Korollar 13.30. Sei E ein kompakter, metrischer Raum. Dann sind die Mengen<br />

M≤1(E) und M1(E) schwach folgenkompakt.<br />

Korollar 13.31. Ist E ein lokalkompakter, separabler, metrischer Raum, so ist<br />

M≤1(E) vag folgenkompakt.<br />

Beweis. Seien x1,x2,... dicht in E. DaE lokalkompakt ist, existiert zu jedem<br />

n ∈ N eine offene Umgebung Un ∋ xn, deren Abschluss U n kompakt ist. Dann ist<br />

aber auch En := � n<br />

k=1 U n kompakt für jedes n ∈ N. Für jede kompakte Menge<br />

K ⊂ E gibt es nun eine endliche Überdeckung K ⊂ � n<br />

k=1 Uk ⊂ En, wobei<br />

n = n(K) von K abhängt.<br />

Nach Korollar 13.30 gibt es zu jedem n ∈ N ein ˜μn ∈M≤1(Kn) und eine Teilfolge<br />

(kn l )l∈N mit ˜μn =w-lim<br />

l→∞ μkn �<br />

� . Mit Hilfe des Diagonalfolgenarguments können<br />

l<br />

Kn<br />

wir annehmen, dass (k n+1<br />

l<br />

)l∈N eine Teilfolge von (kn l )l∈N<br />

�<br />

ist und damit ˜μn+1�<br />

=<br />

Kn<br />

˜μn für jedes n ∈ N. Es existiert also ein μ ∈M≤1(E) mit μ � � =˜μn für jedes<br />

Kn<br />

n ∈ N.Für jedes f ∈ Cc(E) ist der Träger in einem Km enthalten, also gilt (wegen<br />

μkn � n→∞<br />

� −→ μ n<br />

Km<br />

� � schwach)<br />

Km<br />

�<br />

�<br />

n→∞<br />

−→ fdμ,<br />

und damit μk n n<br />

fdμk n n<br />

n→∞<br />

−→ μ vag. ✷<br />

Bemerkung 13.32. Die Implikation in Satz 13.29(ii) ist die weitaus einfachere,<br />

wenn auch weniger nützliche. Hier wird benötigt, dass E polnisch ist, denn eine<br />

einelementige Familie ist offenbar immer schwach kompakt, jedoch nur unter Zusatzannahmen<br />

straff – beispielsweise eben, wenn E polnisch ist (Lemma 13.5). ✸<br />

Beweis (von Satz 13.29(ii)). Wir gehen zunächst ähnlich vor wie im Beweis von<br />

Lemma 13.5. Sei {x1,x2,...}⊂E dicht. Für n ∈ N setze An,N := N�<br />

B1/n(xi). i=1<br />

Dann gilt An,N ↑ E für N →∞für jedes n ∈ N.Sei


250 13 Konvergenz von Maßen<br />

δ := sup<br />

n∈N<br />

inf<br />

N∈N sup μ(A<br />

μ∈F<br />

c n,N ).<br />

Dann gibt es ein n ∈ N, sodass für jedes N ∈ N ein μN ∈ F existiert mit<br />

μN(A c n,N ) ≥ δ/2. DaF schwach relativ folgenkompakt ist, besitzt (μN )N∈N<br />

eine schwach konvergente Teilfolge (μNk )k∈N mit einem schwachen Limes μ ∈<br />

M≤1(E). Nach dem Portemanteau Theorem (Satz 13.16(iv)) gilt für jedes N ∈ N<br />

μ(A c n,N ) ≥ lim inf<br />

k→∞ μNk (Acn,N ) ≥ lim inf<br />

k→∞ μNk (Acn,Nk ) ≥ δ/2.<br />

Andererseits gilt Ac n,N ↓∅für N →∞, also μ(Ac N→∞<br />

n,N ) −→ 0. Mithin ist δ =0.<br />

Sei nun ε>0 beliebig. Nach dem eben Gezeigten können wir zu jedem n ∈ N<br />

ein N ′ n ∈ N wählen, sodass μ(Ac n,N ′ n )


13.3 Der Satz von Prohorov 251<br />

besitzt (Fn(q1))n∈N eine konvergente Teilfolge � Fn1 (q1)<br />

k �<br />

k∈N<br />

eine Teilfolge (n2 k )k∈N von (n1 k )k∈N, sodass � Fn2 (q2)<br />

k �<br />

k∈N<br />

halten wir Teilfolgen (n1 k ) ⊃ (n2 k ) ⊃ (n3 k ) ⊃ ..., sodass � Fnl (ql)<br />

k �<br />

. Ebenso finden wir<br />

konvergiert. Iterativ er-<br />

für jedes<br />

k∈N<br />

l ∈ N konvergiert. Setze jetzt nk := nk k . Dann konvergiert � Fnk (q)� für jedes<br />

k∈N<br />

q ∈ Q. Setze � F (q) = lim Fnk (q) und<br />

k→∞<br />

F (x) =inf � � F (q) : q ∈ Q mit q>x � .<br />

Da � F monoton wachsend ist, ist F rechtsstetig und monoton wachsend.<br />

Ist F stetig in x, so existieren zu ε>0 Zahlen q− ,q + ∈ Q, q− K.Istx > K eine Stetigkeitsstelle von F , dann gilt<br />

lim supk→∞ Fnk (∞) ≤ lim supk→∞ Fnk (x)+ε = F (x)+ε ≤ F (∞)+ε. ✷<br />

Wir kommen zu einer ersten Anwendung des Satzes von Prohorov. Die ganze Stärke<br />

des folgenden Satzes wird erst deutlich, wenn wir geeignete trennende Funktionenklassen<br />

zur Verfügung haben. Diese werden wir in Kapitel 15 genauer untersuchen.<br />

Satz 13.34. Sei E polnisch, und seien μ, μ1, μ2,...∈M≤1(E). Dann sind äquivalent:<br />

(i) μ =w-lim<br />

n→∞ μn.<br />

(ii) (μn)n∈N ist straff, und es gibt eine trennende Familie C⊂Cb(E) mit<br />

�<br />

�<br />

fdμ= lim<br />

n→∞<br />

fdμn für jedes f ∈C. (13.8)<br />

Beweis. ” (i) =⇒ (ii)“ Nach der einfachen Implikation im Satz von Prohorov<br />

(Satz 13.29(ii)) folgt aus der schwachen Konvergenz die Straffheit.


252 13 Konvergenz von Maßen<br />

” (ii) =⇒ (i)“ Sei (μn)n∈N straff und C⊂Cb(E) trennend mit (13.8). Wir nehmen<br />

an, (μn)n∈N konvergiere nicht schwach gegen μ. Dann existieren ε>0, f ∈ Cb(E)<br />

und (nk)k∈N mit nk ↑∞und<br />

��<br />

�<br />

� fdμnk � −<br />

� �<br />

�<br />

fdμ�<br />

� >ε für alle k ∈ N. (13.9)<br />

Nach dem Satz von Prohorov (Satz 13.29) existiert ein ν ∈ M≤1(E) und eine<br />

Teilfolge (n ′ k )k∈N von (nk)k∈N mit μn ′ → ν schwach. Wegen (13.9) ist<br />

�<br />

k<br />

� � fdμ− � fdν � � ≥ ε, also μ �= ν. Andererseits ist<br />

�<br />

�<br />

hdμ= lim<br />

k→∞<br />

hdμn ′ k =<br />

�<br />

hdν für jedes h ∈C,<br />

also μ = ν. Damit ist die Annahme zum Widerspruch geführt, und es gilt (i). ✷<br />

Wir wollen den Zusammenhang zwischen schwacher und vager Konvergenz näher<br />

beleuchten.<br />

Satz 13.35. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1,μ2,...<br />

∈Mf (E). Dann sind äquivalent:<br />

(i) μ =w-lim<br />

n→∞ μn,<br />

(ii) μ =v-lim<br />

n→∞ μn und μ(E) = lim<br />

n→∞ μn(E),<br />

(iii) μ =v-lim<br />

n→∞ μn und μ(E) ≥ lim sup μn(E),<br />

n→∞<br />

(iv) μ =v-lim<br />

n→∞ μn und {μn, n∈ N} ist straff.<br />

Beweis. ” (i) ⇐⇒ (ii) ⇐⇒ (iii)“ Dies folgt aus dem Portemanteau Theorem.<br />

” (ii) =⇒ (iv)“ Es reicht zu zeigen, dass für jedes ε>0 ein Kompaktum K ⊂ E<br />

existiert mit lim supn→∞ μn(E \ K) ≤ ε.Daμregulär ist (Satz 13.6) existiert eine<br />

kompakte Menge L ⊂ E mit μ(E \ L)


13.3 Der Satz von Prohorov 253<br />

�<br />

sup μn(E) ≤ 1+supμn(L)<br />

≤ 1+sup ρdμn < ∞,<br />

n∈N<br />

n∈N<br />

n∈N<br />

weil nach Voraussetzung � ρdμnkonvergiert. Es ist also auch<br />

C := max(μ(E), sup{μn(E) : n ∈ N}) < ∞,<br />

und wir können zu μ/C und μn/C übergehen und ohne Einschränkung annehmen,<br />

dass alle Maße in M≤1(E) liegen. Da Cc(E) trennend ist für M≤1(E) (siehe<br />

Satz 13.11), folgt (i) aus Satz 13.34. ✷<br />

Beweis des Satzes von Prohorov, Teil (i), allgemeiner Fall. Es gibt prinzipiell<br />

zwei Möglichkeiten, den Satz im allgemeinen Fall zu beweisen. Die eine<br />

Möglichkeit besteht darin, den Satz zunächst für Maße auf R d zu zeigen (das haben<br />

wir für d =1bereits getan, siehe auch Übung 13.3.4 für d ≥ 2). In einem<br />

zweiten Schritt wird die Aussage auf Folgenräume R N angehoben. Schließlich wird<br />

im dritten Schritt eine Einbettung von E in R N konstruiert. Diesen Weg findet man<br />

beispielsweise in [14] oder [84].<br />

Wir folgen hier der anderen Route, wie sie etwa in [15] (beziehungsweise [17]) oder<br />

[43] dargestellt wird. Der Hauptpunkt des Beweises besteht darin, einen Kandidaten<br />

für einen schwachen Häufungspunkt der Familie F zu finden. Wir werden diesen<br />

zunächst als Inhalt auf einem abzählbaren Mengensystem konstruieren und dann<br />

ein äußeres Maß daraus ableiten. Schließlich zeigen wir, dass die abgeschlossenen<br />

Mengen messbar bezüglich dieses äußeren Maßes sind. Die Argumentation verläuft<br />

also in Teilen recht ähnlich wie beim Beweis des Satzes von Carathéodory.<br />

Sei (E,d) ein metrischer Raum und F⊂M≤1(E) straff. Dann existiert eine aufsteigende<br />

Folge K1 ⊂ K2 ⊂ K3 ⊂ ... von kompakten Mengen in E, sodass<br />

μ(Kc n) < 1<br />

n gilt für jedes μ ∈ F und jedes n ∈ N. Setze E′ := �∞ n=1 Kn.<br />

Dann ist E ′ ein σ-kompakter, metrischer Raum, also insbesondere separabel. Da<br />

nach Konstruktion μ(E \ E ′ ) = 0 für jedes μ ∈ F gilt, können wir jedes μ<br />

als Maß auf E ′ auffassen. Ohne Beschränkung der Allgemeinheit können wir al-<br />

so annehmen, dass Eσ-kompakt und damit separabel ist. Es existiert also eine<br />

abzählbare Basis U der Topologie τ � � auf E, das heißt eine abzählbare Menge E<br />

E<br />

von offenen Mengen, sodass A = �<br />

U∈U,U⊂A U für jedes offene A ⊂ E ist. Setze<br />

C ′ := � U ∩ Kn : U ∈U,n∈ N � und<br />

�<br />

�N<br />

C :=<br />

n=1<br />

Cn : N ∈ N und C1,...,CN ∈C ′<br />

�<br />

.<br />

Offenbar ist C eine abzählbare Menge kompakter Mengen in E, und C ist vereinigungsstabil.<br />

Jedes Kn hat eine endliche Überdeckung mit Mengen aus U, also ist<br />

Kn ∈C.<br />

Sei nun (μn)n∈N eine Folge in F. Mit Hilfe des Diagonalfolgenarguments (siehe<br />

Beweis des Auswahlsatzes von Helly, Satz 13.33) können wir eine Teilfolge<br />

(μnk )k∈N finden, für die der Grenzwert


254 13 Konvergenz von Maßen<br />

α(C) := lim μnk (C)<br />

k→∞<br />

(13.10)<br />

für jedes C ∈ C existiert. Angenommen es gibt ein Maß μ auf der Borel’schen<br />

σ-Algebra E von E, sodass<br />

μ(A) =sup � α(C) : C ∈C mit C ⊂ A �<br />

für A ⊂ E offen. (13.11)<br />

Dann ist<br />

μ(E) ≥ sup α(Kn) =suplim<br />

μnk (Kn)<br />

n∈N<br />

n∈N k→∞<br />

≥ sup lim sup<br />

n∈N k→∞<br />

�<br />

= lim sup μnk<br />

k→∞<br />

(E).<br />

Für offenes A und für C ∈Cmit C ⊂ A ist ferner<br />

α(C) = lim<br />

k→∞<br />

1<br />

μnk (E) −<br />

n<br />

μnk (C) ≤ lim inf μnk (A),<br />

k→∞<br />

also μ(A) ≤ lim infk→∞ μnk (A). Nach dem Portemanteau Theorem (Satz 13.16)<br />

ist μ =w-lim μnk , und damit ist F als schwach relativ folgenkompakt erkannt. Es<br />

k→∞<br />

bleibt zu zeigen, dass es ein Maß μ auf (E,E) gibt, das (13.11) erfüllt.<br />

Die Mengenfunktion α auf C ist offenbar monoton, additiv und subadditiv:<br />

Wir definieren<br />

und<br />

α(C1) ≤ α(C2), falls C1 ⊂ C2,<br />

α(C1 ∪ C2) =α(C1)+α(C2),<br />

α(C1 ∪ C2) ≤ α(C1)+α(C2).<br />

falls C1 ∩ C2 = ∅,<br />

β(A) :=sup � α(C) : C ∈C mit C ⊂ A �<br />

μ ∗ (G) :=inf � β(A) : A ⊃ G ist offen �<br />

�<br />

für A ⊂ E offen<br />

für G ∈ 2 E .<br />

(13.12)<br />

Offenbar ist β(A) =μ ∗ (A) für jedes offene A. Es reicht zu zeigen (Schritte 1-3<br />

unten), dass μ ∗ ein äußeres Maß ist (siehe Definition 1.46), und (4. Schritt) dass<br />

die σ-Algebra der μ ∗ -messbaren Mengen (siehe Definition 1.48 und Lemma 1.52)<br />

die abgeschlossenen Mengen und damit ganz E enthält. Nach Lemma 1.52 ist dann<br />

nämlich μ∗ ein Maß auf der σ-Algebra der μ∗-messbaren Mengen, und die Einschränkung<br />

μ := μ∗� �E erfüllt μ(A) =μ∗ (A) =β(A) für alle offenen A, also gilt<br />

Gleichung (13.11).<br />

Offenbar ist μ ∗ (∅) =0, und μ ∗ ist monoton. Um zu zeigen, dass μ ∗ ein äußeres<br />

Maß ist, müssen wir nur noch die σ-Subadditivität nachweisen.


13.3 Der Satz von Prohorov 255<br />

1. Schritt (endliche Subadditivität von β) Seien A1,A2 ⊂ E offen und C ∈C<br />

mit C ⊂ A1 ∪ A2. Sein ∈ N mit C ⊂ Kn.Wirdefinieren zwei Mengen<br />

B1 := � x ∈ C : d(x, A c 1) ≥ d(x, A c 2) � ,<br />

B2 := � x ∈ C : d(x, A c 1) ≤ d(x, A c 2) � .<br />

A<br />

1<br />

B1 B2 C<br />

Offenbar ist B1 ⊂ A1 und B2 ⊂ A2. Dax ↦→ d(x, Ac i ) stetig ist für i =1, 2, sind<br />

B1 und B2 als abgeschlossene Teilmengen von C kompakt. Also ist d(B1,Ac 1) > 0.<br />

Es existiert also eine offene Menge D1 mit B1 ⊂ D1 ⊂ D1 ⊂ A1.(Manwähle etwa<br />

D1 als Vereinigung einer endlichen Überdeckung von B1 mit Kugeln vom Radius<br />

d(B1,Ac 1)/2. Diese Kugeln liegen nebst ihren Abschlüssen in A1.) Sei UD1 :=<br />

{U ∈U: U ⊂ D1}. DannistB1⊂ D1 = �<br />

U. Wähle nun eine endliche<br />

U∈UD1 Teilüberdeckung {U1,...,UN }⊂UD1 von B1 und setze C1 := �N i=1 U i ∩ Kn.<br />

Dann ist B1 ⊂ C1 ⊂ A1 und C1 ∈C.Wähle analog ein C2 ∈Cmit B2 ⊂ C2 ⊂ A2.<br />

Es folgt<br />

α(C) ≤ α(C1 ∪ C2) ≤ α(C1)+α(C2) ≤ β(A1)+β(A2).<br />

Also gilt auch<br />

β(A1 ∪ A2) =sup � �<br />

α(C) : C ∈C mit C ⊂ A1 ∪ A2 ≤ β(A1)+β(A2).<br />

2. Schritt (σ-Subadditivität von β) Seien A1,A2,...offene Mengen und C ∈C<br />

mit C ⊂ �∞ i=1 Ai. DaC kompakt ist, existiert ein n ∈ N mit C ⊂ �n i=1 Ai. Die<br />

schon gezeigte endliche Subadditivität von β impliziert<br />

�<br />

�n<br />

α(C) ≤ α<br />

� �<br />

�n<br />

= β<br />

� ∞�<br />

≤ β(Ai).<br />

Ai<br />

i=1<br />

Ai<br />

i=1<br />

Indem wir das Supremum über solche C bilden, folgt<br />

�<br />

�∞<br />

� �<br />

∞�<br />

β =sup α(C) : C ∈C mit C ⊂<br />

Ai<br />

i=1<br />

i=1<br />

Ai<br />

i=1<br />

� ∞�<br />

≤ β(Ai).<br />

3. Schritt (σ-Subadditivität von μ∗ ) Seien G1,G2,... ∈ 2E .Seiε>0. Wähle<br />

für jedes n ∈ N eine offene Menge An ⊃ Gn mit β(An)


256 13 Konvergenz von Maßen<br />

Da ε>0 beliebig war, folgt μ∗� �∞ äußeres Maß.<br />

n=1 Gn<br />

� ≤ � ∞<br />

n=1 μ∗ (Gn). Mithin ist μ ∗ ein<br />

4. Schritt (Abgeschlossene Mengen sind in μ∗-messbar) eine Menge B ⊂ E genau dann μ<br />

Nach Lemma 1.49 ist<br />

∗-messbar, wenn<br />

μ ∗ (B ∩ G)+μ ∗ (B c ∩ G) ≤ μ ∗ (G) für alle G ∈ 2 E .<br />

Indem wir das Infimum über alle offenen Mengen A ⊃ G bilden, reicht es zu zeigen,<br />

dass für jedes abgeschlossene B und jedes offene A ⊂ E gilt, dass<br />

μ ∗ (B ∩ A)+μ ∗ (B c ∩ A) ≤ β(A). (13.13)<br />

Sei ε>0. Wähle C1 ∈Cmit C1 ⊂ A ∩ Bc und α(C1) >β(A∩ Bc ) − ε. Wähle<br />

ferner C2 ∈Cmit C2 ⊂ A ∩ Cc 1 und α(C2) >β(A∩ Cc 1) − ε.WegenC1∩C2 = ∅<br />

und C1 ∪ C2 ⊂ A folgt<br />

β(A) ≥ α(C1 ∪ C2) =α(C1)+α(C2) ≥ β(A ∩ B c )+β(A ∩ C c 1) − 2ε<br />

≥ μ ∗ (A ∩ B c )+μ ∗ (A ∩ B) − 2ε.<br />

Indem wir ε → 0 gehen lassen, folgt (13.13). Damit ist der Beweis des Satzes von<br />

Prohorov vollständig. ✷<br />

Übung 13.3.1. Man zeige: Eine Familie F⊂Mf (R) ist genau dann straff, wenn<br />

es eine messbare � Abbildung f : R → [0, ∞) gibt mit f(x) →∞für |x| →∞und<br />

supμ∈F fdμ


13.4 Anwendung: Satz von de Finetti – anders angeschaut 257<br />

13.4 Anwendung: Satz von de Finetti – anders angeschaut<br />

(Nach einer Idee von Götz Kersting.) Sei E ein polnischer Raum und X1,X2,...<br />

eine austauschbare Folge von Zufallsvariablen mit Werten in E. Wir wollen hier,<br />

alternativ zu dem Rückwärtsmartingalargument aus Kapitel 12.3, einen Beweis für<br />

den Satz von de Finetti (Satz 12.26) angeben, der besagt, dass es ein zufälliges W-<br />

Maß Ξ auf E gibt, sodass, gegeben Ξ, die Zufallsvariablen X1,X2,...unabhängig<br />

und Ξ-verteilt sind. Für x =(x1,x2,...) ∈ EN seien ξn(x) := 1 �n δxl n l=1 die<br />

empirische Verteilung von x1,...,xn,<br />

μn,k(x) :=ξn(x) ⊗k = n −k<br />

n�<br />

i1,...,ik=1<br />

δ (xi1 ,...,xi k )<br />

die Verteilung auf E k des k-fachen unabhängigen Ziehens (mit Beachtung der Reihenfolge)<br />

aus (x1,...,xn) mit Zurücklegen und<br />

νn,k(x) :=<br />

(n − k)!<br />

n!<br />

n�<br />

i 1 ,...,i k =1<br />

#{i 1 ,...,i k }=k<br />

δ (xi1 ,...,xi k )<br />

die Verteilung auf E k des k-fachen unabhängigen Ziehens (mit Beachtung der Reihenfolge)<br />

aus (x1,...,xn) ohne Zurücklegen. Für jedes x ∈ E N gilt<br />

�<br />

� μn,k(x) − νn,k(x) � � TV ≤ Rn,k :=<br />

k(k − 1)<br />

.<br />

n<br />

In der Tat ist die Wahrscheinlichkeit pn,k, beim k-maligen Ziehen (mit Zurücklegen)<br />

aus n unterscheidbaren Kugeln keine zwei gleichen Kugeln zu ziehen,<br />

k−1<br />

pn,k =<br />

�<br />

(1 − l/n)<br />

l=1<br />

und Rn,k ≥ 2(1 − pn,k). Wir erhalten also die, intuitiv klare, Aussage, dass sich<br />

für n →∞die Verteilungen des k-maligen Ziehens mit und ohne Zurücklegen<br />

annähern<br />

lim<br />

n→∞ sup<br />

x∈EN �<br />

�μn,k(x) − νn,k(x) � � =0.<br />

TV<br />

Seien nun f1,...,fk ∈ Cb(E) und F (x1,...,xk) :=f1(x1) ···fk(xk). Dann gilt<br />

wegen der Austauschbarkeit der Folge X1,X2,... für jede Wahl von paarweise<br />

unterschiedlichen Zahlen 1 ≤ i1,...,ik ≤ n<br />

E[F (X1,...,Xk)] = E[F (Xi1 ,...,Xik )].<br />

Indem wir über alle solchen Wahlen von i1,...,ik mitteln, erhalten wir


258 13 Konvergenz von Maßen<br />

E � f1(X1) ···fk(Xk) � = E � F (X1,...,Xk) � �<br />

= E<br />

�<br />

Also ist<br />

�<br />

�<br />

�E � f1(X1) ···fk(Xk) � �<br />

− E<br />

�<br />

� �<br />

�<br />

= �E<br />

�<br />

�<br />

f1 dξn(X) ···<br />

� �<br />

Fdνn,k(X) − E<br />

�<br />

�<br />

Fdνn,k(X) .<br />

��<br />

��<br />

fk dξn(X)<br />

��<br />

��<br />

Fdμn,k(X)<br />

n→∞<br />

≤�F�∞ Rn,k −→ 0.<br />

Wir machen uns jetzt das folgende Kriterium für die Straffheit von Teilmengen von<br />

M1(M1(E)) zu Nutze.<br />

Übung 13.4.1. Man zeige: Eine Teilmenge K ⊂ M1(M1(E)) ist genau dann<br />

straff, wenn für jedes ε>0 eine kompakte Menge K ⊂ E existiert mit der Eigenschaft<br />

�μ �� μ ∈M1(E) : μ(K c ) >ε �� 0 existiert also ein Kompaktum K ⊂ E<br />

mit P[X1 ∈ Kc ] ε] ≤ ε−1E[ξn(X)(Kc )] =<br />

ε−1P[X1 ∈ Kc ] ≤ ε. Also ist die Familie (Pξn(X))n∈N straff. Sei Ξ∞ eine Zufallsvariable<br />

(mit Werten in M1(E)), sodass PΞ∞ =w-lim<br />

l→∞ Pξn (X) für eine geeignete<br />

l<br />

Teilfolge (nl)l∈N. Die Abbildung ξ ↦→ � Fdξ= � f1 dξ ··· � fk dξ ist beschränkt<br />

und (als Produkt stetiger Abbildungen) stetig bezüglich der Topologie der schwachen<br />

Konvergenz auf M1(E), also aus Cb(M1(E)). Daher gilt<br />

�<br />

E<br />

�<br />

FdΞ ⊗k<br />

� �<br />

∞ = lim E<br />

l→∞ �<br />

�<br />

f1 dξnl (X) ··· fk dξnl (X)<br />

�<br />

= E � f1(X1) ···fk(Xk) � .<br />

Nun hängt der Grenzwert aber nicht mehr von der gewählten Teilfolge ab und ist<br />

damit eindeutig. Es folgt, noch einmal komplett ausgeschrieben, dass<br />

E � f1(X1) ···fk(Xk) � �<br />

= E<br />

�<br />

� �<br />

f1 dΞ∞ ···<br />

.<br />

fk dΞ∞<br />

Durch diese Integrale ist aber die Verteilung von (X1,...,Xk) vollständig bestimmt,<br />

und es folgt, dass P (X1,...,Xk) = P Ξ ⊗k<br />

∞ , oder als Zufallsvariablen ausgedrückt:<br />

(X1,...,Xk) D = (Y1,...,Yk), wo, gegeben Ξ∞, die Zufallsvariablen<br />

Y1,...,Yk unabhängig mit Verteilung Ξ∞.<br />

Übung 13.4.2. Man zeige: Eine Familie (Xn)n∈N von Zufallsvariablen ist genau<br />

dann austauschbar, wenn für jede Wahl von natürlichen Zahlen mit 1 ≤ n1


14 W-Maße auf Produkträumen<br />

Als Motivation betrachten wir das folgende Beispiel. Sei X eine uniform auf [0, 1]<br />

verteilte Zufallsvariable. Sobald wir den Wert von X kennen, wollen wir n mal<br />

eine Münze werfen, die Erfolgswahrscheinlichkeit X hat. Die Ergebnisse seien<br />

Y1,...,Yn.<br />

Wie konstruieren wir einen geeigneten Wahrscheinlichkeitsraum, auf dem alle Zufallsvariablen<br />

definiert sind?<br />

Eine Möglichkeit: Wir wissen schon, wie wir n +1unabhängige Zufallsvariablen<br />

Z0,...,Zn konstruieren, die uniform auf [0, 1] verteilt sind (siehe etwa Korollar<br />

2.23). Setze nun X = Z0 und<br />

�<br />

1, falls Zk


260 14 W-Maße auf Produkträumen<br />

14.1 Produkträume<br />

Definition 14.1 (Produktraum). Sei (Ωi, i∈ I) eine beliebige Familie von Mengen.<br />

Mit Ω = × Ωi bezeichnen wir die Menge der Abbildungen ω : I →<br />

i∈I<br />

�<br />

Ωi<br />

i∈I<br />

mit der Eigenschaft, dass ω(i) ∈ Ωi für jedes i ∈ I gilt. Ω heißt das Produkt der<br />

(Ωi, i∈ I), oder kurz Produktraum. Sind speziell alle Ωi gleich, etwa Ωi = Ω0,<br />

so schreiben wir Ω = × Ωi = Ω<br />

i∈I<br />

I 0.<br />

Beispiele 14.2. (i) Ist Ω1 = {1,...,6} und Ω2 = {1, 2, 3}, soist<br />

Ω1 × Ω2 = � ω =(ω1,ω2) : ω1 ∈{1,...,6}, ω2 ∈{1, 2, 3} � .<br />

(ii) Ist Ω0 = R und I = {1, 2, 3}, soistR {1,2,3} isomorph zum üblichen R3 .<br />

(iii) Ist Ω0 = R und I = N, soistRNder Raum der Folgen (ω(n), n∈ N) in R.<br />

(iv) Ist I = R und Ω0 = R,soistRRMenge der Abbildungen R → R. ✸<br />

Definition 14.3 (Koordinatenabbildung). Ist i ∈ I, so bezeichnet Xi : Ω → Ωi,<br />

ω ↦→ ω(i) die i-te Koordinatenabbildung. Allgemeiner nennen wir für J ⊂ J ′ ⊂ I<br />

die eingeschränkte Abbildung<br />

′<br />

J<br />

XJ : × Ωj −→ × j∈J ′<br />

j∈J<br />

Ωj, ω ′ ↦→ ω ′� �J<br />

die kanonische Projektion. Speziell schreiben wir XJ := X I J .<br />

(14.1)<br />

Definition 14.4 (Produkt-σ-Algebra). Seien (Ωi, Ai), i ∈ I, Messräume. Die<br />

Produkt-σ-Algebra<br />

A = �<br />

i∈I<br />

ist die kleinste σ- Algebra auf Ω, sodass für jedes i ∈ I die Abbildung Xi messbar<br />

bezüglich A – Ai ist:<br />

Ai<br />

A = σ � Xi, i∈ I � := σ � X −1<br />

i (Ai), i∈ I � .<br />

Ist (Ωi, Ai) =(Ω0, A0) für jedes i ∈ I, so schreiben wir auch A = A ⊗I<br />

0 .<br />

Für J ⊂ I schreiben wir ΩJ = × Ωj und AJ =<br />

j∈J<br />

�<br />

Aj.<br />

j∈J<br />

Bemerkung 14.5. Die Begriffsbildung der Produkt-σ-Algebra ist analog zu der der<br />

Produkttopologie: Sind((Ωi, τi),i ∈ I) topologische Räume, so ist die Produkttopologie<br />

τ auf Ω = × Ωi die gröbste Topologie, bezüglich der alle Koordinaten-<br />

i∈I<br />

abbildungen Xi : Ω −→ Ωi stetig sind. ✸


14.1 Produkträume 261<br />

Definition 14.6. Sei I �= ∅ eine beliebige Indexmenge, (E,E) ein Messraum,<br />

(Ω,A) =(E I , B(E) ⊗I ) und Xt : Ω → E die Koordinatenabbildung für jedes<br />

t ∈ I. Dann nennen wir die Familie (Xt)t∈I den kanonischen Prozess auf (Ω,A).<br />

Lemma 14.7. Sei ∅ �= J ⊂ I. Dann ist X I J messbar bezüglich AI – AJ.<br />

Beweis. Für jedes j ∈ J ist Xj = XJ j ◦ XI J messbar bezüglich A – Aj. Nach<br />

Korollar 1.82 ist daher XI J messbar. ✷<br />

Satz 14.8. Sei I höchstens abzählbar, und für jedes i ∈ I sei (Ωi, τi) polnisch mit<br />

Borel’scher σ-Algebra Bi = σ(τi). Esseiτdie Produkttopologie auf Ω = × Ωi<br />

i∈I<br />

und B = σ(τ).<br />

Dann ist (Ω, τ) polnisch und B = �<br />

Bi. Speziell ist B(Rd )=B(R) ⊗d für d ∈ N.<br />

i∈I<br />

Beweis. Ohne Einschränkung sei I = N.Für i ∈ N sei di eine vollständige Metrik,<br />

die τi erzeugt. Man prüft leicht nach, dass dann<br />

d(ω, ω ′ ):=<br />

∞�<br />

2 −i<br />

i=1<br />

di(ω(i),ω ′ (i))<br />

1+di(ω(i),ω ′ (i))<br />

(14.2)<br />

eine vollständige Metrik auf Ω ist, die τ erzeugt.<br />

Für jedes i ∈ N sei nun Di ⊂ Ωi eine abzählbare, dichte Teilmenge und yi ∈ Di<br />

ein beliebiger fester Punkt. Die Menge<br />

�<br />

�<br />

D = x ∈× Di : xi �= yi nur endlich oft<br />

i∈N<br />

ist, wie man leicht prüft, eine abzählbare, dichte Teilmenge von Ω.AlsoistΩsepa rabel und damit polnisch.<br />

Sei nun βi = {Bε(xi) : xi ∈ Di, ε∈ Q + } für jedes i ∈ I eine abzählbare Basis<br />

der Topologie von Ωi aus ε-Kugeln. Setze<br />

�<br />

N�<br />

�<br />

β :=<br />

∞�<br />

N=1<br />

i=1<br />

X −1<br />

i (Bi) : B1 ∈ β1,...,BN ∈ βN<br />

Dann ist β eine abzählbare Basis der Topologie τ, also ist jede offene Menge A ⊂ Ω<br />

(abzählbare) Vereinigung von Mengen in β ⊂ �<br />

i∈N Bi. Mithin ist τ ⊂ �<br />

i∈N Bi<br />

und damit B⊂ �<br />

i∈N Bi.<br />

Andererseits ist jedes Xi stetig, also messbar bezüglich B – Bi und damit B ⊃<br />

�<br />

i∈N Bi. ✷<br />

.


262 14 W-Maße auf Produkträumen<br />

Definition 14.9 (Zylindermengen). Für jedes i ∈ I sei Ei ⊂Ai ein Teilsystem der<br />

messbaren Mengen.<br />

Für jedes A ∈AJ heißt X −1<br />

(A) ⊂ Ω Zylindermenge mit Basis J. Die Menge<br />

J<br />

dieser Zylindermengen wird mit ZJ bezeichnet. Ist speziell A = ×j∈J Aj für ge-<br />

wisse Aj ∈Aj, so heißt X −1<br />

J (A) Rechteckzylinder mit Basis J. Die Menge dieser<br />

bezeichnet, die Menge aller Rechteckzylinder, für die<br />

Rechteckzylinder wird mit ZR J<br />

zusätzlich Aj ∈Ej für jedes j ∈ J gilt, mit Z E,R<br />

J .<br />

Wir schreiben<br />

Z =<br />

J⊂I endlich<br />

und definieren analog ZR und ZE,R . Ferner definieren wir<br />

und analog Z E,R<br />

∗ .<br />

Z R ∗ =<br />

∞�<br />

N=1<br />

� N�<br />

n=1<br />

�<br />

ZJ, (14.3)<br />

An : A1,...,An ∈Z R<br />

Bemerkung 14.10. Jedes ZJ ist eine σ-Algebra, und Z und Z R ∗ sind Algebren.<br />

Außerdem gilt �<br />

i∈I Ai = σ(Z). ✸<br />

Lemma 14.11. Ist jedes Ei schnittstabil, beziehungsweise ein Semiring, so ist Z E,R<br />

schnittstabil, beziehungsweise ein Semiring.<br />

Beweis. Übung! ✷<br />

Satz 14.12. Für jedes i ∈ I sei Ei ⊂Ai ein Erzeuger von Ai.<br />

(i) Für jedes endliche J ⊂ I gilt � �<br />

�<br />

Aj = σ × Ej : Ej ∈Ej .<br />

j∈J<br />

j∈J<br />

(ii) Es gilt �<br />

Ai = σ(Z R )=σ � ZE,R� .<br />

i∈I<br />

(iii) Sei μ ein σ-endliches Maß auf A, und sei jedes Ei zudem schnittstabil. Ferner<br />

gebe es eine Folge (En)n∈N in Z E,R mit En ↑ Ω und μ(En) < ∞ für jedes<br />

n ∈ N (speziell ist diese Bedingung natürlich erfüllt, wenn μ endlich ist und<br />

Ωi ∈Ei für jedes i ∈ I). Dann ist μ durch Angabe von μ(A) für jedes A ∈<br />

Z E,R eindeutig festgelegt.<br />

Beweis. (i) Sei A ′ J<br />

�<br />

= σ<br />

× j∈J<br />

× j∈J<br />

�<br />

�<br />

Ej : Ej ∈Ej für jedes j ∈ J .Esist<br />

Ej = �<br />

j∈J<br />

(X J j ) −1 (Ej) ∈AJ,


14.2 Endliche Produkte und Übergangskerne 263<br />

also A ′ J ⊂AJ. Umgekehrt gilt (X J j )−1 (Ej) ∈A ′ J für j ∈ J und Ej ∈Ej. Da<br />

Ei ein Erzeuger von Ai ist, ist (X J j )−1 (Aj) ∈A ′ J für jedes Aj ∈Aj, also gilt<br />

AJ ⊂A ′ J .<br />

(ii) Offenbar ist Z E,R ⊂Z R ⊂A, also auch σ(Z E,R ) ⊂ σ(Z R ) ⊂A. Nach<br />

Satz 1.81 gilt σ � Z E,R�<br />

{i} = σ(Xi) für jedes i ∈ I, also σ(Xi) ⊂ σ(Z E,R ) und damit<br />

AI ⊂ σ(Z E,R ).<br />

(iii) Nach (ii) und Lemma 14.11 ist Z E,R ein schnittstabiler Erzeuger von A. Die<br />

Aussage folgt daher aus Lemma 1.42. ✷<br />

Übung 14.1.1. Man zeige:<br />

�<br />

Ai =<br />

i∈I<br />

�<br />

J⊂I abzählbar<br />

ZJ. (14.4)<br />

Hinweis: Man zeige, dass die rechte Seite eine σ-Algebra ist. ♣<br />

14.2 Endliche Produkte und Übergangskerne<br />

Wir betrachten jetzt die Situation endlich vieler σ-endlicher Maßräume (Ωi, Ai,μi),<br />

i =1,...,n, wobei n ∈ N.<br />

Lemma 14.13. Sei A ∈A1 ⊗A2 und f : Ω1 × Ω2 → R eine A1 ⊗A2-messbare<br />

Abbildung. Dann gilt für jedes ˜ω1 ∈ Ω1 und ˜ω2 ∈ Ω2<br />

A˜ω1 := {ω2 ∈ Ω2 :(˜ω1,ω2) ∈ A} ∈A2,<br />

A˜ω2 := {ω1 ∈ Ω1 :(ω1, ˜ω2) ∈ A} ∈A1,<br />

f˜ω1 : Ω2 → R, ω2↦→ f(˜ω1,ω2) ist A2–messbar,<br />

f˜ω2 : Ω1 → R, ω1↦→ f(ω1, ˜ω2) ist A1–messbar.<br />

Beweis. Für ˜ω1 definiere die Einbettung i : Ω2 → Ω1×Ω2 durch i(ω2) =(˜ω1,ω2).<br />

Da X1 ◦ i konstant gleich ˜ω1 ist (also A1-messbar), und X2 ◦ i =idΩ2 (also A2messbar),<br />

ist nach Korollar 1.82 die Abbildung i messbar bezüglich A2 – (A1⊗A2).<br />

Mithin ist A˜ω1 = i−1 (A) ∈A2 und f˜ω1 = f ◦ i messbar bezüglich A2. ✷<br />

Der folgende Satz verallgemeinert Satz 1.61.


264 14 W-Maße auf Produkträumen<br />

Satz 14.14 (Endliche Produktmaße). Es existiert genau ein σ-endliches Maß μ<br />

auf A := �n i=1 Ai mit<br />

n�<br />

μ(A1 ×···×An) = μi(Ai) für Ai ∈Ai, i=1,...,n. (14.5)<br />

Wir nennen<br />

i=1<br />

n�<br />

μi := μ1 ⊗···⊗μn := μ das Produktmaß der μi.<br />

i=1<br />

Sind alle Räume gleich (Ω0, A0,μ0), so schreiben wir μ ⊗n<br />

0 := n�<br />

Beweis. Sei ˜μ auf Z R wie μ in (14.5) festgesetzt. Offenbar ist ˜μ(∅) = 0, und<br />

man überlegt sich leicht, dass ˜μ σ-endlich ist. Seien A 1 ,A 2 ,... ∈Z R paarweise<br />

disjunkt und A ∈Z R mit A ⊂ � ∞<br />

k=1 Ak . Dann ist nach dem Satz über monotone<br />

Konvergenz<br />

�<br />

˜μ(A) =<br />

�<br />

≤<br />

�<br />

μ1(dω1) ···<br />

�<br />

μ1(dω1) ···<br />

k=1<br />

i=1<br />

μ0.<br />

μn(dωn) A((ω1,...,ωn))<br />

∞�<br />

μn(dωn) Ak((ω1,...,ωn)) ∞�<br />

= ˜μ(A k ).<br />

Ist speziell A = A 1 � A 2 ,soerhält man analog ˜μ(A) =˜μ(A 1 )+˜μ(A 2 ). Mithin ist<br />

˜μ eine σ-endliche, additive, σ-subadditive Mengenfunktion auf dem Semiring Z R<br />

mit ˜μ(∅) =0. Nach dem Fortsetzungssatz (Satz 1.53) kann ˜μ in eindeutiger Weise<br />

zu einem σ-endlichen Maß fortgesetzt werden. ✷<br />

Beispiel 14.15. Für i =1,...,nsei (Ωi, Ai, Pi) ein Wahrscheinlichkeitsraum. Auf<br />

dem Raum (Ω,A, P) := � × n<br />

i=1 Ωi, �n i=1 Ai, �n i=1 Pi<br />

�<br />

sind die Koordinatenabbildungen<br />

Xi : Ω → Ωi unabhängig mit Verteilung PXi = Pi. ✸<br />

k=1


14.2 Endliche Produkte und Übergangskerne 265<br />

Satz 14.16 (Fubini). Seien (Ωi, Ai,μi) σ-endliche Maßräume, i = 1, 2, sowie<br />

f : Ω1 × Ω2 → R messbar bezüglich A1 ⊗A2.Istf≥ 0 oder f ∈L1 (μ1 ⊗ μ2),<br />

dann gelten<br />

�<br />

ω1 ↦→ f(ω1,ω2) μ2(dω2) ist A1-messbar,<br />

�<br />

(14.6)<br />

ω2 ↦→ f(ω1,ω2) μ1(dω1) ist A2-messbar,<br />

und<br />

�<br />

Ω1×Ω2<br />

�<br />

fd(μ1 ⊗ μ2) =<br />

�<br />

=<br />

Ω1<br />

Ω2<br />

��<br />

��<br />

Ω2<br />

Ω1<br />

�<br />

f(ω1,ω2) μ2(dω2) μ1(dω1)<br />

�<br />

f(ω1,ω2) μ1(dω1) μ2(dω2).<br />

(14.7)<br />

Beweis. Der Beweis folgt dem üblichen Schema der schrittweisen Approximation<br />

ausgehend von einfachen Funktionen.<br />

Sei zunächst f = A für A = A1 × A2 mit A1 ∈A1 und A2 ∈A2. Dann gelten<br />

(14.6) und (14.7) trivialerweise. Durch endliche Summenbildung gilt dies nun auch<br />

für A ∈Z R ∗ (Algebra der endlichen Vereinigungen von Rechtecken).<br />

Sei nun A ∈ A1 ⊗A2. Nach dem Approximationssatz (Satz 1.65) gibt es eine<br />

Folge von Mengen (A n )n∈N in Z R ∗ ,dieA dem Maße μ1 ⊗ μ2 nach approximieren.<br />

Da Limiten messbarer Funktionen wieder messbar sind, und nach Konstruktion die<br />

Integrale konvergieren, gelten (14.6) und (14.7) jetzt auch für f = A und A ∈<br />

A1 ⊗A2. Durch endliche Summenbildung gelten nun (14.6) und (14.7) auch für<br />

den Fall, wo f eine Elementarfunktion ist.<br />

Wir betrachten jetzt f ≥ 0. Dann existiert nach Satz 1.96 eine Folge von Elementarfunktionen<br />

(fn)n∈N mit fn ↑ f. Nach dem Satz von der monotonen Konvergenz<br />

(Satz 4.20) gelten (14.6) und (14.7) nun auch für dieses f.<br />

Ist f ∈L 1 (μ1⊗μ2),dannistf = f + −f − mit integrierbaren Funktionen f + ,f − ≥<br />

0, für die (14.6) und (14.7) gelten, also auch für f. ✷<br />

In Definition 2.32 hatten wir die Faltung zweier W-Maße μ und ν als die Verteilung<br />

der Summe zweier unabhängiger, wie μ und ν verteilter Zufallsvariablen definiert.<br />

Als eine einfache Anwendung des Satzes von Fubini wollen wir eine neue Definition<br />

geben (die natürlich mit der alten konsistent ist), die alle endlichen Maße auf dem<br />

R n umfasst. Haben diese Maße zusätzlich Dichten bezüglich des Lebesgue-Maßes,<br />

so können wir eine explizite Formel zur Berechnung der Faltung angeben.<br />

Seien also X und Y R n -wertige Zufallsvariablen mit Dichten fX und fY .Das<br />

heißt, fX,fY : R n → [0, ∞] sind messbar und integrierbar bezüglich des ndimensionalen<br />

Lebesgue-Maßes λ n , und es gilt für jedes x ∈ R n


266 14 W-Maße auf Produkträumen<br />

�<br />

P[X ≤ x] = fX(t) λ<br />

(−∞,x]<br />

n �<br />

(dt) und P[Y ≤ x] = fY (t) λ<br />

(−∞,x]<br />

n (dt).<br />

Hierbei ist (−∞,x]={y ∈ R n : yi ≤ xi für i =1,...,n} (vergleiche (1.5)).<br />

Definition 14.17. Sei n ∈ N. Für zwei Lebesgue-integrierbare Abbildungen f,g :<br />

Rn → [0, ∞] definieren wir die Faltung f ∗ g : Rn → [0, ∞] durch<br />

�<br />

(f ∗ g)(x) = f(y) g(x − y) λ n (dy).<br />

R n<br />

Für zwei endliche Maße μ, ν ∈ Mf (R n ) definieren wir die Faltung μ ∗ ν ∈<br />

Mf (R n ) durch<br />

� �<br />

(μ ∗ ν)((−∞,x]) =<br />

wobei Ax := {(u, v) ∈ R n × R n : u + v ≤ x} ist.<br />

Ax (u, v) μ(du) ν(dv),<br />

Lemma 14.18. Die Abbildung f ∗ g ist messbar, und es gelten f ∗ g = g ∗ f und<br />

�<br />

(f ∗ g) dλ n ��<br />

= fdλ n<br />

���<br />

gdλ n<br />

�<br />

.<br />

R n<br />

Ebenso gelten μ ∗ ν = ν ∗ μ und (μ ∗ ν)(R n )=μ(R n ) ν(R n ).<br />

R n<br />

Beweis. Die Aussagen folgen direkt aus dem Satz von Fubini. ✷<br />

Satz 14.19 (Faltung von n-dimensionalen Maßen).<br />

(i) Sind X und Y unabhängige R n -wertige Zufallsvariablen mit Dichten fX und<br />

fY ,sohatX + Y die Dichte fX ∗ fY .<br />

(ii) Sind μ = fλ n und ν = gλ n endliche Maße mit Dichten f und g bezüglich<br />

des Lebesgue-Maßes, so gilt μ ∗ ν =(f ∗ g)λ n .<br />

Beweis. (i) Sei x ∈ R n und A := {(u, v) ∈ R n × R n : u + v ≤ x}. Dann gilt<br />

nach mehrfacher Anwendung des Satzes von Fubini (sowie der Translationsinvarianz<br />

von λ n )<br />

R n


14.2 Endliche Produkte und Übergangskerne 267<br />

P[X + Y ≤ x] =P[(X, Y ) ∈ A]<br />

�<br />

=<br />

Rn ×Rn �<br />

=<br />

Rn ��<br />

Rn A(u, v) fX(u) λ n �<br />

(du)<br />

�<br />

=<br />

Rn �� fX(u) λ<br />

(−∞,x−v]<br />

n �<br />

(du)<br />

�<br />

=<br />

Rn �� fX(u − v) λ<br />

(−∞,x]<br />

n �<br />

(du)<br />

� ��<br />

=<br />

�<br />

=<br />

(−∞,x]<br />

A(u, v) fX(u) fY (v) (λ n ) ⊗2 (d(u, v))<br />

R n<br />

(fX ∗ fY ) dλ<br />

(−∞,x]<br />

n .<br />

fY (v) λ n (dv)<br />

fY (v) λ n (dv)<br />

fY (v) λ n (dv)<br />

fX(u − v) fY (v) λ n �<br />

(dv) λ n (du)<br />

(ii) Ersetze in (i) μ = PX und ν = PY . Die Aussage folgt unmittelbar. ✷<br />

Wir kommen zu einer Begriffsbildung, die diejenige der Produktmaße verallgemeinert<br />

und in Richtung unseres Eingangsbeispiels steuert.<br />

Wir erinnern an den Begriff des Übergangskerns aus Definition 8.24.<br />

Lemma 14.20. Sei κ ein endlicher Übergangskern von (Ω1, A1) nach (Ω2, A2),<br />

und sei f : Ω1 × Ω2 → [0, ∞] messbar bezüglich A1 ⊗A2 −B([0, ∞]). Dann ist<br />

die Abbildung<br />

If : Ω1 → [0, ∞]<br />

�<br />

ω1 ↦→ f(ω1,ω2) κ(ω1,dω2)<br />

wohldefiniert und A1–messbar.<br />

Beweis. Nach Lemma 14.13 ist für jedes ω1 ∈ Ω1 die Abbildung fω1 messbar<br />

bezüglich A2, also ist If (ω1) = � fω1 (ω2) κ(ω1,dω2) wohldefiniert. Wir müssen<br />

also nur noch die Messbarkeit von If zeigen.<br />

Ist g = A1×A2 für A1 ∈A1und A2 ∈A2, soistIg(ω1) = A1 (ω1)κ(ω1,A2)<br />

offenbar messbar. Sei nun D = � A ∈A1⊗A2 : I ist A1–messbar A � . Wir zeigen,<br />

dass D ein Dynkin-System ist:<br />

(i) Offenbar ist Ω1 × Ω2 ∈D.<br />

(ii) Sind A, B ∈Dmit A ⊂ B,soistI B\A = I B − I A messbar, wobei wir die<br />

Endlichkeit von κ ausgenutzt haben, also ist B \ A ∈D.


268 14 W-Maße auf Produkträumen<br />

(iii) Sind A1,A2,... ∈Dpaarweise disjunkt und A := �∞ n=1 An,<br />

�<br />

soistI = A<br />

∞<br />

n=1 I messbar, also A ∈D.<br />

An<br />

Nun ist D also ein Dynkin-System, das den schnittstabilen Erzeuger aller Rechteckmengen<br />

in A1 ⊗A2 enthält, also ist (nach Satz 1.19) D = A1 ⊗A2. Mithin<br />

ist I A messbar für jedes A ∈ A1 ⊗A2. Es folgt, dass Ig messbar ist für<br />

jede Elementarfunktion. Sei nun (fn)n∈N eine Folge von Elementarfunktion mit<br />

fn ↑ f.Für jedes feste ω1 ∈ Ω1 gilt nach dem Satz von der monotonen Konvergenz<br />

If (ω1) = limn→∞ Ifn (ω1), und If ist als Limes messbarer Funktionen messbar. ✷<br />

Bemerkung 14.21. Wir schreiben im Folgenden oft � κ(ω1,dω2) f(ω1,ω2) statt<br />

� f(ω1,ω2) κ(ω1,dω2), denn bei Mehrfachintegralen erlaubt diese Notation es, den<br />

Integrator näher an das betreffende Integralzeichen heran zu rücken. ✸<br />

Satz 14.22. Seien (Ωi, Ai), i = 0, 1, 2, Messräume und κ1 ein endlicher Übergangskern<br />

von (Ω0, A0) nach (Ω1, A1) sowie κ2 ein endlicher Übergangskern von<br />

(Ω0 × Ω1, A0 ⊗A1) nach (Ω2, A2). Dann ist die Abbildung<br />

κ1 ⊗ κ2 : Ω0 × (A1 ⊗A2) → [0, ∞)<br />

�<br />

�<br />

(ω0,A) ↦→ κ1(ω0,dω1)<br />

Ω1<br />

Ω2<br />

κ2((ω0,ω1),dω2) A((ω1,ω2))<br />

wohldefiniert und ist ein σ-endlicher (aber nicht notwendig endlicher) Übergangskern<br />

von (Ω0, A0) nach (Ω1 × Ω2, A1 ⊗A2). Sindκ1 und κ2 (sub-)stochastisch,<br />

so ist κ1 ⊗ κ2 (sub-)stochastisch. Wir nennen κ1 ⊗ κ2 das Produkt von κ1 und κ2.<br />

Ist κ2 ein Kern von (Ω1, A1) nach (Ω2, A2), sodefinieren wir das Produkt κ1 ⊗<br />

κ2 analog, indem wir κ2 einfach formal als Kern von (Ω0 × Ω1, A0 ⊗A1) nach<br />

(Ω2, A2) auffassen, der nicht von der Ω0-Koordinate abhängt.<br />

Beweis. Sei A ∈A1⊗A2. Die Abbildung<br />

�<br />

gA :(ω0,ω1) ↦→ κ2((ω0,ω1),dω2) A(ω1,ω2)<br />

ist nach Lemma 14.20 wohldefiniert und messbar bezüglich A0 ⊗A1. Daher ist,<br />

wiederum nach Lemma 14.20, die Abbildung<br />

�<br />

ω0 ↦→ κ1 ⊗ κ2(ω0,A)= κ1(ω0,dω1) gA(ω0,ω1)<br />

wohldefiniert und A0-messbar. Für festes ω0 ist nach dem Satz über monotone Konvergenz<br />

die Abbildung A ↦→ κ1 ⊗ κ2(ω0,A) σ-additiv, also ein Maß.<br />

Für ω0 ∈ Ω0 und n ∈ N sei Aω0,n := {ω1 ∈ Ω1 : κ2((ω0,ω1),Ω2) < n}.<br />

Da κ2 endlich ist, gilt �<br />

n≥1 Aω0,n = Ω1 für jedes ω0 ∈ Ω0, und es gilt κ1 ⊗<br />

κ2(ω0,An × Ω2) ≤ n · κ1(ω0,An) < ∞. Alsoistκ1 ⊗ κ(ω0, · ) σ-endlich und<br />

damit ein Übergangskern.<br />

Der Zusatz ist trivial. ✷


14.2 Endliche Produkte und Übergangskerne 269<br />

Korollar 14.23 (Produkte mit Kernen). Sei (Ω1, A1,μ) ein endlicher Maßraum,<br />

(Ω2, A2) ein Messraum und κ ein endlicher Übergangskern von Ω1 nach Ω2.<br />

Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ ⊗ κ auf (Ω1 ×<br />

Ω2, A1 ⊗A2) mit<br />

�<br />

μ ⊗ κ(A1 × A2) = κ(ω1,A2) μ(dω1) für alle A1 ∈A1, A2∈A2. A1<br />

Ist κ stochastisch und μ ein W-Maß, so ist μ ⊗ κ ein W-Maß.<br />

Beweis. Wende Satz 14.22 an mit κ2 = κ und κ1(ω0, · )=μ. ✷<br />

Korollar 14.24. Seien n ∈ N und (Ωi, Ai), i =0,...,n, Messräume. Für i =<br />

� �<br />

i−1 i−1 �<br />

1,...,nsei κi ein substochastischer Kern von × Ωk, Ak nach (Ωi, Ai)<br />

k=0 k=0<br />

oder von (Ωi−1, Ai−1) nach (Ωi, Ai). Dann definiert die Rekursion κ1 ⊗ ··· ⊗<br />

κi := (κ1 ⊗···⊗κi−1) ⊗ κi für jedes i =1,...,neinen substochastischen Kern<br />

i�<br />

� i<br />

i�<br />

�<br />

κk := κ1 ⊗ ··· ⊗ κi von (Ω0, A0) nach × Ωk, Ak . Sind alle κi<br />

k=1<br />

k=1 k=0<br />

i�<br />

stochastisch, so ist jedes κk stochastisch.<br />

k=1<br />

Ist μ ein endliches Maß auf (Ω0, A0), soistμi := μ ⊗ i�<br />

κk ein endliches Maß<br />

k=1<br />

� i i�<br />

�<br />

auf × Ωk, Ak .Istμein W-Maß und jedes κi stochastisch, so ist μi ein<br />

k=0 k=0<br />

Wahrscheinlichkeitsmaß.<br />

Beweis. Die Aussagen folgen per Induktion aus Satz 14.22. ✷<br />

Definition 14.25 (Verkettung von Kernen). Seien (Ωi, Ai) Messräume, i =0, 1, 2,<br />

und κi ein substochastischer Kern von (Ωi−1, Ai−1) nach (Ωi, Ai), i =1, 2. Wir<br />

definieren die Verkettung von κ1 und κ2 durch<br />

κ1 · κ2 : Ω0 ×A2 → [0, ∞)<br />

�<br />

(ω0,A2) ↦→ κ1(ω0,dω1) κ2(ω1,A2).<br />

Ω1<br />

Satz 14.26. Bezeichnen wir mit π2 : Ω1 × Ω2 → Ω2 die Projektion auf die zweite<br />

Koordinate, so ist<br />

(κ1 · κ2)(ω0,A2) =(κ1⊗ κ2) � ω0,π −1 �<br />

2 (A2) für jedes A2 ∈A2.<br />

Speziell ist die Verkettung κ1 · κ2 ein (sub-)stochastischer Kern von (Ω0, A0) nach<br />

(Ω2, A2).


270 14 W-Maße auf Produkträumen<br />

Beweis. Klar. ✷<br />

Lemma 14.27 (Kerne und Faltung). Seien μ und ν W-Maße auf R d und die Kerne<br />

κi :(R d , B(R d )) → (R d , B(R d )), i =1, 2, definiert durch κ1(x, dy) =μ(dy)<br />

sowie κ2(y, dz) =(δy ∗ ν)(dz). Dann ist κ1 · κ2 = μ ∗ ν.<br />

Beweis. Das ist trivial. ✷<br />

Satz 14.28 (Kerne und Faltung). Seien X1,X2,... unabhängige Rd-wertige Zufallsvariablen<br />

mit Verteilungen μi := Pi, i =1,...,n. Setze Sk := X1 + ...+<br />

Xk für k = 1,...,n und definiere stochastische Kerne von Rd nach Rd durch<br />

κk(x, · )=δx ∗ μk für k =1,...,n. Dann gilt<br />

�<br />

n�<br />

�<br />

(0, · )=P (S1,...,Sn). (14.8)<br />

k=1<br />

κk<br />

Beweis. Für k =1,...,n definiere die messbare Bijektion ϕk :(R d ) k → (R d ) k<br />

durch<br />

ϕk(x1,...,xk) =(x1,x1 + x2,...,x1 + ...+ xk).<br />

Offenbar ist B((Rd ) n �<br />

)=σ ϕn(A1 ×···×An) : A1,...,An ∈B(Rd ) � . Es reicht<br />

also (14.8) für Mengen von diesem Typ nachzuweisen, also zu zeigen, dass<br />

�<br />

�n<br />

�<br />

n�<br />

(0,ϕk(A1×···×An)) = P (S1,...,Sn)(ϕn(A1×···×An)) = μk(Ak).<br />

κk<br />

k=1<br />

Für n =1ist die Aussage klar. Per Definition ist κn(yn−1,yn−1 + An) =μn(An).<br />

Induktiv folgt<br />

�<br />

�n<br />

�<br />

(0,ϕn(A1 ×···×An))<br />

κk<br />

k=1<br />

�<br />

=<br />

=<br />

ϕn−1(A1×···×An−1)<br />

� n−1<br />

�<br />

k=1<br />

� n−1<br />

�<br />

k=1<br />

κk<br />

k=1<br />

�<br />

�0,d(y1,...,yk−1) � � �<br />

κn yn−1,yn−1 + An<br />

�<br />

μk(Ak) μn(An). ✷<br />

Satz 14.29 (Fubini für Übergangskerne). Seien (Ωi, Ai) Messräume, i =1, 2, μ<br />

ein endliches Maß auf (Ω1, A1), κ ein endlicher Übergangskern von Ω1 nach Ω2<br />

sowie f : Ω1×Ω2 → R messbar bezüglich A1⊗A2.Istf ≥ 0 oder f ∈L 1 (μ⊗κ),<br />

dann gilt<br />

�<br />

Ω1×Ω2<br />

�<br />

fd(μ⊗ κ) =<br />

Ω1<br />

��<br />

Ω2<br />

�<br />

f(ω1,ω2) κ(ω1,dω2) μ1(dω1). (14.9)


14.2 Endliche Produkte und Übergangskerne 271<br />

Beweis. Für f = A1×A2 mit A1 ∈ A1 und A2 ∈ A2 gilt die Aussage per<br />

Definition. Für allgemeine f verwenden wir die Approximationsargumente wie in<br />

Satz 14.16. ✷<br />

Beispiel 14.30. Wir kommen auf das Beispiel vom Anfang des Kapitels zurück. Sei<br />

n ∈ N und (Ω2, A2) = � {0, 1} n , (2 {0,1} ) ⊗n� der Raum des n-fachen Münzwurfs.<br />

Für jedes p ∈ [0, 1] definieren wir<br />

Pp =(Berp) ⊗n = � �⊗n. (1 − p)δ0 + pδ1<br />

Pp ist dasjenige W-Maß auf (Ω2, A2), mit dem die Koordinatenabbildungen Yi unabhängige<br />

Bernoulli-Zufallsvariablen mit Erfolgswahrscheinlichkeit p sind.<br />

Ferner sei Ω1 =[0, 1] und A1 = B([0, 1]) die Borel’sche σ-Algebra auf Ω1, sowie<br />

μ = U [0,1] die Gleichverteilung auf [0, 1]. Die identische Abbildung X : Ω1 →<br />

[0, 1], ist dann eine uniform auf [0, 1] verteilte Zufallsvariable auf (Ω1, A1,μ).<br />

Schließlich betrachten wir den stochastischen Kern von Ω1 nach Ω2<br />

κ(ω1, · )=Pω1 .<br />

Setzen wir Ω = Ω1 × Ω2, A = A1 ⊗A2 und P = μ ⊗ κ, dann beschreiben X und<br />

Y1,...,Yn genau die Zufallsvariablen auf (Ω,A, P) aus dem Beispiel am Anfang<br />

des Kapitels. ✸<br />

Bemerkung 14.31. Das Verfahren lässt sich natürlich für n-stufige Experimente<br />

erweitern. Sei (Ωi, Ai) der Messraum des i-ten Experiments, i = 0,...,n −<br />

1. SeiP0 ein W-Maß auf (Ω0, A0). Für i = 1,...,n − 1 sei die Verteilung<br />

auf (Ωi, Ai) abhängig von (ω1,...,ωi−1) und gegeben durch einen stochastischen<br />

Kern κi von Ω0 × ··· × Ωi−1 nach Ωi. Das gesamte n-stufige Experi-<br />

ment wird dann durch die Koordinatenabbildungen in dem Wahrscheinlichkeitsraum<br />

Ωi, n−1 �<br />

Ai, P0 ⊗ n−1<br />

�<br />

�<br />

beschrieben. ✸<br />

� n−1<br />

×<br />

i=0<br />

i=0<br />

κi<br />

i=1<br />

Übung 14.2.1. Man zeige die Faltungsformeln:<br />

(i) Normalverteilung: N μ1,σ 2 1 ∗N μ2,σ 2 2 = N μ1+μ2,σ 2 1 +σ 2 2 für alle μ1,μ2 ∈ R und<br />

σ 2 1,σ 2 2 > 0.<br />

(ii) Gamma-Verteilung: Γθ,r ∗ Γθ,s = Γθ,r+s für alle θ, r, s > 0.<br />

(iii) Cauchy-Verteilung: Caur ∗ Caus =Caur+sfür alle r, s > 0. ♣<br />

Übung 14.2.2 (Hilbert-Schmidt Operator). Seien (Ωi, Ai,μi), i = 1, 2, σendliche<br />

Maßräume und a : Ω1 × Ω2 → R messbar mit<br />

� �<br />

μ1(dt1) μ2(dt2) a(t1,t2) 2 < ∞.


272 14 W-Maße auf Produkträumen<br />

Für f ∈L2 (μ1) definiere<br />

�<br />

(Af)(t2) = a(t1,t2)f(t1) μ1(dt1).<br />

Zeige: A ist ein stetiger linearer Operator von L 2 (μ1) nach L 2 (μ2). ♣<br />

Übung 14.2.3 (Partielle Integration). Seien Fμ und Fν die Verteilungsfunktionen<br />

der lokal endlichen Maße μ und ν auf R.Für x ∈ R definieren wir den linksseitigen<br />

Grenzwert F (x−) =supy


14.3 Satz von Ionescu-Tulcea und Projektive Familien 273<br />

Satz 14.32 (Ionescu-Tulcea). Es gibt ein eindeutig bestimmtes W-Maß auf (Ω,A),<br />

sodass (14.11) gilt.<br />

Beweis. Die Eindeutigkeit ist klar, weil die endlichdimensionalen Rechteckzylinder<br />

einen schnittstabilen Erzeuger von A bilden. Es bleibt die Existenz zu zeigen.<br />

Wir definieren eine Mengenfunktion P auf den Zylindermengen Z durch (14.11).<br />

Offenbar ist P additiv, also ein Inhalt. Ist P nun aber ∅-stetig, so ist P nach Satz 1.36<br />

ein Prämaß und lässt sich nach dem Satz von Carathéodory (Satz 1.41) eindeutig zu<br />

einem Maß auf A fortsetzen.<br />

Sei also A0 ⊃ A1 ⊃ A2 ⊃ ...eine Folge in Z mit α := infn∈N0 P (An) > 0. Es<br />

reicht zu zeigen, dass �∞ n=0 An �= ∅. Ohne Einschränkung können wir annehmen,<br />

dass An = A ′ n × × ∞<br />

k=n+1 Ωk für gewisses A ′ n ∈An .Für n ≥ m setze<br />

hm,n(ω0,...,ωm) :=<br />

� n�<br />

k=m+1<br />

κk<br />

�<br />

�(ω0,...,ωm),A ′ �<br />

n<br />

und hm := infn≥m hm,n. Wir zeigen induktiv, dass es ϱi ∈ Ωi, i ∈ N0, gibt mit<br />

Wegen A ′ n+1 ⊂ A ′ n × Ωn+1 gilt<br />

hm,n+1(ω0,...,ωm) =<br />

≤<br />

=<br />

� n+1<br />

�<br />

hm(ϱ0,...,ϱm) ≥ α. (14.12)<br />

k=m+1<br />

� n+1<br />

�<br />

k=m+1<br />

� n�<br />

k=m+1<br />

κk<br />

κk<br />

κk<br />

�<br />

�(ω0,...,ωm),A ′ �<br />

n+1<br />

�<br />

�(ω0,...,ωm),A ′ �<br />

n × Ωn+1<br />

�<br />

�(ω0,...,ωm),A ′ �<br />

n = hm,n(ω0,...,ωm).<br />

Also gilt hm,n ↓ hm für n →∞und nach dem Satz von der monotonen Konvergenz<br />

�<br />

�<br />

hm dPm = inf<br />

n≥m<br />

hm,n dPm =inf<br />

n∈N Pn(A ′ n)=α.<br />

Daher gilt (14.12) für m =0. Gelte nun (14.12) für ein m ∈ N0. Dannist<br />

�<br />

� �<br />

hm+1(ϱ0,...,ϱm,ωm+1) κm+1 (ϱ0,...,ϱm),dωm+1<br />

�<br />

� �<br />

= inf hm+1,n(ϱ0,...,ϱm,ωm+1) κm+1 (ϱ0,...,ϱm),dωm+1<br />

n≥m+1<br />

= hm(ϱ0,...,ϱm) ≥ α.<br />

Es folgt (14.12) für m +1.<br />

Sei ϱ := (ϱ0,ϱ1,...) ∈ Ω. Nach Konstruktion ist α ≤ hm,m(ϱ0,...,ϱm) =<br />

A ′ m (ϱ0,...,ϱm), also ϱ ∈ Am für jedes m ∈ N und damit � ∞<br />

i=0 Ai �= ∅. ✷


274 14 W-Maße auf Produkträumen<br />

Korollar 14.33 (Produktmaß). Für jedes n ∈ N0 sei Pn ein W-Maß auf (Ωn, An).<br />

Dann existiert ein eindeutig bestimmtes W-Maß P auf (Ω,A) mit<br />

�<br />

�<br />

n�<br />

P A0 ×···×An × = Pk(Ak)<br />

∞<br />

× Ωi<br />

i=n+1<br />

für Ai ∈Ai, i =0,...,nund n ∈ N0.<br />

Wir nennen �∞ i=0 Pi := P das Produkt der Maße P0,P1,... Unter P sind die<br />

Koordinatenabbildungen (Xi)i∈N0 unabhängig.<br />

Beweis. Wende den Satz von Ionescu-Tulcea mit κi((ω0,...,ωi−1), · )=Pi an.✷<br />

Wir wollen nun eine dem Satz von Ionescu-Tulcea vergleichbare Aussage treffen,<br />

dabei jedoch auf die Annahme verzichten, dass die Maße Pk auf A k a priori durch<br />

Kerne definiert werden. Bevor wir den Satz formulieren, wollen wir die Konsistenzbedingung<br />

(14.10) verallgemeinern. (Erinnerung: für L ⊂ J ⊂ I bezeichnet<br />

X J L : ΩJ −→ ΩL die Projektion.)<br />

Definition 14.34. Eine Familie (PJ, J⊂ I endlich) von W -Maßen auf (ΩJ, AJ)<br />

heißt projektive Familie, falls für alle endlichen L ⊂ J ⊂ I gilt<br />

Ist P ein W-Maß auf (Ω,A), wobei<br />

Ω =× i∈I<br />

PL = PJ ◦ � X J�−1 L .<br />

k=0<br />

Ωi und A = �<br />

Ai,<br />

,J ⊂ I endlich) projektiv.<br />

Projektivität ist also eine notwendige Bedingung für die Existenz des Maßes<br />

P auf dem Produktraum. Sind alle beteiligten Messräume Borel’sche Räume (siehe<br />

Definition 8.34) – also beispielsweise Rd , Zd , C([0, 1]) oder allgemeiner polnische<br />

Räume –, so ist diese Bedingung auch ausreichend. Wir formulieren diese Aussage<br />

zunächst für abzählbare Indexmengen.<br />

so ist wegen XL = XJ L ◦ XJ, die Familie (PJ := P ◦ X −1<br />

J<br />

Satz 14.35. Sei I höchstens abzählbar, und seien (Ωi, Ai) Borel’sche Messräume,<br />

i ∈ I. Sei(PJ, J⊂ I endlich) eine projektive Familie von W-Maßen. Dann gibt<br />

es ein eindeutig bestimmtes W-Maß P auf (Ω,A) mit PJ = P ◦ X −1<br />

J für jedes<br />

endliche J ⊂ I.<br />

Beweis. Ohne Einschränkung sei I = N0 und Pn := P {0,...,n}. Manprüft leicht<br />

nach, dass endliche Produkte von Borel’schen Räumen wieder Borel’sche Räume<br />

sind, also ist (Ω {0,...,n}, A {0,...,n}) Borel’sch für jedes n ∈ N0.<br />

i∈I


14.3 Satz von Ionescu-Tulcea und Projektive Familien 275<br />

Sei Ãn := {A × Ωn+1 : A ∈A {0,...,n}} und das W-Maß ˜ Pn auf (Ω {0,...,n+1}, Ãn )<br />

definiert durch ˜ Pn(A×Ωn+1) =Pn(A) für A ∈A {0,...,n}. Die Projektivität liefert,<br />

�<br />

dass Pn+1�<br />

n<br />

à = ˜ Pn. Nach dem Satz über die Existenz regulärer bedingter Vertei-<br />

lungen (Satz 8.36) existiert ein stochastischer Kern κ ′ n+1 von (Ω {0,...,n+1}, Ãn )<br />

nach (Ωn+1, An+1) mit<br />

Pn+1(A)<br />

��<br />

= A(ω0,...,ωn, ˜ωn+1) κ ′ n+1((ω0,...,ωn+1),d˜ωn+1) ˜ Pn(d(ω0,...,ωn+1))<br />

für jedes A ∈A {0,...,n+1}. Daκ ′ n+1( · ,A) messbar ist bezüglich Ãn ,hängt κ ′ n+1<br />

nicht von ωn+1 ab. Durch<br />

κn+1((ω0,...,ωn), · ):=κ ′ n+1((ω0,...,ωn+1), · )<br />

wird also ein stochastischer Kern von (Ω {0,...,n}, A {0,...,n}) nach (Ωn+1, An+1)<br />

definiert mit<br />

��<br />

Pn+1(A)=<br />

A(ω0,...,ωn+1) κn+1((ω0,...,ωn),dωn+1) Pn(d(ω0,...,ωn)).<br />

Mithin gilt Pn+1 = Pn ⊗ κn+1, und wir können Satz 14.32 anwenden. ✷<br />

Als letzten Schritt in unserer Konstruktion wollen wir in Satz 14.35 die abzählbare<br />

Indexmenge durch eine beliebige Indexmenge ersetzen.<br />

Satz 14.36 (Kolmogorov’scher Erweiterungssatz). Sei I eine beliebige Indexmenge,<br />

und seien (Ωi, Ai) Borel’sche Messräume, i ∈ I.Sei(PJ, J⊂ I endlich)<br />

eine projektive Familie von W-Maßen. Dann gibt es ein eindeutig bestimmtes W-<br />

Maß P auf (Ω,A) mit PJ = P ◦ X −1<br />

J . Wir nennen P den projektiven Limes und<br />

PJ.<br />

bezeichnen ihn in Formeln mit P =: lim<br />

←−<br />

J↑I<br />

Beweis. Für abzählbares J ⊂ I gibt es nach Satz 14.35 ein eindeutig bestimmtes<br />

Maß PJ auf (ΩJ, AJ) mit PJ ◦ (X J K )−1 = PK für endliches K ⊂ J. Durch<br />

˜PJ(X −1<br />

J (AJ)) := PJ(AJ), AJ ∈AJ, wird hieraus ein Maß auf (Ω,σ(XJ)).<br />

Seien J, J ′ ⊂ I höchstens abzählbar und A ∈ σ(XJ) ∩ σ(XJ ′) ∩Zein σ(XJ) ∩<br />

σ(XJ ′)-messbarer Zylinder mit endlicher Basis. Dann existiert ein endliches K ⊂<br />

J ∩ J ′ und AK ∈AK mit A = X −1<br />

K (AK).Alsoist˜ PJ(A) =PK(AK) = ˜ PJ ′(A).<br />

Nach Satz 14.12 ist dann aber auch ˜ PJ(A) =PK(AK) = ˜ PJ ′(A) für alle A ∈<br />

σ(XJ) ∩ σ(XJ ′). Nun gibt es (nach Übung 14.1.1) für jedes A ∈Aein abzählbares<br />

J ⊂ I mit A ∈ σ(XJ), also können wir auf eindeutige Weise (und unabhängig von<br />

der Wahl von J) eine Mengenfunktion P auf A definieren durch P (A) = ˜ PJ(A).Es<br />

bleibt zu zeigen, dass P ein W-Maß ist. Offenbar ist P (Ω) =1.SindA1,A2,...∈


276 14 W-Maße auf Produkträumen<br />

A paarweise disjunkt und A := �∞ n=1 An, sogibtesabzählbare Jn ⊂ I mit An �<br />

∈<br />

σ(XJn ) für n ∈ N. Setze J = n∈N Jn. Dann ist jedes An in σ(XJ) und damit<br />

auch A ∈ σ(XJ), also<br />

P (A) = ˜ ∞�<br />

∞�<br />

PJ(A) = ˜PJ(An) = P (An).<br />

n=1<br />

Damit ist P als W-Maß erkannt. ✷<br />

Beispiel 14.37. Sei � (Ωi,τi), i∈ I � eine beliebige Familie von polnischen Räumen<br />

(Erinnerung: nach Satz 8.35 sind polnische Räume auch Borel’sche Räume),<br />

Ai = σ(τi) und Pi ein beliebiges W-Maß auf (Ωi, Ai). Für endliches J ⊂ I sei<br />

PJ = �<br />

j∈J Pj das Produktmaß der Pj, j ∈ J. Offenbar ist die Familie (PJ, J⊂ I<br />

endlich) projektiv. Wir nennen<br />

P = �<br />

i∈I<br />

Pi := lim PJ<br />

←−<br />

J↑I<br />

das Produktmaß auf (Ω,A). Unter P sind alle Projektionen Xj unabhängig. ✸<br />

Beispiel 14.38. (Pólya’sches Urnenmodell) (Vergleiche Beispiel 12.29.) Zunächst<br />

befinden sich k rote und n − k blaue Kugeln in einer Urne. Es wird in jedem Zeitschritt<br />

eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben Farbe<br />

zurückgelegt. Zur Zeit i ∈ N0 befinden sich also n + i Kugeln in der Urne, wobei<br />

die Anzahl Xi der roten Kugeln zufällig ist.<br />

Formal definieren wir das Modell so: Sei n ∈ N und k ∈ {0,...,n}. Sei<br />

I = N0,Ωi = {0,...,n + i}, i ∈ N. Setze P0[{k}] = 1 und definiere die<br />

stochastischen Kerne κi von Ωi nach Ωi+1 durch<br />

n=1<br />

⎧<br />

⎪⎨<br />

xi<br />

n+i<br />

κi(xi, {xi+1}) =<br />

⎪⎩<br />

, falls xi+1 = xi +1,<br />

1 − xi<br />

n+i , falls xi+1<br />

0,<br />

= xi,<br />

sonst.<br />

Setze nun Pi+1 = Pi ⊗ κi. Unter dem Maß P = lim<br />

←−<br />

Pi beschreiben die Projek-<br />

i→∞<br />

tionen (Xi, i∈ N0) gerade das Pólya’sche Urnenmodell. ✸<br />

14.4 Markov’sche Halbgruppen<br />

Definition 14.39. Sei E ein polnischer Raum. Sei I ⊂ R eine nichtleere Indexmenge<br />

und (κs,t : s, t ∈ I,s


14.4 Markov’sche Halbgruppen 277<br />

Definition 14.40. Sei E ein polnischer Raum. Sei I ⊂ [0, ∞) eine Halbgruppe<br />

(zum Beispiel I = N0 oder I = [0, ∞)). Eine Familie (κt : t ∈ I) von stochastischen<br />

Kernen heißt eine Halbgruppe von stochastischen Kernen, oder Markov’sche<br />

Halbgruppe, falls sie die Chapman-Kolmogorov’sche Gleichung erfüllt:<br />

κs · κt = κs+t für alle s, t ∈ I. (14.13)<br />

Tatsächlich ist ({κt : t ∈ I}, · ) eine Halbgruppe im algebraischen Sinne, und die<br />

Abbildung t → κt ist ein Halbgruppenhomomorphismus. Insbesondere kommutieren<br />

die Kerne in dem Sinne, dass κs · κt = κt · κs für alle s, t ∈ I.<br />

Lemma 14.41. Ist (κt : t ∈ I) eine Markov’sche Halbgruppe, so ist die für t>s<br />

durch ˜κs,t := κt−s definierte Familie von Kernen konsistent.<br />

Beweis. Das ist trivial. ✷<br />

Satz 14.42 (Kern durch konsistente Familie von Kernen). Sei I ⊂ [0, ∞) mit<br />

0 ∈ I und (κs,t : s, t ∈ I,s


278 14 W-Maße auf Produkträumen<br />

�<br />

n�<br />

fi(ωi) =<br />

k=l<br />

κjk,jk+1<br />

�<br />

(ωi,Aji+1<br />

Nach Voraussetzung (und dem Satz von Fubini) ist<br />

�<br />

�<br />

fl−1(ωl−1) =<br />

�<br />

=<br />

κjl−1,jl<br />

E<br />

(ωl−1,dωl)<br />

Al+1<br />

Es folgt<br />

PJ◦(X J L) −1 �<br />

(A) =<br />

A ′<br />

�<br />

= P ′ �<br />

(d(ω0,...,ωl−1))<br />

A ′<br />

= PL(A).<br />

Al+1<br />

×···×Ajn ).<br />

κjl−1,jl+1 (ωl−1,dωl+1) fl+1(ωl+1).<br />

P ′ (d(ω0,...,ωl−1)) fl+1(ωl+1)<br />

Aj l+1<br />

κjl,jl+1 (ωl,dωl+1) fl+1(ωl+1)<br />

(κjl−1,jl+1 )(ωl−1,dωl+1) f(ωl+1)<br />

Wir müssen nun noch zeigen, dass κ ein stochastischer Kern ist, also dass x ↦→<br />

κ(x, A) messbar ist bezüglich B(E) – B(E) ⊗I . Nach Bemerkung 8.25 reicht es<br />

aus, dies für Rechteckmengen mit endlicher Basis A ∈Z R zu prüfen, denn Z R ist<br />

ein schnittstabiler Erzeuger von B(E) ⊗I . Seien also 0=t0


14.4 Markov’sche Halbgruppen 279<br />

Korollar 14.44 (Maße durch Markov’sche Halbgruppen). Sei (κt : t ∈ I) eine<br />

Markov’sche Halbgruppe auf dem polnischen Raum E. Dann existiert genau ein<br />

stochastischer Kern κ von (E,B(E)) nach (E I , B(E) ⊗I ) mit der Eigenschaft:<br />

Für jedes x ∈ E und je endlich viele Zahlen 0=t0


280 14 W-Maße auf Produkträumen<br />

Familie von Verteilungen (νt, t ≥ 0) mit der Eigenschaft νt+s = νt ∗ νs ersetzen.<br />

Dies gilt speziell für die Familie der Gammaverteilungen νt = Γθ,t (für festes<br />

θ>0), die Poissonverteilung νt =Poit, die negative Binomialverteilung νt = b − t,p<br />

(für festes p ∈ (0, 1]), die Cauchy-Verteilung νt =Caut und andere (vergleiche<br />

Satz 15.12 und Korollar 15.13). Wir halten dieses Ergebnis in einem Satz fest.<br />

Definition 14.46 (Faltungshalbgruppe). Sei I ⊂ [0, ∞) eine Halbgruppe. Eine<br />

Familie ν =(νt : t ∈ I) von Wahrscheinlichkeitsverteilungen auf Rd heißt Faltungshalbgruppe,<br />

falls νs+t = νs ∗ νt gilt für alle s, t ∈ I.<br />

t→0<br />

Ist I =[0, ∞) und gilt zudem νt −→ δ0, so heißt die Faltungshalbgruppe stetig<br />

(im Sinne der schwachen Konvergenz).<br />

Ist d = 1 und νt((−∞, 0)) = 0 für jedes t ∈ I, soheißtνeine nichtnegative<br />

Faltungshalbgruppe.<br />

Für den folgenden Satz vergleiche Definition 9.7.<br />

Satz 14.47. Zu jeder Faltungshalbgruppe (νt : t ∈ I) und jedem x ∈ R d existiert<br />

ein W-Maß Px auf dem Produktraum (Ω,A) = � (R d ) I , B(R d ) ⊗I� , sodass der<br />

kanonische Prozess (Xt)t∈I ein stochastischer Prozess mit Px[X0 = x] =1und<br />

stationären unabhängigen Zuwächsen ist mit Px ◦ (Xt − Xs) −1 = νt−s für t><br />

s. Umgekehrt definiert jeder stochastische Prozess (Xt)t∈I (auf einem beliebigen<br />

Wahrscheinlichkeitsraum (Ω,A, P)) mit stationären unabhängigen Zuwächsen eine<br />

Faltungshalbgruppe durch νt = P ◦ (Xt − X0) −1 für jedes t ∈ I.<br />

Übung 14.4.1. Sei (νt : t ≥ 0) eine stetige Faltungshalbgruppe. Man zeige: Für<br />

jedes t>0 gilt νt = lims→t νs. ♣<br />

Übung 14.4.2. Sei (νt : t ≥ 0) eine Faltungshalbgruppe. Man zeige: Für νt/n n→∞<br />

−→<br />

δ0. ♣<br />

Übung 14.4.3. Man zeige: Eine nichtnegative Faltungshalbgruppe ist stetig. ♣<br />

Übung 14.4.4. Man zeige: Eine stetige, reelle Faltungshalbgruppe (νt : t ≥ 0) mit<br />

νt((−∞, 0)) = 0 für ein t>0 ist nichtnegativ. ♣


15 Charakteristische Funktion und Zentraler<br />

Grenzwertsatz<br />

Hauptziel dieses Abschnitts ist der Zentrale Grenzwertsatz für Summen unabhängiger<br />

Zufallsvariablen (Satz 15.37) und für unabhängige Schemata (Satz von<br />

Lindeberg-Feller, Satz 15.43), wobei wir für den letzteren nur die eine Richtung<br />

beweisen (Satz von Lindeberg).<br />

Das Hilfsmittel der Wahl für die Behandlung von Zentralen Grenzwertsätzen sind<br />

charakteristische Funktionen, also Fouriertransformierte von W-Maßen. Wir beginnen<br />

mit einer sehr allgemeinen Betrachtung über Klassen von Testfunktionen, die<br />

schwache Konvergenz charakterisieren können, und betrachten dann Fouriertransformierte<br />

im Detail. Der nachfolgende Abschnitt beweist mit Hilfe von charakteristischen<br />

Funktionen den Zentralen Grenzwertsatz für reelle Zufallsvariablen. Im<br />

fünften Abschnitt zeigen wir den mehrdimensionalen Zentralen Grenzwertsatz.<br />

15.1 Trennende Funktionenklassen<br />

Sei (E,d) ein metrischer Raum mit Borel’scher σ-Algebra E = B(E).<br />

Mit C = {u + iv : u, v ∈ R} bezeichnen wir den Körper der komplexen Zahlen.<br />

Mit Re(u + iv) =u und Im(u + iv) =v bezeichnen wir den Realteil und den<br />

Imaginärteil von z = u + iv ∈ C, mit z = u − iv die zu z komplex konjugierte Zahl<br />

und mit |z| = √ u2 + v2 den Betrag von z. Von prominenter Bedeutung wird für<br />

uns die komplexe Exponentialfunktion exp : C → C sein, die wir durch exp(z) =<br />

exp(u) � cos(v)+i sin(v) � oder durch die Potenzreihe exp(z) = �∞ n=0 zn /n! definieren<br />

können. Bekanntlich gilt exp(z1 + z2) =exp(z1) · exp(z2). Man beachte,<br />

dass aus Re(z) =(z + z)/2 und Im(z) =(z− z)/2i folgt, dass<br />

cos(x) = eix + e −ix<br />

2<br />

und sin(x) = eix − e −ix<br />

2i<br />

für jedes x ∈ R.<br />

Eine Abbildung f : E → C ist genau dann messbar, wenn Re(f) und Im(f)<br />

messbar sind (siehe Satz 1.90 mit C ∼ = R2 ). Insbesondere ist jede stetige Funktion<br />

E → C messbar. Ist μ ∈M(E), sodefinieren wir<br />

� �<br />

�<br />

fdμ:= Re(f) dμ + i Im(f) dμ,


282 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

wenn beide Integrale existieren und endlich sind. Mit Cb(E; C) bezeichnen wir den<br />

Banachraum der stetigen, beschränkten, komplexwertigen Funktionen auf E, ausgestattet<br />

mit der Supremumsnorm �f�∞ =sup{|f(x)| : x ∈ E}. Wir nennen<br />

C⊂Cb(E; C) trennend für Mf (E), falls es für je zwei Maße μ, ν ∈Mf (E) mit<br />

μ �= ν ein f ∈Cgibt mit � fdμ �= � fdν. Satz 13.34 gilt für C ⊂ Cb(E; C)<br />

sinngemäß.<br />

Definition 15.1. Sei K = R oder K = C. Eine Teilmenge C ⊂ Cb(E; K) heißt<br />

Algebra, falls<br />

(i) 1 ∈C,<br />

(ii) für f,g ∈Csind f · g ∈Cund f + g ∈C,<br />

(iii) für f ∈Cund α ∈ K ist (αf) ∈C.<br />

C heißt Punkte trennend, falls es zu je zwei Punkten x, y ∈ E mit x �= y ein f ∈C<br />

gibt mit f(x) �= f(y).<br />

Satz 15.2 (Stone-Weierstraß). Sei E ein kompakter Hausdorffraum. Sei K = R<br />

oder K = C. SeiC⊂Cb(E; K) eine Punkte trennende Algebra. Ist K = C, sosei<br />

C zusätzlich abgeschlossen bezüglich komplexer Konjugation (das heißt, mit f ist<br />

stets auch die komplex konjugierte Funktion f in C).<br />

Dann liegt C dicht in Cb(E; K) bezüglich der Supremumsnorm.<br />

Beweis. Wir folgen der Darstellung in Dieudonné ([34, Kapitel VII.3]). Sei zunächst<br />

der Fall K = R betrachtet. Wir gehen in mehreren Schritten vor.<br />

1. Schritt Nach dem Weierstraß’schen Approximationssatz (Beispiel 5.15) gibt<br />

es eine Folge (pn)n∈N von Polynomen, die die Abbildung [0, 1] → [0, 1], t ↦→ √ t<br />

gleichmäßig approximiert. Ist f ∈C, so ist also |f| = �f�∞ limn→∞ pn(f 2 /�f�2 ∞)<br />

im Abschluss C von C in Cb(E; R).<br />

2. Schritt Indem wir den 1. Schritt auf die Algebra C anwenden, folgt, dass mit<br />

f,g ∈ C auch f ∨ g = 1<br />

1<br />

2 (f + g + |f − g|) und f ∧ g = 2 (f + g −|f − g|) in C<br />

liegen.<br />

3. Schritt Für jedes f ∈ Cb(E; R), jedes x ∈ E und jedes ε>0 existiert ein<br />

gx ∈ C mit gx(x) =f(x) und gx(y) ≤ f(y) +ε für jedes y ∈ E. DaC Punkte<br />

trennt, existiert für jedes z ∈ E \{x} ein Hz ∈Cmit Hz(z) �= H(x) =0.Für diese<br />

z definieren wir hz ∈Cdurch hz(y) =f(x) + f(z)−f(x)<br />

Hz(z) Hz(y) für jedes y ∈ E.<br />

Zudem setzen wir hx := f. Dannisthz(x) =f(x) und hz(z) =f(z) für jedes<br />

z ∈ E. Daf und hz stetig sind, existiert zu jedem z ∈ E eine offene Umgebung<br />

Uz ∋ z mit h(y) ≤ f(y)+ε für jedes y ∈ Uz. Wir bilden eine endliche Überdeckung<br />

Uz1 ,...,Uzn von E mit solchen Umgebungen und setzen gx =min(hz1 ,...,hzn ).<br />

Nach Schritt 2 ist gx ∈ C.


15.1 Trennende Funktionenklassen 283<br />

4. Schritt Sei f ∈ Cb(E; R), ε>0 und gx wie im 3. Schritt für jedes x ∈ E.<br />

Da f und gx stetig sind, existiert zu jedem x ∈ E eine offene Umgebung Vx ∋ x<br />

mit gx(y) ≥ f(y) − ε für jedes y ∈ Vx. Wir bilden eine endliche Überdeckung<br />

Vx1 ,...,Vxn von E und definieren g := max(gx1 ,...,gxn ).Dannistg∈ C nach<br />

Schritt 2 und �g − f�∞ 0 beliebig war, gilt also<br />

C = Cb(E; R).<br />

5. Schritt Sei nun K = C betrachtet. Nach Voraussetzung sind mit f auch der<br />

Realteil Re(f) =(f + ¯ f)/2 und der Imaginärteil Im(f) =(f − ¯ f)/2i in C. Speziell<br />

ist C0 := {Re(f) : f ∈C}⊂Ceine reelle Algebra, die nach Voraussetzung Punkte<br />

trennt und die konstanten Funktionen enthält. Also ist C0 dicht in Cb(E; R).Wegen<br />

C = C0 + iC0 folgt, dass C dicht in Cb(E; C) ist. ✷<br />

Korollar 15.3. Sei E ein kompakter, metrischer Raum. Sei K = R oder K = C.<br />

Sei C⊂Cb(E; K) eine Punkte trennende Familie, die stabil ist unter Multiplikation<br />

und 1 enthält. Ist K = C, soseiCzusätzlich abgeschlossen bezüglich komplexer<br />

Konjugation.<br />

Dann ist C eine trennende Familie für Mf (E).<br />

Beweis. Seien μ1,μ2 ∈Mf (E) mit � gdμ1 = � gdμ2für jedes g ∈C.SeiC ′ die<br />

Algebra der endlichen Linearkombinationen von Elementen aus C. Aufgrund der<br />

Linearität des Integrals gilt � gdμ1 = � gdμ2für jedes g ∈C ′ .<br />

Zu jedem f ∈ Cb(E,R) und jedem ε > 0 existiert nach dem Satz von Stone-<br />

Weierstraß ein g ∈C ′ mit � �<br />

�f − g�∞ 0 beliebig war, gilt Gleichheit und damit μ1 = μ2 (nach Satz 13.11). ✷<br />

Als einfache Schlussfolgerungen bekommen wir die folgenden Sätze.<br />

Satz 15.4. Die Verteilung einer beschränkten reellen Zufallsvariablen X ist durch<br />

die Angabe aller Momente eindeutig bestimmt.<br />

Beweis. Ohne Einschränkung können wir annehmen, dass X nur Werte in E :=<br />

[0, 1] annimmt. Für n ∈ N definiere die Abbildung fn : [0, 1] → [0, 1] durch<br />

fn : x ↦→ x n . Ferner sei f0 ≡ 1. Die Familie C = {fn, n ∈ N0} ist Punkte<br />

trennend und abgeschlossen unter Multiplikation, also trennend für Mf (E). PX<br />

ist also eindeutig festgelegt durch Angabe der Momente E[X n ]= � x n PX(dx),<br />

n ∈ N. ✷


284 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Beispiel 15.5 (nach [72]). Im vorangehenden Satz können wir nicht ohne Weiteres<br />

auf die Beschränktheit von X verzichten, selbst wenn alle Momente existieren<br />

(es gibt allerdings schwächere Bedingungen, siehe Korollar 15.32). Wir betrachten<br />

hierzu X := exp(Y ), wobei Y ∼N0,1. Die Verteilung von X heißt auch Log-<br />

Normalverteilung. Für jedes n ∈ N ist nY verteilt wie die Summe von n2 unabhängigen,<br />

standardnormalverteilten Zufallsvariablen nY D = Y1 + ...+ Yn2.Also ist für n ∈ N<br />

E[X n ]=E[e nY ]=E[e Y1+...+Yn2 n<br />

]=<br />

2<br />

�<br />

E[e Yi ]=E[e Y ] n2<br />

=<br />

i=1<br />

�� ∞<br />

(2π)<br />

−∞<br />

−1/2 e y e −y2 � 2<br />

n<br />

/2<br />

dy<br />

= e n2 /2 .<br />

(15.1)<br />

Wir wollen nun gleich eine ganze Familie von Verteilungen konstruieren, die die<br />

gleichen Momente wie X besitzen. Nach der Transformationsformel für Dichten<br />

(Satz 1.101) hat die Verteilung von X die Dichte<br />

f(x) = 1<br />

√ x<br />

2π −1 �<br />

exp − 1<br />

2 log(x)2<br />

�<br />

für x>0.<br />

Für α ∈ [−1, 1] definieren wir Wahrscheinlichkeitsdichten fα auf (0, ∞) durch<br />

fα(x) =f(x) � 1+α sin(2π log(x)) � .<br />

Um zu zeigen, dass fα eine Dichte ist und die selben Momente wie f besitzt, reicht<br />

es zu zeigen, dass für jedes n ∈ N0 gilt<br />

m(n) :=<br />

� ∞<br />

0<br />

x n f(x) sin(2π log(x)) dx =0.<br />

Mit der Substitution y = log(x) − n erhalten wir (wegen sin(2π(y + n)) =<br />

sin(2πy))<br />

m(n) =<br />

� ∞<br />

−∞<br />

e yn+n2<br />

(2π) −1/2 e −(y+n)2 /2<br />

sin(2π(y + n)) dy<br />

=(2π) −1/2 e n2 /2<br />

� ∞<br />

e<br />

−∞<br />

−y2 /2<br />

sin(2πy) dy =0,<br />

wobei die letzte Gleichheit folgt, weil der Integrand eine ungerade Funktion ist. ✸<br />

Satz 15.6 (Laplace-Transformation). Ein endliches Maß μ auf [0, ∞) ist eindeutig<br />

bestimmt durch Angabe der Laplace-Transformierten<br />

�<br />

Lμ(λ) := e −λx μ(dx) für λ ≥ 0.


15.1 Trennende Funktionenklassen 285<br />

Beweis. Dem Problem, dass der Raum [0, ∞) nicht kompakt ist, begegnen wir, indem<br />

wir zur (Einpunkt-) Kompaktifizierung E =[0, ∞] übergehen. Wir definieren<br />

für λ ≥ 0 die stetige Funktion fλ :[0, ∞] → [0, 1] durch fλ(x) =e −λx , falls<br />

x0. Wähle N ∈ N so groß, dass (1 + 2�f�∞) · (μ1 + μ2)(Rd \<br />

[−N,N] d )


286 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Da ε>0 beliebig war, stimmen die Integrale überein. Nach Satz 13.11 ist also<br />

μ1 = μ2. ✷<br />

Korollar 15.9. Ein endliches Maß μ auf Zd ist durch die Werte<br />

�<br />

ϕμ(t) =<br />

eindeutig festgelegt.<br />

e i〈t,x〉 μ(dx), t ∈ [−π, π) d ,<br />

Beweis. Dies ist klar, weil ϕμ(t +2πk) =ϕμ(t) für jedes k ∈ Z d . ✷<br />

Während das vorangehende Korollar nur eine abstrakte Eindeutigkeitsaussage liefert,<br />

wird uns manchmal eine explizite Inversionsformel von Nutzen sein.<br />

Satz 15.10 (Diskrete Fourier-Inversionsformel). Sei μ ∈Mf (Zd ) mit charakteristischer<br />

Funktion ϕμ. Dann gilt für jedes x ∈ Zd μ({x}) =(2π) −d<br />

�<br />

e −i〈t,x〉 ϕμ(t) dt.<br />

[−π,π) d<br />

[−π,π) d<br />

[−π,π) d<br />

Beweis. Nach dem Satz über majorisierte Konvergenz ist<br />

�<br />

e −i〈t,x〉 �<br />

ϕμ(t) dt = e −i〈t,x〉<br />

⎛<br />

⎝ lim<br />

�<br />

e i〈t,y〉 ⎞<br />

μ({y}) ⎠ dt<br />

�<br />

= lim<br />

n→∞<br />

[−π,π) d<br />

= �<br />

�<br />

μ({y})<br />

y∈Z d<br />

n→∞<br />

|y|≤n<br />

�<br />

−i〈t,x〉<br />

e<br />

[−π,π) d<br />

|y|≤n<br />

e i〈t,y−x〉 dt.<br />

e i〈t,y〉 μ({y}) dt<br />

Die Behauptung folgt, weil für y ∈ Zd gilt<br />

�<br />

[−π,π) d<br />

e i〈t,y−x〉 �<br />

d (2π) ,<br />

dt =<br />

0,<br />

falls x = y,<br />

sonst. ✷<br />

Ähnliche Inversionsformeln gelten für Maße μ auf Rd . Besonders einfach ist der<br />

Fall, wo μ eine integrierbare Dichte f := dμ<br />

dλ bezüglich des d-dimensionalen<br />

Lebesgue-Maßes λ hat. In diesem Fall gilt die Fourier-Inversionsformel<br />

f(x) =(2π) −d<br />

�<br />

e −i〈t,x〉 ϕμ(t) λ(dt). (15.2)<br />

R d<br />

Es gilt die Plancherel’sche Gleichung: Es ist genau dann f ∈L 2 (λ), wennϕμ ∈<br />

L 2 (λ). In diesem Fall ist �f�2 = �ϕ�2.<br />

Da wir diese Aussagen jedoch nicht weiter verwenden werden, verweisen wir lediglich<br />

auf die einschlägigen Lehrbücher (etwa [156, Kapitel V.2] oder [53, Theorem<br />

XV.3.3 und Gleichung (XV.3.8)]).


15.1 Trennende Funktionenklassen 287<br />

Übung 15.1.1. Man zeige, dass im Satz von Stone-Weierstraß auf die Kompaktheit<br />

von E nicht verzichtet werden kann. Hinweis: Man wähle etwa E = R, nutze aus,<br />

dass Cb(R) =Cb(R; R) nicht separabel ist und konstruiere eine abzählbare, Punkte<br />

trennende Algebra C⊂Cb(R). ♣<br />

Übung 15.1.2. Sei d ∈ N und μ ein endliches Maß auf [0, ∞) d . Man zeige: μ ist<br />

durch Angabe der Laplace-Transformierten Lμ(λ) = � e −〈λ,x〉 μ(dx), λ ∈ [0, ∞) d<br />

eindeutig bestimmt. ♣<br />

Übung 15.1.3. Man zeige, dass unter den Voraussetzungen von Satz 15.10 die<br />

Plancherel’sche Gleichung gilt:<br />

�<br />

μ({x}) 2 =(2π) −d<br />

�<br />

|ϕμ(t)| 2 dt. ♣<br />

x∈Z d<br />

[−π,π) d<br />

Übung 15.1.4 (Mellin-Transformierte). Sei X eine nichtnegative reelle Zufallsvariable.<br />

Für s ≥ 0 definieren wir die Mellin-Transformierte von PX<br />

mX(s) =E[X s ]<br />

mit Werten in [0, ∞].<br />

Man zeige: Gibt es ein ε0 > 0 mit mX(ε0) < ∞ (beziehungsweise mX(−ε0) <<br />

∞), so ist für jedes ε>0 die Verteilung PX eindeutig bestimmt durch die Werte<br />

mX(s) (beziehungsweise mX(−s)), s ∈ [0,ε].<br />

Anleitung: Für stetiges f :[0, ∞) → [0, ∞) sei<br />

φf (s) =<br />

� ∞<br />

0<br />

t z−1 f(z),<br />

für diejenigen z ∈ C, für die dies wohldefiniert ist. Aus der Funktionentheorie ist<br />

bekannt: Ist φf (s) < ∞ für ein s>1, soistφf holomorph in {z ∈ C : Re(z) ∈<br />

(1,s)} (und damit durch die Werte φf (r), r ∈ (1, 1+ε) eindeutig festgelegt für<br />

jedes ε>0), und es gilt für jedes r ∈ (1,s)<br />

f(t) = 1<br />

� ∞<br />

t<br />

2πi −∞<br />

−(r+iρ) φf (r + iρ) dρ.<br />

(i) Man folgere die Aussage für X mit stetiger Dichte.<br />

(ii) Für δ>0 sei Yδ ∼U [1−δ,1] und unabhängig von X. Man zeige, dass XYδ eine<br />

stetige Dichte hat.<br />

(iii) Man bestimme mXYδ und zeige, dass mXYδ → mX für δ ↓ 0.<br />

(iv) Man zeige, dass XYδ =⇒ X für δ ↓ 0. ♣


288 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Übung 15.1.5. Seien X, Y, Z unabhängige nichtnegative reelle Zufallsvariablen,<br />

sodass P[Z > 0] > 0, und sodass die Mellin-Transformierte mXZ(s) < ∞ ist<br />

für ein s>0.<br />

Zeige: Gilt XZ D = YZ,soistX D = Y . ♣<br />

Übung 15.1.6. Sei μ ein W-Maß auf R mit integrierbarer charakteristischer Funktion<br />

ϕμ, also ϕμ ∈L1 (λ), wobei λ das Lebesgue-Maß auf R ist. Man zeige, dass μ<br />

absolutstetig ist und die stetige und beschränkte Dichte f = dμ<br />

dλ gegeben ist durch<br />

f(x) = 1<br />

� ∞<br />

e<br />

2π −∞<br />

−itx ϕμ(t) dt für jedes x ∈ R.<br />

Anleitung: Man zeige dies zunächst für die Normalverteilung N0,ε, ε>0. Man<br />

zeige dann, dass μ ∗N0,ε absolutstetig ist mit Dichte fε, die punktweise gegen f<br />

konvergiert. ♣<br />

Übung 15.1.7. Sei (Ω,τ) ein separabler topologischer Raum, der das T 3 1<br />

2 -Trennungsaxiom<br />

erfüllt: Zu jeder abgeschlossenen Menge A ⊂ Ω und jedem Punkt<br />

x ∈ Ω \ A existiert eine stetige Funktion f : Ω → [0, 1] mit f(x) = 0 und<br />

f(y) =1für jedes y ∈ A. (Insbesondere ist jeder metrische Raum ein T 3 1<br />

2 -Raum.)<br />

Man zeige: σ(Cb(Ω)) = B(Ω), das heißt, die Borel’sche σ-Algebra wird durch die<br />

beschränkten, stetigen Funktionen Ω → R erzeugt. ♣<br />

15.2 Charakteristische Funktionen: Beispiele<br />

Lemma 15.11. Sei X eine Zufallsvariable mit Werten in R d und charakteristischer<br />

Funktion ϕX(t) =E � e i〈t,X〉� . Dann gelten<br />

(i) |ϕX(t)| ≤1 für jedes t ∈ Rd und ϕX(0) = 1,<br />

(ii) ϕaX+b(t) =ϕX(at) ei〈b,t〉 für jedes a ∈ R und b ∈ Rd ,<br />

(iii) PX = P−X genau dann, wenn ϕ reellwertig ist,<br />

(iv) Sind X und Y unabhängig, so ist ϕX+Y = ϕX · ϕY .<br />

(v) Für jedes t ∈ R gilt für den Realteil 0 ≤ 1−Re(ϕX(2t)) ≤ 4(1−Re(ϕX(t))).<br />

Beweis. (i) und (ii) sind trivial.<br />

(iii) ϕX(t) =ϕX(−t) =ϕ−X(t).<br />

(iv) Da e i〈t,X〉 und e i〈t,Y 〉 unabhängige Zufallsvariablen sind, gilt<br />

ϕX+Y (t) =E � e i〈t,X〉 · e i〈t,Y 〉� = E � e i〈t,X〉� E � e i〈t,Y 〉� = ϕX(t) ϕY (t).


15.2 Charakteristische Funktionen: Beispiele 289<br />

(v) Nach dem Additionstheorem für Winkelfunktionen ist<br />

1 − cos(2tX) =2 � 1 − (cos(tX)) 2� ≤ 4 � 1 − cos(tX) � .<br />

Bilde jetzt den Erwartungswert. ✷<br />

Satz 15.12 (Charakteristische Funktionen wichtiger Verteilungen). Wir geben<br />

für verschiedene Verteilungen P mit Dichte x ↦→ f(x) auf R oder Gewichten<br />

P ({k}), k ∈ N0, die charakteristische Funktion ϕ(t) an:<br />

Name<br />

Symbol<br />

Normal<br />

N μ,σ 2<br />

Gleichvert.<br />

U [0,a]<br />

Gleichvert.<br />

U [−a,a]<br />

Dreieck<br />

Tria<br />

Verteilung Char. Fkt.<br />

Parameter auf Dichte / Gewicht ϕ(t)<br />

μ ∈ R<br />

σ 2 > 0<br />

R<br />

√ 1<br />

2πσ2 exp<br />

�<br />

− (x−μ)2<br />

2σ2 a>0 [0,a] 1/a e iat −1<br />

iat<br />

a>0 [−a, a] 1/2a<br />

a>0 [−a, a]<br />

� �<br />

1<br />

+<br />

a 1 −|x|/a<br />

1 1−cos(ax)<br />

N.N. a>0 R π ax2 Gamma<br />

Γθ,r<br />

Exponential<br />

expθ zweiseitig<br />

Exponential<br />

exp2 θ<br />

Cauchy<br />

Caua<br />

Binomial<br />

bn,p<br />

Negativ<br />

Binomial<br />

b − r,p<br />

Poisson<br />

Poiλ<br />

θ>0<br />

r>0<br />

[0, ∞)<br />

�<br />

e iμt · e −σ2 t 2 /2<br />

sin(at)<br />

at<br />

2 1−cos(at)<br />

a 2 t 2<br />

(1 −|t|/a) +<br />

θ r<br />

Γ (r) xr−1 e−θx (1 − it/θ) −r<br />

θ>0 [0, ∞) θe −θx θ<br />

θ − it<br />

θ>0 R<br />

a>0 R<br />

n ∈ N<br />

p ∈ [0, 1] {0,...,n}<br />

r>0<br />

p ∈ (0, 1]<br />

N0<br />

θ<br />

2 e−θ|x|<br />

−λ λk<br />

λ>0 N0 e k!<br />

1 1<br />

aπ 1+(x/a) 2<br />

� �<br />

n<br />

p<br />

k<br />

k (1 − p) n−k<br />

� �<br />

−r<br />

(−1)<br />

k<br />

kpr (1 − p) k<br />

1<br />

1+(t/a) 2<br />

e −a|t|<br />

� (1 − p)+pe it � n<br />

�<br />

p<br />

1 − (1 − p)e it<br />

exp � λ(e it − 1) �<br />

� r


290 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Beweis. (i) (Normalverteilung) Nach Lemma 15.11 reicht es, den Fall μ =0<br />

und σ2 =1zu betrachten. Mit Hilfe des Differentiationslemmas (Satz 6.28) und<br />

durch partielle Integration erhalten wir<br />

� ∞<br />

d<br />

ϕ(t) = e<br />

dt −∞<br />

itx ix e −x2 /2<br />

dx = −tϕ(t).<br />

Diese lineare Differentialgleichung mit Anfangswert ϕ(0) = 1 hat die eindeutige<br />

Lösung ϕ(t) =e−t2 /2 .<br />

(ii) (Gleichverteilung) Dies ist unmittelbar.<br />

(iii) (Dreieck) Es gilt Tria = U [−a/2,a/2] ∗U [−a/2,a/2], also ist<br />

ϕTria(t) =ϕU (t) [−a/2,a/2] 2 =4 sin(at/2)2<br />

a2 t2 1 − cos(at)<br />

=2<br />

a2 t2 ,<br />

wobei wir ausgenutzt haben, dass nach dem Additionstheorem gilt<br />

1 − cos(x) =sin(x/2) 2 +cos(x/2) 2 − cos(x) =2sin(x/2) 2 .<br />

(iv) (N.N.) Dies lässt sich entweder direkt ausrechnen, oder mit Hilfe der Fourier-<br />

Inversionsformel (Gleichung (15.2)) aus (iii) folgern.<br />

(v) (Gammaverteilung) Es reicht wiederum, den Fall θ =1zu betrachten. Für<br />

0 ≤ b


15.2 Charakteristische Funktionen: Beispiele 291<br />

�<br />

�<br />

0, wennb→0. Analog ist � �<br />

ɛc,t zr−1 �<br />

�<br />

exp(−z) dz�<br />

≤ cr exp(−c)(1 + t2 ) r/2 → 0,<br />

wenn c →∞.<br />

(vi) (Exponentialverteilung) Wegen exp θ = Γθ,1 folgt dies aus (v).<br />

(vii) (Zweiseitige Exponentialverteilung) Sind X und Y unabhängige expθ verteilte<br />

Zufallsvariablen, so ist X − Y ∼ exp2 θ (Nachrechnen!). Also ist<br />

ϕ exp 2 θ (t) =ϕexp θ (t) ϕexp θ (−t) =<br />

1<br />

1 − it/θ<br />

1<br />

1+it/θ =<br />

1<br />

.<br />

1+(t/θ) 2<br />

(viii) (Cauchy Verteilung) Dies lässt sich entweder mit Hilfe des Residuenkalküls<br />

direkt ausrechnen, oder mit Hilfe der Fourier-Inversionsformel (Gleichung<br />

(15.2)) aus der Aussage für die zweiseitige Exponentialverteilung folgern.<br />

(ix) (Binomialverteilung) Nach dem binomischen Lehrsatz ist<br />

n�<br />

� �<br />

n<br />

ϕ(t) = (1 − p)<br />

k<br />

n−k (pe it ) k =(1−p + pe it ) n .<br />

k=0<br />

(x) (Negative Binomialverteilung) Nach dem verallgemeinerten binomischen<br />

Lehrsatz (Lemma 3.5) ist für jedes x ∈ C mit |x| < 1<br />

(1 − x) −r ∞�<br />

� �<br />

−r<br />

= (−x)<br />

k<br />

k .<br />

k=0<br />

Wenn wir x =(1− p) e it setzen, folgt die Behauptung.<br />

(xi) (Poissonverteilung) Es ist ϕPoiλ (t) =<br />

∞�<br />

n=0<br />

Korollar 15.13. Es gelten die folgenden Faltungsformeln:<br />

e −λ (λeit ) n<br />

n! = eλ(eit −1) . ✷<br />

(i) N μ1,σ 2 1 ∗N μ2,σ 2 2 = N μ1+μ2,σ 2 1 +σ 2 2 für μ1,μ2 ∈ R und σ 2 1,σ 2 2 > 0,<br />

(ii) Γθ,r ∗ Γθ,s = Γθ,r+s für θ, r, s > 0,<br />

(iii) Caua ∗ Caub =Caua+bfür a, b > 0,<br />

(iv) bm,p ∗ bn,p = bm+n,p für m, n ∈ N und p ∈ [0, 1],<br />

(v) b − r,p ∗ b − s,p = b − r+s,p für r, s > 0 und p ∈ (0, 1],<br />

(vi) Poiλ ∗ Poiμ =Poiλ+μ für λ, μ ≥ 0.<br />

Beweis. Die Aussagen folgen aus dem vorangehenden Satz zusammen mit ϕμ∗∗ν =<br />

ϕμ ϕν (Lemma 15.11). ✷<br />

Zwei einfache Verfahren, um charakteristische Funktionen von zusammengesetzten<br />

Verteilungen auszurechnen, liefert der folgende Satz:


292 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Satz 15.14. (i) Seien μ1,μ2,... ∈Mf (Rd ) und p1,p2,... nichtnegative Zahlen<br />

mit ∞�<br />

pnμn(R<br />

n=1<br />

d ) < ∞. Dann hat das Maß μ := ∞�<br />

pnμn ∈Mf (R<br />

n=1<br />

d ) die<br />

charakteristische Funktion<br />

∞�<br />

ϕμ = pn ϕμn . (15.3)<br />

n=1<br />

(ii) Es seien N,X1,X2,... unabhängige Zufallsvariablen. Die X1,X2,... seien<br />

identisch verteilt auf Rd mit charakteristischer Funktion ϕX. N habe Werte in<br />

N0 und die Erzeugendenfunktion fN. Dann hat Y := N�<br />

Xn die charakteris-<br />

n=1<br />

tische Funktion ϕY (t) =fN(ϕX(t)).<br />

(iii) Ist in (ii) speziell N ∼ Poiλ,soistϕY (t) =exp(λ(ϕX(t) − 1)).<br />

Beweis. (i) Setzen wir νn = n�<br />

n�<br />

pkμk, so gilt ϕνn = pkϕμk wegen der Li-<br />

k=1<br />

k=1<br />

nearität des Integrals. Nach Voraussetzung ist μ =w-lim<br />

n→∞ νn, also auch ϕμ(t) =<br />

lim ϕνn (t).<br />

n→∞<br />

(ii) Es ist<br />

ϕY (t) =<br />

=<br />

∞�<br />

P[N = n] E � e i〈t,X1+...+Xn〉�<br />

n=0<br />

∞�<br />

n=0<br />

P[N = n] ϕX(t) n = fN (ϕ(t)).<br />

(iii) Der Spezialfall folgt, weil hier fN(z) =e λ(z−1) für z ∈ C mit |z| ≤1. ✷<br />

Beispiel 15.15. Sei n ∈ N, und seien Punkte 0=a0 y1 > ... > yn =0gegeben. Sei ϕ : R → [0, ∞) diejenige gerade Funktion<br />

(also ϕ(x) =ϕ(−x)), die ϕ(ak) =yk für jedes k =0,...,nerfüllt und zwischen<br />

den Punkten ak linear interpoliert ist, sowie ferner ϕ(x) =0für |x| >anerfüllt. Wir wollen zusätzlich annehmen, dass die yk so gewählt sind, dass ϕ auf [0, ∞)<br />

konvex ist. Das ist äquivalent zu der Bedingung, dass m1 ≤ m2 ≤ ... ≤ mn ≤ 0,<br />

wo mk := yk−yk−1 die Steigung im k-ten Intervall ist. Wir wollen zeigen, dass ϕ<br />

ak−ak−1<br />

die charakteristische Funktion eines W-Maßes μ ∈M1(R) ist.<br />

Setze pk = ak(mk+1 − mk) für k =1,...,n.<br />

Sei μk ∈M1(Rd ) die Verteilung auf R mit Dichte 1 1−cos(akπ)<br />

π akx2 . Nach Satz 15.12<br />

�<br />

hat μk die charakteristische Funktion ϕμk (t) = 1 − |t|<br />

� +<br />

. Die charakteristische<br />

ak<br />

Funktion ϕμ von μ := �n k=1 pkμk ist dann


ϕμ(t) =<br />

15.2 Charakteristische Funktionen: Beispiele 293<br />

n�<br />

pk(1 −|t|/ak) + .<br />

k=1<br />

Dies ist eine stetige, symmetrische, reelle Funktion mit ϕμ(0) = 1, die auf den Intervallen<br />

[ak−1,ak] jeweils linear ist. Durch partielle Summation erhalten wir (wegen<br />

mn+1 =0)für jedes k =1,...,n<br />

ϕμ(al) =<br />

=<br />

n�<br />

k=1<br />

�<br />

ak(mk+1 − mk) 1 − al<br />

� +<br />

=<br />

ak<br />

�<br />

�<br />

(an − al)mn+1 − (al − al)ml −<br />

= −<br />

n�<br />

(yk − yk−1) =yl = ϕ(al).<br />

k=l+1<br />

n�<br />

(ak − al)(mk+1 − mk)<br />

k=l<br />

n�<br />

(ak − ak−1)mk<br />

k=l+1<br />

Also ist ϕμ = ϕ. ✸<br />

Beispiel 15.16. Wir betrachten die Funktion ϕ : R → [0, 1], die periodisch mit Periode<br />

2π ist, und die für t ∈ [−π, π) definiert ist durch ϕ(t) =1−2|t|/π.Durchdie<br />

diskrete Fourier-Inversionsformel (Satz 15.10) erhalten wir, dass ϕ die charakteristi-<br />

sche Funktion des W-Maßes μ ∈M1(Z) mit μ({x}) =(2π) −1 � π<br />

−π<br />

cos(tx) ϕ(t) dt<br />

ist, wenn wir zeigen können, dass alle diese Zahlen μ({x}) nichtnegativ sind. Für<br />

x =0ist offenbar μ({x}) =0.Für x ∈ Z \{0} berechnen wir das Integral mit<br />

Hilfe partieller Integration<br />

� π<br />

−π<br />

cos(tx) ϕ(t) dt =2<br />

Insgesamt erhalten wir<br />

= 4<br />

x<br />

� π<br />

�<br />

0<br />

cos(tx)(1− 2t/π) dt<br />

1 − 2<br />

�<br />

sin(πx) −<br />

π<br />

4 4<br />

sin(0) +<br />

x πx<br />

= 4<br />

(1 − cos(πx)).<br />

πx2 μ({x}) =<br />

� 4<br />

π 2 x 2 , falls x ungerade ist,<br />

0, sonst.<br />

� π<br />

0<br />

sin(tx) dt<br />

Wegen μ(Z) =ϕ(0) = 1 ist μ tatsächlich ein W-Maß. ✸<br />

Beispiel 15.17. Wir betrachten die Funktion ψ : R → [0, 1], die periodisch mit<br />

Periode π ist, und die für t ∈ [−π/2,π/2) definiert ist durch ψ(t) =1− 2|t|/π.<br />

Ist ϕ die charakteristische Funktion zum Maß μ aus dem vorangehenden Beispiel,<br />

so ist offenbar ψ(t) =|ϕ(t)|. Andererseits ist ψ(t) = 1 1<br />

2 + 2ϕ(2t). Nach Satz15.14


294 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

und Lemma 15.11(ii) ist daher ψ die charakteristische Funktion des Maßes ν mit<br />

ν(A) = 1<br />

1<br />

2δ0(A)+ 2μ(A/2) für A ⊂ R.Alsoist<br />

⎧<br />

⎪⎨<br />

1<br />

2 , falls x =0,<br />

8<br />

ν({x}) = π<br />

⎪⎩<br />

2x2 , falls x<br />

0,<br />

2 ∈ Z<br />

sonst.<br />

ungerade ist,<br />

✸<br />

Beispiel 15.18. Sei ϕ(t) =(1− 2|t|/π) + die charakteristische Funktion der Verteilung<br />

” N.N.“ aus Satz 15.12 (mit a = π/2) und ψ die charakteristische Funktion<br />

aus dem vorangehenden Beispiel. Man beachte, dass ϕ(t) =ψ(t) für |t| ≤π/2 und<br />

ϕ(t) =0für |t| >π/2, also ϕ 2 = ϕ · ψ. Seien nun X, Y, Z unabhängige, reelle<br />

Zufallsvariablen mit charakteristischen Funktionen ϕX = ϕY = ϕ und ϕZ = ψ.<br />

Dann ist ϕXϕY = ϕXϕZ, also X + Y D = X + Z, jedoch stimmen die Verteilungen<br />

von Y und Z nicht überein. ✸<br />

Übung 15.2.1. Sei ϕ die charakteristische Funktion der d-dimensionalen Zufallsvariablen<br />

X. Man zeige: Ist ϕ(t) =1für ein t �= 0,soistP[X ∈ Ht] =1,wo<br />

Ht = {x ∈ R d : 〈x, t〉 ∈2πZ}<br />

= � y + z · (2πt/�t� 2 2): z ∈ Z, y∈ R d mit 〈y, t〉 =0 � .<br />

Man folgere, dass ϕ(t + s) =ϕ(s) ist für jedes s ∈ R d . ♣<br />

Übung 15.2.2. Man zeige: Es gibt reelle Zufallsvariablen X, X ′ und Y,Y ′ mit X D =<br />

X ′ und Y D = Y ′ , sodass X ′ und Y ′ unabhängig sind und X + Y D = X ′ + Y ′ gilt,<br />

jedoch X und Y nicht unabhängig sind. ♣<br />

Übung 15.2.3. Sei X eine reelle Zufallsvariable mit charakteristischer Funktion ϕ.<br />

X heißt gitterverteilt, wennesa, d ∈ R gibt, sodass P[X ∈ a + dZ] =1. Zeige:<br />

X ist genau dann gitterverteilt, wenn es ein u �= 0gibt mit |ϕ(u)| =1. ♣<br />

15.3 Der Lévy’sche Stetigkeitssatz<br />

Die Hauptaussage dieses Abschnitts ist der Stetigkeitssatz von Lévy (Satz 15.23),<br />

der, grob gesprochen, besagt, dass eine Folge von charakteristischen Funktionen<br />

genau dann punktweise gegen eine stetige Funktion konvergiert, wenn der Grenzwert<br />

wieder eine charakteristische Funktion ist und die zugehörigen Wahrscheinlichkeitsmaße<br />

schwach konvergieren. Wir bereiten den Beweis des Satzes mit ein<br />

paar analytischen Aussagen vor.


15.3 Der Lévy’sche Stetigkeitssatz 295<br />

Lemma 15.19. Sei μ ∈M1(R d ) mit charakteristischer Funktion ϕ. Dann gilt<br />

|ϕ(t) − ϕ(s)| 2 ≤ 2 � 1 − Re(ϕ(t − s)) �<br />

für alle s, t ∈ R d .<br />

Beweis. Nach der Cauchy-Schwarz’schen Ungleichung gilt<br />

|ϕ(t) − ϕ(s)| 2 ��<br />

�<br />

= �<br />

�<br />

Rd e i〈t,x〉 − e i〈s,x〉 �2<br />

�<br />

μ(dx) �<br />

�<br />

��<br />

�<br />

= �<br />

�<br />

Rd �2<br />

� � �<br />

i〈t−s,x〉 i〈s,x〉<br />

e − 1 e μ(dx) �<br />

�<br />

�<br />

≤<br />

Rd �<br />

�<br />

�<br />

� i〈t−s,x〉 2<br />

e − 1� μ(dx) ·<br />

Rd �<br />

� i〈s,x〉<br />

e � �2 μ(dx)<br />

�<br />

� �� � i〈t−s,x〉 −i〈t−s,x〉<br />

= e − 1 e − 1 μ(dx)<br />

R d<br />

=2 � 1 − Re(ϕ(t − s)) � . ✷<br />

Definition 15.20. Sei (E,d) ein metrischer Raum. Eine Familie (fi, i ∈ I) von<br />

Abbildungen E → R heißt gleichgradig gleichmäßig stetig, falls für jedes ε>0<br />

ein δ>0 existiert, sodass |fi(t) − fi(s)| 0 existiert, sodass für jedes<br />

t ∈ Rd , jedes s ∈ Rd mit |t − s| 0, sodass für x ∈ [−N,N] d und u ∈ Rd mit |u|


296 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Beweis. Sei ε>0 vorgegeben und δ>0 so gewählt, dass |fn(t) − fn(s)|


15.3 Der Lévy’sche Stetigkeitssatz 297<br />

α := inf{h(x) : |x| ≥1} =1− sin(1) > 0. Jetzt berechnen wir (unter Benutzung<br />

der Markov’schen Ungleichung und des Satzes von Fubini) für K>0<br />

� c<br />

Pn [−K, K] � ≤ α −1<br />

�<br />

[−K,K] c<br />

h(x/K) Pn(dx)<br />

≤ α −1<br />

�<br />

h(x/K) Pn(dx)<br />

R<br />

= α −1<br />

� � � 1<br />

�<br />

� �<br />

1 − cos(tx/K) dt Pn(dx)<br />

R 0<br />

= α −1<br />

� 1 � �<br />

�<br />

� �<br />

1 − cos(tx/K) Pn(dx) dt<br />

= α −1<br />

0<br />

� 1<br />

0<br />

R<br />

� 1 − Re(ϕn(t/K)) � dt.<br />

Wir erhalten nun (mit dem Satz von der majorisierten Konvergenz)<br />

lim sup<br />

n→∞<br />

Pn([−K, K] c ) ≤ α −1 � 1<br />

lim sup<br />

n→∞ 0<br />

� 1<br />

= α −1<br />

= α −1<br />

0<br />

� 1<br />

0<br />

� 1 − Re(ϕn(t/K)) � dt<br />

� �<br />

lim 1 − Re(ϕn(t/K))<br />

n→∞<br />

��<br />

dt<br />

� �<br />

1 − Re(f(t/K)) dt.<br />

Da f stetig und f(0) = 1 ist, konvergiert das letzte Integral gegen 0,wennK →∞.<br />

Also ist (Pn)n∈N straff. ✷<br />

Eine einfache Anwendung des Lévy’schen Stetigkeitssatzes auf Beispiel 15.15 liefert<br />

den folgenden Satz von Pólya.<br />

Satz 15.24 (Pólya). Sei f : R → [0, 1] stetig und gerade mit f(0) = 1. Ferner sei<br />

f auf [0, ∞) konvex. Dann ist f die charakteristische Funktion eines W-Maßes.<br />

Beweis. Wir können f auf [0, ∞) durch konvexe Polygonzüge fn approximieren,<br />

indem wir fn(k/n) = f(k/n) setzen für k = 0,...,n2 und fn zwischen den<br />

Stützstellen linear interpolieren und rechts von n konstant fortsetzen. Für x0 ist ϕα,r(t) =e−|rt|α die charakteristische<br />

Funktion eines symmetrischen W-Maßes μα,r auf R.


298 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Bemerkung 15.26. Tatsächlich ist ϕα,r auch für α ∈ (0, 2] eine charakteristische<br />

Funktion (für α = 2 die der Normalverteilung), siehe Kapitel 16.2. Die Verteilungen<br />

μα,r haben die Eigenschaft α-stabil zu sein (siehe Definition 16.20): Sind<br />

X1,X2,...,Xn unabhängig und μα,a-verteilt, so ist ϕX1+...+Xn (t) =ϕX(t) n =<br />

ϕX(n1/α D<br />

t), also X1 + ...+ Xn = n1/αX1. ✸<br />

Wir haben mit dem Satz von Stone-Weierstraß gesehen, dass charakteristische Funktionen<br />

Verteilungen eindeutig bestimmen. Der Satz von Pólya bietet eine hinreichende<br />

Bedingung dafür, dass eine symmetrische reelle Funktion eine charakteristische<br />

Funktion ist. Dass diese Bedingung nicht notwendig ist, sieht man schon daran,<br />

dass die charakteristische Funktion der Normalverteilung sie nicht erfüllt. Wir geben<br />

nun, gewissermaßen zur Allgemeinbildung und ohne Beweis, den Satz von Bochner<br />

an, der eine notwendige und hinreichende Bedingung dafür formuliert, dass eine<br />

Funktion ϕ : R d → C die charakteristische Funktion eines W-Maßes ist.<br />

Definition 15.27. Eine Funktion f : R d → C heißt positiv semidefinit, falls für<br />

jedes n ∈ N und alle t1,...,tn ∈ R d sowie y1,...,yn ∈ C gilt<br />

n�<br />

yk ¯yl f(tk − tl) ≥ 0,<br />

k,l=1<br />

mit anderen Worten, falls die Matrix (f(tk − tl))k,l=1,...,n positiv semidefinit ist.<br />

Lemma 15.28. Ist μ ∈Mf (R d ) mit charakteristischer Funktion ϕ, soistϕ positiv<br />

semidefinit.<br />

Beweis. Es gilt<br />

n�<br />

yk ¯yl ϕ(tk − tl) =<br />

k,l=1<br />

n�<br />

k,l=1<br />

yk ¯yl<br />

�<br />

�n<br />

=<br />

k,l=1<br />

� �<br />

���<br />

n�<br />

=<br />

k=1<br />

�<br />

e ix(tk−tl) μ(dx)<br />

yk e ixtk yl e ixtl μ(dx)<br />

yk e ixtk<br />

Der folgende Satz geht im Falle d =1auf Bochner (1932) zurück.<br />

�2<br />

�<br />

�<br />

� μ(dx) ≥ 0. ✷<br />

Satz 15.29 (Bochner). Eine stetige Funktion f : R d → C ist genau dann die<br />

charakteristische Funktion einer Wahrscheinlichkeitsverteilung auf R d ,wennf<br />

positiv semidefinit ist und f(0) = 1 gilt.<br />

Die Aussage gilt ebenfalls, wenn wir R d durch eine lokalkompakte, abelsche Gruppe<br />

ersetzen.


15.4 Charakteristische Funktion und Momente 299<br />

Beweis. Für den Fall d =1siehe [20, §20, Satz 23] oder [53, Kapitel XIX.2, Seite<br />

622]. Für den ganz allgemeinen Fall siehe etwa [70, Seite 293, Theorem 33.3]. ✷<br />

Übung 15.3.1. (Vergleiche [49] und [3].) Man zeige: Es gibt zwei austauschbare<br />

Folgen X =(Xn)n∈N und Y =(Yn)n∈N reeller Zufallsvariablen mit PX �= PY ,<br />

jedoch mit<br />

Anleitung:<br />

n�<br />

Xk<br />

k=1<br />

D<br />

=<br />

n�<br />

Yk für jedes n ∈ N. (15.4)<br />

k=1<br />

(i) Definiere die charakteristischen Funktionen (siehe Satz 15.12) ϕ1(t) = 1<br />

1+t2 und ϕ2(t) =(1−t/2) + . Zeige mit dem Satz von Pólya, dass<br />

�<br />

ϕ1(t), falls |t| ≤1,<br />

ψ1(t) :=<br />

ϕ2(t), falls |t| > 1,<br />

und<br />

�<br />

ϕ2(t), falls |t| ≤1,<br />

ψ2(t) :=<br />

ϕ1(t), falls |t| > 1,<br />

charakteristische Funktionen von Wahrscheinlichkeitsverteilungen auf R sind.<br />

(ii) Definiere unabhängige Zufallsvariablen Xn,i, Yn,i, n ∈ N, i =1, 2, und Θn,<br />

n ∈ N mit: Xn,i hat charakteristische Funktion ϕi, Yn,i hat charakteristische<br />

Funktion ψi und P[Θn =1]=P[Θn = −1] = 1<br />

2 . Setze Xn = Xn,Θn und<br />

Yn = Yn,Θn . Zeige, dass (15.4) gilt.<br />

(iii) Bestimme E[eit1X1+it2X2 ] und E[eit1Y1+it2Y2 ] für t1 = 1<br />

2 und t2 =2und<br />

folgere, dass (X1,X2) � D =(Y1,Y2) und damit PX �= PY . ♣<br />

15.4 Charakteristische Funktion und Momente<br />

Wir wollen den Zusammenhang zwischen den Ableitungen der charakteristischen<br />

Funktion ϕX einer reellen Zufallsvariablen X und den Momenten von X untersuchen.<br />

Wir beginnen mit einem elementaren Lemma.<br />

Lemma 15.30. Für t ∈ R und n ∈ N gilt<br />

�<br />

�<br />

�<br />

�eit − 1 − it<br />

�<br />

(it)n−1 �<br />

− ...− �<br />

1! (n − 1)! �<br />

≤ |t|n<br />

n! .<br />

Beweis. Dies folgt direkt aus der Taylorformel, da die n-te Ableitung von e it dem<br />

Betrage nach 1 ist. ✷


300 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Satz 15.31 (Momente und Differenzierbarkeit). Sei X eine reelle Zufallsvariable<br />

mit charakteristischer Funktion ϕ.<br />

(i) Ist E[|X| n ] < ∞,soistϕn-mal stetig differenzierbar mit Ableitungen<br />

ϕ (k) (t) =E � (iX) k e itX�<br />

für jedes k =0,...,n.<br />

(ii) Ist speziell E[X 2 ] < ∞,soist<br />

ϕ(t) =1+it E[X] − 1<br />

2 t2 E[X 2 ]+ε(t) t 2<br />

mit ε(t) → 0 für t → 0.<br />

|h|<br />

(iii) Sei h ∈ R. Gilt lim<br />

n→∞<br />

n E[|X| n ]<br />

n! =0,soistfür jedes t ∈ R<br />

∞� (ih)<br />

ϕ(t + h) =<br />

k<br />

k! E � e itX X k� .<br />

k=0<br />

Speziell gilt dies, falls E � e |hX|� < ∞.<br />

Beweis. (i) Für t ∈ R, h ∈ R \{0} und k ∈{1,...,n} sei<br />

Yk(t, h, x) =k! h −k e itx<br />

�<br />

e ihx k−1 � (ihx)<br />

−<br />

l<br />

�<br />

.<br />

l!<br />

Dann ist<br />

E[Yk(t, h, X)] = k! h −k<br />

�<br />

k−1 �<br />

ϕ(t + h) − ϕ(t) − E � e itX (iX) l� hl �<br />

.<br />

l!<br />

Existiert nun der Limes ϕk(t) := limh→0 E[Yk(t, h, X)], soistϕk-mal differenzierbar<br />

in t mit ϕ (k) (t) =ϕk(t).<br />

Es gilt aber (nach Lemma 15.30 mit n = k +1) Yk(t, h, x) h→0<br />

−→ (ix) keitx für<br />

jedes x ∈ R und (nach Lemma 15.30 mit n = k) |Yk(t, h, x)| ≤|x| k . Da nach<br />

Voraussetzung E[|X| k ] < ∞ gilt, folgt mit dem Satz über majorisierte Konvergenz,<br />

dass E[Yk(t, h, X)] h→0<br />

−→ E[(iX) keitX ]=ϕ (k) (t). Eine einfache Anwendung des<br />

Stetigkeitslemmas (Satz 6.27) liefert die Stetigkeit von ϕ (k) .<br />

(ii) Dies folgt direkt aus (i).<br />

(iii) Nach Voraussetzung gilt<br />

l=0<br />

l=1


�<br />

�<br />

�<br />

�ϕ(t<br />

+ h) −<br />

�<br />

n−1 �<br />

k=0<br />

(ih) k<br />

15.4 Charakteristische Funktion und Momente 301<br />

k! E� e itX X k�� � ��� = hn<br />

n!<br />

�<br />

� E[Yn(t, h, X)] � �<br />

≤ hn E[|X| n ]<br />

n!<br />

n→∞<br />

−→ 0. ✷<br />

Korollar 15.32 (Momentenproblem). Sei X eine reelle Zufallsvariable mit<br />

α := lim sup<br />

n→∞<br />

1<br />

n E� |X| n� 1/n < ∞.<br />

Dann ist die charakteristische Funktion ϕ von X analytisch, und die Verteilung<br />

von X ist durch die Angabe der Momente E[X n ], n ∈ N, eindeutig bestimmt.<br />

Speziell gilt dies, falls E � e t|X|� < ∞ ist für ein t>0.<br />

Beweis. Nach der Stirling’schen Formel ist limn→∞ 1<br />

n! nn e −n√ 2πn = 1.Für<br />

|h| < 1/(3α) gilt daher<br />

lim sup<br />

n→∞<br />

E � |X| n� ·|h| n √<br />

/n! = lim sup 2πn<br />

n→∞<br />

�<br />

E � |X| n� �<br />

1/n<br />

n<br />

·|h|·e/n<br />

√<br />

n<br />

≤ lim sup 2πn(e/3) =0.<br />

n→∞<br />

Die charakteristische Funktion ist also um jeden Punkt t ∈ R in eine Potenzreihe<br />

entwickelbar mit Konvergenzradius mindestens 1/(3α), ist insbesondere also analytisch.<br />

Damit ist sie festgelegt durch die Koeffizienten der Potenzreihe um t =0,<br />

also durch die Momente von X. ✷<br />

Beispiele 15.33. (i) Sei X ∼N μ,σ 2.Dannistfür jedes t ∈ R<br />

E � e tX� = � 2πσ 2� −1/2<br />

� ∞<br />

−∞<br />

= e μt+t2 σ 2 /2 � 2πσ 2� −1/2<br />

= e μt+t2 σ 2 /2 < ∞.<br />

e tx e −(x−μ)2 /2σ 2<br />

dx<br />

� ∞<br />

e<br />

−∞<br />

−(x−μ−tσ2 ) 2 /2σ 2<br />

Also ist die Verteilung von X durch Angabe aller Momente komplett bestimmt. Die<br />

charakteristische Funktion ϕ(t) =e iμt e −σ2 t 2 /2 , die wir durch die obige Rechnung<br />

mit it statt t erhalten, ist in der Tat analytisch.<br />

(ii) Sei X exponentialverteilt mit Parameter θ>0. Dannistfür t ∈ (0,θ)<br />

E[e tX ]=θ<br />

� ∞<br />

0<br />

e tx e −θx dx = θ<br />

< ∞.<br />

θ − t<br />

Also ist die Verteilung von X durch Angabe aller Momente bestimmt. Die selbe<br />

Rechnung mit it statt t liefert ϕ(t) =θ/(θ − it), und diese Funktion ist in der Tat<br />

dx


302 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

analytisch. Der Umstand, dass ϕ im Komplexen eine Singularität bei t = −iθ hat,<br />

impliziert, dass die Potenzreihe von ϕ um 0 den Konvergenzradius θ hat. Insbesondere<br />

folgt hieraus, dass nicht alle exponentiellen Momente existieren können. Dies<br />

wird reflektiert durch die obige Rechnung, die zeigt, dass für t ≥ θ keine exponentiellen<br />

Momente existieren.<br />

(iii) Sei X log-normalverteilt (siehe Beispiel 15.5). Dann ist E[X n ] = e n2 /2 .<br />

Speziell ist in diesem Fall α = ∞. Tatsächlich hatten wir in Beispiel 15.5 gesehen,<br />

dass die Momente in diesem Fall nicht die Verteilung von X bestimmen.<br />

(iv) Hat X Werte in N0 und gilt β := lim supn→∞ E[Xn ] 1/n < 1, so gilt nach<br />

den Hadamard-Kriterium ψX(z) := �∞ k=1 P[X = k] zk < ∞ für |z| < 1/β.<br />

Speziell ist die Erzeugendenfunktion von X durch die Ableitungen ψ (n)<br />

X (1), n ∈ N,<br />

und damit durch die Momente von X eindeutig festgelegt. Vergleiche Satz 3.2(iii).<br />

✸<br />

Satz 15.34. Sei X eine reelle Zufallsvariable und ϕ die charakteristische Funktion<br />

von X. Sein ∈ N, und ϕ sei 2n-mal differenzierbar in 0 mit Ableitung ϕ (2n) (0).<br />

Dann gilt E[X 2n ]=ϕ (2n) (0) < ∞.<br />

Beweis. Wir führen den Beweis per Induktion nach n ∈ N0. Für n =0ist die<br />

Aussage trivialerweise richtig. Sei nun n ∈ N, und ϕ sei 2n-mal differenzierbar in<br />

0. Wir setzen u(t) =Re(ϕ(t)). Dannistuebenfalls 2n-mal differenzierbar in 0<br />

und u (2k−1) (0) = 0 für k =1,...,n, weil u gerade ist. Da ϕ (2n) (0) existiert, ist<br />

ϕ (2n−1) stetig in 0 und ϕ (2n−1) (t) existiert für t ∈ (−ε, ε) für gewisses ε>0.<br />

Ferner existiert dann ϕ (k) in (−ε, ε) und ist dort stetig für jedes k =0,...,2n − 2.<br />

Nach der Taylorformel gilt also für jedes t ∈ (−ε, ε)<br />

�<br />

� n−1<br />

�<br />

�<br />

�u(t)<br />

−<br />

�<br />

k=0<br />

�<br />

�<br />

�<br />

�<br />

(2k)! �<br />

u (2k) (0) t2k<br />

≤ |t|2n−1<br />

(2n − 1)!<br />

sup<br />

θ∈(0,1]<br />

�<br />

�<br />

�u (2n−1) �<br />

�<br />

(θt) � . (15.5)<br />

Wir definieren eine stetige Funktion fn : R → [0, ∞) durch fn(0) = 1 und für<br />

x �= 0<br />

fn(x) =(−1) n (2n)! x −2n<br />

�<br />

�<br />

n−1 �<br />

k x2k<br />

cos(x) − (−1) .<br />

(2k)!<br />

Nach Induktionsvoraussetzung ist E[X 2k ]=u (2k) (0) für jedes k =1,...,n− 1.<br />

Es folgt mit (15.5)<br />

E � fn(tX) X 2n� ≤ 2n<br />

|t|<br />

k=0<br />

sup |u<br />

θ∈(0,1]<br />

(2n−1) (θt)| ≤gn(t) :=2n sup<br />

θ∈(0,1]<br />

Mit dem Lemma von Fatou folgt<br />

E � X 2n� = E � fn(0)X 2n� ≤ lim inf<br />

t→0 E�fn(tX)X 2n�<br />

≤ lim inf<br />

t→0 gn(t) =2n � � u (2n) (0) � � < ∞.<br />

|u (2n−1) (θt)|<br />

.<br />

θ |t|


15.4 Charakteristische Funktion und Momente 303<br />

Hieraus folgt nach Satz 15.31 aber schon E[X 2n ]=u (2n) (0) = ϕ (2n) (0). ✷<br />

Bemerkung 15.35. Für ungerade Momente gilt die Aussage des Satzes nicht (siehe<br />

etwa Übung 15.4.4 für das erste Moment). In der Tat ist ϕ in 0 genau dann differenzierbar<br />

mit Ableitung im für ein m ∈ R, wennxP[|X| >x] x→∞<br />

−→ 0 und<br />

E[X {|X|≤x}] x→∞<br />

−→ m. (Siehe [53, Kapitel XVII.2a, Seite 565].) ✸<br />

Übung 15.4.1. Es seien X und Y nichtnegative Zufallsvariablen mit<br />

und<br />

lim sup<br />

n→∞<br />

1<br />

n E[|X|n ] 1/n 1<br />

< ∞, lim sup<br />

n→∞ n E[|Y |n ] 1/n < ∞,<br />

E[X m Y n ]=E[X m ] E[Y n ] für alle m, n ∈ N0.<br />

Man zeige: X und Y sind unabhängig.<br />

Hinweis: Verwende Korollar 15.32 für die Zufallsvariable Y bezüglich des Wahrscheinlichkeitsmaßes<br />

X m P[ · ]/E[X m ] um zu zeigen, dass<br />

E[X m A(Y )]/E[X m ]=P[Y ∈ A] für jedes A ∈B(R) und m ∈ N0.<br />

Verwende nun Korollar 15.32 für X bezüglich des W-Maßes P[ · |Y ∈ A]. ♣<br />

Übung 15.4.2. Seien r, s > 0 und Z ∼ Γ1,r+s, B ∼ βr,s (siehe Beispiel 1.107).<br />

Man zeige mit Hilfe von Übung 15.4.1: Die Zufallsvariablen X := BZ und Y :=<br />

(1 − B)Z sind unabhängig mit X ∼ Γ1,r und Y ∼ Γ1,s. ♣<br />

Übung 15.4.3. Man zeige, dass für α>2 die Funktion φα(t) =e−|t|α keine charakteristische<br />

Funktion ist.<br />

(Hinweis: Man nehme das Gegenteil an und zeige, dass dann die zugehörige Verteilung<br />

verschwindende Varianz hätte.) ♣<br />

Übung 15.4.4. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit charakteristischer<br />

Funktion ϕ. Man zeige:<br />

(i) Ist ϕ differenzierbar in 0, soistϕ ′ (0) = imfür ein m ∈ R.<br />

(ii) ϕ ist differenzierbar in 0 mit ϕ ′ (0) = im genau dann, wenn (X1 + ... +<br />

Xn)/n n→∞<br />

−→ m stochastisch.<br />

(iii) Die Verteilung von X1 kann so gewählt werden, dass ϕ differenzierbar in 0 ist,<br />

aber E[|X1|] =∞. ♣


304 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

15.5 Der Zentrale Grenzwertsatz<br />

Während wir im starken Gesetz der großen Zahl gesehen haben, dass Summen Sn =<br />

X1 + ...+ Xn u.i.v. integrierbarer Zufallsvariablen Werte in etwa von der Größe<br />

n·E[X1] annehmen, wollen wir jetzt anschauen, wie groß und von welcher Form die<br />

typischen Abweichungen von diesem Wert sind – jedenfalls unter der zusätzlichen<br />

Annahme, dass Var[X1] ∈ (0, ∞).<br />

Wir bereiten den Beweis des zentralen Grenzwertsatzes mit einem Lemma vor.<br />

Lemma 15.36. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =μ und<br />

Var[X1] =σ2 ∈ (0, ∞). Sei<br />

n�<br />

(Xk − μ)<br />

S ∗ n := 1<br />

√ nσ 2<br />

k=1<br />

die standardisierte n-te Partialsumme. Dann gilt<br />

lim<br />

n→∞ ϕS∗ n (t) =e−t2 /2<br />

für jedes t ∈ R.<br />

Beweis. Sei ϕ = ϕXk−μ. Dann ist nach Satz 15.31(ii)<br />

ϕ(t) =1− σ2<br />

2 t2 + ε(t) t 2 ,<br />

wobei ε(t) → 0, wennt→0. Nach Lemma 15.11(iv) und (ii) ist<br />

ϕS∗ (t) =ϕ<br />

n<br />

�<br />

Nun ist 1 − t2<br />

�n n→∞<br />

2n −→ e−t2 /2 und<br />

�<br />

�<br />

�<br />

�<br />

�<br />

1 − t2<br />

�n<br />

− ϕ<br />

2n<br />

� t<br />

√nσ 2<br />

� t<br />

√nσ 2<br />

≤ n t2<br />

nσ 2<br />

� n<br />

.<br />

�n � �<br />

� � �<br />

��� � t2<br />

≤ n �<br />

t ���<br />

�1 − − ϕ √nσ<br />

2n 2<br />

�<br />

�<br />

�<br />

�ε � ��<br />

t ��� n→∞<br />

√nσ −→ 0.<br />

2<br />

(Beachte: |u n − v n |≤|u − v|·n · max(|u|, |v|) n−1 für alle u, v ∈ C.) ✷<br />

Satz 15.37 (Zentraler Grenzwertsatz). Seien X1,X2,... u.i.v. reelle Zufallsvariablen<br />

mit μ := E[X1] ∈ R und σ2 := Var[X1] ∈ (0, ∞). Für n ∈ N sei<br />

S∗ n := 1 �n √<br />

σ2n i=1 (Xi − μ). Dann gilt<br />

PS ∗ n<br />

n→∞<br />

−→ N0,1 schwach.<br />

Für −∞ ≤ a


15.5 Der Zentrale Grenzwertsatz 305<br />

Beweis. Nach Lemma 15.36 und dem Lévy’schen Stetigkeitssatz (Satz 15.23) konvergiert<br />

PS ∗ n gegen die Verteilung mit charakteristischer Funktion ϕ(t) =e−t2 /2 .<br />

Nach Satz 15.12(i) ist dies N0,1. Der Zusatz folgt mit dem Portemanteau Theorem<br />

(Satz 13.16), weil N0,1 eine Dichte hat, also N0,1(∂[a, b]) = 0 gilt. ✷<br />

Bemerkung 15.38. Man kann ohne Benutzung des Stetigkeitssatzes auch so argumentieren:<br />

Für jedes K>0 und n ∈ N ist P[|S∗ n| >K] ≤ Var[S ∗ n]/K2 =1/K2 ,<br />

also ist die Folge PS∗ straff. Da die charakteristischen Funktionen verteilungsbe-<br />

n<br />

stimmend sind, folgt die Aussage mit Satz 13.34. ✸<br />

Wir wollen uns nun von der Annahme von Satz 15.37 lösen, dass die Zufallsvariablen<br />

identisch verteilt sind. Tatsächlich können wir sogar Partialsummen bilden, die<br />

jeweils ganz unterschiedliche zentrierte Zufallsvariablen aufsummieren. Entscheidend<br />

ist, dass die Varianz der normierten Summe 1 ist, und dass jeder einzelne<br />

Summanden nur einen kleinen Beitrag liefert.<br />

Definition 15.39. Für jedes n ∈ N sei kn ∈ N und seien Xn,1,...,Xn,kn reelle<br />

Zufallsvariablen. Wir nennen (Xn,l) = � Xn,l, l=1,...,kn, n∈ N � ein Schema<br />

von Zufallsvariablen. Wirdefinieren stets Sn = Xn,1 + ...+ Xn,kn als die<br />

Zeilensumme. Das Schema heißt<br />

– unabhängig, falls für jedes n ∈ N die Familie (Xn,l)l=1,...,kn unabhängig ist,<br />

– zentriert, falls Xn,l ∈L1 (P) und E[Xn,l] =0ist für jedes n und l,<br />

– normiert, falls Xn,l ∈L2 (P) und kn�<br />

Var[Xn,l] =1ist für jedes n ∈ N.<br />

l=1<br />

Ein zentriertes Schema heißt asymptotisch vernachlässigbar, falls für jedes ε>0<br />

lim<br />

n→∞ max P[|Xn,l| >ε]=0.<br />

1≤l≤kn<br />

Definition 15.40. Ein zentriertes Schema (Xn,l) mit Xn,l ∈L 2 (P) für jedes n ∈ N<br />

und l =1,...,kn erfüllt die Lindeberg-Bedingung, falls für jedes ε>0 gilt, dass<br />

Ln(ε) :=<br />

1<br />

Var[Sn]<br />

kn�<br />

l=1<br />

�<br />

E X 2 n,l {X2 n,l >ε2 �<br />

n→∞<br />

Var[Sn]}<br />

−→ 0. (15.6)<br />

Das Schema erfüllt die Lyapunov-Bedingung, falls für ein δ>0 gilt<br />

1<br />

lim<br />

n→∞ Var[Sn] 1+(δ/2)<br />

kn�<br />

E � |Xn,l| 2+δ� =0. (15.7)<br />

Lemma 15.41. Die Lyapunov-Bedingung impliziert die Lindeberg-Bedingung.<br />

l=1


306 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Beweis. Für x ∈ R ist x 2 {|x|>ε ′ } ≤ (ε ′ ) −δ |x| 2+δ {|x|>ε ′ } ≤ (ε ′ ) −δ |x| 2+δ . Mit<br />

ε ′ := ε � Var[Sn] folgt Ln(ε) ≤ ε −δ<br />

1<br />

Var[Sn] 1+(δ/2)<br />

l=1<br />

kn�<br />

E � |Xn,l| 2+δ� . ✷<br />

Beispiel 15.42. Seien (Yn)n∈N u.i.v. mit E[Yn] =0und Var[Yn] =1.Seikn = n<br />

und Xn,l = Yl √n .Dannist(Xn,l) unabhängig, zentriert und normiert. Es gilt<br />

P[|Xn,l| > ε] = P[|Y1| > ε √ n ] n→∞<br />

−→ 0, also ist (Xn,l) asymptotisch vernachlässigbar.<br />

Es gilt Ln(ε) = E � Y 2<br />

1 {|Y1|>ε √ � n→∞<br />

n} −→ 0, alsoerfüllt (Xn,l)<br />

die Lindeberg-Bedingung.<br />

Gilt Y1 ∈L2+δ (P) für ein δ>0, soist<br />

n�<br />

l=1<br />

E � |Xn,l| 2+δ� = n −(δ/2) E � |Y1| 2+δ� n→∞<br />

−→ 0.<br />

In diesem Fall erfüllt (Xn,l) auch die Lyapunov Bedingung. ✸<br />

Der folgende Satz geht auf Lindeberg (1922) für die Richtung (i) =⇒ (ii) und Feller<br />

(1935 und 1937) für die Richtung (ii) =⇒ (i) zurück. In den Anwendungen interessiert<br />

meist nur die Richtung von Lindeberg (i) =⇒ (ii), daher beweisen wir nur<br />

diesen Teil. Für die Richtung (ii) =⇒ (i) siehe etwa [145, Theorem III.4.3].<br />

Satz 15.43 (Zentraler Grenzwertsatz von Lindeberg-Feller). Sei (Xn,l) ein unabhängiges,<br />

zentriertes und normiertes Schema reeller Zufallsvariablen, sowie<br />

Sn = Xn,1 + ...+ Xn,kn für jedes n ∈ N. Dann sind äquivalent<br />

(i) Es gilt die Lindeberg-Bedingung.<br />

(ii) (Xn,l) ist asymptotisch vernachlässigbar, und es gilt PSn<br />

n→∞<br />

−→ N0,1.<br />

Wir bereiten den Beweis des Satzes von Lindeberg mit ein paar Lemmata vor.<br />

Lemma 15.44. Gilt (i) in Satz 15.43, so ist (Xn,l) asymptotisch vernachlässigbar.<br />

Beweis. Für ε>0 ist nach der Chebyshev’schen Ungleichung<br />

kn�<br />

P � |Xn,l| >ε � ≤ ε −2<br />

kn�<br />

E � X 2 n,l<br />

�<br />

{|Xn,l|>ε} = Ln(ε) n→∞<br />

−→ 0. ✷<br />

l=1<br />

l=1<br />

Seien im Folgenden stets ϕn,l und ϕn die charakteristischen Funktionen von Xn,l<br />

und Sn.<br />

Lemma 15.45. Für jedes n ∈ N und t ∈ R gilt<br />

kn� �<br />

�1 − ϕn,l(t) � �<br />

t<br />

≤ 2<br />

2 .<br />

l=1


15.5 Der Zentrale Grenzwertsatz 307<br />

Beweis. Für jedes x ∈ R ist |e itx − 1 − itx| ≤ t2 x 2<br />

2 .WegenE[Xn,l] =0ist<br />

kn�<br />

kn� �<br />

|ϕn,l(t) − 1| = �E[e itXn,l<br />

�<br />

− 1] �<br />

l=1<br />

≤<br />

≤<br />

l=1<br />

kn�<br />

E �� � itXn,l e − itXn,l − 1 � � � + � �E[itXn,l] � �<br />

l=1<br />

kn� t2 l=1<br />

2 E[X2 n,l] = t2<br />

2<br />

. ✷<br />

�<br />

kn�<br />

�<br />

Lemma 15.46. Gilt (i) in Satz 15.43, so ist lim � log ϕn(t)− E � e itXn,l<br />

�<br />

−1 � �<br />

� =0.<br />

n→∞<br />

Beweis. Setze mn := max |ϕn,l(t) − 1|. Beachte, dass für jedes ε>0 gilt:<br />

l=1,...,kn<br />

�<br />

�e itx − 1 � �<br />

2 2 2 x /ε , falls |x| >ε,<br />

� ≤<br />

εt, falls |x| ≤ε.<br />

Hieraus folgt<br />

���e |ϕn,l(t) − 1| ≤E<br />

itXn,l<br />

� � ���e − 1� {|Xn,l|≤ε} + E<br />

itXn,l<br />

� �<br />

− 1� {|Xn,l|>ε}<br />

Also ist für jedes ε>0<br />

≤ εt +2ε −2 �<br />

E X 2 �<br />

n,l {|Xn,l|>ε} .<br />

lim sup<br />

n→∞<br />

l=1<br />

� −2<br />

mn ≤ lim sup εt +2ε Ln(ε)<br />

n→∞<br />

� = εt,<br />

und damit lim<br />

n→∞ mn =0.Nunistfür x ∈ C mit |x| ≤ 1<br />

2 stets | log(1+x)−x| ≤x2 .<br />

Ist n groß genug, sodass mn < 1<br />

2 ,dannist


308 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

�<br />

�<br />

�<br />

�<br />

� log ϕn(t)<br />

kn�<br />

− E[e<br />

l=1<br />

itXn,l<br />

�<br />

�<br />

�<br />

− 1] �<br />

� =<br />

�<br />

� kn�<br />

�<br />

� log(ϕn,l(t)) − E[e<br />

�<br />

l=1<br />

itXn,l<br />

�<br />

�<br />

�<br />

− 1] �<br />

�<br />

≤<br />

kn� �<br />

ϕn,l(t) − 1 �2 l=1<br />

≤ mn<br />

kn�<br />

|ϕn,l(t) − 1|<br />

l=1<br />

≤ 1<br />

2 mn t 2<br />

(nach Lemma 15.45)<br />

−→ 0 für n →∞. ✷<br />

Der eigentliche Trick besteht in der Einführung der Funktion<br />

⎧<br />

1+x<br />

⎪⎨<br />

ft(x) :=<br />

⎪⎩<br />

2<br />

x2 �<br />

e itx − 1 − itx<br />

1+x2 �<br />

, falls x �= 0,<br />

− t2<br />

, falls x =0,<br />

2<br />

sowie der Maße μn,νn ∈Mf (R), n∈ N,<br />

l=1<br />

l=1<br />

(15.8)<br />

kn�<br />

νn(dx) := x 2 PXn,l (dx) und μn(dx)<br />

kn� x<br />

:=<br />

2<br />

PXn,l (dx).<br />

1+x2 Lemma 15.47. Für jedes t ∈ R gilt ft ∈ Cb(R).<br />

Beweis. Für jedes |x| ≥1 ist 1+x2<br />

x2 ≤ 2, also gilt<br />

�<br />

|ft(x)| ≤2 |e itx | +1+ tx<br />

1+x2 �<br />

≤ 4+2|t|.<br />

Wir müssen zeigen, dass ft stetig in 0 ist. Die Taylorformel (Lemma 15.30) liefert<br />

e itx =1+itx − t2 x 2<br />

mit |R(tx)| ≤ 1<br />

6 |tx|3 .Alsoistfür festes t<br />

lim<br />

0�=x→0 ft(x) = lim<br />

0�=x→0<br />

1<br />

x 2<br />

�<br />

itx<br />

2<br />

�<br />

1 − 1<br />

1+x 2<br />

Lemma 15.48. Gilt (i) in Satz 15.43, so gilt νn<br />

+ R(tx)<br />

�<br />

− t2x2 �<br />

+ R(tx)<br />

2<br />

n→∞<br />

−→ δ0 schwach.<br />

= − t2<br />

. ✷<br />

2


Beweis. Für jedes n ∈ N ist νn ∈M1(R), denn<br />

νn(R) =<br />

kn�<br />

�<br />

l=1<br />

x 2 PXn,l (dx) =<br />

15.5 Der Zentrale Grenzwertsatz 309<br />

kn�<br />

Var[Xn,l] =1,<br />

l=1<br />

Für ε>0 gilt aber νn((−ε, ε) c )=Ln(ε) n→∞<br />

−→ 0, also νn<br />

Lemma 15.49. Gilt (i) in Satz 15.43, so gilt<br />

�<br />

�<br />

1<br />

n→∞<br />

ft(x) μn(dx)+it μn(dx) −→ −<br />

x t2<br />

2 .<br />

n→∞<br />

−→ δ0. ✷<br />

Beweis. Wegen (x ↦→ ft(x)/(1 + x2 )) ∈ Cb(R) ist nach Lemma 15.48<br />

�<br />

�<br />

ft(x) μn(dx) = ft(x)<br />

1<br />

n→∞<br />

νn(dx) −→ ft(0) = −<br />

1+x2 t2<br />

2 .<br />

Nun ist (x ↦→ x/(1 + x2 )) ∈ Cb(R) und E[Xn,l] =0für jedes n und l, also<br />

�<br />

1<br />

x μn(dx)<br />

kn�<br />

�<br />

= E<br />

Xn,l<br />

�<br />

kn�<br />

�<br />

= E<br />

Xn,l<br />

�<br />

− Xn,l<br />

l=1<br />

kn�<br />

�<br />

= − E<br />

l=1<br />

�<br />

= −<br />

1+X 2 n,l<br />

l=1<br />

X 2 n,l · Xn,l<br />

1+X 2 n,l<br />

�<br />

1+X 2 n,l<br />

x<br />

n→∞<br />

νn(dx) −→ 0. ✷<br />

1+x2 Beweis von Satz 15.43<br />

” (i) =⇒ (ii)“ Wir müssen für jedes t ∈ R zeigen, dass lim<br />

n→∞ log ϕn(t) =− t2<br />

2 .<br />

Nach Lemma 15.46 ist dies äquivalent zu<br />

lim<br />

n→∞<br />

kn�<br />

l=1<br />

� ϕn,l(t) − 1 � = − t2<br />

2 .<br />

Nun ist ft(x) x2<br />

1+x 2 = e itx − 1 − itx<br />

1+x 2 . Also gilt<br />

kn� �<br />

ϕn,l(t) − 1<br />

l=1<br />

� kn�<br />

� �<br />

x<br />

= ft(x)<br />

l=1<br />

2 itx<br />

+<br />

1+x2 1+x2 �<br />

PXn,l (dx)<br />

�<br />

=<br />

�<br />

ft dμn + it<br />

1<br />

x μn(dx)<br />

n→∞<br />

−→ − t2<br />

2<br />

(nach Lemma 15.49) ✷


310 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

Als eine Anwendung des Satzes von Lindeberg-Feller bringen wir den so genannten<br />

Dreireihensatz, der auf Kolmogorov zurückgeht.<br />

Satz 15.50 (Kolmogorov’scher Dreireihensatz). Seien X1,X2,... unabhängige<br />

reelle Zufallsvariablen. Es sei K>0 und Yn := Xn {|Xn|≤K} für jedes n ∈ N.<br />

Die Reihe �∞ n=1 Xn konvergiert genau dann fast sicher, wenn die folgenden drei<br />

Bedingungen gelten:<br />

(i)<br />

(ii)<br />

(iii)<br />

∞�<br />

P[|Xn| >K] < ∞,<br />

n=1<br />

∞�<br />

E[Yn] konvergiert,<br />

n=1<br />

∞�<br />

Var[Yn] < ∞.<br />

n=1<br />

Beweis. ⇐= “ Es gelten (i), (ii) und (iii). Nach Übung 7.1.1 konvergiert wegen<br />

”<br />

(iii) die Reihe �∞ n=1 (Yn − E[Yn]) f.s. Wegen (ii) konvergiert also �∞ n=1 Yn f.s.<br />

Nach dem Lemma von Borel-Cantelli existiert ein N = N(ω), sodass |Xn| Kunendlich oft, was der<br />

Annahme widerspräche).<br />

Wir nehmen an, dass (iii) nicht gilt und führen dies zum Widerspruch. Wir setzen<br />

σ2 n = �n k=1 Var[Yk] und definieren ein Schema (Xn,l; l = 1,...,n, n ∈ N)<br />

durch Xn,l = (Yl− E[Yl])/σn. Das Schema ist zentriert und normiert. Wegen<br />

σ2 n→∞<br />

n −→ ∞, gilt für jedes ε > 0 und großes n ∈ N, dass2K < εσn, aber<br />

|Xn,l| ≤ ε für alle l = 1,...,n. Es folgt Ln(ε) n→∞<br />

−→ 0, wobei Ln(ε) =<br />

n�<br />

E � X2 �<br />

n,l {|Xn,l|≥ε} die Größe aus der Lindeberg-Bedingung ist (siehe (15.6)).<br />

l=1<br />

Nach dem Satz von Lindeberg-Feller gilt also Sn := Xn,1 +...+Xn,n<br />

n→∞<br />

=⇒ N0,1.<br />

Wie<br />

�<br />

im ersten Teil des Beweises gezeigt, folgt aus der fast sicheren Konvergenz von<br />

∞<br />

n=1 Xn und aus (i)<br />

∞�<br />

n=1<br />

Yn konvergiert fast sicher. (15.9)<br />

n→∞<br />

Insbesondere gilt Tn := (Y1 + ...+ Yn)/σn =⇒ 0. Nach dem Satz von Slutzky<br />

gilt also auch (Sn − Tn) n→∞<br />

=⇒ N0,1. Andererseits ist Sn − Tn deterministisch für<br />

jedes n ∈ N, womit die Annahme, dass (iii) nicht gilt ad absurdum geführt ist.


15.5 Der Zentrale Grenzwertsatz 311<br />

Nachdem wir (iii) schon gezeigt haben, folgt mit Übung 7.1.1, dass � ∞<br />

n=1 (Yn −<br />

E[Yn]) fast sicher konvergiert. Wegen (15.9) folgt (ii). ✷<br />

Als Ergänzung bringen wir ohne Beweis eine Abschätzung für die Konvergenzgeschwindigkeit<br />

im Zentralen Grenzwertsatz (siehe beispielsweise [145, Kapitel III,<br />

§11] für einen Beweis), die mit anderen Konstanten (statt 0.8) unabhängig von Berry<br />

[13] und Esseen [45] gefunden wurde.<br />

Satz 15.51 (Berry-Esseen). Seien X1,X2,... unabhängig und identisch verteilt<br />

mit E[X1] =0, E[X2 1 ]=σ2 ∈ (0, ∞) und γ := E[|X1| 3 ] < ∞. Seien S∗ n :=<br />

√ 1<br />

nσ2 (X1 + ···+ Xn) und Φ : x ↦→ 1<br />

� x<br />

√<br />

2π −∞ e−t2 /2dt die Verteilungsfunktion<br />

der Standardnormalverteilung. Dann gilt für jedes n ∈ N<br />

�<br />

sup �P [S<br />

x∈R<br />

∗ n ≤ x] − Φ(x) � �<br />

0.8 γ<br />

≤<br />

σ3√n .<br />

Übung 15.5.1. Die Argumentation aus Bemerkung 15.38 ist etwas direkter als die<br />

Argumentation mit dem Lévy’schen Stetigkeitssatz, allerdings etwas weniger robust:<br />

Man gebe eine Folge X1,X2,...von unabhängigen, reellen Zufallsvariablen<br />

an mit E[|Xn|] =∞ für jedes n ∈ N, aber mit<br />

X1 + ...+ Xn<br />

√ n<br />

n→∞<br />

=⇒ N0,1. ♣<br />

Übung 15.5.2. Seien Y1,Y2,... u.i.v. mit E[Yi] =0und E[Y 2<br />

i ]=1. Davon unabhängig<br />

seien Z1,Z2,...unabhängige Zufallsvariablen mit<br />

P[Zi = i] =P[Zi = −i] = 1�<br />

1 − P[Zi =0]<br />

2<br />

� = 1 1<br />

.<br />

2 i2 Setze Xi := Yi + Zi und Sn = X1 + ...+ Xn für i, n ∈ N.<br />

Man zeige: n −1/2 Sn<br />

n→∞<br />

=⇒ N0,1, aber (Xi)i∈N erfüllt keine Lindeberg-Bedingung.<br />

Hinweis: Möglichst nicht direkt ausrechnen! ♣<br />

Übung 15.5.3. Seien X1,X2,...u.i.v. Zufallsvariablen mit Dichte<br />

f(x) = 1<br />

|x| 3 R\[−1,1](x).<br />

Dann ist E[X 2 1 ]=∞, aber es gibt Zahlen A1,A2,..., sodass<br />

X1 + ...+ Xn<br />

An<br />

n→∞<br />

=⇒ N0,1.<br />

Man gebe die Folge (An)n∈N explizit an. ♣


312 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />

15.6 Mehrdimensionaler Zentraler Grenzwertsatz<br />

Wir kommen zu einer mehrdimensionalen Variante des zentralen Grenzwertsatzes.<br />

Definition 15.52. Sei C eine (strikt) positiv definite symmetrische reelle d×d Matrix<br />

und μ ∈ Rd . Ein Zufallsvektor X =(X1,...,Xd) T heißt d-dimensional normalverteilt<br />

mit Erwartungswert μ und Kovarianzmatrix C, falls X die Dichte<br />

fμ,C(x) =<br />

1<br />

� (2π) d det(C) exp<br />

für x ∈ R d hat. Wir schreiben X ∼Nμ,C.<br />

�<br />

− 1<br />

2<br />

� x − μ, C −1 (x − μ) � �<br />

(15.10)<br />

Satz 15.53. Sei μ ∈ R d und C eine reelle positiv definite symmetrische reelle d×d<br />

Matrix. Ist X ∼Nμ,C, dann gelten:<br />

(i) E[Xi] =μi für jedes i =1,...,d.<br />

(ii) Cov[Xi,Xj] =Ci,j für alle i, j =1,...,d.<br />

(iii) 〈λ, X〉 ∼N 〈λ,μ〉,〈λ,Cλ〉 für jedes λ ∈ Rd .<br />

(iv) ϕ(t) :=E[ei〈t,X〉 ]=ei〈t,μ〉 1 − e 2 〈t,Ct〉 für jedes t ∈ Rd .<br />

Es gilt sogar X ∼Nμ,C ⇐⇒ (iii) ⇐⇒ (iv).<br />

Beweis. (i) und (ii) sind einfache Rechnungen, ebenso (iii) und (iv). Die Implikation<br />

(iii) =⇒ (iv) ist simpel. Die Familie {ft : x ↦→ e i〈t,x〉 ,t∈ R d } ist trennend für<br />

M1(R d ) nach dem Satz von Stone–Weierstraß. Also legt ϕ die Verteilung von X<br />

eindeutig fest. ✷<br />

Bemerkung 15.54. Für eindimensionale Normalverteilungen liegt es nahe, Nμ,0 als<br />

δμ zu definieren. Einen so einfachen Begriff können wir bei mehrdimensionalen<br />

Normalverteilungen nicht mehr erwarten (außer für den Fall C =0), wenn eine<br />

Entartung nur in einigen Richtungen auftritt, also C nur noch positiv semidefinit<br />

und symmetrisch ist. In diesem Fall definieren wir Nμ,C als diejenige Verteilung<br />

auf Rn mit charakteristischer Funktion ϕ(t) =ei〈t,μ〉 1 − e 2 〈t,Ct〉 . ✸<br />

Satz 15.55 (Cramér-Wold Device). Sind Xn =(Xn,1,...,Xn,d) T ∈ R d , n ∈<br />

N ∪{∞}, Zufallsvektoren, so gilt genau dann<br />

PXn<br />

wenn für jedes λ ∈ R d gilt, dass<br />

P 〈λ,Xn〉<br />

n→∞<br />

−→ PX∞<br />

schwach, (15.11)<br />

n→∞<br />

−→ P 〈λ,X∞〉 schwach. (15.12)


15.6 Mehrdimensionaler Zentraler Grenzwertsatz 313<br />

Beweis. Gelte (15.11). Sei λ ∈ Rd und s ∈ R. Die Abbildung Rd → C, x ↦→<br />

eis〈λ,x〉 ist stetig und beschränkt, also gilt E[eis〈λ,Xn〉 ] n→∞<br />

−→ E[eis〈λ,X∞〉 ]. Damit<br />

gilt (15.12).<br />

Gelte nun (15.12). Dann ist (Xn,l)n∈N straff, l = 1,...,d.Alsoist(Xn)n∈N<br />

straff und damit relativ folgenkompakt (Satz von Prohorov). Für jeden schwachen<br />

Häufungspunkt Q von (PXn )n∈N ist für jedes λ ∈ Rd �<br />

Q(dx) e i〈λ,x〉 = E � e i〈λ,X∞〉� .<br />

Also gilt Q = PX∞ und damit (15.11). ✷<br />

Satz 15.56 (Zentraler Grenzwertsatz im R d ). Seien (Xn)n∈N u.i.v. Zufallsvek-<br />

toren mit E[Xn,i] = 0 und E[Xn,iXn,j] = Cij, i, j = 1,...,d.SeiS∗ n :=<br />

X1+...+Xn √ . Dann gilt<br />

n<br />

PS ∗ n<br />

n→∞<br />

−→ N0,C schwach.<br />

Beweis. Sei λ ∈ Rd . Setze Xλ n = 〈λ, Xn〉, Sλ n = 〈λ, S∗ n〉 und S∞ ∼N0,C. Dann<br />

ist E[Xλ n]=0und Var[X λ n]=〈λ, Cλ〉. Nach dem eindimensionalen Zentralen<br />

n→∞<br />

Grenzwertsatz gilt PSλ −→ N<br />

n<br />

0,〈λ,Cλ〉 = P 〈λ, S∞〉. Nach Satz 15.55 zeigt dies<br />

die Aussage. ✷<br />

Übung 15.6.1. Sei μ ∈ R d , C eine symmetrische positiv semidefinite reelle d × d<br />

Matrix und X ∼Nμ,C (im Sinne von Bemerkung 15.54). Man zeige: Für jedes<br />

m ∈ N und jede reelle m × d Matrix A gilt AX ∼N Aμ,ACA T . ♣<br />

Übung 15.6.2. (Cholesky-Faktorisierung) Sei C eine positiv definite symmetrische<br />

reelle d × d Matrix. Dann existiert eine reelle d × d Matrix A = (akl)<br />

mit A · A T = C. Man kann A sogar als untere Dreiecksmatrix wählen. Sei<br />

W := (W1,...,Wd) T ,woW1,...,Wd unabhängig und N0,1 verteilt sind. Wir<br />

setzen X := AW + μ. Man zeige: X ∼Nμ,C. ♣


16 Unbegrenzt teilbare Verteilungen<br />

Die Normalverteilung N μ,σ 2 lässt sich für jedes n ∈ N als n-te Faltungspotenz eines<br />

W-Maßes schreiben (nämlich von N μ/n,σ 2 /n). Die selbe Eigenschaft, die wir<br />

unbegrenzte Teilbarkeit nennen, hat die Poisson-Verteilung. Im ersten Abschnitt<br />

untersuchen wir, welche W-Maße auf R unbegrenzt teilbar sind und geben eine<br />

erschöpfende Beschreibung der Klasse dieser Maße durch die Lévy-Khinchin Formel.<br />

Die Normalverteilung hat (im Gegensatz zur Poisson-Verteilung) die Eigenschaft,<br />

dass sie als Grenzwert reskalierter Summen von u.i.v. Zufallsvariablen auftritt (Zentraler<br />

Grenzwertsatz). Im zweiten Abschnitt untersuchen wir knapp die Teilklasse<br />

unbegrenzt teilbarer Maße auf R, die diese Eigenschaft haben.<br />

16.1 Die Lévy-Khinchin Formel<br />

Zur Abkürzung verwenden wir in diesem Abschnitt die Bezeichnung CFW“ für<br />

”<br />

” charakteristische Funktion eines W-Maßes auf R“.<br />

Definition 16.1. Ein Maß μ ∈M1(R) heißt unbegrenzt teilbar, falls es für jedes<br />

n ∈ N ein μn ∈M1(R) mit der Eigenschaft μ∗n n = μ gibt. Analog nennen wir eine<br />

CFW ϕ unbegrenzt teilbar, falls es zu jedem n ∈ N eine CFW ϕn gibt mit ϕ = ϕn n.<br />

Eine reelle Zufallsvariable X heißt unbegrenzt teilbar, falls es zu jedem n ∈ N u.i.v.<br />

Zufallsvariablen Xn,1,...,Xn,n gibt mit X D = Xn,1 + ...+ Xn,n.<br />

Offenbar sind alle drei Begriffe der unendlichen Teilbarkeit äquivalent, und wir<br />

wollen sie synonym verwenden. Man beachte, dass die Eindeutigkeit von μn beziehungsweise<br />

ϕn keineswegs evident ist. Tatsächlich folgt aus der n-fachen Teilbarkeit<br />

noch nicht die Eindeutigkeit der n-ten Faltungswurzel μ ∗1/n := μn beziehungsweise<br />

von ϕn. Um dies für gerades n einzusehen, wähle man etwa eine reelle<br />

CFW ϕ, für die |ϕ| �= ϕ ebenfalls eine CFW ist (siehe Beispiel 15.16 und 15.17).<br />

Dann ist ϕ n = |ϕ| n n-fach teilbar, jedoch sind die Faktoren nicht eindeutig.<br />

Mit Hilfe des Lévy’schen Stetigkeitssatzes kann man zeigen (siehe Übung 16.1.1),<br />

dass ϕ(t) �= 0für alle t ∈ R gilt, falls ϕ unbegrenzt teilbar ist. Die probabilistische<br />

Bedeutung dieser Aussage liegt darin, dass log(ϕ(t)) als stetige Funktion eindeutig


316 16 Unbegrenzt teilbare Verteilungen<br />

definiert ist und damit auch nur genau eine stetige Funktion ϕ 1/n = exp(log(ϕ)/n)<br />

existiert. Die n-ten Faltungswurzeln sind also eindeutig definiert, falls die Verteilung<br />

unbegrenzt teilbar ist.<br />

Beispiele 16.2. (i) δx ist unbegrenzt teilbar mit δ ∗n<br />

x/n = δx für jedes n ∈ N.<br />

(ii) Die Normalverteilung ist unbegrenzt teilbar mit N m,σ 2 = N ∗n<br />

m/n,σ 2 /n .<br />

(iii) Die Cauchy-Verteilung Caua mit Dichte x ↦→ (aπ) −1 (1 + (x/a) 2 ) −1 ist<br />

unbegrenzt teilbar mit Caua =Cau ∗n<br />

a/n. In der Tat: Caua hat CFW ϕa(t) =e−a|t| ,<br />

also ist ϕn a/n = ϕa.<br />

(iv) Jede symmetrische stabile Verteilung mit Index α ∈ (0, 2] und Größenparameter<br />

γ>0, also mit CFW ϕα,γ(t) =e−|γt|α, ist unbegrenzt teilbar. In der Tat<br />

ist ϕn α,γ/n1/α = ϕα,γ. (Genau genommen haben wir bislang erst für α ∈ (0, 1] (in<br />

Korollar 15.25) und für α =2(Normalverteilung) gezeigt, dass ϕα,γ überhaupt<br />

eine CFW ist. In Abschnitt 16.2 zeigen wir, dass dies tatsächlich für alle α ∈ (0, 2]<br />

richtig ist. Für α>2 ist ϕα,γ hingegen keine CFW, siehe Übung 15.4.3.)<br />

(v) Die Gamma-Verteilung Γθ,r mit CFW ϕθ,r(t) =exp(rψθ(t)), woψθ(t) =<br />

log(1 − it/θ) ist, ist unbegrenzt teilbar mit Γθ,r = Γ ∗n<br />

θ,r/n .<br />

(vi) Die Poisson-Verteilung ist unbegrenzt teilbar mit Poiλ =Poi ∗n<br />

λ/n.<br />

(vii) Die negative Binomialverteilung b− � �<br />

−r<br />

r,p({k}) = (−1)<br />

k<br />

kpr (1 − p) k , k ∈<br />

N0, mit Parametern r > 0 und p ∈ (0, 1) ist unbegrenzt teilbar mit b− r,p<br />

(b<br />

=<br />

−<br />

r/n,p )∗n .InderTatistϕr,p(t) =erψp(t) ,wo<br />

ψp(t) =log(p) − log(1 − (1 − p)e it ).<br />

(viii) Seien X und Y unabhängig und X ∼ N 0,σ 2 sowie Y ∼ Γθ,r, wobei<br />

σ 2 ,θ,r > 0 sind. Man kann zeigen, dass die Zufallsvariable Z := X/ √ Y unbegrenzt<br />

teilbar ist (siehe [64] oder [123]). Insbesondere ist die Student’sche t-<br />

Verteilung mit k ∈ N Freiheitsgraden unbegrenzt teilbar (dieses ist der Fall σ 2 =1<br />

und θ −1 = r = k).<br />

(ix) Die Binomialverteilung bn,p ist für n ∈ N und p ∈ (0, 1) nicht unbegrenzt<br />

teilbar (warum?).<br />

(x) Etwas allgemeiner ist außer der trivialen Verteilung keine Verteilung unbegrenzt<br />

teilbar, die auf ein endliches Intervall konzentriert ist. ✸<br />

Ein Hauptziel dieses Abschnitts ist es zu zeigen, dass sich jede unbegrenzt teilbare<br />

Verteilung aus drei generischen zusammensetzt:


– den Punktverteilungen δx mit x ∈ R,<br />

– den Normalverteilungen Nμ,σ2 mit μ ∈ R und σ2 > 0,<br />

– (Grenzwerten von) Faltungen von Poisson-Verteilungen.<br />

16.1 Die Lévy-Khinchin Formel 317<br />

Da die Faltungen von Poisson-Verteilungen eine besondere Rolle spielen, wollen<br />

wir sie hier gesondert betrachten.<br />

Ist ν ∈ M1(R) mit CFW ϕν und ist λ > 0, so kann man leicht nachrechnen,<br />

dass ϕ(t) =exp(λ(ϕν(t) − 1)) die CFW von μλ = �∞ λk<br />

k=0<br />

e−λ<br />

k! ν∗k ist. Formal<br />

können wir also μλ = e∗λ(ν−δ0) schreiben. Tatsächlich ist μλ unbegrenzt teilbar<br />

. Wir wollen nun die Parameter λ und ν zu λν zusammenfassen.<br />

mit μλ = μ∗n λ/n<br />

Für ν ∈Mf (R) können wir ν∗n = ν(R) n (ν/ν(R)) ∗n setzen, beziehungsweise<br />

ν∗n =0, falls ν =0. Wir treffen daher die folgende Definition.<br />

Definition 16.3. Die zusammengesetzte Poissonverteilung (compound Poisson<br />

distribution) mit Intensitätsmaß ν ∈Mf (R) ist das folgende W-Maß auf R:<br />

CPoiν := e ∗(ν−ν(R)δ0) := e −ν(R)<br />

Die CFW von CPoiν ist gegeben durch<br />

��<br />

ϕν(t) =exp<br />

∞�<br />

n=0<br />

ν ∗n<br />

n! .<br />

(e itx �<br />

− 1) ν(dx) . (16.1)<br />

Speziell ist CPoiμ+ν =CPoiμ ∗ CPoiν, also ist CPoiν unbegrenzt teilbar.<br />

Beispiel 16.4. Für jede messbare Menge A ⊂ R \{0} und jedes r>0 ist<br />

r −1 CPoirν(A) =e −rν(R) ν(A)+e −rν(R)<br />

∞�<br />

k=2<br />

r k−1 ν ∗k (A)<br />

k!<br />

r↓0<br />

−→ ν(A).<br />

Wir wollen dies benutzen um zu zeigen, dass b − r,p =CPoirν für ein gewisses ν ∈<br />

Mf (N). Wir berechnen dazu für k ∈ N<br />

r −1 b − r,p({k}) =<br />

r(r +1)···(r + k − 1)<br />

rk!<br />

p r k r↓0<br />

(1 − p) −→<br />

(1 − p)k<br />

.<br />

k<br />

Wenn b − r,p =CPoirν für ein ν ∈Mf (N) ist, ist also ν({k}) =(1− p) k /k. Wir<br />

berechnen die CFW von CPoirν für dieses ν<br />

�<br />

∞�<br />

ϕrν(t) =exp r<br />

k<br />

k=1<br />

((1 − p)e it ) k<br />

�<br />

= � 1 − (1 − p)e it�−r .<br />

Dies ist aber die CFW von b − r,p, also ist tatsächlich b − r,p =CPoirν. ✸


318 16 Unbegrenzt teilbare Verteilungen<br />

Nicht jede unbegrenzt teilbare Verteilung ist vom Typ CPoiν, allerdings gilt:<br />

Satz 16.5. Ein W-Maß μ auf R ist genau dann unbegrenzt teilbar, wenn es eine<br />

n→∞<br />

Folge (νn)n∈N in Mf (R \{0}) gibt mit CPoiνn −→ μ.<br />

Da jedes CPoiνn unbegrenzt teilbar ist, müssen wir einerseits zeigen, dass diese<br />

Eigenschaft unter schwachen Limiten erhalten bleibt. Andererseits zeigen wir, dass<br />

für unbegrenzt teilbares μ die Folge νn = nμ∗1/n das Gewünschte leistet. Wir<br />

bereiten den Beweis mit einem weiteren Satz vor.<br />

Satz 16.6. Sei (ϕn)n∈N eine Folge von CFWs. Dann sind äquivalent:<br />

(i) Für jedes t ∈ R existiert ϕ(t) = lim<br />

n→∞ ϕnn(t), und ϕ ist stetig in 0.<br />

(ii) Für jedes t ∈ R existiert ψ(t) = lim<br />

n→∞ n(ϕn(t) − 1), und ψ ist stetig in 0.<br />

Gelten (i) und (ii), so ist ϕ = e ψ eine CFW.<br />

Beweis. Der Beweis beruht auf der Taylor-Entwicklung des Logarithmus’<br />

| log(z) − (z − 1)| ≤|z − 1| 2 /2 für z ∈ C mit |z − 1| < 1/2.<br />

Speziell gilt für (zn)n∈N in C<br />

lim sup<br />

n→∞<br />

n |zn − 1| < ∞ ⇐⇒ lim sup |n log(zn)| < ∞. (16.2)<br />

n→∞<br />

und limn→∞ n(zn − 1) = limn→∞ n log(zn), falls einer der Limiten existiert.<br />

Wenden wir dies auf zn = ϕn(t) an, so folgt (i) aus (ii). Andererseits folgt (ii) aus<br />

(i), wenn lim infn→∞ n log(|ϕn(t)|) > −∞, also wenn ϕ(t) �= 0für jedes t ∈ R.<br />

Da ϕ stetig in 0 ist und ϕ(0) = 1 gilt, gibt es ein ε>0 mit |ϕ(t)| > 1<br />

2 für jedes<br />

t ∈ [−ε, ε]. Daϕund ϕn CFWs sind, sind auch |ϕ| 2 und |ϕn| 2 CFWs. Aus der<br />

punktweisen Konvergenz von |ϕn(t)| 2n gegen |ϕ(t)| 2 folgt nach dem Lévy’schen<br />

Stetigkeitssatz also die gleichmäßige Konvergenz auf kompakten Mengen. Wende<br />

nun (16.2) mit zn = |ϕn(t)| 2 an. Für t ∈ [−ε, ε] ist daher (n(1 −|ϕn(t)| 2 ))n∈N<br />

beschränkt. Nach Lemma 15.11(v) ist dann aber auch n(1 −|ϕn(2t)| 2 ) ≤ 4n(1 −<br />

|ϕn(t)| 2 ) beschränkt, also<br />

|ϕ(2t)| 2 ≥ lim inf<br />

n→∞ exp(4n(|ϕn(t)| 2 − 1)) = (|ϕ(t)| 2 ) 4 .<br />

Iterativ erhalten wir |ϕ(t)| ≥2−(4k ) k für |t| ≤2 ε. Es gibt also ein γ>0, sodass<br />

|ϕ(t)| > 1 t2<br />

e−γ<br />

2<br />

Gelten (i) und (ii), so ist<br />

für jedes t ∈ R. (16.3)


16.1 Die Lévy-Khinchin Formel 319<br />

log ϕ(t) = lim<br />

n→∞ n log(ϕn(t)) = lim<br />

n→∞ n(ϕn(t) − 1) = ψ(t).<br />

Nach dem Lévy’schen Stetigkeitssatz ist ϕ als stetiger Limes von CFWs selbst eine<br />

CFW. ✷<br />

Korollar 16.7. Gelten die Bedingungen von Satz 16.6, so ist ϕ r eine CFW für jedes<br />

r>0. Insbesondere ist ϕ =(ϕ 1/n ) n unbegrenzt teilbar.<br />

Beweis. Ist ϕn die CFW von μn ∈ M1(R), soiste rn(ϕn−1) die CFW von<br />

CPoirnμn . Als in 0 stetiger Limes von CFWs ist ϕr = e rψ = limn→∞ e rn(ϕn−1)<br />

nach dem Lévy’schen Stetigkeitssatz eine CFW. Mit r = 1<br />

n folgt, dass ϕ =(ϕ1/n ) n<br />

unbegrenzt teilbar ist. ✷<br />

Korollar 16.8. Eine in 0 stetige Funktion ϕ : R → C ist genau dann eine unbegrenzt<br />

teilbare CFW, wenn es eine Folge (ϕn)n∈N von CFWs gibt mit ϕ n n(t) → ϕ(t)<br />

für jedes t ∈ R.<br />

Beweis. Die eine Richtung ist schon in Korollar 16.7 gezeigt worden. Sei also ϕ<br />

eine unbegrenzt teilbare CFW. Dann leistet ϕn = ϕ 1/n das Gewünschte. ✷<br />

Korollar 16.9. Ist (μn)n∈N eine (schwach) konvergente Folge unbegrenzt teilbarer<br />

W-Maße auf R, soistμ = limn→∞ μn unbegrenzt teilbar.<br />

Beweis. Wende Satz 16.6 an mit ϕn die CFW von μ ∗1/n<br />

n . ✷<br />

Korollar 16.10. Ist μ ∈ M1(R) unbegrenzt teilbar, so existiert eine stetige Faltungshalbgruppe<br />

(μt)t≥0 mit μ1 = μ und ein stochastischer Prozess (Xt)t≥0 mit<br />

unabhängigen, stationären Zuwächsen Xt − Xs ∼ μt−s für t>s.<br />

Beweis. Sei ϕ die CFW von μ. Die Existenz der Faltungshalbgruppe folgt aus Korollar<br />

16.8 und 16.7, indem wir μr durch ϕ r definieren. Die Stetigkeit der Halbgruppe<br />

folgt, da ϕ r → 1 für r → 0 (weil ϕ r (t) �= 0für alle t ∈ R). Schließlich folgt die<br />

Existenz des Prozesses X aus Satz 14.47. ✷<br />

Korollar 16.11. Ist ϕ eine unbegrenzt teilbare CFW, so existiert ein γ > 0 mit<br />

für jedes t ∈ R. Speziell ist t ↦→ e−|t|α für kein α>2 eine CFW.<br />

|ϕ(t)| ≥ 1 t2<br />

2e−γ Beweis. Dies folgt direkt aus (16.3). ✷<br />

Beweis (von Satz 16.5). Da CPoiνn unbegrenzt teilbar ist, ist nach Korollar 16.9<br />

auch der schwache Limes unbegrenzt teilbar.<br />

Sei nun μ unbegrenzt teilbar mit CFW ϕ. Wähle W-Maße μn mit CFW ϕn wie in<br />

n(ϕn−1) n→∞<br />

n→∞<br />

Korollar 16.8. Nach Satz 16.6 gilt e −→ ϕ, also auch CPoinμn −→ ν.<br />


320 16 Unbegrenzt teilbare Verteilungen<br />

Ohne Beweis bringen wir die folgende Verschärfung von Korollar 16.8, die auf einer<br />

feineren Analyse mit den Argumenten aus Satz 16.6 beruht.<br />

Satz 16.12. Sei (ϕn,l; l =1,...,kn, n∈ N) ein Schema von CFWs mit der Eigenschaft<br />

sup lim sup sup sup |ϕn,l(t) − 1| =0. (16.4)<br />

L>0 n→∞ t∈[−L,L] l=1,...,kn<br />

�kn Existiert für jedes t ∈ R der Limes ϕ(t) := limn→∞ l=1 ϕn,l(t), und ist ϕ stetig<br />

in 0, soistϕeine unbegrenzt teilbare CFW.<br />

Beweis. Siehe etwa [53, Kapitel XV.7]. ✷<br />

n→∞<br />

In dem Fall, wo für jedes n die ϕn,l alle gleich sind und kn −→ ∞, gilt (16.4)<br />

automatisch, wenn das Produkt gegen eine stetige Funktion konvergiert. Der Satz<br />

liefert also tatsächlich eine Verbesserung von Korollar 16.8.<br />

Der Wert des Satzes liegt in der folgenden Beobachtung. Sei (Xn,l; l =1,...,kn,<br />

n ∈ N) ein Schema reeller Zufallsvariablen mit CFWs ϕn,l. Genau dann ist das<br />

Schema asymptotisch vernachlässigbar, wenn (16.4) gilt: Gilt P[|Xn,l| >ε]


16.1 Die Lévy-Khinchin Formel 321<br />

Satz 16.14 (Lévy-Khinchin Formel auf [0, ∞)). Sei μ ∈M1([0, ∞)) und u :<br />

[0, ∞) → [0, 1], t ↦→ −log � e −tx μ(dx) die log-Laplace Transformierte von μ.<br />

Genau dann ist μ unbegrenzt teilbar, wenn es ein α ≥ 0 und ein σ-endliches Maß<br />

ν ∈M((0, ∞)) mit �<br />

(1 ∧ x) ν(dx) < ∞ (16.5)<br />

gibt, sodass<br />

�<br />

�1 −tx<br />

u(t) =αt + − e � ν(dx) für t ≥ 0. (16.6)<br />

Das Paar (α, ν) ist dann eindeutig. Wir nennen ν das kanonische Maß oder Lévy-<br />

Maß von μ und α den deterministischen Anteil.<br />

Beweis. ” =⇒ “ Sei zunächst μ unbegrenzt teilbar. Der Fall μ = δ0 ist trivial.<br />

Sei nun μ �= δ0, also u(1) > 0.<br />

n→∞<br />

Nach Satz 16.5 existieren ν1,ν2,...∈Mf (R\{0}) mit CPoiνn −→ μ. Offenbar<br />

können wir νn((−∞, 0)) = 0 annehmen. Setzen wir un(t) := � (1 − e−tx ) νn(dx),<br />

so gilt (nach (16.1)) un(t) n→∞<br />

−→ u(t) für jedes t ≥ 0. Speziell ist un(1) > 0 für<br />

große n. Definiere ˜νn ∈M1([0, ∞)) durch ˜νn(dx) := 1−e−x<br />

un(1) νn(dx). Für jedes<br />

t ≥ 0 gilt dann<br />

�<br />

e −tx ˜νn(dx) = un(t +1)−un(t) n→∞ u(t +1)−u(t) −→ .<br />

un(1)<br />

u(1)<br />

Also existiert ˜ν := w-lim ˜νn (in M1([0, ∞)) und ist eindeutig durch u festgelegt.<br />

Wir setzen α := ˜ν({0}) u(1) und definieren ν ∈M((0, ∞)) durch<br />

ν(dx) =u(1)(1 − e −x ) −1 (0,∞)(x)˜ν(dx).<br />

Wegen 1 ∧ x ≤ 2(1 − e−x ) für alle x ≥ 0 ist dann offenbar<br />

�<br />

�<br />

(1 ∧ x) ν(dx) ≤ 2 (1 − e −x ) ν(dx) ≤ u(1) < ∞.<br />

Für jedes t ≥ 0 ist die Funktion (vergleiche (15.8))<br />

ft :[0, ∞) → [0, ∞), x ↦→<br />

� 1−e −tx<br />

1−e −x , falls x>0,<br />

t, falls x =0,<br />

stetig und beschränkt (durch t ∧ 1), also gilt<br />

u(t) = lim<br />

n→∞ un(t) = lim<br />

n→∞ un(1)<br />

�<br />

�<br />

ft d˜νn<br />

�<br />

= u(1) ft d˜ν = αt + (1 − e −tx ) ν(dx).


322 16 Unbegrenzt teilbare Verteilungen<br />

” ⇐= “ Seien nun α und ν gegeben. Sei I0 =[1, ∞) und Ik =[1/(k +1), 1/k)<br />

für k ∈ N. Seien X0,X1,...unabhängige Zufallsvariablen mit PXk =CPoi (ν| Ik )<br />

für k = 0, 1,..., und sei X := α + �∞ k=0 Xk. �<br />

Für jedes k ∈ N ist E[Xk] =<br />

Ik xν(dx), also ist �∞ k=1 E[Xk] = �<br />

xν(dx) < ∞. Mithin gilt X


16.1 Die Lévy-Khinchin Formel 323<br />

(16.9) äquivalent zu der Bedingung �<br />

(−1,1) x2 ν(dx) < ∞. Daν0 stets endlich ist,<br />

ist dies wiederum äquivalent zu � (x2 ∧ 1) ν(dx) < ∞.<br />

Definition 16.16. Ein σ-endliches Maß ν auf R mit ν({0}) =0und<br />

� �x 2 ∧ 1 � ν(dx) < ∞ (16.10)<br />

heißt kanonisches Maß.Sindσ 2 ≥ 0 und b ∈ R, so heißt (σ 2 ,b,ν) ein kanonisches<br />

Tripel.<br />

Zu jedem kanonischen Tripel gehört über die Konstruktion (16.8) eine unbegrenzt<br />

teilbare Zufallsvariable. Wir setzen<br />

ψ0(t) = log E � e itX0� �<br />

� � itx<br />

= e − 1 ν(dx)<br />

und für k ∈ N<br />

ψk(t) = log E � e it(Xk−αk) � �<br />

=<br />

Also genügt<br />

der Lévy-Khinchin Formel<br />

ψ(t) :=logE � e itX� = − σ2<br />

2 t2 + ibt +<br />

ψ(t) =− σ2<br />

2 t2 + ibt +<br />

I0<br />

Ik<br />

� e itx − 1 − itx � ν(dx).<br />

∞�<br />

ψk(t)<br />

k=0<br />

�<br />

�e � itx<br />

− 1 − itx {|x|


324 16 Unbegrenzt teilbare Verteilungen<br />

(i) Durch (16.11) wird das kanonische Tripel eindeutig bestimmt.<br />

(ii) Zu jeder unbegrenzt teilbaren Verteilung existiert ein kanonisches Tripel, sodass<br />

(16.11) gilt.<br />

(i) Eindeutigkeit Wir setzen gt(x) =e itx − 1 − itx {|x|


16.1 Die Lévy-Khinchin Formel 325<br />

Dann ist nach (16.1) und mit gt aus (i)<br />

�<br />

ψn(t) :=log e itx �<br />

CPoiνn (dx) = (e itx �<br />

− 1) νn(dx) = gt dνn + ibnt.<br />

Wie in (16.14) ist<br />

n→∞<br />

ψ n(t) :=ψn(t) − 1<br />

2<br />

� t+1<br />

t−1<br />

�<br />

ψn(s) ds = e itx h(x) νn(dx).<br />

Da ψn −→ ψ gleichmäßig auf kompakten Mengen konvergiert (Satz 15.23(i)),<br />

n→∞<br />

und weil ψ stetig und damit lokal beschränkt ist, gilt ψn −→ ψ punktweise, also<br />

�<br />

e itx h(x) νn(dx) n→∞<br />

−→ ψ(t). (16.15)<br />

Speziell ist ψn(0) < 0 für große n. Setzen wir ˜νn(dx) =−(h(x)/ψn(0))νn(dx) ∈<br />

M1(R), sogilt � eitx ˜νn(dx) n→∞<br />

−→ −ψ(t)/ψ(0), wobei die rechte Seite stetig ist.<br />

Nach dem Lévy’schen Stetigkeitssatz gibt es also ein ˜ν ∈M1(R) mit ˜νn<br />

n→∞<br />

−→ ˜ν<br />

und<br />

�<br />

ψ(t) =−ψ(0) e itx ˜ν(dx).<br />

Wir setzen σ 2 := −6 ψ(0) ˜ν({0}) und definieren ein kanonisches Maß ν durch<br />

Die Abbildung (vergleiche (15.8))<br />

ν(dx) =− ψ(0)<br />

h(x)<br />

ft : R → C, x ↦→<br />

{x�=0} ˜ν(dx).<br />

�<br />

gt(x)<br />

h(x) , falls x �= 0,<br />

−3t 2 , falls x =0,<br />

ist stetig und beschränkt. Nach Voraussetzung ist<br />

� �<br />

�<br />

ft(x)˜νn(dx)+ibnt .<br />

ψ(t) = lim<br />

n→∞ ψn(t) = lim<br />

n→∞<br />

Da die Integrale konvergieren, existiert auch b = limn→∞ bn, und es ist<br />

�<br />

ψ(t) = ft d˜ν + ibt = − σ2<br />

2 t2 �<br />

+ ibt + gt dν. ✷<br />

Bemerkung 16.18. Es gibt mehrere Varianten der Lévy-Khinchin Formel<br />

ψ(t) =− σ2<br />

2 t2 �<br />

�e � itx<br />

+ ibt + − 1 − it f(x) ν(dx),


326 16 Unbegrenzt teilbare Verteilungen<br />

die sich in der Funktion it f(x) unterscheiden, die als Zentrierung im Integral abgezogen<br />

wird. Wir haben f(x) =x {|x|0<br />

n Cau1/n(A) = 1<br />

�<br />

π<br />

A<br />

n2 n→∞<br />

dx −→<br />

1+(nx) 2 1<br />

π<br />

�<br />

A<br />

1<br />

dx.<br />

x2 Also hat Cau1 das kanonische Tripel � 0, 0, (πx 2 ) −1 dx � . ✸<br />

Übung 16.1.1. Man zeige mit einem Varianzargument, dass eine unbegrenzt teilbare<br />

Verteilung, die auf einem endlichen Intervall konzentriert liegt, schon in einem<br />

einzigen Punkt konzentriert ist. ♣<br />

Übung 16.1.2. Sei ϕ unbegrenzt teilbar, und für jedes n ∈ N sei ϕn eine CFW mit<br />

ϕn n = ϕ. Man zeige mit Hilfe des Lévy’schen Stetigkeitssatzes, dass gleichmäßig<br />

n→∞<br />

auf kompakten Mengen ϕn −→ 1 gilt und folgere hieraus, dass ϕ(t) �= 0für<br />

jedes t ∈ R. ♣<br />

Übung 16.1.3. Man zeige, dass unter den Bedingungen von Satz 16.14 gilt:<br />

α =sup � x ≥ 0: μ([0,x)) = 0 � . ♣


16.2 Stabile Verteilungen<br />

Symmetrische stabile Verteilungen<br />

Für α ∈ (0, 2) sei<br />

�<br />

θα := (1 − cos(x)) |x| −α−1 dx =<br />

R<br />

16.2 Stabile Verteilungen 327<br />

� −2Γ (−α)cos(απ/2), falls α �= 1,<br />

π, falls α =1.<br />

Dann ist να(dx) =θ −1<br />

α |x| −α−1 dx ein kanonisches Maß, denn<br />

�<br />

(1 ∧ x 2 ) να(dx) =2θ −1�<br />

−1 −1<br />

α α +(2−α) � < ∞.<br />

Sei ψα die logarithmierte charakteristische Funktion, die zum unbegrenzt teilbaren<br />

Maß μα mit kanonischem Tripel (0, 0,να) gehört. Nach der Lévy-Khinchin<br />

Formel ist<br />

� ∞ � � itx −1<br />

ψα(t) = e − 1 − itx {|x|2 ist, eine charakteristische Funktion hat, die zweimal stetig differenzierbar<br />

in 0 ist, und deren ersten beiden Ableitungen dort gleich 0 sind. Die Verteilung hat<br />

also Erwartungswert und Varianz Null und ist damit als δ0 erkannt. Ein ähnliches<br />

Argument zeigt, dass stabile Verteilungen im weiteren Sinne für α>2 notwendigerweise<br />

trivial sind. ✸


328 16 Unbegrenzt teilbare Verteilungen<br />

Asymmetrische stabile Verteilungen<br />

Sind μ1 und μ2 unbegrenzt teilbar mit den kanonischen Tripeln (σ2 1,b1,ν1) und<br />

(σ2 2,b2,ν2),soistμ1∗μ2 unbegrenzt teilbar mit kanonischem Tripel (σ2 1 + σ2 2,b1 +<br />

b2,ν1+ν2). Ist nun μ unbegrenzt teilbar mit kanonischem Tripel (σ2 ,b,ν), und sind<br />

X1,X2,...u.i.v. Zufallsvariablen mit Verteilung μ,soistX1 +...+Xn unbegrenzt<br />

teilbar mit kanonischem Tripel (nσ2 , nb, nν). Andererseits ist n1/αX1 unbegrenzt<br />

teilbar mit kanonischem Tripel (n2/ασ2 ,n1/αb, ν ◦ m −1<br />

n1/α), wobei mγ : R → R,<br />

x ↦→ γx die Multiplikation mit γ>0 ist.<br />

Ist nun μ stabil mit Index α, so folgt aus (16.17)<br />

nb = n 1/α b, nσ 2 = n 2/α σ 2<br />

und nν = ν ◦ m −1<br />

n1/α. Ist α �= 1, so folgt b =0.Für α ∈ (0, 2) ist hingegen σ2 =0. Außerdem ist<br />

� ∞<br />

n (1∧x<br />

−∞<br />

2 � ∞<br />

) ν(dx) = (1∧x<br />

−∞<br />

2 ) � ν ◦m −1<br />

n1/α Im Fall α =2folgt wegen 1 ≥ n−1 (1∧nx 2 )<br />

1∧x2 � (dx) =<br />

� ∞<br />

−∞<br />

(1∧n 2/α x 2 ) ν(dx).<br />

n→∞<br />

−→ 0 für alle x �= 0und wegen<br />

(16.10) mit dem Satz über majorisierte Konvergenz<br />

� ∞<br />

� ∞<br />

(1 ∧ x<br />

−∞<br />

2 n<br />

) ν(dx) =<br />

−∞<br />

−1 (1 ∧ nx2 )<br />

1 ∧ x2 Das heißt, es gilt ν =0, falls α =2 ist.<br />

(1 ∧ x 2 ) ν(dx) n→∞<br />

−→ 0.<br />

Hat ν eine auf R\{0} stetige Dichte f, so folgt aus (16.17) die Skalierungsrelation<br />

f(rx) =r −α−1 f(x) für jedes r>0, also mit c − := f(−1) und c + := f(1)<br />

ν(dx)<br />

dx =<br />

� c − (−x) −α−1 , falls x0.<br />

Wir haben also einen Freiheitsgrad mehr (in dem Sinne, dass wir jetzt die zwei<br />

Parameter c − und c + statt nur c haben), wenn wir auch asymmetrische stabile<br />

Verteilungen zulassen. Wir können nun ψ ausrechnen<br />

ψ(t) =<br />

� |t| α Γ (−α) � (c + + c − )cos � πα<br />

2<br />

� + i (c + − c − )sin � πα<br />

2<br />

�� , α �= 1,<br />

−|t|(c + + c − ) � π<br />

2 + i sign(t)(c+ − c − )log(|t|) � , α =1.<br />

(16.18)<br />

Im Fall α ∈ (0, 1) ∪ (1, 2) haben wir so eine stabile Verteilung hergestellt, denn es<br />

gilt (16.17). Im Fall α =1gilt hingegen nψ(t/n) =ψ(t)+it(c + − c − )logn, also<br />

X1 + ...+ Xn<br />

D<br />

= nX1 +(c + − c − ) n log(n).<br />

Man kann zeigen, dass die stabilen Verteilungen, die wir hier hergestellt haben,<br />

tatsächlich die gesamte Klasse der im weiteren Sinne stabilen Verteilungen ausschöpfen<br />

(siehe etwa [53, Kapitel XVII.5]).


Konvergenz gegen stabile Verteilungen<br />

16.2 Stabile Verteilungen 329<br />

Zur Abrundung des Bildes zitieren wir aus [53, Kapitel XVII.5] (siehe auch [61]<br />

und [120]) Sätze darüber, dass nur stabile Verteilungen als Grenzverteilungen reskalierter<br />

Summen von u.i.v. Zufallsvariablen X1,X2,...auftreten können, wie die<br />

genauen Skalierungen aussehen, und welche Verteilungen PX1 zu welchen Grenzverteilungen<br />

führen.<br />

Seien im Folgenden X, X1,X2,...u.i.v. Zufallsvariablen und Sn = X1 +...+Xn<br />

für n ∈ N.<br />

Definition 16.22 (Anziehungsbereich einer Verteilung). Sei μ ∈ M1(R)<br />

nicht auf einen Punkt konzentriert. Der Anziehungsbereich (domain of attraction)<br />

Dom(μ) ⊂M1(R) ist die Menge aller Verteilungen PX mit der Eigenschaft, dass<br />

es Folgen reeller Zahlen (an)n∈N und (bn)n∈N gibt mit<br />

Sn − bn<br />

an<br />

n→∞<br />

=⇒ μ.<br />

Ist μ stabil (im weiteren Sinne) mit Index α ∈ (0, 2], so liegt PX im normalen<br />

Anziehungsbereich (domain of normal attraction), falls an = n 1/α gewählt werden<br />

kann.<br />

Satz 16.23. Sei μ ∈M1(R) nicht auf einen Punkt konzentriert. Genau dann ist<br />

Dom(μ) �= ∅, wennμ stabil (im weiteren Sinne) ist. Es gilt dann μ ∈ Dom(μ).<br />

Eine wichtige Rolle spielt im Folgenden die Funktion<br />

U(x) :=E � X 2 �<br />

{|X|≤x} . (16.19)<br />

Eine Funktion H :(0, ∞) → (0, ∞) heißt langsam variierend bei ∞, falls<br />

H(γx)<br />

lim =1<br />

x→∞ H(x)<br />

für alle γ>0.<br />

Wir nehmen im Folgenden an, dass es ein α ∈ (0, 2] gibt, mit der Eigenschaft:<br />

U(x) x α−2 ist langsam variierend bei ∞. (16.20)<br />

Satz 16.24. (i) Liegt PX im Anziehungsbereich einer Verteilung, dann existiert<br />

ein α ∈ (0, 2], sodass (16.20) gilt.<br />

(ii) Im Falle α =2gilt: Ist PX nicht in einem Punkt konzentriert, so ist (16.20)<br />

hinreichend dafür, dass PX im Anziehungsbereich einer Verteilung liegt.<br />

(iii) Im Falle α ∈ (0, 2) gilt: Genau dann liegt PX im Anziehungsbereich einer<br />

Verteilung, wenn (16.20) gilt und<br />

P[X ≥ x]<br />

p := lim<br />

existiert. (16.21)<br />

x→∞ P[|X| ≥x]


330 16 Unbegrenzt teilbare Verteilungen<br />

Satz 16.25. Es sei PX im Anziehungsbereich einer α-stabilen Verteilung – es gelte<br />

also Bedingung (ii) oder (iii) aus Satz 16.24 – und es sei (an)n∈N so gewählt, dass<br />

nU(an)<br />

C := lim<br />

n→∞ a2 ∈ (0, ∞)<br />

n<br />

existiert. Es sei ferner μ diejenige stabile Verteilung mit Index α, deren charakteristische<br />

Funktion durch (16.18) gegeben ist mit c + = Cp und c − = C(1 − p).<br />

(i) Im Falle α ∈ (0, 1) sei bn ≡ 0.<br />

(ii) Im Falle α =2 und Var[X] < ∞ sei E[X] =0.<br />

(iii) Im Falle α ∈ (1, 2] sei bn = n E[X] für jedes n ∈ N.<br />

(iv) Im Falle α =1 sei bn = nan E[sin(X/an)] für jedes n ∈ N.<br />

Dann gilt<br />

Sn − bn<br />

an<br />

n→∞<br />

=⇒ μ.<br />

Korollar 16.26. Liegt PX im Anziehungsbereich einer stabilen Verteilung mit Index<br />

α, sogiltE � |X| β� < ∞ für alle β ∈ (0,α) und E � |X| β� = ∞, falls β>α<br />

und α0,<br />

0, sonst.<br />

Man zeige:<br />

(i) F ist die Verteilungsfunktion einer 1<br />

2-stabilen Verteilung.<br />

(ii) Sind X1,X2,... u.i.v. mit Verteilungsfunktion F , so divergiert 1<br />

n<br />

für n →∞fast sicher.<br />

� n<br />

k=0 Xk<br />

Hinweis: Man bestimme die Dichte von F und zeige, dass die Laplace Transformierte<br />

gegeben ist durch λ ↦→ e −√ 2λ . ♣<br />

Übung 16.2.4. Welche der folgenden Verteilungen liegen im Anziehungsbereich einer<br />

stabilen Verteilung und gegebenenfalls zu welchem Parameter?


(i) Die Verteilung auf R mit Dichte<br />

⎧<br />

⎪⎨<br />

ϱ<br />

f(x) =<br />

⎪⎩<br />

1<br />

1+α |x|α , falls x1,<br />

sonst.<br />

Dabei sind α, β < −1 und ϱ ∈ [0, 1].<br />

(ii) Die Exponentialverteilung expθ für θ>0.<br />

16.2 Stabile Verteilungen 331<br />

(iii) Die Verteilung auf N mit Gewichten cn α falls n gerade ist und cn β , falls n<br />

ungerade ist. Dabei sind α, β < −1, und c =(2 α ζ(−α)+(1− 2 β )ζ(−β)) −1<br />

(ζ ist die Riemann’sche Zetafunktion) ist die Normierungskonstante. ♣


17 Markovketten<br />

Markovprozesse mit abzählbarem Zustandsraum (und diskreter Zeit) sind trotz ihrer<br />

Simplizität interessante mathematische Objekte, mit denen sich eine Vielzahl von<br />

Phänomenen modellieren lässt. Wir bringen hier einen Einblick in die grundlegenden<br />

Begriffe und schauen dann Beispiele etwas detaillierter an. Der Zusammenhang<br />

mit der (diskreten) Potentialtheorie wird erst in Kapitel 19 untersucht. Beim ersten<br />

Lesen kann in Abschnitt 17.1 die (etwas abstrakte) Konstruktion von allgemeinen<br />

Markovprozessen übersprungen werden.<br />

17.1 Begriffsbildung und Konstruktion<br />

Im Folgenden sei E stets ein polnischer Raum mit Borel’scher σ-Algebra B(E),<br />

I ⊂ R und (Xt) t∈I ein stochastischer Prozess mit Werten in E. Wir nehmen an,<br />

dass (Ft)t∈I = F = σ(X) die von X erzeugte Filtration ist.<br />

Definition 17.1. Wir sagen, dass X die elementare Markoveigenschaft (ME) hat,<br />

falls für jedes A ∈B(E) und je zwei s, t ∈ I mit s ≤ t gilt<br />

P � Xt ∈ A � � �<br />

�Fs = P Xt ∈ A � �<br />

�Xs .<br />

Bemerkung 17.2. Ist E abzählbar, so hat X genau dann die elementare Markoveigenschaft,<br />

wenn für jedes n ∈ N und alle s1 < ... < sn 0 gilt<br />

P � Xt = i � � �<br />

�Xs1 = i1,...,Xsn = in = P Xt = i � �Xsn<br />

�<br />

= in . (17.1)<br />

In der Tat impliziert (17.1) natürlich sofort die elementare Markoveigenschaft. Habe<br />

nun X die elementare Markoveigenschaft. Wir bemerken (siehe (8.6)), dass für fast<br />

alle ω ∈{Xsn = in} gilt P[Xt = i � �Xsn ](ω) =P[Xt = i � �Xsn = in]. Also<br />

gilt mit A := {Xs1 = i1,...,Xsn = in} (unter Verwendung der elementaren<br />

Markoveigenschaft in der zweiten Gleichheit)<br />

P � �<br />

Xt = i,Xs1 = i1,...,Xsn = in<br />

= E � �<br />

E[ �<br />

{Xt=i} Fsn ] � � �<br />

A = E E[ �<br />

{Xt=i} Xsn ] �<br />

A<br />

= E � P[Xt = i � �Xsn = in]<br />

� �<br />

A = P Xt = i � �<br />

�Xsn = in P[A].


334 17 Markovketten<br />

Teilen wir jetzt auf beiden Seiten durch P[A], so folgt (17.1). ✸<br />

Definition 17.3. Sei I = N0 oder I =[0, ∞). X =(Xt) t∈I heißt Markovprozess<br />

mit Verteilungen (Px) x∈E auf dem Raum (Ω,A), falls gilt:<br />

(i) Für jedes x ∈ E ist X ist ein stochastischer Prozess auf dem Wahrscheinlichkeitsraum<br />

(Ω,A, Px) mit Px [X0 = x] =1.<br />

(ii) Die Abbildung κ : E ×B(E) ⊗I → [0, 1], (x, B) ↦→ Px[X ∈ B] ist ein<br />

stochastischer Kern.<br />

(iii) Es gilt die (schwache) Markoveigenschaft (ME): Für jedes A ∈B(E), jedes<br />

x ∈ E und je zwei s, t ∈ I gilt<br />

�<br />

Px Xt+s ∈ A � �<br />

�Fs = κt(Xs,A) Px − f.s.<br />

Hierbei definiert für jedes t ∈ I und x ∈ E sowie A ∈B(E)<br />

κt(x, A) :=κ � x, {y ∈ E I : y(t) ∈ A} � = Px [Xt ∈ A]<br />

den stochastischen Kern κt : E ×B(E) → [0, 1] der Übergangswahrscheinlichkeiten<br />

von X zur Zeitdifferenz t.<br />

Wir schreiben stets Ex für die Erwartungswerte bezüglich Px und Lx[X] =Px<br />

sowie Lx[X |F]=Px[X ∈ · |F] (für eine reguläre Version der bedingten Verteilungen<br />

von X gegeben F) und so fort.<br />

Ist E höchstens abzählbar, so heißt X diskreter Markovprozess.<br />

Im Spezialfall I = N0 heißt X Markovkette. Es heißt dann κn auch die Familie der<br />

n-Schritt-Übergangswahrscheinlichkeiten.<br />

Bemerkung 17.4. Die schwache Markoveigenschaft impliziert die elementare Markoveigenschaft.<br />

In der Tat ist ” schwache ME = elementare ME + zeitliche Homogenität“.<br />

✸<br />

Wir verwenden im Folgenden die etwas nachlässige Bezeichnung PXs [X ∈ · ]:=<br />

κ(Xs, · ). Wir verstehen also Xs als Startwert eines zweiten Markovprozesses mit<br />

denselben Verteilungen (Px)x∈E.<br />

Beispiel 17.5. Seien Y1,Y2,... u.i.v. R d -wertige Zufallsvariablen und<br />

S x n = x +<br />

n�<br />

Yi für x ∈ R d und n ∈ N0.<br />

i=1<br />

Definiere W-Maße Px auf � (R d ) N0 , (B(R d )) ⊗N0<br />

� durch Px = P ◦ (S x ) −1 .Dann<br />

ist der kanonische Prozess Xn :(R d ) N0 → R d eine Markovkette mit Verteilungen<br />

(Px) x∈R d. Der Prozess X heißt Irrfahrt auf R d mit Startwert x. ✸


17.1 Begriffsbildung und Konstruktion 335<br />

Beispiel 17.6. Wir können das vorangehende Beispiel leicht auf die Situation stetiger<br />

Zeit, also I =[0, ∞), übertragen. Sei hierzu (νt)t≥0 eine Faltungshalbgruppe<br />

auf R d und κt(x, dy) =δx ∗ νt(dy). Zu jedem x ∈ R d sei Px das in Satz 14.47<br />

konstruierte Maß auf � (R d ) [0,∞) , B(R d ) ⊗[0,∞)� mit<br />

�<br />

Px ◦ (X0,Xt1 ,...,Xtn )−1 n−1<br />

= δx ⊗ κtn+1−tn<br />

i=0<br />

für je endlich viele Punkte 0=t0 0 und ν θ t ({k}) =<br />

e −θt tk θ k<br />

k! , k ∈ N0, die Faltungshalbgruppe der Poisson-Verteilung. Der Markovprozess<br />

X auf N0 mit dieser Halbgruppe heißt Poissonprozess mit Rate θ. ✸<br />

Wir wollen, ähnlich wie in Beispiel 17.6, nun etwas allgemeiner zu einer Markov’schen<br />

Halbgruppe von stochastischen Kernen einen Markovprozess herstellen.<br />

Satz 17.8. Sei I ⊂ [0, ∞) abgeschlossen unter Addition, und sei (κt)t∈I eine Markov’sche<br />

Halbgruppe stochastischer Kerne von E nach E. Dann gibt es einen<br />

Messraum (Ω,A) und einen Markovprozess ((Xt)t∈I, (Px)x∈E) auf (Ω,A) mit<br />

Übergangswahrscheinlichkeiten<br />

Px [Xt ∈ A] =κt(x, A) für alle x ∈ E, A ∈B(E), t∈ I. (17.2)<br />

Umgekehrt definiert für jeden Markovprozess X die Gleichung (17.2) eine Halbgruppe<br />

stochastischer Kerne. Durch (17.2) sind die endlichdimensionalen Verteilungen<br />

von X eindeutig bestimmt.<br />

Beweis. ” =⇒ “ Wir konstruieren X als kanonischen Prozess. Sei Ω = E [0,∞)<br />

und A = B(E) ⊗[0,∞) . Ferner sei Xt die Projektion auf die t-te Koordinate. Für<br />

x ∈ E definieren wir (siehe Korollar 14.43) auf (Ω,A) das W-Maß Px, sodass für<br />

endlich viele Zeitpunkte 0=t0


336 17 Markovketten<br />

also Px[Xtn ∈ An |Ftn−1 ]=κtn−tn−1 (Xtn−1 ,An). Damit ist X als Markovprozess<br />

erkannt. Ferner ist Px[Xt ∈ A] =(δx · κt)(A) =κt(x, A).<br />

” ⇐= “ Sei nun (X, (Px)x∈E) ein Markovprozess. Dann definiert<br />

κt(x, A) :=Px [Xt ∈ A] für alle x ∈ E, A ∈B(E), t∈ I,<br />

einen stochastischen Kern κt. Nach der Markoveigenschaft ist<br />

κt+s(x, A) =Px [Xt+s ∈ A] = Ex [PXs [Xt ∈ A]]<br />

�<br />

=<br />

Px [Xs ∈ dy] Py [Xt ∈ A]<br />

�<br />

= κs(x, dy)κt(y, A) = (κs · κt)(x, A).<br />

Also ist (κt) t∈I eine Markov’sche Halbgruppe. ✷<br />

Satz 17.9. Ein stochastischer Prozess X =(Xt)t∈I ist genau dann ein Markovprozess,<br />

wenn es einen stochastischen Kern κ : E ×B(E) ⊗I → [0, 1] gibt, sodass für<br />

jede B(E) ⊗I −B(R) messbare, beschränkte Funktion f : EI → R und für jedes<br />

s ≥ 0 und x ∈ E gilt:<br />

�<br />

Ex f ((Xt+s)t∈I) � �<br />

�Fs = EXs [f(X)] :=<br />

�<br />

E I<br />

κ(Xs, dy) f(y). (17.3)<br />

Beweis. ” ⇐= “ Die schwache Markoveigenschaft folgt aus (17.3) mit der Funktion<br />

f(y) = A(y(t)), dennPXs [Xt ∈ A] =Px[Xt+s ∈ A|Fs] =κt(Xs,A).<br />

” =⇒ “ Nach den üblichen Approximationsargumenten reicht es, Funktionen f<br />

zu betrachten, die nur von endlich vielen Koordinaten 0 ≤ t1 ≤ t2 ≤ ... ≤ tn<br />

abhängen. Wir führen den Beweis per Induktion über n.<br />

Für n =1und f eine Indikatorfunktion ist dies die (schwache) Markoveigenschaft.<br />

Für allgemeines, messbares f folgt die Aussage nun aus den üblichen Approximationsargumenten.<br />

Sei nun die Aussage für n ∈ N bereits gezeigt. Es reicht wiederum, für f eine Indikatorfunktion<br />

der Art f(x) = B1×···×Bn+1 (xt1 ,...,xtn+1 ) (mit B1,...,Bn+1 ∈<br />

B(E)) zu betrachten. Zusammen mit der Markoveigenschaft (dritte und fünfte<br />

Gleichheit in der folgenden Gleichungskette) und der Induktionsvoraussetzung<br />

(vierte Gleichheit) erhalten wir


Ex<br />

17.1 Begriffsbildung und Konstruktion 337<br />

�<br />

f � �� �<br />

(Xt+s)t≥0 �Fs<br />

� � � �� �<br />

= Ex Ex f (Xt+s)t≥0<br />

�Ftn+s<br />

� �<br />

�<br />

�Fs<br />

= Ex<br />

= Ex<br />

�<br />

�<br />

= EXs<br />

= EXs<br />

= EXs<br />

�<br />

� �<br />

Ex<br />

�Ftn+s<br />

{Xtn+1 +s∈Bn+1}<br />

B1 (Xt1+s) ··· Bn (Xtn+s)<br />

� �<br />

PXtn+s<br />

Xtn+1−tn ∈ Bn+1 B1 (Xt1+s) ··· Bn (Xtn+s)<br />

�<br />

�<br />

�<br />

PXtn<br />

PX0<br />

PX0<br />

� Xtn+1−tn<br />

� Xtn+1<br />

� Xt1<br />

�<br />

∈ Bn+1 B1 (Xt1 ) ··· �<br />

Bn (Xtn )<br />

� �<br />

�Ftn<br />

∈ Bn+1 B1 (Xt1 ) ··· �<br />

Bn (Xtn )<br />

� �<br />

�Ftn<br />

∈ B1,...,Xtn+1 ∈ Bn+1<br />

�<br />

� �<br />

�<br />

�Fs<br />

� �<br />

�<br />

�Fs<br />

= EXs [f(X)] . ✷<br />

Korollar 17.10. Ein stochastischer Prozess (Xn)n∈N0 ist genau dann eine Markovkette,<br />

wenn<br />

� � � � �<br />

Lx (Xn+k) �Fk = LXk (Xn) n∈N0<br />

n∈N0 für jedes k ∈ N0. (17.4)<br />

Beweis. Wenn die bedingten Verteilungen existieren, ist nach Satz 17.9 die Gleichung<br />

(17.4) äquivalent dazu, dass X eine Markovkette ist. Zu zeigen ist also nur,<br />

dass die bedingten Verteilungen auch existieren.<br />

Da E polnisch ist, ist E N0 polnisch und B(E N0 )=B(E) ⊗N0 (siehe Satz 14.8).<br />

Nach Satz 8.36 existiert also eine reguläre Version der bedingten Verteilungen von<br />

(Xn+k)n∈N0 gegeben Fk. ✷<br />

Satz 17.11. Sei I = N0. Ist(Xn)n∈N0 ein stochastischer Prozess mit Verteilungen<br />

(Px, x∈ E), so folgt die schwache Markoveigenschaft in Definition 17.3(iii) schon<br />

aus der Existenz eines stochastischen Kerns κ1 : E ×B(E) → [0, 1] mit der Eigenschaft:<br />

Für jedes A ∈B(E), jedes x ∈ E und jedes s ∈ I gilt<br />

�<br />

Px Xs+1 ∈ A � �<br />

�Fs = κ1(Xs,A). (17.5)<br />

In diesem Fall erhält man die n–Schritt Übergangskerne κn induktiv durch<br />

�<br />

κn = κn−1 · κ1 = κn−1( · ,dx) κ1(x, · ).<br />

E<br />

Speziell ist die Familie (κn)n∈N eine Markov’sche Halbgruppe, und die Verteilung<br />

von X ist durch die Angabe von κ1 eindeutig festgelegt.<br />

Beweis. Setze in Satz 17.9 ti = i für i ∈ N0.Für den Beweis des Satzes wurde nur<br />

(17.5) ausgenutzt. ✷


338 17 Markovketten<br />

Die (schwache) Markoveigenschaft eines Prozesses besagt, dass zu fester Zeit t die<br />

Zukunft (nach t) von der Vergangenheit (bis t) nur durch die Gegenwart (also den<br />

Wert zur Zeit t) abhängt. Wir können diesen Begriff verallgemeinern, indem wir<br />

statt fester Zeiten auch Stoppzeiten zulassen.<br />

Definition 17.12. Sei I ⊂ [0, ∞) abgeschlossen unter Addition. Ein Markovprozess<br />

(Xt)t∈I mit Verteilungen (Px, x∈ E) hat die starke Markoveigenschaft,<br />

falls für jede f.s. endliche Stoppzeit τ und jede B(E) ⊗I −B(R) messbare, beschränkte<br />

Funktion f : EI → R, sowie jedes x ∈ E gilt:<br />

�<br />

Ex f ((Xτ+t)t∈I) � �<br />

�Fτ = EXτ [f(X)] :=<br />

�<br />

E I<br />

κ(Xτ ,dy) f(y). (17.6)<br />

Bemerkung 17.13. Ist I höchstens abzählbar, so ist die starke Markoveigenschaft<br />

äquivalent dazu, dass für jede fast sicher endliche Stoppzeit τ gilt<br />

� � � � �<br />

Lx (Xτ+t) �Fτ = LXτ (Xt) := κ(Xτ , · ). (17.7)<br />

t∈N0<br />

t∈N0<br />

Dies folgt genau wie in Korollar 17.10. ✸<br />

Die meisten relevanten Markovprozesse besitzen auch die starke Markoveigenschaft.<br />

Statt hier den Begriff der Relevanz zu diskutieren, was sich wohl kaum<br />

erschöpfend machen ließe, wollen wir lieber zeigen, dass für abzählbare Zeitmenge<br />

die starke Markoveigenschaft aus der schwachen folgt. In zeitstetigen Situationen<br />

hingegen muss man im Allgemeinen mehr arbeiten, um die starke Markoveigenschaft<br />

zu etablieren.<br />

Satz 17.14. Ist I ⊂ [0, ∞) höchstens abzählbar und abgeschlossen unter Addition,<br />

so hat jeder Markovprozess (Xn)n∈I mit Verteilungen (Px)x∈E die starke<br />

Markoveigenschaft.<br />

Beweis. Sei f : EI → R� messbar � und� beschränkt. � Dann ist für jedes s ∈ I die Zufallsvariable<br />

{τ=s} Ex f (Xs+t)<br />

t∈I |Fτ messbar bezüglich Fs. Mit der Turmeigenschaft<br />

der bedingten Erwartung und Satz 17.9 in der dritten Gleichheit erhalten<br />

wir daher<br />

� � � � � � � � � � �<br />

Ex f (Xτ+t) �Fτ<br />

t∈I = {τ=s} Ex f (Xs+t) �Fτ<br />

t∈I<br />

s∈I<br />

= �<br />

s∈I<br />

= �<br />

s∈I<br />

= EXτ<br />

Ex<br />

Ex<br />

�<br />

�<br />

� � �� �<br />

{τ=s} Ex f (Xs+t)t∈I<br />

�Fs<br />

� �<br />

�<br />

�Fτ<br />

{τ=s} EXs<br />

� � ��<br />

f (Xt)t∈I<br />

� �<br />

�<br />

�Fτ<br />

� � ��<br />

f (Xt)t∈I . ✷


17.1 Begriffsbildung und Konstruktion 339<br />

Wir bringen eine einfache Anwendung der starken Markoveigenschaft.<br />

Satz 17.15 (Reflexionsprinzip). Seien Y1,Y2,... u.i.v. reelle Zufallsvariablen mit<br />

symmetrischer Verteilung L[Y1] =L[−Y1]. Setze X0 =0und Xn := Y1 + ...+<br />

Yn für n ∈ N. Dann gilt für jedes n ∈ N0 und a>0<br />

�<br />

�<br />

P sup Xm ≥ a<br />

m≤n<br />

≤ 2 P[Xn ≥ a] − P[Xn = a]. (17.8)<br />

Gilt P[Y1 ∈{−1, 0, 1}] =1, so gilt für a ∈ N in (17.8) sogar Gleichheit.<br />

Beweis. Sei a>0 und n ∈ N. Definiere die bei (n +1)abgeschnittene Zeit des<br />

ersten Überschreitens von a<br />

τ := inf{m ≥ 0: Xm ≥ a}∧(n +1).<br />

Dann ist τ eine beschränkte Stoppzeit und<br />

sup Xm ≥ a ⇐⇒ τ ≤ n.<br />

m≤n<br />

�<br />

Setze f(m, X) = {m≤n} {Xn−m>a} + 1<br />

�<br />

2 {Xn−m=a} .Dannist<br />

f � τ,(Xτ+m) m∈N0<br />

� = {τ≤n}<br />

� {Xn>a} + 1<br />

2 {Xn=a}<br />

Die starke Markoveigenschaft von X liefert<br />

� �<br />

� ��Fτ<br />

�<br />

E0 f τ,(Xτ+m) m≥0 = ϕ (τ,Xτ ) ,<br />

wobei ϕ(m, x) =Ex[f(m, X)]. (Hierbei bezeichnet Ex die Erwartung für X, falls<br />

X0 = x.) Wegen der Symmetrie der Yi ist<br />

⎧<br />

⎪⎨<br />

≥<br />

ϕ(m, x)<br />

⎪⎩<br />

1<br />

2 , falls m ≤ n und x ≥ a,<br />

= 1<br />

2 , falls m ≤ n und x = a,<br />

=0, falls m>n.<br />

Also gilt<br />

�<br />

{τ ≤ n} = {τ ≤ n}∩{Xτ ≥ a} ⊂ ϕ(τ,Xτ ) ≥ 1<br />

�<br />

∩{τ ≤ n}<br />

2<br />

Nun folgt (17.8) aus<br />

P[Xn >a]+ 1<br />

2 P[Xn = a] =E � f � ��<br />

τ,(Xτ+m)m≥0<br />

� .<br />

= {ϕ(τ,Xτ ) > 0}∩{τ ≤ n}.<br />

� � 1<br />

= E0 ϕ(τ,Xτ ) {τ≤n} ≥<br />

2 P0 [τ ≤ n] .<br />

(17.9)


340 17 Markovketten<br />

Gilt P[Y1 ∈{−1, 0, 1}] =1, und ist a ∈ N,soistXτ = a, falls τ ≤ n. Alsoist<br />

�<br />

{ϕ(τ,Xτ ) > 0}∩{τ ≤ n} = ϕ(τ,Xτ )= 1<br />

�<br />

∩{τ ≤ n}.<br />

2<br />

Daher gilt Gleichheit im letzten Schritt von (17.9) und damit auch in (17.8). ✷<br />

Übung 17.1.1. Sei I ⊂ R X =(Xt)t∈I ein stochastischer Prozess. Definiere für<br />

t ∈ I die σ-Algebren, die die Vergangenheit bis und die Zukunft ab t kodieren:<br />

F≤t := σ(Xs : s ∈ I, s ≤ t) und F≥t := σ(Xs : s ∈ I, s ≥ t).<br />

Man zeige: X hat genau dann die elementare Markoveigenschaft, wenn für jedes<br />

t ∈ I die σ-Algebren F≤t und F≥t unabhängig sind gegeben σ(Xt) (vergleiche<br />

Definition 12.20).<br />

Mit anderen Worten: Ein Prozess hat die elementare Markoveigenschaft genau dann,<br />

wenn Vergangenheit und Zukunft unabhängig sind gegeben die Gegenwart. ♣<br />

17.2 Diskrete Markovketten, Beispiele<br />

Sei E höchstens abzählbar und I = N0. Ein Markovprozess X =(Xn)n∈N0 auf E<br />

ist nach Definition 17.3 eine diskrete Markovkette (oder Markovkette mit diskretem<br />

Zustandsraum).<br />

Ist X eine diskrete Markovkette, so ist (Px)x∈E festgelegt durch die Angabe von<br />

der Übergangsmatrix<br />

p =(p(x, y))x,y∈I := (Px[X1 = y])x,y∈E.<br />

Die n-Schrittübergangswahrscheinlichkeiten<br />

p (n) (x, y) :=Px [Xn = y]<br />

ergeben sich nämlich als n-faches Matrixprodukt<br />

wobei<br />

p (n) (x, y) =p n (x, y),<br />

p n (x, y) = �<br />

p n−1 (x, z)p(z,y)<br />

z∈E<br />

und p0 = I die Einheitsmatrix ist.<br />

Durch Iteration folgt die Chapman-Kolmogorov’sche Gleichung (siehe (14.13))<br />

für alle m, n ∈ N0 und x, y ∈ E<br />

p (m+n) (x, y) = �<br />

p (m) (x, z) p (n) (z,y). (17.10)<br />

z∈E


17.2 Diskrete Markovketten, Beispiele 341<br />

Definition 17.16. Eine Matrix (p(x, y)) x,y∈E mit nichtnegativen Einträgen und<br />

�<br />

p(x, y) =1 für jedes x ∈ E<br />

y∈E<br />

heißt stochastische Matrix auf E.<br />

Nun ist eine stochastische Matrix im Wesentlichen ein stochastischer Kern von<br />

E nach E. In Satz 17.8 hatten wir gesehen, dass zu der Halbgruppe von Kernen<br />

(p n )n∈N genau eine diskrete Markovkette existiert, deren Übergangswahrscheinlichkeiten<br />

durch p gegeben sind. Die dort angegeben Argumente waren eher abstrakter<br />

Natur. Wir wollen hier eine Konstruktion von X angeben, mit der man beispielsweise<br />

auch eine Computersimulation bauen kann.<br />

Sei (Rn)n∈N0 eine unabhängige Familie von Zufallsvariablen mit Werten in EE mit<br />

der Eigenschaft, dass<br />

P[Rn(x) =y] =p(x, y) für alle x, y ∈ E. (17.11)<br />

Beispielsweise wähle man (Rn(x), x ∈ E, n ∈ N) als eine unabhängige Familie<br />

von Zufallsvariablen mit Werten in E und Verteilungen<br />

P[Rn(x) =y] =p(x, y) für alle x, y ∈ E und n ∈ N0.<br />

Man beachte aber, dass wir in (17.11) weder die Unabhängigkeit der Zufallsvariablen<br />

(Rn(x), x ∈ E) gefordert haben, noch, dass alle Rn die selbe Verteilung<br />

haben (lediglich die eindimensionalen Randverteilungen sind festgelegt). In der Tat<br />

möchte man in vielen wichtigen Anwendungen wohldefinierte Abhängigkeitsstrukturen<br />

haben, um Markovketten mit unterschiedlichen Startzuständen miteinander zu<br />

koppeln. Diesen Faden verfolgen wir erst in Abschnitt 18.2 weiter.<br />

Für x ∈ E definiere<br />

X x 0 = x und X x n = Rn(X x n−1) für n ∈ N.<br />

Schließlich definieren wir Px := L[X x ] als die Verteilung von X x , also als ein<br />

W-Maß auf dem Folgenraum (E N0 , B(E) ⊗N0 ).<br />

Satz 17.17. (i) Der kanonische Prozess X auf (EN0 , B(E) ⊗N0 ) ist bezüglich<br />

der Verteilung (Px)x∈E eine Markovkette mit Übergangsmatrix p.<br />

(ii) Insbesondere gehört zu jeder stochastischen Matrix p genau eine diskrete<br />

Markovkette X mit Übergangswahrscheinlichkeiten p.<br />

Beweis. ” (ii)“ folgt aus (i), da Satz 17.11 die Eindeutigkeit von X liefert.<br />

” (i)“ Für n ∈ N0 und x, y, z ∈ E gilt nach Konstruktion


342 17 Markovketten<br />

Px[Xn+1 = z � � Fn, Xn = y] =P � X x n+1 = z � � σ � Rm, m≤ n � ,X x n = y �<br />

= P � Rn+1(X x n)=z � �σ � Rm, m≤ n � ,X x n = y �<br />

= P � Rn+1(y) =z]<br />

= p(y, z).<br />

Nach Satz 17.11 ist X also eine Markovkette mit Übergangsmatrix p. ✷<br />

Beispiel 17.18. (Irrfahrt auf Z)SeiE = Z, und gelte<br />

p(x, y) =p(0,y− x) für alle x, y ∈ Z.<br />

Wir sagen in diesem Fall, dass p translationsinvariant ist. Eine diskrete Mar-<br />

D<br />

kovkette X mit Übergangsmatrix p ist eine Irrfahrt auf Z. Esistnämlich Xn =<br />

X0 + Z1 + ...+ Zn, wo(Zn) n∈N u.i.v. sind mit P [Zn = x] =p(0,x).<br />

Die Rn aus der expliziten Konstruktion erhalten wir durch Rn(x) :=x + Zn. ✸<br />

Beispiel 17.19 (Simulation am Computer). Wir betrachten die Situation wo E =<br />

{1,...,k} sogar endlich ist und wollen eine Markovkette X mit Übergangsmatrix<br />

p am Computer simulieren. Wir nehmen an, dass der Computer einen Zufallszahlengenerator<br />

bereitstellt, der eine Folge (Un)n∈N unabhängiger uniform auf [0, 1]<br />

verteilter Zufallsvariablen erzeugt.<br />

Wir setzen r(i, 0) = 0, r(i, j) =p(i, 1) + ...+ p(i, j) für i, j ∈ E, und definieren<br />

Yn durch<br />

Rn(i) =j ⇐⇒ Un ∈ [r(i, j − 1),r(i, j)).<br />

Per Konstruktion ist dann P[Rn(i) =j] =r(i, j) − r(i, j − 1) = p(i, j). ✸<br />

Beispiel 17.20 (Verzweigungsprozess als Markovkette). Wir wollen den Galton-<br />

Watson Verzweigungsprozess (siehe Definition 3.9) als Markovkette auf E = N0<br />

auffassen.<br />

Sei hierzu (qk)k∈N0 ein Wahrscheinlichkeitsvektor, den wir als Verteilung der Nachkommenschaft<br />

eines Individuums auffassen. Definiere q∗0 k = {0}(k) und<br />

k�<br />

q ∗n<br />

k =<br />

l=0<br />

q ∗(n−1)<br />

k−l ql für n ∈ N<br />

als n-fache Faltung von q sowie die Matrix p durch p(x, y) =q∗x y für x, y ∈ N0.<br />

Seien nun (Yn,i,n ∈ N0,i ∈ N0) u.i.v. mit P[Yn,i = k] =qk. Für x ∈ N0 definieren<br />

wir den Verzweigungsprozess X mit x Urahnen und Nachkommenverteilung q<br />

durch X0 = x und Xn := �Xn−1 i=1 Yn−1,i. Um zu zeigen, dass X eine Markovkette<br />

ist, berechnen wir


17.2 Diskrete Markovketten, Beispiele 343<br />

�<br />

P[Xn = xn<br />

�X0 = x, X1 = x1,...,Xn−1 = xn−1]<br />

= P[Yn−1,1 + ...+ Yn−1,xn−1 = xn]<br />

= P ∗xn−1<br />

({xn}) =q Y1,1 ∗xn−1<br />

xn = p(xn−1,xn).<br />

Also ist X eine Markovkette auf N0 mit Übergangsmatrix p. ✸<br />

Beispiel 17.21 (Wright’sches Evolutionsmodell). In der Biologie beschreibt das<br />

Wright’sche Evolutionsmodell ([159]) die Vererbung eines genetischen Merkmales<br />

mit zwei möglichen Ausprägungen, etwa A und B, (zum Beispiel Resistenz/keine<br />

Resistenz gegen ein bestimmtes Antibiotikum) in einer Population konstanter Größe<br />

N ∈ N mit diskreter Generationenfolge. Die Individuen werden dabei als haploid<br />

angenommen, die Chromosomen liegen also einfach vor (wie etwa bei gewissen<br />

Einzellern) und nicht als Paare (wie etwa bei Säugetieren).<br />

Wir betrachten hier den Fall, wo keines der beiden Merkmale einen Selektionsvorteil<br />

bietet. Es wird also angenommen, dass sich jedes Individuum der neuen Generation<br />

zufällig (gleichverteilt) eines der Individuen der vorangehenden Generation<br />

als Ahn (oder Vorgänger) aussucht und dessen komplettes Erbgut übernimmt. Die<br />

Wahl wird für jedes Individuum unabhängig getroffen, wobei mehrere Individuen<br />

auf den selben Ahn zurückgehen können. Beträgt die Anzahl der Individuen vom<br />

Typ A in der Elterngeneration k ∈{0,...,N}, so ist dieselbe Anzahl in der Kindergeneration<br />

zufällig und binomialverteilt mit Parametern N und k/N.<br />

Wir können die Genfrequenzen (also die relativen Anteile k/N) in diesem Modell<br />

offenbar durch eine Markovkette X auf E = {0, 1/N,...,(N − 1)/N, 1} mit<br />

Übergangsmatrix p(x, y) = bN,x({Ny}) beschreiben. Man beachte, dass X ein<br />

(beschränktes) Martingal ist. Nach dem Martingalkonvergenzsatz konvergiert X also<br />

Px-fast sicher gegen eine Zufallsvariable X∞ mit Ex[X∞] =Ex[X0] =x.<br />

Ähnlich wie beim Wählermodell (siehe Beispiel 11.16), das in der Tat sehr eng verwandt<br />

mit diesem Modell ist, können wir argumentieren, dass X∞ nur die stabilen<br />

Randwerte 0 und 1 annehmen kann. Es gilt also Px[limn→∞ Xn = 1] = x =<br />

1 − Px[limn→∞ Xn =0]. ✸<br />

Beispiel 17.22 (Diskretes Moran-Modell). Wir wollen ein dem Wright’schen Evolutionsmodell<br />

verwandtes Modell mit Überlappung der Generationen betrachten.<br />

Die Situation ist wie beim Wright’schen Modell, jedoch soll jetzt pro Zeitschritt<br />

immer nur genau ein Individuum durch ein neues ersetzt werden, dessen Typ durch<br />

eine zufällige Wahl aus der Elterngeneration bestimmt wird.<br />

Da die Typen des zu ersetzenden und des neuen Individuums unabhängig sind,<br />

erhalten wir als Modell für die Genfrequenzen eine Markovkette X auf E =<br />

{0, 1<br />

N ,...,1} mit Übergangsmatrix<br />

⎧<br />

x(1 − x), falls y = x +1/N,<br />

⎪⎨ x<br />

p(x, y) =<br />

⎪⎩<br />

2 +(1−x) 2 , falls y = x,<br />

x(1 − x), falls y = x − 1/N,<br />

0, sonst.


344 17 Markovketten<br />

Auch hier ist X wieder ein beschränktes Martingal, und wir können den quadratischen<br />

Variationsprozess ausrechnen:<br />

n−1 �<br />

〈X〉n = E � (Xi − Xi−1) 2 � �<br />

�<br />

2<br />

Xi−1 =<br />

N 2<br />

n−1 �<br />

Xi(1 − Xi). (17.12)<br />

✸<br />

i=0<br />

Übung 17.2.1 (Diskretes Martingalproblem). Sei E ⊂ R höchstens abzählbar<br />

und X eine Markovkette auf E mit Übergangsmatrix p und der Eigenschaft, dass es<br />

für jedes x eine höchstens dreielementige Menge Ax ⊂ E gibt mit p(x, y) =0für<br />

jedes y ∈ E \ Ax.Seid(x) := �<br />

y∈E (y − x) p(x, y) für x ∈ E.<br />

(i) Man zeige: Durch Mn := Xn − �n−1 k=0 d(Xk) wird ein Martingal M definiert<br />

mit quadratischem Variationsprozess 〈M〉n = �n−1 i=0 f(Xi) für eine eindeutig<br />

bestimmte Funktion f : E → [0, ∞).<br />

(ii) Man zeige: Die Übergangsmatrix p ist durch Angabe von f und d eindeutig<br />

bestimmt.<br />

(iii) Man berechne für das Moran-Modell (Beispiel 17.22) die Übergangsmatrix<br />

aus der expliziten Form (17.12) des quadratischen Variationsprozesses. ♣<br />

i=0<br />

17.3 Diskrete Markovprozesse in stetiger Zeit<br />

Sei E abzählbar und (Xt) t∈[0,∞) ein Markovprozess auf E mit Übergangswahrscheinlichkeiten<br />

pt(x, y) =Px[Xt = y] (für x, y ∈ E). (Manche Autoren nennen<br />

solch einen Prozess auch Markovkette in stetiger Zeit.)<br />

Sind x, y ∈ E mit x �= y, sosagenwir,dassXmit Rate q(x, y) von x nach y<br />

springt, falls der folgende Limes existiert<br />

q(x, y) := lim<br />

t↓0<br />

1<br />

t Px[Xt = y].<br />

Wir nehmen nun an, dass q(x, y) für alle y �= x existiert, und dass<br />

�<br />

q(x, y) < ∞ für jedes x ∈ E (17.13)<br />

gilt. Wir setzen dann<br />

y�=x<br />

Mit dieser Festsetzung gilt<br />

lim<br />

t↓0<br />

q(x, x) =− �<br />

q(x, y). (17.14)<br />

y�=x<br />

1�<br />

�<br />

Px [Xt = y] − {x=y} = q(x, y) für alle x, y ∈ E. (17.15)<br />

t


17.3 Diskrete Markovprozesse in stetiger Zeit 345<br />

Definition 17.23. Gelten (17.13), (17.14) und (17.15), soheißtq die Q-Matrix von<br />

X. Manchmal wird q auch der Generator der Halbgruppe (pt)t≥0 genannt.<br />

Beispiel 17.24 (Poissonprozess). Der Poissonprozess mit Rate α>0 (vergleiche<br />

Kapitel 5.5) hat die Q-Matrix q(x, y) =α( {y=x+1} − {y=x}). ✸<br />

Satz 17.25. Gilt q(x, y) ≥ 0 für alle x, y ∈ E mit x �= y, gelten (17.13), (17.14),<br />

und ist<br />

λ := sup |q(x, x)| < ∞, (17.16)<br />

x∈E<br />

so ist q die Q-Matrix eines eindeutig bestimmten Markovprozesses X.<br />

Ganz naiv betrachtet legt (17.15) nahe, dass man pt = etq in einem geeigneten Sinne<br />

definiert. Dann wäre rein formal q = d<br />

dtpt �<br />

� . Der folgende Beweis zeigt, dass<br />

t=0<br />

diese formale Argumentation unter den angegebenen Bedingungen rigoros gemacht<br />

werden kann.<br />

Beweis. Sei I die Einheitsmatrix. Definiere<br />

p(x, y) = 1<br />

q(x, y)+I(x, y) für x, y ∈ E.<br />

λ<br />

Dann ist p eine stochastische Matrix und q = λ(p − I). Sei � (Yn)n∈N0 , � P Y � �<br />

x x∈E<br />

eine diskrete Markovkette mit Übergangsmatrix p, und sei � (Tt)t≥0, � P T � �<br />

n n∈N0<br />

ein Poissonprozess mit Rate λ. SeiXt := YTt und Px = P Y x ⊗ P T 0 .Dannist<br />

X := ((Xt)t≥0, (Px)x∈E) ein Markovprozess und<br />

pt(x, y) :=Px [Xt = y] =<br />

= e −λt<br />

∞�<br />

n=0<br />

λ n t n<br />

∞�<br />

P T 0 [Tt = n] P Y x [Yn = y]<br />

n=0<br />

n! pn (x, y).<br />

Diese Potenzreihe (in t) istüberall konvergent (da p als linearer Operator endliche<br />

Norm �p�2 ≤ 1 hat) gegen die Matrix-Exponentialfunktion e λtp (x, y), und es gilt<br />

pt(x, y) =e −λt e λtp (x, y) =e λt(p−I) (x, y) =e tq (x, y).<br />

Durch gliedweise Differentiation der Potenzreihe erhalten wir d<br />

dtpt(x, y) � �<br />

t=0<br />

q(x, y). Damit ist X der gewünschte Markovprozess.<br />

Wir nehmen nun an, dass (�pt)t≥0 die Übergangswahrscheinlichkeiten eines weiteren<br />

Markovprozesses � X sind, mit dem selben Generator q, also mit<br />

lim<br />

s↓0<br />

1�<br />

�ps(x, y) − I(x, y)<br />

s<br />

� = q(x, y).<br />

=


346 17 Markovketten<br />

Man prüft leicht nach, dass<br />

lim<br />

s↓0<br />

1�<br />

�pt+s(x, y) − pt(x, y)<br />

s<br />

� =(q · pt)(x, y)<br />

gilt, das heißt, es gilt (d/dt)pt(x, y) =qpt(x, y) und analog (d/dt)�pt = q �pt(x, y).<br />

Damit gilt ebenfalls<br />

pt(x, y) − �pt(x, y) =<br />

� t<br />

0<br />

� q(ps − �ps) � (x, y) ds.<br />

Setzen wir rs = ps − �ps,soist�rs�2 ≤ 2 und �q�2 ≤ 2λ, also<br />

sup �rs�2 ≤ sup<br />

s≤t<br />

s≤t<br />

� t<br />

0<br />

�qru�2 du ≤�q�2 sup<br />

s≤t<br />

� t<br />

0<br />

�ru�2 du ≤ 2λt sup �rs�2.<br />

s≤t<br />

Für tt]<br />

= P[Tn ≤ s + t − Sn |Sn ≤ t, Tn >t− Sn] =P[Tn ≤ s]<br />

=1− exp(−n 2 s).<br />

lim s<br />

s↓0 −1 P[Xt+s = n +1|Xt = n] =n 2<br />

lim s<br />

s↓0 −1� P[Xt+s = n|Xt = n] − 1 � = −n 2 ,<br />

lim<br />

s↓0 s −1 � P[Xt+s = m|Xt = n] − I(m, n) � = q(m, n) für alle m, n ∈ N.


Schreiben wir<br />

17.3 Diskrete Markovprozesse in stetiger Zeit 347<br />

τ n =inf{t ≥ 0:Xt = n} = Sn für n ∈ N,<br />

so gilt E1[τ n ]= �n−1 k=1 1<br />

k2 �<br />

. Speziell ist also E1 supn∈N τ n� < ∞, das heißt, X<br />

überschreitet in endlicher Zeit alle Schranken. Wir sagen, dass X explodiert. ✸<br />

Beispiel 17.27 (Eine Variante des Pólya’schen Urnenmodells). Wir betrachten eine<br />

Variante des Pólya’schen Urnenmodells mit schwarzen und roten Kugeln (vergleiche<br />

Beispiel 12.29), wo nicht jeweils einfach nur eine weitere Kugel der selben<br />

Farbe zurückgelegt wird, sondern für die k-te Kugel, die von einer Farbe gezogen<br />

wird, werden rk weitere Kugeln zurückgelegt. Dabei sind die Zahlen r1,r2,...∈ N<br />

die Parameter des Modells. Der Fall 1=r1 = r2 = ...entspricht dem klassischen<br />

Pólya’schen Urnenmodell. Sei<br />

�<br />

1, falls die n-te Kugel schwarz ist,<br />

Xn :=<br />

0, sonst.<br />

Beim klassischen Modell hatten wir gesehen (Beispiel 12.29), dass der Anteil der<br />

schwarzen Kugeln gegen eine betaverteilte Zufallsvariable Z konvergiert, und dass<br />

gegeben Z die Folge X1,X2,... unabhängig und BerZ verteilt ist. Ganz ähnliche<br />

Aussagen bekommen wir in dem Fall, wo r = r1 = r2 = ... ist für ein r ∈ N.<br />

In der Tat ändern sich hier nur die Parameter der Betaverteilung. Insbesondere (da<br />

die Betaverteilung keine Atome in 0 und 1 hat), werden von jeder Farbe fast sicher<br />

unendlich viele Kugeln gezogen. Es gilt also P[B] =0,woB das Ereignis ist, dass<br />

von einer der Farben nur endlich viele Kugeln gezogen werden.<br />

Wir werden jetzt sehen, dass dies nicht so sein muss, wenn die Zahlen rk nur rasch<br />

genug wachsen. Wir nehmen an, dass anfangs je eine rote und eine schwarze Kugel<br />

in der Urne liegen und schreiben wn =1+ �n k=1 rk für die Gesamtzahl von Kugeln<br />

einer Farbe, nachdem die Farbe bereits n-mal gezogen wurde (n ∈ N0).<br />

Wir betrachten zunächst eine extreme Situation wo wn =2nfür jedes n ∈ N. Die<br />

Größe<br />

Sn =2(X1 + ...+ Xn) − n<br />

zählt, wie viel mehr schwarze Kugeln als rote Kugeln bis zum n-ten Schritt gezogen<br />

wurden. Dann ist für jedes n ∈ N0<br />

P[Xn+1 =1|Sn] = 2Sn<br />

1+2 Sn<br />

und P[Xn+1 =0|Sn] = 2−Sn<br />

. −Sn 1+2<br />

Zusammen erhalten wir, dass (Zn)n∈N0 := (|Sn|)n∈N0 eine Markovkette auf N0 ist<br />

mit Übergangsmatrix<br />

p(z,z ′ ⎧<br />

⎪⎨<br />

)=<br />

⎪⎩<br />

2 z /(1 + 2 z ), falls z ′ = z +1> 1,<br />

1, falls z ′ = z +1=1,<br />

1/(1 + 2 z ), falls z ′ = z − 1,<br />

0, sonst.


348 17 Markovketten<br />

Das Ereignis B von oben können wir schreiben als<br />

B = � Zn+1 Zn für alle n ∈ N0 das Ereignis, dass Z auf direktem Weg<br />

nach ∞ flieht und τz =inf{n ∈ N0 : Zn ≥ z}. Offenbar ist<br />

Pz[A] =<br />

∞�<br />

z ′ =z<br />

p(z ′ ,z ′ +1)≥ 1 −<br />

∞�<br />

z ′ =z<br />

1<br />

1+2 z′ ≥ 1 − 2 1−z .<br />

Man kann leicht zeigen, dass P0[τz < ∞] =1ist für jedes z ∈ N0. Wir erhalten<br />

für jedes z ∈ N0 mit der starken Markoveigenschaft<br />

P0[B] ≥ P0[Zn+1 >Zn für alle n ≥ τz] =Pz[A] ≥ 1 − 2 1−z<br />

und damit P0[B] =1. Damit ist nachgewiesen, dass fast sicher irgendwann nur<br />

noch Kugeln einer Farbe gezogen werden.<br />

Wir wollen nun von diesem extremen Beispiel weg und mit (noch) subtileren Methoden,<br />

die an das obige Beispiel mit der Explosion des Markovprozesses anknüpfen,<br />

arbeiten.<br />

Wir wollen nun zeigen, dass P[B] =1, falls �∞ n=0 1 < ∞. Hierzu betrach-<br />

wn<br />

ten wir unabhängige Zufallsvariablen T s 1 ,T r 1 ,T s 2 ,T r 2 ,... mit PT r n = PT s n =<br />

expwn−1 . Ferner sei T r ∞ = �∞ n=1 T r n und T s ∞ = �∞ n=1 T s n. Offenbar ist E[T r ∞]=<br />

�∞ n=0 1/wn < ∞, also ist insbesondere P[T r ∞ < ∞] =1. Die analoge Aussage<br />

gilt für T s ∞. Man beachte, dass T r ∞ und T s ∞ unabhängig sind und Dichten haben<br />

(weil T r 1 und T s 1 Dichten haben), also gilt P[T r ∞ = T s ∞]=0.<br />

Seien nun<br />

Rt =sup � n ∈ N : T r 1 + ...+ T r n−1 ≤ t �<br />

und<br />

St =sup � n ∈ N : T s 1 + ...+ T s n−1 ≤ t � .<br />

Seien R := {T r 1 + ... + T r n,n ∈ N} und S := {T s 1 + ... + T s n,n ∈ N} die<br />

Sprungzeitpunkte von (Rt) und (St), sowieU := R ∪ S = {u1,u2,...}, wobei<br />

u1


17.4 Diskrete Markovketten, Rekurrenz und Transienz 349<br />

Also ist (Xn)n∈N0 das erweiterte Urnenmodell mit Gewichten (wn)n∈N0 . Wir betrachten<br />

nun das Ereignis B, dass von jeder Farbe unendlich viele Kugeln gezogen<br />

werden. Offenbar ist {Xn =1unendlich oft} = {sup S =supU} und {Xn =<br />

0 unendlich oft} = {sup R =supU}. Wegensup S = T s ∞ und sup R = T r ∞ ist<br />

also P[B] =P[T r ∞ = T s ∞]=0. ✸<br />

Übung 17.3.1. Seien r, s, R, S ∈ N. Man betrachte das Pólya’sche Urnenmodell<br />

(Xn)n∈N0 mit rk = r und sk = s für alle k ∈ N und anfänglich R roten Kugeln<br />

und S schwarzen Kugeln. Man zeige, dass der Anteil der schwarzen Kugeln fast<br />

sicher gegen eine Zufallsvariable Z mit Beta-Verteilung konvergiert und bestimme<br />

die Parameter. Man zeige, dass (Xn)n∈N0 u.i.v. ist gegeben Z und Xi ∼ BerZ für<br />

jedes i ∈ N0. ♣<br />

Übung 17.3.2. Man zeige, dass fast sicher unendlich viele Kugeln jeder Farbe ge-<br />

∞�<br />

zogen werden, falls<br />

1<br />

= ∞. ♣<br />

wn<br />

n=0<br />

17.4 Diskrete Markovketten, Rekurrenz und Transienz<br />

Sei im Folgenden X =(Xn)n∈N0 eine Markovkette auf dem abzählbaren Raum E<br />

mit Übergangsmatrix p.<br />

Definition 17.28. Für jedes x ∈ E sei τx := τ 1 x := inf{n >0: Xn = x} und<br />

τ k x =inf � n>τ k−1<br />

x : Xn = x �<br />

für k ∈ N, k≥ 2.<br />

τ k x heißt k-te Eintrittszeit von X in x. Für x, y ∈ E sei<br />

F (x, y) :=Px[τ 1 �<br />

y < ∞] =Px es gibt ein n ≥ 1 mit Xn = y �<br />

die Wahrscheinlichkeit jemals von x nach y zu gehen. Speziell ist F (x, x) die<br />

Rückkehrwahrscheinlichkeit (nach dem ersten Sprung) von x nach x.<br />

Man beachte, dass τ 1 x > 0 selbst bei Start in X0 = x gilt.<br />

�<br />

k Satz 17.29. Für alle x, y ∈ E und k ∈ N gilt Px τy < ∞ � = F (x, y) F (y, y) k−1 .<br />

Beweis. Wir führen den Beweis per Induktion über k.Für k =1ist die Aussage per<br />

Definition richtig. Sei nun k ≥ 2. Dann ist wegen der starken Markoveigenschaft<br />

von X (siehe Satz 17.14)


350 17 Markovketten<br />

1/2<br />

2<br />

1<br />

1<br />

1/3<br />

1/6<br />

1/2<br />

3<br />

1/2<br />

3/4<br />

1/2<br />

4 6<br />

Abb. 17.1. Markovkette mit acht Zuständen. Die Zahlen sind die Übergangswahrscheinlichkeiten<br />

für die entsprechenden Pfeile.<br />

Der Zustand 2 ist absorbierend, die Zustände 1, 3, 4 und 5 transient, die Zustände 6, 7 und 8<br />

(positiv) rekurrent.<br />

� k<br />

Px τy < ∞ � = Ex<br />

= Ex<br />

�<br />

�<br />

Px<br />

�<br />

1/2<br />

τ k y < ∞ � �F τ k−1<br />

y<br />

F (y, y) · k−1<br />

{τy


1<br />

17.4 Diskrete Markovketten, Rekurrenz und Transienz 351<br />

r r<br />

0 1 2 3<br />

1�r 1�r<br />

1�r 1�r<br />

Abb. 17.2. Markovkette auf N0 mit Parameter r ∈ (0, 1). Die Kette ist positiv rekurrent,<br />

wenn r ∈ (0, 1/2), nullrekurrent, wenn r =1/2 und transient für r ∈ (1/2, 1).<br />

(ii) In Abb. 17.2 hat die Kette eine Tendenz, nach rechts auszuwandern, falls r> 1<br />

2<br />

ist. Daher ist in diesem Fall jeder Zustand transient. Ist hingegen r ∈ (0, 1<br />

2 ),<br />

so hat die Kette einen Drall nach links (außer in 0) und besucht daher jeden<br />

Zustand immer wieder, ist also rekurrent. Mit etwas mehr Nachdenken kann<br />

man zeigen (siehe Übung 17.6.4), dass die Kette in diesem Fall sogar positiv<br />

rekurrent ist und im verbleibenden Fall r = 1<br />

2 nullrekurrent ✸<br />

Definition 17.33. Mit N(y) = �∞ n=0 {Xn=y} bezeichnen wir die Gesamtzahl der<br />

Besuche von X in y und mit<br />

∞�<br />

G(x, y) =Ex[N(y)] = p n (x, y)<br />

die Greenfunktion von X.<br />

Satz 17.34. (i) Für alle x, y ∈ E gilt (mit 1/0 :=∞)<br />

� F (x,y)<br />

1−F (y,y) ,<br />

G(x, y) =<br />

1<br />

1−F (y,y) ,<br />

�<br />

falls x �= y<br />

= F (x, y) G(y, y)+<br />

falls x = y<br />

{x=y}. (17.17)<br />

n=0<br />

(ii) Ein Punkt x ∈ E ist genau dann rekurrent, wenn G(x, x) =∞.<br />

Beweis. (ii) folgt aus (i). Wir müssen also noch (17.17) zeigen. Nach Satz 17.29 ist<br />

∞�<br />

G(x, y) =Ex[N(y)] = Px[N(y) ≥ k]<br />

= {x=y} +<br />

=<br />

∞�<br />

k=1<br />

k=1<br />

� F (x,y)<br />

1−F (y,y) , falls x �= y,<br />

1<br />

1−F (x,x) , falls x = y.<br />

� k<br />

Px τy < ∞ � = {x=y} +<br />

∞�<br />

F (x, y) F (y, y) k−1<br />

Die zweite Gleichheit in (17.17) folgt hieraus direkt. ✷<br />

k=1<br />

r


352 17 Markovketten<br />

Satz 17.35. Ist x rekurrent und F (x, y) > 0, dann ist auch y rekurrent, und es gilt<br />

F (x, y) =F (y, x) =1.<br />

Beweis. Sei F (x, y) > 0. Dann gibt es ein k ∈ N und Punkte x1,...,xk ∈ E mit<br />

xk = y und xi �= x für jedes i =1,...,ksowie<br />

Px [Xi = xi für jedes i =1,...,k] > 0.<br />

Speziell ist pk (x, y) > 0. Nach der Markoveigenschaft ist<br />

� 1<br />

1 − F (x, x) =Px τx = ∞ � �<br />

≥ Px X1 = x1,...,Xk = xk, τ 1 x = ∞ �<br />

� 1<br />

= Px [X1 = x1,...,Xk = xk] · Py τx = ∞ �<br />

= Px [X1 = x1,...,Xk = xk](1− F (y, x)) .<br />

Ist nun F (x, x) =1, dann ist auch F (y, x) =1.WegenF (y, x) > 0 existiert ein<br />

l ∈ N mit p l (y, x) > 0.Alsoistfür n ∈ N0<br />

Mithin ist, falls x rekurrent ist,<br />

G(y, y) ≥<br />

p l+n+k (y, y) ≥ p l (y, x) p n (x, x) p k (x, y).<br />

∞�<br />

n=0<br />

p l+n+k (y, y) ≥ p l (y, x)p k (x, y)G(x, x) =∞.<br />

Folglich ist auch y rekurrent. Wenn wir jetzt im Argument x und y vertauschen,<br />

dann erhalten wir noch F (x, y) =1. ✷<br />

Definition 17.36. Eine diskrete Markovkette heißt<br />

– irreduzibel, falls F (x, y) > 0 für alle x, y ∈ E gilt, oder äquivalent G(x, y) > 0.<br />

– schwach irreduzibel, falls F (x, y)+F (y, x) > 0 für alle x, y ∈ E gilt.<br />

Satz 17.37. Eine irreduzible diskrete Markovkette ist entweder rekurrent oder transient.<br />

Ist |E| ≥2, so gibt es keine absorbierenden Zustände.<br />

Beweis. Das folgt direkt aus Satz 17.35. ✷<br />

Satz 17.38. Ist E endlich und X irreduzibel, so ist X rekurrent.<br />

Beweis. Offenbar ist für jedes x ∈ E<br />

�<br />

∞� �<br />

G(x, y) = p n ∞�<br />

(x, y) = 1=∞.<br />

y∈E<br />

n=0 y∈E<br />

n=0


17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 353<br />

Da E endlich ist, gibt es ein y ∈ E mit G(x, y) =∞. WegenF (y, x) > 0 existiert<br />

ein k ∈ N mit p k (y, x) > 0, also ist p n+k (x, x) ≥ p n (x, y) p k (y, x) und<br />

G(x, x) ≥<br />

∞�<br />

p n (x, y) p k (y, x) =p k (y, x) G(x, y) =∞. ✷<br />

n=0<br />

Übung 17.4.1. Sei x positiv rekurrent und F (x, y) > 0. Man zeige, dass auch y<br />

positiv rekurrent ist. ♣<br />

17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten<br />

Wir wollen in diesem Abschnitt die Rekurrenz- und Transienzeigenschaften von<br />

Irrfahrten auf ZD , D =1, 2,...untersuchen. Eine ausführlichere Behandlung findet<br />

der Leser im Buch von Spitzer [147].<br />

Wir wollen untersuchen, ob die symmetrische einfache Irrfahrt X auf ZD , die in<br />

jedem Schritt mit gleicher Wahrscheinlichkeit zu einem der 2D nächsten Nachbarn<br />

springt, rekurrent oder transient ist. Sei also E = ZD und<br />

�<br />

1<br />

2D , falls |x − y| =1,<br />

p(x, y) =<br />

0, sonst.<br />

Der zentrale Grenzwertsatz legt nahe zu vermuten, dass<br />

p n (0, 0) ≈ CD n −D/2<br />

für n →∞<br />

für eine Konstante CD, die von der Dimension abhängt. Wir müssen hier jedoch<br />

zunächst einmal den Fall ausschließen, wo n ungerade ist, denn für ungerades n ist<br />

offenbar pn (0, 0) = 0. Seien also Y1,Y2,... unabhängige ZD-wertige Zufallsvariablen<br />

mit P[Yi = x] =p2 D<br />

(0,x).DannistX2n = Sn := Y1 + ...+ Yn für n ∈ N0,<br />

also G(0, 0) = �∞ n=0 P[Sn =0]. Offenbar hat Y1 =(Y1 1 ,...,YD 1 ) die Kovarianzmatrix<br />

Ci,j := E[Y i<br />

1 · Y j 2<br />

1 ]= D {i=j}. Nach dem lokalen zentralen Grenzwertsatz<br />

(siehe etwa [21, Seite 224ff] für eine eindimensionale Version dieses Satzes oder<br />

Übung 17.5.1 für eine analytische Herleitung) gilt<br />

n D/2 p 2n (0, 0) = n D/2 P[Sn =0] n→∞<br />

−→ 2(4π/D) −D/2 . (17.18)<br />

Nun ist genau dann � ∞<br />

n=1 n−α < ∞, wennα>1 ist, also ist G(0, 0) < ∞ genau<br />

dann, wenn D>2 ist. Wir haben damit einen Satz von Pólya gezeigt:<br />

Satz 17.39 (Pólya (1921)). Die symmetrische einfache Irrfahrt auf Z D ist genau<br />

dann rekurrent, wenn D ≤ 2.


354 17 Markovketten<br />

Das hier verwendete Vorgehen hat den Nachteil, dass wir den lokalen zentralen<br />

Grenzwertsatz bemüht haben, den wir nicht bewiesen haben. Wir wollen daher weitere<br />

Ansätze betrachten, die ohne dieses Hilfsmittel auskommen und auch an sich<br />

von Interesse sind.<br />

Betrachten wir zunächst die eindimensionale einfache Irrfahrt, die mit Wahrscheinlichkeit<br />

p einen Schritt nach rechts macht und mit Wahrscheinlichkeit 1 − p einen<br />

Schritt nach links. Dann ist<br />

∞�<br />

� �<br />

2n<br />

G(0, 0) = (p(1 − p))<br />

n<br />

n =<br />

n=0<br />

∞�<br />

� �<br />

−1/2<br />

(−p(1 − p))<br />

n<br />

n .<br />

Unter Benutzung des verallgemeinerten binomischen Lehrsatzes (Lemma 3.5) folgt<br />

⎧<br />

⎨ 1<br />

� , falls p �=<br />

G(0, 0) = (1 − 4p(1 − p))<br />

⎩<br />

1<br />

2 ,<br />

∞, falls p = 1<br />

2 .<br />

(17.19)<br />

Wir erhalten also, dass die einfache Irrfahrt auf Z genau dann rekurrent ist, wenn<br />

sie symmetrisch ist, also falls p = 1<br />

2 gilt.<br />

Die Transienz im Falle p �= 1<br />

2 folgt natürlich auch direkt aus dem starken Gesetz<br />

der großen Zahl, denn limn→∞ 1<br />

nXn = E0[X1] =2p− 1 fast sicher. Tatsächlich<br />

haben wir bei diesem Argument nur benutzt, dass die einzelnen Schritte von X<br />

einen Erwartungswert haben, der ungleich Null ist.<br />

Betrachten wir nun die allgemeinere Situation, wo X nicht notwendigerweise nur zu<br />

den nächsten Nachbarn springt, wo aber immer noch E0[|X1|] < ∞ und E0[X0] =<br />

0 gelten. Das starke Gesetz der großen Zahl liefert hier nicht direkt die gewünschte<br />

Aussage, sondern wir müssen etwas sorgfältiger argumentieren.<br />

Die Markoveigenschaft liefert für jedes N ∈ N und y �= x<br />

k=0<br />

k=0<br />

n=0<br />

N�<br />

N� � 1<br />

GN (x, y) := Px[Xk = y] = Px τy = k<br />

Hieraus folgt für jedes L ∈ N<br />

GN (0, 0) ≥<br />

=<br />

≥<br />

1<br />

2L +1<br />

1<br />

2L +1<br />

1<br />

2L +1<br />

�<br />

|y|≤L<br />

N�<br />

�<br />

Py[Xl = y] ≤ GN (y, y).<br />

� N−k<br />

l=0<br />

GN (0,y)<br />

�<br />

k=0 |y|≤L<br />

N�<br />

p k (0,y)<br />

�<br />

k=1 y: |y/k|≤L/N<br />

p k (0,y).<br />

Nach dem schwachen Gesetz der großen Zahl ist lim infk→∞<br />

für jedes ε>0, also folgt, wenn wir L = εN setzen<br />

�<br />

|y|≤εk pk (0,y)=1


17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 355<br />

lim inf<br />

N→∞ GN (0, 0) ≥ 1<br />

2ε<br />

für jedes ε>0.<br />

Wir haben damit G(0, 0) = ∞ und folglich die Rekurrenz von X gezeigt.<br />

Zusammen mit der vorangehenden, einfachen Richtung haben wir gezeigt:<br />

Satz 17.40. Eine Irrfahrt auf Z mit �∞ kurrent, wenn �∞ x=−∞ xp(0,x)=0gilt.<br />

x=−∞<br />

|x| p(0,x) < ∞ ist genau dann re-<br />

Wie steht es nun für symmetrische einfache Irrfahrten in Dimension D =2und<br />

höheren Dimensionen? Damit die Irrfahrt nach 2n Schritten wieder im Ursprung<br />

ist, muss sie ki Schritte in die i-te Richtung machen und ki Schritte in die Gegenrichtung,<br />

wobei k1 + ...+ kD =2nist. Wir erhalten also<br />

p 2n (0, 0) = (2D) −2n<br />

�<br />

�<br />

�<br />

2n<br />

, (17.20)<br />

k1,k1,...,kD,kD<br />

k1+...+kD=n<br />

wobei � � N<br />

N! = l1,...,lr l1!···lr! der Multinomialkoeffizienten ist. Speziell ist für D =2<br />

p 2n (0, 0) = 4 −2n<br />

=4 −2n<br />

n�<br />

k=0<br />

� 2n<br />

n<br />

(2n)!<br />

(k!) 2 ((n − k)!) 2<br />

� n �<br />

k=0<br />

� �� � �<br />

n n<br />

= 2<br />

k n − k<br />

−2n<br />

� ��2 2n<br />

,<br />

n<br />

wobei wir im letzten Schritt eine einfache kombinatorische Identität benutzt haben,<br />

die beispielsweise direkt aus der Faltungsformel (bn,p ∗ bn,p)({n}) =b2n,p({n})<br />

folgt. Nach der Stirling’schen Formel gilt nun<br />

√ −2n<br />

lim n 2<br />

n→∞<br />

� 2n<br />

n<br />

�<br />

= 1<br />

√ π ,<br />

also limn→∞ np2n (0, 0) = 1<br />

π . Insbesondere ist also �∞ n=1 p2n (0, 0) = ∞, das<br />

heißt, die zweidimensionale, symmetrische einfache Irrfahrt ist rekurrent.<br />

Für D ≥ 3 lässt sich die Summe über die Multinomialkoeffizienten nicht mehr in<br />

befriedigender Weise ausrechnen. Man kann allerdings immer noch obere Abschätzungen<br />

angeben, die zeigen, dass es ein c = cD gibt, sodass p2n (0, 0) ≤ cn−D/2 gilt,<br />

woraus dann G(0, 0) ≤ c �∞ n=1 n−D/2 < ∞ folgt (siehe etwa [58, Beispiel 6.30]<br />

oder [52, Seite 361]). Wir wollen hier jedoch eine andere Argumentation verfolgen.<br />

Die Sache wäre ganz einfach, wenn die einzelnen Koordinaten der Kette unabhängig<br />

wären. Dann wäre ja die Wahrscheinlichkeit, dass zur Zeit 2n alle Koordinaten<br />

gleich Null sind, gleich der D-ten Potenz der Wahrscheinlichkeit, dass etwa die<br />

erste Koordinate gleich Null ist. Für eine Koordinate ist aber (weil sich eine einzelne<br />

Koordinate ja nur mit Wahrscheinlichkeit 1/D bewegt, also nur Varianz 1/D


356 17 Markovketten<br />

hat) die Wahrscheinlichkeit, von der 0 aus startend nach 2n Schritten wieder in 0 zu<br />

sein ungefähr (nπ/D) −1/2 . Bis auf einen Faktor erhielte man so (17.18), ohne dass<br />

man den mehrdimensionalen lokalen zentralen Grenzwertsatz direkt bemüht hätte.<br />

Eine Möglichkeit, die Koordinaten tatsächlich unabhängig zu machen, besteht darin,<br />

die zeitdiskrete Markovkette in einen zeitstetigen Markovprozess auf Z D zu verwandeln,<br />

der die gleiche Greenfunktion hat.<br />

Wir betrachten also D unabhängige Poissonprozesse (T i t )t≥0, i = 1,...,D mit<br />

Rate 1/D und D unabhängige, symmetrische einfache Irrfahrten Z1 ,...,ZD auf<br />

für i = 1,...,D und Yt =<br />

Z. Wir setzen T := T 1 + ... + T D , Y i<br />

t := Zi T i t<br />

(Y 1<br />

t ,...,YD t ).DannistY eine Markovkette in stetiger Zeit mit Q-Matrix q(x, y) =<br />

p(x, y) − {x=y}. DaT ein Poissonprozess mit Rate 1 ist, ist auch (XTt )t≥0 ein<br />

Markovprozess mit Q-Matrix q. Es folgt (XTt )t≥0<br />

D<br />

=(Yt)t≥0. Wir berechnen nun<br />

� ∞<br />

� ∞ ∞�<br />

GY := P0[Yt =0]dt =<br />

0<br />

=<br />

�<br />

P0 X2n =0,Tt =2n<br />

0 n=0<br />

� dt<br />

∞�<br />

p<br />

n=0<br />

2n � ∞<br />

−t t2n<br />

(0, 0) e dt = G(0, 0).<br />

0 (2n)!<br />

Die beiden Prozesse (Xn)n∈N0 und (Yt) t∈[0,∞) haben also die selbe Greenfunktion.<br />

Nun sind aber die Koordinaten von Y tatsächlich unabhängig, also ist<br />

� ∞<br />

GY =<br />

0<br />

P0[Y 1<br />

t =0] D dt.<br />

Wir müssen also nur noch P0[Y 1<br />

t =0]für große t berechnen. Wir können so argu-<br />

mentieren: nach dem Gesetz der großen Zahl ist T 1 t ≈ t/D für große t. Außerdem<br />

gilt P0[Y 1<br />

t ist gerade] ≈ 1<br />

2 . Es gilt also, mit nt = ⌊t/2D⌋ für t →∞(vergleiche<br />

Übung 17.5.2)<br />

P0[Y 1<br />

t =0]∼ 1<br />

2 P�Z 1 2nt =0� = 1<br />

2<br />

� 2nt<br />

nt<br />

�<br />

4 −nt ∼ � 2π/D � −1/2 t −1/2 . (17.21)<br />

Da genau dann � ∞<br />

t 1 −α dt < ∞ gilt, wenn α>1 ist, so gilt auch GY < ∞ genau<br />

dann, wenn D>2 ist. Dies ist aber gerade die Aussage des Satzes von Pólya.<br />

Schließlich stellen wir noch eine dritte Methode vor, um Rekurrenz und Transienz<br />

von Irrfahrten zu untersuchen, die unabhängig von den euklidischen Eigenschaften<br />

des D-dimensionalen Gitters ist und auf der Fourier-Inversionsformel beruht.<br />

Wir betrachten zunächst eine allgemeine (zeitdiskrete) irreduzible Irrfahrt mit Übergangsmatrix<br />

p auf ZD .Mitφ(t) = �<br />

x∈ZD ei〈t,x〉 p(0,x) bezeichnen wir die charakteristische<br />

Funktion eines einzelnen Übergangs. Die Faltung der Übergangswahrscheinlichkeiten<br />

überträgt sich in Potenzen der charakteristischen Funktion, also ist<br />

φ n (t) = �<br />

x∈ZD e i〈t,x〉 p n (0,x).


17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 357<br />

Nach der Fourier-Inversionsformel (Satz 15.10) erhalten wir aus φn die n-Schritt<br />

Übergangswahrscheinlichkeiten zurück durch<br />

�<br />

Speziell ist für λ ∈ (0, 1)<br />

∞�<br />

p n (0,x)=(2π) −D<br />

Rλ := λ<br />

n=0<br />

n p n (0, 0) = (2π) −D<br />

n=0<br />

=(2π) −D<br />

�<br />

=(2π) −D<br />

�<br />

[−π,π) D<br />

[−π,π) D<br />

[−π,π) D<br />

e −i〈t,x〉 φ n (t) dt.<br />

∞�<br />

�<br />

1<br />

1 − λφ(t) dt.<br />

� �<br />

1<br />

Re<br />

1 − λφ(t)<br />

[−π,π) D<br />

λ n φ n (t) dt<br />

Nun ist G(0, 0) = limλ↑1 Rλ, also<br />

X ist rekurrent<br />

�<br />

⇐⇒ lim<br />

λ↑1 [−π,π) D<br />

� �<br />

1<br />

Re<br />

dt = ∞.<br />

1 − λφ(t)<br />

(17.22)<br />

Wäre φ(t) =1für ein t ∈ (−2π, 2π) D \{0},sowäre φ n (t) =1für jedes n ∈ N und<br />

damit nach Übung 15.2.1 P0[〈Xn,t/(2π)〉 ∈Z] =1, also wäre X nicht irreduzibel,<br />

im Widerspruch zur Annahme. Wegen der Stetigkeit von φ ist also für jedes ε>0<br />

Es gilt also der folgende Satz.<br />

dt.<br />

inf � |φ(t) − 1| : t ∈ [−π, π) D \ (−ε, ε) D� > 0.<br />

Satz 17.41 (Chung-Fuchs (1951)). Eine irreduzible Irrfahrt auf ZD mit charakteristischer<br />

Funktion φ ist genau dann rekurrent, wenn für jedes ε>0 gilt:<br />

� � �<br />

1<br />

lim Re<br />

dt = ∞. (17.23)<br />

λ↑1<br />

1 − λφ(t)<br />

(−ε,ε) D<br />

Betrachten wir nun die symmetrische einfache Irrfahrt, so ist φ(t) = 1 �D D i=1 cos(ti).<br />

Entwickeln wir die Kosinusfunktion in eine Taylorreihe um 0, so erhalten wir<br />

cos(ti) =1− 1<br />

2t2i + O(t4 ), also 1 − φ(t) = 1<br />

2D �t�22 + O(�t�4 2). Es folgt, dass<br />

X genau dann rekurrent ist, wenn �<br />

�t�2


358 17 Markovketten<br />

Wir werden in Kapitel 19.3 noch eine weitere, strukturell völlig andere Methode<br />

kennen lernen, um den Satz von Pólya zu beweisen, die auf dem Zusammenhang<br />

von Irrfahrten mit elektrischen Netzwerken beruht.<br />

Tatsächlich können wir mit Hilfe des Satzes von Chung-Fuchs die Greenfunktion<br />

GD(0, 0) der symmetrischen einfachen Irrfahrt auf ZD berechnen, indem wir das<br />

so genannte Watson Integral<br />

GD(0, 0) = (2π) −D<br />

�<br />

(−π,π] D<br />

D<br />

dx (17.24)<br />

D − (cos(x1)+...+cos(xD))<br />

numerisch berechnen. Hierzu folgen wir [81] (wo sich auch noch eine Verfeinerung<br />

des Verfahrens findet) und führen das D-fache Integral auf ein zweifaches zurück.<br />

Indem wir die Gleichung 1<br />

λ = � ∞<br />

0 e−λt dt für den Integranden benutzen und den<br />

Satz von Fubini verwenden, erhalten wir<br />

und damit<br />

GD(0, 0) = D<br />

(2π) D<br />

� ∞<br />

0<br />

e −Dt<br />

� �<br />

GD(0, 0) = D<br />

(−π,π] D<br />

e t(cos(x1)+...+cos(xD)) �<br />

dx dt<br />

� ∞<br />

e<br />

0<br />

−Dt I0(t) D dt, (17.25)<br />

wobei I0(t) := 1<br />

� π<br />

π 0 et cos(θ) dθ die modifizierte Bessel-Funktion erster Art bezeichnet.<br />

Die Darstellung (17.25) lässt sich vermittels numerischer Integration in<br />

guter Genauigkeit schnell berechnen (siehe Tabelle 17.1).<br />

Für den Fall D =3hat Watson [155] die Darstellung<br />

G3(0, 0) = 12 18 + 12√ 2 − 10 √ 3 − 7 √ 6<br />

π 2<br />

�<br />

K (2 − √ 3)( √ 3 − √ �2 2)<br />

angegeben, wobei K(m) = � 1 � �<br />

2 2 −1/2<br />

(1 − t )(1 − mt ) dt das vollständige ellip-<br />

0<br />

tische Integral erster Ordnung mit Modul m ∈ (−1, 1) ist und eine Darstellung als<br />

schnell konvergierende Reihe besitzt<br />

K(m) = π<br />

�<br />

∞�<br />

�<br />

(2n)!<br />

1+<br />

2<br />

4n (n!) 2<br />

�2 m 2<br />

�<br />

.<br />

n=1<br />

Glasser und Zucker [60] haben einen Ausdruck als Produkt von Gammafunktionen<br />

gefunden:<br />

√ � � � � � � � �<br />

6 1 5 7 11<br />

G3(0, 0) = Γ Γ Γ Γ =1.5163860591519780181 ...<br />

32π3 24 24 24 24


17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 359<br />

Tabelle 17.1. Greenfunktion GD(0, 0) und Rückkehrwahrscheinlichkeit FD(0, 0) der einfachen<br />

symmetrischen Irrfahrt auf Z D , numerisch berechnet mit Formel (17.25).<br />

D GD(0, 0) FD(0, 0)<br />

2 ∞ 1<br />

3 1.51638605915 0.34053732955<br />

4 1.23946712185 0.19320167322<br />

5 1.15630812484 0.13517860982<br />

6 1.11696337322 0.10471549562<br />

7 1.09390631559 0.08584493411<br />

8 1.07864701202 0.07291264996<br />

9 1.06774608638 0.06344774965<br />

10 1.05954374789 0.05619753597<br />

11 1.05313615291 0.05045515982<br />

12 1.04798637482 0.04578912090<br />

13 1.04375406289 0.04191989708<br />

14 1.04021240323 0.03865787709<br />

15 1.03720412092 0.03586962312<br />

16 1.03461657857 0.03345836447<br />

17 1.03236691238 0.03135214040<br />

18 1.03039276285 0.02949628913<br />

19 1.02864627888 0.02784852234<br />

20 1.02709011674 0.02637559869<br />

Übung 17.5.1. Für n ∈ N0 sei pn die Matrix der n-Schritt Übergangswahrscheinlichkeiten<br />

der einfachen symmetrischen Irrfahrt auf ZD . Man leite für n ∈ N die<br />

Formel<br />

p 2n (0, 0) = (2π) −D<br />

�<br />

D −2n� cos(t1)+...+cos(tD) �−2n dt<br />

[−π,π) D<br />

her (siehe Satz 15.10). Man schließe durch geeignete Abschätzung des Integrals die<br />

Konvergenz nD/2p2n (0, 0) n→∞<br />

−→ 2(4π/D) −D/2 (siehe (17.18)). ♣<br />

Übung 17.5.2. Man zeige (17.21) formal. ♣<br />

Übung 17.5.3. Man zeige mit Hilfe von Satz 17.41, dass eine Irrfahrt auf Z 2 mit<br />

�<br />

�<br />

x∈Z2 xp(0,x)=0rekurrent ist, falls x∈Z2 �x�22 p(0,x) < ∞. ♣<br />

Übung 17.5.4. Man zeige mit Hilfe von Satz 17.41, dass für D ≥ 3 jede irreduzible<br />

Irrfahrt auf Z D transient ist. ♣<br />

Übung 17.5.5. Man zeige (17.25) für GD(0, 0) direkt mit den p 2n (0, 0) aus (17.20)<br />

und mit der Reihendarstellung I0(t) = � ∞<br />

k=0 (k!)−2 (t/2) k . ♣


360 17 Markovketten<br />

17.6 Invariante Verteilungen<br />

Sei im Folgenden stets p eine stochastische Matrix auf dem diskreten Raum E sowie<br />

(Xn)n∈N0 eine zugehörige Markovkette.<br />

In diesem Abschnitt interessieren wir uns dafür, welche Wahrscheinlichkeitsverteilungen<br />

unter der Dynamik der Markovkette erhalten bleiben. Im Kapitel 18 werden<br />

wir unter einfachen Bedingungen zeigen, wann die Verteilung einer Markovkette<br />

für lange Zeiten gegen eine solche Verteilung konvergiert.<br />

Definition 17.42. Ist μ ein Maß auf E und f : E → R eine Abbildung, so schreiben<br />

wir μp({x}) = �<br />

y∈E μ({y})p(y, x) und pf(x) =�y∈E<br />

p(x, y)f(y), falls die<br />

Summen konvergieren.<br />

Definition 17.43. (i) Ein σ-endliches Maß μ auf E heißt invariantes Maß, falls<br />

μp = μ.<br />

μ heißt invariante Verteilung, falls zudem μ(E) =1gilt. Mit I bezeichnen<br />

wir die Menge der invarianten Verteilungen.<br />

(ii) Eine Funktion f : E → R heißt subharmonisch, falls pf existiert und f ≤ pf<br />

gilt. f heißt superharmonisch, falls f ≥ pf gilt und harmonisch, falls f = pf.<br />

Bemerkung 17.44. Im Sinne der linearen Algebra ist ein invariantes Maß ein Links-<br />

Eigenvektor von p und eine harmonische Funktion ein Rechts-Eigenvektor, jeweils<br />

zum Eigenwert 1. ✸<br />

Lemma 17.45. Ist f beschränkt und (sub-, super-) harmonisch, so ist (f(Xn)) n∈N0<br />

ein (Sub-, Super-) Martingal bezüglich der erzeugten Filtration F = σ(X).<br />

Beweis. Sei f beschränkt und subharmonisch. Dann ist<br />

Ex[f(Xn) � �Fn−1] =EXn−1 [f(X1)] = �<br />

p(Xn−1,y)f(y)<br />

y∈E<br />

= pf(Xn−1) ≥ f(Xn−1). ✷<br />

Satz 17.46. Ist X transient, so existiert keine invariante Verteilung.<br />

Beweis. Nach Voraussetzung ist G(x, y) = �∞ n=0 pn (x, y) < ∞ für alle x, y ∈ E,<br />

also pn (x, y) n→∞<br />

−→ 0. Für jedes W-Maß μ auf E ist daher μpn (x) n→∞<br />

−→ 0. Wäre<br />

μ invariant, so wäre aber μpn (x) =μ(x) für jedes n ∈ N. ✷


17.6 Invariante Verteilungen 361<br />

Satz 17.47. Sei x ein rekurrenter Zustand und τ 1 x =inf{n ≥ 1: Xn = x}. Dann<br />

wird ein invariantes Maß μx definiert durch<br />

⎡<br />

τ<br />

μx({y}) =Ex ⎣<br />

1<br />

x−1 ⎤<br />

�<br />

∞� �<br />

⎦ {Xn=y} = Px Xn = y; τ 1 x >n � .<br />

n=0<br />

Beweis. Zunächst müssen wir zeigen, dass μx({y}) < ∞ ist für jedes y ∈ E. Für<br />

y = x ist offenbar μx({x}) =1.Für y �= x und F (x, y) =0ist μx({y}) =0.Sei<br />

nun y �= x und F (x, y) > 0. Dax rekurrent ist, ist F (x, y) =F (y, x) =1, und y<br />

ist rekurrent (Satz 17.35). Sei<br />

�F (x, y) =Px<br />

n=0<br />

� 1<br />

τx >τ 1� y .<br />

Dann ist � F (x, y) > 0 (sonst würde y nicht getroffen) und nach Vertauschung der<br />

Rollen von x und y auch � F (y, x) > 0.<br />

Nach der starken Markoveigenschaft (Satz 17.14) ist<br />

Also ist<br />

Ey<br />

⎡<br />

�<br />

⎣<br />

τ 1<br />

x −1<br />

n=0<br />

Mithin ist<br />

⎡<br />

�<br />

μx({y}) =Ex⎣<br />

τ 1<br />

x −1<br />

n=0<br />

{Xn=y}<br />

Ey<br />

{Xn=y}<br />

⎤ ⎡<br />

�<br />

⎦ =1+Ey ⎣<br />

τ 1<br />

x −1<br />

n=τ 1 y<br />

�<br />

=1+ 1 − � �<br />

F (y, x)<br />

⎡<br />

�<br />

⎣<br />

τ 1<br />

x −1<br />

n=0<br />

{Xn=y}<br />

⎤ ⎡<br />

�<br />

⎦ = Ex⎣<br />

τ 1<br />

x −1<br />

n=τ 1 y<br />

⎤<br />

⎦ =<br />

{Xn=y}; τ 1 x >τ 1 y<br />

Ey<br />

1<br />

�F (y, x) .<br />

⎡<br />

�<br />

⎣<br />

τ 1<br />

x −1<br />

n=0<br />

{Xn=y}; τ 1 x >τ 1 y<br />

⎤<br />

⎦<br />

{Xn=y}<br />

�<br />

Definiere pn(x, y) =Px Xn = y; τ 1 x >n � .Dannistfür jedes z ∈ E<br />

μx p({z}) = �<br />

∞� �<br />

μx({y}) p(y, z) = pn(x, y) p(y, z).<br />

y∈E<br />

1. Fall: x �= z. Dann ist<br />

�<br />

pn(x, y)p(y, z) = �<br />

y∈E<br />

n=0 y∈E<br />

�<br />

Px Xn = y, τ<br />

y∈E<br />

1 x >n,Xn+1 = z �<br />

⎤<br />

⎦ .<br />

⎤<br />

⎦= � F (x, y)<br />

< ∞.<br />

�F (y, x)<br />

� 1<br />

= Px τx >n+1;Xn+1 = z � = pn+1(x, z).


362 17 Markovketten<br />

Also ist (wegen p 0(x, z) =0)<br />

∞�<br />

∞�<br />

∞�<br />

μx p({z}) = pn+1(x, z) = pn(x, z) = pn(x, z) =μx({z}).<br />

n=0<br />

2. Fall: x = z. Jetzt ist<br />

�<br />

pn(x, y)p(y, x) = �<br />

y∈E<br />

y∈E<br />

�<br />

1 Also ist (wegen Px τx =0 � =0)<br />

μx p({x}) =<br />

n=1<br />

n=0<br />

�<br />

Px Xn = y; τ 1 x >n; Xn+1 = x � � 1<br />

= Px τx = n +1 � .<br />

∞�<br />

n=0<br />

� 1<br />

Px τx = n +1 � =1=μx({x}). ✷<br />

Korollar 17.48. Ist x positiv rekurrent, so wird durch π({x}) := μx<br />

Ex [τ 1 für x ∈ E<br />

x]<br />

eine invariante Verteilung π definiert.<br />

Satz 17.49. Ist X irreduzibel, so hat X höchstens eine invariante Verteilung.<br />

Bemerkung 17.50. Man kann auch zeigen: Ein invariantes Maß von X ist bis auf<br />

einen Faktor eindeutig. Der Beweis ist allerdings aufwändiger als der für invariante<br />

Verteilungen. Weil die Aussage hier nicht benötigt wird, verweisen wir lediglich auf<br />

[38, Theorem 5.4.4]. ✸<br />

Beweis. Seien π und ν invariante Verteilungen. Wähle einen beliebigen Wahrscheinlichkeitsvektor<br />

(gn)n∈N mit gn > 0 für jedes n ∈ N. Definiere die stochastische<br />

Matrix �p(x, y) = �∞ n=1 gn pn (x, y). Dannist�p(x, y) > 0 für alle x, y ∈ E<br />

und π�p = π sowie ν�p = ν.<br />

Betrachte nun das signierte Maß μ = π − ν. Es gilt μ�p = μ. Wäre nun μ �= 0,so<br />

gäbe es (wegen μ(E) =0) Punkte x1,x2 ∈ E mit μ({x1}) > 0 und μ({x2}) < 0.<br />

Offensichtlich wäre für jedes y ∈ E dann � �μ({x1}) p(x1,y)+μ({x2}) p(x2,y) � �<br />

�<br />

<<br />

�μ({x1}) p(x1,y) � �<br />

� + �μ({x2}) p(x2,y) � � , also<br />

� �<br />

� μ�p �TV = �<br />

�<br />

� �<br />

�<br />

�<br />

�<br />

� μ({x})�p(x, y) �<br />

�<br />

y∈E x∈E<br />

< � �<br />

|μ({x})| �p(x, y) = �<br />

|μ({x})| = � μ �TV.<br />

y∈E x∈E<br />

Da dies widersprüchlich ist, gilt μ =0. ✷<br />

Es sei daran erinnert, dass I die Menge der invarianten Verteilungen von X ist.<br />

x∈E


17.6 Invariante Verteilungen 363<br />

Satz 17.51. Sei X irreduzibel. X ist genau dann positiv rekurrent, wenn I �= ∅<br />

ist. In diesem Fall ist I = {π} mit<br />

π({x}) =<br />

1<br />

Ex[τ 1 > 0 für jedes x ∈ E.<br />

x]<br />

Beweis. Ist X positiv rekurrent, so ist I �= ∅ nach Korollar 17.48. Sei nun I �= ∅<br />

und π ∈ I.DaX irreduzibel ist, ist π({x}) > 0 für jedes x ∈ E. SeiPπ =<br />

�<br />

x∈E π({x})Px.Seix ∈ E fest und für n ∈ N0<br />

σ n x =sup � m ≤ n : Xm = x � ∈ N0 ∪{−∞}<br />

die letzte Eintrittszeit in x bis zur Zeit n. (Man bemerke, dass dies keine Stoppzeit<br />

ist.) Nach der Markoveigenschaft gilt dann für k ≤ n<br />

�<br />

Xk = x, Xk+1 �= x,...,Xn �= x �<br />

Pπ [σ n x = k] =Pπ<br />

�<br />

= Pπ Xk+1 �= x,...,Xn �= x|Xk = x � Pπ[Xk = x]<br />

�<br />

= π({x}) Px X1,...,Xn−k �= x �<br />

� 1<br />

= π({x}) Px τx ≥ n − k +1 � .<br />

�<br />

1 Also ist für jedes n ∈ N0 (wegen Py τx < ∞ � =1für jedes y ∈ E)<br />

1=<br />

n�<br />

k=0<br />

= π({x})<br />

Pπ [σ n x = k]+Pπ [σ n x = −∞]<br />

n�<br />

k=0<br />

n→∞<br />

−→ π({x})<br />

� 1<br />

Px τx ≥ n − k +1 � � 1<br />

+ Pπ τx ≥ n +1 �<br />

∞�<br />

k=1<br />

� 1<br />

Px τx ≥ k � � � 1<br />

= π({x}) Ex τx .<br />

� �<br />

1 1<br />

Mithin ist Ex τx = π({x}) < ∞, und damit ist X positiv rekurrent. ✷<br />

Übung 17.6.1. Betrachte die Markovkette aus Abb. 17.1 (Seite 350). Man bestimme<br />

die Menge aller invarianten Verteilungen und zeige, dass die Zustände 6, 7 und 8<br />

positiv rekurrent sind mit erwarteten Eintrittszeiten<br />

E6[τ6] = 17<br />

4 , E7[τ7] = 17<br />

5<br />

und E8[τ8] = 17<br />

. ♣<br />

5


364 17 Markovketten<br />

Übung 17.6.2. Sei X =(Xt)t≥0 eine Markovkette auf E in stetiger Zeit mit Q-<br />

Matrix q. Man zeige: Ein Wahrscheinlichkeitsmaß π auf E ist genau dann eine invariante<br />

Verteilung für X,wenn �<br />

x∈E π({x})q(x, y) =0für alle y ∈ E. ♣<br />

Übung 17.6.3. Sei G eine abzählbare, abelsche Gruppe und p die Übergangsmatrix<br />

einer irreduziblen Irrfahrt X auf G, das heißt, es gilt p(hg, hf) =p(h, f) für alle<br />

h, g, f ∈ G. (Dies verallgemeinert den Begriff der Irrfahrt auf Z D .) Man zeige mit<br />

Hilfe von Satz 17.51: X ist genau dann positiv rekurrent, wenn G endlich ist. ♣<br />

Übung 17.6.4. Sei r ∈ [0, 1] und X die Markovkette auf N0 mit Übergangsmatrix<br />

(siehe Abb. 17.2 auf Seite 351)<br />

⎧<br />

1, falls x =0 und y =1,<br />

⎪⎨ r, falls y = x +1≥ 2,<br />

p(x, y) =<br />

1 − r, falls y = x − 1,<br />

⎪⎩<br />

0, sonst.<br />

Man bestimme das invariante Maß und zeige mit Hilfe von Satz 17.51:<br />

(i) Ist r ∈ � 0, 1<br />

�<br />

2 ,soistXpositiv rekurrent.<br />

(ii) Ist r = 1<br />

2 ,soistXnullrekurrent. (iii) Ist r ∈{0}∪ � 1<br />

2 , 1� ,soistXtransient. ♣


18 Konvergenz von Markovketten<br />

Wir betrachten eine Markovkette X mit invarianter Verteilung π und untersuchen<br />

unter welchen Bedingungen die Verteilung von Xn für n →∞gegen π konvergiert.<br />

Im Wesentlichen ist dafür notwendig und hinreichend, dass der Zustandsraum der<br />

Kette nicht in Unterräume zerfällt, die<br />

– von der Kette nicht verlassen werden,<br />

– oder von der Kette beispielsweise nur für ungerade n beziehungsweise gerade n<br />

besucht werden.<br />

Im ersten Fall wäre die Kette reduzibel, im zweiten hingegen periodisch.<br />

Wir untersuchen Periodizität von Ketten im ersten Abschnitt und zeigen im zweiten<br />

den Konvergenzsatz. Im dritten Abschnitt beschäftigen wir uns mit Anwendungen<br />

des Konvergenzsatzes für Computersimulationen mit der so genannten Markovketten<br />

Monte Carlo Methode. Im letzten Abschnitt beschreiben wir die Geschwindigkeit<br />

der Konvergenz gegen das Gleichgewicht mit Hilfe des Spektrums<br />

der Übergangsmatrix.<br />

18.1 Periodizität von Markovketten<br />

Wir untersuchen, unter welchen Bedingungen eine Markovkette X auf dem abzählbaren<br />

Raum E (und mit Übergangsmatrix p), die in einem beliebigen μ ∈M1(E)<br />

gestartet wird, in Verteilung gegen eine invariante Verteilung π konvergiert, also<br />

μp<br />

n n→∞<br />

−→ π gilt. Sicherlich ist hierzu notwendig, dass π die einzige invariante<br />

Verteilung ist, und damit bis auf Vielfache der einzige Links-Eigenvektor von p zum<br />

Eigenwert 1. Hierfür ist ausreichend, dass die Kette irreduzibel ist (Satz 17.49).<br />

n n→∞<br />

Es sind gewisse Kontraktionseigenschaften von p notwendig, damit μp −→ π<br />

für jedes μ ∈ M1(E) gelten kann. Offenbar ist 1 der betragsmäßig größte Eigenwert<br />

von p. Allerdings ist p nur dann (ausreichend) kontrahierend, wenn die<br />

Vielfachheit dieses Eigenwertes genau 1 ist und keine weiteren (komplexwertigen)<br />

Eigenwerte mit Betrag 1 existieren.<br />

Für die letztgenannte Bedingung ist die Irreduzibilität der Kette nicht hinreichend,<br />

wie wir sehen, wenn wir auf E = {0,...,N − 1} die Markovkette mit Übergangs-


366 18 Konvergenz von Markovketten<br />

matrix p(x, y) = {y=x+1(mod N)} betrachten. Der Eigenwert 1 hat die Vielfachheit<br />

1. Jedoch sind alle N-ten Einheitswurzeln eik/N , k =0,...,N − 1, ebenfalls Eigenwerte<br />

mit Betrag 1. Offenbar ist die Gleichverteilung auf E invariant, jedoch<br />

existiert lim<br />

n→∞ δxpn für kein x ∈ E, denn jeder Punkt wird periodisch immer nur<br />

nach jeweils genau N Schritten besucht. Um Konvergenz zu erzielen, müssen wir<br />

also zunächst Periodizität untersuchen (und ausschließen). Hernach können wir für<br />

irreduzible aperiodische Markovketten einen Konvergenzsatz angeben.<br />

Sind m, n ∈ N, so schreiben wir m � �n, falls m ein Teiler von n ist, also falls n<br />

m ∈ N.<br />

Ist M ⊂ N, so schreiben wir ggT(M) für den größten gemeinsamen Teiler aller<br />

n ∈ M. Sei im Folgenden stets X eine Markovkette auf dem abzählbaren Raum E<br />

mit Übergangsmatrix p.<br />

Definition 18.1. (i) Für x, y ∈ E schreiben wir<br />

N(x, y) := � n ∈ N0 : p n (x, y) > 0 � .<br />

Für jedes x ∈ E heißt dx := ggT(N(x, x)) die Periode des Punktes x.<br />

(ii) Ist dx = dy für alle x, y ∈ E,soheißtd := dx die Periode von X.<br />

(iii) Ist dx =1 für jedes x ∈ E, so heißt X aperiodisch.<br />

1<br />

1<br />

Abb. 18.1. Die linke Markovkette ist periodisch mit Periode 2, die rechte Markovkette ist<br />

aperiodisch.<br />

1/2<br />

1/2<br />

Lemma 18.2. Für jedes x ∈ E existiert ein nx ∈ N mit<br />

1/2<br />

1/2<br />

1/2<br />

1/2<br />

p ndx (x, x) > 0 für jedes n ≥ nx. (18.1)<br />

Beweis. Seien k1,...,kr ∈ N(x, x) mit ggT({k1,...,kr}) =dx.Dannistfür alle<br />

m1,...,mr ∈ N0 auch �r i=1 ki mi ∈ N(x, x). Elementare Zahlentheorie liefert<br />

uns nun, dass für jedes n ≥ nx := r · �r i=1 (ki/dx) Zahlen m1,...,mr ∈ N0<br />

existieren mit ndx = �r i=1 ki mi. Also gilt (18.1). ✷


3<br />

1/2 1/2<br />

2<br />

1<br />

1<br />

18.1 Periodizität von Markovketten 367<br />

1 1<br />

4 1<br />

8<br />

7<br />

Abb. 18.2. Es ist N(8, 8) = {6, 10, 12, 14, 16,...}, also d8 := ggT({6, 10, 12,...}) =2<br />

und n8 =5. Die Kette hat also Periode 2. Hingegen ist n1 =2und n4 =4.<br />

Das Problem, die kleinste Zahl N zu finden, sodass sich jedes ndx, n ≥ N als<br />

nichtnegative ganzzahlige Linearkombination von k1,...,kr darstellen lässt, wird<br />

Frobenius Problem genannt. Die allgemeine Lösung ist unbekannt, allerdings hat<br />

Sylvester [150] für den Fall r =2gezeigt, dass N =(k1/dx − 1)(k2/dx − 1)<br />

minimal ist. Im allgemeinen Fall ist als obere Schranken für N beispielsweise<br />

2max{ki : i =1,...,r} 2 /(rd 2 x) bekannt, siehe etwa [44].<br />

Lemma 18.3. Sei X irreduzibel. Dann gelten:<br />

(i) d := dx = dy für alle x, y ∈ E.<br />

(ii) Für alle x, y ∈ E existieren nx,y ∈ N und Lx,y ∈{0,...,d− 1} mit<br />

5<br />

nd + Lx,y ∈ N(x, y) für jedes n ≥ nx,y. (18.2)<br />

Lx,y ist eindeutig bestimmt, und es gilt<br />

Lx,y + Ly,z + Lz,x =0(modd) für alle x, y, z ∈ E. (18.3)<br />

Beweis. (i) Seien m, n ∈ N0 mit p m (x, y) > 0 und p n (y, z) > 0. Dannist<br />

Also gilt<br />

p m+n (x, z) ≥ p m (x, y) p n (y, z) > 0.<br />

N(x, y)+N(y, z) := � m + n : m ∈ N(x, y), n∈ N(y, z) � ⊂ N(x, z). (18.4)<br />

Sind speziell m ∈ N(x, y), n ∈ N(y, x) und k ≥ ny, soistkdy � ∈ N(y, y), also<br />

m + kdy ∈ N(x, y) und m + n + kdy ∈ N(x, x). Es folgt dx�(m<br />

�<br />

�<br />

+ n + kdy) für<br />

jedes k ≥ ny, also dx�dy.<br />

Analog erhalten wir dy�dx,<br />

also dx = dy.<br />

(ii) Sei m ∈ N(x, y). Dannistm + kd ∈ N(x, y) für jedes k ≥ nx. Also gilt<br />

(18.2) mit<br />

�<br />

m<br />

�<br />

nx,y := nx +<br />

d<br />

und<br />

�<br />

m<br />

�<br />

Lx,y := m − d .<br />

d<br />

Wegen (18.4) ist<br />

1<br />

1<br />

6


368 18 Konvergenz von Markovketten<br />

(nx,y + ny,z)d + Lx,y + Ly,z ∈ N(x, z).<br />

Mit z = x folgt: d � � (Lx,y + Ly,x), also ist Lx,y eindeutig in {0,...,d− 1} und<br />

Lx,y = −Ly,x (mod d). Für allgemeines z folgt: d � � (Lx,y + Ly,z + Lz,x), also gilt<br />

(18.3). ✷<br />

Satz 18.4. Sei X irreduzibel mit Periode d. Dann existiert eine disjunkte Zerlegung<br />

des Zustandsraums<br />

mit der Eigenschaft<br />

E =<br />

d−1 �<br />

i=0<br />

Ei<br />

(18.5)<br />

p(x, y) > 0 und x ∈ Ei =⇒ y ∈ E i+1 (mod d). (18.6)<br />

Bis auf zyklische Vertauschung ist diese Zerlegung eindeutig.<br />

E2<br />

E0<br />

Abb. 18.3. Markovkette mit Periode d =3.<br />

Die Eigenschaft (18.6) besagt gerade, dass X die Mengen Ei nacheinander besucht<br />

und zu jedem Zeitschritt in das nächste Ei wechselt (siehe Abb. 18.3 oder Abb. 18.2,<br />

wo d =2, E0 = {1, 3, 5, 7} und E1 = {2, 4, 6, 8} ist). � Etwas formaler können � wir<br />

dies schreiben als: Ist x ∈ Ei für gewisses i, soistPxXn<br />

∈ Ei+n (mod d) =1.<br />

Beweis. ” Existenz“ Wähle ein beliebiges x0 ∈ E und setze<br />

Ei := � y ∈ E : Lx0,y = i �<br />

für i =0,...,d− 1.<br />

Offenbar gilt (18.5). Sei i ∈{0,...,d− 1} und x ∈ Ei. Isty ∈ E mit p(x, y) > 0,<br />

so ist Lx,y =1, also ist Lx0,y = Lx0,x + Lx,y = i +1(modd).<br />

” Eindeutigkeit“ Sei ( � Ei, i =0,..., � d − 1) eine weitere Zerlegung, die (18.5)<br />

und (18.6) erfüllt. Ohne Einschränkung sei E0 ∩ � E0 �= ∅ (sonst vertausche die � Ei<br />

zyklisch bis dies gilt) und x0 ∈ E0 ∩ � E0 beliebig. Nach Voraussetzung impliziert<br />

E1


18.2 Kopplung und Konvergenzsatz 369<br />

p(x0,y) > 0 nun y ∈ E1 und y ∈ � E1, also y ∈ E1 ∩ � E1. Iterativ erhalten wir, dass<br />

pnd+i (x, y) > 0 impliziert, dass y ∈ Ei ∩ � Ei (für n ∈ N und i =0,...,d− 1).<br />

Da die Kette irreduzibel ist, existieren aber für jedes y ∈ E Zahlen n(y) und i(y),<br />

sodass pn(y) d+i(y) (x0,y) > 0, also y ∈ Ei(y) ∩ � Ei(y). Mithin gilt Ei = � Ei für jedes<br />

i =0,...,d− 1. ✷<br />

18.2 Kopplung und Konvergenzsatz<br />

Es ist oftmals nützlich, einen gemeinsamen Wahrscheinlichkeitsraum für zwei Verteilungen<br />

anzugeben, sodass die jeweiligen Verteilungen sich als die Randverteilungen<br />

ergeben. Wir stellen zunächst das Prinzip der Kopplung abstrakt vor und geben<br />

dann Beispiele an. Schließlich wenden wir die Begriffe auf Markovketten an.<br />

Definition 18.5. Sind (E1, E1,μ1) und (E2, E2,μ2) Wahrscheinlichkeitsräume, so<br />

heißt jedes W-Maß μ auf (E1×E2, E1⊗E2) mit μ( · ×E2) =μ1 und μ(E1× · )=μ2<br />

eine Kopplung von μ1 und μ2.<br />

Beispiel 18.6. Seien X eine reelle Zufallsvariable und f,g : R → R monoton wachsende<br />

Funktionen mit E[f(X) 2 ] < ∞ und E[g(X) 2 ] < ∞. Wir wollen zeigen, dass<br />

die Zufallsvariablen f(X) und g(X) nichtnegativ korreliert sind.<br />

Sei dazu Y eine unabhängige Kopie von X, also eine von X unabhängige Zufallsvariable<br />

mit PY = PX. Speziell ist E[f(X)] = E[f(Y )] und E[g(X)] = E[g(Y )].<br />

Für alle Zahlen x, y ∈ R ist (f(x) − f(y))(g(x) − g(y)) ≥ 0. Alsoist<br />

0 ≤ E �� f(X) − f(Y ) �� g(X) − g(Y ) ��<br />

= E[f(X)g(X)] − E[f(X)] E[g(Y )] + E[f(Y )g(Y )] − E[f(Y )] E[g(X)]<br />

=2Cov[f(X),g(X)]. ✷<br />

Beispiel 18.7. Sind μ, ν ∈M1(Rd ), so schreiben wir μ � ν, falls � fdμ≤ � fdν<br />

für jede monoton wachsende, beschränkte Funktion f : Rd → R. Wir sagen dann,<br />

dass ν stochastisch größer als μ ist. Offenbar ist � eine Halbordnung auf M1(Rd ).<br />

Sind F1 und F2 die Verteilungsfunktionen von μ1 und μ2, so ist offenbar μ1 �<br />

μ2 genau dann, wenn F1(x) ≥ F2(x) für jedes x ∈ Rd . (Einen Überblick über<br />

verschiedene stochastische Ordnungen findet man beispielsweise in [116].)<br />

Wir zeigen jetzt, dass genau dann μ � ν gilt, wenn es eine Kopplung ϕ von μ1 und<br />

μ2 gibt mit ϕ(L) =1,woL := {x =(x1,x2) ∈ Rd × Rd : x1 ≤ x2}.<br />

Sei ϕ eine solche Kopplung. Für monoton wachsendes, beschränktes f : Rd → R<br />

ist f(x1) − f(x2) ≤ 0 für jedes x =(x1,x2) ∈ L, also � fdμ1− � fdμ2 � � =<br />

f(x1) − f(x2) � ϕ(dx) ≤ 0 und damit μ1 � μ2.<br />

L<br />

Gilt andererseits μ1 � μ2, so wird durch F ((x1,x2)) := min(F1(x1),F2(x2)) eine<br />

Verteilungsfunktion auf R d × R d definiert, die zu einer Kopplung ϕ mit ϕ(L) =1<br />

gehört. ✸


370 18 Konvergenz von Markovketten<br />

Beispiel 18.8. Sei (E,ϱ) ein polnischer Raum. Für zwei W-Maße P und Q auf<br />

(E,B(E)) schreiben wir K(P, Q) ⊂M1(E × E) für die Menge der Kopplungen<br />

von P und Q. Wirkönnen dann einen Abstand, die so genannte Wasserstein<br />

Metrik, aufM1(E) definieren durch<br />

� �<br />

�<br />

dW (P, Q) :=inf ϱ(x, y) ϕ(d(x, y)) : ϕ ∈ K(P, Q) . (18.7)<br />

Man kann zeigen (Satz von Kantorovich-Rubinstein [85], siehe auch [37, Seite<br />

420ff]), dass<br />

� �<br />

�<br />

dW (P, Q) =sup fd(P − Q) : f ∈ Lip1(E; R) . (18.8)<br />

Man vergleiche diese Darstellung der Wasserstein Metrik mit derjenigen der Totalvariationsnorm:<br />

� �<br />

�P − Q�TV =sup fd(P − Q) : f ∈L ∞ �<br />

(E) mit �f�∞ ≤ 1 . (18.9)<br />

Tatsächlich können wir auch hier eine Definition durch eine Kopplung angeben: Sei<br />

D := {(x, x) : x ∈ E} die Diagonale in E × E.Dannist<br />

�P − Q�TV =inf � ϕ((E × E) \ D) : ϕ ∈ K(P, Q) � . (18.10)<br />

Siehe [59] für einen Vergleich verschiedener Metriken auf M1(E). ✸<br />

Ein weiteres Beispiel für eine komplexere Kopplung liefert der folgende Satz von<br />

Skorohod, den wir hier nur zitieren.<br />

Satz 18.9 (Skorohod Kopplung). Es seien μ, μ1,μ2,... W-Maße auf einem pol-<br />

n→∞<br />

nischen Raum E mit μn −→ μ. Dann existiert ein Wahrscheinlichkeitsraum<br />

(Ω,A, P) mit Zufallsvariablen X, X1,X2,... mit PX = μ und PXn = μn<br />

n→∞<br />

jedes n ∈ N sowie Xn −→ X fast sicher.<br />

für<br />

Beweis. Siehe etwa [84, Seite 79]. ✷<br />

Wir wollen die Kopplung diskreter Markovketten betrachten, die in unterschiedlichen<br />

Verteilungen μ und ν gestartet werden. Im Folgenden sei E stets ein abzählbarer<br />

Raum und p eine stochastische Matrix auf E.<br />

Definition 18.10. Eine bivariate Markovkette ((Xn,Yn))n∈N0 mit Werten in E × E<br />

heißt eine Kopplung, falls (Xn)n∈N0 und (Yn)n∈N0 Markovketten mit Übergangsmatrix<br />

p sind.<br />

Eine Kopplung heißt erfolgreich, falls P (x,y)[Xn �= Yn] n→∞<br />

−→ 0 für alle x, y ∈ E.


18.2 Kopplung und Konvergenzsatz 371<br />

Diese Definition der Kopplung von Markovketten ist in gewisser Weise sehr restriktiv,<br />

weil sie die Markoveigenschaft auch wieder für den gekoppelten Prozess fordert.<br />

Für die Anwendungen, die wir im Sinne haben, reicht dies aber völlig aus.<br />

Natürlich sind zwei unabhängig laufende Ketten eine Kopplung, allerdings vielleicht<br />

nicht die interessanteste.<br />

Beispiel 18.11 (Unabhängiges Verschmelzen). Die wichtigste Kopplung sind die<br />

verschmelzenden Markovketten: Wir lassen X und Y unabhängig voneinander mit<br />

Übergangsmatrix p laufen, so lange bis sie sich das erste Mal treffen. Danach laufen<br />

die Ketten gemeinsam weiter. Diese Kopplung nennen wir unabhängiges Verschmelzen,<br />

sie hat die Übergangsmatrix<br />

¯p � (x1,y1), (x2,y2) � ⎧<br />

⎪⎨ p(x1,x2) · p(y1,y2), falls x1 �= y1,<br />

=<br />

p(x1,x2), falls x1 = y1, x2 = y2,<br />

⎪⎩<br />

0, falls x1 = y1, x2�= y2.<br />

Mit τ := inf{n ∈ N0 : Xn = Yn} bezeichnen wir den Verschmelzungszeitpunkt.<br />

Wir können die Kopplung tatsächlich aus zwei unabhängigen Ketten ˜ X und ˜ Y herstellen,<br />

indem wir X := ˜ X setzen, ˜τ := inf{n ∈ N0 : ˜ Xn = ˜ Yn} und<br />

�<br />

˜Yn, falls n


372 18 Konvergenz von Markovketten<br />

einem Beispiel gezeigt, dass wir auf die räumliche Homogenität nicht leicht verzichten<br />

können, wenn wir eine erfolgreiche Kopplung haben möchten. Der Verzicht<br />

auf Rekurrenz fällt leichter, wie der folgende Satz zeigt.<br />

Satz 18.13. Sei X eine beliebige aperiodische und irreduzible Irrfahrt auf Z d mit<br />

Übergangsmatrix p. Dann existiert eine erfolgreiche Kopplung (X, Y ).<br />

Der Beweis ist etwas technisch und kann beim ersten Lesen ausgelassen werden.<br />

Beweis. Sei zunächst der Fall d =1betrachtet. Für jedes L ∈ N definieren wir die<br />

Übergangsmatrix ˇpL einer Irrfahrt auf Z durch<br />

�<br />

ˇpL(x, y) =<br />

p(x, z) p(y, z), falls x �= y,<br />

z∈Z: |z−y|≤L, |z−x|≤L<br />

und ˇpL(x, x) =1− �<br />

y�=x ˇpL(x, y).<br />

Offenbar ist ˇpL stets aperiodisch. Wähle nun L so groß, dass ˇpL irreduzibel ist.<br />

(Dass dies geht, zeigt die folgende Überlegung: Da p aperiodisch und irreduzibel<br />

ist, gibt es zu jedem x ∈ Z ein Nx ∈ N mit p (n) (0,x) > 0 für n ≥ Nx. Für<br />

n ≥ N0 ∨ Nx ist dann ˇp (n) (0,x) > 0, wobei ˇp =ˇp∞ die Symmetrisierung von p<br />

ist, denn<br />

Wegen ˇp (n)<br />

L<br />

p (n) (0,x)=((p (n) ) T p (n) )(0,x) ≥ (p (n) ) T (0, 0) p (n) (0,x) > 0.<br />

(0,x) L→∞<br />

−→ ˇp (n) (0,x), gilt für hinreichend großes L und n ≥ N0 ∨<br />

N−1 ∨ N1, dassˇp (n)<br />

L (0, −1) > 0, ˇp(n)<br />

L (0, 0) > 0, und ˇp(n)<br />

L (0, 1) > 0. Mithin ist ˇpL<br />

irreduzibel.)<br />

Wir konstruieren die Kopplung (X, Y ), indem wir X und Y alle Sprünge der Weite<br />

größer als L gemeinsam ausführen lassen, diejenigen von kürzerer Weite jedoch unabhängig,<br />

solange bis X und Y sich treffen und dann verschmelzen. Wir betrachten<br />

also als Übergangsmatrix für die nicht verschmelzende Kette ( ˜ X, ˜ Y )<br />

˜pL((x1,y1), (x2,y2))<br />

⎧<br />

⎪⎨<br />

p(x1,x2) p(y1,y2), falls |x1 − x2| ≤L, |y1 − y2| ≤L,<br />

=<br />

⎪⎩<br />

p(x1,x2),<br />

0,<br />

falls |x1 − x2| >Lund y1 − y2 = x1 − x2,<br />

sonst.<br />

Schließlich sei (X, Y ) die nach Zeit τ := inf{n ∈ N0 : ˜ Xn = ˜ Yn} verschmelzende<br />

Kette, also X = ˜ X und Yn = ˜ Yn für n ≤ τ und Yn = Xn für n ≥ τ. Offenbarist<br />

(X, Y ) eine Kopplung der Ketten mit Übergangsmatrix p.<br />

Nach Konstruktion ist die Differenz ( ˜ Xn − ˜ Yn)n∈N0 eine Irrfahrt mit Übergangsmatrix<br />

ˇpL, also eine symmetrische irreduzible, aperiodische Irrfahrt mit beschränkter<br />

Sprungweite und damit rekurrent. Für x, y ∈ Z gilt daher


18.2 Kopplung und Konvergenzsatz 373<br />

� � �<br />

P (x,y) Xn �= Yn = Px−y<br />

˜Xk �= ˜ Yk für alle k ≤ n � n→∞<br />

−→ 0.<br />

Wir behandeln jetzt den allgemeinen Fall d ∈ N, indem wir die einzelnen Koordinaten<br />

nacheinander koppeln. Um dies rigoros zu machen, müssen wir etwas<br />

Notationsaufwand treiben. Für x = (x 1 ,...,x d ) und k = 1,...,d − 1 sei<br />

ˆx k =(x 1 ,...,x k ) und ˇx k =(x k+1 ,...,x d ). Wir setzen pk(x, ˆy k )=pk(ˆx k , ˆy k )=<br />

�<br />

ˇy k ∈Z d−k p(x, y), sowiepk(x, (ˇy k | ˆy k )) = p(x, y)/p(x, ˆy k ). Diese Schreibweise<br />

soll suggerieren, dass es sich um die bedingte Wahrscheinlichkeit handelt, von x<br />

nach y zu springen, gegeben, dass wir schon wissen, dass die ersten k Koordinaten<br />

des Ziels durch ˆy k gegeben sind.<br />

Wir setzen noch formal ˆx 0 = ˇxd = 0, ˆx d = ˇx0 = x, p0(x, ˆy 0 ) = 1 und<br />

p0(x, (ˇy 0 | ˆy 0 )) = p(x, y) sowie l(x) :=max � k ∈{0,...,d} : ˆxk =0 � .Sei<br />

jetzt für L ∈ N die Matrix ˇpL,k definiert durch<br />

� k k<br />

ˇpL,k ˇx , ˇy � =<br />

� � � � � � k k k k k k k<br />

pk 0, (ˇz − ˇx | ˆz ) pk 0, (ˇz − ˇy | ˆz ) pk 0, ˆz � ,<br />

z∈Z d<br />

�ˇz k −ˇx k �∞≤L<br />

�ˇz k −ˇy k �∞≤L<br />

falls ˇx k �=ˇy k und ˇpL,k(ˇx k , ˇx k )=1− �<br />

ˇy k �=ˇx k<br />

ˇpL,k(ˇx k , ˇy k ).<br />

Wir nehmen an, dass L groß genug gewählt ist, dass alle ˇpL,k irreduzibel sind. Setze<br />

nun noch<br />

�<br />

(x1,y1), (x2,y2) � =<br />

˜pL,k<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

�<br />

k p(x1,x2) pk ˆy 1 , (ˇy k 2 | ˆy k 2 ) � , falls ˆy k 1 − ˆy k 2 =ˆx k 1 − ˆx k 2<br />

und �ˇy k 1 − ˇy k 2�∞ ≤ L, �ˇx k 1 − ˇx k 2�∞ ≤ L,<br />

p(x1,x2), falls y2 − y1 = x2 − x1<br />

und �ˇx k 1 − ˇx k ∞�2 >L,<br />

0, sonst.<br />

Schließlich definieren wir die Übergangsmatrix q von (X, Y ) durch<br />

q � (x1,y1), (x2,y2) � �<br />

=˜p L,l(y1−x1) (x1,y1), (x2,y2) � .<br />

Die Zahl l(Xn − Yn) gibt an, wie viele Koordinaten schon gekoppelt sind. Sind<br />

schon genau k Koordinaten gekoppelt, so wird ˜pL,k als Übergangsmatrix genommen.<br />

Unter dieser Matrix bleiben die ersten k Koordinaten gekoppelt. Sei τk :=<br />

inf{n ∈ N0 : l(Xn − Yn) =k}. Zwischen τk und τk+1 ist ( ˇ Y k n − ˇ X k n)n∈N eine<br />

Irrfahrt mit Übergangsmatrix ˇpL,k, also symmetrisch, irreduzibel und mit endlicher<br />

Sprungweite. Damit ist jede einzelne Koordinate eine rekurrente Irrfahrt und insbesondere<br />

τk+1 < ∞ fast sicher. Es folgt, dass für alle x, y ∈ Z d gilt<br />

P (x,y)[Xn �= Yn] =P (x,y)[τd >n] n→∞<br />

−→ 0. ✷


374 18 Konvergenz von Markovketten<br />

Satz 18.14. Sei X eine Markovkette auf E mit Übergangsmatrix p. Existiert eine<br />

erfolgreiche Kopplung, so ist jede beschränkte, harmonische Funktion konstant.<br />

Beweis. Sei f : E → R beschränkt und harmonisch, also pf = f. Seien x, y ∈ E,<br />

und sei (X, Y ) eine erfolgreiche Kopplung. Nach Lemma 17.45 sind (f(Xn))n∈N0<br />

und (f(Yn))n∈N0 Martingale, also gilt<br />

f(x) − f(y) =E (x,y)[f(Xn) − f(Yn)] ≤ 2�f�∞ P (x,y)[Xn �= Yn] n→∞<br />

−→ 0. ✷<br />

Korollar 18.15. Ist X eine irreduzible Irrfahrt auf Z d , so ist jede beschränkte, harmonische<br />

Funktion konstant.<br />

Diese Aussage gilt allgemeiner, wenn wir Z d durch eine lokalkompakte, abelsche<br />

Gruppe ersetzen und geht in dieser Form auf Choquet und Deny [26] zurück, siehe<br />

auch [136].<br />

Beweis. Ist p die Übergangsmatrix von X, sosei¯ X eine Markovkette mit Übergangsmatrix<br />

¯p(x, y) = 1<br />

1<br />

2p(x, y)+ 2 {x}(y). Offenbar haben X und ¯ X die selben<br />

harmonischen Funktionen. Nun ist aber ¯ X eine aperiodische, irreduzible Irrfahrt,<br />

besitzt also nach Satz 18.13 eine erfolgreiche Kopplung für alle Startpunkte. ✷<br />

Satz 18.16. Sei p die Übergangsmatrix einer irreduziblen, positiv rekurrenten, aperiodischen<br />

Kette auf E. Dann ist die verschmelzende Kette eine erfolgreiche Kopplung.<br />

Beweis. Seien ˜ X und ˜ Y zwei unabhängige Markovketten auf E mit Übergangsmatrix<br />

p. Dann hat die bivariate Markovkette Z := ((Xn,Yn))n∈N0 die Übergangsmatrix<br />

�p, die durch<br />

�p � (x1,y1), (x2,y2) � = p(x1,x2) · p(y1,y2)<br />

definiert wird. Wir zeigen zunächst, dass die Matrix �p irreduzibel ist. Nur an dieser<br />

Stelle benötigen wir die Aperiodizität von p. Seien also (x1,y1), (x2,y2) ∈ E × E<br />

gegeben. Dann existiert nach Lemma 18.2 ein m0 ∈ N mit<br />

p n (x1,x2) > 0 und p n (y1,y2) > 0 für jedes n ≥ m0.<br />

Für n ≥ m0 ist daher �p n� (x1,y1), (x2,y2) � > 0.Alsoist�p irreduzibel.<br />

Wir definieren nun die Stoppzeit τ des ersten Eintreffens von ( ˜ X, ˜ Y ) in der Diagonalen<br />

D := {(x, x) : x ∈ E} durch τ := inf � n ∈ N0 : ˜ Xn = ˜ �<br />

Yn .Seiπdie invariante<br />

Verteilung von ˜ X. Offenbar ist dann das Produktmaß π ⊗ π ∈M1(E × E)<br />

eine (und damit die) invariante Verteilung von ( ˜ X, ˜ Y ). Nach Satz 17.51 ist daher<br />

( ˜ X, ˜ Y ) positiv rekurrent, also insbesondere rekurrent. Mithin gilt P (x,y)[τ


18.2 Kopplung und Konvergenzsatz 375<br />

Satz 18.17. Sei X eine Markovkette mit Übergangsmatrix p, zu der eine erfolgreiche<br />

Kopplung existiert. Für alle μ, ν ∈M1(E) gilt dann � � n (μ − ν)p � � n→∞<br />

−→ 0.<br />

TV<br />

Ist � speziell X aperiodisch und positiv rekurrent mit invarianter Verteilung π, so gilt<br />

�Lμ[Xn] − π � � n→∞<br />

−→ 0 für jedes μ ∈M1(E).<br />

TV<br />

Beweis. Es reicht, den Fall μ = δx, ν = δy für gewisse x, y ∈ E zu betrachten.<br />

Summation über x und y liefert dann den allgemeinen Fall. Sei (Xn,Yn)n∈N0 eine<br />

erfolgreiche Kopplung. Dann ist<br />

�<br />

� (δx − δy)p n�� ≤ 2 P<br />

TV (x,y)[Xn �= Yn] n→∞<br />

−→ 0. ✷<br />

Wir fassen den Zusammenhang von Aperiodizität und Verteilungskonvergenz von<br />

X im folgenden Satz zusammen.<br />

Satz 18.18 (Konvergenzsatz für Markovketten). Sei X eine irreduzible, positiv<br />

rekurrente Markovkette auf E mit invarianter Verteilung π. Dann sind äquivalent:<br />

(i) X ist aperiodisch.<br />

(ii) Für jedes x ∈ E gilt<br />

�<br />

� Lx[Xn] − π � � TV<br />

(iii) Für ein x ∈ E gilt (18.11).<br />

(iv) Für jedes μ ∈M1(E) gilt � �<br />

� n μp − π�TV n→∞<br />

−→ 0. (18.11)<br />

n→∞<br />

−→ 0.<br />

Beweis. Die Implikationen (iv) ⇐⇒ (ii) =⇒ (iii) sind klar. Die Implikation<br />

(i) =⇒ (ii) wurde in Satz18.17 gezeigt. Wir zeigen also (iii) =⇒ (i).<br />

” (iii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Hat X die Periode d ≥ 2, und<br />

ist n ∈ N kein Vielfaches von d, so ist nach Satz 17.51<br />

�<br />

�δxp n − π � � ≥|p<br />

TV n (x, x) − π({x})| = π({x}) > 0.<br />

�<br />

Für jedes x ∈ E gilt daher lim sup �δxp n→∞<br />

n − π � � > 0, folglich gilt (iii) nicht. ✷<br />

TV<br />

Übung 18.2.1. Sei dP die Prohorov-Metrik (siehe (13.3) und Übung 13.2.1). Man<br />

zeige: dP (P, Q) ≤ � dW (P, Q) für alle P, Q ∈M1(E). HatE endlichen Durchmesser<br />

diam(E), soistdW (P, Q) ≤ (diam(E) +1)dP (P, Q) für alle P, Q ∈<br />

M1(E). ♣<br />

Übung 18.2.2. Man zeige durch eine direkte Rechnung, dass der in Beispiel 18.11<br />

aus ˜ X und ˜ Y hergestellte Prozess (X, Y ) eine Kopplung mit Übergangsmatrix ¯p ist.<br />


376 18 Konvergenz von Markovketten<br />

Übung 18.2.3. Sei X eine beliebige aperiodische, irreduzible, rekurrente Irrfahrt<br />

auf Z d . Man zeige, dass dann zu je zwei Startpunkten die unabhängige Verschmelzung<br />

eine erfolgreiche Kopplung ist.<br />

Hinweis: Man zeige, dass die Differenz zweier rekurrenter Irrfahrten stets wieder<br />

rekurrent ist. ♣<br />

Übung 18.2.4. Sei X eine Markovkette auf Z2 mit Übergangsmatrix<br />

⎧<br />

1<br />

4<br />

⎪⎨<br />

p((x1,x2), (y1,y2)) =<br />

⎪⎩<br />

, falls x1 =0, �y − x�2 =1,<br />

1<br />

4 , falls x1 �= 0und y1 = x1 ± 1, x2 = y2,<br />

1<br />

2 , falls x1 �= 0und y1 = x1, x2 = y2,<br />

0, sonst.<br />

Anschaulich ist dies die symmetrische einfache Irrfahrt, bei der alle senkrechten<br />

Übergänge außerhalb der senkrechten Koordinatenachse blockiert werden. Man zeige,<br />

dass X nullrekurrent, irreduzibel und aperiodisch ist, und dass die unabhängige<br />

Verschmelzung keine erfolgreiche Kopplung ist. ♣<br />

18.3 Markovketten Monte Carlo Methode<br />

Es sei E eine endliche Menge und π ∈M1(E) mit π(x) :=π({x}) > 0 für jedes<br />

x ∈ E. Wir betrachten das Problem, eine Zufallsvariable Y mit Verteilung π mit<br />

dem Computer zu generieren. Dies ist etwa dann relevant, wenn E eine sehr große<br />

Menge ist und Summen vom Typ �<br />

x∈E<br />

f(x)π(x) numerisch approximiert werden<br />

sollen durch Schätzer n−1 �n i=1 f(Yi) (siehe Beispiel 5.21).<br />

Wir nehmen an, dass unser Computer in der Lage ist, Realisierungen von u.i.v. Zufallsvariablen<br />

U1,U2,... zu generieren, die uniform auf [0, 1] verteilt sind. Die Verteilung<br />

π soll jedoch nicht leicht direkt herstellbar sein.<br />

Metropolis-Algorithmus<br />

Wir haben schon gesehen, wie man Markovketten mit dem Computer simulieren<br />

kann (Beispiel 17.19). Die Idee ist nun, eine Markovkette X zu erzeugen, deren<br />

Verteilung gegen π konvergiert. Wenn wir X lange genug laufen lassen, so wird<br />

Xn ungefähr wie π verteilt sein. Gleichzeitig sollte die Kette so gestaltet sein, dass<br />

in jedem Schritt immer nur wenige Übergänge wirklich möglich sind, sodass das<br />

in Beispiel 17.19 beschriebene Verfahren auch effizient umsetzbar ist. (Natürlich<br />

wäre eine Kette mit Übergangsmatrix p(x, y) =π(y) gegen π konvergent, aber das<br />

Problem ließe sich hiermit nicht vereinfachen.) Die so beschriebene Methode des<br />

Ziehens von π-verteilten Stichproben wird Markovketten Monte Carlo Methode<br />

oder MCMC (für Markov chain Monte Carlo) genannt (siehe [18, 110, 115]).


18.3 Markovketten Monte Carlo Methode 377<br />

Sei q die Übergangsmatrix einer beliebigen irreduziblen Markovkette auf E (mit<br />

q(x, y) =0für möglichst viele y ∈ E). Wir erstellen hieraus die Metropolis-Matrix<br />

(siehe [69, 112]).<br />

Definition 18.19. Wir definieren eine stochastische Matrix p auf E durch<br />

⎧ �<br />

⎪⎨ q(x, y)min 1,<br />

p(x, y) =<br />

⎪⎩<br />

π(y)q(y,x)<br />

�<br />

π(x)q(x,y) , falls x �= y, q(x, y) > 0,<br />

0, falls x �= y, q(x, y) =0,<br />

1 − �<br />

z�=x p(x, z), falls x = y.<br />

p heißt Metropolis-Matrix zu q und π.<br />

Man sieht direkt, dass p reversibel ist, dass also für alle x, y ∈ E gilt<br />

π(x) p(x, y) =π(y) p(y, x). (18.12)<br />

Speziell ist π invariant (Nachrechnen!). Wir erhalten sofort den folgenden Satz.<br />

Satz 18.20. Ist q irreduzibel, so ist die Metropolis-Matrix p zu q und π irreduzibel<br />

mit eindeutiger Gleichgewichtsverteilung π. Ist zudem q aperiodisch, oder π nicht<br />

die Gleichverteilung auf E,soistp aperiodisch.<br />

Zur Simulation einer Kette X, die gegen π konvergiert, können wir nun, ausgehend<br />

von einer Referenzkette, die Übergänge nach q macht, den Metropolis-<br />

Algorithmus verwenden: Schlägt die Kette mit Übergangsmatrix q einen Übergang<br />

vom aktuellen Zustand x nach y vor, so akzeptieren wir diesen Vorschlag mit Wahrscheinlichkeit<br />

π(y)q(y, x)<br />

∧ 1.<br />

π(x)q(x, y)<br />

Ansonsten bleiben wir in x stehen.<br />

In der Definition von p taucht π nur in der Form des Quotienten π(y)/π(x) auf. In<br />

vielen Fällen von Interesse ist dieser Quotient relativ leicht berechenbar, auch wenn<br />

π(x) und π(y) selber nicht leicht zu bestimmen sind. Wir wollen dies an einem<br />

Beispiel erläutern.<br />

Beispiel 18.21 (Ising Modell). Das Ising Modell ist ein thermodynamisches (und<br />

quantenmechanisches) Modell für Ferromagnetismus in Kristallen, das von folgenden<br />

Annahmen ausgeht:<br />

– Atome sitzen auf den Punkten des Gitters Λ (zum Beispiel Λ = {0,...,N−1} 2 ),<br />

– jedes Atom i ∈ Λ hat ein magnetisches Moment (Spin): x(i) ∈{−1, 1}, das<br />

entweder nach oben zeigt (x(i) =+1) oder nach unten (x(i) =−1),<br />

– benachbarte Atome wechselwirken miteinander,


378 18 Konvergenz von Markovketten<br />

– auf Grund thermischer Schwankungen ist der Zustand des Systems zufällig und<br />

verteilt nach der so genannten Boltzmann-Verteilung π auf dem Zustandsraum<br />

≥ 0.<br />

E := {−1, 1} Λ ,abhängig von der inversen Temperatur β = 1<br />

T<br />

Wir definieren die lokale Energiefunktion, die das Energieniveau eines Atoms in<br />

i ∈ Λ als Funktion des Zustands x des Gesamtsystems angibt<br />

H i (x) = 1<br />

2<br />

�<br />

j∈Λ: i∼j<br />

{x(i)�=x(j)}.<br />

Hierbei bedeutet i ∼ j, dassi und j Nachbarn sind in Λ (damit meinen wir koordinatenweise<br />

mod N, wir sprechen auch von periodischen Randbedingungen). Die<br />

Gesamtenergie (oder Hamiltonfunktion) des Systems im Zustand x ist die Summe<br />

der Einzelenergien,<br />

H(x) = �<br />

H i (x) = �<br />

i∈Λ<br />

i∼j<br />

{x(i)�=x(j)}.<br />

Die Boltzmann-Verteilung π auf E := {−1, 1} Λ zur inversen Temperatur β ≥ 0<br />

wird definiert durch<br />

π(x) =Z −1<br />

β exp(−βH(x)),<br />

wobei die Zustandssumme Zβ = �<br />

exp(−βH(x)) (oder Partitionsfunktion)<br />

x∈E<br />

die Normierungskonstante ist, die π zu einem W-Maß macht.<br />

Makroskopisch beobachtbar ist nicht jeder einzelne Spin, sondern nur die mittlere<br />

Magnetisierung, die sich als Betrag des Mittelwerts der einzelnen Spins ergibt<br />

mΛ(β) = �<br />

�<br />

�<br />

�<br />

� 1 � �<br />

�<br />

π(x) � x(i) �<br />

�#Λ<br />

� .<br />

x∈E<br />

Wenn wir sehr große Systeme betrachten, sind wir nahe am so genannten thermodynamischen<br />

Limes<br />

m(β) := lim mΛ(β).<br />

Λ↑Zd Man kann mit einem Konturargument, ähnlich wie bei der Perkolation, zeigen (siehe<br />

[119]), dass (für d ≥ 2) eine Zahl βc = βc(d) ∈ (0, ∞) existiert, mit<br />

�<br />

> 0, falls β>βc,<br />

m(β)<br />

(18.13)<br />

=0, falls β


1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

Magnetisierung<br />

18.3 Markovketten Monte Carlo Methode 379<br />

0<br />

0.84 0.85 0.86 0.87 0.88<br />

Inverse Temperatur<br />

0.89 0.9 0.91 0.92<br />

Abb. 18.4. Magnetisierungskurve im Ising-Modell auf einem 1000 × 1000-Gitter, per Computersimulation<br />

berechnet. Die senkrechte Linie markiert die kritische Temperatur.<br />

sind die Stoffe magnetisch, oberhalb sind sie es nicht. Dabei nimmt der Magnetisierungsgrad<br />

bei fallender Temperatur noch zu. Das Ising-Modell, das wir jetzt untersuchen,<br />

soll (zumindest in Computer-Simulationen) diesen Effekt einer kritischen<br />

Temperatur nachbilden.<br />

Wir definieren den Zustand xi,σ , bei dem an der Stelle i der Spin σ ∈{−1, +1}<br />

eingesetzt wird<br />

x i,σ �<br />

σ, falls j = i,<br />

(j) =<br />

x(j), falls j �= i.<br />

Außerdem definieren wir den Zustand x i , bei dem der Spin in i umgedreht wird<br />

x i := x i,−x(i) . Als vorschlagende Kette, oder Referenzkette, wählen wir nun eine<br />

Kette mit Übergangswahrscheinlichkeiten<br />

q(x, y) =<br />

�<br />

1<br />

#Λ , falls y = xi für ein i ∈ Λ,<br />

0, sonst.<br />

In Worten: Wir suchen einen Punkt i ∈ Λ zufällig (uniform verteilt) aus und drehen<br />

den Spin an dieser Stelle um. Offenbar ist q irreduzibel.<br />

Der Metropolis-Algorithmus zu dieser Kette akzeptiert den Vorschlag der Referenzkette<br />

sicher, falls π(x i ) ≥ π(x). Andernfalls wird der Vorschlag mit Wahrscheinlichkeit<br />

π(x i )/π(x) akzeptiert. Nun ist aber


380 18 Konvergenz von Markovketten<br />

Abb. 18.5. Gleichgewichte des Ising-Modells für ein 800 × 800 Gitter. (schwarzer Punkt =<br />

spin +1) Links: kälter als die kritische Temperatur (β >βc), rechts: wärmer.<br />

Abb. 18.6. Ising-Modell (150 × 150 Gitter) unterhalb der kritischen Temperatur. Die Computersimulation<br />

zeigt auch nach langer Laufzeit noch nicht das Gleichgewicht, sondern metastabile<br />

Zustände, in denen man die Weiss’schen Bezirke gut sehen kann.<br />

H(x i ) − H(x) = �<br />

j: j∼i<br />

j: j∼i<br />

{x(j)�=−x(i)} − �<br />

j: j∼i<br />

= −2 �<br />

�<br />

{x(j)�=x(i)} − 1<br />

�<br />

.<br />

2<br />

{x(j)�=x(i)}<br />

Also ist π(xi )/π(x) =exp � − 2β � �<br />

j∼i {x(j)=x(i)} − 1<br />

��<br />

2 , und dieser Ausdruck<br />

ist leicht zu berechnen, da er nur von den 2d Nachbarspins abhängt und zudem die<br />

Kenntnis von Zβ nicht benötigt. Wir erhalten also als Metropolis-Übergangsmatrix


18.3 Markovketten Monte Carlo Methode 381<br />

⎧ � �<br />

1<br />

⎪⎨ #Λ 1 ∧ exp 2β<br />

p(x, y)=<br />

⎪⎩<br />

�<br />

( {x(j)�=x(i)}−<br />

j: j∼i<br />

1<br />

2 )<br />

��<br />

, falls y = xi für ein i ∈ Λ,<br />

1 − �<br />

i∈Λ p(x, xi ), falls x = y,<br />

0, sonst.<br />

Praktisch wird man diese Kette simulieren, indem man sich unabhängige Zufallsvariablen<br />

I1,I2,... und U1,U2,... verschafft mit In ∼UΛ und Un ∼U [0,1]. Man<br />

setzt nun<br />

Fn(x) =<br />

� �<br />

In x , falls Un ≤ exp 2β �<br />

j: j∼i ( {x(j)�=x(i)} − 1<br />

2 )<br />

�<br />

,<br />

x, sonst,<br />

und definiert die Markovkette (Xn)n∈N durch Xn = Fn(Xn−1) für n ∈ N. ✸<br />

Gibbs-Sampler<br />

Wir betrachten eine Situation, in der, wie im obigen Beispiel, ein Zustand aus vielen<br />

Komponenten x =(xi)i∈Λ ∈ E besteht, wobei Λ eine endliche Menge ist. Alternativ<br />

zur Metropolis-Kette betrachten wir ein weiteres Verfahren, um eine Markovkette<br />

mit gegebener invarianter Verteilung herzustellen. Beim so genannten Gibbs-<br />

Sampler oder heat bath algorithm ist die Idee, den Zustand lokal an die stationäre<br />

Verteilung anzupassen. Ist x der momentane Zustand, dann verfährt man wie folgt.<br />

Für i ∈ Λ setze<br />

x−i := {y ∈ E : y(j) =x(j) für j �= i}.<br />

Definition 18.22 (Gibbs-Sampler). Sei q ∈M1(Λ) mit q(i) > 0 für jedes i ∈ Λ.<br />

Die Übergangsmatrix p auf E mit<br />

�<br />

qi<br />

p(x, y) =<br />

π(xi,σ )<br />

π(x−i) , falls y = xi,σ für ein i ∈ Λ,<br />

0, sonst.<br />

heißt Gibbs-Sampler zur invarianten Verteilung π.<br />

In Worten verfährt eine nach p konstruierte Kette in jedem Schritt wie folgt:<br />

(1) Wähle eine Komponente I gemäß einer Verteilung (qi)i∈Λ.<br />

(2) Ersetze in x durch x I,σ mit Wahrscheinlichkeit π(x I,σ )/π(x−I).<br />

Falls I = i ist, dann hat der neue Zustand also die Verteilung L(X|X−i = x−i),<br />

wobei X eine Zufallsvariable mit Verteilung π bezeichnet. Man beachte, dass man<br />

auch beim Gibbs-Sampler die Verteilung π nur bis auf die Normierungskonstante<br />

zu kennen braucht (in einem etwas allgemeineren Rahmen lassen sich der Gibbs-<br />

Sampler und der Metropolis Algorithmus als Spezialfälle ein und desselben Verfahren<br />

auffassen). Für Zustände x und y, die sich nur in der i-ten Komponente unterscheiden,<br />

gilt (wegen x−i = y−i)


382 18 Konvergenz von Markovketten<br />

π(x) p(x, y) =π(x) qi<br />

π(y)<br />

π(x)<br />

= π(y) qi = π(y) p(y, x).<br />

π(x−i) π(y−i)<br />

Der Gibbs-Sampler beschreibt also eine reversible Markovkette mit Gleichgewicht<br />

π. Die Irreduzibilität des Gibbs-Samplers ist von Fall zu Fall zu klären.<br />

Beispiel 18.23 (Ising Modell). Im oben beschriebenen Ising-Modell ist x−i =<br />

{x i,−1 ,x i,+1 }. Daher ist für i ∈ Λ und σ ∈{−1, +1}<br />

π(x i,σ� � x−i) =<br />

π(x i,σ )<br />

π({x i,−1 ,x i,+1 })<br />

e −βH(xi,σ )<br />

=<br />

e−βH(xi,−1 ) + e−βH(xi,+1 )<br />

� �<br />

= 1+expβ<br />

� H(x i,σ ) − H(x i,−σ ) ���−1 � �<br />

= 1+exp2β<br />

�<br />

j: j∼i ( {x(j)�=σ} − 1<br />

2 )<br />

�� −1<br />

Der Gibbs-Sampler des Ising-Modells ist also die Markovkette (Xn)n∈N0 mit Werten<br />

in E = {−1, 1} Λ und mit Übergangsmatrix<br />

⎧ � �<br />

⎨ 1<br />

#Λ 1+exp 2β<br />

p(x, y)=<br />

⎩<br />

�<br />

( {x(j)�=x(i)}−<br />

j: j∼i<br />

1<br />

2 )<br />

��−1 , falls y = xi für ein i ∈ Λ,<br />

0, sonst.<br />

✸<br />

Perfekte Simulation<br />

Die bislang betrachtete MCMC Methode baut auf dem Prinzip Hoffnung: Wir lassen<br />

die Kette lange laufen und hoffen, dass sie sich in einem Zustand nahe dem<br />

Gleichgewicht befindet. Selbst wenn wir die Konvergenzgeschwindigkeit bestimmen<br />

können (und das ist oft nicht ganz leicht – wir kommen dazu in Abschnitt 18.4),<br />

werden wir doch nie einen Zustand bekommen, der exakt wie das Gleichgewicht<br />

verteilt ist.<br />

Tatsächlich ist es, zumindest theoretisch, möglich, ein der MCMC Methode verwandtes<br />

Verfahren anzugeben, das perfektes Ziehen von Stichproben nach der Verteilung<br />

π ermöglicht, sogar, wenn wir über die Konvergenzgeschwindigkeit gar<br />

nichts wissen. Hierzu nehmen wir an, dass F1,F2,... u.i.v. zufällige Abbildungen<br />

E → E sind mit P[F (x) =y] =p(x, y) für alle x, y ∈ E. Wir hatten gesehen,<br />

dass wir die Markovkette X mit Start in x durch Xn = Fn ◦ Fn−1 ◦···◦F1(x)<br />

konstruieren können.<br />

Nun gilt F n 1 (x) :=F1◦ ...◦ Fn(x) D = Fn ◦ ...◦ F1(x). Also gilt P[F n 1 (x) =<br />

y] n→∞<br />

−→ π(y) für jedes y. Ist nun aber F n 1 die konstante Abbildung, etwa F n 1 ≡ x∗ .


18.4 Konvergenzgeschwindigkeit 383<br />

(für ein zufälliges x ∗ ), so ist auch F m 1 ≡ x ∗ für jedes m ≥ n. Wenn man also<br />

durch geschickte Wahl der Verteilung der Fn erreichen kann, dass die Stoppzeit<br />

T := inf{n ∈ N : F n 1 ist konstant} fast sicher endlich ist (und das geht immer), so<br />

ist P[F T 1 (x) =y] =π(y) für alle x, y ∈ E. Ein einfacher Algorithmus für dieses<br />

Verfahren sieht so aus:<br />

(1) Setze F ← idE und n ← 0.<br />

(2) Setze n ← n +1. Erzeuge Fn und setze F ← F ◦ Fn.<br />

(3) Falls F nicht die konstante Abbildung ist, gehe zu (2).<br />

(4) Ausgabe F (∗).<br />

Dieses Verfahren wird Kopplung aus der Vergangenheit (coupling from the past)<br />

genannt und geht auf Propp und Wilson [130] zurück (siehe auch [54, 55, 158, 129,<br />

131, 91]). Interessante Simulationen sowie ein Forschungsüberblick finden sich im<br />

Internet unter http://www.dbwilson.com/.<br />

Praktisch ergeben sich zwei Probleme: Es muss die komplette Abbildung Fn erzeugt<br />

und mit F verknüpft werden. Die Rechenzeit dafür ist mindestens von der<br />

Ordnung der Größe des Raums E. Außerdem erfordert das Prüfen von F auf Konstanz<br />

einen Rechenaufwand von gleicher Größenordnung. Das Verfahren lässt sich<br />

effektiv nur durchführen, wenn man mehr Struktur zur Verfügung hat, etwa, wenn<br />

E eine Halbordnung mit einem kleinsten Element 0 und einem größten Element 1<br />

besitzt (wie beim Ising-Modell) und man die Abbildungen Fn so wählen kann, dass<br />

sie fast sicher monoton wachsend sind. In diesem Fall braucht man immer nur F (0)<br />

und F (1) zu berechnen, und F ist konstant, falls F (0) =F (1).<br />

18.4 Konvergenzgeschwindigkeit<br />

Bei den bisherigen Betrachtungen ist die Frage nach der Geschwindigkeit der Konvergenz<br />

der Verteilung PXn gegen π ignoriert worden. Für praktische Anwendungen<br />

ist aber dies genau die wichtigste Frage. Wir wollen hier nicht auf die Details<br />

eingehen, sondern das Thema nur kurz anreißen. Ohne Einschränkung sei<br />

E = {1,...,N}. Istpreversibel (Gleichung (18.12)), so wird durch f ↦→ pf ein<br />

symmetrischer linearer Operator auf L2 (E,π) definiert (Übung!). Alle Eigenwerte<br />

λ1,...,λN (mit Mehrfachnennung je nach Vielfachheit) sind reell und dem Betrage<br />

nach nicht größer als 1, dapstochastisch ist. Wir können also die Eigenwerte dem<br />

Betrage nach ordnen: λ1 =1≥|λ2| ≥... ≥|λN |. Istpirreduzibel und aperiodisch,<br />

so ist |λ2| < 1. Seiμ1 = π, μ2,...,μN eine Orthonormalbasis aus Links-<br />

Eigenvektoren zu den Eigenwerten λ1,...,λN .Für jedes μ = α1μ1 + ...+ αN μN<br />

ist dann μpn = �N i=1 λni αi μi, also<br />

�μp n − π�TV ≤ C|λ2| n<br />

(18.14)


384 18 Konvergenz von Markovketten<br />

für eine Konstante C (die nicht einmal von μ abhängt). Eine ähnliche Formel gilt<br />

für den Fall, wo p nicht reversibel ist, wobei Korrekturterme der Ordnung maximal<br />

n V −1 auftreten. Dabei ist V die Größe des größten Jordan-Kästchens zum Eigenwert<br />

λ2 in der Jordan’schen Normalform von p, speziell also höchstens die Vielfachheit<br />

des betragsmäßig zweitgrößten Eigenwertes.<br />

Die Konvergenzgeschwindkeit ist also exponentiell mit einer Rate, die durch die<br />

Spektrallücke 1 −|λ2| zum zweitgrößten Eigenwert von p bestimmt ist. Die analytische<br />

Bestimmung der Spektrallücke ist für große Räume E häufig extrem schwer.<br />

Beispiel 18.24. Sei r ∈ (0, 1) und N ∈ N, N ≥ 2,sowieE = {0,...,N− 1}.Wir<br />

betrachten die Übergangsmatrix<br />

⎧<br />

⎨ r, falls j = i +1(modN),<br />

p(i, j) = 1 − r,<br />

⎩<br />

0,<br />

falls j = i − 1(modN),<br />

sonst.<br />

p ist die Übergangsmatrix der einfachen (asymmetrischen) Irrfahrt auf dem diskreten<br />

Torus Z/(N), die mit Wahrscheinlichkeit r einen Schritt nach rechts springt, mit<br />

Wahrscheinlichkeit 1 − r hingegen einen Schritt nach links springt. Offenbar ist p<br />

irreduzibel, und p ist genau dann aperiodisch, wenn N ungerade ist. Offensichtlich<br />

ist die Gleichverteilung UE die eindeutige invariante Verteilung.<br />

Fall 1: N ungerade. Man prüft leicht nach, dass p die Eigenwerte<br />

λk := rθk +(1− r) θk =cos � 2πk<br />

N<br />

� +(2r − 1) i sin � 2πk<br />

N<br />

� , k =0,...,N − 1,<br />

hat, wobei θk = e2πi k/N , k =0,...,N − 1, dieN-ten Einheitswurzeln sind, und<br />

die zugehörigen (Rechts-) Eigenvektoren<br />

x k := � θ 0 k,θ 1 k,...,θ N−1�<br />

k .<br />

Die Beträge der Eigenwerte bekommen wir durch |λk| = f(2πk/N), wobei<br />

f(ϑ) = � 1 − 4r(1 − r)sin(ϑ) 2 für ϑ ∈ R.<br />

Da N ungerade ist, ist |λk| maximal (außer für k =0)für k = N−1<br />

2 und k = N+1<br />

2<br />

mit dem Wert γ := � 1 − 4r(1 − r)sin(π/N) 2 . Da die Eigenwerte alle unterschiedlich<br />

sind, hat jeder Eigenwert die Vielfachheit 1, und es gibt ein C < ∞<br />

mit<br />

für alle n ∈ N, μ∈M1(E).<br />

�μp n −UE�TV ≤ Cγ n<br />

Fall 2: N gerade. In diesem Fall ist p nicht aperiodisch, nichtsdestoweniger haben<br />

die Eigenwerte und Eigenvektoren die selbe Gestalt wie im ersten Fall. Um eine<br />

aperiodische Kette zu erhalten, bilden wir für ε>0 die Übergangsmatrix<br />

pε := (1 − ε)p + εI,


18.4 Konvergenzgeschwindigkeit 385<br />

wo I die Einheitsmatrix auf E ist. pε beschreibt die Irrfahrt auf E, die mit Wahrscheinlichkeit<br />

ε am Ort stehen bleibt und mit Wahrscheinlichkeit 1−ε einen Sprung<br />

gemäß p macht. Offenbar ist pε irreduzibel und aperiodisch. Die Eigenwerte sind<br />

λε,k =(1− ε)λk + ε, k =0,...,N − 1,<br />

mit zugehörigen Eigenvektoren x k wie oben. Offenbar ist λε,0 =1, und λ ε,N/2 =<br />

2ε − 1 ist der betragsmäßig zweitgrößte Eigenwerte, falls ε>0 sehr klein ist. Für<br />

größere ε ist |λε,1| > |λ ε,N/2|. Genauer gilt: Setzen wir<br />

ε0 :=<br />

(1 − (2r − 1) 2 )sin(2π/N) 2<br />

(1 − (2r − 1) 2 )sin(2π/N) 2 + 2 cos(2π/N) ,<br />

so ist der Betrag γε des betragsmäßig zweitgrößten Eigenwertes<br />

und<br />

γε = |λε,1|<br />

=<br />

� �(1 − ε)cos � 2π<br />

N<br />

γε = |λ ε,N/2| =1− 2ε, falls ε ≤ ε0,<br />

� �2 � � ��<br />

2π 2<br />

+ ε + (1 − ε)(2r − 1) sin N<br />

falls ε ≥ ε0.<br />

Es ist nicht schwer zu zeigen, dass ε ↦→ |λε,N/2| monoton fallend ist und ε ↦→ |λε,1|<br />

monoton wachsend. Daher ist γε minimal für ε = ε0.<br />

Es gibt also ein C


386 18 Konvergenz von Markovketten<br />

wobei m(μ) = � pN(x) μ(dx) ist, und die Wahrscheinlichkeit pN (x), dass die in x<br />

gestartete Kette N trifft, gegeben ist durch<br />

⎧<br />

⎪⎨<br />

1 −<br />

pN (x) =<br />

⎪⎩<br />

� �<br />

1−r x<br />

r<br />

1 − � � , falls r �=<br />

1−r N<br />

r<br />

1<br />

2 ,<br />

x<br />

1<br />

, falls r =<br />

N 2 .<br />

Wie schnell geht nun die Konvergenz in (18.15)? Auch hier ist die Konvergenz<br />

exponentiell schnell, und die Rate wird wieder durch den zweitgrößten Eigenwert<br />

von p bestimmt.<br />

Wir wollen nun also das Spektrum von p bestimmen. Klar sind x0 =(1, 0,...,0)<br />

und xN =(0,...,0, 1) Links-Eigenvektoren zum Eigenwert 1. Damit nun x =<br />

(x0,...,xN ) ein Links-Eigenvektor zum Eigenwert λ ist, müssen die folgenden<br />

Gleichungen erfüllt sein:<br />

und<br />

λxk = rxk−1 +(1− r)xk+1 für k =2,...,N − 2, (18.16)<br />

λxN−1 = rxN−2. (18.17)<br />

Gelten (18.16) und (18.17) für x1,...,xN−1, so setzen wir x0 := 1−p<br />

λ−1 x1 und<br />

xN := p<br />

λ−1 xN−1 und erhalten dadurch tatsächlich xp = λx. Wir machen den<br />

Ansatz<br />

wobei<br />

λ =(1− r)ρ(θ + θ) und xk = ϱ k (θ k − θ k ) für k =1,...,N − 1,<br />

ρ = � r/(1 − r) und θ ∈ C \{−1, +1} mit |θ| =1.<br />

Es gilt also θθ =1und (1 − r)ρ k+1 = rρ k−1 . Daher ist für jedes k =2,...,N− 1<br />

λxk =(1− r) ρ k+1 (θ k − θ k )(θ + θ)<br />

=(1− r) ρ k+1� (θ k+1 − θ k+1 )+θθ (θ k−1 − θ k−1 ) �<br />

= rρ k−1 (θ k−1 − θ k−1 )+(1− r) ρ k+1 (θ k+1 − θ k+1 )<br />

= rxk−1 +(1− r) xk+1,<br />

das heißt, es gilt (18.16). Die selbe Rechnung mit k = N − 1 zeigt, dass (18.17)<br />

genau dann gilt, wenn θ N −θ N =0ist, also wenn θ 2N =1gilt. Wir erhalten also für<br />

θ die N − 1 unterschiedlichen Werte (man beachte, dass die komplex konjugierten<br />

der hier angegeben Werte zu den selben λn führen)<br />

θn = e (n/N)πi<br />

Die zugehörigen Eigenwerte sind<br />

�<br />

nπ<br />

�<br />

λn = σ cos<br />

N<br />

für n =1,...,N − 1.<br />

für n =1,...,N − 1.


Dabei ist die Varianz des einzelnen Irrfahrt-Schrittes:<br />

18.4 Konvergenzgeschwindigkeit 387<br />

σ 2 := 4r(1 − r). (18.18)<br />

Da alle Eigenwerte reell sind, sind die zugehörigen Eigenvektoren gegeben durch<br />

x n � �n/2 r<br />

�<br />

nπ<br />

�<br />

k =2<br />

sin , k =1,...,N − 1.<br />

1 − r N<br />

Für n =1und n = N − 1 ist |λn| = σ cos � �<br />

π<br />

N der betragsmäßig zweitgrößte<br />

Eigenwert. Es folgt, dass es ein C>0 gibt, sodass für jedes μ ∈M1(E) gilt<br />

μp n � �<br />

π<br />

��n ({1,...,N − 1}) ≤ C σ cos<br />

für jedes n ∈ N.<br />

N<br />

Mit anderen Worten: Die Wahrscheinlichkeit, dass das Spiel bis zur n-ten Runde<br />

noch nicht entschieden ist, ist maximal C � σ cos(π/N) �n .<br />

Ein alternativer Zugang zu den Eigenwerten geht über die Nullstellen des charakteristischen<br />

Polynoms<br />

χN(x) =det(p − xI), x ∈ R.<br />

Man sieht sofort, dass χ1(x) = (1 − x) 2 und χ2(x) = −x(1 − x) 2 gilt. Über<br />

die Entwicklungsformel der Determinante durch Streichen von Zeilen und Spalten<br />

erhalten wir die Rekursionsformel<br />

χN(x) =−xχN−1(x) − r(1 − r) χN−2(x). (18.19)<br />

Wir erhalten als Lösung (Nachrechnen!)<br />

wobei<br />

χN(x) =(−1) N−1 (σ/2) N−1 (1 − x) 2 UN−1<br />

Um(x) :=<br />

k=1<br />

�<br />

(−1) k<br />

� �<br />

m − k<br />

(2x)<br />

k<br />

m−2k<br />

⌊m/2⌋<br />

k=0<br />

� x/σ � , (18.20)<br />

das m-te Chebyshev Polynom zweiter Art bezeichnet.<br />

Für x ∈ (−σ, σ) kann man mit Hilfe der de Moivre’schen Formel zeigen, dass<br />

χN(x) =(−1) N−1 (σ/2) N−1 (1 − x) 2 sin � N arccos � x/σ ��<br />

�<br />

1 − (x/σ) 2<br />

=(1−x) 2<br />

N−1 � � �<br />

πk<br />

� �<br />

(18.21)<br />

σ cos − x .<br />

N<br />

Neben der doppelten Nullstelle 1 erhalten wir als Nullstellen<br />

σ cos � πk/N), k =1,...,N − 1. ✸


388 18 Konvergenz von Markovketten<br />

Übung 18.4.1. Man zeige (18.20). ♣<br />

Übung 18.4.2. Man zeige (18.21). ♣<br />

Übung 18.4.3. Sei ν(dx) = 2<br />

√<br />

π 1 − x2 [−1,1](x) dx. Man zeige, dass die Chebyshev<br />

Polynome zweiter Art bezüglich ν orthogonal sind:<br />

�<br />

UmUn dν = m=n. ♣<br />

⎛<br />

⎞<br />

1/2 1/3 1/6<br />

⎜<br />

⎟<br />

Übung 18.4.4. Sei E = {1, 2, 3} und p = ⎝ 1/3 1/3 1/3⎠.<br />

Man bestimme die<br />

0 3/4 1/4<br />

invariante Verteilung und die exponentielle Konvergenzrate. ♣<br />

Übung 18.4.5. Sei E = {0,...,N − 1}, r ∈ (0, 1) und<br />

⎧<br />

⎨ r, falls j = i +1(modN),<br />

p(i, j) = 1 − r,<br />

⎩<br />

0,<br />

falls j = i (mod N),<br />

sonst.<br />

Man zeige, dass p die Übergangsmatrix einer irreduziblen, aperiodischen Irrfahrt ist,<br />

bestimme die invariante Verteilung und bestimme die exponentielle Konvergenzgeschwindigkeit.<br />

♣<br />

Übung 18.4.6. Sei N ∈ N und E = {0, 1} N der N-dimensionale Hyperkubus, das<br />

heißt, zwei Punkte x, y ∈ E sind genau dann durch eine Kante verbunden, wenn sie<br />

sich in genau einer Koordinate unterscheiden. Sei p die Übergangsmatrix der Irrfahrt<br />

auf E, die mit Wahrscheinlichkeit ε>0 am Ort bleibt, mit Wahrscheinlichkeit 1−ε<br />

hingegen zu einem (uniform gewählten) zufälligen Nachbarpunkt springt.<br />

Man beschreibe p formal, zeige dass p aperiodisch und irreduzibel ist, und bestimme<br />

die invariante Verteilung sowie die exponentielle Konvergenzgeschwindigkeit. ♣


19 Markovketten und elektrische Netzwerke<br />

Wir betrachten eine symmetrische einfache Irrfahrt auf Z2 . Nach dem Satz von<br />

Pólya (Satz 17.39) ist diese Irrfahrt rekurrent. Was passiert aber, wenn wir eine<br />

einzelne Kante aus dem Gitter L2 von Z2 entfernen? Intuitiv sollte dies nichts an<br />

der Rekurrenz ändern. Die in Kapitel 17.5 verwendeten Rechnungen sind allerdings<br />

in dieser Hinsicht nicht sehr robust und können hier nicht mehr zum Beweis der<br />

Rekurrenz benutzt werden. Noch unübersichtlicher wird die Situation, wenn wir die<br />

Irrfahrt auf die obere Halbebene {(x, y) : x ∈ Z,y ∈ N0} von Z2 beschränken. Wie<br />

sieht es hier mit der Rekurrenz aus? Oder wir betrachten die Situation von Kantenperkolation<br />

auf Z2 .Wirfixieren einen Parameter p ∈ [0, 1] und definieren jede<br />

Kante von L2 mit Wahrscheinlichkeit p als offen und mit Wahrscheinlichkeit 1 − p<br />

als geschlossen. Nachdem dies im ersten Schritt geschehen ist, wird die Irrfahrt auf<br />

dem zufälligen Teilgraphen der offenen Kanten betrachtet. Der Irrfahrer wählt in jedem<br />

Schritt mit gleicher Wahrscheinlichkeit eine der benachbarten offenen Kanten<br />

aus. Für p> 1<br />

2 existiert genau eine unendlich große Zusammenhangskomponente<br />

offener Kanten (Satz 2.47). Ist die Irrfahrt auf dieser (zufälligen) Komponente<br />

rekurrent oder transient?<br />

Ziel dieses Kapitels ist es, einen Zusammenhang zwischen gewissen Markovketten<br />

und elektrischen Netzwerken herzustellen, der<br />

– es in manchen Fällen erlaubt, zwischen Rekurrenz und Transienz anhand von<br />

leicht berechenbaren Größen zu entscheiden,<br />

– in anderen Fällen ein Vergleichskriterium bietet, das besagt, dass eine Irrfahrt auf<br />

einem Teilgraphen rekurrent ist, wenn die Irrfahrt auf dem ursprünglichen Graphen<br />

rekurrent ist. Damit lässt sich für alle oben betrachteten Irrfahrten Rekurrenz<br />

nachweisen.<br />

Dieses Kapitel lehnt sich an [109] und [36] an.<br />

19.1 Harmonische Funktionen<br />

Sei in diesem Kapitel stets E eine abzählbare Menge und X eine diskrete Markovkette<br />

auf E mit Übergangsmatrix p und Greenfunktion G.


390 19 Markovketten und elektrische Netzwerke<br />

Definition 19.1. Sei A ⊂ E. Eine Funktion f : E → R heißt harmonisch auf<br />

E \ A, falls pf(x) = �<br />

y∈E p(x, y)f(y) existiert und pf(x) =f(x) für jedes<br />

x ∈ E \ A gilt.<br />

Satz 19.2 (Superpositionsprinzip). Sind f und g harmonisch auf E \A und α, β ∈<br />

R, soistauchαf + βg harmonisch auf E \ A.<br />

Beweis. Trivial. ✷<br />

Beispiel 19.3. Sei X transient und a ∈ E ein transienter Zustand (also ein nicht<br />

absorbierender). Dann ist f(x) :=G(x, a) harmonisch auf E \{a}: Für x �= a ist<br />

∞�<br />

pf(x) =p p n ∞�<br />

(x, a) = p n (x, a) =G(x, a) − {a}(x) =G(x, a). ✸<br />

n=0<br />

n=1<br />

Beispiel 19.4. Für jedes x ∈ E sei τx := inf{n >0: Xn = x}. Für A ⊂ E sei<br />

τ := τA := inf<br />

x∈A τx<br />

die Zeit des ersten Eintritts in A. Wir nehmen an, dass A so gewählt ist, dass<br />

Px[τA < ∞] =1für jedes x ∈ E. Seig : A → R eine beschränkte Funktion.<br />

Wir definieren<br />

�<br />

g(x), falls x ∈ A,<br />

f(x) :=<br />

(19.1)<br />

Ex[g(Xτ )], falls x ∈ E \ A.<br />

Dann ist f harmonisch in E \ A. Wir geben hierfür zwei Beweise an.<br />

1. Beweis Nach der Markoveigenschaft ist für x �∈ A und y ∈ E<br />

�<br />

Ex g(Xτ ) � �X1 = y � �<br />

g(y),<br />

=<br />

Ey[g(Xτ )],<br />

�<br />

falls y ∈ A<br />

= f(y).<br />

falls y ∈ E \ A<br />

Also ist für x ∈ E \ A<br />

f(x) =Ex[g(Xτ )] = �<br />

y∈E<br />

�<br />

Ex g(Xτ ); X1 = y �<br />

= � �<br />

p(x, y) Ex g(Xτ ) � �X1 = y � = �<br />

p(x, y) f(y) =pf(x).<br />

y∈E<br />

2. Beweis Wir verändern die Markovkette, indem wir einen Zustand Δ als Falle<br />

hinzufügen. Es gelte also ˜ E = E ∪{Δ} und<br />

⎧<br />

⎪⎨<br />

p(x, y), falls x ∈ E \ A, y �= Δ,<br />

˜p(x, y) =<br />

⎪⎩<br />

0,<br />

1,<br />

falls x ∈ E \ A, y = Δ,<br />

falls x ∈ A ∪{Δ}, y= Δ.<br />

(19.2)<br />

y∈E


19.1 Harmonische Funktionen 391<br />

Die so erzeugte Markovkette ˜ X ist transient mit Δ als einzigem absorbierenden<br />

Zustand. Weiterhin ist genau dann pf = f auf E \ A, wenn˜pf = f auf E \ A ist.<br />

Wegen ˜ G(y, y) =1für y ∈ A ist (vergleiche Satz 17.34)<br />

Px[Xτ = y] =Px[˜τy < ∞] = ˜ F (x, y) = ˜ G(x, y) für alle x ∈ E \ A, y ∈ A.<br />

Nun ist x ↦→ ˜ G(x, y) harmonisch auf E \ A. Nach dem Superpositionsprinzip ist<br />

auch<br />

f(x) = �<br />

˜G(x, y) g(y) (19.3)<br />

y∈A<br />

harmonisch auf E \ A. Wegen dieser Darstellung heißt, in Analogie zur kontinuierlichen<br />

Potentialtheorie, ˜ G die Greenfunktion für die Gleichung (p − I)f =0auf<br />

E \ A. ✸<br />

Definition 19.5. Wir nennen das Gleichungssystem<br />

(p − I)f(x) =0, für x ∈ E \ A,<br />

f(x) =g(x), für x ∈ A,<br />

das zu p − I gehörige Dirichlet-Problem auf E \ A mit Randwerten g auf A.<br />

(19.4)<br />

Im Folgenden wollen wir stets annehmen, dass F (x, y) > 0 ist für jedes x ∈ E \ A<br />

und jedes y ∈ A. Speziell ist dies natürlich erfüllt, wenn X irreduzibel ist.<br />

Satz 19.6 (Maximumprinzip). Sei f eine harmonische Funktion auf E \ A. Gibt<br />

es ein x0 ∈ E \ A mit f(x0) =sup x∈E f(x), soistf konstant.<br />

Beweis. Für n ∈ N sei Gn := � x ∈ E : pn (x0,x) > 0 � . Nach Voraussetzung ist<br />

f(x0) =p n f(x0) = �<br />

p n (x0,x)f(x) ≤ f(x0),<br />

x∈Gn<br />

also f(x) =f(x0) für jedes x ∈ Gn. WegenF (x0,x) > 0 für jedes x ∈ E, ist<br />

� ∞<br />

n=1 Gn = E, also f(x) =f(x0) für jedes x ∈ E. ✷<br />

Satz 19.7 (Eindeutigkeitssatz für harmonische Funktionen). Ist E \ A endlich<br />

und sind f1 und f2 harmonisch auf E \ A und f1 = f2 auf A, dann ist f1 = f2.<br />

Mit anderen Worten: Das Dirichlet-Problem (19.4) besitzt eine eindeutige Lösung,<br />

die durch (19.3) (oder äquivalent (19.1)) gegeben ist.<br />

Beweis. Nach dem Superpositionsprinzip ist f := f1−f2 harmonisch auf E\A mit<br />

f � � ≡ 0.Istsupx∈E f(x) > 0, so gibt es ein x0 ∈ E\A mit f(x0) =supx∈E f(x).<br />

A<br />

Nach dem Maximumprinzip ist dann aber f konstant und damit f ≡ 0. ✷


392 19 Markovketten und elektrische Netzwerke<br />

Übung 19.1.1. Sei p die substochastische E × E Matrix, die durch p(x, y) =<br />

˜p(x, y), x, y ∈ E, (mit ˜p aus (19.2)) definiert wird, also p(x, y) =p(x, y) x∈E\A,<br />

und sei I die Einheitsmatrix auf E. Man zeige:<br />

(i) I − p ist invertierbar.<br />

(ii) Setzen wir G := (I − p) −1 ,soistG(x, y) = ˜ G(x, y) für alle x, y ∈ E \ A und<br />

G(x, y) = {x=y}, falls x ∈ A. Speziell ist<br />

G(x, y) =Px[XτA = y] für x ∈ E \ A und y ∈ A. ♣<br />

19.2 Reversible Markovketten<br />

Definition 19.8. Die Markovkette X heißt reversibel bezüglich des Maßes π, falls<br />

π({x}) p(x, y) =π({y}) p(y, x) für alle x, y ∈ E. (19.5)<br />

Die Gleichung (19.5) heißt auch die Gleichung der detaillierten Balance (detailed<br />

balance).<br />

X heißt reversibel, falls es ein π gibt, bezüglich dessen X reversibel ist.<br />

Bemerkung 19.9. Ist X reversibel bezüglich π, dannistπ ein invariantes Maß für<br />

X,denn<br />

πp({x}) = �<br />

π({y}) p(y, x) = �<br />

π({x}) p(x, y) =π({x}).<br />

y∈E<br />

Nach Bemerkung 17.50 ist π daher bis auf konstante Vielfache eindeutig. ✸<br />

Beispiel 19.10. Sei (E,K) ein Graph mit Eckenmenge (oder Menge der Knoten) E<br />

und Kantenmenge K (siehe Seite 64). Mit 〈x, y〉 = 〈y, x〉 ∈K bezeichnen wir eine<br />

(ungerichtete) Kante, die x und y verbindet. Sei C := (C(x, y), x,y∈ E) eine<br />

Familie von Gewichten mit C(x, y) =C(y, x) ≥ 0 für alle x, y ∈ E und<br />

C(x) := �<br />

C(x, y) < ∞ für jedes x ∈ E.<br />

y∈E<br />

Setzen wir p(x, y) := C(x,y)<br />

C(x) für alle x, y ∈ E, soistX reversibel bezüglich<br />

π({x}) =C(x). Es gilt nämlich<br />

π({x}) p(x, y) =C(x)<br />

C(x, y)<br />

C(x)<br />

= C(y, x) =C(y)<br />

y∈E<br />

= C(x, y)<br />

C(y, x)<br />

C(y)<br />

= π({y}) p(y, x). ✸


19.3 Elektrische Netzwerke 393<br />

Definition 19.11. Seien (E,K), C und X wie in Beispiel 19.10. Dann heißt X Irrfahrt<br />

auf E mit Gewichten C. Ist speziell C(x, y) = {〈x,y〉∈K}, dann heißt X<br />

einfache Irrfahrt auf (E,K).<br />

Die Irrfahrt mit Gewichten C ist also reversibel. Es gilt aber auch die Umkehrung.<br />

Satz 19.12. Ist X eine reversible Markovkette, so ist X eine Irrfahrt auf E mit<br />

Gewichten C(x, y) =p(x, y) π({x}), falls π ein invariantes Maß ist. Da π bis auf<br />

Vielfache eindeutig ist, sind die Gewichte bis auf konstante Vielfache festgelegt.<br />

Beweis. Klar. ✷<br />

Übung 19.2.1. Man zeige: p ist genau dann reversibel bezüglich π, wenn die lineare<br />

Abbildung f ↦→ pf in L 2 (π) selbstadjungiert ist. ♣<br />

Übung 19.2.2. Sei K ∈ N und Zahlen W1,...,WK ∈ R und β>0 gegeben. Wir<br />

definieren<br />

p(i, j) := 1<br />

Z exp(−βWj) für alle i, j =1,...,K,<br />

wobei Z := �K j=1 exp(−βWj) die Normalisierungskonstante ist.<br />

In K (nummerierten) Urnen befinden sich insgesamt N ununterscheidbare Kugeln.<br />

In jedem Zeitschritt wird (uniform) eine der N Kugeln zufällig ausgesucht. Ist i<br />

die Nummer der Urne, aus der die Kugel gezogen wurde, so wird die Kugel mit<br />

Wahrscheinlichkeit p(i, j) in die Urne mit der Nummer j gelegt.<br />

(i) Man gebe eine formale Beschreibung als Markovkette an.<br />

(ii) Man bestimme den invarianten Zustand π und zeige, dass die Kette reversibel<br />

bezüglich π ist. ♣<br />

19.3 Elektrische Netzwerke<br />

Ein (endliches) elektrisches Netzwerk (E,C) ist ein (endliches) System E von<br />

Punkten, die paarweise mit Drähten der Leitfähigkeit (conductivity) C(x, y) ∈<br />

[0, ∞), x, y ∈ E verbunden sind. Wir interpretieren C(x, y) =0so, dass es ” keinen<br />

Draht zwischen x und y“ gibt. Symmetrie erfordert C(x, y) =C(y, x). Mit<br />

R(x, y) =<br />

1<br />

∈ (0, ∞]<br />

C(x, y)<br />

bezeichnen wir den Widerstand der Verbindung 〈x, y〉. Ist(E,K) ein Graph und<br />

C(x, y) = {〈x,y〉∈K}, so bezeichnen wir (E,C) als Einheitsnetzwerk auf (E,K).


394 19 Markovketten und elektrische Netzwerke<br />

Sei nun A ⊂ E. Wir legen an den Punkten x0 ∈ A jeweils elektrische Spannungen<br />

u(x0) an (zum Beispiel durch Anschluss einer oder mehrerer Batterien). Wie groß<br />

ist dann die Spannung u(x) in x ∈ E \ A?<br />

Definition 19.13. Eine Abbildung I : E × E → R heißt ein Fluss auf E \ A, falls<br />

sie antisymmetrisch ist (I(x, y) =−I(y, x)) und das Kirchhoff’sche Gesetz erfüllt:<br />

wobei<br />

I(x) =0, für x ∈ E \ A,<br />

I(A) =0,<br />

I(x) := �<br />

I(x, y) und I(A) := �<br />

I(x).<br />

y∈E<br />

x∈A<br />

(19.6)<br />

Definition 19.14. Ein Fluss I : E × E → R auf E \ A heißt elektrischer Fluss,<br />

falls es eine Funktion u : E → R gibt, bezüglich der das Ohm’sche Gesetz gilt:<br />

I(x, y) =<br />

u(x) − u(y)<br />

R(x, y)<br />

für alle x, y ∈ E, x �= y.<br />

Wir nennen dann I(x, y) die Stromstärke von x nach y und u(x) die elektrische<br />

Spannung in x.<br />

Satz 19.15. Eine elektrische Spannung u in (E,C) ist harmonisch auf E \ A:<br />

u(x) = � 1<br />

C(x, y) u(y) für jedes x ∈ E \ A.<br />

C(x)<br />

y∈E<br />

Speziell ist die elektrische Spannung durch Angabe der Werte auf A festgelegt,<br />

wenn das Netzwerk irreduzibel ist.<br />

Beweis. Nach dem Ohm’schen und dem Kirchhoff’schen Gesetz ist<br />

u(x) − � C(x, y)<br />

C(x, y)<br />

1 �<br />

u(y) =� (u(x) − u(y)) = I(x, y) =0.<br />

C(x) C(x) C(x)<br />

y∈E<br />

y∈E<br />

y∈E<br />

Nach dem Eindeutigkeitssatz für harmonische Funktionen (Satz 19.7) ist u hierdurch<br />

und durch die Werte auf A eindeutig festgelegt. ✷<br />

Korollar 19.16. Sei X eine Markovkette auf E mit Kantengewichten C. Dann ist<br />

u(x) =Ex[u(XτA )].<br />

Betrachte A = {x0,x1}, x0 �= x1, und u(x0) =0, u(x1) =1.DannistI(x1) der<br />

gesamte Stromfluss in das Netzwerk und −I(x0) der gesamte Stromfluss aus dem<br />

Netzwerk. Das Kirchhoff’sche Gesetz besagt, dass der Stromfluss divergenzfrei ist,


19.3 Elektrische Netzwerke 395<br />

und dass in Summe genauso viel Strom rein- wie rausfließt. Mit anderen Worten<br />

eben I(x0)+I(x1) =0.<br />

In Anlehnung an das Ohm’sche Gesetz definieren wir den effektiven Widerstand<br />

zwischen x0 und x1 durch<br />

Reff(x0 ↔ x1) = u(x1) − u(x0)<br />

I(x1)<br />

= 1 1<br />

= −<br />

I(x1) I(x0)<br />

1<br />

und die effektive Leitfähigkeit durch Ceff(x0 ↔ x1) = Reff (x0↔x1) .DaI und u<br />

eindeutig durch die Angabe von x0, x1 und C festgelegt sind, sind Ceff(x0 ↔ x1)<br />

und Reff(x0 ↔ x1) Größen, die sich aus C berechnen lassen.<br />

Wir betrachten nun zwei Mengen A0,A1 ⊂ E mit A0 ∩ A1 = ∅, A0,A1 �= ∅,<br />

und setzen u(x) =0für jedes x ∈ A0 sowie u(x) =1für jedes x ∈ A1. Sei<br />

I der zugehörige elektrische Fluss. In Analogie zu oben treffen wir die folgende<br />

Definition.<br />

Definition 19.17. Wir nennen Ceff(A0 ↔ A1) :=I(A1) die effektive Leitfähigkeit<br />

zwischen A0 und A1 und Reff(A0 ↔ A1) := 1<br />

zwischen A0 und A1.<br />

I(A1) den effektiven Widerstand<br />

Beispiel 19.18. (i) Sei E = {0, 1, 2} mit C(0, 2) = 0, und A0 = {x0} = {0},<br />

A1 = {x1} = {2}. Wir setzen u(0) = 0 und u(2) = 1. Dann ist (mit p(x, y) =<br />

C(x, y)/C(x))<br />

u(1) = 1 · p(1, 2) + 0 · p(1, 0) =<br />

Der gesamte Fluss ist<br />

I({2}) =u(1) C(0, 1) =<br />

=<br />

C(1, 2)<br />

C(1, 2) + C(1, 0) =<br />

R(1, 0)<br />

R(1, 0) + R(1, 2)<br />

Reff(1 ↔ 0)<br />

Reff(1 ↔ 0) + Reff(1 ↔ 2) .<br />

1<br />

R(0, 1) + R(1, 2) =<br />

1<br />

1 1<br />

C(0,1) + C(1,2)<br />

Entsprechend ist Reff(0 ↔ 2) = 1<br />

I({2}) = R(0, 1) + R(1, 2) und Ceff(0 ↔ 2) =<br />

�<br />

1<br />

C(0,1)<br />

+ 1<br />

C(1,2)<br />

� −1.<br />

(ii) (Reihenschaltung) Sei n ∈ N, n ≥ 2 und E = {0,...,n} mit Leitfähigkeiten<br />

C(k − 1,k) > 0 und C(k, l) =0, falls |k − l| > 1. Wie in (i) bekommen wir für<br />

k ∈{1,...,n− 1}<br />

Reff(0 ↔ k)<br />

u(k) =<br />

Reff(0 ↔ k)+Reff(k ↔ n) .<br />

Induktiv (in n) erhalten wir also<br />

.


396 19 Markovketten und elektrische Netzwerke<br />

n−1 �<br />

Reff(0 ↔ n) = R(k, k +1).<br />

k=0<br />

Wir erhalten so eine Aussage über die Ruinwahrscheinlichkeit der korrespondierenden<br />

Markovkette X auf {0,...,n} durch<br />

Pk[τn


x =0<br />

0<br />

u(0)=0<br />

R<br />

R<br />

R<br />

R<br />

R<br />

R<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

19.3 Elektrische Netzwerke 397<br />

x =1<br />

1<br />

u(6)=1<br />

Abb. 19.2. Parallelschaltung von sechs Widerständen. Der effektive Gesamtwiderstand be-<br />

trägt Reff(0 ↔ 1) = (R −1<br />

1<br />

+ ...+ R−1<br />

6 )−1 .<br />

Satz 19.20 (Energieerhaltungssatz). Sei A = A0 ∪ A1, und sei I ein Fluss (das<br />

heißt eine antisymmetrische Funktion, die dem Kirchhoff’schen Gesetz genügt, nicht<br />

aber notwendigerweise dem Ohm’schen Gesetz) auf E \ A. Ferner sei w : E → R<br />

eine Funktion, die auf A0 und A1 jeweils konstant ist: w � � ≡: w0 und w<br />

A0<br />

� � ≡:<br />

A1<br />

w1. Dann gilt<br />

(w1 − w0)I(A1) = 1 �<br />

(w(x) − w(y)) I(x, y).<br />

2<br />

x,y∈E<br />

Dies ist die diskrete Version des Satzes von Gauß für (wI), wobei man beachte,<br />

dass das Kirchhoff’sche Gesetz besagt, dass I auf E \ A divergenzfrei ist.<br />

Beweis. Wir berechnen<br />

�<br />

(w(x) − w(y))I(x, y) = � �<br />

w(x) �<br />

x,y∈E<br />

x∈E<br />

y∈E<br />

= � �<br />

w(x) �<br />

x∈A<br />

y∈E<br />

Definition 19.21. Sei I ein Fluss auf E \ A.Mit<br />

�<br />

I(x, y)<br />

�<br />

I(x, y)<br />

− �<br />

y∈E<br />

− �<br />

y∈A<br />

�<br />

w(y) �<br />

x∈E<br />

�<br />

w(y) �<br />

x∈E<br />

�<br />

I(x, y)<br />

�<br />

I(x, y)<br />

= w0I(A0)+w1I(A1)−w0(−I(A0))−w1(−I(A1))<br />

=2(w1−w0)I(A1). ✷<br />

LI := L C I := 1<br />

2<br />

�<br />

x,y∈E<br />

I(x, y) 2 R(x, y)<br />

bezeichnen wir die Leistung von I im Netzwerk (E,C).


398 19 Markovketten und elektrische Netzwerke<br />

Satz 19.22 (Thomson’sches oder Dirichlet’sches Prinzip der Leistungsminimierung).<br />

Seien I,J Einheitsflüsse von A1 nach A0 (das heißt I(A1) =J(A1) =1). I<br />

sei zudem ein elektrischer Fluss (erfülle also das Ohm’sche Gesetz mit einer Spannungsfunktion<br />

u, die auf A0 und A1 jeweils konstant ist). Dann gilt<br />

LI ≤ LJ<br />

mit Gleichheit genau dann, wenn I = J ist. Speziell ist der elektrische Einheitsfluss<br />

eindeutig festgelegt.<br />

Beweis. Sei D = J − I �≡ 0 der Differenzfluss. Dann ist offenbar D(A0) =<br />

D(A1) =0. Wir erhalten<br />

�<br />

J(x, y)<br />

x,y∈E<br />

2 R(x, y)<br />

= � � �2R(x, I(x, y)+D(x, y) y)<br />

x,y∈E<br />

= � � 2 2<br />

I(x, y) + D(x, y)<br />

x,y∈E<br />

� R(x, y)+2 �<br />

I(x, y) D(x, y) R(x, y)<br />

x,y∈E<br />

= � � 2 2<br />

I(x, y) + D(x, y) � R(x, y)+2 � � �<br />

u(y) − u(x) D(x, y).<br />

x,y∈E<br />

x,y∈E<br />

Nach dem Energieerhaltungssatz ist der letzte Term<br />

2 � � �<br />

u(y) − u(x) D(x, y) =2D(A1)(u1 − u0) =0.<br />

x,y∈E<br />

Es folgt (wegen D �≡ 0)<br />

LJ = LI + 1<br />

2<br />

�<br />

x,y∈E<br />

D(x, y) 2 R(x, y) >LI. ✷<br />

Beweis (Rayleigh’sches Monotonieprinzip, Satz 19.19) Seien I und I ′ die elektrischen<br />

Einheitsflüsse von A1 nach A0 bezüglich C beziehungsweise C ′ . Nach<br />

dem Thomson’schen Prinzip, dem Energieerhaltungssatz und der Voraussetzung<br />

R(x, y) ≤ R ′ (x, y) für alle x, y ∈ E ist<br />

u(1) − u(0)<br />

Reff(A0 ↔ A1) = = u(1) − u(0)<br />

I(A1)<br />

= 1 �<br />

I(x, y)<br />

2<br />

2 R(x, y)<br />

≤ 1<br />

2<br />

x,y∈E<br />

�<br />

x,y∈E<br />

I ′ (x, y) 2 R(x, y) ≤ 1<br />

2<br />

�<br />

x,y∈E<br />

I ′ (x, y) 2 R ′ (x, y)<br />

= u ′ (1) − u ′ (0) = R ′ eff(A0 ↔ A1). ✷


19.4 Rekurrenz und Transienz<br />

19.4 Rekurrenz und Transienz 399<br />

Wir betrachten die Situation, wo E abzählbar ist und A1 = {x1} für ein x1 ∈ E.<br />

Sei X eine Irrfahrt auf E mit Gewichten C =(C(x, y), x,y∈ E), also mit Übergangswahrscheinlichkeiten<br />

p(x, y) =C(x, y)/C(x) (vergleiche Definition 19.11).<br />

Um die Ergebnisse über endliche elektrische Netzwerke aus dem letzten Abschnitt<br />

anwenden zu können, nehmen wir zudem immer an, dass A0 ⊂ E so gewählt ist,<br />

dass E \ A0 endlich ist. Es sei dann stets u = ux1,A0 die eindeutig bestimmte<br />

Spannungsfunktion auf E mit u(x1) =1und u(x) =0für jedes x ∈ A0. Nach<br />

Satz 19.7 ist u harmonisch und hat die Darstellung<br />

�<br />

ux1,A0 (x) =Ex {Xτ A0∪{x1 } =x1}<br />

�<br />

= Px [τx1


400 19 Markovketten und elektrische Netzwerke<br />

Beweis. Klar, weil<br />

Ceff(x1 ↔∞)=C(x1)inf � �<br />

pF (x1,A0) : |E \ A0| < ∞, x1�∈ A0 , (19.9)<br />

und weil pF (x1,A0) monoton fallend in A0 ist. ✷<br />

Satz 19.25. Es gilt<br />

Speziell gilt<br />

pF (x1) = 1<br />

C(x1) Ceff(x1 ↔∞). (19.10)<br />

x1 ist rekurrent ⇐⇒ Ceff(x1 ↔∞)=0 ⇐⇒ Reff(x1 ↔∞)=∞.<br />

Beweis. Sei An 0 ↓∅eine absteigende Folge mit |E \ An 0 | < ∞ und x1 �∈ An 0 für<br />

jedes n ∈ N. Setze Fn := � τAn 0 1. Der effektive Widerstand von 0 nach ∞ ist nach<br />

dem Monotonieprinzip<br />

Reff(0 ↔∞) = lim<br />

n→∞ Reff(0 ↔{−n, n})<br />

≤ lim<br />

n→∞ Reff(0 ↔ n)<br />

=<br />

∞�<br />

�<br />

1 − p<br />

n=0<br />

p<br />

� n<br />

=<br />

p<br />

< ∞. ✸<br />

2p − 1


19.4 Rekurrenz und Transienz 401<br />

Beispiel 19.28. Die symmetrische einfache Irrfahrt auf E = Z2 ist rekurrent.<br />

Hier ist wieder C(x, y) = {|x−y|=1}. SeiBn = {−n,...,n} 2 und ∂Bn =<br />

Bn \ Bn−1. Wir stellen ein Netzwerk C ′ mit größeren Leitfähigkeiten her, indem<br />

wir ringförmige Supraleiter entlang ∂B einfügen Wir ersetzen also C(x, y) durch<br />

C ′ �<br />

∞,<br />

(x, y) =<br />

C(x, y),<br />

falls x, y ∈ ∂Bn<br />

sonst.<br />

für ein n ∈ N,<br />

Abb. 19.3. Elektrisches Netzwerk auf Z 2 . Die fetten Linien stellen Supraleiter dar. Zwischen<br />

dem n-ten und dem (n +1)-ten Supraleiter sind genau 4(2n +1)Kanten.<br />

Dann ist R ′ eff (Bn ↔ B c n)=<br />

die Bn mit B c n verbinden), und daher ist<br />

1<br />

4(2n+1) (merke: 4(2n +1)ist die Anzahl der Kanten,<br />

R ′ eff(0 ↔∞)=<br />

∞�<br />

n=0<br />

1<br />

= ∞.<br />

4(2n +1)<br />

Nach dem Monotonieprinzip ist daher Reff(0 ↔∞) ≥ R ′ eff (0 ↔∞)=∞. ✸<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0


402 19 Markovketten und elektrische Netzwerke<br />

0<br />

1<br />

2 3<br />

n n+1<br />

4 Kanten 12 Kanten 20 Kanten 4*(2n+1) Kanten<br />

Abb. 19.4. Effektives Netzwerk, das aus Z 2 durch Einfügen der Supraleiter entsteht. Die<br />

Ringe der Supraleiter sind hier zu einzelnen Punkten verschmolzen.<br />

Beispiel 19.29. Sei (E,K) ein beliebiger zusammenhängender Teilgraph des quadratischen<br />

Gitters (Z 2 , L 2 ). Dann ist die einfache Irrfahrt auf (E,K) (siehe Definition<br />

19.11) rekurrent. Nach dem Monotonieprinzip ist nämlich<br />

R (E,K)<br />

eff (0 ↔∞) ≥ R (Z2 ,L 2 )<br />

eff (0 ↔∞)=∞. ✸<br />

Wir formulieren das Vorgehen in den letzten Beispielen als Satz.<br />

Satz 19.30. Seien C und C ′ Kantengewichte auf E mit C ′ (x, y) ≤ C(x, y) für<br />

alle x, y ∈ E. Ist die Markovkette X zu den Gewichten C rekurrent, so ist es auch<br />

die Markovkette X ′ zu den Gewichten C ′ .<br />

Sei speziell (E,K) ein Graph und (E ′ ,K ′ ) ein Teilgraph. Ist die einfache Irrfahrt<br />

auf (E,K) rekurrent, so ist auch die einfache Irrfahrt auf (E ′ ,K ′ ) rekurrent.<br />

Beweis. Das folgt direkt aus Satz 19.25 zusammen mit dem Rayleigh’schen Monotonieprinzip<br />

(Satz 19.19). ✷<br />

Beispiel 19.31. Die symmetrische einfache Irrfahrt auf Z3 ist transient. Zum Beweis<br />

konstruieren wir einen Teilgraphen, für den wir R ′ eff (0 ↔∞) < ∞ ausrechnen<br />

können.<br />

Skizze Wir betrachten die Menge aller unendlichen Pfade, die in 0 starten und<br />

– einen Schritt in x-Richtung, y-Richtung oder z-Richtung gehen (rechts, oben oder<br />

hinten, nicht links, unten oder vorne),<br />

– eine eventuell andere Richtung x, y oder z wählen und dann zwei Schritte in diese<br />

Richtung gehen,


19.4 Rekurrenz und Transienz 403<br />

– in der n-ten Stufe eine der Richtungen x, y oder z wählen und 2 n+1 Schritte in<br />

diese Richtung gehen.<br />

Wir bezeichnen etwa mit xyyxxxxzzzzzzzz ... den Pfad, der zunächst die x-<br />

Richtung, dann y, dannx, dannz und so fort gewählt hat. Zwei Pfade benutzen<br />

offenbar nach dem Zeitpunkt, wo sich ihre Wege trennen, keine gemeinsamen Kanten<br />

mehr. Allerdings werden manche Knoten von mehreren Pfaden getroffen.<br />

x<br />

y<br />

z<br />

zx<br />

xx<br />

xy<br />

xz<br />

zy<br />

yx<br />

yy<br />

yz<br />

zz<br />

zzz<br />

xxx<br />

xzz<br />

xyy<br />

yxx<br />

yyy<br />

yzz<br />

zyy<br />

zxx<br />

Abb. 19.5. Schema der ersten drei Schritte des Graphen von Beispiel 19.31. Links sind die<br />

tatsächlichen Kanten eingezeichnet, wobei beispielsweise xyy bedeutet, dass zunächst in<br />

Schritt in x-Richtung gemacht wurde, dann einer in y-Richtung und jetzt die weiterführende<br />

Kante in y-Richtung betrachtet wird. Rechts sind die Knoten an den Enden von xz/zx,<br />

xy/yx und yz/zy jeweils in zwei Knoten aufgelöst und mit einem ” Supraleiter“ (fette<br />

Linien) verbunden. Wenn wir die Supraleiter entfernen, so erhalten wir das Netzwerk aus<br />

Abb. 19.6, dessen effektiver Widerstand R ′ eff(0 ↔∞) nicht kleiner ist als derjenige in Z 3 .<br />

(Wird an die Wurzel die Spannung 1 und an den rechten Punkten jeweils die Spannung 0<br />

angelegt, so fließt aus Symmetriegründen durch die Supraleiter kein Strom. Das Netzwerk<br />

hier ist also sogar äquivalent zu dem in Abb. 19.6.)<br />

Wenn wir das elektrische Netzwerk mit Einheitswiderständen und Spannung 1 im<br />

Ursprung sowie Spannung 0 an allen Punkten von Pfaden nach der n-ten Stufe betrachten,<br />

so hängt aus Symmetriegründen die Spannung an jedem Knoten des Netzwerks<br />

nur vom Abstand (kürzester Weg entlang Pfaden) zum Ursprung ab. Wir erhalten<br />

also ein äquivalentes Netzwerk, wenn wir mehrfach benutzte Knoten durch<br />

entsprechend mehrere Knoten ersetzen (siehe Abb. 19.5). So erhalten wir ein Netzwerk,<br />

das eine Baumstruktur hat: jeweils nach 2 n Schritten verzweigt jeder Pfad in<br />

x<br />

y<br />

z<br />

xx<br />

xy<br />

zy<br />

zx<br />

yx<br />

yz<br />

xz<br />

yy<br />

zz<br />

xxx<br />

xzz<br />

xyy<br />

yxx<br />

yyy<br />

yzz<br />

zyy<br />

zzz<br />

zxx


404 19 Markovketten und elektrische Netzwerke<br />

drei Pfade (siehe Abb. 19.6). Die 3 n Pfade von der n-ten Generation zur (n +1)ten<br />

Generation sind disjunkte Pfade der Länge 2 n−1 .SindB(n) alle Punkte bis zur<br />

n-ten Generation, so ist<br />

�<br />

R ′ eff(0 ↔ B(n +1) c n−1<br />

)= R ′ eff(B(k) ↔ B(k) c n−1<br />

)= 2 k 3 −k .<br />

R eff (02)=5/9<br />

k=0<br />

�<br />

k=0<br />

0 1 2 3<br />

R(01)=1/3 R(12)=2/9 R(23)=4/27<br />

R (03)=19/27<br />

eff<br />

Abb. 19.6. Ein Baum als Teilgraph von Z 3 , auf dem die Irrfahrt immer noch transient ist.


Also ist R ′ eff(0 ↔∞)= 1<br />

3<br />

∞�<br />

k=0<br />

19.5 Netzwerkreduktion 405<br />

� �k 2<br />

=1< ∞. Für diesen Baum ist die Irrfahrt<br />

3<br />

transient, nach Satz 19.30 also auch für Z 3 . ✸<br />

Beispiel 19.32. Die symmetrische einfache Irrfahrt auf Z d , d ≥ 3, ist transient. Dies<br />

gilt nach Satz 19.30, weil wir Z 3 als Teilgraphen von Z d auffassen können und hier<br />

die Irrfahrt transient ist. ✸<br />

19.5 Netzwerkreduktion<br />

Beispiel 19.33. Wir betrachten die Irrfahrt auf dem Graphen aus Abb. 19.7, die in x<br />

startet und an jedem Punkt mit gleicher Wahrscheinlichkeit zu einem der Nachbarpunkte<br />

springt. Mit welcher Wahrscheinlichkeit P trifft die Kette den Punkt 1 bevor<br />

sie den Punkt 0 trifft? Wir können den Graphen als elektrisches Netzwerk auffassen<br />

0<br />

x<br />

1<br />

Abb. 19.7. Ausgangssituation<br />

mit gleichem Widerstand (etwa 1) an jeder Kante, Spannung 0 in 0 und Spannung<br />

1 in 1. Wenn wir die beiden effektiven Widerstände Reff(0 ↔ x) und Reff(x ↔ 1)<br />

kennen, erhalten wir als Spannung<br />

P = u(x) =<br />

Reff(0 ↔ x)<br />

. (19.11)<br />

Reff(0 ↔ x)+Reff(x ↔ 1)<br />

Um die effektiven Widerstände auszurechnen, wollen wir das Netzwerk schrittweise<br />

vereinfachen, bis nur noch zwei Kanten übrig sind: von 0 nach x und von x nach 1.<br />

Die erforderlichen Schritte werden im Folgenden vorgestellt und dann im Beispiel<br />

angewandt. ✸


406 19 Markovketten und elektrische Netzwerke<br />

Um ein elektrisches Netzwerk zu reduzieren, kann man vier elementare Transformationen<br />

anwenden:<br />

1. Entfernen von Schleifen Die drei Punkte ganz rechts im Graphen bilden eine<br />

Schleife, die ohne Veränderungen im Rest des Netzwerks entfernt werden kann.<br />

Insbesondere kann jede Kante entfernt werden, die 0 und 1 direkt verbindet.<br />

2. Zusammenfassen von seriellen Kannten Zwei (oder mehr) Kanten, die seriell<br />

liegen, und deren dazwischen liegende Knoten keine weiteren Verbindungen haben,<br />

können durch ein Kante ersetzt werden, deren Widerstand die Summe der einzelnen<br />

Widerstände ist (siehe Abb. 19.1).<br />

3. Zusammenfassen von parallelen Kannten Zwei (oder mehr) Kanten mit Widerständen<br />

R1,...,Rn, die die selben Knoten verbinden, können durch eine Kante<br />

mit Widerstand R =(R −1<br />

1 + ...+ R−1 n ) −1 ersetzt werden (siehe Abb. 19.2).<br />

4. Stern-Dreieck-Transformation (Siehe Übung 17.5.1) Der sternförmige Ausschnitt<br />

eines Netzwerk links in Abb. 19.8 ist äquivalent zum dreieckigen Ausschnitt<br />

rechts, wenn die Widerstände R1,R2,R3, � R1, � R2, � R3 die folgende Bedingung<br />

erfüllen<br />

wobei<br />

x1<br />

Ri ˜ Ri = δ für jedes i =1, 2, 3, (19.12)<br />

� −1<br />

δ = R1R2R3 R1 + R−1 2<br />

R1<br />

R3<br />

x3<br />

x2<br />

�<br />

+ R−1 3 =<br />

z R2<br />

x1<br />

Abb. 19.8. Stern-Dreieck-Transformation<br />

�R1 � R2 � R3<br />

�R1 + � R2 + � .<br />

R3<br />

Wir lösen nun die Aufgabe aus Beispiel 19.33 konkret. Wir nehmen an, dass anfangs<br />

jede Kante den Widerstand 1 hat. Kanten, die im Verlauf der Reduktion andere<br />

Widerstände als 1 haben, werden mit dem entsprechenden Widerstand beschriftet.<br />

�R2<br />

�R3<br />

x3<br />

�R1<br />

x2


Schritt 1. Die Schleife am rechten Rand wird entfernt.<br />

19.5 Netzwerkreduktion 407<br />

Schritt 2. Die Serien an der oberen, rechten und unteren Ecke werden durch je<br />

einen Widerstand der Größe 2 ersetzt.<br />

0<br />

x<br />

1<br />

0<br />

Abb. 19.9. Schritt 1 und 2<br />

Schritt 3. Der linke untere Knoten wird mit der Stern-Dreieck-Transformation<br />

entfernt. Hier ist R1 =1, R2 =2, R3 =1, δ =5, � R1 = δ/R1 =5, � R2 = δ/R2 =<br />

5/2 und � R3 = δ/R3 =5.<br />

Schritt 4. Die parallelen Kanten mit Widerständen R1 =5und R2 =1werden<br />

ersetzt durch eine Kante mit R =( 1<br />

5 +1)−1 = 5<br />

6 .<br />

0<br />

2<br />

x 1<br />

5/2<br />

5<br />

5<br />

2<br />

0<br />

x<br />

Abb. 19.10. Schritt 3 und 4<br />

x<br />

5/2<br />

5<br />

2<br />

2<br />

2<br />

5/6<br />

1<br />

2<br />

1<br />

2


408 19 Markovketten und elektrische Netzwerke<br />

Schritt 5. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation<br />

entfernt. Hier ist R1 =5, R2 =2, R3 = 5<br />

6 , δ =95/6, � R1 = δ/R1 =19/6,<br />

�R2 = δ/R2 =95/12 und � R3 = δ/R3 =19.<br />

Schritt 6. Die parallelen Kanten werden durch je eine Kante ersetzt mit Widerstand<br />

( 12 2<br />

95 + 5 )−1 = 19<br />

6<br />

10 beziehungsweise ( 19 +1)−1 = 19<br />

25 . Zudem wird die direkte<br />

Kante zwischen Punkt 0 und Punkt 1 entfernt.<br />

0<br />

x<br />

5/2<br />

95/12<br />

2<br />

19/6<br />

19<br />

0<br />

1<br />

x<br />

Abb. 19.11. Schritt 5 und 6<br />

19/10<br />

2<br />

19/25<br />

Schritt 7. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation<br />

entfernt. Hier ist R1 = 19<br />

10 , R2 = 19<br />

25 , R3 = 1, δ = 513<br />

125 , � R1 = δ/R1 = 54<br />

25 ,<br />

�R2 = δ/R2 = 27<br />

5 und � R3 = δ/R3 = 513<br />

125 .<br />

Schritt 8. Die parallelen Kanten werden durch je eine Kante ersetzt mit Widerstand<br />

( 5<br />

27 +1)−1 = 27<br />

25 1<br />

32 beziehungsweise ( 54 + 2 )−1 = 27<br />

26 . Zudem wird die direkte<br />

Kante zwischen Punkt 0 und Punkt 1 entfernt.<br />

0<br />

x<br />

27/5<br />

2<br />

54/25<br />

513/125<br />

0<br />

1<br />

x<br />

27/32<br />

Abb. 19.12. Schritt 7 und 8<br />

27/26<br />

Wir haben jetzt also die effektiven Widerstände Reff(0 ↔ x) = 27<br />

32 und Reff(x ↔<br />

1) = 27<br />

26 . Mit Gleichung (19.11) erhalten wir als Wahrscheinlichkeit, dass die Irrfahrt<br />

1 erreicht, bevor sie 0 erreicht:<br />

P =<br />

27<br />

32<br />

27<br />

32<br />

+ 27<br />

26<br />

= 13<br />

. ✸<br />

29<br />

1<br />

1


Alternative Lösung<br />

19.5 Netzwerkreduktion 409<br />

Wir können die Lösung des Problems aus Beispiel 19.33 auch ohne Netzwerke,<br />

alleine mit linearer Algebra angeben. Welche Lösung eleganter ist, ist wohl Geschmackssache.<br />

Zunächst stellen wir die Übergangsmatrix p der Markovkette auf<br />

(hierfür werden die Knoten des Graphen von 1 bis 12 durchnummeriert wie in<br />

Abb. 19.13). Der Startpunkt ist die 2, das ” Gewinnfeld“ ist die 3 und das ” Verlustfeld“<br />

die 5. Nun wird die Matrix p der in 3 und 5 getöteten Kette gebildet und<br />

5<br />

2<br />

9<br />

1<br />

6<br />

12<br />

3<br />

10<br />

7<br />

4<br />

11<br />

Abb. 19.13. Graph mit nummerierten Knoten<br />

G =(I − p) −1 berechnet. Nach Übung 19.1.1 (mit A = {3, 5}, x =2und y =3)<br />

ist die Wahrscheinlichkeit 3 vor 5 zu treffen P = G(2, 3) = 13<br />

29 .<br />

⎛<br />

1 1 0 2 2 0 0 0 0 0 0 0 0<br />

⎜ 1<br />

1 1<br />

⎜ 3 0 0 0 3 3 0 0 0 0 0<br />

⎜ 0 0 0 0 0 0 0 0 0 0 0<br />

⎜<br />

1 1<br />

⎜ 0 0 0 0 0 0 2 2 0 0 0<br />

⎜ 0 0 0 0 0 0 0 0 0 0 0<br />

⎜ 1 1<br />

1 1<br />

⎜ 0 4 4 0 0 0 0 0 4 4 0<br />

p := ⎜<br />

1 1<br />

1 1<br />

⎜<br />

0 0 4 4 0 0 0 0 0 4 4<br />

⎜<br />

1<br />

1<br />

⎜ 0 0 0<br />

⎜<br />

2 0 0 0 0 0 0 2<br />

⎜<br />

1 1<br />

⎜ 0 0 0 0 3 3 0 0 0 0 0<br />

⎜<br />

1 1<br />

0 0 0 0 0<br />

⎜<br />

3 3 0 0 0 0<br />

⎜<br />

1 1<br />

⎝ 0 0 0 0 0 0 2 2 0 0 0<br />

0<br />

0<br />

0<br />

0<br />

0<br />

0<br />

0<br />

0<br />

1<br />

3<br />

1<br />

3<br />

0<br />

⎞<br />

⎟<br />

⎠<br />

0 0 0 0 0 0 0 0 1<br />

2<br />

1<br />

2 0 0<br />

8


410 19 Markovketten und elektrische Netzwerke<br />

G := (I − p) −1 ⎛<br />

143<br />

⎜ 116<br />

⎜ 27<br />

⎜ 58<br />

⎜ 0<br />

⎜ 3<br />

⎜ 58<br />

⎜ 0<br />

⎜ 19<br />

= ⎜ 116<br />

⎜ 3<br />

⎜ 58<br />

⎜ 3<br />

⎜ 58<br />

⎜ 5<br />

⎜ 58<br />

⎜ 3<br />

⎜ 29<br />

⎜ 3<br />

⎝ 58<br />

81<br />

116<br />

81<br />

58<br />

0<br />

9<br />

58<br />

0<br />

57<br />

116<br />

9<br />

58<br />

9<br />

58<br />

15<br />

58<br />

9<br />

29<br />

9<br />

58<br />

21<br />

29<br />

13<br />

29<br />

1<br />

24<br />

29<br />

0<br />

18<br />

29<br />

24<br />

29<br />

24<br />

29<br />

11<br />

29<br />

19<br />

29<br />

24<br />

29<br />

3<br />

58<br />

3<br />

29<br />

0<br />

165<br />

58<br />

0<br />

15<br />

58<br />

39<br />

29<br />

68<br />

29<br />

7<br />

29<br />

20<br />

29<br />

107<br />

58<br />

8<br />

29<br />

16<br />

29<br />

0<br />

5<br />

29<br />

1<br />

11<br />

29<br />

5<br />

29<br />

5<br />

29<br />

18<br />

29<br />

10<br />

29<br />

5<br />

29<br />

19<br />

58<br />

19<br />

29<br />

0<br />

15<br />

29<br />

0<br />

95<br />

58<br />

15<br />

29<br />

15<br />

29<br />

25<br />

29<br />

30<br />

29<br />

15<br />

29<br />

3<br />

29<br />

6<br />

29<br />

0<br />

78<br />

29<br />

0<br />

15<br />

29<br />

78<br />

29<br />

78<br />

29<br />

14<br />

29<br />

40<br />

29<br />

78<br />

29<br />

3<br />

58<br />

3<br />

29<br />

0<br />

68<br />

29<br />

0<br />

15<br />

58<br />

39<br />

29<br />

97<br />

29<br />

7<br />

29<br />

20<br />

29<br />

68<br />

29<br />

15<br />

116<br />

15<br />

58<br />

0<br />

21<br />

58<br />

0<br />

75<br />

116<br />

21<br />

58<br />

21<br />

58<br />

93<br />

58<br />

21<br />

29<br />

21<br />

58<br />

9<br />

58<br />

9<br />

29<br />

0<br />

30<br />

29<br />

0<br />

45<br />

58<br />

30<br />

29<br />

30<br />

29<br />

21<br />

29<br />

60<br />

29<br />

30<br />

29<br />

3<br />

58<br />

3<br />

29<br />

0<br />

107<br />

58<br />

0<br />

15<br />

58<br />

39<br />

29<br />

68<br />

29<br />

7<br />

29<br />

20<br />

29<br />

165<br />

58<br />

11<br />

116<br />

11<br />

58<br />

0<br />

27<br />

58<br />

0<br />

55<br />

116<br />

27<br />

58<br />

27<br />

58<br />

45<br />

58<br />

27<br />

29<br />

27<br />

58<br />

11<br />

116<br />

33<br />

116<br />

15<br />

29<br />

27<br />

58<br />

Übung 19.5.1. Man zeige die Gültigkeit der Stern-Dreieck-Transformation. ♣<br />

Übung 19.5.2. Man zeige für den unten stehenden hexagonalen Graphen, dass die<br />

Wahrscheinlichkeit, von x aus startend die 1 vor der 0 zu treffen, gleich 8<br />

17 ist<br />

(i) mit der Methode der Netzwerkreduktion,<br />

(ii) mit der Methode der Matrixinversion. ♣<br />

1<br />

14<br />

29<br />

x<br />

55<br />

58<br />

27<br />

29<br />

27<br />

58<br />

135<br />

116<br />

81<br />

58<br />

0<br />

27<br />

58<br />

215<br />

116<br />

⎞<br />

⎟<br />


Übung 19.5.3. Man betrachte den Graphen aus Abb. 19.14.<br />

19.5 Netzwerkreduktion 411<br />

(i) Zeige für die effektive Leitfähigkeit zwischen den Punkten a und z, dass<br />

Ceff(a ←→ z) = √ 3.<br />

(ii) Zeige, dass die Wahrscheinlichkeit Pa[τz


412 19 Markovketten und elektrische Netzwerke<br />

19.6 Irrfahrt in zufälliger Umgebung<br />

(Vergleiche [163], [135] und [76, 77].) Wir betrachten eine Markovkette X auf<br />

Z, die in jedem Schritt entweder einen Punkt nach links oder einen Punkt nach<br />

rechts springt, jeweils mit Wahrscheinlichkeit w −<br />

i beziehungsweise w+ i , falls X<br />

in i ∈ Z ist. Es seien also w −<br />

i ∈ (0, 1) und w+ i := 1 − w −<br />

i für i ∈ Z. DannistX<br />

die Markovkette mit Übergangsmatrix<br />

⎧<br />

⎪⎨ w<br />

pw(i, j) =<br />

⎪⎩<br />

−<br />

i , falls j = i − 1,<br />

w +<br />

i , falls j = i +1,<br />

0, sonst.<br />

Um X durch die Leitfähigkeiten eines elektrischen Netzwerks zu beschreiben, setzen<br />

wir ϱi := w −<br />

i /w+ i für i ∈ Z sowie Cw(i, j) :=0 falls |i − j| �= 1 und<br />

� �i k=0<br />

Cw(i +1,i):=Cw(i, i +1) :=<br />

ϱ−1<br />

k , falls i ≥ 0,<br />

�−1 k=i ϱk, falls i


19.6 Irrfahrt in zufälliger Umgebung 413<br />

Satz 19.34. (i) Gilt R − w < ∞ oder R + w < ∞, so gilt (mit ∞<br />

∞ =1)<br />

�<br />

P0 Xn<br />

n→∞<br />

−→ −∞ � =<br />

R + w<br />

R − w + R + w<br />

�<br />

und P0 Xn<br />

(ii) Gilt R − w = ∞ und R + w = ∞, so gilt lim inf<br />

fast sicher.<br />

n→∞<br />

−→ +∞ � =<br />

R − w<br />

R − w + R + w<br />

n→∞ Xn = −∞ und lim sup Xn = ∞<br />

n→∞<br />

Beweis. (i) Ohne Einschränkung sei R − w < ∞. Der andere Fall folgt aus Symmetriegründen.<br />

Sei τN := inf � n ∈ N0 : Xn ∈{−N,N} � .DaX transient ist, ist<br />

P0[τN < ∞] =1und (wie in (19.7))<br />

�<br />

P0 XτN = −N� = Rw,eff(0 ↔ N)<br />

Rw,eff(−N ↔ N) =<br />

Es folgt, wiederum, weil X transient ist,<br />

�<br />

P0 Xn<br />

Rw,eff(0 ↔ N)<br />

Rw,eff(0 ↔−N)+Rw,eff(0 ↔ N) .<br />

n→∞<br />

−→ −∞ � = P � sup{Xn : n ∈ N0} < ∞ �<br />

= lim<br />

N→∞ P� sup{Xn : n ∈ N0}


414 19 Markovketten und elektrische Netzwerke<br />

Definition 19.35. Der Prozess X heißt heißt Irrfahrt in der zufälligen Umgebung<br />

W (random walk in random environment).<br />

Seien ϱi := W − +<br />

i /W i für i ∈ Z und R −<br />

W<br />

und R+<br />

W<br />

wie oben definiert.<br />

Satz 19.36. (i) Gilt E[log(ϱ0)] < 0,sogiltXn n→∞<br />

−→ ∞ f.s.<br />

(ii) Gilt E[log(ϱ0)] > 0,sogiltXn n→∞<br />

−→ −∞ f.s.<br />

(iii) Gilt E[log(ϱ0)] = 0,sogiltlim inf<br />

n→∞ Xn = −∞ und lim sup Xn = ∞ f.s.<br />

n→∞<br />

Beweis. (i) und (ii) Aus Symmetriegründen reicht es, (ii) zu zeigen. Sei also c :=<br />

E[log(ϱ0)] > 0. Nach dem starken Gesetz der großen Zahl gibt es ein n − 0 = n− 0 (ω)<br />

mit<br />

Es folgt<br />

1�<br />

k=−n<br />

R −<br />

W =<br />

n=1<br />

ϱ −1<br />

k =exp<br />

�<br />

−<br />

∞�<br />

1�<br />

k=−n<br />

ϱ −1<br />

k ≤<br />

1�<br />

k=−n<br />

n −<br />

0 −1<br />

�<br />

n=1<br />

Analog gibt es ein n + 0 = n+ 0 (ω) mit<br />

Es folgt<br />

R +<br />

W =<br />

∞�<br />

n�<br />

k=0<br />

n�<br />

ϱk ≥<br />

n=0 k=0<br />

ϱk >e cn/2<br />

�<br />

log(ϱi) −∞ und lim supn→∞ k=−n log(ϱ−1 k ) > −∞<br />

fast sicher, wenn E[log(ϱ0)] = 0 gilt. Wenn log(ϱ0) von endlicher Varianz ist,<br />

folgt dies aus dem Zentralen Grenzwertsatz. Im allgemeinen Fall folgt dies aus<br />

Satz 20.21. ✷


20 Ergodentheorie<br />

Gesetze der großen Zahl, zum Beispiel für u.i.v. Zufallsvariablen X1,X2,... besagen,<br />

dass n−1 �n i=1 Xi<br />

n→∞<br />

−→ E[X1] fast sicher konvergiert. Wir können also die<br />

Mittelung über die tatsächliche Realisierung vieler Zufallsvariablen mit der Mittelung<br />

über die möglichen Realisierungen eines Xi vertauschen. In der statistischen<br />

Physik spricht man von der Äquivalenz von Zeitmittel und Scharmittel, oder der Mittelung<br />

entlang einer Trajektorie (griechisch odos) des Systems gegenüber der Mittelung<br />

aller möglichen Zustände mit gleicher Energie (griechisch ergon). Hieraus<br />

leitet sich der Begriff der Ergodentheorie ab, die Gesetze der großen Zahl für Zufallsvariablen<br />

mit Abhängigkeiten, aber zeitlicher Stationarität liefert.<br />

20.1 Begriffsbildung<br />

Definition 20.1. Sei I eine unter Addition abgeschlossene Menge (die wichtigsten<br />

Beispiele für uns sind I = N0, I = N, I = Z, I = R, I =[0, ∞), I = Z d usw.).<br />

Ein stochastischer Prozess X =(Xt)t∈I heißt stationär, falls<br />

L [(Xt+s)t∈I] =L [(Xt)t∈I] für jedes s ∈ I. (20.1)<br />

Bemerkung 20.2. Ist I = N0, I = N oder I = Z, so ist (20.1) äquivalent zu<br />

L [(Xn+1)n∈I] =L [(Xn)n∈I] . ✸<br />

Beispiel 20.3. (i) Ist X =(Xt)t∈I u.i.v., so ist X stationär. Ist lediglich PXt =<br />

PX0 für jedes t ∈ I (ohne die Unabhängigkeit), so ist X im Allgemeinen nicht<br />

stationär. Beispielsweise sei I = N0 und X1 = X2 = X3 = ..., jedoch X0 �=<br />

X1 .DannistX nicht stationär.<br />

(ii) Ist X eine Markovkette mit invarianter Verteilung π ,sowie L[X0] =π,dann<br />

ist X stationär.<br />

(iii) Sind (Yn)n∈Z u.i.v. und reell, sowie c1,...,ck ∈ R, danndefiniert<br />

k�<br />

Xn := cl Yn−l<br />

l=1


416 20 Ergodentheorie<br />

einen stationären Prozess X. X heißt manchmal auch moving average oder gleitendes<br />

Mittel mit Gewichten (c1,...,ck). Eine genauere Betrachtung ergibt, dass<br />

X sogar dann stationär ist, wenn Y nur als stationär vorausgesetzt wird. ✸<br />

Lemma 20.4. Ist (Xn)n∈N0 stationär,solässt sich X zu einem stationären Prozess<br />

� �<br />

Xn<br />

�<br />

n∈Z fortsetzen.<br />

Beweis. Sei � X der kanonische Prozess auf Ω = EZ .Sei� P {−n,−n+1,...} � ∈<br />

{−n,−n+1,...} E � definiert durch<br />

M1<br />

�P {−n,−n+1,...}� � X−n ∈ A−n, � X−n+1 ∈ A−n+1,... �<br />

= P � X0 ∈ A−n,X1 ∈ A−n+1,... � .<br />

Dann ist � �<br />

P � {−n,−n+1,...} ,n ∈ N projektiv und {−n, −n +1,...} ↑ Z. Nach<br />

dem Satz von Ionescu-Tulcea (Satz 14.32) existiert der projektive Limes � P :=<br />

�P {−n,−n+1,...} . Per Konstruktion ist � X stationär bezüglich � P und<br />

lim<br />

←−<br />

n→∞<br />

�P ◦ � ( � Xn)n∈N0<br />

� −1 = P ◦ � (Xn)n∈N0<br />

� −1. ✷<br />

Im Folgenden sei stets (Ω,A, P) ein W-Raum und τ : Ω → Ω eine messbare<br />

Abbildung.<br />

Definition 20.5. Ein Ereignis A ∈ A heißt invariant, falls τ −1 (A) = A und<br />

quasi-invariant, falls τ −1 (A) = A P–f.s. Die σ-Algebra der invarianten Ereignisse<br />

bezeichnen wir mit<br />

I = � A ∈A: τ −1 (A) =A �<br />

Lemma 20.6. Eine messbare Abbildung f :(Ω,A) → (R, B(R)) ist genau dann<br />

I-messbar, wenn f ◦ τ = f ist.<br />

Beweis. Für Indikatorfunktionen f = A ist dies klar. Der allgemeine Fall folgt<br />

mit den üblichen Approximationsargumenten (siehe Satz 1.96(i)). ✷<br />

Zur Erinnerung: Eine σ-Algebra I heißt P-trivial, falls P[A] ∈{0, 1} für jedes<br />

A ∈I gilt.<br />

Definition 20.7. (i) τ heißt maßtreu, falls<br />

P � τ −1 (A) � = P[A] für jedes A ∈A.<br />

In diesem Falle heißt (Ω,A, P,τ) ein maßerhaltendes dynamisches System.<br />

(ii) Ist τ maßtreu und I P-trivial, so heißt (Ω,A, P,τ) ergodisch.


20.1 Begriffsbildung 417<br />

Beispiel 20.8. Sei n ∈ N \{1}, Ω = Z/(n), A =2 Ω und P die Gleichverteilung<br />

auf Ω.Seir ∈{1,...,n} und<br />

τ : Ω → Ω, x ↦→ x + r (mod n).<br />

Dann ist τ maßtreu. Ist d = ggT(n, r) und für i =0,...,d− 1<br />

Ai = � i, τ(i),τ 2 (i),...,τ n−1 (i) � = i + 〈r〉,<br />

so sind A0,...,Ad−1 die disjunkten Nebenklassen des Normalteilers 〈r〉 ✂ Ω.Also<br />

ist Ai ∈Ifür i =0,...,d− 1, und jedes A ∈Iist Vereinigung von gewissen Ai.<br />

Mithin gilt:<br />

(Ω,A, P,τ) ist ergodisch ⇐⇒ ggT(r, n) =1. ✸<br />

Beispiel 20.9 (Rotation). Sei Ω =[0, 1), A = B(Ω), P = λ das Lebesgue-Maß,<br />

r ∈ (0, 1) und τr(x) =x + r (mod 1).Offenbarist(Ω,A, P,τr) ein maßerhaltendes<br />

dynamisches System.<br />

Sei zunächst r rational, also r = p<br />

q für gewisse teilerfremde Zahlen p, q ∈ N. Setze<br />

A0 = � 0, 1<br />

� �q−1 2q und A = n=0 τ n r (A0). Wegenτq =idΩ, istA∈Iund P[A] = 1<br />

2 ,<br />

also ist (Ω,A, P,τr) nicht ergodisch.<br />

Sei nun r ∈ (0, 1) irrational. Offenbar gilt für jedes x ∈ [0, 1) und ε>0, dass<br />

�∞ k=1<br />

τ −k<br />

r (Bε(x)) = [0, 1), weil {x, τ −1<br />

r (x),τ −2<br />

r (x),...}⊂[0, 1) dicht ist. Also<br />

gilt für jede offene Menge V ∈ I entweder V = ∅ oder V = [0, 1). Sei nun<br />

A ∈Ibeliebig mit P[A] > 0. Nach dem Approximationssatz für Maße (Satz 1.65)<br />

existiert ein offene Menge U ⊂ A mit P[U] > 0. Setzen wir<br />

V =<br />

∞�<br />

k=−∞<br />

τ k r (U) ⊂<br />

∞�<br />

k=−∞<br />

τ k r (A) =A,<br />

so ist V offen und V ∈I, also V =[0, 1) und damit A =[0, 1).<br />

Wir haben also gezeigt:<br />

(Ω,A, P,τr) ist ergodisch ⇐⇒ r ist irrational. ✸<br />

Beispiel 20.10. Sei X =(Xn)n∈N0 ein stochastischer Prozess mit Werten in einem<br />

polnischen Raum E. Ohne Einschränkung können wir annehmen, dass X der kanonische<br />

Prozess auf dem W-Raum (Ω,A, P) = � EN0 , B(E) ⊗N0 , P � ist. Definiere<br />

den Shift<br />

τ : Ω → Ω, (ωn)n∈N0 ↦→ (ωn+1)n∈N0 .<br />

Dann ist Xn(ω) =X0(τ n (ω)).AlsoistXgenau dann stationär, wenn (Ω,A, P,τ)<br />

ein maßerhaltendes dynamisches System ist. ✸<br />

Definition 20.11. Der stochastische Prozess X (aus Beispiel 20.10) heißt ergodisch,<br />

falls (Ω,A, P,τ) ergodisch ist.


418 20 Ergodentheorie<br />

Beispiel 20.12. Seien (Xn)n∈N0 u.i.v. und Xn(ω) =X0(τ n (ω)). IstA ∈I,soist<br />

für n ∈ N<br />

A = τ −n (A) ={ω : τ n (ω) ∈ A} ∈σ(Xn,Xn+1,...).<br />

Also ist (mit T die terminale σ-Algebra von (Xn)n∈N, siehe Definition 2.34)<br />

I⊂T =<br />

∞�<br />

σ(Xn,Xn+1,...).<br />

n=1<br />

Nach dem Kolmogorov’schen 0 − 1 Gesetz (Satz 2.37) ist T P-trivial, also ist auch<br />

I P-trivial und damit (Xn)n∈N0 ergodisch. ✸<br />

Übung 20.1.1. Sei G eine endliche Gruppe von maßtreuen messbaren Abbildungen<br />

auf (Ω,A, P) und A0 := {A ∈A: g(A) =A für alle g ∈ G}.<br />

Man zeige: Für jedes X ∈L 1 (P) gilt<br />

20.2 Ergodensätze<br />

E[X |A0] = 1<br />

#G<br />

�<br />

X ◦ g. ♣<br />

In diesem Abschnitt ist stets (Ω,A, P,τ) ein maßerhaltendes dynamisches System.<br />

Ferner sei f : Ω → R messbar und<br />

g∈G<br />

Xn(ω) =f ◦ τ n (ω) für jedes n ∈ N0.<br />

Also ist X =(Xn)n∈N0 ein stationärer, reeller stochastischer Prozess. Sei<br />

�<br />

n−1<br />

Sn = Xk<br />

k=0<br />

die n-te Partialsumme. Die Ergodensätze beschäftigen sich mit Gesetzen der großen<br />

Zahl für die (Sn). Als Vorbereitung bringen wir ein Lemma.<br />

Lemma 20.13 (Hopf’sches Maximal-Ergodenlemma). Sei X0 ∈ L1 Mn =max{0,S1,...,Sn}, n∈ N. Dann gilt<br />

(P). Setze<br />

E � X0<br />

�<br />

{Mn>0} ≥ 0 für jedes n ∈ N.<br />

Beweis. Für k ≤ n ist Mn(τ(ω)) ≥ Sk(τ(ω)). Alsoist<br />

X0 + Mn ◦ τ ≥ X0 + Sk ◦ τ = Sk+1.


20.2 Ergodensätze 419<br />

Daher ist X0 ≥ Sk+1 − Mn ◦ τ für k =1,...,n. Offensichtlich ist S1 = X0 und<br />

Mn ◦ τ ≥ 0, also auch (für k =0) X0 ≥ S1 − Mn ◦ τ und damit auch<br />

Außerdem ist offenbar<br />

X0 ≥ max{S1,...,Sn}−Mn ◦ τ. (20.2)<br />

{Mn > 0} c ⊂{Mn =0}∩{Mn ◦ τ ≥ 0} ⊂{Mn − Mn ◦ τ ≤ 0}. (20.3)<br />

Aus (20.2) und (20.3) und der Maßtreue von τ folgt<br />

E � � � �<br />

X0 {Mn>0} ≥ E (max{S1,...,Sn}−Mn ◦ τ) {Mn>0}<br />

= E � �<br />

(Mn − Mn ◦ τ) {Mn>0}<br />

≥ E � Mn − Mn ◦ τ � = E[Mn] − E[Mn] = 0. ✷<br />

Satz 20.14 (Individueller Ergodensatz, Birkhoff 1931). Sei f = X0 ∈L 1 (P).<br />

Dann gilt<br />

n−1<br />

1 �<br />

n<br />

k=0<br />

�<br />

Xk = 1<br />

n−1<br />

n<br />

k=0<br />

Ist speziell τ ergodisch, so gilt 1<br />

n<br />

f ◦ τ k n→∞<br />

n−1 �<br />

Xk<br />

k=0<br />

�<br />

−→ E[X0<br />

�I] P-f.s.<br />

n→∞<br />

−→ E[X0] P-f.s.<br />

Beweis. Ist τ ergodisch, so ist E[X0 |I] = E[X0] und der Zusatz folgt aus der<br />

ersten Aussage.<br />

Wir betrachten nun den allgemeinen Fall. Nach Lemma 20.6 ist E[X0 |I] ◦ τ =<br />

E[X0 |I] P–f.s. Wir können also � Xn := Xn − E[X0 |I] betrachten und daher<br />

ohne Beschränkung der Allgemeinheit E[X0 |I]=0annehmen. Setze<br />

Z := lim sup<br />

n→∞<br />

1<br />

n Sn.<br />

Sei ε>0 und F := {Z > ε}. Zu zeigen ist, dass P[F ]=0gilt. Hieraus folgt<br />

1<br />

dann P[Z >0]=0und analog mit −X auch lim inf<br />

n→∞ nSn ≥ 0 fast sicher, also<br />

1<br />

nSn n→∞<br />

−→ 0 f.s.<br />

Offenbar ist Z ◦ τ = Z, also F ∈I. Setze<br />

X ε n := (Xn − ε) F , S ε n := X ε 0 + ...+ X ε n−1,<br />

M ε n := max{0,S ε 1,...,S ε n}, Fn := {M ε n > 0}.


420 20 Ergodentheorie<br />

Dann ist F1 ⊂ F2 ⊂ ... und<br />

∞�<br />

n=1<br />

Fn =<br />

�<br />

1<br />

sup<br />

k∈N k Sε k > 0<br />

�<br />

=<br />

�<br />

1<br />

sup<br />

k∈N k Sk<br />

�<br />

>ε ∩ F = F,<br />

also Fn ↑ F . Majorisierte Konvergenz liefert E [Xε n→∞<br />

0 Fn ] −→ E [Xε 0].<br />

Nach dem Maximal-Ergodenlemma (angewandt auf Xε )istE [Xε 0 Fn ] ≥ 0, also<br />

0 ≤ E [X ε 0]=E [(X0 − ε) F ]=E [E [X0 |I] F ] − εP[F ]=−εP[F ].<br />

Mithin ist P[F ]=0. ✷<br />

Als Folgerung erhält man den statistischen Ergodensatz oder L p -Ergodensatz, den<br />

von Neumann 1931 vor Birkhoff gefunden hat. Zur Vorbereitung bringen wir ein<br />

elementares Lemma.<br />

Lemma 20.15. Sei p ≥ 1, und seien X0,X1,... identisch verteilte, reelle Zufallsvariablen<br />

mit E[|X0| p � n−1<br />

� � �<br />

�<br />

] < ∞. Setzen wir Yn :=<br />

für n ∈ N, soist<br />

(Yn)n∈N gleichgradig integrierbar.<br />

� 1<br />

n<br />

Xk�<br />

k=0<br />

p<br />

Beweis. Offenbar ist die einelementige Familie {|X0| p } gleichgradig integrierbar.<br />

Nach Satz 6.19 existiert also eine monoton wachsende, konvexe Abbildung<br />

f :[0, ∞) → [0, ∞) mit f(x)<br />

x →∞für x →∞und C := E[f(|X0| p )] < ∞. Nach<br />

Satz 6.19 reicht es wiederum zu zeigen, dass E[f(Yn)] ≤ C für jedes n ∈ N. Nach<br />

der Jensen’schen Ungleichung (für x ↦→ |x| p )ist<br />

Yn ≤ 1<br />

n−1<br />

n<br />

k=0<br />

�<br />

|Xk| p .<br />

Die Jensen’sche Ungleichung (diesmal auf f angewandt) liefert dann<br />

�<br />

n−1<br />

1 �<br />

f(Yn) ≤ f |Xk|<br />

n<br />

p<br />

�<br />

≤ 1<br />

n−1 �<br />

f(|Xk|<br />

n<br />

p ),<br />

k=0<br />

also E[f(Yn)] ≤ 1<br />

n−1 �<br />

n E[f(|Xk| p )] = C. ✷<br />

k=0<br />

Satz 20.16 (L p -Ergodensatz, von Neumann 1931). Sei (Ω,A, P,τ) ein maßerhaltendes<br />

dynamisches System, p ≥ 1, X0 ∈L p (P) und Xn = X0 ◦ τ n . Dann<br />

gilt<br />

n−1<br />

1 �<br />

n<br />

Xk<br />

k=0<br />

Ist speziell τ ergodisch, so gilt 1<br />

n<br />

k=0<br />

n→∞<br />

−→ E[X0 |I] in L p (P).<br />

n−1 �<br />

Xk<br />

k=0<br />

n→∞<br />

−→ E[X0] in L p (P).


Beweis. Setze<br />

Yn :=<br />

�<br />

�<br />

� n−1<br />

� 1 �<br />

�<br />

�<br />

� Xk − E[X0 |I] �<br />

�n<br />

�<br />

k=0<br />

p<br />

für jedes n ∈ N.<br />

20.3 Beispiele 421<br />

Nach Lemma 20.15 ist (Yn)n∈N gleichgradig integrierbar, und nach dem Birkhoff’schen<br />

Ergodensatz gilt Yn<br />

lim<br />

n→∞<br />

n→∞<br />

−→ 0 fast sicher. Nach Satz 6.25 gilt daher<br />

E[Yn] =0.<br />

Ist τ ergodisch, so ist E[X0 |I]=E[X0]. ✷<br />

20.3 Beispiele<br />

Beispiel 20.17. Sei (X, (Px)x∈E) eine positiv rekurrente, irreduzible Markovkette<br />

auf dem abzählbaren Raum E mit invarianter Verteilung π.Dannistπ({x}) > 0 für<br />

jedes x ∈ E. Setze Pπ = �<br />

x∈E π({x})Px. DannistXstationär auf (Ω,A, Pπ).<br />

Wir schreiben τ für den Shift, also Xn = X0 ◦ τ n .<br />

∞�<br />

Sei nun A ∈ I invariant. Dann ist A ∈ T = σ(Xn,Xn+1,...). Nach der<br />

starken Markoveigenschaft ist daher für jede endliche Stoppzeit σ (mit Fσ die σ-<br />

Algebra der σ-Vergangenheit)<br />

n=1<br />

Pπ[X ∈ A � �Fσ] =PXσ [X ∈ A]. (20.4)<br />

In der Tat ist {X ∈ A} = {X ∈ τ −n (A)} = {(Xn,Xn+1,...) ∈ A}. Für B ∈Fσ<br />

erhalten wir mit der Markoveigenschaft (in der dritten Zeile)<br />

� �<br />

Eπ {X∈B} {X∈A} =<br />

=<br />

=<br />

∞� �<br />

n=0 x∈E<br />

∞� �<br />

n=0 x∈E<br />

∞� �<br />

n=0 x∈E<br />

�<br />

Pπ X ∈ B, σ = n, Xn = x, X ∈ A �<br />

�<br />

Pπ X ∈ B, σ = n, Xn = x, X ◦ τ n ∈ A �<br />

�<br />

Pπ X ∈ B, σ = n, Xn = x � Px[X ∈ A]<br />

�<br />

= Eπ {X∈B} PXσ [X ∈ A]� .<br />

Ist speziell x ∈ E und σx =inf{n ∈ N0 : Xn = x}, soistσx < ∞, weil X<br />

rekurrent und irreduzibel ist. Es folgt aus (20.4) für jedes x ∈ E<br />

Pπ[X ∈ A] =Eπ [Px[X ∈ A]] = Px[X ∈ A].<br />

Also ist PXn [X ∈ A] =Pπ[X ∈ A] fast sicher und daher (mit σ = n in (20.4))


422 20 Ergodentheorie<br />

Pπ[X ∈ A � �X0,...,Xn] =PXn [X ∈ A] =Pπ[X ∈ A].<br />

Nun ist A ∈I⊂σ(X1,X2,...), also<br />

Pπ[X ∈ A � �X0,...,Xn] n→∞<br />

−→ Pπ[X ∈ A � �σ(X0,X1,...)] = {X∈A}.<br />

Damit folgt Pπ[X ∈ A] ∈{0, 1}. Mithin ist X ergodisch.<br />

Der Birkhoff’sche Ergodensatz liefert also für jedes x ∈ E<br />

n−1<br />

1 �<br />

n<br />

k=0<br />

{Xk=x}<br />

n→∞<br />

−→ π({x}) Pπ − f.s.<br />

In diesem Sinne ist π({x}) die mittlere Aufenthaltsdauer von X in x. ✸<br />

Beispiel 20.18. Es seien P und Q W-Maße auf dem Messraum (Ω,A), und es seien<br />

(Ω,A,P,τ) und (Ω,A,Q,τ) ergodisch. dann ist P = Q oder P ⊥ Q. Ist<br />

nämlich P �= Q, dann existiert f mit |f| ≤1 und � fdP �= � fdQ. Nach dem<br />

Birkhoff’schen Ergodensatz gilt aber<br />

⎧ �<br />

n−1<br />

1 �<br />

n<br />

k=0<br />

� n−1<br />

f ◦ τ k n→∞<br />

−→<br />

⎪⎨ fdP P–f.s.,<br />

�<br />

⎪⎩ fdQ Q–f.s.<br />

Setzen wir A := � 1<br />

k n→∞<br />

n k=0 f ◦ τ −→ � fdP � ,soistP (A) =1und Q(A) =0.<br />

Also ist P ⊥ Q. ✸<br />

Übung 20.3.1. Sei (Ω,A) ein Messraum und τ : Ω → Ω eine messbare Abbildung.<br />

(i) Man zeige, dass die Menge M := {μ ∈M1(Ω) : μ ◦ τ −1 = μ} der unter τ<br />

invarianten Maße eine konvexe Menge ist.<br />

(ii) Ein Element μ aus M heißt extremal, wenn aus μ = λμ1 +(1− λ)μ2 für<br />

gewisse μ1,μ2 ∈Mund λ ∈ (0, 1) schon μ = μ1 = μ2 folgt. Man zeige,<br />

dass μ ∈Mgenau dann extremal ist, wenn τ bezüglich μ ergodisch ist. ♣<br />

Übung 20.3.2. Sei p =2, 3, 5, 6, 7, 10,...quadratfrei (das heißt, es gibt keine Zahl<br />

r =2, 3, 4,..., deren Quadrat ein Teiler von p ist) und q ∈{2, 3,...,p− 1}. Für<br />

jedes n ∈ N sei an die führende Ziffer der p-adischen Entwicklung von q n .<br />

Man zeige die folgende Variante des Benford’schen Gesetzes: Für jedes d ∈<br />

{1,...,p− 1} gilt<br />

1<br />

n #�i ≤ n : ai = d � n→∞<br />

−→<br />

log(d +1)−log(d) . ♣<br />

log(p)


20.4 Anwendung: Rekurrenz von Irrfahrten<br />

20.4 Anwendung: Rekurrenz von Irrfahrten 423<br />

Sei (Xn)n∈N ein stationärer Prozess mit Werten in R d . Setze Sn := � n<br />

k=1 Xk für<br />

jedes n ∈ N0. Ferner sei<br />

Rn = � �{S1,...,Sn} � �<br />

die Anzahl der von S bis zur Zeit n besuchten Punkte (der so genannte Range).<br />

Außerdem sei A := {Sn �= 0für jedes n ∈ N} das ” Fluchtereignis“.<br />

Satz 20.19. Es gilt lim<br />

n→∞<br />

1<br />

n Rn = P[A|I] fast sicher.<br />

Beweis. Wir nehmen an, dass X der kanonische Prozess ist auf (Ω,A, P) =<br />

� (R d ) N , B(R d ) ⊗N , P � , und dass τ : Ω → Ω der Shift ist, also Xn = X0 ◦ τ n .<br />

Offenbar ist<br />

Rn =# � k ≤ n : Sl �= Sk für jedes l ∈{k +1,...,n} �<br />

≥ # � k ≤ n : Sl �= Sk für jedes l>k �<br />

=<br />

n�<br />

k=1<br />

A ◦ τ k .<br />

Der Birkhoff’sche Ergodensatz liefert nun<br />

lim inf<br />

n→∞<br />

1<br />

n Rn ≥ P[A|I] f.s. (20.5)<br />

Für die andere Ungleichung betrachte Am = {Sl �= 0für jedes l =1,...,m}.<br />

Dann ist für n ≥ m<br />

Rn ≤ m +# � k ≤ n − m : Sl �= Sk für jedes l ∈{k +1,...,n} �<br />

≤ m +# � k ≤ n − m : Sl �= Sk für jedes l ∈{k +1,...,k+ m} �<br />

n−m �<br />

= m +<br />

k=1<br />

Am ◦ τ k .<br />

Der Ergodensatz liefert wieder<br />

lim sup<br />

n→∞<br />

1<br />

n Rn<br />

�<br />

≤ P[Am<br />

�I] f.s. (20.6)<br />

Wegen Am ↓ A und P[Am<br />

�<br />

�I] n→∞<br />

−→ P[A|I] fast sicher (nach Satz 8.14(viii)) folgt<br />

aus (20.5) und (20.6) die Aussage. ✷


424 20 Ergodentheorie<br />

Satz 20.20. Sei X = (Xn)n∈N � ein stationärer Prozess mit Werten in Z und<br />

E[|X1|] < ∞ sowie E[X1<br />

�I]=0f.s. Sei Sn = X1 + ...+ Xn, n ∈ N. Dann<br />

gilt<br />

P � Sn =0 für unendlich viele n ∈ N � =1.<br />

Speziell ist jede Irrfahrt auf Z mit zentrierten Zuwächsen rekurrent (Satz von<br />

Chung-Fuchs [28]).<br />

Beweis. Setze A = {Sn �= 0für jedes n ∈ N}.<br />

1. Schritt Wir zeigen P[A] =0. (Ist X u.i.v., so ist S eine Markovkette, und<br />

es folgt hieraus direkt die Rekurrenz von 0. Nur für den allgemeinen Fall stationärer<br />

Prozesse X brauchen wir einen weiteren Schritt.) Nach dem Ergodensatz<br />

gilt 1<br />

nSn n→∞ �<br />

−→ E[X1 �I] =0f.s. Es folgt für jedes m ∈ N<br />

�<br />

1<br />

lim sup<br />

n→∞ n max<br />

� �<br />

� �<br />

�Sk�<br />

1<br />

= lim sup<br />

k=1,...,n<br />

n→∞ n max<br />

�<br />

� �<br />

�Sk�<br />

k=m,...,n<br />

Also ist<br />

|Sk|<br />

≤ max<br />

k≥m k<br />

m→∞<br />

−→ 0.<br />

�<br />

1<br />

lim<br />

n→∞ n max<br />

k=1,...,n Sk<br />

� �<br />

1<br />

= lim<br />

n→∞ n min<br />

k=1,...,n Sk<br />

�<br />

=0.<br />

�<br />

Nun ist Rn ≤ 1+<br />

Satz 20.19 ist dann P[A] =0<br />

max<br />

k=1,...,n Sk<br />

� �<br />

−<br />

min<br />

k=1,...,n Sk<br />

�<br />

,also 1<br />

n Rn<br />

n→∞<br />

−→ 0. Nach<br />

2. Schritt Setze σn := inf{m ∈ N : Sm+n = Sn} und Bn := {σn < ∞} für<br />

∞�<br />

n ∈ N0 und B := Bn.<br />

n=0<br />

Wegen {σ0 = ∞} = A ist P[σ0 < ∞] =1. Stationarität impliziert P[σn < ∞] =<br />

1 für jedes n ∈ N0, also P[B] =1.<br />

Setze τ0 =0und iterativ τn+1 = τn + στn für n ∈ N0. Dannistτnder Zeitpunkt<br />

der n-ten Rückkehr von S nach 0.AufBist τn < ∞ für jedes n ∈ N0, also<br />

P � Sn =0 unendlich oft � = P � τn < ∞ für alle n ∈ N � ≥ P[B] =1. ✷<br />

Wenn in Satz 20.20 die Zufallsvariablen Xn nicht ganzzahlig sind, kann man nicht<br />

hoffen, dass Sn =0für irgendein n ∈ N mit positiver Wahrscheinlichkeit gilt. Andererseits<br />

gilt auch hier eine Art Rekurrenzeigenschaft, nämlich Sn/n n→∞<br />

−→ 0 fast<br />

sicher nach dem Ergodensatz. Damit ist allerdings noch nicht ausgeschlossen, dass<br />

n→∞<br />

vielleicht Sn −→ ∞ mit positiver Wahrscheinlichkeit gelten könnte, etwa, wenn


20.4 Anwendung: Rekurrenz von Irrfahrten 425<br />

Sn von der Größenordnung √ n wächst. Der nächste Satz zeigt uns, dass der Partialsummenprozess<br />

nur linear schnell nach ∞ gehen kann, wenn die Xn integrierbar<br />

sind.<br />

Satz 20.21. Sei (Xn)n∈N ein reeller ergodischer Prozess und jedes Xn integrierbar.<br />

Sei Sn = X1 +...+Xn für n ∈ N0. Dann sind die folgenden Aussagen äquivalent.<br />

n→∞<br />

(i) Sn −→ ∞ fast sicher.<br />

�<br />

�<br />

n→∞<br />

(ii) P −→ ∞ > 0.<br />

Sn<br />

Sn<br />

(iii) lim<br />

n→∞ n = E[X1] > 0 fast sicher.<br />

Sind die Zufallsvariablen X1,X2,...u.i.v. mit E[X1] =0und P[X1 =0]< 1, so<br />

gilt lim infn→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher.<br />

Beweis. (i) ⇐⇒ (ii)“ Offenbar ist {Sn<br />

”<br />

also Wahrscheinlichkeit 0 oder 1.<br />

n→∞<br />

−→ ∞} ein invariantes Ereignis, hat<br />

” (iii) =⇒ (i)“ Dies ist trivial.<br />

” (i) =⇒ (iii)“ Die Gleichheit folgt aus dem individuellen Ergodensatz. Es reicht<br />

also zu zeigen, dass lim infn→∞ Sn/n > 0 fast sicher gilt.<br />

Für n ∈ N0 und ε>0 sei<br />

A ε n := � Sm >Sn + ε für alle m ≥ n +1 � .<br />

Sei S− := inf{Sn : n ∈ N0}. Nach Voraussetzung (i) ist S− > −∞ fast sicher<br />

und τ := sup{n ∈ N0 : Sn = S− } fast sicher endlich. Es gibt also ein N ∈ N mit<br />

P[τ 0.<br />

ergodisch. Nach dem individuellen<br />

Da (Xn)n∈N ergodisch ist, ist auch � Aε n n∈N0<br />

Ergodensatz gilt daher 1 �n−1 n i=0 Aε n→∞<br />

n<br />

−→ p fast sicher. Also existiert ein n0 =<br />

n0(ω) mit �n−1 i=0 Aε pn<br />

≥ n 2 für alle n ≥ n0. Es folgt Sn ≥ pnε<br />

2 für n ≥ n0, also<br />

lim infn→∞ Sn/n ≥ pnε<br />

2 > 0.<br />

Der Zusatz folgt, weil lim inf Sn und lim sup Sn keinen endlichen Wert annehmen<br />

können und damit terminal messbar sind, also fast sicher konstant gleich −∞ oder<br />

+∞. Nach dem schon Gezeigten ist aber Sn<br />

n→∞<br />

−→ ∞ ausgeschlossen, also gilt<br />

lim infn→∞ Sn = −∞. Analog folgt lim supn→∞ Sn = ∞. ✷<br />

Bemerkung 20.22. Satz 20.21 gilt auch ohne die Integrierbarkeitsbedingung für die<br />

Xn. Siehe [92]. ✸


426 20 Ergodentheorie<br />

20.5 Mischung<br />

Ergodizität stellt einen relativ schwachen Begriff für Unabhängigkeit“ oder Durch-<br />

” ”<br />

mischung“ dar. Auf dem anderen Ende der Skala steht als stärkster Begriff u.i.v.“.<br />

”<br />

Hier wollen wir dazwischen liegende Mischungsbegriffe betrachten.<br />

Sei im Folgenden stets (Ω,A, P,τ) ein maßerhaltendes dynamisches System und<br />

Xn := X0 ◦ τ n . Wir beginnen mit einer einfachen Betrachtung.<br />

Satz 20.23. (Ω,A, P,τ) ist genau dann ergodisch, wenn für alle A, B ∈Agilt<br />

lim<br />

n→∞<br />

n−1<br />

1 �<br />

n<br />

k=0<br />

Beweis. ” =⇒ “ Sei (Ω,A, P,τ) ergodisch. Setze<br />

Yn := 1<br />

n−1 �<br />

n<br />

k=0<br />

P � A ∩ τ −k (B) � = P[A] P[B]. (20.7)<br />

τ −k (B) = 1<br />

n−1 �<br />

n<br />

k=0<br />

n→∞<br />

B ◦ τ k .<br />

Nach dem Birkhoff’schen Ergodensatz gilt Yn −→ P[B] fast sicher. Also gilt<br />

n→∞<br />

−→ A P[B] fast sicher. Majorisierte Konvergenz liefert<br />

Yn A<br />

n−1<br />

1 �<br />

P<br />

n<br />

� A ∩ τ −k (B) � = E [Yn A] n→∞<br />

−→ E [ A P[B]] = P[A] P[B].<br />

k=0<br />

” ⇐= “ Gelte nun (20.7). Sei A ∈I(invariante σ-Algebra) und B = A. Offenbar<br />

ist A ∩ τ −k (A) =A für jedes k ∈ N0. Also ist nach (20.7)<br />

P[A] = 1<br />

n−1 �<br />

P<br />

n<br />

� A ∩ τ −k (A) � n→∞<br />

−→ P[A] 2 .<br />

k=0<br />

Mithin ist P[A] ∈{0, 1}, also I trivial und damit τ ergodisch. ✷<br />

Wir betrachten jetzt folgende Verschärfung von (20.7).<br />

Definition 20.24. Ein maßerhaltendes dynamisches System (Ω,A, P,τ) heißt mischend,<br />

falls<br />

lim<br />

n→∞ P � A ∩ τ −n (B) � = P[A] P[B] für alle A, B ∈A. (20.8)<br />

Bemerkung 20.25. Gelegentlich wird die Mischungseigenschaft (20.8) auch als<br />

stark mischend bezeichnet. Im Gegensatz dazu heißt (Ω,A, P,τ) schwach mischend,<br />

falls


1<br />

lim<br />

n→∞ n<br />

20.5 Mischung 427<br />

n−1 � � � � �<br />

� −n<br />

P A ∩ τ (B) − P[A] P[B] � =0 für alle A, B ∈A. ✸<br />

i=0<br />

” Stark mischend“ impliziert schwach mischend“ (siehe Übung 20.5.1). Anderer-<br />

”<br />

seits gibt es schwach mischende Systeme, die nicht stark mischend sind (siehe [82]).<br />

Beispiel 20.26. Sei I = N0 oder I = Z und (Xn)n∈I eine u.i.v. Folge mit Werten<br />

im Messraum (E,E), also τ der Shift auf dem Produktraum Ω = EI , P =<br />

(PX0 )⊗I . Seien A, B ∈E⊗I . Zu jedem ε>0 gibt es Ereignisse Aε und Bε , die nur<br />

von endlich vielen Koordinaten abhängen und mit P[A△Aε ]


428 20 Ergodentheorie<br />

Beweis. (i) Dies haben wir schon in Beispiel 20.17 gezeigt.<br />

(ii) Da X irreduzibel ist, ist π({x}) > 0 für jedes x ∈ E nach Satz 17.51.<br />

” =⇒ “ Sei X periodisch mit Periode d ≥ 2. Istn∈ N kein Vielfaches von d, so<br />

ist pn (x, x) =0. Mithin gilt für A = B = {X0 = x}<br />

lim inf<br />

n→∞ Pπ[X0 = x, Xn = x] = lim inf<br />

n→∞ π({x}) pn (x, x)<br />

Also ist X nicht mischend.<br />

=0�= π({x}) 2 = Pπ[X0 = x] 2 .<br />

” ⇐= “ Sei X aperiodisch. Zur Vereinfachung der Notation können wir annehmen,<br />

dass X der kanonische Prozess auf EN0 ist. Seien A, B ⊂ Ω = EN0 messbar.<br />

Zu jedem ε > 0 existiert ein N ∈ N und Ãε ∈ E {0,...,N} , sodass, mit<br />

Aε = Ãε × E {N+1,N+2,...} gilt, dass P[A △ Aε ]


21 Die Brown’sche Bewegung<br />

In Beispiel 14.45 hatten wir einen (kanonischen) Prozess (Xt) t∈[0,∞) hergestellt mit<br />

unabhängigen, stationären, normalverteilten Zuwächsen. Ein solcher Prozess kann<br />

beispielsweise als Modell eines Flimmerteilchens in einer Suspension dienen oder<br />

als Grundlage für Aktienkursmodelle. Jetzt sind wir nicht nur an den Eigenschaften<br />

von X zu einem oder mehreren festen Zeitpunkten interessiert, sondern auch an Eigenschaften,<br />

die den ganzen Pfad t ↦→ Xt betreffen, beispielsweise am Funktional<br />

F (X) :=sup t∈[0,1] Xt. Ist aber F überhaupt eine Zufallsvariable?<br />

Wir werden in diesem Kapitel Stetigkeitseigenschaften von Pfaden stochastischer<br />

Prozesse untersuchen, die die Messbarkeit von interessanten Funktionalen sichern.<br />

Danach konstruieren wir eine Version von X, die stetige Pfade hat, die so genannte<br />

Brown’sche Bewegung. Ohne Übertreibung kann man sagen, dass dies das zentrale<br />

Objekt der <strong>Wahrscheinlichkeitstheorie</strong> ist.<br />

21.1 Stetige Modifikationen<br />

Die Pfade eines kanonischen Prozesses sind natürlich nicht per se stetig, da ja jede<br />

Abbildung als Pfad auftaucht. Es wird also wichtig sein zu entscheiden, welche<br />

Pfade zumindest P-fast sicher keine Rolle spielen.<br />

Definition 21.1 (Modifikation / ununterscheidbare Prozesse). Seien X und Y<br />

stochastische Prozesse auf (Ω,A, P) mit Zeitbereich I und Zustandsraum E.<br />

(i) X und Y heißen Modifikationen oder Versionen voneinander, falls für jedes<br />

t ∈ I gilt<br />

P-fast sicher.<br />

Xt = Yt<br />

(ii) X und Y heißen ununterscheidbar, falls es ein N ∈Agibt mit P[N] =0und<br />

{Xt �= Yt} ⊂N für jedes t ∈ I.<br />

Offenbar ist ” ununterscheidbar“ stärker als ” Modifikation“. Unter gewissen Stetigkeitsannahmen<br />

an die Prozesse fallen die Begriffe allerdings zusammen.


430 21 Die Brown’sche Bewegung<br />

Definition 21.2. Seien (E,d) und (E ′ ,d ′ ) metrische Räume und γ ∈ (0, 1]. Eine<br />

Abbildung ϕ : E → E ′ heißt im Punkte r ∈ E Hölder-stetig der Ordnung γ (kurz:<br />

Hölder-γ-stetig), falls es ein ε>0 und ein C 0 gibt, sodass für alle s, r ∈ E mit d(s, t) 0, und gilt für ein ε>0 und<br />

ein C(ε) < ∞, sowie für alle s, t ∈ I mit |t − s| ≤ε<br />

|f(t) − f(s)| ≤C(ε) |t − s| γ ,<br />

so ist f Hölder-stetig der Ordnung γ mit Konstante C := C(ε) ⌈T/ε⌉ 1−γ .<br />

Beweis. (i) Klar, weil |t − s| γ ≤|t− s| γ′ für alle s, t ∈ I mit |t − s| ≤1.<br />

(ii) Für t ∈ I und ε>0 sei Uε(t) :={s ∈ I : |s − t| 0 und C(t) < ∞ so gewählt, dass<br />

|f(r) − f(s)| ≤C(t) ·|r − s| γ<br />

für alle r, s ∈ Ut := U ε(t)(t).<br />

Zu der offenen Überdeckung U := {Ut, t ∈ I} von I gibt es eine endliche<br />

Teilüberdeckung U ′ = {Ut1 ,...,Utn }.Seiϱ > 0 eine Lebesgue’sche Zahl der<br />

Überdeckung U ′ , das heißt, ϱ>0 ist so gewählt, dass für jedes t ∈ I ein U ∈ U<br />

existiert mit Uϱ(t) ⊂ U. Setze<br />

C := max � C(t1),...,C(tn), 2�f�∞ϱ γ� .


21.1 Stetige Modifikationen 431<br />

Für s, t ∈ I mit |t − s| < ϱ gibt es ein i ∈ {1,...,n} mit s, t ∈ Uti . Nach<br />

Voraussetzung ist |f(t) − f(s)| ≤C(ti) |t − s| γ ≤ C |t − s| γ . Seien nun s, t ∈ I<br />

mit |s − t| ≥ϱ. Dannist<br />

�γ �<br />

|t − s|<br />

|f(t) − f(s)| ≤2�f�∞<br />

ϱ<br />

≤ C |t − s| γ .<br />

Also ist f Hölder-stetig von der Ordnung γ mit Konstante C.<br />

(iii) Sei n = � T<br />

ε<br />

� .Für s, t ∈ I gilt nach Voraussetzung |t−s|<br />

n<br />

≤ ε und daher<br />

|f(t) − f(s)| ≤<br />

n�<br />

�<br />

�<br />

�<br />

�<br />

k=1<br />

f<br />

�<br />

s +(t− s) k<br />

� �<br />

��<br />

k − 1 ���<br />

− f s +(t− s)<br />

n<br />

n<br />

≤ C(ε) n 1−γ |t − s| γ = C |t − s| γ . ✷<br />

Definition 21.4 (Pfadeigenschaften). Sei I ⊂ R und X =(Xt,t ∈ I) ein reellwertiger<br />

stochastischer Prozess auf einem W-Raum (Ω,A, P) mit Werten in einem<br />

metrischen Raum (E,d) sowie γ ∈ (0, 1]. Für jedes ω ∈ Ω nennen wir die Abbildung<br />

I → E, t ↦→ Xt(ω) einen Pfad von X.<br />

Wir sagen, dass X fast sicher stetige Pfade hat, oder kurz, dass X f.s. stetig ist, falls<br />

für fast jedes ω ∈ Ω der Pfad t ↦→ Xt(ω) stetig ist. Analog definieren wir lokal<br />

Hölder-γ-stetige Pfade und so weiter.<br />

Lemma 21.5. Seien X und Y Modifikationen voneinander. Es gelte eine der Bedingungen<br />

(i) I ist abzählbar.<br />

(ii) I ⊂ R ist ein Intervall und X und Y sind fast sicher rechtsstetig.<br />

Dann sind X und Y ununterscheidbar.<br />

Beweis. Setze Nt := {Xt �= Yt} für t ∈ I und ¯ N = �<br />

t∈I Nt. Nach Voraussetzung<br />

gilt P[Nt] =0für jedes t ∈ I. Zu zeigen ist jeweils: Es existiert N ∈Amit ¯ N ⊂ N<br />

und P[N] =0.<br />

(i) Ist I abzählbar, so ist N := ¯ N messbar und P[N] ≤ �<br />

t∈I P[Nt] =0.<br />

(ii) Sei nun I ⊂ R ein Intervall, und seien X und Y fast sicher rechtsstetig. Setze<br />

¯R := {X und Y sind rechtsstetig}<br />

und wähle R ∈Amit R ⊂ ¯ R und P[R] =1. Setze<br />

�<br />

�I<br />

Q ∩ I, falls I rechtsseitig offen ist,<br />

:=<br />

(Q ∩ I) ∪ max I, falls I rechtsseitig abgeschlossen ist,


432 21 Die Brown’sche Bewegung<br />

und � N := �<br />

r∈� I Nr. Nach (i) gilt P[ � N]=0. Weiter gilt für jedes t ∈ I<br />

Nt ∩ R ⊂ �<br />

(Nr ∩ R) ⊂ � N.<br />

Also gilt<br />

¯N ⊂ R c ∪ �<br />

r≥t, r∈ � I<br />

t∈I<br />

Nt ⊂ R c ∪ � N =: N,<br />

und damit P[N] ≤ P[R c ]+P[ � N]=0. ✷<br />

Wir kommen zum Hauptsatz dieses Abschnitts.<br />

Satz 21.6 (Kolmogorov-Chentsov). Sei X =(Xt, t∈ [0, ∞)) ein reellwertiger<br />

Prozess. Für jedes T>0 gebe es Zahlen α, β, C > 0 mit<br />

Dann gelten:<br />

E [|Xt − Xs| α ] ≤ C|t − s| 1+β<br />

für alle s, t ∈ [0,T]. (21.2)<br />

(i) Es existiert eine Modifikation � X =( � Xt, t∈ � [0, ∞)) von X, die lokal Hölderstetige<br />

Pfade hat von jeder Ordnung γ ∈ 0, β<br />

�<br />

α .<br />

�<br />

(ii) Sei γ ∈ 0, β<br />

�<br />

α . Zu jedem ε>0 und T 0 sind dann nach Lemma 21.5 die Prozesse X S und<br />

X T ununterscheidbar auf [0,S∧ T ], also ist<br />

ΩS,T :=<br />

�<br />

es gibt ein t ∈ [0,S∧ T ] mit X T t �= X S t<br />

eine Nullmenge, und damit ist auch Ω∞ := �<br />

S,T ∈N<br />

˜Xt(ω) :=Xt t (ω) für ω ∈ Ω \ Ω∞, und ˜ X ist eine stetige Modifikation von X.<br />

�<br />

ΩS,T eine Nullmenge. Mithin ist<br />

Ohne Beschränkung der Allgemeinheit sei T =1. Wir zeigen, dass X eine auf [0, 1]<br />

stetige Modifikation besitzt. Die Chebyshev’sche Ungleichung liefert für ε>0<br />

also<br />

P [|Xt − Xs| ≥ε] ≤ Cε −α |t − s| 1+β<br />

(21.4)


21.1 Stetige Modifikationen 433<br />

s→t<br />

Xs −→ Xt stochastisch. (21.5)<br />

Die Idee ist, zunächst � X auf den binär rationalen Zahlen zu konstruieren und dann<br />

stetig auf [0, 1] fortzusetzen. Dafür wird (21.5) gebraucht. Speziell ist für γ > 0<br />

sowie n ∈ N und k ∈{1,...,2n }<br />

P �� �<br />

�Xk2−n − X (k−1)2−n� −γn<br />

≥ 2 � ≤ C 2 −n(1+β−αγ) .<br />

Wir setzen<br />

An = An(γ) := � max � |X k2 −n − X (k−1)2 −n|, k∈{1,...,2 n } � ≥ 2 −γn� ,<br />

sowie<br />

∞�<br />

Bn := Am,<br />

m=n<br />

und N := lim sup An =<br />

n→∞<br />

Es folgt dann für jedes n ∈ N<br />

∞�<br />

Bn.<br />

n=1<br />

�<br />

P[An] ≤ P � |Xk2−n − X (k−1)2−n| ≥2 −γn� ≤ C 2 −n(β−αγ) .<br />

2 n<br />

k=1<br />

Wir wählen jetzt ein γ ∈ (0,β/α) und erhalten<br />

P[Bn] ≤<br />

∞�<br />

m=n<br />

P[Am] ≤ C 2−(β−αγ)n<br />

1 − 2 αγ−β<br />

n→∞<br />

−→ 0, (21.6)<br />

also P[N] =0. Sei nun ω ∈ Ω \ N fest und n0 = n0(ω) so, dass ω �∈ ∞�<br />

Also gilt<br />

�<br />

� Xk2 −n(ω) − X (k−1)2 −n(ω) � � < 2 −γn<br />

n=n0<br />

An.<br />

für k ∈{1,...,2 n },n≥ n0. (21.7)<br />

Wir definieren die Mengen endlicher dyadischer Zahlen Dm = {k2 −m ,k =<br />

0,...,2 m } und D = �<br />

Dm. Jedes t ∈ Dm besitzt eine eindeutige Binärdar-<br />

stellung<br />

t =<br />

m∈N<br />

m�<br />

bi(t)2 −i<br />

i=1<br />

für gewisse bi(t) ∈{0, 1}, i=1,...,m.<br />

Seien m ≥ n ≥ n0 sowie s, t ∈ Dm,s≤ t mit |s−t| ≤2−n .Dannistbi(t−s) =0<br />

für i


434 21 Die Brown’sche Bewegung<br />

rn−1 = s, rm = t und rl+1 − rl ≤ 2 −(l+1) für l = n − 1,...,m.<br />

Also ist nach (21.7)<br />

|Xt(ω) − Xs(ω)| ≤<br />

m−1 �<br />

l=n−1<br />

�<br />

� Xrl+1 (ω) − Xrl (ω)� � ≤<br />

m�<br />

l=n<br />

2 −γl ≤ 2−γn<br />

. (21.8)<br />

1 − 2−γ Setze nun C0 =2 γ (1 − 2 −γ ) −1 < ∞. Seien s, t ∈ D mit |s − t| ≤2 −n0 . Indem<br />

wir n ≥ n0 minimal wählen mit |t − s| ≥2 −n , erhalten wir aus (21.8)<br />

|Xt(ω) − Xs(ω)| ≤C0 |t − s| γ . (21.9)<br />

Wie im Beweis von Lemma 21.3(iii) folgt hieraus, dass (mit K := C02 (n+1)(1−γ) )<br />

|Xt(ω) − Xs(ω)| ≤K |t − s| γ<br />

für alle s, t ∈ D. (21.10)<br />

Mit anderen Worten: Auf den binärrationalen Zahlen D ist X(ω) (global) Hölderγ-stetig.<br />

Speziell ist X auf D gleichmäßig stetig, lässt sich also eindeutig stetig auf<br />

[0, 1] fortsetzen: Für t ∈ D setze � Xt := Xt.Für t ∈ [0, 1]\D und {sn, n∈ N} ⊂D<br />

mit sn −→ t ist (Xsn (ω)) n∈N eine Cauchy-Folge. Also existiert der Limes<br />

�Xt(ω) := lim<br />

D∋s→t Xs(ω), (21.11)<br />

und es gilt dann die zu (21.10) analoge Aussage auch für beliebige s, t ∈ [0, 1]<br />

�<br />

�<br />

� � Xt(ω) − � �<br />

�<br />

Xs(ω) � ≤ K |t − s| γ<br />

für alle s, t ∈ [0, 1]. (21.12)<br />

Also ist � X lokal Hölder-stetig von der Ordnung γ. Nach (21.5) und (21.11) gilt<br />

P � Xt �= � �<br />

Xt =0für jedes t ∈ [0, 1]. AlsoistX� eine Modifikation von X.<br />

Um (ii) zu zeigen, sei ε>0, und sei n ∈ N so groß gewählt, dass (siehe (21.6))<br />

P[Bn] ≤ C 2−(β−αγ)n<br />

0 sowie jedes T>0 und gewisses C


21.1 Stetige Modifikationen 435<br />

Übung 21.1.1. Man zeige die Aussage von Bemerkung 21.7. ♣<br />

Übung 21.1.2. Sei X =(Xt)t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Man<br />

zeige, dass für alle 0 ≤ a


436 21 Die Brown’sche Bewegung<br />

21.2 Konstruktion und Pfadeigenschaften<br />

Definition 21.8. Ein reellwertiger stochastischer Prozess B =(Bt, t ∈ [0, ∞))<br />

heißt Brown’sche Bewegung, falls<br />

(i) B0 =0,<br />

(ii) B hat unabhängige, stationäre Zuwächse (vergleiche Definition 9.7),<br />

(iii) Bt ∼N0,t für t>0,<br />

(iv) P-fast sicher gilt: t ↦→ Bt ist stetig.<br />

3<br />

2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

0<br />

0.5 1 1.5 2<br />

Abb. 21.1. Computersimulation einer Brown’schen Bewegung.<br />

Satz 21.9. Es existiert ein W-Raum (Ω,A, P) und eine Brown’sche Bewegung B<br />

auf (Ω,A, P). Die Pfade von B sind f.s. lokal Hölder-γ-stetig für jedes γ< 1<br />

2 .<br />

Beweis. Wie in Beispiel 14.45 oder Korollar 16.10 gibt es einen stochastischen<br />

D<br />

Prozess X, der (i), (ii) und (iii) erfüllt. Offenbar ist Xt−Xs = √ t − sX1 ∼N0,t−s<br />

für alle t>s≥ 0. Es gilt daher für jedes n ∈ N und Cn := E[X2n n ]= (2n)!<br />

2nn! < ∞<br />

�<br />

E (Xt − Xs) 2n�<br />

��√t �2n<br />

= E − sX1<br />

�<br />

= Cn |t − s| n .<br />

Sei nun n ≥ 2 und γ ∈ (0, n−1<br />

2n ). Satz 21.6 liefert die Existenz einer Version B<br />

von X mit Hölder-γ-stetigen Pfaden. Da alle stetigen Versionen eines Prozesses<br />

äquivalent sind, ist B lokal Hölder-γ-stetig für jedes γ ∈ (0, n−1<br />

2n ) und jedes n ≥ 2,<br />

also für jedes γ ∈ (0, 1<br />

2 ). ✷


21.2 Konstruktion und Pfadeigenschaften 437<br />

Erinnerung: Ein stochastischer Prozess (Xt)t∈I heißt Gauß’scher Prozess, falls für<br />

jedes n ∈ N und alle t1,...,tn ∈ I gilt<br />

(Xt1 ,...,Xtn ) ist n–dimensional normalverteilt.<br />

Wir nennen X zentriert, falls E[Xt] =0für jedes t ∈ I. Die Funktion<br />

heißt Kovarianzfunktion von X.<br />

Γ (s, t) :=Cov[Xs,Xt] für s, t ∈ I,<br />

Bemerkung 21.10. Durch die Kovarianzfunktion sind die endlichdimensionalen<br />

Verteilungen eines zentrierten, Gauß’schen Prozesses eindeutig festgelegt, denn eine<br />

mehrdimensionale Normalverteilung ist durch den Erwartungswertvektor und<br />

Kovarianzmatrix vollständig beschrieben. ✸<br />

Satz 21.11. Für einen stochastischen Prozess X =(Xt) t∈[0,∞) sind äquivalent:<br />

(i) X ist eine Brown’sche Bewegung.<br />

(ii) X ist ein stetiger, zentrierter, Gauß’scher Prozess mit Cov[Xs,Xt] =s ∧ t für<br />

alle s, t ≥ 0.<br />

Beweis. Nach Bemerkung 21.10 ist X durch (ii) eindeutig bestimmt. Es reicht also<br />

zu zeigen, dass Cov[Xs,Xt] =min(s, t) für die Brown’sche Bewegung X gilt.<br />

Dies ist aber richtig, denn für t>ssind Xs und Xt − Xs unabhängig, also ist<br />

Cov[Xs,Xt] =Cov[Xs,Xt − Xs]+ Cov[Xs,Xs] =Var[Xs] =s. ✷<br />

Korollar 21.12 (Skalierungseigenschaft der Brown’schen Bewegung). Ist B eine<br />

Brown’sche Bewegung und K �= 0, dann ist auch (KB K 2 t)t≥0 eine Brown’sche<br />

Bewegung.<br />

Beispiel 21.13. Ein weiteres Beispiel für einen stetigen, Gauß’schen Prozess ist die<br />

Brown’sche Brücke X, die die Kovarianzfunktion Γ (s, t) =s ∧ t − st hat. Wir<br />

konstruieren die Brown’sche Brücke wie folgt: Sei B = (Bt, t ∈ [0, 1]) eine<br />

Brown’sche Bewegung und<br />

Xt := Bt − tB1.<br />

Offenbar ist X ein zentrierter, Gauß’scher Prozess mit stetigen Pfaden. Die Kovarianzfunktion<br />

Γ von X errechnet sich zu<br />

Γ (s, t) =Cov[Xs,Xt] =Cov[Bs − sB1,Bt − tB1]<br />

= Cov[Bs,Bt] − s Cov[B1,Bt] − t Cov[Bs,B1]+st Cov[B1,B1]<br />

=min(s, t) − st − st + st =min(s, t) − st. ✸


438 21 Die Brown’sche Bewegung<br />

Satz 21.14. Sei (Bt)t≥0 eine Brown’sche Bewegung und<br />

�<br />

tB1/t, falls t>0,<br />

Xt =<br />

0, falls t =0.<br />

Dann ist X eine Brown’sche Bewegung.<br />

Beweis. Offenbar ist X ein Gauß’scher Prozess. Für s, t > 0 ist<br />

Cov[Xs,Xt] =ts · Cov[B 1/s,B 1/t] =ts min � s −1 ,t −1� =min(s, t).<br />

Offenbar ist t ↦→ Xt stetig in allen t>0. Für die Stetigkeit in t =0betrachte<br />

lim sup Xt = lim sup<br />

t↓0<br />

t→∞<br />

≤ lim sup<br />

n→∞<br />

1<br />

t Bt<br />

1<br />

n Bn + lim sup<br />

n→∞<br />

1<br />

n sup � Bt − Bn, t∈ [n, n +1] � .<br />

Nach dem Starken Gesetz der großen Zahl ist limn→∞ 1<br />

n Bn =0f.s. Nach einer<br />

Verallgemeinerung des Spiegelungsprinzips (Satz 17.15, siehe auch Satz 21.19) ist<br />

für x>0 (mit der Abkürzung B [a,b] := {Bt : t ∈ [a, b]})<br />

P � sup B [n,n+1] − Bn >x � = P � sup B [0,1] >x � =2P[B1 >x]<br />

= 2<br />

� ∞<br />

√ e<br />

2π x<br />

−u2 /2 1<br />

du ≤<br />

x e−x2 /2<br />

.<br />

∞�<br />

Speziell ist P � sup B [n,n+1] − Bn >n ε� < ∞ für jedes ε>0. Nach dem<br />

n=1<br />

Lemma von Borel-Cantelli (Satz 2.7) ist daher<br />

lim sup<br />

n→∞<br />

1<br />

n sup � Bt − Bn, t∈ [n, n +1] � =0 fast sicher.<br />

Mithin ist X auch in 0 stetig. ✷<br />

Satz 21.15 (Blumenthal’sches 0-1 Gesetz). Sei B eine Brown’sche Bewegung<br />

und F =(Ft)t≥0 = σ(B) die erzeugte Filtration, sowie F + �<br />

0 = t>0 Ft. Dann<br />

ist F + 0 eine P-triviale σ-Algebra.<br />

Beweis. Setze Y n =(B 2 −n +t − B 2 −n) t∈[0,2 −n ], n ∈ N. Dannist(Y n )n∈N eine<br />

unabhängige Familie von Zufallsvariablen (mit Werten in C([0, 2 −n ])). Die termi-<br />

nale σ-Algebra T = �<br />

n∈N σ(Y m ,m≥ n) ist nach dem Kolmogorov’schen 0-1<br />

Gesetz (Satz 2.37) P–trivial. Andererseits ist σ(Y m ,m≥ n) =F 2 −n+1, also ist<br />

F + 0<br />

�<br />

= Ft = �<br />

t>0<br />

n∈N<br />

F 2 −n+1 = T<br />

P–trivial. ✷


21.2 Konstruktion und Pfadeigenschaften 439<br />

Beispiel 21.16. Sei B eine Brown’sche Bewegung. Für jedes K>0 ist<br />

P � inf � t>0: Bt ≥ K √ t � =0 � =1. (21.14)<br />

Um dies einzusehen, setze As := � inf{t >0: Bt ≥ K √ t } 0: Bt ≥ K √ t � �<br />

= 0 = �<br />

As ∈ F + 0 .<br />

Dann ist P[A] ∈{0, 1}. Wegen der Skalierungseigenschaft der Brown’schen Bewegung<br />

ist P[A] =inf<br />

s>0 P[As] ≥ P[B1 ≥ K] > 0 und deshalb P[A] =1. ✸<br />

Das eben untersuchte Beispiel zeigt insbesondere für jedes t ≥ 0, dassBin t fast<br />

sicher nicht Hölder- 1<br />

2-stetig ist. Hier ist Vorsicht mit der Reihenfolge der Quantoren<br />

angebracht: Wir haben nicht gezeigt, dass B fast sicher in keinem t ≥ 0 Hölder-<br />

1<br />

2-stetig wäre (siehe aber Bemerkung 22.4). Wir können allerdings ohne großen<br />

Aufwand den folgenden Satz zeigen, der für den Fall γ =1auf Paley, Wiener und<br />

Zygmund [118] zurückgeht. Der hier vorgestellte Beweis beruht auf einer Idee von<br />

Dvoretzky, Erdös und Kakutani (siehe [39]).<br />

Satz 21.17 (Paley-Wiener-Zygmund (1933)). Für jedes γ> 1<br />

2 sind die Pfade der<br />

Brown’schen Bewegung (Bt)t≥0 fast sicher in keinem Punkte Hölder-stetig der<br />

Ordnung γ. Insbesondere sind die Pfade fast sicher nirgends differenzierbar.<br />

Beweis. Sei γ> 1<br />

2 . Es reicht, B =(Bt) t∈[0,1] zu betrachten. Wir bezeichnen mit<br />

Hγ,t die Menge der in t Hölder-γ-stetigen Abbildungen [0, 1] → R und setzen<br />

Hγ := �<br />

t∈[0,1] Hγ,t. Das Ziel ist zu zeigen, dass fast sicher B �∈ Hγ gilt.<br />

Ist t ∈ [0, 1) und w ∈ Hγ,t, so existiert zu jedem δ>0 ein c = c(δ, w) mit der<br />

Eigenschaft, dass |ws − wt| ≤c |s − t| γ ist für jedes s ∈ [0, 1] mit |s − t| 2<br />

2γ−1 ,soistfür n ∈ N mit n ≥ n0 := ⌈(k +1)/δ⌉,<br />

i = ⌊tn⌋ +1und l ∈{0,...,k− 1} speziell<br />

�<br />

� � � � �<br />

�w(i+l+1)/n − w �<br />

(i+l)/n ≤ �w(i+l+1)/n − wt<br />

� + �w(i+l)/n − wt<br />

� γ −γ<br />

≤ 2c (k +1) n .<br />

Für N ≥ 2c (k +1) γ ist also w ∈ AN,n,i, wobei<br />

AN,n,i :=<br />

k−1 �<br />

l=0<br />

s>0<br />

�<br />

w : � �<br />

�w (i+l+1)/n − w �<br />

(i+l)/n ≤ Nn −γ�<br />

.<br />

Setzen wir AN,n = �n n≥n0 AN,n und A = �∞ N=1 AN ,soist<br />

offenbar Hγ ⊂ A. Nun ist wegen der Unabhängigkeit der Zuwächse, und weil die<br />

Dichte der Standardnormalverteilung nirgends größer als 1 ist<br />

i=1 AN,n,i, AN = �<br />

P[B ∈ AN,n,i] =P � |B 1/n| ≤Nn −γ� k = P � |B1| ≤Nn −γ+1/2� k<br />

≤ N k n k(−γ+1/2) .


440 21 Die Brown’sche Bewegung<br />

Nach Wahl von k und wegen der Stationarität der Zuwächse von B gilt<br />

P � �<br />

B ∈ AN ≤ lim<br />

n→∞ P<br />

�<br />

�<br />

≤ lim sup<br />

n→∞<br />

m≥n<br />

AN,m<br />

�<br />

≤ lim sup<br />

n→∞<br />

n P[B ∈ AN,n,1] ≤ N k lim sup<br />

n→∞<br />

P[AN,n] ≤ lim sup<br />

n→∞<br />

n�<br />

i=1<br />

n 1+k(−γ+1/2) =0<br />

P[AN,n,i]<br />

und damit P[B ∈ A] =0. Mithin ist fast sicher B �∈ Hγ. ✷<br />

Übung 21.2.1. Sei B eine Brown’sche Bewegung und λ das Lebesgue-Maß auf<br />

[0, ∞).<br />

(i) Bestimme Erwartungswert und Varianz von � 1<br />

0 Bs ds.(Für die Messbarkeit des<br />

Integrals siehe Übung 21.1.2.)<br />

(ii) Zeige, dass λ � {t : Bt =0} � =0fast sicher gilt.<br />

(iii) Bestimme Erwartungswert und Varianz von<br />

� 1<br />

0<br />

� � 1<br />

0<br />

� 1<br />

Bt −<br />

0<br />

�2 Bs ds dt. ♣<br />

Übung 21.2.2. Sei B eine Brown’sche Bewegung. Zeige, dass auch (B 2 t −t)t≥0 ein<br />

Martingal ist. ♣<br />

Übung 21.2.3. Sei B eine Brown’sche Bewegung und σ > 0. Zeige, dass auch<br />

� �<br />

exp σBt − σ2<br />

2 t�� ein Martingal ist. ♣<br />

t≥0<br />

Übung 21.2.4. Sei B eine Brown’sche Bewegung und a0} dx.<br />

(iii) Die Verteilung von τb hat die Dichte fb(x) = b<br />

√ 2π e −b2 /(2x) x −3/2 . ♣


21.3 Starke Markoveigenschaft 441<br />

Übung 21.2.6. Sei B eine Brown’sche Bewegung, a ∈ R und b>0 sowie τ =<br />

inf{t ≥ 0: Bt = at + b}. Man zeige für λ ≥ 0<br />

E � e −λτ � �<br />

=exp − ba − b � a2 + λ2 �<br />

und folgere P[τ


442 21 Die Brown’sche Bewegung<br />

Weiter gilt<br />

Fτn ↓Fτ+ :=<br />

= lim<br />

n→∞ Ex<br />

�<br />

σ>τ ist Stoppzeit<br />

Fσ ⊃ Fτ .<br />

Nach (21.16) und (21.17) sowie dem Konvergenzsatz für Rückwärtsmartingale<br />

(Satz 12.14) gilt also im Sinne von L1-Limiten EBτ [F (B)] = lim<br />

n→∞ Ex<br />

� �<br />

F (Bτ n ��<br />

�Fτ<br />

+t)t≥0 n<br />

�<br />

� � ��<br />

F (Bτ+t)t≥0 �Fτ n<br />

� � � �� �<br />

= Ex F (Bτ+t)t≥0<br />

�Fτ+ .<br />

Die linke Seite ist Fτ -messbar. Die Turmeigenschaft der bedingten Erwartung liefert<br />

also (21.15). ✷<br />

Mit Hilfe der starken Markoveigenschaft zeigen wir das Reflexionsprinzip für die<br />

Brown’sche Bewegung.<br />

Satz 21.19 (Reflexionsprinzip für die Brown’sche Bewegung). Für jedes a>0<br />

und T>0 gilt<br />

P � sup � Bt : t ∈ [0,T] � >a � =2P[BT >a] ≤ 2√ T<br />

√ 2π<br />

1<br />

a e−a2 /2T .<br />

Beweis. Wegen der Skalierungseigenschaft der Brown’schen Bewegung (Korollar<br />

21.12) können wir ohne Einschränkung T =1annehmen. Sei τ := inf{t ≥<br />

0: Bt ≥ a}∧1. Aus Symmetriegründen ist Pa[B1−τ >a]= 1<br />

2 , falls τa]=P[B1 >a � �τ


21.3 Starke Markoveigenschaft 443<br />

Beweis. Ohne Einschränkung sei T = 1 und ζ = ζ1. Sei� B eine weitere, unabhängige<br />

Brown’sche Bewegung. Nach dem Reflexionsprinzip gilt<br />

P[ζ ≤ t] =P � Bs �= 0für jedes s ∈ [t, 1] �<br />

=<br />

=<br />

=<br />

� ∞<br />

−∞<br />

� ∞<br />

−∞<br />

� ∞<br />

P0<br />

−∞<br />

P � Bs �= 0für jedes s ∈ [t, 1] � �Bt = a � P[Bt ∈ da]<br />

�<br />

P �Bs<br />

|a| > 0 für jedes s ∈ [0, 1 − t] � P[Bt ∈ da]<br />

� | � B1−t| ≤|a| � P[Bt ∈ da] = P � | � B1−t| ≤|Bt| � .<br />

Sind X, Y unabhängig und N0,1-verteilt, so ist � Bt, � � D= �√ √ �<br />

B1−t tX, 1 − tY .<br />

Es folgt<br />

P[ζ ≤ t] =P �√ 1 − t |Y |≤ √ t |X| �<br />

= P � Y 2 ≤ t(X 2 + Y 2 ) �<br />

= 1<br />

2π<br />

� ∞<br />

−∞<br />

dx<br />

Durch Polarkoordinatentransformation erhalten wir<br />

P[ζ ≤ t] = 1<br />

2π<br />

� ∞<br />

rdre<br />

0<br />

−r2 � 2π<br />

/2<br />

0<br />

� ∞<br />

dy e<br />

−∞<br />

−(x2 +y 2 )/2<br />

{y2≤t(x2 +y2 )}.<br />

dϕ {sin(ϕ) 2≤t} = 2<br />

π arcsin<br />

�√ �<br />

t . ✷<br />

Übung 21.3.1. (Schwierig!) Sei Px die Verteilung der Brown’schen Bewegung mit<br />

Start in x ∈ R. Seia>0 und τ =inf � t ≥ 0:Bt ∈{0,a} � . Man zeige mit Hilfe<br />

des Spiegelungsprinzips, dass für jedes x ∈ (0,a) gilt<br />

P x [τ


444 21 Die Brown’sche Bewegung<br />

21.4 Ergänzung: Feller Prozesse<br />

In vielen Situationen kann man keine stetige Version eines Prozesses erwarten, etwa<br />

beim Poissonprozess, der ja gewissermaßen von seinen Sprüngen lebt. Oft kann<br />

jedoch eine Version mit rechtsstetigen Pfaden, die einen endlichen linksseitigen<br />

Grenzwert besitzen, etabliert werden. Wir wollen hier knapp den Existenzsatz für<br />

solche Prozesse für Feller’sche Halbgruppen plausibel machen.<br />

Definition 21.21. Sei E ein polnischer Raum. Eine Abbildung f :[0, ∞) → E heißt<br />

RCLL (right continuous with left limits) oder càdlàg (continue à droit, limites à<br />

gauche), falls f(t) =f(t+) := lims↓t f(s) für jedes t ≥ 0 und falls der linksseitige<br />

Grenzwert f(t−) := lims↑t f(s) für jedes t>0 existiert und endlich ist.<br />

Bemerkung 21.22. Ist F eine beliebige Filtration und F +,∗<br />

t die Vervollständigung<br />

von F + t ,soerfüllt F +,∗ die üblichen Bedingungen. ✸<br />

Definition 21.23. Eine Filtration F =(Ft)t≥0heißt rechtsstetig, falls F = F + ,<br />

wo F + t = �<br />

s>t Fs. Wir sagen, dass eine Filtration F die üblichen Bedingungen<br />

erfüllt, falls F rechtsstetig ist und F0 jede P-Nullmenge enthält.<br />

Satz 21.24 (Doob’sche Regularisierung). Sei F eine Filtration, die die üblichen<br />

Bedingungen erfüllt, und X =(Xt)t≥0 ein F-Supermartingal mit der Eigenschaft,<br />

dass t ↦→ E[Xt] rechtsstetig ist. Dann gibt es eine Modifikation � X von X mit RCLL<br />

Pfaden.<br />

Beweis. Für a, b ∈ Q + , a < b und I ⊂ [0, ∞) sei U a,b<br />

I die Anzahl der Aufkreuzungen<br />

von (Xt)t∈I über [a, b]. Nach der Aufkreuzungsungleichung (Lemma<br />

11.3) folgt für jedes N > 0 und jede endliche Menge I ⊂ [0,N], dass<br />

E[U a,b<br />

I ] ≤ (E[|XN |] +|a|)/(b − a). Setzen wir U a,b a,b<br />

N = UQ + ∩[0,N] , so folgt<br />

E[U a,b<br />

N ] ≤ (E[|XN |]+|a|)/(b − a). Für λ>0 ist nach Übung 11.1.1<br />

λ P � sup{|Xt| : t ∈ Q + ∩ [0,N]} >λ �<br />

�<br />

= λ sup P � sup{|Xt| : t ∈ I} >λ � : I ⊂ Q + �<br />

∩ [0,N] endlich<br />

≤ 12 E[|X0|]+9E[|XN |].<br />

Betrachte das Ereignis<br />

A := � � �<br />

N∈N<br />

a,b∈Q +<br />

0≤a


21.4 Ergänzung: Feller Prozesse 445<br />

�Xt(ω) := lim<br />

Q + Xs(ω)<br />

∋s↓t, s>t<br />

und ist RCLL. Für ω ∈ Ac setzen wir Xt(ω) =0.DaF die üblichen Bedingungen<br />

erfüllt, ist � X an F adaptiert. Da X ein Supermartingal ist, ist (Xs)s≤N für jedes N<br />

gleichgradig integrierbar. Also gilt (nach Voraussetzung), dass<br />

E[ � Xt] = lim<br />

Q + E[Xs] =E[Xt].<br />

∋s↓t, s>t<br />

Da X ein Supermartingal ist, ist aber für s>t<br />

Xt ≥ E[Xs |Ft] Q+ ∋s↓t, s>t<br />

−→ E[ � Xt |Ft] = � Xt in L 1 .<br />

Folglich ist Xt = � Xt fast sicher, also � X eine Modifikation von X. ✷<br />

Korollar 21.25. Sei (νt)t≥0 eine stetige Faltungshalbgruppe mit � |x|ν1(dx) < ∞.<br />

Dann existiert ein Markov-Prozess X mit unabhängigen, stationären Zuwächsen<br />

PXt−Xs = νt−s für alle t>sund mit RCLL Pfaden.<br />

Sei E ein lokalkompakter, polnischer Raum und C0(E) die Menge der (beschränkten)<br />

stetigen Funktionen, die im Unendlichen verschwinden. Ist κ ein stochastischer<br />

Kern von E nach E und ist f messbar und beschränkt, so schreiben wir κf(x) =<br />

� κ(x, dy) f(y).<br />

Definition 21.26. Eine Markov’sche Halbgruppe (κt)t≥0 auf E heißt Feller’sche<br />

Halbgruppe, falls<br />

f(x) = lim κtf(x) für jedes x ∈ E, f ∈ C0(E)<br />

t→0<br />

und κtf ∈ C0(E) für jedes f ∈ C0(E).<br />

Sei X ein zu (κt)t≥0 gehöriger Markovprozess bezüglich einer Filtration F, die die<br />

üblichen Bedingungen erfüllt.<br />

Sei g ∈ C0(E), g ≥ 0. Setze h = � ∞<br />

e −s κsh = e −s<br />

� ∞<br />

0<br />

0 e−tκtgdt.Dannist � ∞<br />

e −t κsκtgdt=<br />

s<br />

e −t κtgdt≤ h.<br />

Also ist Xg := (e−th(Xt))t≥0 ein F-Supermartingal.<br />

Die Fellereigenschaft und Satz 21.24 sichern nun die Existenz einer RCLL Version<br />

�X g von Xg . Mit etwas mehr Arbeit kann man zeigen, dass mit einer abzählbaren<br />

Menge G ⊂ C0(E) ein Prozess � X durch alle � Xg , g ∈ G, eindeutig festgelegt ist<br />

und eine RCLL Version von X ist. Siehe etwa [139, Kapitel III.7ff].<br />

Wir wollen nun rückblicken, wie wir die starke Markoveigenschaft der Brown’schen<br />

Bewegung in Abschnitt 21.3 hergeleitet hatten. Tatsächlich wurde dort lediglich<br />

die Rechtsstetigkeit der Pfade sowie eine Stetigkeit im Anfangspunkt benötigt, die<br />

genau die Fellereigenschaft ist. Mit etwas Arbeit kann man daher den folgenden<br />

Satz zeigen (siehe etwa [139, Kapitel III.8ff] oder [137, Kapitel III, Theorem 2.7]).


446 21 Die Brown’sche Bewegung<br />

Satz 21.27. Sei (κt)t≥0 eine Feller’sche Halbgruppe auf dem lokalkompakten, polnischen<br />

Raum E. Dann existiert ein starker Markovprozess (Xt)t≥0 mit RCLL Pfaden<br />

und Übergangskernen (κt)t≥0.<br />

Einen solchen Prozess X nennen wir auch einen Feller-Prozess.<br />

Übung 21.4.1 (Doob’sche Ungleichung). Sei X = (Xt)t≥0ein Martingal oder<br />

|Xt|.<br />

nichtnegatives Submartingal mit RCLL Pfaden. Für T ≥ 0 sei |X| ∗ T<br />

Man zeige die Doob’schen Ungleichungen:<br />

(i) Für jedes p ≥ 1 und λ>0 gilt λ p P � |X| ∗ T ≥ λ � ≤ E � |XT | p� .<br />

(ii) Für jedes p>1 gilt E � |XT | p� ≤ E � (|X| ∗ T )p� ≤<br />

� p<br />

p−1<br />

= sup<br />

t∈[0,T ]<br />

� p<br />

E � |XT | p� .<br />

Man zeige durch ein Gegenbeispiel, dass auf die Rechtsstetigkeit von X nicht ohne<br />

Weiteres verzichtet werden kann. ♣<br />

Übung 21.4.2 (Martingalkonvergenzsätze). Sei X ein stochastischer Prozess mit<br />

RCLL Pfaden. Man zeige mit Hilfe der Doob’schen Ungleichung (Übung 21.4.1),<br />

dass die Martingalkonvergenzsätze (f.s. Konvergenz (Satz 11.4), f.s. und L 1 -Konvergenz<br />

für gleichgradig integrierbare Martingale (Satz 11.7) und der L p -Martingalkonvergenzsatz<br />

(Satz 11.10)) sinngemäß für X gelten. ♣<br />

Übung 21.4.3. Sei p ≥ 1 und X1 ,X2 ,X3 ,...p-fach integrierbare Martingale. Für<br />

jedes t ≥ 0 gebe es ein � Xt ∈Lp (P) mit Xn n→∞<br />

t −→ � Xt in Lp .<br />

(i) Zeige: ( � Xt)t≥0 ist ein Martingal.<br />

(ii) Zeige mit Hilfe der Doob’schen Ungleichung: Ist p>1 und sind X 1 ,X 2 ,...<br />

f.s. stetig, so gibt es ein stetiges Martingal X mit den Eigenschaften: X ist eine<br />

Modifikation von � X und Xn t<br />

n→∞<br />

−→ Xt in Lp für jedes t ≥ 0. ♣<br />

Übung 21.4.4. Sei X ein stochastischer Prozess mit Werten in einem polnischen<br />

Raum E mit RCLL Pfaden, und sei F = σ(X) die von X erzeugte Filtration, sowie<br />

F + := (F + t )t≥0 definiert durch F + t = �<br />

s>t Fs. SeiU⊂ E offen und C ⊂ E<br />

abgeschlossen. Für jede Menge A ⊂ E sei τA := inf{t >0: Xt ∈ A}. Man zeige:<br />

(i) τC ist eine F-Stoppzeit (und eine F + -Stoppzeit).<br />

(ii) τU ist eine F + -Stoppzeit, jedoch im Allgemeinen (selbst für stetiges X) keine<br />

F-Stoppzeit. ♣<br />

Übung 21.4.5. Man zeige die Aussage von Bemerkung 21.22 und folgere: Ist F<br />

eine Filtration und B eine Brown’sche Bewegung, die ein F-Martingal ist. Dann ist<br />

B auch ein F +,∗ -Martingal. ♣


21.5 Konstruktion durch L 2 -Approximation<br />

21.5 Konstruktion durch L 2 -Approximation 447<br />

Wir geben eine funktionalanalytische Konstruktion der Brown’schen Bewegung<br />

durch eine L 2 –Approximation an. Der Einfachheit halber betrachten wir als Zeitintervall<br />

[0, 1] statt [0, ∞).<br />

Es sei also H = L2 ([0, 1]) der Hilbertraum der quadratintegrierbaren (bezüglich<br />

des Lebesgue-Maßes λ) Funktionen [0, 1] → R mit Skalarprodukt<br />

�<br />

〈f,g〉 = f(x)g(x) λ(dx)<br />

[0,1]<br />

und Norm �f� = � 〈f,f〉 (vergleiche Kapitel 7.3). Zwei Funktionen f,g ∈ H<br />

werden als gleich angesehen, wenn f = gλ-f.ü. Sei (bn)n∈N eine Orthonormalbasis<br />

(ONB) von H, also 〈bm,bn〉 = {m=n} und<br />

lim<br />

n→∞<br />

�<br />

�<br />

�f −<br />

n� �<br />

�<br />

〈f,bm〉bm�<br />

=0 für jedes f ∈ H.<br />

m=1<br />

Speziell gilt für jedes f ∈ H die Parseval’sche Gleichung<br />

und für f,g ∈ H<br />

�f� 2 =<br />

〈f,g〉 =<br />

∞�<br />

m=1<br />

〈f,bm〉 2<br />

(21.21)<br />

∞�<br />

〈f,bm〉〈g, bm〉. (21.22)<br />

m=1<br />

Betrachte jetzt eine u.i.v. Folge (ξn) n∈N von N0,1-Zufallsvariablen auf einem Wahrscheinlichkeitsraum<br />

(Ω,A, P). Für n ∈ N und t ∈ [0, 1] setze<br />

� �<br />

n�<br />

�<br />

ξmbm(s) λ(ds) =<br />

n�<br />

ξm〈 [0,t],bm〉.<br />

X n t =<br />

[0,t](s)<br />

Offenbar ist für n ≥ m<br />

E � (X m t − X n t ) 2� = E<br />

=<br />

m=1<br />

�� n�<br />

n�<br />

k=m+1<br />

k=m+1<br />

m=1<br />

� �<br />

ξk [0,t],bk<br />

�� �n<br />

� �2 [0,t],bk ≤<br />

∞�<br />

k=m+1<br />

l=m+1<br />

� �2. [0,t],bk<br />

Wegen � ∞<br />

k=1 〈 [0,t],bk〉 2 = � [0,t]� 2 = t


448 21 Die Brown’sche Bewegung<br />

Also ist (X n t ) n∈N eine Cauchy-Folge in L 2 (P) und hat wegen der Vollständigkeit<br />

von L 2 (P) (siehe Satz 7.3) einen L 2 -Grenzwert Xt. Offenbar gilt dann auch für<br />

N ∈ N und 0 ≤ t1,...,tN ≤ 1<br />

lim<br />

n→∞ E<br />

� N�<br />

i=1<br />

� n→∞<br />

k=1<br />

� X n ti − Xti<br />

�<br />

�2 =0.<br />

Speziell gilt also � Xn t1 ,...,Xn tN −→ (Xt1 ,...,XtN ) P-stochastisch.<br />

Offenbar ist � Xn t1 ,...,Xn �<br />

tN Gauß-verteilt und zentriert. Für s, t ∈ [0, 1] gilt<br />

Cov [X n s ,X n ��<br />

n�<br />

� �<br />

t ]=E ξk [0,s],bk<br />

�� �n<br />

� �<br />

ξl [0,t],bl<br />

��<br />

=<br />

=<br />

n�<br />

k,l=1<br />

n�<br />

l=1<br />

E[ξkξl] � �� �<br />

[0,s],bk [0,t],bl<br />

� �� �<br />

[0,s],bk [0,t],bk<br />

k=1<br />

n→∞<br />

−→ � [0,s], [0,t]<br />

� =min(s, t).<br />

Also ist (Xt) t∈[0,1] ein zentrierter, Gauß’scher Prozess mit<br />

Cov[Xs,Xt] =min(s, t). (21.23)<br />

Bis auf die Stetigkeit der Pfade ist X also eine Brown’sche Bewegung. Eine stetige<br />

Version von X liefert jetzt der Satz von Kolmogorov-Chentsov (Satz 21.6). Wir<br />

können X aber auch direkt als stetigen Prozess konstruieren, indem wir die ONB<br />

(bn)n∈N geschickt wählen, beispielsweise die Haar-Funktionen bn,k: Seib0,1 ≡ 1<br />

und für n ∈ N und k =1,...,2 n sei<br />

⎧<br />

2<br />

⎪⎨<br />

bn,k(t) =<br />

⎪⎩<br />

n/2 2k − 2 − 1<br />

, falls ≤ t


X n :=<br />

21.5 Konstruktion durch L 2 -Approximation 449<br />

n� 2 m<br />

�<br />

m=0 k=1<br />

ξm,k Bm,k<br />

und definieren Xt als den L 2 (P)-Limes Xt = L 2 − lim<br />

n→∞ Xn .<br />

Satz 21.28 (Brown’sche Bewegung, L2 –Approximation).<br />

X ist eine Brown’sche Bewegung, und es gilt<br />

�<br />

lim �X n − X � � =0 P–fast sicher. (21.24)<br />

∞<br />

n→∞<br />

Beweis. Da gleichmäßige Limiten stetiger Funktionen wieder stetig sind, folgt aus<br />

(21.24) die Stetigkeit von X und aus (21.23) (zusammen mit Satz 21.11), dass X<br />

eine Brown’sche Bewegung ist. Es reicht also, (21.24) zu zeigen.<br />

Da (C([0, 1]), � · �∞) vollständig ist, reicht es zu zeigen, dass P-fast sicher Xn eine Cauchy-Folge in (C([0, 1]), � · �∞) ist. Man beachte, dass �Bn,k�∞ ≤ 2−n/2 und Bn,kBn,l =0, falls k �= l.Alsoist<br />

�<br />

� n n−1<br />

X − X � � ≤ 2<br />

∞ −n/2 max � |ξn,k|, k=1,...,2 n� .<br />

Mithin ist<br />

�<br />

P �X n − X n−1 �∞ > 2 −n/4�<br />

≤<br />

�<br />

2 n<br />

k=1<br />

n 2<br />

=2 √<br />

2π<br />

≤ 2 n+1 exp<br />

�<br />

P |ξn,k| > 2 n/4�<br />

� ∞<br />

2n/4 e −x2 /2<br />

dx<br />

�<br />

−2 (n/2)−1�<br />

.<br />

Offenbar ist ∞�<br />

P[�Xn − Xn−1�∞ > 2−n/4 ] < ∞, also nach dem Lemma von<br />

n=1<br />

Borel-Cantelli<br />

���X n n−1<br />

P − X � � > 2<br />

∞ −n/4<br />

�<br />

höchstens endlich oft =1.<br />

Es folgt lim<br />

n→∞ sup �X<br />

m≥n<br />

m − Xn�∞ =0 P–fast sicher. ✷<br />

Beispiel 21.29 (Stochastisches Integral). Wir nehmen an, dass (ξn)n∈N eine u.i.v.<br />

Folge von N0,1 verteilten Zufallsvariablen ist, sowie (bn)n∈N eine Orthonormal-<br />

basis von L2 �n ([0, 1]), sodass Wt := limn→∞ k=1 〈 [0,t],bk〉, t ∈ [0, 1], eine<br />

Brown’sche Bewegung ist. Für f ∈ L2 ([0, 1]) definieren wir<br />

∞�<br />

I(f) := ξn〈f,bn〉.<br />

n=1


450 21 Die Brown’sche Bewegung<br />

Nach der Parseval’schen Gleichung und der Bienaymé Formel ist<br />

also gilt:<br />

Wir nennen<br />

�f� 2 2 =<br />

∞�<br />

〈f,bn〉 2 = Var � I(f) � = E � I 2� ,<br />

n=1<br />

I : L 2 ([0, 1]) → L 2 (P), f ↦→ I(f) ist eine Isometrie. (21.25)<br />

� t<br />

0<br />

f(s) dWs := I � � 2<br />

f [0,t] , t ∈ [0, 1], f∈ L ([0, 1]),<br />

das stochastische Integral von f bezüglich W . Durch Xt := � t<br />

0 f(s) dWs wird ein<br />

stetiger, zentrierter, Gauß’scher Prozess definiert mit Kovarianzfunktion<br />

Cov[Xs,Xt] =<br />

� s∧t<br />

0<br />

f 2 (u) du.<br />

In der Tat ist klar, dass X zentriert und Gauß’sch ist (als Limes von Gauß’schen<br />

Partialsummenprozessen) mit der angegebenen Kovarianzfunktion. Ferner folgt<br />

die Stetigkeit wie für die Brown’sche Bewegung mit den vierten Momenten der<br />

Zuwächse, die wir bei normalverteilten Zufallsvariablen aus den Varianzen berechnen<br />

können (vergleiche Satz 21.9).<br />

In dem Spezialfall f = �n i=1 αi (ti−1,ti] für gewisses n ∈ N und 0=t0


21.6 Der Raum C([0, ∞)) 451<br />

Übung 21.5.3. Sei d ∈ N. Man zeige mit Hilfe einer geeigneten Orthonormalbasis<br />

auf [0, 1] d :<br />

(i) Es gibt einen Gauß’schen Prozess (Wt) t∈[0,1] d mit Kovarianzfunktion<br />

Cov[Wt,Ws] =<br />

d�<br />

i=1<br />

� �<br />

ti ∧ si .<br />

(ii) Es existiert eine Modifikation von W , sodass t ↦→ W fast sicher stetig ist (siehe<br />

Bemerkung 21.7).<br />

Ein Prozess W mit den Eigenschaften (i) und (ii) heißt Brown’sches Blatt. ♣<br />

21.6 Der Raum C([0, ∞))<br />

Sind Funktionale, die vom ganzen Pfad der Brown’schen Bewegung abhängen,<br />

messbar? Ist beispielsweise sup{Xt, t∈ [0, 1])} messbar? Für allgemeine stochastische<br />

Prozesse ist dies sicherlich falsch, weil das Supremum von mehr als abzählbar<br />

vielen Koordinaten abhängt. Für Prozesse mit stetigen Pfaden ist dies jedoch richtig,<br />

wie wir in diesem Abschnitt in allgemeinem Rahmen zeigen werden.<br />

Es liegt nahe, dass man die Brown’sche Bewegung als kanonischen Prozess auf dem<br />

Raum Ω := C([0, ∞)) der stetigen Pfade begreift.<br />

Wir sammeln zunächst ein paar Eigenschaften von Ω = C([0, ∞)) ⊂ R [0,∞) .Wir<br />

definieren die Auswertungsabbildung<br />

Xt : Ω → R, ω ↦→ ω(t), (21.26)<br />

also die Einschränkung der kanonischen Projektion R [0,∞) → R auf Ω.<br />

Für f,g ∈ C � [0, ∞) � �<br />

�<br />

und n ∈ N sei dn(f,g) := �(f − g) � �<br />

�<br />

� ∧ 1 und<br />

[0,n]<br />

d(f,g) =<br />

� ∞<br />

∞�<br />

2 −n dn(f,g). (21.27)<br />

n=1<br />

Satz 21.30. d ist eine vollständige Metrik auf Ω := C � [0, ∞) � , die die Topologie<br />

der gleichmäßigen Konvergenz auf kompakten Mengen erzeugt. Der Raum (Ω,d)<br />

ist separabel, also polnisch.<br />

Beweis. Offenbar ist jedes dn eine vollständige Metrik auf (C([0,n]), � · �∞)).Zu<br />

jeder Cauchy-Folge (fN ) in (Ω,d) und jedem n ∈ N existiert daher ein gn ∈ Ω<br />

mit dn(fN ,gn) N→∞<br />

−→ 0. Offenbar ist gn(x) =gm(x) für jedes x ≤ m ∧ n, also


452 21 Die Brown’sche Bewegung<br />

existiert ein g ∈ Ω mit g(x) =gn(x) für jedes x ≤ n für jedes n ∈ N. Offenbar gilt<br />

dann d(fN ,g) N→∞<br />

−→ 0, also ist d vollständig.<br />

Die Menge der Polynome mit rationalen Koeffizienten ist abzählbar und nach dem<br />

Satz von Weierstraß dicht in jedem (C([0,n]), � · �∞)) also dicht in (Ω,d). ✷<br />

Satz 21.31. Bezüglich der Borel’schen σ-Algebra B(Ω,d) sind die kanonischen<br />

Projektionen Xt, t ∈ [0, ∞) messbar. Andererseits erzeugen die Xt schon B(Ω,d).<br />

Es gilt also<br />

(B(R)) ⊗[0,∞)� �Ω<br />

= σ � Xt, t∈ [0, ∞) � = B(Ω,d).<br />

Beweis. Die erste Gleichung gilt per definitionem. Für die zweite betrachten wir<br />

die gegenseitigen Inklusionen.<br />

” ⊂“ Offenbar ist jedes Xt : Ω −→ R stetig, also (B(Ω,d)–B(R)) messbar.<br />

Mithin ist σ � Xt, t∈ [0, ∞) � ⊂B(Ω,d).<br />

” ⊃“ Wir zeigen, dass für jedes ω ∈ Ω und für jedes ε ∈ (0, 1) die ε-Umgebung<br />

Uε(ω) = � ω ′ ∈ Ω : d(ω, ω ′ )


21.7 Konvergenz von W-Maßen auf C([0, ∞)) 453<br />

Definition 21.33. Sei P das W-Maß auf Ω = C([0, ∞)), bezüglich dessen der<br />

kanonische Prozess X eine Brown’sche Bewegung ist. Dann heißt P Wiener-Maß.<br />

Das Tripel (Ω,A, P) heißt Wiener-Raum, und X heißt kanonische Brown’sche<br />

Bewegung oder Wiener-Prozess.<br />

Bemerkung 21.34. Manchmal soll eine Brown’sche Bewegung nicht in X0 =0<br />

starten, sondern in einem beliebigen Punkt x.MitPx bezeichnen wir dann dasjenige<br />

Maß auf C([0, ∞)),für das � X =(Xt − x, t ∈ [0, ∞)) eine Brown’sche Bewegung<br />

(mit � X0 =0)ist. ✸<br />

Übung 21.6.1. Man zeige: Die Abbildung F∞ : Ω → [0, ∞], ω ↦→ sup{ω(t) :t ∈<br />

[0, ∞)} ist A-messbar. ♣<br />

21.7 Konvergenz von W-Maßen auf C([0, ∞))<br />

Seien X und (X n )n∈N Zufallsvariablen mit Werten in C([0, ∞)), also stetige stochastische<br />

Prozesse, mit Verteilungen PX und (PX n)n∈N.<br />

Definition 21.35. Wir sagen, dass die endlichdimensionalen Verteilungen (finite dimensional<br />

distributions) von (X n ) gegen die von X konvergieren, falls für jedes<br />

k ∈ N und t1,...,tk ∈ [0, ∞) gilt<br />

n n→∞<br />

Wir schreiben dann X =⇒<br />

fdd<br />

Lemma 21.36. Aus Pn n→∞<br />

−→<br />

fdd<br />

(X n t1 ,...,Xn n→∞<br />

tk ) =⇒ (Xt1 ,...,Xtk ).<br />

n→∞<br />

X oder PXn −→<br />

fdd<br />

P und Pn n→∞<br />

−→<br />

fdd<br />

PX.<br />

Q folgt P = Q.<br />

Beweis. Nach Satz 14.12(iii) legen die endlichdimensionalen Verteilungen P eindeutig<br />

fest. ✷<br />

Satz 21.37. Schwache Konvergenz in M1(Ω,d) impliziert fdd-Konvergenz:<br />

Pn<br />

n→∞<br />

−→ P =⇒ Pn n→∞<br />

−→<br />

fdd<br />

Beweis. Sei k ∈ N und t1,...,tk ∈ [0, ∞). Die Abbildung<br />

ϕ : C([0, ∞)) → R k , ω ↦→ (ω(t1),...,ω(tk))<br />

ist stetig. Nach dem Continuous Mapping Theorem (Satz 13.25 auf Seite 245) gilt<br />

−1 n→∞<br />

Pn ◦ ϕ −→ P ◦ ϕ−1 , also Pn n→∞<br />

−→ P . ✷<br />

fdd<br />

P.


454 21 Die Brown’sche Bewegung<br />

Die Umkehrung des Satzes ist nicht richtig. Es gilt aber Folgendes.<br />

Satz 21.38. Seien (Pn)n∈N und P W-Maße auf C([0, ∞)). Dann sind äquivalent:<br />

(i) Pn n→∞<br />

−→<br />

fdd<br />

P und (Pn)n∈N ist straff.<br />

(ii) Pn<br />

n→∞<br />

−→ P schwach.<br />

Beweis. ” (ii) =⇒ (i)“ Dies folgt direkt aus dem Satz von Prohorov (Satz 13.29<br />

mit E = C([0, ∞))).<br />

” (i) =⇒ (ii)“ Nach dem Satz von Prohorov ist (Pn)n∈N relativ folgenkompakt.<br />

Sei Q ein Limespunkt von (Pnk )k∈N entlang einer Teilfolge (nk). Dann gilt<br />

fdd<br />

−→ Q, k →∞. Nach Lemma 21.36 ist P = Q. ✷<br />

Pnk<br />

Als nächstes wollen wir uns ein nützliches Kriterium für Straffheit von Mengen<br />

{Pn} ⊂M1(C([0, ∞))) verschaffen. Wir beginnen mit einer Wiederholung der<br />

Charakterisierung von Relativkompaktheit in C([0, ∞)) von Arzelà und Ascoli (siehe<br />

etwa [156, Satz II.3.4]).<br />

Für N,δ > 0 und ω ∈ C([0, ∞)) setze<br />

V N (ω, δ) :=sup � |ω(t) − ω(s)| : |t − s| ≤δ, s, t ≤ N � .<br />

Satz 21.39 (Arzelà-Ascoli). Eine Menge A ⊂ C([0, ∞)) ist genau dann relativ<br />

kompakt, wenn die beiden folgenden Bedingungen gelten.<br />

(i) {ω(0), ω∈ A} ⊂R ist beschränkt.<br />

(ii) Für jedes N gilt lim sup V<br />

δ↓0 N (ω, δ) =0.<br />

ω∈A<br />

Satz 21.40. Eine Familie (Pi, i∈ I) von W-Maßen auf C([0, ∞)) ist genau dann<br />

schwach relativkompakt, wenn die beiden folgenden Bedingungen gelten.<br />

(i) (Pi ◦ X −1<br />

0 ,i∈ I) ist straff, das heißt, für jedes ε>0 gibt es ein K > 0,<br />

sodass<br />

Pi({ω : |ω(0)| >K}) ≤ ε für jedes i ∈ I. (21.28)<br />

(ii) Für alle η, ε > 0 und N ∈ N gibt es ein δ>0, sodass<br />

Pi({ω : V N (ω, δ) >η}) ≤ ε für jedes i ∈ I. (21.29)<br />

Beweis. ” =⇒ “ Nach dem Satz von Prohorov (Satz 13.29) folgt aus der schwachen<br />

Relativkompaktheit von (Pi, i∈ I) die Straffheit dieser Familie. Zu jedem<br />

ε>0 gibt es daher eine kompakte Menge A ⊂ C([0, ∞)) mit Pi(A) > 1 − ε


21.7 Konvergenz von W-Maßen auf C([0, ∞)) 455<br />

für jedes i ∈ I. Aus der Charakterisierung der Kompaktheit von A im Satz von<br />

Arzelà-Ascoli folgen nun (i) und (ii).<br />

” ⇐= “ Wir nehmen jetzt an, dass (i) und (ii) gelten. Seien also für ε>0 und<br />

k, N ∈ N die Zahlen Kε und δN,k,ε so gewählt, dass<br />

�<br />

sup Pi {ω : |ω(0)| >Kε}<br />

i∈I<br />

� ≤ ε<br />

2<br />

und<br />

Setze<br />

CN,ε =<br />

��<br />

sup Pi ω : V<br />

i∈I<br />

N (ω, δN,k,ε) > 1<br />

��<br />

≤ 2<br />

k<br />

−N−k−1 ε.<br />

�<br />

ω : |ω(0)| ≤Kε, V N (ω, δN,k,ε) ≤ 1<br />

k<br />

�<br />

für jedes k ∈ N .<br />

Nach dem Satz von Arzelà-Ascoli ist Cε := �<br />

N∈N CN,ε in C([0, ∞)) relativ kompakt,<br />

und wir haben<br />

Pi(C c ε) ≤ ε<br />

2 +<br />

∞�<br />

k,N=1<br />

�� N<br />

Pi ω : V (ω, δN,k,ε) > 1/k �� ≤ ε für jedes i ∈ I.<br />

Es folgt die Aussage. ✷<br />

Korollar 21.41. Sind (Xi, i ∈ I) und (Yi, i ∈ I) Familien von Zufallsvariablen<br />

in C([0, ∞)), und sind (PXi ,i ∈ I) und (PYi ,i ∈ I) straff, dann ist auch<br />

,i∈ I) straff.<br />

(PXi+Yi<br />

Beweis. Wende die Dreiecksungleichung an, um im vorigen Satz (i) und (ii) nachzuweisen.<br />

✷<br />

Ein wichtiges Hilfsmittel, um schwache Relativkompaktheit nachzuweisen, ist das<br />

folgende.<br />

Satz 21.42 (Kolmogorov’sches Kriterium für schwache Relativkompaktheit).<br />

Sei (X i ,i∈ I) eine Folge von stetigen stochastischen Prozessen. Es gelte:<br />

(i) Die Familie (P[Xi 0 ∈ · ], i∈ I) der Startverteilungen ist straff.<br />

(ii) Es gibt Zahlen C, α, β > 0, sodass für alle s, t ∈ [0, ∞) und jedes i ∈ I gilt<br />

E � |X i s − X i t| α� ≤ C |s − t| β+1 .<br />

Dann ist die Familie (P X i,i∈ I) =(L[X i ],i∈ I) von Verteilungen der X i<br />

schwach relativkompakt in M1(C([0, ∞))).


456 21 Die Brown’sche Bewegung<br />

Beweis. Wir prüfen die Bedingungen von Satz 21.40. Die erste Bedingung aus<br />

Satz 21.40 ist genau (i).<br />

Nach dem Satz von Kolmogorov-Chentsov (Satz 21.6(ii)) gibt es zu γ ∈ (0,β/α)<br />

und ε>0 sowie N>0 eine Konstante K, sodass für jedes i ∈ I gilt<br />

P � |X i t − X i s|≤K |t − s| γ für alle s, t ∈ [0,N] � ≥ 1 − ε.<br />

Offenbar impliziert dies (21.29) mit δ =(η/K) 1/γ . ✷<br />

21.8 Satz von Donsker<br />

Seien Y1,Y2,... u.i.v. Zufallsvariablen mit E[Y1] =0und Var[Y1] =σ2 > 0. Für<br />

t>0 sei Sn t = �⌊nt⌋ i=1 Yi und � Sn t = 1 √ S<br />

σ2n n t . Nach dem zentralen Grenzwertsatz<br />

gilt L[ � Sn t ] n→∞<br />

−→ N0,t. Bezeichnet B =(Bt, t≥ 0) eine Brown’sche Bewegung,<br />

so gilt also<br />

L[ � S n t ] n→∞<br />

−→ L[Bt] für jedes t>0.<br />

Nach dem mehrdimensionalen Zentralen Grenzwertsatz (Satz 15.56) gilt nun auch<br />

(für N ∈ N und t1,...,tN ∈ [0, ∞))<br />

L[( � S n t1 ,..., � S n n→∞<br />

tN )] −→ L[(Bt1 ,...,BtN )] (21.30)<br />

Wir definieren jetzt ¯ S n wie � S n , aber linear interpoliert<br />

Dann gilt für ε>0<br />

P �� � � S n t − ¯ S n t<br />

¯S n t = 1<br />

√ σ 2 n<br />

⌊nt⌋<br />

�<br />

i=1<br />

Yi +<br />

�<br />

� >ε � ≤ ε −2 E � ( � S n t − ¯ S n t ) 2� ≤ 1<br />

ε 2 n<br />

(tn −⌊tn⌋)<br />

√ Y⌊nt⌋+1. (21.31)<br />

σ2n 1 2<br />

E[Y<br />

σ2 1 ]= 1<br />

ε2n n→∞<br />

−→ 0.<br />

Nach dem Satz von Slutzky (Satz 13.18) gilt daher die Konvergenz der endlichdimensionalen<br />

Verteilungen gegen das Wiener-Maß PW :<br />

P ¯ S n<br />

n→∞<br />

=⇒<br />

fdd<br />

PW . (21.32)<br />

Wir wollen diese Konvergenzaussage verstärken zur schwachen Konvergenz der W-<br />

Maße auf C([0, ∞)). Dazu formulieren wir als Hauptsatz dieses Abschnitts den<br />

Funktionalen Zentralen Grenzwertsatz, der in dieser Allgemeinheit auf Donsker<br />

[35] zurückgeht. Sätze von diesem Typ werden auch Invarianzprinzipien genannt,<br />

weil die Grenzverteilung die selbe ist für alle Verteilungen von Yi mit Erwartungswert<br />

0 und selber Varianz.


21.8 Satz von Donsker 457<br />

Satz 21.43 (Donsker’sches Invarianzprinzip). Im Sinne der schwachen Konvergenz<br />

auf C([0, ∞)) konvergieren die Verteilungen von ¯ S n gegen das Wiener-Maß<br />

L[ ¯ S n ] n→∞<br />

−→ PW . (21.33)<br />

Beweis. Wegen (21.32) und Satz 21.38 reicht es zu zeigen, dass (L[ ¯ Sn], n∈ N)<br />

straff ist. Dafür möchten wir das Kolmogorov’sche Momentenkriterium anwenden.<br />

Wie wir schon beim Beweis der Existenz der Brown’schen Bewegung gesehen haben,<br />

reichen hierfür aber zweite Momente nicht aus, sondern wir benötigen vierte<br />

Momente, damit wir β>0 wählen können. Die Strategie ist also, zunächst die Yi<br />

abzuschneiden, um vierte Momente zu erhalten, und dann für den abgeschnittenen<br />

Teil und den Hauptteil separat Straffheit zu zeigen.<br />

Für K>0 definieren wir<br />

Y K<br />

i := Yi {|Yi|≤K/2} −E[Yi {|Yi|≤K/2}] und Z K i := Yi −Y K<br />

i<br />

für i ∈ N.<br />

Dann gilt E[Y K<br />

i ]=E[ZK i ]=0sowie Var[ZK K→∞<br />

i ] −→ 0 und Var[Y K<br />

i ] ≤ σ2 ,<br />

i ∈ N. Außerdem ist offenbar |Y K<br />

i |≤K für jedes i. Setze<br />

Es seien ¯ T K,n<br />

t<br />

n�<br />

T K n :=<br />

i=1<br />

n�<br />

Y K<br />

i und U K n :=<br />

i=1<br />

Z K i<br />

K,n<br />

und Ūt die linearen Interpolationen von<br />

�T K,n<br />

t := 1<br />

√ σ 2 n T K,n<br />

⌊nt⌋ und � U K,n<br />

t := 1<br />

√ σ 2 n U K,n<br />

⌊nt⌋<br />

für n ∈ N.<br />

für t ≥ 0.<br />

Offenbar ist ¯ Sn = ¯ T K,n + Ū K,n . Nach Korollar 21.41 reicht es zu zeigen,<br />

dass für eine noch zu wählende Folge (Kn)n∈N gilt: (L[ Ū Kn,n ],n ∈ N) und<br />

(L[ ¯ T Kn,n ],n∈ N) sind straff.<br />

Wir betrachten zunächst den Restterm. U K ist ein Martingal. Die Doob’sche Ungleichung<br />

(Satz 11.2) liefert<br />

�<br />

�<br />

P<br />

sup |U<br />

l=1,...,n<br />

K l | >ε √ n<br />

≤ ε −2 Var � Z K� 1<br />

für jedes ε>0.<br />

Gilt jetzt Kn ↑∞, n →∞, so haben wir für jedes N>0<br />

�<br />

�<br />

P sup �Ū<br />

t∈[0,N]<br />

Kn,n<br />

�<br />

�<br />

�<br />

t >ε ≤ N<br />

ε2 Var�Z Kn�<br />

n→∞<br />

1 −→ 0,<br />

Kn,n n→∞<br />

also Ū =⇒ 0 in C([0, ∞)). Speziell ist (L[ Ū Kn,n ],n∈ N) straff.


458 21 Die Brown’sche Bewegung<br />

Wir berechnen nun für N>0 und s, t ∈ [0,N] die vierten Momente der Differenzen<br />

¯ T Kn,n<br />

t+s − ¯ T Kn,n<br />

s des Hauptteils. Im Folgenden setzen wir Kn = n1/4 . Sei nun<br />

n ∈ N fest gewählt. Wir unterscheiden zwei Fälle.<br />

Fall 1: t


E � ( ¯ T Kn,n<br />

t+s − ¯ T Kn,n<br />

s<br />

) 4� ≤ n −2 σ −4 E � (T Kn<br />

Kn<br />

⌈(t+s)n⌉ − T⌊sn⌋ )4�<br />

= n −2 σ −4 E � (T Kn<br />

⌈(t+s)n⌉−⌊sn⌋ )4�<br />

≤ 3tnK2 n<br />

n 2 σ 2 +3t2 = 3<br />

≤ 3<br />

σ 2 t3/2 +3t 2 ≤<br />

21.8 Satz von Donsker 459<br />

σ 2 tn−1/2 +3t 2<br />

�<br />

3<br />

σ2 +3√ �<br />

N t 3/2 .<br />

(21.36)<br />

Nach (21.34) und (21.36) gibt es also zu jedem N > 0 eine Konstante C =<br />

C(N,σ 2 ), sodass für jedes n ∈ N und alle s, t ∈ [0,N] gilt<br />

E � ( ¯ T Kn,n<br />

t+s − ¯ T Kn,n<br />

s<br />

) 4� ≤ Ct 3/2 .<br />

Nach dem Kolmogorov’schen Momentenkriterium (Satz 21.42 mit α =4und β =<br />

1/2) ist also (L[ ¯ T Kn,n ],n∈ N) straff in M1(C([0, ∞))). ✷<br />

Übung 21.8.1. Seien X1,X2,... u.i.v. Zufallsvariablen mit stetiger Verteilungsfunktion<br />

F .EsseiGn :[0, 1] → [−1, 1], t ↦→ n−1/2 �n �<br />

i=1 [0,t](F (Xi)) − t � und<br />

Mn := �Gn�∞. Ferner sei M =supt∈[0,1] |Bt|,woB eine Brown’sche Brücke ist.<br />

(i) Man zeige E[Gn(t)] = 0 und Cov[Gn(s),Gn(t)] = s∧t−st für s, t ∈ [0, 1].<br />

(ii) Man zeige E[(Gn(t) − Gn(s)) 4 ] ≤ C � (t − s) 2 + |t − s|/n � für ein C>0.<br />

(iii) Man folgere, dass eine geeignete stetige Version von Gn schwach gegen B<br />

konvergiert. Beispielsweise kann Hn(t) =n−1/2 �n �<br />

i=1 hn(F (Xi) − t) − t �<br />

genommen werden, wo hn(s) =1− (s/εn ∨ 0) ∧ 1 für eine geeignete Folge<br />

εn ↓ 0.<br />

n→∞<br />

(iv) Man zeige schließlich Mn =⇒ M.<br />

Bemerkung: Die Verteilung von M lässt sich durch die Formel von Kolmogorov-<br />

Smirnov ([97] und [146]) ausdrücken (siehe etwa [125]):<br />

∞�<br />

P[M >x]=2 (−1) n−1 e −2n2x 2<br />

. (21.37)<br />

n=1<br />

Vergleiche hierzu auch (21.20). Mit Hilfe der Statistik Mn können Zufallsvariablen<br />

bei bekannter Verteilung auf Unabhängigkeit getestet werden. Seien X1,X2,...<br />

und ˜ X1, ˜ X2,... unabhängige Zufallsvariablen mit unbekannten, stetigen Verteilungsfunktionen<br />

F und ˜ F und empirischen Verteilungsfunktionen Fn und ˜ F . Ferner<br />

sei<br />

Dn := sup |Fn(t) −<br />

t∈R<br />

˜ Fn(t)|.<br />

Unter der Annahme, dass F = ˜ F gilt, konvergiert � n/2 Dn in Verteilung gegen<br />

M. Diese Tatsache ist Grundlage von nichtparametrischen Tests auf Verteilungsgleichheit.<br />


460 21 Die Brown’sche Bewegung<br />

21.9 Pfadweise Konvergenz von Verzweigungsprozessen ∗<br />

In diesem Abschnitt untersuchen wir die Konvergenz reskalierter Galton-Watson-<br />

Prozesse (Verzweigungsprozesse). Ähnlich wie für Summen unabhängiger Zufallsvariablen<br />

zeigen wir zunächst die Konvergenz zu einem festen Zeitpunkt gegen die<br />

Verteilungen eines Grenzprozesses. Hernach zeigen wir Konvergenz der endlichdimensionalen<br />

Verteilungen und schließlich mit Hilfe des Kolmogorov’schen Straffheitskriteriums<br />

die Konvergenz im Pfadraum C([0, ∞)).<br />

Wir betrachten einen Galton-Watson-Prozess (Zn)n∈N0 mit geometrischer Nachkommenverteilung<br />

p(k) =2 −k−1<br />

für k ∈ N0.<br />

Das heißt, wir betrachten u.i.v. Zufallsvariablen Xn,i, n, i ∈ N0 auf N0 mit<br />

P[Xn,i = k] =p(k), k ∈ N0 und definieren, ausgehend vom Startzustand Z0,<br />

rekursiv<br />

Zn �<br />

Zn+1 = Xn,i.<br />

i=1<br />

Z ist also eine Markovkette mit Übergangswahrscheinlichkeiten p(i, j) =p∗i (j),<br />

wobei p∗i die i-te Faltungspotenz von p ist. Mit anderen Worten: Sind Z, Z1 ,...,Zi unabhängige Kopien des Galton-Watson-Prozesses, mit Z0 = i und Z1 0 = ... =<br />

Zi 0 =1,soist<br />

Z D = Z 1 + ...+ Z i . (21.38)<br />

Wir betrachten nun die Erzeugendenfunktion ψ (1) (s) := ψ(s) := E[sX1,1 ] von<br />

X1,1, s ∈ [0, 1], und deren Iterierte ψ (n) := ψ (n−1) ◦ ψ für n ∈ N. Dann ist nach<br />

Lemma 3.10 Ei[sZn ]=E1[sZn ] i = � ψ (n) (s) �i<br />

.Für die geometrische Verteilung<br />

können wir ψ (n) leicht ausrechnen.<br />

Lemma 21.44. Für den Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung<br />

ist die n-te Iterierte der Erzeugendenfunktion<br />

Beweis. Wir berechnen<br />

ψ(s) =<br />

ψ (n) (s) =<br />

∞�<br />

k=0<br />

n − (n − 1)s<br />

n +1− ns .<br />

2 −k−1 s k =<br />

1<br />

−s +2 .<br />

Um die Iterierten auszurechnen, betrachten wir zunächst allgemeine linear rationale<br />

Funktionen der Form f(x) = ax+b<br />

cx+d .Für f von dieser Form definieren wir die Matrix<br />

� �<br />

ab<br />

Mf = .Für zwei linear rationale Funktionen f und g ist Mf◦g = Mf · Mg.<br />

cd<br />

Wir berechnen leicht


und induktiv<br />

21.9 Pfadweise Konvergenz von Verzweigungsprozessen ∗<br />

� �<br />

0 1<br />

Mψ = ,<br />

−1 2<br />

M 2 � �<br />

−12<br />

ψ = ,<br />

−2 3<br />

M 3 � �<br />

−23<br />

ψ =<br />

−3 4<br />

M n ψ =<br />

461<br />

� �<br />

−(n − 1) n<br />

. ✷<br />

−n n+1<br />

Setzen wir s = e −λ , so erhalten wir die Laplace-Transformierten von Zn<br />

Ei[e −λZn ]=ψ (n) (e −λ ) i .<br />

Nach Beispiel 6.29 ergeben sich die Momente von Zn durch Differenzieren. Es gilt<br />

also:<br />

Lemma 21.45. Die Momente von Zn sind<br />

Ei[Z k k dk<br />

n]=(−1)<br />

dλk �<br />

ψ (n) (e −λ ) i�� . (21.39)<br />

�λ=0<br />

Speziell sind die ersten sechs Momente<br />

Ei[Zn] =i<br />

Ei[Z 2 n]=2in+ i 2<br />

Ei[Z 3 n]=6in 2 +6i 2 n + i 3<br />

Ei[Z 4 n]=24in 3 +36i 2 n 2 +(12i 3 +2i) n + i 4<br />

(21.40)<br />

Ei[Z 5 n] = 120in 4 + 240i 2 n 3 + (120i 3 +30i) n 2 +(20i 4 +10i 2 ) n + i 5<br />

Ei[Z 6 n] = 720in 5 + 1800i 2 n 4 + (1200i 3 + 360i) n 3<br />

+ (300i 4 + 240i 2 )n 2 +(30i 5 +30i 3 +2i)n + i 6 .<br />

Insbesondere ist Z ein Martingal, und die ersten sechs zentrierten Momente sind<br />

Ei[(Zn − i) 2 ]=2in<br />

Ei[(Zn − i) 3 ]=6in 2<br />

Ei[(Zn − i) 4 ]=24in 3 +12i 2 n 2 +2in<br />

Ei[(Zn − i) 5 ] = 120in 4 + 120i 2 n 3 +30in 2<br />

(21.41)<br />

Ei[(Zn − i) 6 ] = 720in 5 + 1080i 2 n 4 + (120i 3 + 360i) n 3 +60i 2 n 2 +2in.<br />

Beweis. Die genauen Formeln für die ersten sechs Momente erhält man durch stures<br />

Ausrechnen von (21.39). ✷<br />

Wir betrachten jetzt die folgende Reskalierung: Wir fixieren x ≥ 0 und starten mit<br />

Z0 = ⌊nx⌋ Individuen und betrachten ˜ Zn t := Z⌊tn⌋ n für t ≥ 0. Wir schreiben kurz


462 21 Die Brown’sche Bewegung<br />

Lx[ ˜ Z n ]:=L ⌊nx⌋[(n −1 Z ⌊nt⌋)t≥0]. (21.42)<br />

Offenbar ist Ex[ ˜ Zn t ]= ⌊nx⌋<br />

n ≤ x für jedes n, also ist (Lx[ ˜ Zn t ], n∈ N) straff. Indem<br />

wir Laplace-Transformierte betrachten, sehen wir sogar, dass für jedes λ ≥ 0 die<br />

Folge der Verteilungen konvergiert:<br />

lim<br />

n→∞ Ex[e −λ ˜ Z n<br />

t ] = lim<br />

n→∞<br />

�<br />

ψ (⌊tn⌋) (e −λ/n �nx )<br />

� −λ/n<br />

nt − (nt − 1)e<br />

= lim<br />

n→∞ nt +1− nt e−λ/n �<br />

= lim 1 −<br />

n→∞<br />

�nx<br />

1 − e −λ/n<br />

n(1 − e −λ/n )t +1<br />

�nx<br />

�<br />

xn(1 − e<br />

=exp − lim<br />

n→∞<br />

−λ/n )<br />

n(1 − e−λ/n �<br />

)t +1<br />

�<br />

=exp − λ<br />

λ +1/t (x/t)<br />

�<br />

:= ψt(λ) x .<br />

(21.43)<br />

Die Funktion ψ x t ist aber die Laplace-Transformierte der zusammengesetzten Poisson-Verteilung<br />

CPoi (x/t) exp1/t (siehe Definition 16.3).<br />

Wir betrachten jetzt den stochastischen Kern κt(x, dy) := CPoi (x/t) exp1/t (dy).<br />

Dies ist genau derjenige Kern auf [0, ∞), dessen Laplace-Transformierte gegeben<br />

ist durch � ∞<br />

0<br />

κt(x, dy) e −λy = ψt(λ) x . (21.44)<br />

Lemma 21.46. (κt)t≥0 ist eine Markov’sche Halbgruppe, und es existiert ein Markovprozess<br />

(Yt)t≥0 mit Übergangskernen Px[Yt ∈ dy] =κt(x, dy).<br />

Beweis. Es reicht, die Chapman-Kolmogorov Gleichung κt · κs = κs+t zu zeigen.<br />

Wir berechnen die Laplace-Transformierten dieser Kerne: Für λ ≥ 0 erhalten wir<br />

durch zweimaliges Anwenden von (21.44)<br />

� �<br />

κt(x, dy)κs(y, dz) e −λz �<br />

=<br />

�<br />

κt(x, dy)exp − λy<br />

λs +1<br />

�<br />

λ<br />

�<br />

λs+1<br />

=exp − λ<br />

λs+1t +1x<br />

�<br />

�<br />

λx<br />

=exp −<br />

λ(t + s)+1<br />

�<br />

= κt+s(x, dz) e −λz . ✷<br />

Als nächstes zeigen wir, dass Y eine stetige Version besitzt. Dafür berechnen wir<br />

Momente und ziehen den Satz von Kolmogorov-Chentsov (Satz 21.6) heran.<br />


21.9 Pfadweise Konvergenz von Verzweigungsprozessen ∗<br />

Lemma 21.47. Wir erhalten die k-ten Momente von Yt durch Ableiten der Laplace-<br />

Transformierten<br />

Ex[Y k<br />

k dk<br />

t ]=(−1)<br />

dλ k (ψ(λ)x ) � � λ=0<br />

�<br />

wobei ψt(λ) =exp−<br />

λ<br />

�<br />

λt+1 . Speziell sind die ersten Momente<br />

Ex[Yt ]=x<br />

Ex[Y 2<br />

t ]=2xt+ x 2<br />

Ex[Y 3<br />

t ]=6xt 2 +6x 2 t + x 3<br />

Ex[Y 4<br />

t ]=24xt 3 +36x 2 t 2 +12x 3 t + x 4<br />

Ex[Y 5<br />

t ] = 120xt 4 + 240x 2 t 3 + 120x 3 t 2 +20x 4 t + x 5<br />

Ex[Y 6<br />

t ] = 720xt 5 + 1800x 2 t 4 + 1200x 3 t 3 + 300x 4 t 2 +30x 5 t + x 6 (21.45)<br />

.<br />

Es ist also Y ein Martingal, und die ersten zentrierten Momente sind<br />

Ex[(Yt − x) 2 ]=2xt<br />

Ex[(Yt − x) 3 ]=6xt 2<br />

Ex[(Yt − x) 4 ]=24xt 3 +12x 2 t 2<br />

Ex[(Yt − x) 5 ] = 120xt 4 + 120x 2 t 3<br />

Ex[(Yt − x) 6 ] = 720xt 5 + 1080x 2 t 4 + 120x 3 t 3 .<br />

,<br />

463<br />

(21.46)<br />

Satz 21.48. Es existiert eine stetige Version des Markovprozesses Y mit Übergangskernen<br />

(κt)t≥0 gegeben durch (21.44). Diese Version nennen wir Feller’sche<br />

Verzweigungsdiffusion oder den Feller’schen stetigen Verzweigungsprozess.<br />

Beweis. Für festes N>0 und s, t ∈ [0,N] gilt<br />

�<br />

Ex (Yt+s − Ys) 4� �<br />

= Ex EYs [(Yt − Y0) 4 ] � �<br />

= Ex 24Ys t 3 +12Y 2<br />

s t 2�<br />

=24xt 3 + 12(2sx + x 2 ) t 2 ≤ � 48Nx+12x 2� t 2 .<br />

Mithin erfüllt Y die Bedingung aus Satz 21.6 (Kolmogorov-Chentsov) mit α =4<br />

und β =1. ✷<br />

Bemerkung 21.49. (i) Indem man alle höheren Momente heranzieht, kann man<br />

zeigen, dass die Pfade von Y Hölder-stetig sind von jeder Ordnung γ ∈ (0, 1<br />

2 ).<br />

(ii) Man kann zeigen, dass Y die (eindeutige, starke) Lösung der stochastischen<br />

(Itô’schen) Differentialgleichung (siehe Beispiele 26.11 und 26.31)<br />

dYt = � 2Yt dWt<br />

(21.47)<br />

ist, wobei W eine Brown’sche Bewegung ist. ✸


464 21 Die Brown’sche Bewegung<br />

Satz 21.50. Es gilt Lx[ ˜ Z n ] n→∞<br />

−→<br />

fdd<br />

Lx[Y ].<br />

Beweis. Wie in (21.43) erhalten wir für 0 ≤ t1 ≤ t2 und λ1,λ2 ≥ 0, sowiex≥0 lim<br />

n→∞ Ex<br />

�<br />

e −(λ1 ˜ Z n<br />

t +λ2 1 ˜ Z n<br />

t ) 2 �<br />

= lim<br />

n→∞ Ex<br />

� �<br />

Ex e −λ2 ˜ Z n �<br />

� t2 � ˜ Z n �<br />

t1 e −λ1 ˜ Z n �<br />

t1 = lim<br />

n→∞ Ex<br />

� �<br />

λ2<br />

exp −<br />

λ2(t2 − t1)+1 ˜ Z n t1<br />

⎛ �<br />

� ⎞<br />

λ2<br />

λ2(t2−t1)+1 + λ1 x<br />

=exp⎝−�<br />

� ⎠<br />

λ2<br />

λ2(t2−t1)+1 + λ1<br />

�<br />

= Ex exp(−(λ1Yt1 + λ2Yt2 ))� .<br />

t1 +1<br />

�<br />

e −λ1 ˜ Z n<br />

�<br />

t1 Wir erhalten also<br />

�<br />

Lx λ1 ˜ Z n t1 + λ2 ˜ Z n � n→∞ � �<br />

t2 −→ Lx λ1Yt1 + λ2Yt2 .<br />

Nach der Cramér-Wold Device (Satz 15.55) folgt hieraus<br />

��<br />

Lx<br />

˜Z n<br />

t1 , ˜ Z n �� n→∞ ��<br />

t2 −→ Lx Yt1 ,Yt2<br />

��<br />

.<br />

Wir können dieses Vorgehen jetzt iterieren und erhalten so für jedes k ∈ N und<br />

0 ≤ t1 ≤ t2 ≤ ...≤ tk<br />

�� � �<br />

Lx<br />

˜Z n n→∞ �� � �<br />

ti −→ Lx Yti .<br />

i=1,...,k<br />

i=1,...,k<br />

Dies ist aber die Behauptung. ✷<br />

Wir zeigen nun, dass die Konvergenz sogar im Pfadraum gilt. Hierzu müssen wir<br />

den reskalierten Prozess noch stetig machen. Wir nehmen an, dass (Zn)i∈N0 i , n ∈ N<br />

eine Folge von Galton-Watson-Prozessen ist, mit Zn 0 = ⌊nx⌋. Wirdefinieren die<br />

linearen Interpolationen<br />

¯Z n t := � t − n −1 � �<br />

⌊tn⌋ Z n ⌊tn⌋+1 − Zn �<br />

⌊tn⌋ + 1<br />

n Zn ⌊tn⌋ .<br />

Satz 21.51 (Lindvall (1972)). Die reskalierten Galton-Watson-Prozesse ¯ Z n konvergieren<br />

für n →∞gegen die Feller’sche Diffusion Y im Sinne der schwachen<br />

Konvergenz in M1(C([0, ∞))):<br />

Lx[ ¯ Z n ] n→∞<br />

−→ Lx[Y ].<br />

Beweis. Die Konvergenz der endlichdimensionalen Verteilungen ist schon gezeigt.<br />

Nach Satz 21.38 reicht es, die Straffheit von (Lx[ ¯ Z n ],n∈ N) in M1(C([0, ∞)))


21.10 Quadratische Variation und lokale Martingale 465<br />

zu zeigen. Hierzu verwenden wir das Kriterium von Kolmogorov � (Satz 21.42 mit<br />

α =4und β =1). Wir berechnen also die vierten Momente Ex ( Z¯ n<br />

t+s − ¯ Zn s ) 4� für<br />

s, t ∈ [0,N] und für festes N>0. Wir unterscheiden zwei Fälle.<br />

Fall 1: t< 1<br />

n . Sei k = ⌊(t + s)n⌋. Wir nehmen zunächst an, dass ⌊sn⌋ = k.<br />

Dann ist (nach Lemma 21.45)<br />

�<br />

Ex ( Z¯ n<br />

t+s − ¯ Z n s ) 4� = n −4 (tn) 4 � n<br />

E⌊nx⌋ (Zk+1 − Z n k ) 4�<br />

= t 4 � n<br />

E⌊nx⌋ 24Zk + 12(Z n k ) 2 +2Z n� k<br />

= t 4 � 26⌊nx⌋ +24⌊nx⌋k + ⌊nx⌋ 2�<br />

≤ 26xt 3 +24xs t 2 + x 2 t 2<br />

≤ (50Nx+ x 2 ) t 2 .<br />

Der Fall ⌊sn⌋ = k − 1 liefert eine ähnliche Abschätzung. Insgesamt erhalten wir<br />

eine Konstante C = C(N,x) mit<br />

�<br />

Ex ( Z¯ n<br />

s+t − ¯ Z n s ) 4� ≤ Ct 2<br />

für alle s, t ∈ [0,N] mit t< 1<br />

. (21.48)<br />

n<br />

Fall 2: t ≥ 1<br />

n . Wir setzen jetzt k := ⌈(t + s)n⌉−⌊sn⌋ ≤tn +1≤ 2tn.Dannist<br />

(nach Lemma 21.45)<br />

�<br />

Ex ( Z¯ n<br />

t+s − ¯ Z n s ) 4�<br />

≤ n −4 � n<br />

E⌊nx⌋ (Z⌊(t+s)n⌋ − Z n ⌊sn⌋ )4�<br />

= n −4 �<br />

E⌊nx⌋ EZn ⌊sn⌋ [(Zn k − Z n 0 ) 4 ] �<br />

= n −4 �<br />

E⌊nx⌋ 24Z n ⌊sn⌋k3 + 12(Z n ⌊sn⌋ )2k 2 +2Z n ⌊sn⌋k �<br />

≤ n −4 � 24xn(2tn) 3 +(24xn sn +12x 2 n 2 )(2tn) 2 +4xtn 2�<br />

≤ 192xt 3 +(96xs +48x 2 )t 2 +4xn −1 t 2<br />

(21.49)<br />

≤ (292Nx+48x 2 ) t 2 .<br />

Die Abschätzungen aus (21.48) und (21.49) ergeben zusammen, dass die Voraussetzungen<br />

des Kolmogorov’schen Straffheitskriteriums (Satz 21.42) erfüllt sind mit<br />

α =4und β =1. Also ist die Folge (Lx[ ¯ Z n ],n∈ N) straff. ✷<br />

21.10 Quadratische Variation und lokale Martingale<br />

Nach dem Satz von Paley-Wiener-Zygmund (Satz 21.17) sind die Pfade t ↦→ Wt<br />

der Brown’schen Bewegung fast sicher nirgends differenzierbar, sind also von lokal<br />

unendlicher Variation. Insbesondere lässt sich das in Beispiel 21.29 betrachtete<br />

stochastische Integral � 1<br />

0 f(s) dWs nicht als Lebesgue-Stieltjes Integral verstehen.


466 21 Die Brown’sche Bewegung<br />

Um jedoch Integrale von diesem Typ auch für eine größere Klasse von Integranden<br />

und Integratoren zu definieren, wollen wir hier vorbereitend die Pfadeigenschaften<br />

der Brown’schen Bewegung, und allgemeiner von stetigen lokalen Martingalen, genauer<br />

untersuchen.<br />

Definition 21.52. Sei G :[0, ∞) → R stetig. Wir definieren für jedes t ≥ 0 die<br />

Variation bis t durch<br />

V 1<br />

t (G) :=sup<br />

� n−1 � �<br />

�Gti+1 − Gti<br />

i=0<br />

�<br />

�<br />

� :0=t0 ≤ t1 ≤ ...≤ tn = t, n ∈ N .<br />

Wir sagen, dass G von lokal endlicher Variation ist, falls V 1<br />

t (G) < ∞ für alle<br />

t ≥ 0 und schreiben CV für den Vektorraum der stetigen Funktionen G mit stetiger<br />

Variation t ↦→ V 1<br />

t (G).<br />

Bemerkung 21.53. Offenbar gilt V 1 (F + G) ≤ V 1 (F )+V 1 (G) und V 1 (αG) =<br />

|α| V 1 (G) für alle stetigen F, G :[0, ∞) → R und für alle α ∈ R. AlsoistCV<br />

tatsächlich ein Vektorraum. ✸<br />

Bemerkung 21.54. (i) Ist G von der Form Gt = � t<br />

f(s) ds für eine lokal inte-<br />

0<br />

grierbare Funktion f,soistG∈CV mit V 1<br />

t (G) = � t<br />

|f(s)| ds.<br />

(ii) Ist G = G + − G − die Differenz zweier stetiger, monoton wachsender Funktionen<br />

G + und G − ,soist<br />

V 1<br />

t (G) − V 1<br />

s (G) ≤ (G + t − G + s )+(G − t − G − s ) für alle t>s, (21.50)<br />

also ist G ∈CV. Gleichheit gilt in (21.50), wenn G − und G +<br />

0<br />

” nicht auf den selben<br />

Mengen wachsen“, also formal gesprochen die Verteilungsfunktionen gegenseitig<br />

singulärer Maße μ − und μ + sind. Diese Maße μ − und μ + sind dann die Jordan-<br />

Zerlegung des signierten Maßes μ = μ + − μ − , dessen Verteilungsfunktion G ist.<br />

Das Lebesgue-Stieltjes Integral wird dann definiert durch<br />

� t<br />

0<br />

�<br />

F (s) dGs :=<br />

(iii) Ist G ∈CV,sosindoffenbar<br />

G + t := 1�<br />

�<br />

1<br />

Vt (G)+Gt<br />

2<br />

[0,t]<br />

Fdμ + �<br />

− Fdμ<br />

[0,t]<br />

− . (21.51)<br />

und G − t := 1�<br />

�<br />

1<br />

Vt (G) − Gt<br />

2<br />

eine Zerlegung von G wie in (ii) beschrieben. ✸<br />

Dass die Pfade der Brown’schen Bewegung unendliche Variation haben, folgt schon<br />

aus ihrer Nichtdifferenzierbarkeit. Wir können dies aber auch leicht direkt einsehen.


21.10 Quadratische Variation und lokale Martingale 467<br />

Satz 21.55. Sei W eine Brown’sche Bewegung. Dann gilt V 1<br />

t (W )=∞ fast sicher<br />

für jedes t>0.<br />

Beweis. Es reicht, t =1zu betrachten und zu zeigen, dass<br />

Yn :=<br />

2 n<br />

� �<br />

�<br />

i=1<br />

�Wi2−n − W (i−1)2−n� n→∞<br />

�<br />

−→ ∞ f.s. (21.52)<br />

Es ist E[Yn] =2 n/2 E[|W1|] =2 n/2� 2/π und Var[Yn] =1− 2/π. Nach der<br />

Chebyshev’schen Ungleichung ist<br />

∞�<br />

n=1<br />

�<br />

P Yn ≤ 1<br />

2 2n/2� �<br />

2/π ≤<br />

∞�<br />

n=1<br />

2π − 4<br />

2 n<br />

=2π− 4 < ∞.<br />

Nach dem Lemma von Borel-Cantelli folgt (21.52). ✷<br />

Offenbar ist die Variation ein zu grobes Maß, um wesentliche Pfadeigenschaften<br />

der Brown’schen Bewegung zu messen. Wir wollen daher statt der Zuwächse (in<br />

der Definition der Variation) die (kleineren) quadratischen Zuwächse summieren.<br />

Für die Definition dieser quadratischen Variation ist etwas mehr Vorsicht nötig als<br />

in Definition 21.52 für die Variation.<br />

Definition 21.56. Eine Folge P = (P n )n∈N von abzählbaren Teilmengen von<br />

[0, ∞)<br />

P n := {t0,t1,t2,...} mit 0=t0


468 21 Die Brown’sche Bewegung<br />

Definition 21.58. Für stetige F, G : [0, ∞) → R und p ≥ 1 definieren wir die<br />

p-Variation von G (entlang P) durch<br />

� � �<br />

P,p<br />

(G) :=V (G) := lim �Gt ′ − Gt<br />

�p für T ≥ 0,<br />

V p<br />

T<br />

T<br />

n→∞<br />

t∈Pn T<br />

falls der Grenzwert existiert. Speziell heißt 〈G〉 := V 2 (G) die quadratische Variation<br />

von G. IstT ↦→ V 2 T (G) stetig, so schreiben wir G ∈CqV := C P qV .<br />

Existiert für jedes T ≥ 0 der Grenzwert<br />

�<br />

V P,2<br />

T (F, G) := lim<br />

n→∞<br />

t∈Pn T<br />

� �� �<br />

Ft ′ − Ft Gt ′ − Gt ,<br />

so nennen wir 〈F, G〉 := V 2 (F, G) :=V P,2 (F, G) die quadratische Kovariation<br />

von F und G (entlang P).<br />

p′<br />

(G) < ∞, soistVT (G) =0. Speziell ist<br />

〈G〉 ≡0, falls G von lokal endlicher Variation ist. ✸<br />

Bemerkung 21.59. Ist p ′ >pund V p<br />

T<br />

Bemerkung 21.60. Aufgrund der Dreiecksungleichung ist<br />

� � � � � �<br />

�Gt ′ − Gt<br />

� ≥ �Gt ′ − Gt<br />

� für alle n ∈ N, T≥ 0.<br />

t∈P n+1<br />

T<br />

t∈P n T<br />

Daher existiert der Limes im Fall p =1stets und stimmt, unabhängig von der Zerlegungsfolge<br />

P, mit V 1 (G) aus Definition 21.52 überein. Ähnliche Ungleichungen<br />

gelten für V 2 nicht, daher braucht der Limes nicht zu existieren oder kann von der<br />

Wahl von P abhängen. Wir werden im Folgenden jedoch für die Pfade einer großen<br />

Klasse von stetigen stochastischen Prozessen zeigen, dass V 2 zumindest für eine<br />

geeignete Zerlegungsfolge fast sicher existiert und (unabhängig von der gewählten<br />

Zerlegungsfolge) fast sicher eindeutig ist. ✸<br />

Bemerkung 21.61. (i) Existieren 〈F + G〉T und 〈F − G〉T , so existiert die Kovarianz<br />

〈F, G〉T , und es gilt die Polarisationsformel<br />

〈F, G〉T = 1�<br />

�<br />

〈F + G〉T −〈F − G〉T .<br />

4<br />

(ii) Existieren 〈F 〉T , 〈G〉T und 〈F, G〉T , so folgt aus der Cauchy-Schwarz’schen<br />

Ungleichung für die approximierenden Summen<br />

� � �<br />

〈F, G〉T ≤ 〈F 〉T 〈G〉T . ✸<br />

V 1 T<br />

Bemerkung 21.62. Ist f ∈ C1 (R) und G ∈CqV, soist(Übung!) im Sinne des<br />

Lebesgue-Stieltjes Integrals<br />

〈f(G)〉T =<br />

� T<br />

0<br />

(f ′ (Gs)) 2 d〈G〉s. ✸


21.10 Quadratische Variation und lokale Martingale 469<br />

Korollar 21.63. Ist F von lokal endlicher quadratischer Variation und gilt 〈G〉 ≡0<br />

(speziell also, falls G von lokal endlicher Variation ist), so ist 〈F, G〉 ≡ 0 und<br />

〈F + G〉 = 〈F 〉.<br />

Satz 21.64. Für die Brown’sche Bewegung W und jede zulässige Zerlegungsfolge<br />

gilt<br />

〈W 〉T = T für alle T ≥ 0 f.s.<br />

Beweis. Wir beweisen dies nur für den Fall, wo<br />

∞�<br />

|P n | < ∞ (21.53)<br />

n=1<br />

gilt. Für den allgemeinen Fall skizzieren wir das Vorgehen.<br />

Gelte also (21.53). Falls 〈W 〉 existiert, ist T ↦→ 〈W 〉T monoton wachsend. Daher<br />

reicht es zeigen, dass 〈W 〉T für jedes T ∈ Q + = Q ∩ [0, ∞) existiert und 〈W 〉T =<br />

T fast sicher gilt. Da ( � Wt)t≥0 = � T −1/2 �<br />

WtT eine Brown’sche Bewegung ist<br />

t≥0<br />

und 〈 � W 〉1 = T −1 〈W 〉T gilt, reicht es, den Fall T =1zu betrachten.<br />

Setze<br />

Yn := �<br />

t∈Pn 2<br />

(Wt ′ − Wt) für alle n ∈ N.<br />

1<br />

Dann ist E[Yn] = �<br />

t∈Pn (t<br />

1<br />

′ − t) =1 und<br />

Var[Yn] = �<br />

Var � (Wt ′ − Wt) 2� = �<br />

(t ′ − t) 2 ≤ 2 |P n |.<br />

t∈P n 1<br />

t∈P n 1<br />

Nach Voraussetzung (21.53) gilt also �∞ n=1 Var[Yn] ≤ 2 �∞ n=1 |Pn | < ∞, also<br />

n→∞<br />

gilt Yn −→ 1 fast sicher.<br />

Verzichten wir auf die Bedingung (21.53), so gilt immer noch Var[Yn] n→∞<br />

−→ 0,<br />

also Vn<br />

n→∞<br />

−→ 1 stochastisch. Es ist allerdings nicht zu schwer zu zeigen, dass<br />

(Yn)n∈N ein Rückwärtsmartingal ist (siehe etwa [132, Theorem I.28]) und daher<br />

fast sicher gegen 1 konvergiert. ✷<br />

Korollar 21.65. Sind W und � W unabhängige Brown’sche Bewegungen, so gilt<br />

〈W, � W 〉T =0.<br />

Beweis. Die stetigen Prozesse ((W + � W )/ √ 2) und (W − � W )/ √ 2) haben unabhängige,<br />

normalverteilte Zuwächse, sind also Brown’sche Bewegungen. Nach<br />

Bemerkung 21.61(i) gilt<br />

4 � W, � W �<br />

T = � W + � W �<br />

T − � W − � W �<br />

T<br />

2 � (W + � W )/ √ 2 �<br />

T − 2� (W − � W )/ √ 2 �<br />

=2T − 2T =0. ✷<br />

T


470 21 Die Brown’sche Bewegung<br />

Nach Übung 21.4.2 ist (W 2 t − t)t≥0 ein stetiges Martingal. Offenbar ist auch<br />

(Wt � Wt )t≥0 ein stetiges Martingal. Nach dem Gezeigten sind also die Prozesse<br />

W 2 −〈W 〉 und W � W −〈W, � W 〉 Martingale. Wir werden sehen (Satz 21.70), dass<br />

die quadratische Variation 〈M(ω)〉 eines quadratintegrierbaren, stetigen Martingals<br />

M stets existiert (für fast alle ω), und dass der Prozess 〈M〉 eindeutig charakterisiert<br />

ist durch die Eigenschaft, dass M 2 −〈M〉 ein Martingal ist.<br />

Um eine ähnliche Aussage auch für stetige Martingale zu erhalten, die nicht quadratisch<br />

integrierbar sind, treffen wir die folgende Definition.<br />

Definition 21.66 (Lokales Martingal). Sei F eine Filtration auf (Ω,F, P) und τ<br />

ein F-Stoppzeit. Ein adaptierter, reeller stochastischer Prozess M =(Mt)t≥0 heißt<br />

lokales Martingal bis τ, falls es eine Folge (τn)n∈N von Stoppzeiten gibt mit τn ↑ τ<br />

fast sicher, und so, dass für jedes n ∈ N der gestoppte Prozess M τn =(Mτn∧t)t≥0<br />

ein gleichgradig integrierbares Martingal ist. Eine solche Folge (τn)n∈N heißt lokalisierende<br />

Folge für M. M heißt lokales Martingal schlechthin, falls M ein lokales<br />

Martingal bis τ ≡∞ist. Mit Mloc,c bezeichnen wir den Raum der stetigen lokalen<br />

Martingale.<br />

Bemerkung 21.67. Sei M ein stetiger, adaptierter Prozess und τ eine Stoppzeit.<br />

Dann sind äquivalent:<br />

(i) M ist ein lokales Martingal bis τ.<br />

(ii) Es gibt eine Folge (τn)n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass<br />

jedes M τn ein Martingal ist.<br />

(iii) Es gibt eine Folge (τn)n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass<br />

jedes M τn ein beschränktes Martingal ist.<br />

In der Tat: (iii) =⇒ (i) =⇒ (ii) ist trivial. Gelte also (ii), und sei τ ′ n definiert durch<br />

τ ′ n := inf{t ≥ 0: |Mt| ≥n} für jedes n ∈ N.<br />

Da M stetig ist, gilt τ ′ n ↑∞.Alsoist (σn)n∈N := (τn ∧ τ ′ n) eine lokalisierende<br />

Folge für M, sodass jedes M σn ein beschränktes Martingal ist. ✸<br />

Bemerkung 21.68. Ein beschränktes lokales Martingal M ist stets auch ein Martingal.<br />

In der Tat: Ist |Mt| ≤C


21.10 Quadratische Variation und lokale Martingale 471<br />

Beispiel 21.69. (i) Ein Martingal ist offenbar stets ein lokales Martingal.<br />

(ii) In Bemerkung 21.68 hatten wir gesehen, dass beschränkte lokale Martingale<br />

auch Martingale sind. Andererseits ist selbst ein gleichgradig integrierbares lokales<br />

Martingal nicht notwendigerweise ein Martingal: Sei W =(W 1 ,W 2 ,W 3 )<br />

eine dreidimensionale Brown’sche Bewegung (das heißt, W 1 , W 2 und W 3 sind<br />

unabhängige Brown’sche Bewegungen) mit Start in W0 = x ∈ R 3 \{0}. Sei<br />

u(y) =�y� −1<br />

für y ∈ R d \{0}.<br />

Man prüft leicht nach, dass u harmonisch ist, dass also △ u(y) =0ist für alle<br />

y �= 0. Wir werden später sehen (Korollar 25.33 zur Itô-Formel), dass hieraus folgt,<br />

dass M := (u(Wt))t≥0 ein lokales Martingal ist. Durch<br />

τn := inf � t>0: Mt ≥ n � =inf � t>0: �Wt� ≤1/n � , n ∈ N,<br />

wird eine lokalisierende Folge für M definiert. Andererseits liefert eine explizite<br />

−1/2 Rechnung mit der dreidimensionalen Normalverteilung E[Mt] ≤ t<br />

t→∞<br />

−→ 0,<br />

also ist M integrierbar aber kein Martingal. Wegen Mt<br />

t→∞<br />

−→ 0 in L1 ist M sogar<br />

gleichgradig integrierbar. ✸<br />

Satz 21.70. Sei M ein stetiges lokales Martingal.<br />

(i) Es existiert ein eindeutig bestimmter, stetiger, monoton wachsender, adaptierter<br />

Prozess 〈M〉 =(〈M〉t)t≥0 mit 〈M〉0 =0, sodass gilt:<br />

� �<br />

2<br />

Mt −〈M〉t ist ein stetiges lokales Martingal.<br />

t≥0<br />

(ii) Ist M ein stetiges, quadratisch integrierbares Martingal, so ist M 2 −〈M〉<br />

ein Martingal.<br />

(iii) Für jede zulässige Zerlegungsfolge P =(Pn )n∈N gilt<br />

U n T := �<br />

t∈P n T<br />

� �2 n→∞<br />

Mt ′ − Mt −→ 〈M〉T stochastisch für alle T ≥ 0.<br />

Der Prozess 〈M〉 heißt quadratischer Variationsprozess von M.<br />

Bemerkung 21.71. Indem wir in (iii) gegebenenfalls zu einer (von T abhängigen)<br />

Teilfolge P ′ übergehen, können wir annehmen, dass U n T<br />

n→∞<br />

−→ 〈M〉T fast sicher<br />

gilt. Durch ein Diagonalfolgenargument erhalten wir (wie im Beweis des Satzes von<br />

n→∞<br />

−→ 〈M〉T fast sicher für alle T ∈ Q +<br />

und T ↦→ 〈M〉T<br />

−→ 〈M〉T für alle T ≥ 0 fast sicher. Also ist für diese Zerlegungsfolge<br />

Helly) eine Zerlegungsfolge, sodass U n T<br />

gilt. Aufgrund der Monotonie und der Stetigkeit von T ↦→ U n T<br />

folgt U n n→∞<br />

T


472 21 Die Brown’sche Bewegung<br />

die pfadweise definierte quadratische Variation fast sicher gleich dem quadratischen<br />

Variationsprozess:<br />

〈M(ω)〉 = V 2 (M(ω)) = 〈M〉(ω). ✸<br />

Beweis (von Satz 21.70). Schritt 1. Sei zunächst |Mt| ≤C fast sicher für<br />

alle t ≥ 0 für ein C


21.10 Quadratische Variation und lokale Martingale 473<br />

Da M ein Martingal ist, ist für s1,s2 ∈Pm T und t1 ∈Pn s1,s ′ , t2<br />

1<br />

∈Pn s2,s ′ t1


474 21 Die Brown’sche Bewegung<br />

Damit ist (21.55) gezeigt.<br />

Schritt 2. Sei nun M ∈Mloc,c und (τN )N∈N eine lokalisierende Folge, sodass<br />

jedes M τN ein beschränktes Martingal ist (siehe Bemerkung 21.67). Nach Schritt 1<br />

gilt für T ≥ 0 und N ∈ N<br />

U N,n<br />

T<br />

:= �<br />

t∈P n T<br />

� M τN<br />

t ′<br />

τN<br />

− M<br />

t<br />

� 2 n→∞<br />

−→ 〈M τN 〉T in L 2 .<br />

Wegen U N,n<br />

T = U N+1,n<br />

T , falls T ≤ τN , gibt es einen stetigen Prozess U mit<br />

U N,n n→∞<br />

T −→ UT stochastisch, falls T ≤ τN . Also gilt 〈M τN 〉T = 〈M〉T := UT ,<br />

falls T ≤ τN .WegenτN↑∞fast sicher, gilt für alle T ≥ 0<br />

U n T<br />

n→∞<br />

−→ 〈M〉T stochastisch.<br />

Da � (M τN<br />

T )2 −〈MτN �<br />

〉T T ≥0 ein stetiges Martingal ist und 〈M τN 〉 = 〈M〉 τN gilt,<br />

folgt M 2 −〈M〉 ∈Mloc,c.<br />

Schritt 3. Wir müssen noch (ii) zeigen. Sei also M ein stetiges, quadratintegrierbares<br />

Martingal und (τn)n∈N eine lokalisierende Folge für das lokale Martingal<br />

M 2 −〈M〉. SeiT > 0 und τ ≤ T eine Stoppzeit. Da M 2 ein nichtnegatives<br />

Submartingal ist, ist M 2 τn∧τ ≤ E[MT |Fτn∧τ ], also ist (M 2 τn∧τ )n∈N gleichgradig<br />

integrierbar und damit<br />

E � M 2� τ = lim<br />

n→∞ E�M 2 �<br />

τn∧τ = lim<br />

n→∞ E� � � � � � � � 2 2<br />

〈M〉τn∧τ +E M0 = E 〈M〉τ +E M0 ,<br />

wobei wir im letzten Schritt den Satz über monotone Konvergenz ausgenutzt haben.<br />

Nach dem Optional Sampling Theorem ist also M 2 −〈M〉 ein Martingal.<br />

Schritt 4. (Eindeutigkeit) Seien A und A ′ stetige, monoton wachsende, adaptierte<br />

Prozesse mit A0 = A ′ 0, sodass M 2 − A und M 2 − A ′ lokale Martingale sind.<br />

Dann ist auch N = A − A ′ ein lokales Martingal, und für fast alle ω hat der Pfad<br />

N(ω) endliche Variation. Daher ist 〈N〉 ≡0 und damit N 2 −〈N〉 = N 2 ein stetiges<br />

lokales Martingal mit N0 =0.Sei(τn)n∈Neine lokalisierende Folge für N 2 .Dann<br />

ist E � N 2 �<br />

2<br />

τn∧t =0für jedes n ∈ N und t ≥ 0, also ist Nτn∧t =0fast sicher und<br />

damit N 2 t = limn→∞ N 2 τn∧t =0fast sicher. Es folgt A = A ′ . ✷<br />

Korollar 21.72. Sei M ein stetiges lokales Martingal mit 〈M〉 ≡0. Dann ist Mt =<br />

M0 für alle t ≥ 0 fast sicher. Speziell gilt dies, falls die Pfade von M von lokal<br />

endlicher Variation sind.<br />

Korollar 21.73. Seien M,N ∈ Mloc,c. Dann existiert ein eindeutig bestimmter<br />

stetiger, adaptierter Prozess 〈M,N〉 von fast sicher lokal endlicher Variation mit<br />

〈M,N〉0 =0, sodass gilt:<br />

MN −〈M,N〉 ist ein stetiges lokales Martingal.


21.10 Quadratische Variation und lokale Martingale 475<br />

〈M,N〉 heißt quadratischer Kovariationsprozess von M und N. Es gilt für jede<br />

zulässige Zerlegungsfolge P und jedes T ≥ 0<br />

�<br />

〈M,N〉T = lim<br />

n→∞<br />

t∈Pn T<br />

� �� �<br />

Mt ′ − Mt Nt ′ − Nt stochastisch. (21.60)<br />

Beweis. Existenz. Offenbar gilt M + N,M − N ∈Mloc,c.Wirdefinieren<br />

〈M,N〉 := 1�<br />

�<br />

〈M + N〉−〈M − N〉 .<br />

4<br />

Als Differenz monoton wachsender Funktionen ist 〈M,N〉 von lokal endlicher Variation.<br />

Wegen Satz 21.70(iii) folgt (21.60). Weiter ist<br />

MN −〈M,N〉 = 1�<br />

� 2 1�<br />

�<br />

2<br />

(M + N) −〈M + N〉 − (M − N) −〈M − N〉<br />

4<br />

4<br />

ein lokales Martingal.<br />

Eindeutigkeit. Seien A und A ′ mit A0 = A ′ 0 = 0 stetig, adaptiert und von<br />

lokal endlicher Variation, sodass MN − A und MN − A ′ in Mloc,c sind. Dann ist<br />

A − A ′ ∈Mloc,c von lokal endlicher Variation, also A − A ′ =0. ✷<br />

Korollar 21.74. Ist M ∈Mloc,c und A stetig und adaptiert mit 〈A〉 ≡0, soist<br />

〈M + A〉 = 〈M〉.<br />

Ist M ein stetiges lokales Martingal bis zur Stoppzeit τ, soistM τ ∈Mloc,c, und<br />

wir schreiben 〈M〉t := 〈M τ 〉t für t


476 21 Die Brown’sche Bewegung<br />

E � M τ0<br />

� �<br />

�Fs t = E<br />

�<br />

lim<br />

n→∞<br />

M τ0∧τn<br />

t<br />

= lim<br />

n→∞ E�M τ0∧τn<br />

t<br />

= lim<br />

n→∞<br />

M τ0∧τn<br />

s<br />

� �<br />

�Fs<br />

�<br />

� Fs<br />

�<br />

= M τ0<br />

s .<br />

Also ist M τ0 ein Martingal. ✷<br />

Korollar 21.76. Ist M ∈Mloc,c und E � �<br />

〈M〉t < ∞ für jedes t ≥ 0, soistMein quadratintegrierbares Martingal.<br />

Übung 21.10.1. Zeige, dass die Zufallsvariablen (Yn)n∈N aus dem Beweis von<br />

Satz 21.64 ein Rückwärtsmartingal bilden. ♣<br />

Übung 21.10.2. Sei f :[0, ∞) → R stetig und X ∈CP qV für die zulässige Zerlegungsfolge<br />

P. Man zeige:<br />

� T<br />

0<br />

f(s) d〈X〉s = lim<br />

�<br />

n→∞<br />

t∈Pn T<br />

f(t) � 2<br />

Xt ′ − Xt)<br />

für alle T ≥ 0. ♣<br />

Übung 21.10.3. Man zeige durch ein Gegenbeispiel: Ist M ein stetiges lokales Martingal<br />

mit M0 =0und τ ein Stoppzeit mit E � �<br />

〈M〉τ = ∞, so folgt hieraus nicht<br />

notwendigerweise E � M 2 �<br />

τ = ∞. ♣


22 Gesetz vom iterierten Logarithmus<br />

Für Summen unabhängiger Zufallsvariablen kennen wir bislang zwei Grenzwertsätze:<br />

das Gesetz der großen Zahl und den Zentralen Grenzwertsatz. Das Gesetz der<br />

großen Zahl beschreibt für großes n ∈ N das typische oder Mittelwertverhalten von<br />

Summen von n Zufallsvariablen, während der Zentrale Grenzwertsatz die typischen<br />

Fluktuationen um diesen Mittelwert quantitativ erfasst.<br />

In Kapitel 23 werden wir die untypisch großen Fluktuationen (große Abweichungen)<br />

quantitativ erfassen. Dagegen ist das Thema dieses Kapitels die genauere quantitative<br />

Erfassung der typischen Fluktuationen, aber nun im gesamten zeitlichen Verlauf<br />

n →∞. Die Botschaft lautet in etwa: Während zu fester Zeit die Partialsumme<br />

Sn um etwa √ n von ihrem Erwartungswert abweicht (Zentraler Grenzwertsatz), ist<br />

die maximale Fluktuation von der Ordnung √ n log log n (Satz von Hartman und<br />

Wintner, Satz 22.9).<br />

Wir beginnen mit der etwas leichteren Aufgabe, diese Fluktuationen zunächst für<br />

die Brown’sche Bewegung auszurechnen (Satz 22.1). Danach werden wir sehen,<br />

wie man Summen unabhängiger Zufallsvariablen (mit endlicher Varianz) in eine<br />

Brown’sche Bewegung einbetten kann (Satz von Skorohod, Satz 22.5), um damit<br />

die Aussage des Satzes von Hartman und Wintner zu zeigen.<br />

Wir folgen in diesem Kapitel in Teilen der Darstellung in [38, Kapitel 7.9].<br />

22.1 Iterierter Logarithmus für die Brown’sche Bewegung<br />

Sei (Bt)t≥0 eine Brown’sche Bewegung. In Beispiel 21.16 haben wir als Anwendung<br />

des Blumenthal’schen 0-1 Gesetzes gesehen, dass lim sup t↓0 Bt/ √ t = ∞ f.s.<br />

Da nach Satz 21.14 auch (tB 1/t)t≥0 eine Brown’sche Bewegung ist, folgt<br />

lim sup<br />

t→∞<br />

Bt<br />

√ t = ∞ f.s.<br />

Unser Ziel in diesem Abschnitt ist es, √ t durch eine Funktion zu ersetzen, sodass<br />

der Limes superior endlich und nichttrivial wird.


478 22 Gesetz vom iterierten Logarithmus<br />

Satz 22.1 (Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung).<br />

Es gilt<br />

Bt<br />

lim sup � =1 f.s. (22.1)<br />

t→∞ 2t log log(t)<br />

Bevor wir den Satz beweisen, bringen wir ein elementares Lemma.<br />

Lemma 22.2. Sei X ∼N0,1 standardnormalverteilt. Dann ist für jedes x>0<br />

1<br />

√ 2π<br />

1<br />

x + 1 e<br />

x<br />

−x2 /2 1<br />

≤ P[X ≥ x] ≤ √2π<br />

1<br />

x e−x2 /2 . (22.2)<br />

Beweis. Sei ϕ(t) = 1<br />

√ 2π e −t2 /2 die Dichte der Standardnormalverteilung. Partielle<br />

Integration liefert die zweite Ungleichung in (22.2):<br />

� ∞<br />

1<br />

P[X ≥ x] = (tϕ(t)) dt = −1<br />

x t t ϕ(t)<br />

�<br />

�<br />

� ∞<br />

� ∞<br />

1 1<br />

− ϕ(t) dt ≤<br />

x x t2 x ϕ(x).<br />

Analog ist<br />

P[X ≥ x] ≥ 1 1<br />

ϕ(x) −<br />

x x2 � ∞<br />

ϕ(t) dt =<br />

x<br />

1 1<br />

ϕ(x) − P[X ≥ x].<br />

x x2 Hieraus folgt die erste Ungleichung in (22.2). ✷<br />

Beweis von Satz 22.1<br />

1. Schritt: ≤“ Betrachte zunächst die Folge tn = α<br />

” n für ein α>1. Später<br />

wollen wir α ↓ 1 gehen lassen. Setze f(t) = 2α2log log t. Dann ist nach dem<br />

Spiegelungsprinzip (Satz 21.19) und mit der Abkürzung B [a,b] := {Bt : t ∈ [a, b]}<br />

�<br />

P sup B [tn,tn+1] > � � �<br />

tnf(tn) ≤ P t −1/2<br />

n+1 sup B [0,tn+1] > � �<br />

f(tn)/α<br />

�<br />

= P sup B [0,1] > � �<br />

f(tn)/α<br />

�<br />

α<br />

≤<br />

f(tn) e−f(tn)/2α<br />

= (log α) −α<br />

�<br />

α<br />

f(tn) n−α<br />

(22.3)<br />

≤ n −α<br />

wobei wir im vorletzten Schritt benutzt haben, dass<br />

für hinreichend großes n,<br />

f(tn)<br />

2α = α� log(n log α) � = α log n + α log log α.


22.1 Iterierter Logarithmus für die Brown’sche Bewegung 479<br />

Wegen α>1 ist die rechte Seite von (22.3) summierbar in n<br />

∞� �<br />

P sup B [tn,tn+1] > � �<br />

tnf(tn) < ∞.<br />

n=1<br />

Das Lemma von Borel-Cantelli (Satz 2.7) liefert jetzt (merke: t ↦→ � tf(t) ist monoton<br />

wachsend)<br />

Bt<br />

lim sup � ≤ 1 f.s.<br />

t→∞ tf(t)<br />

Wir lassen α ↓ 1 gehen und erhalten<br />

lim sup<br />

t→∞<br />

Bt<br />

√ 2t log log t ≤ 1 f.s. (22.4)<br />

2. Schritt: ” ≥“ Wir zeigen nun die andere Ungleichung in (22.1). Hierfür lassen<br />

wir α →∞gehen. Setze β := α<br />

α−1<br />

> 1 und g(t) = 2<br />

β 2 log log t.Wähle n0 so groß,<br />

dass βg(tn) ≥ 1 ist für n ≥ n0. Dann ist nach der Brown’schen Skalierung (merke:<br />

tn − tn−1 = 1<br />

β tn) und (22.2) (wegen (x + 1<br />

x )−1 ≥ 1 1<br />

2 x für x =(βg(tn)) 1/2 ≥ 1)<br />

�<br />

P Btn − Btn−1 > � � �<br />

tng(tn) = P B1 > � �<br />

βg(tn)<br />

≥ 1 1 1<br />

√ �<br />

2π 2 βg(tn) e−βg(tn)/2<br />

= 1 1<br />

1<br />

√ (log α)−1/β �<br />

2π 2 βg(tn) n−1/β .<br />

Ist ε ∈ (0, 1 − 1/β), soistfür hinreichend großes n ∈ N die rechte Seite der<br />

vorangehenden Gleichung ≥ n−ε n−1/β ≥ n−1 .Alsoist<br />

∞� �<br />

P Btn − Btn−1 > � �<br />

tng(tn) = ∞.<br />

n=2<br />

Die Ereignisse sind unabhängig, daher liefert das Lemma von Borel-Cantelli<br />

�<br />

P Btn − Btn−1 > � tng(tn)<br />

�<br />

für unendlich viele n =1. (22.5)<br />

tn log log tn n→∞<br />

Wegen<br />

−→ α folgt aus (22.4) zusammen mit der Symmetrie<br />

tn−1 log log tn−1<br />

der Brown’schen Bewegung für ε>0<br />

Btn−1 > −(1 + ε)α−1/2� 2tn log log tn für fast jedes n ∈ N f.s. (22.6)<br />

Aus (22.5) und (22.6) folgt<br />

lim sup<br />

n→∞<br />

Btn √ ≥<br />

2tn log log tn<br />

1<br />

β − (1 + ε)α−1/2 α − 1<br />

= − (1 + ε)α−1/2<br />

α<br />

Bt<br />

Lassen wir nun α →∞, so erhalten wir lim sup √ ≥ 1 f.s. Zusammen<br />

t→∞ 2t log log t<br />

mit (22.4) folgt die Aussage des Satzes. ✷<br />

f.s.


480 22 Gesetz vom iterierten Logarithmus<br />

Korollar 22.3. Es gilt fast sicher lim sup<br />

t↓0<br />

Bt<br />

� 2t log log(1/t) =1.<br />

Beweis. Nach Satz 21.14 ist (tB 1/t) eine Brown’sche Bewegung. Wende hierauf<br />

Satz 22.1 an. ✷<br />

Bemerkung 22.4. Die Aussage von Korollar 22.3 betrifft die typischen Punkte der<br />

Brown’schen Bewegung B. Wie sieht es aber aus, wenn wir nach der Existenz von<br />

Punkten t fragen, in denen sich B schneller als � 2t log log(1/t) bewegt? Auskunft<br />

gibt hier ein Satz von Paul Lévy [103]: Bezeichnen wir mit h(δ) := � 2δ log(1/δ)<br />

den Lévy’schen Stetigkeitsmodul,soist<br />

�<br />

P lim<br />

δ↓0<br />

sup |Bt − Bs|/h(δ) =1<br />

s,t∈[0,1]<br />

0≤t−s≤δ<br />

�<br />

=1. (22.7)<br />

(Siehe etwa [137, Theorem I.2.5] für einen Beweis.) Hieraus folgt insbesondere,<br />

-stetig ist. ✸<br />

dass B fast sicher nicht lokal Hölder- 1<br />

2<br />

22.2 Skorohod’scher Einbettungssatz<br />

Um das Ergebnis des vorigen Abschnitts auf Summen von quadratintegrierbaren,<br />

zentrierten Zufallsvariablen zu übertragen, brauchen wir eine Einbettung von solchen<br />

Zufallsvariablen in eine Brown’sche Bewegung. Die gewünschte Darstellung<br />

liefert der Satz von Skorohod. Mit dieser Technik lässt sich auch ein alternativer<br />

Beweis des Satzes von Donsker (Invarianzprinzip, Satz 21.43) angeben.<br />

Satz 22.5 (Skorohod’scher Einbettungssatz). Sei X eine reelle Zufallsvariable<br />

mit E[X] =0und Var[X] < ∞. Dann existiert auf einem geeigneten Wahrscheinlichkeitsraum<br />

eine Filtration F und eine Brown’sche Bewegung B, die ein<br />

F-Martingal ist, sowie eine F–Stoppzeit τ mit<br />

Bτ<br />

D<br />

= X und E[τ] =Var[X].<br />

Bemerkung 22.6. Man kann auch zeigen, dass F = σ(B) gewählt werden kann.<br />

Das ist allerdings aufwändiger und wird hier nicht benötigt. ✸<br />

Korollar 22.7. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =0und<br />

Var[X1] < 1. Ferner sei Sn = X1 + ...+ Xn, n ∈ N. Dann gibt es auf einem<br />

geeigneten Wahrscheinlichkeitsraum eine Filtration F und eine Brown’sche Bewe-<br />

gung B, die ein F-Martingal ist, sowie F–Stoppzeiten 0=τ0 ≤ τ1 ≤ τ2 ≤ ...mit:<br />

(τn − τn−1)n∈N ist u.i.v., E[τ1] =Var[X1] und (Bτn )n∈N<br />

D<br />

=(Sn)n∈N.


22.2 Skorohod’scher Einbettungssatz 481<br />

Zur Vorbereitung des Beweises bringen wir ein Lemma. Wir wollen dabei als Integranden<br />

Maße zulassen. Wir verwenden deshalb folgende Notation: Ist μ ∈M(E)<br />

ein Maß und f ∈L 1 (μ) nichtnegativ, so wird � μ(dx)f(x)δx := fμ definiert, wobei<br />

fμdas Maß mit Dichte f bezüglich μ ist. Dies ist konsistent, denn für messbares<br />

A ⊂ E ist dann<br />

��<br />

μ(dx)f(x)δx<br />

� �<br />

(A) =<br />

�<br />

μ(dx)f(x)δx(A) = μ(dx)f(x) A(x) =fμ(A).<br />

Lemma 22.8. Sei μ ∈M1(R) mit � xμ(dx) =0und σ2 := � x2 μ(dx) < ∞.<br />

Dann existiert ein W-Maß θ ∈M1((−∞, 0) × [0, ∞)) mit<br />

� �<br />

v<br />

μ = θ(d(u, v))<br />

v − u δu + −u<br />

v − u δv<br />

�<br />

. (22.8)<br />

Es ist σ 2 = − � uv θ(d(u, v)).<br />

Beweis. Wir setzen m := �<br />

Dann ist<br />

[0,∞)<br />

vμ(dv) =− �<br />

(−∞,0)<br />

uμ(du) und<br />

θ(d(u, v)) := m −1 (v − u) μ(du)μ(dv) für u


482 22 Gesetz vom iterierten Logarithmus<br />

Beweis (Satz 22.5). Wir nehmen zunächst an, dass X nur die zwei Werte u0: Bt ∈{u, v} � .<br />

D<br />

Nach Übung 21.2.4 ist E[Bτu,v ]=0also Bτu,v = X,sowieE[τu,v] =−uv.<br />

Sei nun X beliebig mit E[X] =0und σ2 := E[X2 ] < ∞. Setze μ = PX und<br />

θ = θμ wie in Lemma 22.8. Ferner sei Ξ =(Ξu,Ξv) eine Zufallsvariable mit<br />

Werten in (−∞, 0) × [0, ∞) und Verteilung θ.<br />

Sei F =(Ft)t≥0, wobei Ft := σ(Ξ, Bs : s ∈ [0,t]) ist. Setze τ := τΞu,Ξv .Auf<br />

Grund der Stetigkeit von B und wegen τ ≤ τu,v, falls uΞv, istfür<br />

jedes t ≥ 0<br />

{τ ≤ t} = �<br />

u,v∈Q<br />

u


Für n ∈ N und σ ∈{−, +} n setzen wir<br />

22.2 Skorohod’scher Einbettungssatz 483<br />

(σ, +) := (σ1,...,σn, +) ∈{−, +} n+1 .<br />

Für σ ∈{−, +} 0 := {∅} setzen wir (∅, +) = (+). Analog verfahren wir für (σ, −).<br />

Wir definieren sukzessive Mengen A σ und Punkte μ σ für σ ∈{−, +} n , n ∈ N0<br />

durch<br />

A ∅ := R, μ ∅ := E[X],<br />

A (σ,−) := A σ ∩ (−∞,μ σ ), A (σ,+) := A σ ∩ [μ σ , ∞),<br />

μ (σ,+) := E � X � � (σ,+)<br />

X ∈ A � ,<br />

� � �<br />

E X �X ∈ A (σ,−)� , falls P � X ∈ A (σ,−)� > 0,<br />

μ (σ,−) :=<br />

μ σ , sonst.<br />

Man beachte, dass die Abbildung σ ↦→ μσ monoton ist in der lexikographischen<br />

Ordnung ((σ, −) ≤ σ ≤ (σ, +) für jedes σ).<br />

Setze<br />

Gn := σ � {X ∈ A σ },σ∈{−, +} m ,m≤ n �<br />

für n ∈ N0,<br />

und G∞ := σ( �<br />

n∈N Gn). Dannist<br />

Xn := E[X � � Gn] für n ∈ N0,<br />

ein Martingal bezüglich der Filtration (Gn)n∈N0 . Nach der Jensen’schen Ungleichung<br />

ist E[X2 n] ≤ E[X2 ] < ∞ für jedes n ∈ N0. Nach dem L2-Martingalkonver genzsatz (Satz 11.10) gilt daher<br />

Xn<br />

n→∞<br />

−→ X∞ := E[X � �G∞] f.s. und in L 2 . (22.9)<br />

Für x ∈ R und n ∈ N sei σ(n, x) =(σ1(n, x),...,σn(n, x)) ∈{−, +} n (eindeutig)sogewählt,<br />

dass x ∈ A σ(n,x) . Offenbar ist dann σm(n, x) =σm(n ′ ,x)<br />

für alle n, n ′ ≥ m, also existiert ein (eindeutiges) σ(x) ∈{−, +} N mit σ(n, x) =<br />

(σ1(x),...,σn(x)) (der projektive Limes der σ(n, x), n ∈ N). Es ist dann<br />

Ferner ist<br />

μ σ(x)<br />

n<br />

x ∈ A σ(x)<br />

n<br />

:= μ (σ1(x),...,σn(x)) ⎧<br />

⎨<br />

=<br />

⎩<br />

:= A (σ1(x),...,σn(x)) .<br />

Setze fn(x) :=μ σ(x)<br />

n , f∞ = lim inf<br />

n→∞ fn(x). Dannist<br />

sup A σ(x)<br />

n+1 , falls σn+1 = −<br />

inf A σ(x)<br />

n+1 , falls σn+1 =+.<br />

fn(X) =E[X � � Gn] fast sicher für jedes n ∈ N ∪{∞}.<br />

(22.10)


484 22 Gesetz vom iterierten Logarithmus<br />

Wir nehmen daher im Folgenden an, dass wir die Version Xn := fn(X), n ∈<br />

N ∪{∞}fest gewählt haben. Offenbar sind fn, n ∈ N, und f∞ monoton wachsend.<br />

Schließlich setzen wir noch Aσ(x) := �∞ .<br />

n=1 Aσ(x) n<br />

1. Schritt Wir zeigen, dass X∞ = X f.s. Sei zunächst |X| ≤ C f.s. für ein<br />

C>0. Wir berechnen<br />

E[(Xn − Xn−1) 2 �<br />

]=E E � (Xn − Xn−1) 2 � �<br />

�Gn−1 �<br />

�<br />

≥ E E � |Xn − Xn−1| � � �<br />

2 �Gn−1 �<br />

= E E � |X − Xn−1| � � �<br />

2 �Gn−1 Auf Grund der Martingaleigenschaft ist<br />

≥ E � |X − Xn−1|] 2 ≥ (2C) −2 E � (X − Xn−1) 2� 2<br />

E � (X − Xn) 2� = E � (X − Xn−1) 2� − E � (Xn − Xn−1) 2� .<br />

Setzen wir an := E � (X − Xn) 2� /(4C 2 ), so folgt a0 ≤ 1 und<br />

an ≤ an−1 − a 2 n−1<br />

für jedes n ∈ N.<br />

1<br />

Induktiv erhalten wir an ≤ 1/(n +1),dennesista1≤ max x(1 − x) =<br />

x∈[0,1]<br />

4 , und<br />

für n ≥ 2 ist wegen an−1 ≤ 1/2<br />

an ≤ max<br />

x∈[0,an−1] x(1 − x) =an−1(1<br />

n − 1<br />

− an−1) ≤<br />

n2 n − 1<br />

≤<br />

n2 1<br />

=<br />

− 1 n +1 .<br />

Es folgt Xn<br />

n→∞<br />

−→ X in L2 und damit X∞ = X fs.<br />

Sei nun X nicht mehr notwendigerweise beschränkt. Für K>0 setzen wir<br />

X K ⎧<br />

⎨<br />

X, falls |X| ≤K,<br />

:= E[X |X >K],<br />

⎩<br />

E[X |X K,<br />

falls X


22.2 Skorohod’scher Einbettungssatz 485<br />

2. Schritt Wir zeigen: die Folge (Xn)n∈N0 ist ein Markovprozess mit (inhomogenen)<br />

Übergangswahrscheinlichkeiten<br />

P � Xn+1 = μ (σ,±) � �<br />

� (σ,∓) σ<br />

�<br />

μ − μ<br />

Gn] =<br />

� �<br />

μ (σ,+) − μ (σ,−) , falls Xn = μ σ . (22.11)<br />

Hierdurch ist die Verteilung von (Xn)n∈N0 natürlich eindeutig festgelegt.<br />

Offenbar ist (Xn)n∈N0 ein Markovprozess, weil σ(Xn) =Gn per Konstruktion gilt.<br />

Aus der Martingaleigenschaft E[Xn+1|Xn = μ σ ]=μ σ ergeben sich die Übergangswahrscheinlichkeiten.<br />

3. Schritt Wir definieren Stoppzeiten τ0 =0und<br />

�<br />

τn+1 := inf t ≥ τn : Bt ∈ � μ σ : σ ∈{−, +} n+1��<br />

,<br />

sowie τ := sup n∈N τn. Wegen der Monotonie von σ ↦→ μ σ liegt für σ ∈{−, +} n<br />

in (μ (σ,−) ,μ σ ) und (μ σ ,μ (σ,+) ) kein weiteres μ ϱ , ϱ ∈ {−, +} n+1 .Alsoist<br />

P[Bτn+1 ∈{μ(σ,−) ,μ (σ,+) } � �Bτn = μσ �<br />

]=1. Nach dem Optional Sampling Theorem<br />

(Übung 21.1.3) ist � E[Bτn+1<br />

Fτn ]=Bτn und damit<br />

P � Bτn+1 = μ(σ,±) � �Fτn ]=<br />

�<br />

� (σ,∓) σ μ − μ � �<br />

μ (σ,+) − μ (σ,−) , falls Bτn = μσ .<br />

Also ist (Bτn )n∈N0 ein Markovprozess mit den selben Übergangswahrscheinlichkeiten<br />

wie (Xn)n∈N0 , und damit gilt<br />

Also gilt auch Bτn<br />

Sukzessive erhält man<br />

(Bτn )n∈N0<br />

D<br />

=(Xn)n∈N0 .<br />

n→∞<br />

−→ Bτ fast sicher und Bτ<br />

E[τ1] =−μ − μ + = Var[X1].<br />

E[τn] =<br />

D<br />

= X. Ferner ist<br />

n�<br />

Var[Xm − Xm−1].<br />

m=1<br />

Da (Xn)n∈N ein Martingal ist, sind die Differenzen unkorreliert, also<br />

E[τ] =<br />

∞�<br />

n=1<br />

Var[Xn+1 − Xn] = lim<br />

n→∞ Var[Xn] =Var[X],<br />

nach (22.9) und wegen X = X∞. Damit ist der Beweis von Bemerkung 22.6 erbracht.<br />


486 22 Gesetz vom iterierten Logarithmus<br />

22.3 Satz von Hartman-Wintner<br />

Ziel dieses Abschnitts ist der Beweis des Gesetzes vom iterierten Logarithmus für<br />

u.i.v. Zufallsvariablen Xn, n ∈ N mit zweiten Momenten, der auf Hartman und<br />

Wintner (1941) (siehe [68]) zurückgeht. (In der einfacheren Situation, wo die Xn<br />

Bernoulli Zufallsvariablen sind, hat bereits Khinchin (1923) die obere Abschätzung<br />

im Gesetz vom iterierten Logarithmus gefunden.)<br />

Satz 22.9 (Hartman-Wintner, Gesetz vom iterierten Logarithmus).<br />

Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =0und Var[X1] =1.<br />

Sei Sn = X1 + ...+ Xn, n ∈ N. Dann gilt<br />

lim sup<br />

n→∞<br />

Sn<br />

√ 2n log log n =1 f.s. (22.12)<br />

Wir beweisen den Satz, indem wir ihn auf das Gesetz vom iterierten Logarithmus<br />

für die Brown’sche Bewegung zurückführen. Zu diesem Zweck fassen wir die Partialsummen<br />

Sn als Werte der Brown’schen Bewegung B zu gewissen Stoppzeiten<br />

τ1 ≤ τ2 ≤ ... auf. Dass dies funktioniert, sichert der Skorohod’sche Einbettungssatz.<br />

Beweis. Nach Korollar 22.7 gibt es auf einem geeigneten Wahrscheinlichkeitsraum<br />

ein Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist,<br />

D<br />

sowie Stoppzeiten τ1 ≤ τ2 ≤ ..., sodass (Sn)n∈N = (Bτn )n∈N. Ferner sind<br />

(τn − τn−1)n∈N u.i.v. mit E[τn − τn−1] =Var[X1] =1.<br />

Nach dem Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung (siehe<br />

Satz 22.1) ist<br />

Bt<br />

lim sup √ =1 f.s.<br />

t→∞ 2t log log t<br />

Es reicht also zu zeigen, dass<br />

lim sup<br />

t→∞<br />

Bt − Bτ ⌊t⌋<br />

√ 2t log log t =0 f.s.<br />

Nach dem starken Gesetz der großen Zahl (Satz 5.17) gilt 1<br />

nτn ε>0 und t0 = t0(ω) so groß, dass<br />

1<br />

1+ε ≤ τ⌊t⌋ ≤ 1+ε für jedes t ≥ t0.<br />

t<br />

Setze<br />

Es reicht zu zeigen, dass lim sup<br />

t→∞<br />

ε) n , n ∈ N, und setze<br />

Mt := sup<br />

s∈[t/(1+ε),t(1+ε)]<br />

|Bs − Bt|.<br />

n→∞<br />

−→ 1 f.s. Sei also<br />

Mt<br />

√ 2t log log t =0. Betrachte die Folge tn =(1+


M ′ n := sup |Bs − Btn−1<br />

s∈[tn−1,tn+2]<br />

|.<br />

Dann ist (nach der Dreiecksungleichung) für t ∈ [tn,tn+1]<br />

Mt ≤ 2M ′ n.<br />

22.3 Satz von Hartman-Wintner 487<br />

Setze δ := (1 + ε) 3 − 1. Dannisttn+2 − tn−1 = δtn−1. Brown’sche Skalierung<br />

und das Spiegelungsprinzip (Satz 21.19) ergeben nun<br />

�<br />

P M ′ n > � �<br />

3δtn−1 log log tn−1<br />

�<br />

= P sup |Bs| ><br />

s∈[0,1]<br />

� �<br />

3loglogtn−1<br />

�<br />

≤ 2 P sup Bs > � �<br />

3loglogtn−1<br />

s∈[0,1]<br />

�<br />

=4P B1 > � �<br />

3loglogtn−1<br />

�<br />

2<br />

≤ � exp −<br />

3loglogtn−1<br />

3<br />

�<br />

log log tn−1<br />

2<br />

≤ n −3/2<br />

für n hinreichend groß.<br />

(Lemma 22.2)<br />

Die Wahrscheinlichkeiten lassen sich also über n summieren, und das Lemma von<br />

Borel-Cantelli liefert<br />

lim sup<br />

t→∞<br />

Mt<br />

√ t log log t ≤ lim sup<br />

n→∞<br />

2M ′ n<br />

� tn−1 log log tn−1<br />

≤ 2 √ 3δ.<br />

Lassen wir nun ε → 0 gehen, so geht δ =(1+ε) 3 − 1 → 0, und der Beweis ist<br />

vollständig. ✷


23 Große Abweichungen<br />

Wir haben (bis auf das Gesetz vom iterierten Logarithmus) bislang zwei Typen von<br />

Grenzwertsätzen für Partialsummen Sn = X1 + ...+ Xn, n ∈ N, von identisch<br />

verteilten, reellen Zufallsvariablen (Xi)i∈N mit Verteilungsfunktion F gesehen:<br />

(1) (Schwache) Gesetze der großen Zahl besagen (unter gewissen Annahmen an die<br />

Familie (Xi)i∈N), dass für jedes x>0<br />

P �� � Sn − n E[X1] � � ≥ xn � n→∞<br />

−→ 0. (23.1)<br />

Hieraus abgeleitet erhalten wir für die empirischen Verteilungsfunktionen Fn :<br />

x ↦→ 1 �n n→∞<br />

n i=1 (−∞,x](Xi) die stochastische Konvergenz �Fn − F �∞ −→ 0.<br />

Wir wollen dies umformulieren zu: Für jede Verteilungsfunktion G �= F und<br />

jedes ε>0 mit ε


490 23 Große Abweichungen<br />

23.1 Satz von Cramér<br />

Seien X1,X2,... u.i.v. mit PXi = N0,1. Dannistfür jedes x>0<br />

P[Sn >xn]=P � X1 >x √ n � =1− Φ � x √ n � =(1+εn)<br />

wobei (nach Lemma 22.2) εn<br />

n→∞<br />

−→ 0 gilt. Es gilt also<br />

1<br />

lim<br />

n→∞ n log P�Sn >xn � = − x2<br />

2<br />

1<br />

√ 2πn e −nx2 /2 ,<br />

für jedes x>0. (23.4)<br />

Man könnte versucht sein zu glauben, dass ein Zentraler Grenzwertsatz die Aussage<br />

(23.4) auch für alle zentrierten u.i.v. Folgen (Xi) mit endlicher Varianz liefert. Dies<br />

ist allerdings falsch, wie der folgende Satz zeigt. Die großen Abweichungen werden<br />

eben stärker durch die Schwänze der Verteilung von Xi beeinflusst, als dies bei<br />

den mittleren Fluktuationen der Fall ist, die durch die Varianz komplett determiniert<br />

werden. Der folgende Satz zeigt dies exemplarisch anhand der Bernoulli-Verteilung.<br />

Satz 23.1. Seien X1,X2,...u.i.v. mit P[X1 = −1] = P[X1 =1]= 1<br />

2 . Dann gilt<br />

für jedes x ≥ 0<br />

1<br />

lim<br />

n→∞ n log P[Sn >xn]=−I(x), (23.5)<br />

wobei die Ratenfunktion I gegeben ist durch<br />

�<br />

1+z<br />

2 log(1 + z)+<br />

I(z) =<br />

1−z<br />

2 log(1 − z), falls z ∈ [−1, 1],<br />

(23.6)<br />

∞, falls |z| > 1.<br />

Bemerkung 23.2. Wir verstehen hierbei 0log0 = 0, wodurch I stetig wird in<br />

[−1, 1] mit I(−1) = I(1) = log 2. Man bemerke: I ist strikt konvex auf [−1, 1]<br />

mit I(0) = 0; I ist monoton wachsend auf [0, 1] und monoton fallend auf [−1, 0].✸<br />

Beweis. Für x = 0 und x > 1 ist die Aussage trivial. Für x = 1 ist P[Sn ≥<br />

n] =2−n , daher gilt auch hier (23.5) trivialerweise. Es reicht also, x ∈ (0, 1) zu<br />

∼ bn,1/2 binomialverteilt, also<br />

betrachten. Es ist Sn+n<br />

2<br />

P � Sn ≥ xn � =2 −n<br />

�<br />

k≥(1+x)n/2<br />

� �<br />

n<br />

.<br />

k<br />

Wir setzen an(x) =⌈n(1 + x)/2⌉ für n ∈ N und erhalten, weil k ↦→ � � n<br />

k monoton<br />

fallend ist für k ≥ n<br />

2 :<br />

�� �<br />

� � �<br />

n<br />

n<br />

Qn(x) :=max : an(x) ≤ k ≤ n = . (23.7)<br />

k<br />

an(x)


Wir machen die Abschätzung<br />

Die Stirling’sche Formel<br />

liefert nun<br />

1<br />

lim log Qn(x)<br />

n→∞ n<br />

= lim<br />

n→∞<br />

23.1 Satz von Cramér 491<br />

2 −n Qn(x) ≤ P � Sn ≥ xn � ≤ (n +1)2 −n Qn(x). (23.8)<br />

1<br />

n log<br />

1<br />

= lim<br />

n→∞ n log<br />

lim<br />

n→∞<br />

1<br />

n! nn e −n√ 2πn =1<br />

n!<br />

an(x)! · (n − an(x))!<br />

n n<br />

an(x) an(x) · (n − an(x)) n−an(x)<br />

�<br />

= lim log(n) −<br />

n→∞<br />

an(x)<br />

n log � an(x) � n − an(x)<br />

− log<br />

n<br />

� n − an(x) ��<br />

�<br />

= lim log(n) −<br />

n→∞<br />

1+x<br />

2<br />

= − 1+x<br />

2<br />

−<br />

log 1+x<br />

2<br />

1 − x<br />

2<br />

− 1 − x<br />

2<br />

�<br />

log 1+x<br />

2 +log(n)<br />

�<br />

�<br />

1 − x<br />

log<br />

2 +log(n)<br />

��<br />

log<br />

1 − x<br />

2<br />

= −I(x)+log2.<br />

Wegen (23.8) folgt hieraus (23.5). ✷<br />

Ein allgemeines Verfahren zur Bestimmung der Ratenfunktion I (unter gewissen<br />

restriktiven Annahmen an die Verteilung von (Xi)) liefert der Satz von Cramér [30].<br />

Satz 23.3 (Cramér (1938)). Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit<br />

logarithmischer momentenerzeugender Funktion<br />

Λ(t) :=logE � e tX1� < ∞ für jedes t ∈ R. (23.9)<br />

Sei<br />

Λ ∗ � �<br />

(x) :=suptx<br />

− Λ(t)<br />

t∈R<br />

für x ∈ R,<br />

die Legendre-Transformierte von Λ. Dann gilt für jedes x>E[X1]<br />

lim<br />

n→∞<br />

1<br />

n log P� Sn ≥ xn � = −I(x) :=−Λ ∗ (x). (23.10)


492 23 Große Abweichungen<br />

Beweis. Indem wir gegebenenfalls Xi − x betrachten, können wir E[Xi] < 0 und<br />

x = 0 annehmen. (Ist nämlich ˜ Xi := Xi − x und ˜ Λ und ˜ Λ∗ wie oben für ˜ Xi<br />

definiert, so ist ˜ Λ(t) =Λ(t) − t · x und daher ˜ Λ∗ (0) = supt∈R(− ˜ Λ(t)) = Λ∗ (x).)<br />

Setze ϕ(t) :=eΛ(t) und<br />

ϱ := e −Λ∗ (0) =inf<br />

t∈R ϕ(t).<br />

Nach (23.9) und dem Differentiationslemma (Satz 6.28) ist ϕ unendlich oft differenzierbar,<br />

und die ersten beiden Ableitungen sind<br />

ϕ ′ (t) =E � X1 e tX1�<br />

und ϕ ′′ (t) =E � X 2 1 e tX1� .<br />

Also ist ϕ strikt konvex und ϕ ′ (0) = E[X1] < 0.<br />

Sei zunächst der Fall P[X1 ≤ 0] = 1 betrachtet. Dann ist ϕ ′ (t) < 0 für jedes t ∈ R<br />

und ϱ = lim ϕ(t) =P[X1 =0]. Es folgt<br />

t→∞<br />

und damit die Behauptung.<br />

P[Sn ≥ 0] = P[X1 = ...= Xn =0]=ϱ n<br />

Sei nun P[X1 < 0] > 0 und P[X1 > 0] > 0. Dannistlim ϕ(t) = ∞ =<br />

t→∞<br />

lim ϕ(t).Daϕ strikt konvex ist, besitzt ϕ eine eindeutige Minimalstelle τ ∈ R,<br />

t→−∞<br />

also<br />

ϕ(τ) =ϱ und ϕ ′ (τ) =0.<br />

Wegen ϕ ′ (0) < 0 ist τ>0. Mit Hilfe der Markov’schen Ungleichung (Satz 5.11)<br />

erhalten wir die Abschätzung<br />

P[Sn ≥ 0] = P � e τSn ≥ 1 � ≤ E � e τSn� = ϕ(τ) n = ϱ n .<br />

Wir erhalten so die obere Schranke:<br />

lim sup<br />

n→∞<br />

1<br />

n log P[Sn ≥ 0] ≤ log ϱ = −Λ ∗ (0).<br />

Im Rest des Beweises müssen wir also die umgekehrte Ungleichung zeigen:<br />

lim inf<br />

n→∞<br />

1<br />

n log P[Sn ≥ 0] ≥ log ϱ. (23.11)<br />

Wir verwenden eine Methode der exponentiellen Größenverzerrung der Verteilung<br />

μ := PX1 von X1, die untypische Werte typisch macht, damit man sie besser untersuchen<br />

kann. Wir definieren also die Cramér-Transformierte ˆμ ∈M1(R) von<br />

μ durch<br />

ˆμ(dx) =ϱ −1 e τx μ(dx) für x ∈ R.<br />

Seien ˆ X1, ˆ X2,...unabhängig und identisch verteilt mit PXi ˆ =ˆμ. Dannist


Also ist<br />

23.1 Satz von Cramér 493<br />

ˆϕ(t) :=E � e t ˆ X1 � = 1<br />

�<br />

e<br />

ϱ R<br />

tx e τx μ(dx) = 1<br />

ϕ(t + τ).<br />

ϱ<br />

E � ˆ X1] = ˆϕ ′ (0) = 1<br />

ϱ ϕ′ (τ) =0,<br />

Var � ˆ X1] = ˆϕ ′′ (0) = 1<br />

ϱ ϕ′′ (τ) ∈ (0, ∞).<br />

Setzen wir ˆ Sn = ˆ X1 + ...+ ˆ Xn,soist<br />

�<br />

P[Sn ≥ 0] =<br />

μ(dx1) ···μ(dxn)<br />

�<br />

=<br />

= ϱ n E<br />

{x1+...+xn≥0}<br />

{x1+...+xn≥0}<br />

�<br />

e −τ ˆ Sn<br />

� ϱe −τx1 � ˆμ(dx1) ··· � ϱe −τxn� ˆμ(dxn)<br />

{ ˆ Sn≥0}<br />

Wir erhalten also (23.11), wenn wir zeigen können, dass<br />

lim inf<br />

n→∞<br />

�<br />

.<br />

1<br />

�<br />

log E e<br />

n −τ ˆ Sn<br />

{ ˆ Sn≥0}<br />

Nach dem Zentralen Grenzwertsatz (Satz 15.37) ist für c>0<br />

1<br />

�<br />

log E e<br />

n −τ ˆ Sn<br />

{ ˆ Sn≥0}<br />

�<br />

≥ 1<br />

n<br />

≥ 1<br />

n log<br />

�<br />

log E<br />

e −τ ˆ Sn<br />

{0≤ ˆ Sn≤c √ �<br />

n }<br />

�<br />

e −τc√ � ˆ �<br />

n Sn<br />

P √n ∈ [0,c]<br />

�<br />

�<br />

≥ 0. (23.12)<br />

n→∞ −τc<br />

−→ lim<br />

n→∞<br />

√ n 1<br />

+ lim<br />

n n→∞ n log � N0,Var[X1]([0,c]) �<br />

=0. ✷<br />

Beispiel 23.4. Ist PX1 = N0,1, soist<br />

Λ(t) = log � E � e tX1�� � � ∞<br />

1<br />

=log √2π e<br />

−∞<br />

tx e −x2 �<br />

/2<br />

dx = t2<br />

2 .<br />

Weiter ist<br />

Λ ∗ (z) =sup<br />

t∈R<br />

�<br />

� �<br />

tz − Λ(t) =sup tz −<br />

t∈R<br />

t2<br />

�<br />

=<br />

2<br />

z2<br />

2 .<br />

Die Ratenfunktion stimmt also mit der aus (23.4) überein. ✸<br />

1<br />

Beispiel 23.5. Ist PX1 = 2δ−1 + 1<br />

2δ1, soistΛ(t) =logcosh(t). Der Maximierer<br />

t∗ = t∗ (z) aus dem Variationsproblem für Λ∗ erfüllt die Gleichung z = Λ ′ (t∗ )=<br />

tanh(t∗ ).Alsoist


494 23 Große Abweichungen<br />

Λ ∗ (z) =zt ∗ − Λ(t ∗ )=z arc tanh(z) − log � cosh(arc tanh(z)) � .<br />

Nun ist arc tanh(z) = 1 1+z<br />

log<br />

2 1 − z<br />

Es folgt<br />

cosh � arc tanh(z) � =<br />

für z ∈ (−1, 1) und<br />

Λ ∗ (z) = z<br />

z<br />

log(1 + z) − log(1 − z)+1<br />

2 2 2<br />

= 1+z<br />

2<br />

log(1 + z)+<br />

1<br />

√<br />

1 − z2 =<br />

1<br />

� .<br />

(1 − z)(1 + z)<br />

1 − z<br />

2<br />

log(1 − z).<br />

log(1 − z)+1 log(1 + z)<br />

2<br />

Dies ist aber gerade die Ratenfunktion aus Satz 23.1. ✸<br />

−1 e−|x|<br />

Übung 23.1.1. Sei X eine reelle Zufallsvariable mit Dichte f(x) =c ,<br />

1+|x| 3<br />

� ∞<br />

e<br />

wobei c =<br />

−∞<br />

−|x|<br />

dx. Man untersuche die logarithmische momentenerzeu-<br />

1+|x| 3<br />

gende Funktion Λ auf Unstetigkeitsstellen und skizziere den Graphen von Λ. ♣<br />

23.2 Prinzip der großen Abweichungen<br />

Wir wollen in diesem Abschnitt die Idee des Satzes von Cramér, die Wahrscheinlichkeiten<br />

seltener, oder untypischer, Ereignisse vermittels einer exponentiellen Rate<br />

und einer Ratenfunktion zu quantifizieren, in einen formalen Rahmen stellen. In diesem<br />

Rahmen kann die gesamte Theorie großer Abweichungen entwickelt werden;<br />

der Leser sei etwa auf die Bücher [32], [33] oder [74] verwiesen.<br />

Sei E ein polnischer Raum mit vollständiger Metrik d. Wir schreiben Bε(x) ={y ∈<br />

E : d(x, y) 0.<br />

Eine Abbildung f : E → R =[−∞, ∞] heißt halbstetig von unten, falls für<br />

jedes a ∈ R die Niveaumenge f −1 ([−∞,a]) ⊂ E abgeschlossen ist. (Speziell sind<br />

also stetige Abbildungen stets halbstetig von unten. Allerdings ist (0,1) : R → R<br />

halbstetig von unten, jedoch nicht stetig.) Äquivalent hierzu ist die Bedingung, dass<br />

limε↓0 inf f(Bε(x)) = f(x) ist für jedes x ∈ E. (Man beachte, dass inf f(A) =<br />

inf{f(x) : x ∈ A}.) Ist K ⊂ E kompakt und nichtleer, so nimmt f auf K das<br />

Infimum an. In der Tat: Für den Fall, wo f(x) =∞ für jedes x ∈ K ist, ist die<br />

Aussage trivial. Sei nun inf f(K) < ∞. Istan ↓ inf f(K) streng monoton fallend,<br />

so ist K∩f −1 ([−∞,an]) �= ∅ kompakt für jedes n ∈ N, also ist auch der unendliche<br />

Schnitt nichtleer<br />

f −1 ∞�<br />

(inf f(K)) = K ∩ f −1 ([−∞,an]) �= ∅.<br />

n=1


23.2 Prinzip der großen Abweichungen 495<br />

Definition 23.6 (Ratenfunktion). Eine von unten halbstetige Funktion I : E →<br />

[0, ∞] heißt Ratenfunktion. Sind alle Niveaumengen I −1 ([−∞,a]), a ∈ [0, ∞),<br />

kompakt, so nennen wir I eine gute Ratenfunktion.<br />

Definition 23.7 (Prinzip großer Abweichungen). Sei I eine Ratenfunktion und<br />

(με)ε>0 eine Familie von W-Maßen auf E. Wir sagen, dass (με)ε>0 ein Prinzip<br />

großer Abweichungen (kurz: LDP für Large Deviations Principle) mit Ratenfunktion<br />

I erfüllt, falls<br />

(LDP 1) lim inf ε log(με(U)) ≥−inf I(U)<br />

ε→0<br />

für jedes offene U ⊂ E,<br />

(LDP 2) lim sup ε log(με(C)) ≤−inf I(C)<br />

ε→0<br />

für jedes abgeschlossene C ⊂ E.<br />

Wir sagen, dass eine Familie (Pn)n∈N von W-Maßen auf E ein LDP mit Rate rn ↑<br />

∞ und Ratenfunktion I erfüllt, falls (LDP 1) und (LDP 2) für die Folge εn =1/rn<br />

und für μ 1/rn = Pn gelten.<br />

Oftmals werden die Bedingungen (LDP 1) und (LDP 2) kurz untere Schranke und<br />

obere Schranke genannt. In vielen Fällen ist die untere Schranke leichter zu zeigen<br />

als die obere.<br />

Bevor wir zeigen, dass der Satz von Cramér im Wesentlichen schon ein LDP ist,<br />

bringen wir noch zwei mehr technische Aussagen.<br />

Satz 23.8. Die Ratenfunktion in einem LDP ist eindeutig.<br />

Beweis. Es erfülle (με)ε>0 das LDP mit Ratenfunktionen I und J. Dannistfür<br />

jedes x ∈ E und δ>0<br />

I(x) ≥ inf I(Bδ(x))<br />

≥−lim inf<br />

ε→0 ε log � με(Bδ(x)) �<br />

�<br />

Bδ(x) ��<br />

≥−lim sup ε log<br />

ε→0<br />

� με<br />

≥ inf I � Bδ(x) � δ→0<br />

−→ J(x).<br />

Es folgt I(x) ≥ J(x) und analog J(x) ≥ I(x). ✷<br />

Lemma 23.9. Sei N ∈ N, und seien ai ε, i =1,...,N, ε>0, nichtnegative Zahlen.<br />

Dann gilt<br />

N�<br />

lim sup ε log a<br />

ε→0<br />

i ε = max lim sup ε log(a<br />

i=1,...,N ε→0<br />

i ε).<br />

i=1


496 23 Große Abweichungen<br />

Beweis. Summe und Maximum unterscheiden sich höchstens um den Faktor N:<br />

max<br />

i=1,...,N ε log(ai ε) ≤ ε log<br />

N�<br />

i=1<br />

Maximum und Limes (superior) vertauschen, also ist<br />

max lim sup ε log(a<br />

i=1,...,N ε→0<br />

i �<br />

ε) = lim sup ε log<br />

ε→0<br />

� �N<br />

�<br />

ε log<br />

≤ lim sup<br />

ε→0<br />

≤ lim sup<br />

ε→0<br />

a i ε ≤ ε log(N) + max<br />

i=1,...,N ε log(ai ε).<br />

max<br />

i=1,...,N ai ε<br />

i=1<br />

a i ε<br />

�<br />

ε log(N)+ max lim sup ε log(a<br />

i=1,...,N ε→0<br />

i ε)<br />

= max lim sup ε log(a<br />

i=1,...,N ε→0<br />

i ε). ✷<br />

Beispiel 23.10. Wir nehmen an, dass die Bedingungen aus dem Satz von Cramér<br />

(Satz 23.3) gelten. Es seien also X1,X2,... u.i.v. reelle Zufallsvariablen mit<br />

Λ(t) =log(E[etX1 ]) < ∞ für jedes t ∈ R. Ferner sei Sn = X1 + ...+ Xn für<br />

jedes n. Wir wollen zeigen, dass aus dem Satz von Cramér folgt, dass Pn := PSn/n ein LDP mit Rate n und guter Ratenfunktion I(x) =Λ∗ (x) :=supt∈R(tx − Λ(t))<br />

erfüllt. Ohne Einschränkung können wir annehmen, dass E[X1] =0ist. Die Funktion<br />

I ist überall endlich, stetig, strikt konvex und hat die eindeutige Minimalstelle bei<br />

I(0) = 0. Der Satz von Cramér besagt, dass limn→∞ 1<br />

n log(Pn([x, ∞))) = −I(x)<br />

für x>0 und (aus Symmetriegründen) limn→∞ 1<br />

n log(Pn((−∞,x])) = −I(x) für<br />

x0<br />

1<br />

−I(x) ≥ lim<br />

n→∞<br />

≥ sup lim<br />

ε>0 n→∞<br />

n log Pn((x, ∞))<br />

1<br />

n log Pn([x + ε, ∞)) = − inf I(x + ε) =−I(x)<br />

ε>0<br />

1<br />

und für x


lim sup<br />

n→∞<br />

1<br />

n<br />

log Pn(C)<br />

≤ lim sup<br />

n→∞<br />

=max<br />

23.2 Prinzip der großen Abweichungen 497<br />

1<br />

n log � � � � ��<br />

− +<br />

Pn (−∞,x ] + Pn [x , ∞)<br />

�<br />

lim sup<br />

n→∞<br />

1 � � −<br />

log Pn (−∞,x ] , lim sup<br />

n n→∞<br />

=max � − I(x − ), −I(x + ) � = − inf I(C).<br />

1<br />

n<br />

� � +<br />

log Pn [x , ∞) �<br />

Damit ist (LDP 2) gezeigt.<br />

Sei nun U ⊂ R offen. Sei x ∈ U, x>0, (falls es solch ein x gibt). Dann existiert<br />

ein ε>0 mit (x − ε, x + ε) ⊂ U ∩ (0, ∞). Nun ist<br />

lim<br />

n→∞<br />

1 � �<br />

log Pn (x − ε, ∞) = −I(x − ε) > −I(x + ε)<br />

n<br />

= lim<br />

n→∞<br />

1 � �<br />

log Pn [x + ε, ∞) .<br />

n<br />

Es folgt<br />

lim inf<br />

n→∞<br />

1<br />

n log Pn(U) ≥ lim<br />

n→∞<br />

1<br />

n log Pn((x<br />

= lim<br />

n→∞<br />

− ε, x + ε))<br />

1<br />

n log � = lim<br />

n→∞<br />

� � � ��<br />

Pn (x − ε, ∞) − Pn [x + ε, ∞)<br />

1<br />

n log � � ��<br />

Pn (x − ε, ∞) = −I(x − ε) ≥ −I(x).<br />

Analog folgt dies auch für x ∈ U ∩ (−∞, 0), also ist<br />

lim inf<br />

n→∞<br />

1<br />

n log Pn(U) ≥ inf I(U \{0}) = inf I(U),<br />

wobei wir im letzten Schritt ausgenutzt haben, dass U offen und I stetig ist. Damit<br />

ist die untere Schranke (LDP 1) gezeigt. ✸<br />

Tatsächlich kann man auf die Bedingung, dass Λ(t) < ∞ für alle t ∈ R gilt, verzichten.<br />

Da offenbar Λ(0) = 0 ist, ist Λ ∗ (x) ≥ 0 für jedes x ∈ R. Die Abbildung Λ ∗<br />

ist eine konvexe Ratenfunktion, jedoch im Allgemeinen keine gute Ratenfunktion.<br />

Wir zitieren die folgende Verstärkung des Satzes von Cramér (siehe [32, Theorem<br />

2.2.3]).<br />

Satz 23.11 (Cramér). Sind X1,X2,...u.i.v. reelle Zufallsvariablen, dann erfüllt<br />

(P Sn/n)n∈N ein LDP mit Ratenfunktion Λ ∗ .<br />

Übung 23.2.1. Sei E = R. Man zeige, dass με := N0,ε ein LDP mit guter Ratenfunktion<br />

I(x) =x 2 /2 erfüllt. Man zeige ferner, dass in der oberen Schranke<br />

(LDP 2) strikte Ungleichheit auftreten kann. ♣


498 23 Große Abweichungen<br />

Übung 23.2.2. Sei E = R. Man zeige, dass με := N 0,ε 2 ein LDP mit guter Ratenfunktion<br />

I(x) =∞· R\{0}(x) erfüllt. Man zeige ferner, dass in der unteren<br />

Schranke (LDP 1) strikte Ungleichheit auftreten kann. ♣<br />

Übung 23.2.3. Sei E = R. Man zeige, dass με := 1<br />

2N−1,ε + 1<br />

2N1,ε ein LDP mit<br />

guter Ratenfunktion I(x) =min( 1<br />

2 (x +1)2 , 1<br />

2 (x − 1)2 ) erfüllt. ♣<br />

Übung 23.2.4. Man berechne Λ und Λ ∗ für den Fall, wo X1 ∼ exp θ für θ>0<br />

und interpretiere die Aussage von Satz 23.11 für diesen Fall. Man prüfe, dass Λ ∗<br />

die eindeutige Nullstelle bei E[X1] hat. (Ergebnis: Λ ∗ (x) =θx − log(θx) − 1 falls<br />

x>0 und = ∞ sonst.) ♣<br />

Übung 23.2.5. Man berechne Λ und Λ ∗ für den Fall, wo X1 Cauchy verteilt ist und<br />

interpretiere die Aussage von Satz 23.11 für diesen Fall. ♣<br />

Übung 23.2.6. Sei Xλ ∼ Poiλ für jedes λ>0. Man zeige, dass με := PεX λ/ε ein<br />

LDP mit guter Ratenfunktion I(x) =x log(x/λ) +λ − x für x ≥ 0 (und = ∞<br />

sonst) erfüllt. ♣<br />

Übung 23.2.7. Sei (Xt)t≥0 die Irrfahrt auf Z in stetiger Zeit, die mit Rate 1<br />

2 einen<br />

Schritt nach rechts springt und mit Rate 1<br />

2 einen Schritt nach links springt. Man<br />

zeige, dass (PεX )ε>0 ein LDP erfüllt mit der konvexen guten Ratenfunktion<br />

1/ε<br />

I(x) =1+xarcsinh(x) − √ 1+x2 . ♣<br />

23.3 Satz von Sanov<br />

Dieser Abschnitt ist an die Darstellung in [32] angelehnt.<br />

Wir wollen hier ein Prinzip der großen Abweichungen vorstellen, das nicht auf einem<br />

linearen Raum basiert, wie der Satz von Cramér, sondern für empirische Verteilungen<br />

unabhängiger Zufallsvariablen mit Werten in einer endlichen Menge Σ,<br />

die meist Alphabet genannt wird, annehmen.<br />

Sei μ ein W-Maß auf Σ mit μ({x}) > 0 für jedes x ∈ Σ. Seien ferner X1,X2,...<br />

u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ. Wir wollen ein<br />

Prinzip großer Abweichungen für die empirischen Maße<br />

ξn(X) := 1<br />

n<br />

n�<br />

δXi<br />

i=1<br />

herleiten. Man beachte, dass nach dem Gesetz der großen Zahl P-fast sicher gilt,<br />

dass ξn(X) n→∞<br />

−→ μ. Als Zustandsraum ergibt sich also E = M1(Σ), ausgestattet<br />

mit der Metrik d(μ, ν) =�μ − ν�TV der Totalvariation. (Da Σ nur endlich viele


23.3 Satz von Sanov 499<br />

Punkte enthält, sind in E die vage Konvergenz, die schwache Konvergenz und die<br />

Konvergenz in Totalvariation identisch.) Es sei weiterhin<br />

�<br />

�<br />

En := μ ∈M1(Σ) : nμ({x}) ∈ N0 für jedes x ∈ Σ<br />

der mögliche Wertebereich der Zufallsvariablen ξn(X).<br />

Wir erinnern an den Begriff der Entropie von μ<br />

�<br />

H(μ) :=− log � μ({x}) � μ(dx).<br />

Ist ν ∈M1(Σ), sodefinieren wir die relative Entropie (oder Kullback-Leibler<br />

Information nach [101]) von ν gegeben μ durch<br />

� � �<br />

ν({x})<br />

H(ν |μ) := log<br />

ν(dx). (23.13)<br />

μ({x})<br />

Da μ({x}) > 0 ist für alle x ∈ Σ, ist der Integrand ν-f.s. endlich und damit ist<br />

auch das Integral endlich. Eine einfache Anwendung der Jensen’schen Ungleichung<br />

liefert, dass H(μ) ≥ 0 und H(ν |μ) ≥ 0 ist (siehe Lemma 5.26 und Übung 5.3.3),<br />

sowie H(ν |μ) =0genau dann, wenn ν = μ ist. Außerdem ist offenbar<br />

�<br />

H(ν |μ)+H(ν) =− log � μ({x}) � ν(dx). (23.14)<br />

Da die Abbildung ν ↦→ Iμ(ν) :=H(ν |μ) stetig ist, ist Iμ eine Ratenfunktion.<br />

Lemma 23.12. Für jedes n ∈ N und ν ∈ En gilt<br />

(n +1) −#Σ e −nH(ν |μ) ≤ P[ξn(X) =ν] ≤ e −nH(ν |μ) . (23.15)<br />

Beweis. Wir betrachten die Menge möglicher Werte für das n-Tupel (X1,...,Xn),<br />

sodass ξn(X) =ν ist:<br />

An(ν) :=<br />

�<br />

k =(k1,...,kn) ∈ Σ n : 1<br />

n<br />

Für jedes k ∈ An(ν) ist (vergleiche (23.14))<br />

n�<br />

i=1<br />

δki<br />

�<br />

= ν .<br />

P[ξn(X) =ν] =#An(ν) P[X1 = k1,...,Xn = kn]<br />

=#An(ν) �<br />

μ({x}) nν({x})<br />

x∈Σ<br />

=#An(ν) exp<br />

� �<br />

n<br />

�<br />

ν(dx) logμ({x})<br />

=#An(ν) exp � − n[H(ν)+H(ν |μ)] � .


500 23 Große Abweichungen<br />

Seien nun Y1,Y2,... u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PY1 =<br />

ν. Dann ist wie in der Rechnung für X (wegen H(ν |ν) =0)<br />

1 ≥ P[ξn(Y )=ν] = #An(ν) e −nH(ν) ,<br />

also #An(ν) ≤ enH(ν) . Hieraus folgt die zweite Ungleichung in (23.15).<br />

Die Zufallsvariable nξn(Y ) ist multinomialverteilt mit Parametern (nν({x}))x∈Σ,<br />

also ist die Abbildung En → [0, 1], ν ′ ↦→ P[ξn(Y )=ν ′ ] maximal in ν ′ = ν. Es<br />

folgt<br />

#An(ν) = e nH(ν) P[ξn(Y )=ν] ≥ enH(ν)<br />

≥ (n +1) −#Σ e nH(ν) .<br />

#En<br />

Hieraus folgt die erste Ungleichung in (23.15). ✷<br />

Wir kommen jetzt zum Hauptsatz dieses Abschnitts, dem Satz von Sanov (siehe<br />

[142] und [143]).<br />

Satz 23.13 (Sanov (1957)). Seien X1,X2,... u.i.v. Zufallsvariablen mit Werten<br />

in der endlichen Menge Σ und mit Verteilung μ. Dann erfüllt die Familie<br />

(P ξn(X))n∈N der Verteilungen der empirischen Maße ein LDP mit Rate n und<br />

Ratenfunktion Iμ = H( · |μ).<br />

Beweis. Für jedes A ⊂ E ist nach Lemma 23.12<br />

P � ξn(X) ∈ A � = �<br />

P[ξn(X) =ν]<br />

ν∈A∩En<br />

≤ �<br />

Es folgt<br />

lim sup<br />

n→∞<br />

ν∈A∩En<br />

−nH(ν |μ)<br />

e<br />

≤ #(A ∩ En)exp � − n inf Iμ(A ∩ En) �<br />

≤ (n +1) #Σ exp � − n inf Iμ(A) � .<br />

1<br />

n log P[ξn(X) ∈ A] ≤−inf Iμ(A),<br />

also die obere Schranke im LDP (sogar für allgemeines A).<br />

Analog erhalten wir mit der ersten Ungleichung aus Lemma 23.12<br />

P � ξn(X) ∈ A � ≥ (n +1) −#Σ exp � − n inf Iμ(A ∩ En) �<br />

und damit<br />

lim inf<br />

n→∞<br />

1<br />

n log P�ξn(X) ∈ A � ≥−lim sup inf Iμ(A ∩ En). (23.16)<br />

n→∞


23.3 Satz von Sanov 501<br />

Man beachte, dass wir für diese Ungleichung im Infimum nicht einfach A ∩ En<br />

durch A ersetzen können. Wir zeigen vielmehr, dass dies für offenes A zumindest<br />

asymptotisch geht. Sei also A ⊂ E offen. Für ν ∈ A gibt es ein ε>0 mit Bε(ν) ⊂<br />

n→∞<br />

A.Für n ≥ (2 #Σ)/ε ist En ∩ Bε(ν) �= ∅, also existiert eine Folge νn −→ ν mit<br />

νn ∈ En ∩ A für hinreichend großes n ∈ N. DaIμ stetig ist, gilt<br />

lim sup<br />

n→∞<br />

inf Iμ(A ∩ En) ≤ lim<br />

n→∞ Iμ(νn) =Iμ(ν).<br />

Da ν ∈ A beliebig war, folgt lim sup n→∞ inf Iμ(A ∩ En) =infIμ(A). ✷<br />

Beispiel 23.14. Sei Σ = {−1, 1} und μ = 1<br />

2δ−1 + 1<br />

2δ1 die Gleichverteilung auf Σ.<br />

Schreiben wir m = m(ν) =ν({1}) − ν({−1}), dann ist die relative Entropie von<br />

ν ∈M1(Σ)<br />

H(ν |μ) = 1+m<br />

2<br />

log(1 + m) +<br />

1 − m<br />

2<br />

log(1 − m).<br />

Dies ist genau die Ratenfunktion, die wir bereits aus Satz 23.1 kennen. ✸<br />

Wir wollen den Zusammenhang zwischen den LDPs von Sanov und von Cramér,<br />

der im letzten Beispiel angedeutet wurde, nun formal herstellen, indem wir eine<br />

Variante des Satzes von Cramér für R d -wertige Zufallsvariablen, die nur endlich<br />

viele Werte annehmen, aus dem Satz von Sanov herleiten.<br />

Beispiel 23.15. Sei Σ ⊂ Rd endlich und μ ein W-Maß auf Σ. Seien ferner<br />

X1,X2,... u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ sowie<br />

Sn = X1 + ...+ Xn für jedes n ∈ N. Wir setzen Λ(t) = log E � e 〈t,X1〉� für t ∈ Rd und Λ∗ � �<br />

d (x) =supt∈Rd 〈t, x〉−Λ(t) für x ∈ R .<br />

Wir zeigen, dass � �<br />

PSn/n n∈N ein LDP mit Rate n und Ratenfunktion Λ∗ erfüllt.<br />

Es sei ξn(X) das empirische Maß von X1,...,Xn. SeiE := M1(Σ). Definiere<br />

die Abbildung<br />

m : E → R d ,<br />

�<br />

ν ↦→ xν(dx) = �<br />

xν({x}),<br />

die ν das erste Moment zuordnet. Offenbar ist dann 1<br />

n Sn = m(ξn(X)). Für<br />

x ∈ R d und A ⊂ R d seien Ex := m −1 ({x}) ={ν ∈ E : m(ν) =x} und<br />

EA = m −1 (A) ={ν ∈ E : m(ν) ∈ A}. Die Abbildung ν ↦→ m(ν) ist stetig,<br />

also ist EA offen (beziehungsweise abgeschlossen), falls A offen (beziehungsweise<br />

abgeschlossen) ist. Mit Ĩ(x) :=infIμ(Ex) (wobei Iμ(ν) =H(ν |μ) die relative<br />

Entropie ist) gilt nach dem Satz von Sanov für offenes U ⊂ R d<br />

lim inf<br />

n→∞<br />

1<br />

n log PSn/n(U) = lim inf<br />

n→∞<br />

x∈Σ<br />

1<br />

n log P � � −1<br />

ξn(X) m (U)<br />

≥−inf<br />

μ I � m −1 (U) � = − inf Ĩ(U).


502 23 Große Abweichungen<br />

Analog ist für abgeschlossenes C ⊂ R d<br />

lim sup<br />

n→∞<br />

1<br />

n log P Sn/n(C) ≥−inf Ĩ(C).<br />

Mit anderen Worten: (P Sn/n)n∈N erfüllt ein LDP mit Rate n und Ratenfunktion Ĩ.<br />

Es ist also nur noch zu zeigen, dass Ĩ = Λ∗ gilt.<br />

Man beachte, dass t ↦→ Λ(t) differenzierbar (mit Ableitung Λ ′ ) und strikt konvex<br />

ist. Daher besitzt das Variationsproblem für Λ∗ (x) einen eindeutigen Maximierer<br />

t∗ (x). Genauer gilt<br />

Λ ∗ (x) =〈t ∗ (x),x〉−Λ(t ∗ (x))<br />

und Λ∗ (x) > 〈t, x〉−Λ(t) für alle t �= t∗ (x),sowieΛ ′ (t∗ (x)) = x.<br />

Nach der Jensenschen Ungleichung ist für jedes ν ∈M1(Σ)<br />

�<br />

Λ(t) = log e 〈t,y〉 μ(dy)<br />

� �<br />

�<br />

〈t,y〉 μ({y})<br />

=log e ν(dy)<br />

ν({y})<br />

� �<br />

�<br />

〈t,y〉 μ({y})<br />

≥ log e ν(dy)<br />

ν({y})<br />

= 〈t, m(ν)〉−H(ν |μ)<br />

mit Gleichheit genau dann, wenn ν = νt,woνt({y}) =μ({y})e 〈t,y〉−Λ(t) .Alsoist<br />

〈t, x〉−Λ(t) ≤ inf H(ν |μ)<br />

ν∈Ex<br />

mit Gleichheit, falls νt ∈ Ex. Nun ist aber m(νt) =Λ ′ (t), also ist νt∗ (x) ∈ Ex und<br />

damit<br />

Λ ∗ (x) =〈t ∗ (x),x〉−Λ(t ∗ (x)) = inf H(ν |μ) = Ĩ(x). ✸<br />

ν∈Ex<br />

Das Beweisprinzip, das wir im letzten Beispiel verwandt haben, um das LDP mit<br />

Ratenfunktion Ĩ herzuleiten, wird Kontraktionsprinzip genannt. Wir formulieren<br />

es als Satz.<br />

Satz 23.16 (Kontraktionsprinzip). Die Familie (με)ε>0 von W-Maßen auf E erfülle<br />

ein LDP mit Ratenfunktion I. IstFein topologischer Raum und m : E → F<br />

stetig, so erfüllen die Bildmaße (με ◦ m−1 )ε>0 ein LDP mit Ratenfunktion Ĩ(x) =<br />

inf I(m−1 ({x})).<br />

23.4 Varadhan’sches Lemma und Freie Energie<br />

Wir nehmen an, dass (με)ε>0 eine Familie von W-Maßen ist, die ein LDP mit Ratenfunktion<br />

I erfüllt. Wir wissen also, dass die Masse von με für kleine ε>0 mehr und


23.4 Varadhan’sches Lemma und Freie Energie 503<br />

mehr um die Nullstellen von I herum konzentriert liegt. In der statistischen Physik<br />

ist es oftmals von Interesse, Funktionen bezüglich με (wobei 1/ε als ” Systemgröße“<br />

verstanden wird) zu integrieren, die ihren größten Wert nicht in den Nullstellen von<br />

I annehmen, und die zudem noch exponentiell mit 1/ε skalieren. Es soll also die<br />

Asymptotik von Z φ ε := � e φ(x)/ε με(dx) für ε → 0 untersucht werden. Unter harmlosen<br />

Stetigkeitsannahmen tragen zu dem Integral hauptsächlich diejenigen Punkte<br />

x bei, für die φ(x) groß ist, die aber gleichzeitig nicht zu unwahrscheinlich sind,<br />

also diejenigen x, für die φ(x) − I(x) die größten Werte annimmt. Die Beiträge<br />

messen wir durch die gekippten W-Maße μ φ ε (dx) =(Z φ ε ) −1 e φ(x)/ε με(dx), für die<br />

wir ein LDP herleiten. Als Anwendung folgern wir das Prinzip der Minimierung der<br />

freien Energie in der statistischen Physik und analysieren speziell den Weiss’schen<br />

Ferromagneten.<br />

Satz 23.17 (Varadhan’sches Lemma (1966)). Sei I eine gute Ratenfunktion und<br />

(με)ε>0 eine Familie von W-Maßen, die ein LDP mit Ratenfunktion I erfüllt. Sei<br />

ferner φ : E → R stetig und erfülle die Bedingung<br />

�<br />

Dann gilt<br />

inf lim sup ε log<br />

M>0 ε→0<br />

�<br />

lim ε log<br />

ε→0<br />

e φ(x)/ε {φ(x)≥M} με(dx) =−∞. (23.17)<br />

e φ(x)/ε � �<br />

με(dx) =supφ(x)<br />

− I(x) . (23.18)<br />

x∈E<br />

Bemerkung 23.18. Die Bedingung (23.17) folgt aus der etwas griffigeren Bedingung,<br />

dass es ein α>1 gibt mit<br />

�<br />

lim sup ε log e<br />

ε→0<br />

αφ/ε dμε < ∞. (23.19)<br />

In der Tat: Für jedes M ∈ R ist<br />

�<br />

ε log<br />

e φ(x)/ε {φ(x)≥M} με(dx) =M + ε log<br />

�<br />

e (φ(x)−M)/ε {φ(x)≥M} με(dx)<br />

�<br />

≤ M + ε log e α(φ(x)−M)/ε με(dx)<br />

�<br />

= −(α − 1)M + ε log e αφ(x)/ε με(dx).<br />

Hieraus und aus (23.19) folgt sofort (23.17). ✸<br />

Beweis. Wir zeigen mit unterschiedlichen Argumenten, dass die rechte Seite in<br />

(23.18) eine untere Schranke und eine obere Schranke für die linke Seite ist.


504 23 Große Abweichungen<br />

Untere Schranke Für jedes x ∈ E und r>0 ist<br />

�<br />

lim inf ε log<br />

ε→0<br />

e φ/ε �<br />

dμε ≥ lim inf ε log<br />

ε→0<br />

Br(x)<br />

e φ/ε dμε<br />

≥ inf φ(Br(x)) − I(x) r→0<br />

−→ φ(x) − I(x).<br />

Obere Schranke Für M>0 und ε>0 definieren wir<br />

�<br />

�<br />

F ε M :=<br />

Wir setzen<br />

e<br />

{φ≥M}<br />

φ(x)/ε με(dx) und G ε M :=<br />

FM := lim sup<br />

ε→0<br />

{φ0<br />

�<br />

lim ε log e<br />

ε→0 φ(x)/ε με(dx) =FM ∨ GM .<br />

Da nach Voraussetzung infM>0 FM = −∞ gilt, reicht es zu zeigen, dass<br />

� �<br />

sup GM ≤ sup φ(x) − I(x) . (23.20)<br />

M>0<br />

x∈E<br />

Sei δ>0. Für jedes x ∈ I gibt es ein r(x) > 0 mit<br />

inf I � B 2r(x)(x) � ≥ I(x) − δ und sup φ � B 2r(x)(x) � ≤ φ(x) − δ.<br />

Sei a ≥ 0. DaI eine gute Ratenfunktion ist, ist die Niveaumenge K := I −1 ([0,a])<br />

kompakt. Wir finden also endlich viele Punkte x1,...,xN ∈ I −1 ([0,a]), sodass<br />

� N<br />

i=1 B r(xi)(xi) ⊃ K. Es gilt daher<br />

G ε M ≤<br />

�<br />


23.4 Varadhan’sches Lemma und Freie Energie 505<br />

Satz 23.19 (Gekipptes LDP). Es erfülle (με)ε>0 ein LDP mit der guten Ratenfunktion<br />

I. Ferner sei φ : E → R stetig und erfülle die Bedingung (23.17). Wir<br />

definieren Z φ ε := � e φ/ε dμε und μ φ ε ∈M1(E) durch<br />

μ φ ε (dx) =(Z φ ε ) −1 e φ(x)/ε με(dx).<br />

Ferner definieren wir Iφ : E → [0, ∞] durch<br />

� � � �<br />

φ(z) − I(z) − φ(x) − I(x) . (23.21)<br />

I φ (x) =sup<br />

z∈E<br />

Dann erfüllt (μ φ ε )ε>0 ein LDP mit der Ratenfunktion I φ .<br />

Beweis. Dies bleibt dem Leser zur Übung überlassen. (Vergleiche [33, Aufgabe<br />

2.1.24], siehe auch [42, Abschnitt II.7].) ✷<br />

Wir wollen das Varadhan’sche Lemma im Kontext der statistischen Physik betrachten.<br />

Sei hierzu Σ ein polnischer Raum, den wir als Raum der möglichen Zustände<br />

eines einzelnen Teilchens auffassen wollen. Ferner sei λ ∈M1(Σ) eine Verteilung,<br />

die wir als a priori Verteilung eines Teilchens ohne Berücksichtigung der Energie<br />

auffassen wollen. Ist Σ endlich oder eine beschränkte Menge eines Rd ,soistλty pischerweise die Gleichverteilung auf Σ. Wenn wir n ununterscheidbare Teilchen<br />

unabhängig nach λ auf Positionen z1,...,zn ∈ Σ setzen, so können wir den Zustand<br />

dieses Ensembles als x := 1 �n n i=1 δzi beschreiben. Mit μ0n ∈M1(M1(Σ))<br />

bezeichnen wir die so gewonnene a priori Verteilung von x.<br />

Wir machen nun die Annahme, dass sich die Energie Un(x) eines Zustandes schreiben<br />

lässt als Un(x) =nU(x), woU(x) als die mittlere Energie eines Teilchens bei<br />

Gesamtzustand x interpretiert wird.<br />

Es sei T ≥ 0 die Temperatur des Systems und β := 1/T die so genannte inverse<br />

Temperatur. Eine wichtige Rolle in der statistischen Physik spielt die Zustandssumme<br />

oder Partitionsfunktion<br />

�<br />

e −βUn dμ 0 n.<br />

Z β n :=<br />

Ein Postulat der statistischen Physik besagt, dass der Zustand x nach der Boltzmann-Verteilung<br />

verteilt ist:<br />

μ β n(dx) =(Z β n) −1 e −βUn(x) μ 0 n(dx) (23.22)<br />

Das Varadhan’sche Lemma (genauer: das gekippte LDP) und der Satz von Sanov<br />

erlauben uns, die Brücke zum Variationsprinzip für die freie Energie zu schlagen.<br />

Wir nehmen nun an, dass Σ eine endliche Menge ist und λ = UΣ die Gleichverteilung<br />

auf Σ. Nach dem Satz von Sanov erfüllt (μ 0 n)n∈N ein LDP mit Rate n und


506 23 Große Abweichungen<br />

0.01<br />

0.008<br />

0.006<br />

0.004<br />

0.002<br />

–0.8 –0.6 –0.4 –0.2 0 0.2 0.4 0.6 0.8<br />

–0.002<br />

m<br />

–0.004<br />

–0.006<br />

–0.008<br />

beta=0.9<br />

beta=1.0<br />

beta=1.1<br />

Abb. 23.1. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten<br />

ohne äußeres Feld (h =0).<br />

Ratenfunktion I(x) =H(x|λ), woH(x|λ) die relative Entropie von x bezüglich λ<br />

ist. Nach (23.14) ist H(x|λ) = log(#Σ) − H(x), woH(x) die Entropie von x ist.<br />

Wir definieren die freie Energie (oder das Helmholtz-Potential) pro Teilchen als<br />

F β (x) :=U(x) − β −1 H(x).<br />

Der Satz über das gekippte LDP liefert nun, dass die Folge der Boltzmann-Verteilungen<br />

(μ β n)n∈N ein LDP erfüllt mit Rate n und Ratenfunktion<br />

I β (x) =F β (x) − inf<br />

y∈M1(Σ) F β (y).<br />

Für großes n ist die Boltzmann Verteilung auf diejenigen x konzentriert, die die freie<br />

Energie minimieren. Dies können für unterschiedliche Temperaturen (also Werte<br />

von β) sehr unterschiedliche Zustände sein. Daher treten bei kritischen Temperaturen<br />

Phasenübergänge auf, und chemische Reaktionen laufen bei unterschiedlichen<br />

Temperaturen in unterschiedlichen Richtungen ab.<br />

Beispiel 23.20. Wir betrachten den Weiss’schen Ferromagneten. Dies ist ein mikroskopisches<br />

Modell für Magnetismus, das davon ausgeht, dass jedes von n ma-<br />

gnetischen Teilchen eine von den zwei Ausrichtungen σi ∈ Σ = {−1, +1} hat.<br />

Die mittlere Magnetisierung m = 1 �n i=1 σi beschreibt den Zustand des Systems<br />

n<br />

vollständig (da die Teilchen ununterscheidbar sind) und ist die relevante makroskopische<br />

Messgröße. Die Grundidee ist, dass es energetisch günstiger ist, wenn Teilchen<br />

magnetisch parallel ausgerichtet sind, als wenn sie antiparallel ausgerichtet


23.4 Varadhan’sches Lemma und Freie Energie 507<br />

0.1<br />

0.05<br />

m<br />

–1 –0.8 –0.6 –0.4 –0.2 0.2 0.4 0.6 0.8 1<br />

–0.05<br />

–0.1<br />

beta=0.9<br />

beta=1.0<br />

beta=1.1<br />

beta=1.5<br />

Abb. 23.2. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten<br />

mit äußerem Feld h =0.04.<br />

sind. Wir wollen die räumliche Struktur der Wechselwirkung ignorieren und annehmen,<br />

dass jedes Teilchen mit jedem anderen in gleicher Weise wechselwirkt (mean<br />

field Annahme). Außerdem wollen wir annehmen, dass es ein äußeres Magnetfeld<br />

der Stärke h gibt. Bis auf Konstanten ist die Energie pro Teilchen daher<br />

U(m) =− 1<br />

2 m2 − hm.<br />

Die Entropie des Zustands m ist<br />

H(m) =− 1+m<br />

log<br />

2<br />

Die freie Energie pro Teilchen ist also<br />

� 1+m<br />

2<br />

�<br />

1 − m<br />

− log<br />

2<br />

� 1 − m<br />

F β (m) =− 1<br />

2 m2 − hm + β −1� 1+m<br />

�<br />

1+m<br />

�<br />

log +<br />

2 2<br />

1 − m<br />

�<br />

1 − m<br />

��<br />

log .<br />

2 2<br />

Um die Minimalstellen von F β zu bestimmen, berechnen wir die Ableitung<br />

0 ! = d<br />

dm F β (m) =−m − h + β −1 arctanh(m).<br />

Wir erhalten so für m die Gleichung<br />

m = tanh(β(m + h)). (23.23)<br />

2<br />

�<br />

.


508 23 Große Abweichungen<br />

Im Fall h =0hat (23.23) stets die Lösung m =0.Istβ≤ 1, soistdieseLösung<br />

eindeutig, und F β hat das globale Minimum in m =0.Istβ>1, so besitzt (23.23)<br />

zwei weitere Lösungen m β,0<br />

− ∈ (−1, 0) und m β,0<br />

+ = −m β,0<br />

bestimmt werden können.<br />

− , die nur numerisch<br />

In diesem Fall besitzt F β in 0 ein lokales Maximum und in m β,0<br />

± globale Minima.<br />

Da für große n nur noch solche Werte angenommen werden, für die F β minimal ist,<br />

liegt die Verteilung konzentriert um 0, falls β ≤ 1 und konzentriert um m β,0<br />

± , falls<br />

β>1. Im letzterem Fall ist die betragsmäßige Magnetisierung � �m β,0�<br />

�<br />

± = m β,0<br />

+ > 0.<br />

Wir haben also einen Phasenübergang zwischen einer Phase bei hoher Temperatur<br />

(β ≤ 1), wo keine Magnetisierung auftritt, und niedriger Temperatur (β > 1),<br />

wo so genannte spontane Magnetisierung auftritt (das heißt ohne Einwirkung eines<br />

äußeren Feldes).<br />

Ist h �= 0, so besitzt F β in m =0keine Minimalstelle. Vielmehr ist F β asymmetrisch<br />

und besitzt ein globales Minimum m β,h mit selbem Vorzeichen wie h, sowie<br />

für großes β noch eine weiteres lokales Minimum mit dem entgegengesetzten Vorzeichen.<br />

Die exakten Werte für die Magnetisierung können wieder nur numerisch<br />

bestimmt werden. Wir können m β,h jedoch für hohe Temperaturen (β klein) approximativ<br />

bestimmen, indem wir die Näherung tanh(β(m + h)) ≈ β(m + h)<br />

verwenden. Wir erhalten so<br />

m β,h h<br />

≈<br />

β−1 − 1 =<br />

h<br />

T − Tc<br />

für T →∞, (23.24)<br />

wo die Curie-Temperatur Tc =1die kritische Temperatur für das Auftreten von<br />

spontaner Magnetisierung ist. Die Beziehung (23.23) heißt Curie-Weiss’sches Gesetz.<br />

✸<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

m<br />

h=0.2<br />

h=0.04<br />

h=0.001<br />

0.5 1 1.5 2 2.5 3 3.5<br />

Abb. 23.3. Weiss’scher Ferromagnet: Magnetisierung m β,h<br />

+ als Funktion von β.<br />

beta


24 Der Poisson’sche Punktprozess<br />

Poisson’sche Punktprozesse können als ein Grundbaustein zur Konstruktion sehr<br />

unterschiedlicher stochastischer Objekte verwendet werden, wie etwa unbegrenzt<br />

teilbare Verteilungen, Markovprozesse mit komplexer Dynamik, Objekte der stochastischen<br />

Geometrie und so fort.<br />

Wir geben in diesem Kapitel kurz den allgemeinen Rahmen zufälliger Maße an,<br />

konstruieren den Poisson’schen Punktprozess und charakterisieren ihn durch seine<br />

Laplace-Transformierte. Als Anwendungen konstruieren wir einen Subordinator<br />

und zeigen, dass der Poisson’sche Punktprozess das invariante Maß von Systemen<br />

unabhängiger Irrfahrten ist. Über den Zusammenhang zu Subordinatoren schlagen<br />

wir im dritten Abschnitt die Brücke zu den in der Populationsgenetik wichtigen<br />

Poisson-Dirichlet und GEM Verteilungen.<br />

24.1 Zufällige Maße<br />

Sei E im Folgenden ein lokalkompakter, polnischer Raum (etwa E = R d oder<br />

E = Z d ) mit Borel’scher σ-Algebra B(E). Sei<br />

Bb(E) = � B ∈B(E) : B ist relativ kompakt �<br />

das System der beschränkten Borel’schen Mengen und M(E) der Raum der Radon-<br />

Maße auf E (siehe Definition 13.3).<br />

Definition 24.1. Wir bezeichnen mit M = σ(IA : A ∈ Bb(E)) die kleinste σ-<br />

Algebra auf M(E), bezüglich der alle Abbildungen<br />

messbar sind.<br />

IA : μ ↦→ μ(A), A ∈Bb(E),<br />

Wir schreiben B + (E) für die Menge der messbaren Abbildungen E → [0, ∞] und<br />

BR b (E) für die Menge der beschränkten, messbaren Abbildungen E → R mit kompaktem<br />

Träger. Das Integral If (μ) := � fdμist für jedes f ∈B + (E) wohldefiniert<br />

und für jedes f ∈BR b (E) wohldefiniert und endlich.


510 24 Der Poisson’sche Punktprozess<br />

Satz 24.2. Sei τv die vage Topologie auf M(E). Dann ist<br />

M = B(τv) =σ(If : f ∈ Cc(E)) = σ(If : f ∈ C + c (E)).<br />

Beweis. Übung! (Siehe [83, Lemma 4.1].) ✷<br />

Sei � M(E) der Raum aller Maße auf E mit σ-Algebra � M = σ(IA : A ∈Bb(E)).<br />

Offenbar ist M = � M � � die Spur-σ-Algebra von<br />

M(E)<br />

� M auf M(E). Wir brauchen<br />

diesen etwas größeren Raum, um zufällige Maße so zu definieren, dass fast sicher<br />

wohldefinierte Operationen wieder zufällige Maße ergeben.<br />

Definition 24.3. Ein zufälliges Maß auf E ist eine Zufallsvariable X auf einem<br />

Wahrscheinlichkeitsraum (Ω,A, P) mit Werten in ( � M(E), � M) und mit P[X ∈<br />

M(E)]=1.<br />

Satz 24.4. Sei X ein zufälliges Maß auf E. Dann ist die Mengenfunktion E[X] :<br />

B(E) → [0, ∞], A ↦→ E[X(A)] ein Maß. Wir nennen E[X] das Intensitätsmaß<br />

von X. X heißt integrierbar, falls E[X] ∈M(E).<br />

Beweis. Offenbar ist E[X] endlich additiv. Seien A, A1,A2,... ∈B(E) mit An ↑<br />

A. Betrachte die Zufallsvariablen Yn := X(An) und Y = X(A). Dann gilt Yn ↑ Y ,<br />

also nach dem Satz über monotone Konvergenz E[X](An) =E[Yn] n→∞<br />

−→ E[Y ]=<br />

E[X](A). Mithin ist E[X] stetig von unten und damit ein Maß (nach Satz 1.36). ✷<br />

Satz 24.5. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl<br />

durch die Verteilungen von<br />

� (If1 ,...,Ifn ): n ∈ N; f1,...,fn ∈ C + c (E) �<br />

(24.1)<br />

als auch von<br />

� (IA1 ,...,IAn ): n ∈ N; A1,...,An ∈Bb(E) paarweise disjunkt � . (24.2)<br />

Beweis. Das Mengensystem<br />

I = � (If1 ,...,Ifn )−1 (A) : n ∈ N; f1,...,fn ∈ C + c (E), A∈B([0, ∞) n ) �<br />

ist schnittstabil und nach Satz 24.2 ein Erzeuger von M. AlsoistdasMaßPX<br />

eindeutig durch die Werte auf I festgelegt.<br />

Die Aussage folgt analog für<br />

�<br />

(IA1 ,...,IAn ): n ∈ N; A1,...,An ∈Bb(E) � .<br />

Sind A1,...,An ∈Bb(E) beliebig, so existieren 2n − 1 paarweise disjunkte Mengen<br />

B1,...,B2n−1 mit Ai = �<br />

k: Bk⊂Ai Bk für jedes i =1,...,n. Die Verteilung<br />

von (IA1 ,...,IAn ) lässt sich aus der von (IB1 ,...,IB2n ) berechnen. ✷<br />

−1


Im Folgenden sei i = √ −1.<br />

Definition 24.6. Wir bezeichnen mit<br />

� � �<br />

LX(f) =E exp −<br />

��<br />

fdX , f ∈B + (E),<br />

die Laplace-Transformierte von X und mit<br />

� � �<br />

ϕX(f) =E exp i<br />

��<br />

fdX , f ∈B R b (E),<br />

die charakteristische Funktion von X.<br />

24.1 Zufällige Maße 511<br />

Satz 24.7. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl<br />

durch die Werte der Laplace-Transformierten LX(f), f ∈ C + c (E), als auch<br />

durch die Werte der charakteristischen Funktion ϕX(f), f ∈ Cc(E).<br />

Beweis. Dies folgt aus Satz 24.5 und dem Eindeutigkeitssatz für charakteristische<br />

Funktionen (Satz 15.8) beziehungsweise Laplace-Transformierte (Übung 15.1.2)<br />

von Zufallsvariablen auf [0, ∞) n . ✷<br />

Definition 24.8. Wir sagen, dass ein zufälliges Maß X auf E unabhängige Zuwächse<br />

hat, falls für je endlich viele paarweise disjunkte Mengen A1,...,An die<br />

Zufallsvariablen X(A1),...,X(An) unabhängig sind.<br />

Korollar 24.9. Die Verteilung eines zufälligen Maßes X auf E mit unabhängigen<br />

Zuwächsen ist durch (P X(A), A∈Bb(E)) eindeutig bestimmt.<br />

Beweis. Dies folgt direkt aus Satz 24.5. ✷<br />

Definition 24.10. Sei μ ∈ M(E). Ein zufälliges Maß X mit unabhängigen Zuwächsen<br />

heißt Poisson’scher Punktprozess (PPP) mit Intensitätsmaß μ, falls für<br />

jedes A ∈ Bb(E) gilt, dass P X(A) = Poi μ(A). Wir schreiben dann PPPμ :=<br />

PX ∈M1(M(E)) und sagen kurz, dass X ein PPPμ ist.<br />

Bemerkung 24.11. Die Definition des PPP (und die Konstruktion im folgenden<br />

Satz) funktioniert auch, wenn (E,E,μ) lediglich ein σ-endlicher Maßraum ist. Die<br />

Charakterisierung mit Hilfe von Laplace-Transformierten und charakteristischen<br />

Funktionen ist allerdings etwas einfacher im hier betrachteten Fall lokalkompakter,<br />

polnischer Räume. ✸<br />

Satz 24.12. Zu jedem μ ∈M(E) existiert ein Poisson’scher Punktprozess X mit<br />

Intensitätsmaß μ.


512 24 Der Poisson’sche Punktprozess<br />

Beweis. Da μ ∈M(E) ist, ist μσ-endlich. Sei also En ↑ E mit μ(En) < ∞<br />

für jedes n ∈ N. Setze μ1 = μ(E1 ∩ · ) und μn = μ((En \ En−1) ∩ · )<br />

für n ≥ 2. SindX1,X2,... unabhängige Poisson’sche Punktprozesse mit Intensitätsmaßen<br />

μ1,μ2,...,sohatX = �∞ n=1 Xn das Intensitätsmaß E[X] =μ, also<br />

ist X ein zufälliges Maß (siehe Übung 24.1.1). Außerdem sieht man leicht, dass X<br />

unabhängige Zuwächse hat und<br />

P X(A) = P X1(A) ∗ P X2(A) ∗ ...=Poi μ1(A) ∗ Poi μ2(A) ∗ ...=Poi μ(A).<br />

Also ist X ∼ PPPμ.<br />

Es reicht also, den Fall μ(E) ∈ (0, ∞) zu betrachten, den wir im Folgenden annehmen<br />

wollen. Setze ν = μ( · )/μ(E) ∈M1(E). Seien N,Y1,Y2,... unabhängige<br />

Zufallsvariablen mit N ∼ Poiμ(E) und PYi = ν für jedes i ∈ N. Wirdefinieren<br />

X(A) =<br />

N�<br />

n=1<br />

A(Yn) für A ∈B(E).<br />

Die Zufallsvariablen A(Y1), A(Y2),...sind unabhängig und Ber ν(A)-verteilt, also<br />

ist X(A) ∼ Poi μ(A) (siehe Satz 15.14(iii)). Seien A1,A2,...∈B(E) paarweise<br />

disjunkt und<br />

� �<br />

ψ(t) =E exp i<br />

n�<br />

l=1<br />

tl Al (Y1)<br />

��<br />

=1+<br />

l=1<br />

n�<br />

ν(Al) � e itl<br />

� n<br />

− 1 , t ∈ R ,<br />

die charakteristische Funktion von ( A1 (Y1),..., An (Y1)). Sei ferner ϕ die charakteristische<br />

Funktion von (X(A1),...,X(An)) und ϕl die von X(Al) für l =<br />

1,...,n, also ϕl(tl) =exp(μ(Al)(e itl − 1)). Nach Satz 15.14(iii) ist<br />

� �<br />

ϕ(t) =E exp i<br />

n�<br />

l=1<br />

��<br />

tl X(Al)<br />

=exp � μ(E)(ψ(t) − 1) �<br />

� �n<br />

=exp μ(Al) � e itl<br />

�<br />

− 1 �<br />

=<br />

l=1<br />

n�<br />

ϕl(tl).<br />

Also sind X(A1),...,X(An) unabhängig. Es folgt X ∼ PPPμ. ✷<br />

Übung 24.1.1. Seien X1,X2,... zufällige Maße und λ1,λ2,... ∈ [0, ∞) sowie<br />

X := �∞ n=1 λnXn. Man zeige, dass X genau dann ein zufälliges Maß ist, wenn<br />

P[X(B) < ∞] =1für jedes B ∈Bb(E). Man folgere: Ist X eine Zufallsvariable<br />

mit Werten in � �<br />

M(E), � M(E) � und E[X] ∈M(E), soistXein zufälliges Maß. ♣<br />

Übung 24.1.2. Sei τw die Topologie der schwachen Konvergenz auf M1(E) und<br />

σ(τw) die Borel’sche σ-Algebra auf M1(E). Man zeige: M � � = σ(τw). ♣<br />

M1(E)<br />

l=1


24.2 Eigenschaften des Poisson’schen Punktprozesses 513<br />

24.2 Eigenschaften des Poisson’schen Punktprozesses<br />

Satz 24.13. Sei μ ∈M(E) atomlos, also μ({x}) =0für jedes x ∈ E, und sei X<br />

ein zufälliges Maß auf E mit P[X(A) ∈ N0 ∪{∞}]=1für jedes A ∈B(E). Dann<br />

sind äquivalent:<br />

(i) X ∼ PPPμ<br />

(ii) X ist fast sicher doppelpunktfrei, also P[X({x}) ≥ 2 für ein x ∈ E] =0, und<br />

P[X(A) =0]=e −μ(A)<br />

Beweis. (i) =⇒ (ii) Das ist klar.<br />

für jedes A ∈Bb(E). (24.3)<br />

(ii) =⇒ (i) Sind A1,...,An ∈Bb(E) paarweise disjunkt, so ist<br />

P � X(A1) =0,...,X(An) =0 � = P � X � � �<br />

A1 ∪ ...∪ An =0<br />

= e −μ(A1∪...∪An)<br />

=<br />

n�<br />

e −μ(Al)<br />

=<br />

l=1<br />

n�<br />

P[X(Al) =0].<br />

Also sind die Zufallsvariablen � X(A) :=X(A)∧1 unabhängig für disjunkte Mengen<br />

A. Der Rest des Beweises geht wie im Beweis von Satz 5.34. Sei A ∈ Bb(E).<br />

Wähle A0 ⊂ A mit μ(A0) =μ(A)/2 (das geht nach Übung 8.3.1, weil μ atomlos<br />

ist) und setze A1 = A \ A0. Wähle nun in gleicher Weise Ai,0,Ai,1 ⊂ Ai für<br />

i =0, 1 und sukzessive disjunkte Mengen Ai,0,Ai,1 ⊂ Ai für i ∈{0, 1} n−1 mit<br />

μ(Ai) =2−nμ(A) für jedes i ∈{0, 1} n . Setze<br />

Nn(A) := �<br />

�X(Ai).<br />

i∈{0,1} n<br />

Da X doppelpunktfrei ist, gilt Nn(A) ↑ X(A) fast sicher. Andererseits ist nach Voraussetzung<br />

Nn(A) ∼ b 2 n ,2 −n μ(A) für n ∈ N, also konvergiert die charakteristische<br />

Funktion<br />

ϕ Nn(A)(t) = � 1+2 −n μ(A)(e it −1) � 2 n n→∞<br />

−→ exp � μ(A)(e it −1) � = ϕPoi μ(A) (t).<br />

Mithin gilt P Nn(A)<br />

n→∞<br />

−→ Poi μ(A), also X(A) ∼ Poi μ(A).<br />

Sind nun A1,...,Ak ∈ Bb(E) paarweise disjunkt, so sind die analog konstruierten<br />

Nn(A1),...,Nn(Ak) unabhängig, also sind auch die Limiten X(Al) =<br />

limn→∞ Nn(Al), l =1,...,kunabhängig. ✷<br />

l=1


514 24 Der Poisson’sche Punktprozess<br />

Satz 24.14. Sei μ ∈ M(E) und X ein Poisson’scher Punktprozess mit Intensitätsmaß<br />

μ. Dann hat X die Laplace-Transformierte<br />

��<br />

LX(f) =exp μ(dx) � e −f(x) − 1 ��<br />

, f ∈B + (E),<br />

und die charakteristische Funktion<br />

��<br />

ϕX(f) =exp μ(dx) � e if(x) − 1 ��<br />

, f ∈B R b (E).<br />

Beweis. Es reicht, die Aussage für Elementarfunktion f = �n l=1 αl Al mit komplexen<br />

Zahlen α1,...,αn und paarweise disjunkten Mengen A1,...,An ∈Bb(E)<br />

zu zeigen. (Die Aussagen für allgemeines f folgen dann mit den üblichen Approximationsargumenten.)<br />

Für solches f ist aber<br />

E � exp � − If (X) �� �<br />

�n<br />

= E e −αlX(Al)<br />

�<br />

=<br />

=<br />

l=1<br />

l=1<br />

n�<br />

l=1<br />

n� �<br />

exp μ(Al) � e −αl<br />

�<br />

− 1 �<br />

�<br />

�n<br />

=exp μ(Al) � e −αl<br />

�<br />

− 1 �<br />

l=1<br />

� �<br />

=exp<br />

� �<br />

−αlX(Al)<br />

E e<br />

μ(dx) � e −f(x) − 1 ��<br />

. ✷<br />

Korollar 24.15 (Momente des PPP). Sei μ ∈M(E) und X ∼ PPPμ.<br />

(i) Ist f ∈L 1 (μ), soistE[ � fdX]= � fdμ.<br />

(ii) Ist f ∈L 2 (μ) ∩L 1 (μ), soistVar[ � fdX]= � f 2 dμ.<br />

Beweis. Ist f ∈ L1 (μ), so vertauschen für die charakteristische Funktion Integral<br />

und Differentiation d<br />

dtϕX(tf) =iϕX(tf) � f(x) eitf(x) μ(dx), also ist (nach<br />

Satz 15.31)<br />

E � If (X) � = 1 d<br />

i dt ϕX(tf) � �<br />

� = fdμ.<br />

t=0<br />

Ist f ∈L 1 (μ) ∩L 2 (μ), solässt sich das Argument iterieren<br />

d2 dt2 ϕX(tf)<br />

� �<br />

=−ϕX(tf)<br />

f 2 (x) e itf(x) � �<br />

μ(dx)+<br />

f(x) e itf(x) �2 �<br />

μ(dx) ,<br />

also gilt E � If (X) 2� = − d2<br />

dt2 ϕX(tf) � � = If 2(μ)+If (μ)<br />

t=0<br />

2 . ✷


24.2 Eigenschaften des Poisson’schen Punktprozesses 515<br />

Satz 24.16 (Abbildungssatz). Seien E und F lokalkompakte, polnische Räume und<br />

φ : E → F eine messbare Abbildung. Sei μ ∈M(E) mit μ ◦ φ −1 ∈M(F ) und<br />

X ein PPP auf E mit Intensitätsmaß μ. Dann ist X ◦ φ −1 ein PPP auf F mit<br />

Intensitätsmaß μ ◦ φ −1 .<br />

Beweis. Für f ∈B + (F ) ist<br />

� � �<br />

LX◦φ−1(f) =LX(f ◦ φ) =exp e −f(φ(x)) � �<br />

− 1 μ(dx)<br />

� �<br />

�e �� −f(y) −1<br />

=exp<br />

− 1 μ ◦ φ � �<br />

(dy) .<br />

Die Aussage folgt nun aus Satz 24.16 und Satz 24.7. ✷<br />

Satz 24.17. Sei ν ∈ M((0, ∞)) und X ∼ PPPν auf (0, ∞). Setze Y :=<br />

� xX(dx). Dann sind äquivalent<br />

(i) P[Y < ∞] > 0,<br />

(ii) P[Y < ∞] =1,<br />

(iii) � ν(dx) � 1 ∧ x � < ∞.<br />

Gelten (i)–(iii), so ist Y eine unbegrenzt teilbare, nichtnegative Zufallsvariable mit<br />

Lévy-Maß ν.<br />

Beweis. Sei Y∞ = �<br />

[1,∞) xX(dx) und Yt := �<br />

xX(dx) für t ∈ [0, 1). Offen-<br />

(t,1)<br />

bar ist Y = Y0 + Y∞. Außerdem ist offenbar<br />

P[Y∞ < ∞] > 0 ⇐⇒ P[Y∞ < ∞] =1 ⇐⇒ ν([1, ∞)) < ∞. (24.4)<br />

Gilt (iii), so ist E[Y0] = �<br />

(0,1) xν(dx) < ∞, also Y0 < ∞ f.s. (und wegen (24.4)<br />

auch Y < ∞ f.s.). Gilt andererseits (iii) nicht, so ist Y∞ = ∞ f.s. oder E[Y0] =∞.<br />

Während für Y∞ die Erwartung unendlich sein kann, auch wenn Y∞ f.s. endlich<br />

ist, ist dies für Y0 nicht möglich, denn Y0 setzt sich im Gegensatz zu Y∞ nicht aus<br />

wenigen großen, sondern aus vielen kleinen Beiträgen zusammen, sodass ein Gesetz<br />

der großen Zahl gilt. Konkret ist nach Korollar 24.15<br />

�<br />

Var[Yt] = x 2 �<br />

ν(dx) ≤ xν(dx) =E[Yt] < ∞<br />

(t,1)<br />

(t,1)<br />

für jedes t ∈ (0, 1), also nach der Chebyshev’schen Ungleichung<br />

�<br />

P Yt < E[Yt]<br />

�<br />

4 Var[Yt]<br />

≤<br />

2 E[Yt] 2<br />

t→0<br />

−→ 0.<br />

Also ist Y0 =sup t∈(0,1) Yt ≥ E[Y0]/2 =∞ fast sicher.


516 24 Der Poisson’sche Punktprozess<br />

Es gelten nun (i) – (iii). Nach Satz 24.14 hat Y die Laplace-Transformierte<br />

E[e −tY ��<br />

]=exp ν(dx) � e −tx − 1 ��<br />

.<br />

Nach der Lévy-Khinchin Formel (Satz 16.14) ist Y unbegrenzt teilbar mit Lévy-<br />

Maß ν. ✷<br />

Beispiel 24.18. Nach Korollar 16.10 existiert zu jeder nichtnegativen unbegrenzt<br />

teilbaren Verteilung μ mit Lévy-Maß ν ein stochastischer Prozess (Yt)t≥0 mit unabhängigen<br />

stationären Zuwächsen und Yt ∼ μ∗t (also mit Lévy-Maß tν). Diesen<br />

Prozess können wir hier direkt konstruieren: Sei X ein PPP auf (0, ∞) × [0, ∞) mit<br />

Intensitätsmaß ν ⊗ λ (wo λ das Lebesgue-Maß ist). Setze Y0 =0und<br />

�<br />

Yt :=<br />

xX(d(x, s)).<br />

(0,∞)×(0,t]<br />

Nach dem Abbildungssatz ist X( · × (s, t]) ∼ PPP (t−s)ν, also ist Yt − Ys unbegrenzt<br />

teilbar mit Lévy-Maß (t−s)ν. Die Unabhängigkeit der Zuwächse ist evident.<br />

Man beachte, dass t ↦→ Yt rechtsstetig und monoton wachsend ist.<br />

Der so konstruierte Prozess Y heißt Subordinator mit Lévy-Maß ν. ✸<br />

Wir können das Vorgehen des letzten Beispiels verallgemeinern, indem wir als Zeitmenge<br />

allgemeinere Mengen als [0, ∞) zulassen.<br />

Definition 24.19. Ein zufälliges Maß Y heißt unbegrenzt teilbar, wenn für jedes n ∈<br />

N u.i.v. zufällige Maße Y1,...,Yn existieren mit Y = Y1 + ...+ Yn.<br />

Satz 24.20. Sei ν ∈M((0, ∞) × E) mit<br />

�<br />

A(t)(1∧ x) ν(d(x, t)) < ∞ für jedes A ∈Bb(E),<br />

und sei α ∈M(E).SeiXein PPPν und<br />

�<br />

Y (A) :=α(A)+ x A(t) X(d(x, t)) für A ∈B(E).<br />

Dann ist Y ein unbegrenzt teilbares zufälliges Maß mit unabhängigen Zuwächsen.<br />

Für A ∈B(E) hat Y (A) das Lévy-Maß ν( · × A).<br />

Wir nennen ν das kanonische Maß und α den deterministischen Anteil von Y .<br />

Beweis. Das folgt direkt aus Satz 24.16 und Satz 24.17. ✷


24.2 Eigenschaften des Poisson’schen Punktprozesses 517<br />

Bemerkung 24.21. Wir können Y schreiben als Y = α + � xδt X(d(x, t)), woδt<br />

die Einheitsmasse in t ∈ E ist. Wenn wir nun statt xδt allgemeinere Maße χ ∈<br />

M(E) zulassen, so erhalten wir eine Darstellung<br />

�<br />

Y = α + χX(dχ),<br />

M(E)<br />

wo X ∼ PPPν auf M(E) und ν ∈M(M(E)) mit � ν(dχ)(χ(A)∧1) < ∞ für jedes<br />

A ∈Bb(E). Man kann zeigen, dass dies die allgemeinste Form eines unbegrenzt<br />

teilbaren Maßes auf E ist. Wir nennen ν das kanonische Maß von Y und α den deterministischen<br />

Anteil. Y ist charakterisiert durch die Laplace-Transformierte, die<br />

der Lévy-Khinchin Formel genügt:<br />

LY (f) =exp<br />

� �<br />

−<br />

�<br />

fdα+<br />

ν(dχ) � e − � fdχ − 1 � �<br />

. ✸<br />

Satz 24.22 (Färbungssatz). Sei F ein weiterer lokalkompakter, polnischer Raum<br />

und μ ∈M(E) atomlos sowie (Yx)x∈E u.i.v. Zufallsvariablen mit Werten in F und<br />

Verteilung ν ∈M1(F ). Dann ist<br />

�<br />

Z(A) := A(x, Yx) X(dx), A ∈B(E × F ),<br />

ein PPPμ⊗ν auf E × F .<br />

Beweis. Übung! ✷<br />

Wir wollen die Aussage des Färbungssatzes in nahe liegender Weise verallgemeinern:<br />

Die Annahme, dass das Maß μ atomlos ist, sorgt schließlich nur dafür, dass X<br />

keine Doppelpunkte hat, also für jede Einheitsmasse, die X produziert, eine andere<br />

Zufallsvariable Yx zur Verfügung steht. Außerdem wollen wir für jeden Punkt x<br />

eine eigene Verteilung von Yx erlauben.<br />

Seien also E,F lokalkompakte, polnische Räume, μ ∈ M(E) und κ ein stochastischer<br />

Kern von E nach F mit μκ := � μ(dx)κ(x, · ) ∈ M(F ). Seien<br />

(Yx,t) x∈E, t∈[0,1] unabhängige Zufallsvariablen mit Verteilungen PYx,t = κ(x, · )<br />

für x ∈ E und t ∈ [0, 1].<br />

Wir definieren zu X ∼ PPPμ das Lifting ˜ X als den PPP auf E × [0, 1] mit<br />

Intensitätsmaß μ ⊗ λ � � [0,1] ,woλ das Lebesgue-Maß ist. Offenbar ist dann X D =<br />

˜X( · × [0, 1]). Das zufällige Maß ˜ X können wir also als Realisierung von X auffassen,<br />

wobei wir den einzelnen Punkten von X willkürlich eine Markierung mit<br />

Werten aus [0, 1] gegeben haben, um sie zu unterscheiden. Wir setzen nun<br />

X κ �<br />

(A) := ˜X(d(x, t)) A(Yx,t) für A ∈B(F ).


518 24 Der Poisson’sche Punktprozess<br />

Satz 24.23. Xκ ist ein zufälliges Maß mit PXκ = PPPμκ.<br />

Beweis. Offenbar ist Xκ (A) fast sicher ein Maß. Für A ∈Bb(F ) ist<br />

E[X κ ��<br />

�<br />

(A)] = E ˜X(d(x, t)) κ(x, A) =(μκ)(A) < ∞<br />

nach Voraussetzung, also ist X κ (A) < ∞ fast sicher, und damit ist X κ ein<br />

zufälliges Maß. Wir berechnen die Laplace-Transformierte von X κ .Seig(x) :=<br />

− log E[e−f(Yx,t) ]. Dann ist (weil ˜ X doppelpunktfrei ist)<br />

� � �<br />

��<br />

LXκ(f) =E exp − ˜X(d(x, t)) f(Yx,t)<br />

⎡<br />

= E ⎣<br />

�<br />

e −f(Yx,t)<br />

⎤ ⎡<br />

⎦ = E ⎣<br />

�<br />

⎡<br />

= E ⎣<br />

(x,t): ˜ X({(x,t)})=1<br />

�<br />

(x,t): ˜ X({(x,t)})=1<br />

⎤<br />

e −g(x) ⎦ = LX(g)<br />

(x,t): ˜ X({(x,t)})=1<br />

E[e −f(Yx,t) ⎤<br />

] ⎦<br />

��<br />

=exp μ(dx) � E[e −f(Yx,t) ] − 1 ��<br />

��<br />

=exp<br />

�<br />

μ(dx) κ(x, dy) � e −f(y) − 1 ��<br />

��<br />

=exp μκ(dy) � e −f(y) − 1 ��<br />

. ✷<br />

Beispiel 24.24 (PPP als invariante Verteilung). Als Anwendung des letzten Satzes<br />

betrachten wir einen stochastischen Prozess auf E = Zd oder E = Rd ,deraus<br />

unabhängigen Irrfahrten besteht. Wir nehmen also an, dass wir u.i.v. Zufallsvariablen<br />

Zi n, i, n ∈ N mit Verteilung ν ∈ E haben. Wir nehmen zudem an, dass das i-te<br />

Teilchen unseres Irrfahrtenprozesses zur Zeit n die Position Si n := Si 0 + �n l=1 Zi l<br />

hat, wobei Si 0 ein willkürlicher, eventuell zufälliger, Startpunkt ist. Wenn wir die<br />

Teilchen als ununterscheidbar annehmen, reicht es, die Teilchen an jedem Ort zusammenzuzählen.<br />

Wir betrachten also<br />

∞�<br />

Xn(A) := A(S i n) für A ⊂ E.<br />

i=1<br />

Jedes Xn ist ein Maß auf E und, wenn wir die Teilchen anfangs nicht zu sehr konzentrieren,<br />

lokal endlich, also ein zufälliges Maß. Nehmen wir an, dass X0 ∼ PPPμ<br />

für ein μ ∈M(E) ist. Wir setzen κ(x, · )=δx ∗ν und schreiben κn für die n-fache<br />

Anwendung von κ, also κn (x, · )=δx ∗ ν∗n . Wir erhalten so Xκ D<br />

0 = X1. Inder<br />

Tat: Das unabhängige Bewegen der einzelnen Teilchen in der Definition von X κ 0


24.3 Die Poisson-Dirichlet-Verteilung ∗<br />

ist genau die Dynamik der unabhängigen Irrfahrten. Da nun auch X1 ein PPP ist,<br />

erhalten wir iterativ X κ n<br />

ist X0<br />

519<br />

D<br />

= Xn+1 und damit Xn ∼ PPPμκn = PPPμ∗ν∗n. Speziell<br />

D<br />

= Xn genau dann, wenn μ ∗ ν = μ gilt. Offenbar ist dies richtig, wenn<br />

E = Z d und μ das Zählmaß oder E = R d und μ das Lebesgue-Maß. Ist beispielsweise<br />

E = Z d , so kann man unter relativ schwachen Annahmen an ν zeigen, dass<br />

das Zählmaß μ = λ die einzige Lösung von μ ∗ ν = μ ist. In dem Fall ist jedes invariante<br />

Maß eine Konvexkombination von PPPs mit verschiedenen Intensitätsmaßen<br />

θλ. ✸<br />

Übung 24.2.1. Man zeige die Aussage von Korollar 24.15 ohne charakteristische<br />

Funktionen direkt über die Approximation mit Elementarfunktionen. ♣<br />

Übung 24.2.2. Man zeige den Färbungssatz (Satz 24.22). ♣<br />

24.3 Die Poisson-Dirichlet-Verteilung ∗<br />

Ziel dieses Abschnitts ist die Lösung des folgenden Problems: Wir brechen einen<br />

Stock der Länge 1 an einer zufälligen (uniform verteilten) Stelle in zwei Stücke<br />

und legen das linke Stück (mit der Länge W1) beiseite. Mit dem restlichen Stock<br />

verfahren wir in gleicher Weise und legen das linke Stück der Länge W2 beiseite.<br />

Sukzessive sammeln wir die Bruchstücke mit Längen W1,W2,W3,... Wie sieht<br />

die gemeinsame Verteilung von (W1,W2,...) aus? Ferner wollen wir die Zahlen<br />

W1,W2,... der Größe nach umsortieren und W (1) ≥ W (2) ≥ ... nennen. Wie<br />

sieht die Verteilung von (W (1),W (2),...) aus? Und schließlich: was hat dies mit<br />

Poisson’schen Punktprozessen zu tun?<br />

Zur Beantwortung der Fragen müssen wir etwas weiter ausholen. Wir hatten gesehen,<br />

wie die Beta-Verteilung in natürlicher Weise bei dem Pólya’schen Urnenmodell<br />

als Grenzverteilung der Frequenzen der beiden Kugelfarben auftritt. Offenbar kann<br />

man das Pólya’sche Modell auch mit n ≥ 2 Farben betrachten. Die Grenzverteilung<br />

ist dann die n-dimensionale Verallgemeinerung der Beta-Verteilung, nämlich die so<br />

genannte Dirichlet-Verteilung.<br />

Definition 24.25. Sei n ∈{2, 3,...} und θ1,...,θn > 0.DieDirichlet-Verteilung Dirθ1,...,θn ist die Verteilung auf dem (n − 1)-dimensionalen Simplex<br />

Δn := {(x1,...,xn) ∈ [0, 1] : x1 + ...+ xn =1},<br />

die für messbares A ⊂ Δn definiert ist durch<br />

�<br />

Dirθ1,...,θn (A) = A(x1,...,xn) fθ1,...,θn (x1,...,xn) dx1 ···dxn−1,<br />

wobei<br />

fθ1,...,θn (x1,...,xn) = Γ (θ1 + ...+ θn)<br />

Γ (θ1) ···Γ (θn) xθ1−1 1<br />

···x θn−1<br />

n .


520 24 Der Poisson’sche Punktprozess<br />

Die Parameter θ1,...,θn entsprechen (falls ganzzahlig) den Anzahlen der Kugeln<br />

der einzelnen Farben, die ursprünglich in der Urne liegen. Wenn wir nun nicht ganz<br />

so genau hinschauen und Kugeln zweier Farben, etwa n−1 und n zusammenfassen,<br />

so sollten wir als Grenzverteilung für die Frequenzen Dirθ1,...,θn−2,θn−1+θn erhalten.<br />

Sei (Mt)t≥0 der Moran-Gamma-Subordinator, also ein stochastischer Prozess<br />

mit rechtsstetigen, monoton wachsenden Pfaden t ↦→ Mt und unabhängigen,<br />

stationären, Gamma-verteilten Zuwächsen: Mt − Ms ∼ Γ1,t−s für t>s≥ 0.<br />

Einen wichtigen Zusammenhang zwischen der Dirichlet-Verteilung und M liefert<br />

der folgende Satz.<br />

Satz 24.26. Seien n ∈ N und θ1,...,θn > 0 sowie Θ := θ1 + ... + θn. Seien<br />

X ∼ Dirθ1,...,θn und Z ∼ Γ1,Θ unabhängige Zufallsvariablen. Dann sind die<br />

Zufallsvariablen Si := Z · Xi, i =1,...,nunabhängig und Si ∼ Γ1,θi .<br />

Beweis. Sei im Folgenden stets xn := 1 − � n−1<br />

i=1 xi und s = � n<br />

j=1 sj. SeiΔ ′ n :=<br />

{x1,...,xn−1 > 0: � n−1<br />

i=1 xi < 1}. Die Verteilung von (X1,...,Xn−1,Z) hat<br />

(für x ∈ Δ ′ n und z ≥ 0) die Dichte<br />

f(x1,...,xn−1,z)=<br />

n� �<br />

j=1<br />

x θj−1<br />

j<br />

�<br />

/Γ (θj)<br />

z Θ−1 e −z .<br />

Betrachte die Abbildung F : Δ ′ n−1 × (0, ∞) → (0, ∞) n , (x1,...,xn−1,z) ↦→<br />

(zx1,...,zxn). Die Abbildung ist invertierbar mit Umkehrabbildung<br />

F −1 :(s1,...,sn) ↦→ (s1/s,...,sn−1/s, s).<br />

Die Ableitung von F hat die Determinante det(F ′ (x1,...,xn−1,z)) = z n−1 . Nach<br />

der Transformationsformel für Dichten (Satz 1.101) hat (S1,...,Sn) die Dichte<br />

g(s1,...,sn) =<br />

=<br />

=<br />

f(F −1 (s1,...,sn))<br />

| det(F ′ (F −1 (s1,...,sn)))|<br />

n� �<br />

(sj/s) θj−1 /Γ (θj) � sΘ−1e−s j=1<br />

s n−1<br />

n� �<br />

(sj/s) θj−1 e −sj /Γ (θj) � .<br />

j=1<br />

Dies ist aber die Dichte von unabhängigen Gamma-Verteilungen. ✷<br />

Korollar 24.27. Ist ti := �i j=1 θj für i =0,...,n, so sind die Zufallsvariablen<br />

X =((Mti−Mti−1 )/Mtn , i =1,...,n) und S := Mtn unabhängig und X ∼<br />

sowie S ∼ Γ1,tn .<br />

Dirθ1,...,θn<br />

Korollar 24.28. Sei (X1,...,Xn) ∼ Dirθ1,...,θn . Dann sind X1 ∼ β θ1, � n<br />

i=2 θi und<br />

(X2/(1 − X1),...,Xn/(1 − X1)) ∼ Dirθ2,...,θn unabhängig.


24.3 Die Poisson-Dirichlet-Verteilung ∗<br />

Beweis. Sei M wie in Korollar 24.27. Dann ist X1 = Mt1 /Mtn ∼ βθ1,tn−θ1 und<br />

�<br />

Mtn −Mt1 X1 = Mt1 �<br />

X2<br />

+1<br />

� −1<br />

,...,<br />

1 − X1<br />

Xn<br />

�<br />

1 − X1<br />

521<br />

nur von Mt1 und Mtn − Mt1 abhängig. Andererseits ist<br />

=<br />

�<br />

Mt2 − Mt1<br />

Mtn − Mt1<br />

,...,<br />

Mtn − Mtn−1<br />

Mtn − Mt1<br />

unabhängig von Mt1 und nach Korollar 24.27 auch unabhängig von Mtn − Mt1<br />

sowie Dirθ2,...,θn-verteilt. ✷<br />

Korollar 24.29. Seien V1,V2,... unabhängig und Vi ∼ βθi,θi+1+...+θn sowie Vn =<br />

1. Dann ist<br />

�<br />

� n−2 � � �<br />

V1, (1 − V1)V2, (1 − V1)(1 − V2)V3,..., (1 − Vi) ∼ Dirθ1,...,θn .<br />

Beweis. Das folgt durch Iteration der Aussage von Korollar 24.28. ✷<br />

Eine natürliche Fragestellung ist, was passiert, wenn wir immer mehr Farben differenzieren<br />

(statt zusammenzufassen). Wir wollen der Einfachheit halber eine symmetrische<br />

Situation annehmen, bei der θ1 = ... = θn = θ/n für ein θ>0 ist. Wir<br />

betrachten also<br />

Dirθ;n := Dirθ,...,θ für θ>0.<br />

Ist Xn =(Xn 1 ,...,Xn n ) ∼ Dirθ/n;n, so ist aus Symmetriegründen E[Xn i ]=1/n<br />

für jedes n ∈ N und i =1,...,n. Offenbar gilt also (Xn 1 ,...,Xn n→∞<br />

k ) =⇒ 0 für<br />

jedes k ∈ N. Eine Möglichkeit, einen nicht-trivialen Grenzwert zu erhalten ist, die<br />

Werte der Größe nach zu ordnen Xn (1) ≥ Xn (2) ≥ ...<br />

Definition 24.30. Sei θ>0 und (Mt) t∈[0,θ] ein Moran-Gamma-Subordinator. Seien<br />

m1 ≥ m2 ≥ ... ≥ 0 die der Größe nach sortierten Sprunghöhen von M und<br />

˜mi = mi/Mθ, i =1, 2,... Die Verteilung der Zufallsvariablen (˜m1, ˜m2,...) auf<br />

S := {(x1 ≥ x2 ≥ ... ≥ 0) : x1 + x2 + ... =1} heißt Poisson-Dirichlet-<br />

Verteilung PDθ mit Parameter θ>0.<br />

Genau genommen müssen wir noch nachweisen, dass �∞ i=1 ˜mi =1ist. Sei hierzu<br />

Y ein PPP auf (0, ∞) × (0,θ] mit Intensitätsmaß ν ⊗ λ, woλ das Lebesgue-Maß<br />

ist und ν(dx) = e−xx−1 dx das Lévy-Maß der Γ1,1-Verteilung. Wir können M<br />

definieren durch Mt := �<br />

(x,s): Y ({x,s})=1,s≤t x. Nun ist m1 =sup{x ∈ (0, ∞) :<br />

Y ({x}×(0,θ]) = 1} und sukzessive mn =sup{x


522 24 Der Poisson’sche Punktprozess<br />

Beweis. Die Idee ist, die Zufallsvariablen Xn , n ∈ N, so durch die Zuwächse<br />

des Moran-Gamma-Subordinators (Mt) t∈[0,θ] darzustellen, dass aus der Verteilungskonvergenz<br />

eine fast sichere Konvergenz wird. Es sei also Xn i =(Mθi/n −<br />

Mθ(i−1)/n)/Mθ. Nach Korollar 24.27 ist Xn ∼ Dirθ/n;n. Seien t1,t2,... ∈ (0,θ]<br />

die Positionen der Sprünge m1 ≥ m2 ≥ ... Offenbar ist Xn (1) ≥ ˜m1 für jedes n.<br />

Ist n so groß, dass |t1 − t2| >θ/nist, so ist Xn (2) ≥ ˜m2. Sukzessive erhalten wir<br />

lim infn→∞ Xn (i) ≥ ˜mi fast sicher. Nun ist aber (mit der Festsetzung Xn (i) =0für<br />

i>n) �∞ i=1 Xn (i) =1für jedes n ∈ N. Nach dem Lemma von Fatou ist daher<br />

1=<br />

∞�<br />

˜mi ≤<br />

i=1<br />

∞�<br />

i=1<br />

lim inf<br />

n→∞ Xn (i)<br />

≤ lim inf<br />

n→∞<br />

∞�<br />

X n (i) =1.<br />

Es folgt limn→∞ X n (i) =˜mi fast sicher. ✷<br />

Anstatt die Werte von X n strikt der Größe nach zu ordnen, können wir ein anderes<br />

Verfahren anwenden, das Konvergenz der Verteilungen sichert. Stellen wir uns vor,<br />

dass wir in einer Population ein genetisches Merkmal haben, das wir unterschiedlich<br />

fein messen können. Wenn wir n unterschiedliche Werte unterscheiden wollen, so<br />

soll Xn i den Anteil der Bevölkerung mit dem Merkmal i bezeichnen.<br />

Wir greifen nun sukzessive zufällig Individuen aus der Population heraus. Das erste<br />

Individuum habe den Typ In 1 .MitIn 2 bezeichnen wir den Typ des ersten Individuums,<br />

das nicht vom Typ In 1 ist. Sukzessive sei In k der Typ des ersten Individuums,<br />

das nicht von einem der Typen In 1 ,...,In k−1 ist. Wir betrachten nun den Vektor<br />

ˆX n =( ˆ Xn 1 ,..., ˆ Xn n ), wo ˆ Xn k = Xn In . Da die Wahrscheinlichkeit für I1 = i pro-<br />

k<br />

portional zur Größe der Sub-Population mit Merkmal i ist, nennen wir ˆ Xn den<br />

sukzessive größenverzerrt gezogenen Vektor.<br />

Die Verteilung von ˆ Xn ändert sich nicht, wenn wir die Reihenfolge der Xn 1 ,...,Xn n<br />

verändern. Speziell können wir statt Xn die Ordnungsstatistik (Xn (1) ,...,Xn (n) )<br />

wählen und erhalten ebenfalls ˆ Xn als sukzessive größenverzerrt gezogenen Vektor.<br />

Insbesondere können wir für X ∼ PDθ den sukzessiv größenverzerrten Vektor ˆ X<br />

definieren. Gilt Xn ∼ Dirθ/n;n, so folgt aus Satz 24.31 sofort, dass ˆ n n→∞<br />

X =⇒ ˆ X.<br />

Hiermit können wir die Verteilung von ˆ X ausrechnen.<br />

Satz 24.32. Sei θ>0 und seien X n ∼ Dir θ/n;n, n ∈ N, sowie X ∼ PDθ. Seien<br />

ferner V1,V2,... u.i.v. Zufallsvariablen auf [0, 1] mit Dichte x ↦→ θ(1 − x) θ−1 .Wir<br />

setzen Z1 = V1 und Zk = � � k−1<br />

i=1 (1 − Vi) � Vk für k ≥ 2. Dann gilt:<br />

(i) ˆ n n→∞<br />

X =⇒ ˆ X.<br />

(ii) ˆ X D = Z.<br />

Die Verteilung von Z heißt GEMθ-Verteilung (für Griffiths-Engen-McCloskey).<br />

i=1


24.3 Die Poisson-Dirichlet-Verteilung ∗<br />

Beweis. Die Aussage (i) wurde bereits in der Diskussion vor dem Satz gezeigt. Um<br />

(ii) zu zeigen, berechnen wir die Verteilung von ˆ X n und zeigen, dass sie gegen die<br />

von Z konvergiert.<br />

Sei ˆ X n,1 der Vektor X n,1 =(X n I n 1 ,X2,...,X n I n 1 −1,Xn I n 1 +1,...,Xn n ), bei dem nur<br />

die erste Koordinate größenverzerrt gezogen wurde. Wir zeigen:<br />

Sei f(x) = � Γ (θ)/Γ (θ/n) n� · � n<br />

523<br />

ˆX n,1 ∼ Dir (θ/n)+1,θ/n,...,θ/n. (24.5)<br />

die Dichte von Dir θ/n;n. Die Dichte<br />

k=1 x(θ/n)−1<br />

k<br />

f n,1 von Xn,1 berechnen wir durch Zerlegung nach dem Wert i von In 1 :<br />

f n,1 (x) =<br />

= nΓ (θ)<br />

=<br />

n�<br />

x1 f(x2,...,xi,x1,xi+1,...,xn) =nx1 f(x)<br />

i=1<br />

Γ (θ/n)<br />

n�<br />

xθ/n<br />

n 1 x<br />

i=2<br />

(θ/n)−1<br />

i<br />

Γ (θ +1)<br />

Γ ((θ/n)+1)Γ (θ/n)<br />

n�<br />

xθ/n<br />

n−1 1 x<br />

i=2<br />

(θ/n)−1<br />

i .<br />

Dies ist aber die Dichte von Dir (θ/n)+1,θ/n,...,θ/n. Nach Korollar 24.28 ist ˆ Xn,1 D =<br />

(V n<br />

1 , (1 − V n<br />

1 )Y1,...,(1 − V n<br />

1 )Yn−1), wobei V n<br />

1 ∼ β (θ/n)+1,θ(n−1)/n und Y =<br />

(Y1,...,Yn−1) ∼ Dirθ/n;n−1 unabhängig sind. Indem wir das Gezeigte nun auf Y<br />

anwenden, erhalten wir sukzessive<br />

wobei<br />

Z n 1 = V n<br />

1 und Z n � k−1 �<br />

k =<br />

i=1<br />

und wobei V n<br />

1 ,...,Vn n−1 unabhängig sind und V n<br />

ˆX n D = Z n , (24.6)<br />

(1 − V n<br />

i )<br />

�<br />

V n<br />

k<br />

für k ≥ 2,<br />

i ∼ β (θ/n)+1,θ(n−i)/n. Nun prüft<br />

n→∞<br />

man aber leicht nach, dass β (θ/n)+1,θ(n−i)/n −→ β1,θ für jedes i ∈ N, und β1,θ<br />

hat die Dichte x ↦→ θ(1 − x) θ−1 . Es gilt also V n n→∞<br />

i =⇒ Vi für jedes i und damit<br />

n n→∞<br />

Z =⇒ Z und ˆ n n→∞<br />

X =⇒ Z. Zusammen mit (i) folgt hieraus die Aussage (ii). ✷<br />

Unsere eingangs gestellte Frage nach den Größen W1,W2,... der Bruchstücke<br />

von sukzessiv uniform verteilt zerbrochenen Stöcken ist damit geklärt: Der Vektor<br />

(W (1),W (2),...) ist PD1-verteilt, und (W1,W2,...) ist GEM1-verteilt.<br />

Der China-Restaurant Prozess<br />

Wir wollen eine weitere Situation kennen lernen, in der die Poisson-Dirichlet-<br />

Verteilung in natürlicher Weise auftaucht. Da die technischen Details etwas knifflig


524 24 Der Poisson’sche Punktprozess<br />

werden, begnügen wir uns damit, die Situation zu beschreiben und zwei wichtige<br />

Sätze anzugeben. Eine exzellente und vollständige Beschreibung findet sich in<br />

[121].<br />

Wir betrachten ein China-Restaurant mit abzählbar vielen (natürlich runden) nummerierten<br />

Tischen, an denen jeweils beliebig viele Gäste Platz finden. Anfangs sei<br />

das Restaurant leer. Nacheinander treffen (abzählbar viele) Gäste ein. Der erste Gast<br />

setzt sich an den (natürlich freien) Tisch mit der Nummer Eins. Sitzen bereits n<br />

Gäste an k Tischen, so hat der (n +1)-teGastdieMöglichkeit, sich entweder an<br />

einen der k besetzten Tische zu setzen, oder sich an den freien Tisch mit der kleinsten<br />

Nummer zu setzen. Wir wollen annehmen, dass die Wahl zufällig erfolgt und<br />

dass sich der Gast an den l-ten besetzten Tisch (mit N n l Gästen) mit Wahrscheinlichkeit<br />

(N n l − α)/(n + θ) setzt, mit Wahrscheinlichkeit (θ + kα)/(n + θ) jedoch<br />

den ersten noch freien Tisch besetzt. Hierbei sind α ∈ [0, 1] und θ > −α. Be-<br />

zeichnet N n l<br />

die Anzahl der Gäste zur Zeit n am l-ten besetzten Tisch, so nennen<br />

wir (N n )n∈N =(Nn 1 ,Nn 2 ,...)n∈N den China-Restaurant Prozess mit Parametern<br />

(θ, α).<br />

Ist speziell α = 0,sokönnen wir den China-Restaurant Prozess auch so interpretieren:<br />

Die Wahrscheinlichkeit, sich links neben einen der Gäste zu setzen (also<br />

an dessen Tisch) beträgt 1/(n + θ), die Wahrscheinlichkeit, einen neuen Tisch<br />

zu besetzen dagegen θ/(n + θ). Um das asymptotische Verhalten von N n /n =<br />

(N n 1 /n, N n 2 /n,...) zu beschreiben, müssen wir die Poisson-Dirichlet-Verteilung<br />

und die GEM Verteilung um einen Parameter erweitern.<br />

Definition 24.33. Sei α ∈ [0, 1) und θ > −α. Seien V1,V2,... unabhängig<br />

und Vi ∼ β1−α,θ+iα. Wirdefinieren Z = (Z1,Z2,...) durch Z1 = V1 und<br />

Zk = � � k−1<br />

i=1 (1 − Vi) � Vk für k ≥ 2. Dann heißt GEMα,θ := PZ die GEM-<br />

Verteilung mit Parametern (α, θ). Die Verteilung des nach Größe sortierten Vektors<br />

(Z (1),Z (2),...) heißt Poisson-Dirichlet-Verteilung mit Parametern (α, θ), oder<br />

kurz PDα,θ.<br />

Explizite Formeln für die Dichte der endlichdimensionalen Verteilungen von PDα,θ<br />

finden sich etwa in [124]. Man bemerke, dass wir im Falle α =0die bisherigen einparametrigen<br />

Verteilungen GEMθ =GEM0,θ und PDθ =PD0,θ zurückgewinnen.<br />

Satz 24.34. Seien α ∈ [0, 1), θ>−α und (N n )n∈N der China-Restaurant Prozess<br />

n→∞<br />

mit Parametern (α, θ). Dann gilt PN n /n −→ PDα,θ.<br />

Beweis. Siehe [122] oder [121, Theorem 25]. ✷<br />

Ähnlich wie für die einparametrige Poisson-Dirichlet-Verteilung gibt es eine Darstellung<br />

von PDα,θ durch die nach Größe geordneten Sprünge eines geeigneten<br />

Subordinators. Sei im Folgenden α ∈ (0, 1) und (Mt) t∈[0,1] ein α-stabiler Subordinator,<br />

also ein Subordinator mit Lévy-Maß ν(dx) =x −α−1 dx. Seien ferner


24.3 Die Poisson-Dirichlet-Verteilung ∗<br />

m1 ≥ m2 ≥ ... ≥ 0 die Sprünge von M und ˜mi = mi/M1 für i ∈ N, und<br />

˜m =(˜m1, ˜m2,...). Wir zitieren den folgenden Satz aus [121, Section 4.2].<br />

Satz 24.35. Sei α ∈ (0, 1).<br />

(i) Es gilt ˜m ∼ PDα,0<br />

(ii) Ist θ>−α, soistPDα,θ ≪ PDα,0 = P[˜m ∈ · ] mit<br />

PDα,θ(dx) =<br />

−θ<br />

M1 E[M −θ<br />

1<br />

] P[˜m ∈ dx].<br />

Übung 24.3.1. Sei (X, 1 − X) ∼ Dirθ1,θ2 . Man zeige, dass dann X ∼ βθ1,θ2 Betaverteilt<br />

ist. ♣<br />

Übung 24.3.2. Sei X =(X1,...,Xn) ∼ Dirθ1,...,θn . Man zeige:<br />

(i) Für jede Permutation σ auf {1,...,n} ist<br />

(X σ(1),...,X σ(n)) ∼ Dirθ σ(1),...,θ σ(n) .<br />

(ii) Es gilt (X1,...,Xn−2,Xn−1 + Xn) ∼ Dirθ1,...,θn−2,θn−1+θn . ♣<br />

Übung 24.3.3. Sei (N n )n∈N der China-Restaurant Prozess mit Parametern (0,θ).<br />

(i) Man zeige für θ =1:<br />

(a) P[N n 1 = k] =1/n für jedes k =1,...,n.<br />

(b) P[N n l = kl |N n 1 = k1,...,Nn l−1 = kl−1] =1/(n − (k1 + ...+ kl−1)) für<br />

kl =1,...,n− (k1 + ...+ kl−1).<br />

(c) Man folgere die Aussage von Satz 24.34 für den Fall α =0und θ =1.<br />

(ii) Man zeige für θ>0:<br />

(a) n P[N n 1 = ⌊nx⌋] n→∞<br />

−→ θ(1 − x) θ−1 für x ∈ (0, 1).<br />

(b) n P � N n l = ⌊nxl⌋|N n 1 = ⌊nx1⌋,...,Nn l−1 = ⌊nxl−1⌋ � n→∞<br />

−→ (θ/yl)(1 −<br />

xl/yl) θ−1 für x1,...,xl ∈ (0, 1) mit yl =1− (x1 + ...+ xl−1) >xl.<br />

(c) Man folgere wie in (i) die Aussage von Satz 24.34 für α =0und θ>0. ♣<br />

525


25 Das Itô-Integral<br />

Das Itô-Integral erlaubt es, stochastische Prozesse bezüglich der Zuwächse einer<br />

Brown’schen Bewegung oder etwas allgemeinerer Prozesse zu integrieren. Wir entwickeln<br />

das Itô-Integral zunächst für die Brown’sche Bewegung und dann für für<br />

verallgemeinerte Diffusionsprozesse. Im dritten Abschnitt leiten wir die Itô-Formel<br />

her. Diese Substitutionsformel für das Itô-Integral erlaubt es, in konkreten Fällen,<br />

mit dem Itô-Integral wirklich zu rechnen. Wir wenden die Itô-Formel im vierten<br />

Abschnitt an, um eine stochastische Lösung des Dirichlet-Problems zu formulieren.<br />

Hiermit zeigen wir im fünften Abschnitt, dass die Brown’sche Bewegung (wie die<br />

symmetrische einfache Irrfahrt) in niedrigen Dimensionen rekurrent ist, in hohen<br />

Dimensionen hingegen transient.<br />

25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung<br />

Sei W =(Wt)t≥0 eine Brown’sche Bewegung auf dem Raum (Ω,F, P) bezüglich<br />

der Filtration F, die die üblichen Bedingungen erfüllt (siehe Definition 21.23).<br />

Das heißt, W ist eine Brown’sche Bewegung und ist ein F-Martingal. Das Ziel dieses<br />

Abschnittes ist es, für eine möglichst große Klasse von sinnvollen Integranden<br />

H : Ω × [0, ∞) → R, (ω, t) ↦→ Ht(ω) ein Integral<br />

I W � t<br />

t (H) = Hs dWs<br />

0<br />

zu definieren, sodass (I W t (H))t≥0 ein stetiges F-Martingal ist. Da fast alle Pfade<br />

s ↦→ Ws(ω) der Brown’schen Bewegung lokal unendliche Variation haben,<br />

ist W (ω) nicht die Verteilungsfunktion eines signierten Lebesgue-Stieltjes-Maßes<br />

auf [0, ∞). Daher können wir I W t (H) nicht im klassischen Rahmen der Integrationstheorie<br />

definieren. Die grundlegende Idee, um dieses Integral zu konstruieren,<br />

besteht darin, es im Sinne eines L 2 -Grenzwertes zu etablieren. Hierzu betrachten<br />

wir zunächst ein elementares Beispiel.<br />

Beispiel 25.1. Es seien X1,X2,... u.i.v. Zufallsvariablen mit P[Xn = 1] =<br />

P[Xn = −1] = 1<br />

2 .Sei (hn)n∈N eine Folge reeller Zahlen. Unter welchen Bedingungen<br />

an (hn)n∈N ist die Reihe


528 25 Das Itô-Integral<br />

R := �<br />

n∈N<br />

hn Xn<br />

(25.1)<br />

wohldefiniert? Ist �<br />

n∈N |hn| < ∞, so konvergiert die Reihe für jedes ω absolut.<br />

In diesem Falle tritt kein Problem auf. Wie steht es aber, wenn nur die schwächere<br />

Summierbarkeitsbedingung �<br />

n∈N h2n < ∞ gilt? In diesem Falle konvergiert die<br />

Reihe in (25.1) nicht mehr für jedes ω, allerdings gilt E[hn Xn] =0für jedes<br />

n ∈ N und �∞ n=1 Var[hn Xn] = �∞ n=1 h2n < ∞. AlsoistRN := �N k=1 hk Xk,<br />

n ∈ N, konvergent im L2-Sinne (für N →∞). Wir können daher die Reihe R in<br />

(25.1) als L2-Limes der Partialsummen RN definieren. Dabei ist zu beachten, dass<br />

(zumindest formal) bei den approximierenden Summen die Reihenfolge der Summanden<br />

eine Rolle spielt. Wir haben also gewissermaßen �∞ �<br />

n=1 anstatt n∈N<br />

konstruiert.<br />

Eine äquivalente Betrachtung, die allerdings einen leicht anderen Geschmack hat<br />

und von der formalen Beschreibung her auf das Kommende hinweist, ist die folgende.<br />

Mit ℓ2 bezeichnen wir den Hilbertraum der quadratsummierbaren Folgen reeller<br />

Zahlen mit Skalarprodukt 〈h, g〉 = �∞ n=1 hn gn und Norm �g� = 〈g, g〉 1/2 .Sei<br />

ℓf der Unterraum der Folgen, die nur endlich viele Glieder ungleich Null haben.<br />

Dann ist R(h) = �<br />

n∈N hn Xn für h ∈ ℓf wohldefiniert (als endliche Summe).<br />

Wegen<br />

E � R(h) 2� = Var[R(h)] = �<br />

Var � � �<br />

hn Xn = h 2 n = �h� 2<br />

n∈N<br />

ist die Abbildung R : ℓf →L2 (P) eine Isometrie. Da ℓf ⊂ ℓ2 dicht liegt, können<br />

wir R stetig auf ℓ2 fortsetzen. Ist also h ∈ ℓ2 und (hN )N∈N eine Folge in ℓf mit �hN − h� N→∞<br />

−→ 0, soistR(hN ) N→∞<br />

−→ R(h) im L2-Sinne. Speziell ist<br />

h N n := hn {n≤N}, n ∈ N, N ∈ N, eine approximierende Folge für h, und es gilt<br />

R(h N )= � N<br />

n=1 hn Xn. Daher ist die oben beschriebene Approximation von R<br />

mit den Partialsummen RN als Spezialfall in dieser Konstruktion enthalten. ✸<br />

Das Programm für die Konstruktion des Itô-Integrals I W t (H) sieht nun so aus:<br />

Zunächst betrachten wir elementare Integranden H, für die die Abbildung t ↦→<br />

Ht(ω) eine Treppenfunktion ist, sodass das Integral als endliche Summe definiert<br />

werden kann. Danach erweitern wir das Integral wie in Beispiel 25.1 auf Integranden,<br />

die sich in einem gewissen L 2 -Sinne durch elementare Integranden approximieren<br />

lassen.<br />

Definition 25.2. Wir bezeichnen mit E den Vektorraum der Abbildungen H : Ω ×<br />

[0, ∞) → R von der Form<br />

n�<br />

Ht(ω) = hi−1(ω) (ti−1,ti],<br />

i=1<br />

wobei n ∈ N, 0=t0


25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 529<br />

Wir nennen E den Vektorraum der elementaren vorhersagbaren Prozesse und versehen<br />

E mit einer (Pseudo-)Norm � · �E durch<br />

�H� 2 E =<br />

n�<br />

i=1<br />

E � h 2 ��<br />

� ∞<br />

i−1 (ti − ti−1) =E H<br />

0<br />

2 �<br />

s ds .<br />

Definition 25.3. Für H ∈E und t ≥ 0 definieren wir<br />

und<br />

I W t (H) =<br />

I W ∞ (H) =<br />

n�<br />

i=1<br />

� �<br />

hi−1 Wti∧t − Wti−1∧t<br />

n�<br />

i=1<br />

Offenbar ist für jede beschränkte Stoppzeit τ<br />

E � I W τ (H) � =<br />

=<br />

� �<br />

hi−1 Wti − Wti−1 .<br />

n�<br />

E � hi−1 (W τ ti − W τ ti−1 )�<br />

i=1<br />

n�<br />

E � hi−1 E � W τ ti − W τ �<br />

ti−1<br />

i=1<br />

� Fti−1<br />

�� = 0,<br />

da die gestoppte Brown’sche Bewegung W τ nach den Optional Stopping Theorem<br />

ein F-Martingal ist. Also ist (wieder nach dem OST) (I W t (H))t≥0 ein F-<br />

Martingal. Speziell ist E �� I W ti+1 (H) − IW ti (H)�� I W tj+1 (H) − IW tj (H)�� = 0 für<br />

i �= j, also gilt<br />

E � I W ∞ (H) 2� =<br />

=<br />

=<br />

n�<br />

i=1<br />

n�<br />

i=1<br />

n�<br />

i=1<br />

Aus diesen Betrachtungen folgt sofort:<br />

��IW E ti (H) − I W ti−1 (H)� 2 �<br />

�<br />

E h 2 � � �<br />

2<br />

i−1 Wti − Wti−1<br />

E � h 2 �<br />

i−1 (ti − ti−1) = �H� 2 E.<br />

(25.2)<br />

Satz 25.4. (i) Die Abbildung I W ∞ : E→L 2 (Ω,F, P) ist eine isometrische lineare<br />

Abbildung (bezüglich � · �E und � · �2).<br />

(ii) Der Prozess � I W t (H) �<br />

t≥0 ist ein L2 -beschränktes, stetiges F-Martingal.<br />

Beweis. Lediglich die Linearität ist noch zu zeigen. Dies ist aber trivial. ✷


530 25 Das Itô-Integral<br />

Die Idee ist nun, die Abbildung I W ∞ von E auf einen geeigneten Abschluss E<br />

von E stetig fortzusetzen. Als Unterraum von welchem Raum sollen wir aber E<br />

abschließen? Eine minimale Forderung ist die Messbarkeit von (ω, t) ↦→ Ht(ω)<br />

(bezüglich F⊗B([0, ∞)) sowie die Adaptiertheit von H.<br />

Definition 25.5. Ein stochastischer Prozess X = (Xt)t≥0 mit Werten in einem<br />

polnischen Raum E heißt<br />

(i) produktmessbar, falls (ω, t) ↦→ Xt(ω) messbar ist bezüglich F⊗B([0, ∞))–<br />

B(E),<br />

(ii) progressiv messbar, falls für jedes t ≥ 0 die Abbildung Ω × [0,t], (ω, s) ↦→<br />

Xs(ω) messbar ist bezüglich Ft ⊗B([0,t])–B(E),<br />

(iii) vorhersagbar (oder previsibel), falls (ω, t) ↦→ Ht(ω) messbar ist bezüglich<br />

der vorhersagbaren σ-Algebra P auf Ω × [0, ∞):<br />

P := σ � X : X ist linksstetiger, adaptierter Prozess � .<br />

Bemerkung 25.6. Jedes H ∈E ist vorhersagbar. Diese Eigenschaft sichert, dass<br />

I M (H) für jedes (auch unstetiges) Martingal M ein Martingal ist. Da wir jedoch<br />

hier nicht die Integrationstheorie für unstetige Martingale entwickeln wollen, ist der<br />

Begriff der Vorhersagbarkeit für uns im Folgenden nicht so wichtig. ✸<br />

Bemerkung 25.7. Ist H progressiv messbar, so ist H offenbar auch produktmessbar<br />

und adaptiert. Mit etwas mehr Aufwand kann man die partielle Umkehrung<br />

zeigen: Ist H adaptiert und produktmessbar, so gibt es eine progressiv messbare<br />

Modifikation von H. (Siehe etwa [113, Seite 68ff].) ✸<br />

Satz 25.8. Ist H adaptiert und f.s. rechtsstetig oder linksstetig, so ist H progressiv<br />

messbar. Insbesondere ist jeder vorhersagbare Prozess progressiv messbar.<br />

Beweis. Siehe Übung 21.1.4. ✷<br />

Wir betrachten E als Unterraum von<br />

�<br />

E0 := H : produktmessbar, adaptiert und �H� 2 �<br />

:= E<br />

� ∞<br />

Sei E der Abschluss von E in E0.<br />

0<br />

H 2 � �<br />

t dt < ∞ .<br />

Satz 25.9. Ist � H progressiv messbar (etwa linksstetig oder rechtsstetig und adap-<br />

� �<br />

∞<br />

tiert) und E<br />

< ∞,soistH ∈ E.<br />

0 H2 t dt<br />

Beweis. Sei H progressiv messbar und E<br />

� � ∞<br />

0 H2 t dt<br />

�<br />

< ∞. Es reicht zu zeigen,<br />

dass für jedes T>0 eine Folge (H n )n∈N in E existiert mit


25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 531<br />

� � T<br />

E (Hs − H<br />

0<br />

n s ) 2 �<br />

n→∞<br />

ds −→ 0. (25.3)<br />

Schritt 1. Sei zunächst H stetig und beschränkt. Setze H n 0 =0 und<br />

H n t = H i2 −n T falls i2 −n TT.DannistH n ∈E, und es gilt H n t (ω) n→∞<br />

−→ Ht(ω) für alle<br />

t>0 und ω ∈ Ω. Nach dem Satz von der majorisierten Konvergenz gilt (25.3).<br />

Schritt 2. Sei nun H progressiv messbar und beschränkt. Es reicht zu zeigen,<br />

dass es stetige, adaptierte Prozesse Hn , n ∈ N, gibt, für die (25.3) gilt. Sei<br />

H n � t∧T<br />

t := n<br />

Hs ds für t ≥ 0, n∈ N.<br />

(t−1/n)∨0<br />

Dann ist H n stetig und adaptiert und durch �H�∞ beschränkt. Nach dem Hauptsatz<br />

der Differential- und Integralrechnung (siehe Übung 13.1.7) gilt<br />

H n t (ω) n→∞<br />

−→ Ht(ω) für λ − fast alle t ∈ [0,T] und für jedes ω ∈ Ω. (25.4)<br />

Nach dem Satz von Fubini und dem Satz über majorisierte Konvergenz gilt daher<br />

� � T<br />

E (Hs − H n s ) 2 �<br />

ds =<br />

�<br />

�<br />

Hs(ω) − H n s (ω) �2 n→∞<br />

(P ⊗ λ)(d(ω, s)) −→ 0.<br />

0<br />

Ω×[0,T ]<br />

Schritt 3. Sei nun H progressiv messbar und E � � ∞<br />

0 H2 t dt � < ∞. Es reicht<br />

zu zeigen, dass es eine Folge (H n )n∈N von beschränkten, progressiv messbaren<br />

Prozessen gibt, sodass (25.3) gilt. Offenbar kann hierzu aber H n t = Ht {|Ht|


532 25 Das Itô-Integral<br />

Satz 25.11. (i) Die Abbildung IW ∞ : E→L2 (Ω,F, P) ist linear und<br />

E � I W ∞ (H) 2� � � ∞<br />

= E H 2 �<br />

s ds .<br />

(ii) Für jedes H ∈ E wird durch ĨW t (H) :=I W (H (t) ) ein L 2 -beschränktes<br />

F-Martingal ĨW (H) definiert, das eine stetige Modifikation I W (H) besitzt.<br />

Definition 25.12 (Itô-Integral als Prozess). Sei IW (H) die stetige Modifikation<br />

des Martingals (IW (H (t) ))t≥0 aus Satz 25.11(ii). Wir bezeichnen mit<br />

� t<br />

Hr dWs := I<br />

s<br />

W t (H) − I W s (H) für 0 ≤ s ≤ t ≤∞<br />

das Itô-Integral von s bis t von H bezüglich der Brown’schen Bewegung W .<br />

Beweis (von Satz 25.11). (i) Dies folgt direkt aus der Definition von I W ∞ (H).<br />

(ii) Sei (H n )n∈N eine Folge in E mit �H n − H� n→∞<br />

I W � n (t)<br />

∞ (H ) � = I W t (H n )=E � I W ∞ (H) � �<br />

�Ft 0<br />

−→ 0. Nach Satz 25.4(ii) ist<br />

für alle t ≥ 0, n∈ N.<br />

Wegen � � n (t) (t) (H ) − H � � �<br />

� ≤ �Hn − H� n→∞<br />

−→ 0 folgt (zusammen mit Korollar<br />

8.20)<br />

Ĩ W t (H) = lim<br />

n→∞ IW t (H n ) = lim<br />

n→∞ E�I W ∞ (H n ) � � �<br />

�Ft<br />

W<br />

= E I∞ (H) � �<br />

�Ft .<br />

Mithin ist ĨW (H) ein L 2 -beschränktes Martingal und I W t (H n ) n→∞<br />

−→ ĨW t (H) in<br />

L 2 für jedes t ≥ 0. Nach Satz 25.4(ii) ist I W (H n ) stetig für jedes n ∈ N, und<br />

nach Übung 21.4.3 existiert eine stetige Modifikation I W (H) von ĨW (H). ✷<br />

Als letzten Schritt bei der Konstruktion des Itô-Integrals wollen wir uns von der<br />

strengen Integrierbarkeitsbedingung E � � ∞<br />

0 H2 s ds � < ∞ lösen. Hierzu machen<br />

wir zunächst die folgende einfache Feststellung.<br />

Lemma 25.13. Sei τ eine Stoppzeit und H, G ∈ E mit Hs = Gs für jedes s ≤ τ.<br />

Dann gilt für die Itô-Integrale<br />

� τ<br />

� ∞<br />

0<br />

Hs dWs :=<br />

0<br />

H (τ)<br />

� ∞<br />

s dWs =<br />

0<br />

G (τ)<br />

� τ<br />

s dWs =:<br />

0<br />

Gs dWs f.s.<br />

Speziell gilt für jedes t ≥ 0 auf {τ ≥ t}<br />

� τ∧t<br />

0<br />

Hs dWs =<br />

� t<br />

Hs dWs.<br />

0


25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 533<br />

Beweis. Klar. ✷<br />

Definition 25.14. Sei Eloc der Raum der progressiv messbaren stochastischen Prozesse<br />

H mit<br />

� T<br />

H 2 s ds < ∞ f.s. für jedes T>0.<br />

0<br />

Lemma 25.15. Für jedes H ∈Eloc existiert eine Folge (τn)n∈N von Stoppzeiten<br />

mit τn ↑∞fast sicher und E � � τn<br />

0 H2 s ds � < ∞, also mit H (τn) ∈ E für jedes<br />

n ∈ N.<br />

Beweis. Setze<br />

�<br />

τn := inf t ≥ 0:<br />

� t<br />

0<br />

H 2 �<br />

s ds ≥ n .<br />

Nach der Definition von Eloc gilt τn ↑∞fast sicher und nach Konstruktion ist<br />

�<br />

�H (τn)�� 2 = E � � τn<br />

0 H2 s ds � ≤ n. ✷<br />

Definition 25.16. Sei H ∈Eloc und (τn)n∈N wie in Lemma 25.15. Wir definieren<br />

für t ≥ 0 das Itô-Integral als den fast sicheren Grenzwert<br />

Satz 25.17. Sei H ∈Eloc.<br />

� t<br />

� t<br />

0<br />

Hs dWs := lim<br />

n→∞<br />

0<br />

H (τn)<br />

s dWs. (25.5)<br />

(i) Der Grenzwert in (25.5) ist wohldefiniert, stetig in t und (f.s.) unabhängig von<br />

der Wahl der Folge (τn)n∈N.<br />

(ii) Ist τ ein Stoppzeit mit E � � τ<br />

0 H2 s ds � �<br />

< ∞, so ist das gestoppte Itô-Integral<br />

� �<br />

τ∧t<br />

ein L2-beschränktes, stetiges Martingal.<br />

0<br />

Hs dWs<br />

t≥0<br />

(iii) Ist speziell E � � T<br />

0 H2 s ds � < ∞ für jedes T>0,soist<br />

quadratintegrierbares, stetiges Martingal.<br />

Beweis. (i) Nach Lemma 25.13 ist auf dem Ereignis {τn ≥ t}<br />

� t<br />

0<br />

Hs dWs =<br />

� t<br />

0<br />

H (τn)<br />

s dWs.<br />

� � t<br />

0 Hs<br />

�<br />

dWs<br />

t≥0 ein<br />

Also existiert der Limes, ist stetig und unabhängig von der Wahl der Folge (τn)n∈N.<br />

(ii) Dies folgt direkt aus Satz 25.11.<br />

(iii) Da wir τn = n wählen können, folgt dies aus (ii). ✷


534 25 Das Itô-Integral<br />

Satz 25.18. Sei H progressiv messbar und E � � T<br />

0 H2 s ds � < ∞ für alle T > 0.<br />

Dann definiert<br />

� t<br />

Mt := Hs dWs, t ≥ 0,<br />

ein quadratintegrierbares, stetiges Martingal, und<br />

�<br />

(Nt)t≥0 := M 2 � t<br />

t −<br />

ist ein stetiges Martingal mit N0 =0.<br />

0<br />

0<br />

H 2 s ds<br />

Beweis. Es reicht zu zeigen, dass N ein Martingal ist. Offenbar ist N adaptiert.<br />

Sei τ ein beschränkte Stoppzeit. Dann ist<br />

E � �<br />

�<br />

Nτ = E M 2 � τ<br />

τ − H 2 �<br />

s ds<br />

0<br />

�� � ∞<br />

= E<br />

0<br />

H (τ)<br />

�2� s dWs − E<br />

�<br />

� � ∞<br />

0<br />

t≥0<br />

�<br />

� � (τ) 2<br />

H s ds =0.<br />

Nach dem Optional Stopping Theorem (siehe Übung 21.1.3(iii)) ist N damit als<br />

Martingal erkannt. ✷<br />

Wir erinnern an den Begriff des lokales Martingals und der quadratischen Variation<br />

aus Kapitel 21.10.<br />

Korollar 25.19. Ist H ∈Eloc, so ist das Itô-Integral Mt = � t<br />

0 Hs dWs ein stetiges<br />

lokales Martingal mit quadratischem Variationsprozess 〈M〉t = � t<br />

0 H2 s ds.<br />

Beispiel 25.20. (i) Wt = � t<br />

0 1 dWs ist ein quadratintegrierbares Martingal, und<br />

(W 2 t − t)t≥0 ist ein stetiges Martingal.<br />

(ii) Wegen E � � T<br />

0 W 2 s ds � 2<br />

T = 2 < ∞ für alle T ≥ 0 ist Mt := � t<br />

0 Ws dWs �<br />

ein<br />

stetiges, quadratintegrierbares Martingal, und M 2 t − � t<br />

0 W 2 �<br />

s ds ist ein<br />

t≥0<br />

stetiges Martingal.<br />

(iii) Sei H progressiv messbar und beschränkt sowie Mt := � t<br />

0 Hs dWs.Dannist<br />

M progressiv messbar (weil stetig und adaptiert) und<br />

� � T<br />

E M<br />

0<br />

2 � � T � � s<br />

s ds = E<br />

0 0<br />

� H 2 �2 �<br />

r dr<br />

ds ≤ T 2 �H�2 ∞<br />

.<br />

2<br />

Also ist � Mt := � t<br />

0 Ms dWs �<br />

ein quadratisch integrierbares, stetiges Martingal<br />

und �M 2<br />

t − � t<br />

0 M 2 �<br />

s dWs ist ein stetiges Martingal. ✸<br />

t≥0


25.2 Itô-Integral bezüglich Diffusionen<br />

Ist<br />

so ist das elementare Integral<br />

H =<br />

I M t (H) =<br />

25.2 Itô-Integral bezüglich Diffusionen 535<br />

n�<br />

hi−1 (ti−1,ti] ∈E, (25.6)<br />

i=1<br />

n�<br />

i=1<br />

� �<br />

hi−1 Mti∧t − Mti−1∧t<br />

ein Martingal (beziehungsweise lokales Martingal), wenn M ein Martingal (beziehungsweise<br />

lokales Martingal) ist, und es gilt<br />

E � (I M ∞ (H)) 2� =<br />

n�<br />

E � h 2 i−1(Mti − Mti−1 )2� n�<br />

= E � h 2 i−1(〈M〉ti −〈M〉ti−1 )�<br />

i=1<br />

� � ∞<br />

= E<br />

0<br />

H 2 t d〈M〉t<br />

�<br />

,<br />

falls der Ausdruck auf der rechten Seite endlich ist. Grob gesprochen können wir<br />

die Prozedur, mit der wir das Itô-Integral für die Brown’sche Bewegung in Abschnitt<br />

25.1 für Integranden H ∈ E definiert hatten, wiederholen, um ein Integral<br />

bezüglich M für eine große Klasse von Integranden zu definieren. Für die Definition<br />

der Norm auf E müssen wir im Prinzip nur dt (die quadratische Variation der<br />

Brown’schen Bewegung) durch d〈M〉t ersetzen:<br />

� � ∞ �<br />

.<br />

�H� 2 M := E<br />

0<br />

i=1<br />

H 2 t d〈M〉t<br />

Das Problem besteht nicht darin, das elementare Integral auf E fortzusetzen, sondern<br />

darin zu prüfen, welche Prozesse in E liegen. Für unstetige Martingale etwa<br />

müssen die Integranden vorhersagbar sein, damit das Integral ein Martingal wird<br />

(abgesehen von der Schwierigkeit, dass wir die Existenz einer quadratischen Variation<br />

für solche Martingale nicht etabliert haben und dies in diesem Rahmen auch<br />

nicht tun werden). Dies hatten wir in Kapitel 9.3 schon für den Fall diskreter Zeit<br />

gesehen. Haben wir nun ein stetiges Martingal M mit stetiger quadratischer Variation<br />

〈M〉 vorliegen, so tritt immer noch folgendes Problem auf: Im Beweis von<br />

Satz 25.9 wurde in Schritt 2 benutzt, dass Hn t (ω) n→∞<br />

−→ Ht(ω) für Lebesgue-fast<br />

alle t und alle ω gilt, um zu zeigen, dass progressiv messbare H in E liegen. Ist<br />

d〈M〉t nun nicht absolutstetig bezüglich des Lebesgue-Maßes, so reicht dies aber<br />

nicht aus, um die Konvergenz der Integrale bezüglich d〈M〉t zu folgern. Im Fall<br />

absolutstetiger quadratischer Variation hingegen geht der Beweis glatt durch. Wie<br />

in Abschnitt 25.1 erhalten wir:


536 25 Das Itô-Integral<br />

Satz 25.21. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer<br />

Variation 〈M〉 und H progressiv messbar mit � T<br />

0 H2 s d〈M〉s < ∞ f.s. für jedes<br />

T ≥ 0. Dann ist das Itô-Integral Nt := � t<br />

0 Hs dMs wohldefiniert und ist<br />

ein stetiges lokales Martingal mit quadratischer Variation 〈N〉t = � t<br />

0 H2 s d〈M〉s.<br />

Für jede Folge (τn)n∈N mit τn ↑ ∞ und � �H (τn)�� < ∞ und jede Familie<br />

M<br />

(Hn,m ,n,m∈N) ⊂Emit � �Hn,m − H (τn)�� m→∞<br />

−→ 0 gilt<br />

M<br />

� t<br />

0<br />

Hs dMs = lim<br />

n→∞ lim<br />

m→∞ IM t (H m,n ) für alle t ≥ 0 stochastisch.<br />

Als gewisse Verallgemeinerung erhalten wir den folgenden Satz.<br />

Satz 25.22. Seien M 1 und M 2 stetige lokale Martingal mit absolutstetiger quadratischer<br />

Variation. Sei Hi progressiv messbar mit � T<br />

0 (Hi s) 2 d〈M i 〉s < ∞ für<br />

alle i = 1, 2 und T < ∞. SeiNi t := � t<br />

0 Hi s dM i s für i = 1, 2. Dann sind<br />

N 1 und N 2 stetige lokale Martingale mit quadratischer Kovariation 〈N i ,Nj 〉t =<br />

� t<br />

0 Hi sH j s d〈M i ,Mj 〉s.SindM1und M 2 unabhängig, so ist 〈N 1 ,N2 〉≡0.<br />

Beweis. Seien zunächst H1 ,H2 ∈E. Dann gibt es Zahlen 0=t0


25.2 Itô-Integral bezüglich Diffusionen 537<br />

Wir betrachten im Folgenden Prozesse, die sich als Itô-Integral bezüglich einer<br />

Brown’schen Bewegung schreiben lassen, und geben für diese Prozesse einen detaillierteren<br />

Beweis von Satz 25.21 an.<br />

Definition 25.23. Sei W eine Brown’sche Bewegung und σ und b progressiv<br />

messbare stochastische Prozesse mit � t<br />

0 σ2 s +|bs| ds < ∞ fast sicher für alle t ≥ 0.<br />

Dann nennen wir den Prozess X mit<br />

� t<br />

Xt =<br />

0<br />

σs dWs +<br />

� t<br />

0<br />

bs ds für t ≥ 0<br />

einen verallgemeinerten Diffusionsprozess (oder kurz: verallgemeinerte Diffusion)<br />

mit Diffusionskoeffiezenten σ und Drift b.<br />

Haben σ und b speziell die Gestalt σs =˜σ(Xs) und bs = ˜b(Xs) für gewisse<br />

Abbildungen ˜σ : R → [0, ∞) und ˜b : R → R,sonennenwirX eine Diffusion (im<br />

engeren Sinne).<br />

Im Gegensatz zu verallgemeinerten Diffusionen sind Diffusionen im engeren Sinne<br />

unter gewissen Regularitätsannahmen an die Koeffizienten stets Markovprozesse,<br />

wie wir noch sehen werden (vergleiche Satz 26.8, 26.10 und 26.26).<br />

Eine Diffusion X hat stets die Gestalt X = M + A, wobei Mt = � t<br />

0 σs dWs<br />

ein stetiges lokales Martingal mit quadratischer Variation 〈M〉t = � t<br />

0 σ2 s ds ist<br />

(nach Korollar 25.19) und At = � t<br />

0 bs ds ein stetiger Prozess von lokal endlicher<br />

Variation.<br />

Offenbar ist für H aus (25.6)<br />

� t<br />

0<br />

Hs dMs =<br />

=<br />

n�<br />

� �<br />

hi−1 Mti∧t − Mti−1∧t<br />

i=1<br />

n�<br />

� ti∧t<br />

hi−1<br />

� t<br />

σs dWs =<br />

i=1 ti−1∧t<br />

0<br />

Für progressiv messbares H mit � T<br />

T ≥ 0 definieren wir daher das Itô-Integral<br />

� t<br />

0<br />

Hs dMs :=<br />

0 H2 s d〈M〉s = � T<br />

� t<br />

0<br />

(Hsσs) dWs.<br />

(Hs σs) dWs.<br />

0 (Hsσs) 2 ds < ∞ für alle<br />

Wir erhalten ohne Weiteres, speziell ohne auf Satz 25.21 zurückzugreifen, den folgenden<br />

Satz.<br />

Satz 25.24. Sei X = M + A eine verallgemeinerte Diffusion mit σ und b wie in<br />

Definition 25.23 und H progressiv messbar mit


538 25 Das Itô-Integral<br />

� T<br />

H<br />

0<br />

2 s σ 2 s ds < ∞ f.s. für alle T ≥ 0 (25.7)<br />

und � T<br />

|Hsbs| ds < ∞ f.s. für alle T ≥ 0, (25.8)<br />

so ist der durch<br />

� t<br />

Yt :=<br />

0<br />

0<br />

Hs dXs :=<br />

� t<br />

0<br />

Hs dMs +<br />

� t<br />

0<br />

Hs dAs :=<br />

� t<br />

0<br />

Hsσs dWs +<br />

� t<br />

Hsbs ds<br />

0<br />

definierte Prozess Y eine verallgemeinerte Diffusion mit Diffusionskoeffizienten<br />

(Hsσs)s≥0 und Drift (Hsbs)s≥0. Speziell ist Nt := � t<br />

0 Hs dMs ein stetiges lokales<br />

Martingal mit Variationsprozess 〈N〉t = � t<br />

0 H2 s d〈M〉s = � t<br />

0 H2 s σ2 s ds.<br />

Übung 25.2.1. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer<br />

Variation 〈M〉 (etwa eine verallgemeinerte Diffusion), und sei H progressiv<br />

messbar und stetig mit � T<br />

0 H2 s d〈M〉s < ∞ für jedes T ≥ 0. Sei ferner<br />

P =(P (n) )n∈N eine zulässige Zerlegungsfolge (siehe Definition 21.56). Zeige:<br />

� T<br />

0<br />

Hs dMs = lim<br />

25.3 Die Itô-Formel<br />

n→∞<br />

t∈Pn T<br />

�<br />

Ht(Mt ′ − Mt) stochastisch für alle T ≥ 0. ♣<br />

Dieser und die beiden folgenden Abschnitte sind inhaltlich an ein Vorlesungsskript<br />

von Hans Föllmer angelehnt.<br />

Ist t ↦→ Xt eine differenzierbare Abbildung mit Ableitung X ′ und F ∈ C1 (R)<br />

mit Ableitung F ′ , so gilt die klassische Substitutionsformel<br />

� t<br />

F (Xt) − F (X0) =<br />

0<br />

F ′ � t<br />

(Xs) dXs =<br />

0<br />

F ′ (Xs)X ′ s ds. (25.9)<br />

Diese Formel bleibt richtig, wenn X stetig und von lokal endlicher Variation ist<br />

(siehe Kapitel 21.10), also die Verteilungsfunktion eines absolutstetigen signierten<br />

Maßes auf [0, ∞) ist. Dann existiert die Ableitung X ′ als Radon-Nikodym Ableitung<br />

fast überall, und man kann leicht zeigen, dass (25.9) auch in diesem Fall<br />

gilt.<br />

Die Pfade der Brown’schen Bewegung W sind nirgends differenzierbar (Satz 21.17<br />

von Paley-Wiener-Zygmund) und haben (folglich) überall lokal unendliche Variation.<br />

Wir können also eine einfache Substitutionsformel wie in (25.9) nicht erwarten,<br />

und in der Tat sieht man leicht ein, dass sie falsch sein muss: Wählen wir


25.3 Die Itô-Formel 539<br />

F (x) =x 2 , so ist die rechte Seite in (25.9) (mit X durch W ersetzt) � t<br />

0 2Ws dWs,<br />

also ein Martingal. Die linke Seite hingegen ist W 2 t , also ein Submartingal, das erst<br />

durch Subtraktion von t zu einem Martingal wird. In der Tat ist dieses fehlende<br />

t der zusätzliche Term, den wir in der Substitutionsformel für Itô-Integrale, der<br />

so genannten Itô-Formel, bekommen. Eine (etwas haarsträubende) Heuristik führt<br />

uns erstaunlicherweise auf die richtige Spur: Für kleine t ist Wt ungefähr von der<br />

Größe √ t. Wenn wir nun formal dWt = √ dt schreiben und für F ∈ C 2 (R) eine<br />

Taylor-Entwicklung bis zur zweiten Ordnung durchführen, so erhalten wir<br />

dF (Wt) =F ′ (Wt) dWt + 1<br />

2 F ′′ (Wt)(dWt) 2 = F ′ (Wt) dWt + 1<br />

2 F ′′ (Wt) dt,<br />

oder als Integral geschrieben<br />

� t<br />

F (Wt) − F (W0) = F<br />

0<br />

′ � t<br />

1<br />

(Ws) dWs +<br />

0 2 F ′′ (Ws) ds. (25.10)<br />

(Für gewisse diskrete Martingale haben wir eine analoge Formel schon in Beispiel<br />

10.9 hergeleitet.) Hauptanliegen dieses Abschnittes ist es zu zeigen, dass diese<br />

Formel, die Itô-Formel für die Brown’sche Bewegung genannt wird, in der Tat korrekt<br />

ist.<br />

Die weitere Diskussion in diesem Abschnitt hängt nicht explizit davon ab, dass<br />

wir bezüglich der Brown’schen Bewegung integrieren, sondern benutzt lediglich,<br />

dass die Funktion, bezüglich der wir integrieren, stetige quadratische Variation hat<br />

(entlang einer geeigneten zulässigen Zerlegungsfolge P = (Pn )n∈N)), für die<br />

Brown’sche Bewegung nämlich 〈W 〉t = t.<br />

Sei im Folgenden also P =(P n )n∈N eine zulässige Zerlegungsfolge (siehe Definition<br />

21.56 für die Definition und die Notation CqV = C P qV , Pn T , Pn S,T , t′ und so<br />

weiter) und X ∈ C([0, ∞)) mit stetiger quadratischer Variation (entlang P)<br />

T ↦→ 〈X〉T = V 2 �<br />

T (X) = lim (Xt ′ − Xt) 2 .<br />

n→∞<br />

t∈PT<br />

Für die Brown’sche Bewegung ist W ∈CP qV fast sicher für jede zulässige Zerlegungsfolge<br />

(Satz 21.64) und 〈W 〉T = T .Für stetige lokale Martingale M kann<br />

man immerhin durch Übergang zu einer geeigneten Teilfolge P ′ von P sicherstellen,<br />

dass M ∈CP′ qV fast sicher gilt (Satz 21.70).<br />

Sei also P fest gewählt und X ∈CqV eine (deterministische) Funktion.<br />

Satz 25.25 (Pfadweise Itô-Formel). Sei X ∈CqV und F ∈ C 2 (R). Dann existiert<br />

für alle T ≥ 0 der Limes<br />

� T<br />

und es gilt die Itô-Formel<br />

0<br />

F ′ (Xs) dXs := lim<br />

n→∞<br />

t∈Pn T<br />

�<br />

F ′ (Xt)(Xt ′ − Xt), (25.11)


540 25 Das Itô-Integral<br />

� T<br />

F (XT )=F (X0) = F<br />

0<br />

′ (Xs) dXs + 1<br />

� T<br />

F<br />

2 0<br />

′′ (Xs) d〈X〉s. (25.12)<br />

Dabei ist das rechte Integral in (25.12) als klassisches (Lebesgue-Stieltjes-) Integral<br />

zu verstehen.<br />

Bemerkung 25.26. Ist M ein stetiges lokales Martingal, so ist nach Übung 25.2.1<br />

das Itô-Integral � T<br />

0 F (Ms) dMs der stochastische Limes von �<br />

t∈P n T<br />

F ′ (Mt)(Mt ′ −<br />

Mt) für n →∞. Tatsächlich stimmt also für X = M(ω) das pfadweise Integral<br />

in (25.11) mit dem Itô-Integral (f.s.) überein. Speziell gilt für das Itô-Integral der<br />

Brown’schen Bewegung die Itô-Formel (25.10). ✸<br />

Beweis (von Satz 25.25).<br />

und dass (25.12) gilt.<br />

Wir müssen zeigen, dass der Limes in (25.11) existiert<br />

Für n ∈ N und t ∈Pn T (mit Nachfolger t′ ∈Pn T ) liefert die Taylor-Formel<br />

F (Xt ′) − F (Xt) =F ′ 1<br />

(Xt)(Xt ′ − Xt)+ 2F ′′ (Xt) · (Xt ′ − Xt) 2 + Rn t , (25.13)<br />

wobei wir das Restglied<br />

R n t = � F ′′ (ξ) − F ′′ (Xt) � · 1<br />

2<br />

2 (Xt ′ − Xt)<br />

(für eine geeignete Zwischenstelle ξ zwischen Xt und Xt ′) wie folgt abschätzen.<br />

Da X stetig ist, ist C := {Xt : t ∈ [0,T]} kompakt und F ′′�<br />

�C gleichmäßig<br />

stetig. Zu jedem ε>0 gibt es also ein δ>0 mit<br />

|F ′′ (Xr) − F ′′ (Xs)|


25.3 Die Itô-Formel 541<br />

Da ε>0 beliebig war, gilt also �<br />

t∈Pn |R<br />

T<br />

n t | n→∞<br />

−→ 0. Es gilt (siehe Übung 21.10.2)<br />

�<br />

t∈P n T<br />

1<br />

2 F ′′ (Xt)(Xt ′ − Xt) 2 n→∞<br />

−→ 1<br />

� T<br />

F<br />

2 0<br />

′′ (Xs) d〈X〉s.<br />

Daher muss auch die Summe des verbleibenden Terms in (25.13) konvergieren, das<br />

heißt, es existiert der Limes in (25.11). ✷<br />

Als direkte Folgerung erhalten wir die Itô-Formel für das Itô-Integral bezüglich Diffusionen.<br />

Satz 25.27 (Itô-Formel für Diffusionen). Sei Y = M + A, wobei Mt � =<br />

t<br />

0 σs dWs und At = � t<br />

0 bs ds, eine (verallgemeinerte) Diffusion ist (siehe Definition<br />

25.23). Sei F ∈ C2 (R). Dann gilt die Itô-Formel<br />

F (Yt) − F (Y0) =<br />

=<br />

� t<br />

0<br />

� t<br />

0<br />

F ′ (Ys) dMs +<br />

� t<br />

F ′ (Ys)σs dWs +<br />

Speziell gilt für die Brown’sche Bewegung<br />

F (Wt) − F (W0) =<br />

� t<br />

0<br />

0<br />

� t<br />

F ′ (Ws) dWs + 1<br />

2<br />

� t<br />

F ′ (Ys) dAs + 1<br />

F<br />

2 0<br />

′′ (Ys) d〈M〉s<br />

�<br />

F<br />

0<br />

′ (Ys)bs + 1<br />

2 F ′′ (Ys)σ 2 �<br />

s ds.<br />

(25.14)<br />

� t<br />

0<br />

F ′′ (Ws) ds. (25.15)<br />

Als Anwendung der Itô-Formel bringen wir eine Charakterisierung der Brown’schen<br />

Bewegung als stetiges lokales Martingal mit einer bestimmten quadratischen Variation.<br />

Satz 25.28 (Lévy’sche Charakterisierung der Brown’schen Bewegung).<br />

Sei X ∈Mloc,c mit X0 =0. Dann sind äquivalent<br />

(i) (X2 t − t)t≥0 ist ein lokales Martingal,<br />

(ii) 〈X〉t = t für alle t ≥ 0,<br />

(iii) X ist eine Brown’sche Bewegung.<br />

Beweis (iii) =⇒ (i) Das ist klar.<br />

(i) ⇐⇒ (ii) Das ist klar, weil der quadratische Variationsprozess eindeutig ist.<br />

(ii) =⇒ (iii) Es reicht zu zeigen, dass Xt − Xs ∼N0,t−s gegeben Fs für t><br />

s ≥ 0. Wegen des Eindeutigkeitssatzes für charakteristische Funktionen reicht es zu<br />

zeigen, dass (mit i = √ −1)für A ∈Fs und λ ∈ R gilt:<br />

ϕA,λ(t) :=E � e iλ(Xt−Xs) � −λ<br />

A = P[A] e 2 (t−s)/2<br />

.


542 25 Das Itô-Integral<br />

Wir wenden die Itô-Formel separat auf Real- und Imaginärteil an und erhalten<br />

e iλXt − e iλXs � t<br />

=<br />

s<br />

Es folgt<br />

E � e iλ(Xt−Xs) � �<br />

�Fs − 1<br />

�� t<br />

= E iλe iλ(Xr−Xs) �<br />

�<br />

dXr �<br />

s<br />

iλe iλXr dXr − 1<br />

2<br />

� Fs<br />

�<br />

− 1<br />

2 λ2 �� t<br />

E<br />

s<br />

� t<br />

λ<br />

s<br />

2 e iλXr dr.<br />

e iλ(Xr−Xs) �<br />

�<br />

dr �<br />

Nun sind Mt := Re � t<br />

s iλeiλ(Xr−Xs) dXr und Nt := Im � t<br />

s iλeiλ(Xr−Xs) dXr,<br />

t ≥ s, stetige lokales Martingale mit 〈M〉t = � t<br />

s λ2 sin(λ(Xr − Xs)) 2 dr ≤ λ2 (t −<br />

s) und 〈N〉t = � t<br />

s λ2 cos(λ(Xr − Xs)) 2 dr ≤ λ2 (t − s). Nach Korollar 21.76 sind<br />

M und N daher Martingale, also gilt<br />

�� t<br />

E iλe iλ(Xr−Xs) � �<br />

�<br />

dXr � =0.<br />

s<br />

s<br />

� Fs<br />

Der Satz von Fubini liefert (wegen A ∈Fs)<br />

ϕA,λ(t) − ϕA,λ(s) =E � e iλ(Xt−Xs) �<br />

A − P[A]<br />

= − 1<br />

2 λ2<br />

� t<br />

E � e iλ(Xr−Xs) � 1<br />

A dr = −<br />

2 λ2<br />

Das heißt, ϕA,λ ist die Lösung des linearen Anfangswertproblems<br />

ϕA,λ(s) =P[A] und<br />

� t<br />

d<br />

dt ϕA,λ(t) =− 1<br />

2 λ2 ϕA,λ(t).<br />

s<br />

� Fs<br />

�<br />

.<br />

ϕA,λ(r) dr.<br />

Die eindeutige Lösung hiervon ist ϕA,λ(t) =P[A] e −λ2 (t−s)/2 . ✷<br />

Als Folgerung aus dem Satz erhalten wir, dass wir jedes lokale Martingal, dessen<br />

quadratischer Variationsprozess absolutstetig (als Funktion der Zeit) ist, als Itô-<br />

Integral bezüglich einer Brown’schen Bewegung schreiben können.<br />

Satz 25.29 (Itô’scher Martingal-Darstellungssatz). Sei M ein stetiges lokales<br />

Martingal mit absolutstetiger quadratischer Variation t ↦→ 〈M〉. Dann gibt es,<br />

eventuell auf einer Erweiterung des Wahrscheinlichkeitsraums, eine Brown’sche Bewegung<br />

W mit<br />

� �<br />

t<br />

d〈M〉s<br />

Mt =<br />

dWs für alle t ≥ 0.<br />

ds<br />

0<br />

Beweis. Wir nehmen an, dass auf dem Wahrscheinlichkeitsraum eine Brown’sche<br />

Bewegung � W definiert ist, die unabhängig von M ist. (Gegebenenfalls muss der<br />

Wahrscheinlichkeitsraum hierzu erweitert werden.) Sei


ft := lim<br />

n→∞ n� �<br />

〈M〉t −〈M〉 t−1/n<br />

25.3 Die Itô-Formel 543<br />

für t>0.<br />

Dann ist f eine progressiv messbare Version der Radon-Nikodym Ableitung d〈M〉t<br />

dt .<br />

Klar ist � T<br />

0 {ft>0} f −1<br />

t d〈M〉t = T0, also sind die folgenden<br />

Integrale wohldefiniert, und<br />

� t<br />

Wt :=<br />

0<br />

{fs>0} f −1/2<br />

� t<br />

s dMs +<br />

0<br />

{fs=0} d � Ws<br />

ist als Summe stetiger lokaler Martingale selber eines. Nach Satz 25.22 ist<br />

〈W 〉t =<br />

=<br />

= t.<br />

� t<br />

0<br />

� t<br />

0<br />

{fs>0} f −1<br />

� t<br />

s d〈M〉s +<br />

0<br />

{fs>0} f −1<br />

� t<br />

s fs ds +<br />

0<br />

{fs=0} ds<br />

{fs=0} ds<br />

Nach Satz 25.28 ist W damit als Brown’sche Bewegung erkannt. Andererseits ist<br />

� t<br />

0<br />

f 1/2<br />

s dWs =<br />

=<br />

� t<br />

0<br />

� t<br />

0<br />

{fs>0} f 1/2<br />

s<br />

{fs>0} dMs.<br />

f −1/2<br />

s dMs +<br />

� t<br />

0<br />

{fs=0} f 1/2<br />

s<br />

d � Ws<br />

Nun ist aber Mt − � t<br />

0 {fs>0} dMs = � t<br />

0 {fs=0} dMs ein stetiges lokales Martingal<br />

mit quadratischer Variation � t<br />

0 {fs=0} d〈M〉s =0, also fast sicher gleich Null.<br />

Also ist Mt = � t 1/2<br />

f 0 s dWs, wie gewünscht. ✷<br />

Wir kommen nun zu einer mehrdimensionalen Verallgemeinerung der (pfadweisen)<br />

Itô-Formel. Sei hierzu Cd qV der Raum der stetigen Abbildungen X :[0, ∞) → Rd ,<br />

t ↦→ Xt =(X1 t ,...,Xd t ), sodass für k, l =1,...,d die quadratische Kovariation<br />

(siehe Definition 21.58) 〈Xk ,Xl 〉 existiert und stetig ist. Ferner sei C2 (Rd )<br />

der Raum der zweimal stetig differenzierbaren Funktionen F auf Rd mit partiellen<br />

Ableitungen ∂kF und ∂k∂lF , k, l =1,...,d.Mit∇F bezeichnen wir den<br />

Gradienten und mit △ =(∂2 1 + ...+ ∂2 d ) den Laplace-Operator.<br />

Satz 25.30 (Mehrdimensionale pfadweise Itô-Formel). Sei X ∈Cd qV<br />

C<br />

und F ∈<br />

2 (Rd ). Dann gilt<br />

� T<br />

F (XT ) − F (X0) = ∇F dXs +<br />

0<br />

1<br />

� T<br />

2 0<br />

d�<br />

∂k∂lF (Xs) d〈X k ,X l 〉s.<br />

Dabei ist<br />

� T<br />

0<br />

∇F (Xs) dXs :=<br />

k,l=1<br />

d�<br />

� T<br />

∂kF (Xs) dX<br />

k=1<br />

0<br />

k s .


544 25 Das Itô-Integral<br />

Beweis. Das geht wie im eindimensionalen Fall. Die Details verbleiben zur Übung.<br />

✷<br />

Korollar 25.31 (Produktregel). Sind X, Y, X − Y,X + Y ∈CqV, so gilt<br />

XT YT = X0Y0 +<br />

� T<br />

0<br />

Ys dXs +<br />

� T<br />

0<br />

Xs dYs + 〈X, Y 〉T für alle T ≥ 0.<br />

Beweis. Nach Voraussetzung (und der Polarisationsformel) existiert 〈X, Y 〉. Nach<br />

Satz 25.30 mit F (x, y) =xy folgt die Aussage. ✷<br />

Sei nun Y = M + A eine d-dimensionale verallgemeinerte Diffusion, also<br />

M k t =<br />

d�<br />

l=1<br />

� t<br />

0<br />

σ k,l<br />

s dW l s und A k t =<br />

� t<br />

b<br />

0<br />

k s ds für t ≥ 0, k=1,...,d.<br />

Dabei ist W =(W 1 ,...,W d ) eine d-dimensionale Brown’sche Bewegung und<br />

σ k,l (beziehungsweise b k ) sind progressiv messbare, lokal quadratisch integrierbare<br />

(beziehungsweise lokal integrierbare) stochastische Prozesse für k, l =1,...,d.<br />

Wegen 〈W k ,W l 〉t = t · {k=l} ist 〈Y k ,Y l 〉t = 〈M k ,M l 〉t = � t<br />

0 ak,l<br />

s ds, wobei<br />

a k,l<br />

s :=<br />

d�<br />

i=1<br />

σ k,i<br />

s σ i,l<br />

s<br />

die Kovarianzmatrix der Diffusion M ist. Speziell ist M ∈Cd qV fast sicher. Wir<br />

erhalten als Korollar zur mehrdimensionalen pfadweisen Itô-Formel:<br />

Satz 25.32 (Mehrdimensionale Itô-Formel). Sei Y wie oben und F ∈ C 2 (R d ).<br />

Dann gilt<br />

F (YT ) − F (Y0) =<br />

=<br />

� T<br />

0<br />

d�<br />

k,l=1<br />

+ 1<br />

2<br />

∇F (Ys) dYs + 1<br />

2<br />

� t<br />

0<br />

d�<br />

k,l=1<br />

σ k,l<br />

s ∂kF (Ys) dW l s +<br />

� t<br />

Speziell gilt für die Brown’sche Bewegung<br />

F (Wt) − F (W0) =<br />

d�<br />

k=1<br />

0<br />

� t<br />

0<br />

d�<br />

� T<br />

∂k∂lF (Ys) d〈M<br />

k,l=1<br />

0<br />

k ,M l 〉s<br />

a k,l<br />

s ∂k∂lF (Ys) ds.<br />

∂kF (Ws) dW k s + 1<br />

2<br />

d�<br />

� t<br />

b<br />

k=1<br />

0<br />

k s ∂kF (Ys) ds<br />

� t<br />

0<br />

(25.16)<br />

△ F (Ws) ds. (25.17)


25.3 Die Itô-Formel 545<br />

Korollar 25.33. Der Prozess (F (Wt))t≥0 ist genau dann ein lokales Martingal,<br />

wenn F harmonisch ist (also △ F ≡ 0 gilt).<br />

Beweis. Ist F harmonisch, so ist F (Wt) =F (W0) + �d � t<br />

k=1 0 ∂kF (Ws) dW k s<br />

als Summe von Itô-Integralen ein stetiges lokales Martingal.<br />

Ist andererseits F ein lokales Martingal, so ist auch � t<br />

0 △ F (Ws) ds als Differenz<br />

�<br />

von stetigen lokalen Martingalen ein stetiges lokales Martingal. Da t ↦→<br />

t<br />

0 △ F (Ws) ds von endlicher Variation ist, ist � t<br />

0 △ F (Ws) ds =0für alle t ≥ 0<br />

fast sicher (nach Korollar 21.72). Also ist △ F ≡ 0. ✷<br />

Korollar 25.34 (Zeitabhängige Itô-Formel). Ist F ∈ C 2,1 (R d × R), sogilt<br />

F (WT ,T) − F (W0, 0)<br />

d�<br />

� T<br />

=<br />

k=1<br />

0<br />

∂kF (Ws,s) dW k � T<br />

s +<br />

0<br />

�<br />

∂d+1 + 1<br />

2 (∂2 1 + ...+ ∂ 2 �<br />

d) F (Ws,s) ds.<br />

Beweis. Wende Satz 25.32 an auf Y =(W 1 t ,...,W d t ,t)t≥0. ✷<br />

Übung 25.3.1 (Satz von Fubini für Itô-Integrale). Sei X ∈ CqV und sei g :<br />

[0, ∞) 2 → R stetig und im Inneren nach der zweiten Koordinate stetig differenzierbar<br />

mit Ableitung ∂2g. Man zeige mit Hilfe der Produktregel (Korollar 25.31)<br />

� s �� t � � t �� s<br />

�<br />

g(u, v) du dXv = g(u, v) dXv du.<br />

0<br />

und � s<br />

0<br />

0<br />

�� v<br />

0<br />

�<br />

g(u, v) du dXv =<br />

0<br />

0<br />

� s �� s<br />

0<br />

u<br />

�<br />

g(u, v) dXv du. ♣<br />

Übung 25.3.2 (Stratonovich-Integral). Sei P eine zulässige Zerlegungsfolge, X ∈<br />

C P qV und f ∈ C1 (R) mit Stammfunktion F . Man zeige: Für jedes t ≥ 0 ist das<br />

Stratonovich-Integral<br />

� T<br />

0<br />

f(Xt) ◦ dXt := lim<br />

�<br />

f<br />

n→∞<br />

t∈Pn T<br />

� Xt<br />

′ + Xt<br />

2<br />

wohldefiniert, und es gilt die klassische Substitutionsregel<br />

F (XT ) − F (X0) =<br />

� T<br />

0<br />

F ′ (Xt) ◦ dXt.<br />

�<br />

�Xt �<br />

′ − Xt<br />

Man zeige, dass im Gegensatz zum Itô-Integral das Stratonovich-Integral bezüglich<br />

eines stetigen lokalen Martingals im Allgemeinen kein lokales Martingal ist. ♣


546 25 Das Itô-Integral<br />

25.4 Dirichlet-Problem und Brown’sche Bewegung<br />

Ähnlich wie für diskrete Markovketten (vergleiche Kapitel 19.1) lässt sich die<br />

Lösung des Dirichlet-Problems in einem Gebiet G ⊂ Rd durch eine am Rande<br />

von G gestoppte d-dimensionale Brown’sche Bewegung beschreiben.<br />

Sei im Folgenden G ⊂ Rd eine offene, beschränkte Menge.<br />

Definition 25.35 (Dirichlet-Problem). Sei f : ∂G → R stetig. Eine Funktion<br />

u : G → R heißt Lösung des Dirichlet-Problems auf G mit Randwert f, falls u<br />

stetig ist und in G zweimal stetig differenzierbar, sowie<br />

△ u(x) =0 für x ∈ G,<br />

u(x) =f(x) für x ∈ ∂G.<br />

(25.18)<br />

Für hinreichend glatte Gebiete existiert stets eine Lösung des Dirichlet-Problems<br />

(siehe etwa [80, Korollar 4.3.3]). Gibt es eine Lösung, so ist sie stets eindeutig (wie<br />

aus Satz 25.37 folgt).<br />

Sei im Folgenden W =(W1 ,...,Wd ) eine d-dimensionale Brown’sche Bewegung<br />

bezüglich der Filtration F, die den üblichen Bedingungen genügt. Wir schreiben<br />

Px und Ex für Wahrscheinlichkeiten und Erwartungswerte, wenn W in<br />

W0 = x =(x1 ,...,xd ) ∈ Rd gestartet wird. Ist A ⊂ Rd offen, so ist<br />

τAc := inf � t>0: Wt ∈ A c�<br />

eine F-Stoppzeit (siehe Übung 21.4.4). Da G beschränkt ist, ist G ⊂ (−a, a) ×<br />

Rd−1 für gewisses a>0. AlsoistτGc ≤ τ ((−a,a)×Rd−1 (angewandt auf W<br />

) c. Nach Übung 21.2.4<br />

1 )istfür x ∈ G<br />

�<br />

Ex τGc � �<br />

≤ Ex τGc ≤ τ ((−a,a)×Rd−1 ) c<br />

� 1 1<br />

=(a− x )(a + x ) < ∞. (25.19)<br />

Speziell ist τG c < ∞ Px-fast sicher, also ist WτG c eine Px-fast sicher wohldefinierte<br />

Zufallsvariable mit Werten in ∂G.<br />

Definition 25.36. Für x ∈ G bezeichnen wir mit<br />

das harmonische Maß auf ∂G.<br />

μx,G = Px ◦ W −1<br />

τG c<br />

Satz 25.37. Ist u eine Lösung des Dirichlet-Problems auf G mit Randwert f, so<br />

ist<br />

�<br />

u(x) =Ex f(WτGc ) � �<br />

= f(y) μx,G(dy) für x ∈ G. (25.20)<br />

∂G<br />

Insbesondere ist die Lösung des Dirichlet-Problems stets eindeutig.


25.4 Dirichlet-Problem und Brown’sche Bewegung 547<br />

Beweis. Sei G1 ⊂ G2 ⊂ ... eine Folge offener Mengen mit x ∈ G1, Gn ↑ G<br />

und Gn ⊂ G für jedes n ∈ N. Speziell ist also jedes Gn kompakt und damit ∇u<br />

auf Gn beschränkt. Wir schreiben kurz τ := τG c und τn := τG c n .<br />

Da u harmonisch ist (das heißt, △ u =0), ist nach der Itô-Formel<br />

u(Wt) =u(W0)+<br />

� t<br />

0<br />

∇u(Ws) dWs =<br />

d�<br />

k=1<br />

∂ku(Ws) dW k s<br />

für t


548 25 Das Itô-Integral<br />

25.5 Rekurrenz und Transienz der Brown’schen Bewegung<br />

Die symmetrische einfache Irrfahrt (Xn)n∈N auf Z d ist nach dem Satz von Pólya<br />

(Satz 17.39) genau dann rekurrent (besucht also jeden Punkt unendlich oft), wenn<br />

d ≤ 2 ist. Ist d>2, so ist die Irrfahrt transient und verlässt jede endliche Menge<br />

A ⊂ Z d schließlich. Wir können dieses Verhalten beschreiben durch<br />

lim inf<br />

n→∞ �Xn� =0 f.s. ⇐⇒ d ≤ 2<br />

und<br />

lim<br />

n→∞ �Xn� = ∞ f.s. ⇐⇒ d>2.<br />

Hauptergebnis dieses Abschnitts ist es, dass eine ähnliche Dichotomie auch für die<br />

Brown’sche Bewegung gilt.<br />

Satz 25.38. Sei W = (W 1 ,...,W d ) eine d-dimensionale Brown’sche Bewegung.<br />

(i) Ist d ≤ 2, soist W rekurrent in dem Sinne, dass<br />

lim inf<br />

t→∞ �Wt − y� =0 f.s. für jedes y ∈ R d .<br />

Insbesondere liegt der Pfad {Wt : t ≥ 0} dicht in Rd fast sicher.<br />

(ii) Ist d>2, soistW transient in dem Sinne, dass<br />

lim<br />

t→∞ �Wt� = ∞ f.s.,<br />

und für jedes y ∈ R d \{0} ist inf{�Wt − y� : t ≥ 0} > 0 fast sicher.<br />

Die Grundidee für den Beweis des Satzes besteht darin, mit Hilfe von geeigneten<br />

Dirichletproblemen und dem Ergebnis von Abschnitt 25.4 die Wahrscheinlichkeiten<br />

dafür auszurechnen, dass W gewisse Kugeln<br />

BR(x) := � y ∈ R d : �x − y�


25.5 Rekurrenz und Transienz der Brown’schen Bewegung 549<br />

�<br />

1,<br />

f(x) =<br />

0,<br />

falls �x� = r,<br />

falls �x� = R.<br />

(25.24)<br />

Sei ur,R : Gr,R → R definiert durch<br />

V (�x�) − V (R)<br />

ur,R(x) =<br />

V (r) − V (R) ,<br />

wobei V :(0, ∞) → R die Newton’sche Potentialfunktion ist<br />

⎧<br />

⎪⎨<br />

s, falls d =1,<br />

V (s) =Vd(s) = log(s),<br />

⎪⎩<br />

−s<br />

falls d =2,<br />

2−d , falls d>2.<br />

(25.25)<br />

Man prüft leicht nach, dass ϕ : Rd \{0} →R, x ↦→ Vd(�x�) harmonisch ist (also<br />

△ ϕ ≡ 0 erfüllt). Also ist ur,R die Lösung des Dirichlet-Problems auf Gr,R mit<br />

Randwert f. Nach Satz 25.37 ist für x ∈ Gr,R<br />

� � �<br />

Px τr,R = τr = Px �Wτr,R� = r� �<br />

= Ex f(Wτr,R )� = ur,R(x). (25.26)<br />

Satz 25.39. Für r>0 und x, y ∈ Rd mit �x − y� >r gilt<br />

�<br />

Px Wt ∈ Br(y) für ein t>0 � ⎧<br />

⎨<br />

1, falls d ≤ 2,<br />

= � �2−d ⎩ �x−y�<br />

r , falls d>2.<br />

Beweis. Ohne Einschränkung sei y =0.Dannist<br />

Px[τr < ∞] = lim<br />

R→∞ Px[τr,R<br />

V (�x�) − V (R)<br />

= τr] = lim<br />

R→∞ V (r) − V (R)<br />

�<br />

1, falls d =2,<br />

=<br />

Vd(�x�)<br />

Vd(r) , falls d>2,<br />

denn limR→∞ Vd(R) =∞, falls d ≤ 2 und =0, falls d>2. ✷<br />

Beweis (von Satz 25.38). Unter Verwendung der starken Markoveigenschaft der<br />

Brown’schen Bewegung erhalten wir für r>0<br />

�<br />

Px lim inf<br />

t→∞ �Wt�<br />

� �<br />

�x�<br />

inf<br />

R>�x� Px<br />

� �<br />

�Wt� ≤s für ein t>τR<br />

inf<br />

R>�x� Px<br />

�<br />

PWτ [τs < ∞]<br />

R � .


550 25 Das Itô-Integral<br />

Nach Satz 25.39 ist aber (wegen �WτR� = R für R>�x�)<br />

�<br />

1, falls d ≤ 2,<br />

PWτ [τs < ∞] =<br />

R<br />

(s/R) d−2 , falls d>2.<br />

Also ist<br />

�<br />

P lim inf<br />

t→∞ �Wt�<br />

�<br />

� 1,<br />

2.<br />

Hieraus folgt aber die Aussage des Satzes. ✷<br />

Definition 25.40 (Polare Menge). Eine Menge A ⊂ Rd heißt polar, falls<br />

�<br />

Wt �∈ A für alle t>0 � =1 für alle x ∈ R d .<br />

Px<br />

Satz 25.41. Ist d =1, so ist nur die leere Menge polar. Ist d ≥ 2, soist {y} polar<br />

für jedes y ∈ R d .<br />

Beweis. Für d =1ist die Aussage klar, wegen<br />

lim sup Wt = ∞ und lim inf<br />

t→∞<br />

t→∞ Wt = −∞ f.s.<br />

Aufgrund der Stetigkeit von W wird also jeder Punkt y ∈ R immer wieder getroffen.<br />

Sei nun d ≥ 2. Ohne Einschränkung sei y =0.Istx�= 0,soist<br />

�<br />

Px τ{0} < ∞ � � �<br />

= lim τ{0} 0 Px<br />

= lim<br />

R→∞ inf<br />

r>0 ur,R(x) =0,<br />

(25.27)<br />

weil Vd(r) r→0<br />

−→ −∞, falls d ≥ 2.<br />

Ist hingegen x =0, so gilt wegen der starken Markoveigenschaft der Brown’schen<br />

Bewegung (und weil P0[Wt =0]=0 ist für alle t>0)<br />

P0<br />

�<br />

τ{0} < ∞ � =supP0<br />

t>0<br />

=supP0<br />

t>0<br />

� Ws =0 für ein s ≥ t �<br />

� PWt [τ {0} < ∞] � =0,<br />

wobei wir im letzten Schritt (25.27) ausgenutzt haben. ✷


26 Stochastische Differentialgleichungen<br />

Stochastische Differentialgleichungen beschreiben die zeitliche Entwicklung von<br />

gewissen stetigen Markovprozessen mit Werten in Rn . Im Gegensatz zu klassischen<br />

Differentialgleichungen ist nicht nur die Ableitung einer Funktion angegeben, sondern<br />

zudem ein Term, der zufällige Fluktuationen beschreibt, die als Itô-Integral<br />

bezüglich einer Brown’schen Bewegung kodiert werden. Je nach dem, ob man die<br />

konkrete Brown’sche Bewegung als treibende Kraft des Rauschens ernst nimmt oder<br />

nicht, spricht man von starken oder schwachen Lösungen. Wir entwickeln im ersten<br />

Abschnitt die Theorie der starken Lösungen unter Lipschitz-Bedingungen an die<br />

Koeffizienten. Im zweiten Abschnitt lernen wir das (lokale) Martingalproblem als<br />

Methode zur Etablierung schwacher Lösungen kennen. Im dritten Abschnitt stellen<br />

wir die Methode der Dualität zur Sicherung der Eindeutigkeit von Lösungen an<br />

Beispielen vor.<br />

Da die Theorie der stochastischen Differentialgleichungen ein sehr weites Feld ist<br />

und die Dinge sehr schnell sehr technisch werden, bringen wir nur kursorisch ein<br />

paar der wichtigsten Ergebnisse, zum Teil ohne Beweis, um sie dann an Beispielen<br />

zu illustrieren.<br />

26.1 Starke Lösungen<br />

Wir betrachten eine stochastische Differentialgleichung (SDGL) von dem Typ<br />

X0 = ξ,<br />

dXt = σ(t, Xt) dWt + b(t, Xt) dt.<br />

(26.1)<br />

Dabei ist W = (W1 ,...,Wm ) eine m-dimensionale Brown’sche Bewegung, ξ<br />

eine von W unabhängige Rn � -wertige Zufallsvariable mit Verteilung μ, σ(t, x) =<br />

σij(t, x) � i=1,...,n eine reelle n × m Matrix sowie b(t, x) =<br />

j=1,...,m<br />

� bi(t, x) �<br />

i=1,...,n ein<br />

n-dimensionaler Vektor. Die Abbildungen (t, x) ↦→ σij(t, x) und (t, x) ↦→ bi(t, x)<br />

seien messbar.<br />

Unter einer Lösung X von (26.1) wollen wir natürlich einen stetigen, adaptierten<br />

stochastischen Prozess X mit Werten in R n verstehen, der die folgende Integralgleichung<br />

erfüllt


552 26 Stochastische Differentialgleichungen<br />

� t<br />

� t<br />

Xt = ξ + σ(s, Xs) dWs + b(s, Xs) ds P − f.s. für alle t ≥ 0. (26.2)<br />

0<br />

0<br />

Koordinatenweise ausgeschrieben heißt dies<br />

X i t = ξ i m�<br />

� t<br />

+ σij(s, Xs) dW<br />

j=1 0<br />

j � t<br />

s +<br />

0<br />

bi(s, Xs) ds für alle i =1,...,n.<br />

Nun ergibt sich folgendes Problem: An welche Filtration F soll X adaptiert sein?<br />

Soll F die Filtration sein, die von ξ und W erzeugt ist, oder darf F eine größere Filtration<br />

sein? Aus der Theorie der gewöhnlichen Differentialgleichungen ist bekannt,<br />

dass es, je nach Differentialgleichung, Lösungen geben kann, die aber nicht eindeutig<br />

sind (beispielsweise für f ′ = |f| 1/3 ). Wenn F größer als die von W erzeugte<br />

Filtration ist, können wir weitere Zufallsvariablen definieren, die unter mehreren<br />

Lösungen eine aussuchen. Wir haben also mehr Möglichkeiten, eine Lösung anzugeben<br />

als wenn F = σ(W ) ist. In der Tat wird sich herausstellen, dass man in<br />

manchen Fällen überhaupt erst eine Lösung einer SDGL angeben kann, wenn man<br />

eine größere Filtration zulässt. Grob gesprochen nennen wir X eine starke Lösung<br />

von (26.1), wenn (26.2) gilt und X an F = σ(W ) adaptiert ist, hingegen eine schwache<br />

Lösung, wenn X an eine größere Filtration F adaptiert ist, bezüglich der W aber<br />

immer noch ein Martingal ist. Schwache Lösungen behandeln wir in Abschnitt 26.2.<br />

Definition 26.1 (Starke Lösung). Wir sagen, dass die stochastische Differentialgleichung<br />

(SDGL) (26.1) eine starke Lösung X hat, falls es eine Abbildung<br />

F : R n × C([0, ∞); R m ) → C([0, ∞); R n ) gibt mit den Eigenschaften<br />

(i) (x, w) ↦→ F (x, w) ist für jedes t ≥ 0 messbar bezüglich B(Rn ) ⊗Gm t –<br />

Gn t , wobei (für k = m oder k = n) Gk t := σ(πs : s ∈ [0,t]) die von<br />

den Koordinatenabbildungen πs : C([0, ∞); Rk ) → R, w ↦→ w(s) erzeugte<br />

σ-Algebra ist.<br />

(ii) Der Prozess X = F (ξ,W) erfüllt (26.2).<br />

Bedingung (i) besagt, dass der Pfad (Xs) s∈[0,t] nur von ξ und (Ws) s∈[0,t] abhängt<br />

und sonst von keinen Informationen. Insbesondere ist X an Ft = σ(ξ, Ws : s ∈<br />

[0,t]) adaptiert und progressiv messbar, sodass das Itô-Integral in (26.2) wohldefiniert<br />

ist, falls σ und b nicht zu stark wachsen für große x.<br />

Bemerkung 26.2. Offenbar ist eine starke Lösung einer SDGL stets eine verallgemeinerte<br />

n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig von<br />

t,soistdieLösung eine n-dimensionale Diffusion. ✸<br />

Bemerkung 26.3. Sei X eine starke Lösung und F wie in Definition 26.1. ist W ′<br />

eine m-dimensionale Brown’sche Bewegung auf einem Raum (Ω ′ , F ′ , P ′ ) mit Filtration<br />

F ′ , und ist ξ ′ unabhängig von W ′ und F ′ 0-messbar, so erfüllt X ′ = F (ξ ′ ,W ′ )<br />

die Integralgleichung (26.2), ist also eine starke Lösung von (26.1) mit W ′ statt W .


26.1 Starke Lösungen 553<br />

Die Existenz einer starken Lösung hängt also nicht von der konkreten Realisierung<br />

der Brown’schen Bewegung oder der Filtration F ab. ✸<br />

Definition 26.4. Wir sagen, dass die SDGL (26.1) eine eindeutige starke Lösung<br />

hat, falls es ein F wie in Definition 26.1 gibt, sodass gilt:<br />

(i) Ist W eine m-dimensionale Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum<br />

(Ω,F, P) mit Filtration F und ξ eine F0-messbare von W unabhängige<br />

Zufallsvariable mit P ◦ ξ−1 = μ, dann ist X := F (ξ,W) eine<br />

Lösung von (26.2).<br />

(ii) Für jede Lösung (X, W) von (26.2) gilt X = F (ξ,W).<br />

Beispiel 26.5. Seien m = n =1und b ∈ R sowie σ>0.DerOrnstein-Uhlenbeck<br />

Prozess<br />

Xt := e bt � t<br />

ξ + σ e (t−s)b dWs, t ≥ 0, (26.3)<br />

ist eine starke Lösung der SDGL X0 = ξ und<br />

0<br />

dXt = σdWt + bXt dt.<br />

In der Terminologie von Definition 26.1 ist (im Sinne des pfadweisen Itô-Integrals<br />

bezüglich w)<br />

�<br />

F (x, w) = t ↦→ e bt � t<br />

x + e (t−s)b �<br />

dw(s)<br />

für alle w ∈CqV (also mit stetiger quadratischer Variation). Wegen P[W ∈CqV] =<br />

1, können wir F (x, w) =0setzen für w ∈ C([0, ∞); R) \CqV.<br />

In der Tat gilt nach dem Satz von Fubini für Itô-Integrale (Übung 25.3.1)<br />

ξ +<br />

� t<br />

0<br />

� t<br />

σdWs + bXs ds<br />

0<br />

� t<br />

= ξ + σWt + be<br />

0<br />

bs � t �� s<br />

ξds+ σb e<br />

0 0<br />

b(s−r) �<br />

dWr ds<br />

= ξ + σWt + � e bt − 1 � � t �� t<br />

ξ + σ be<br />

0 r<br />

b(s−r) �<br />

ds dWr<br />

= e bt � t �<br />

ξ + σ + � e b(t−r) − 1 � �<br />

σ dWr<br />

= Xt.<br />

0<br />

Man kann zeigen (siehe Satz 26.8), dass diese Lösung auch (stark) eindeutig ist. ✸<br />

Beispiel 26.6. Seien α, β ∈ R. Die eindimensionale SDGL X0 = ξ und<br />

0<br />

dXt = αXt dWt + βXt dt (26.4)


554 26 Stochastische Differentialgleichungen<br />

hat die starke Lösung<br />

� �<br />

Xt = ξ exp αWt + β − α2<br />

� �<br />

t .<br />

2<br />

In der Terminologie von Definition 26.1 ist σ(t, x) =αx, b(t, x) =βx und<br />

� � �<br />

F (x, w) = t ↦→ x exp αw(t)+ β − α2<br />

� ��<br />

t<br />

2<br />

für alle w ∈ C([0, ∞); R) und x ∈ R. In der Tat ist nach der zeitabhängigen Itô-<br />

Formel (Korollar 25.34)<br />

� t<br />

� t ��<br />

Xt = ξ + αXs dWs + β − α2<br />

�<br />

+<br />

2<br />

1<br />

2 α2<br />

�<br />

Xs ds.<br />

0<br />

0<br />

Auch in diesem Fall gilt starke Eindeutigkeit der Lösung (siehe Satz 26.8). Der<br />

Prozess X heißt geometrische Brown’sche Bewegung und dient beispielsweise<br />

zur Modellierung von Aktienkursen im so genannten Black-Scholes Modell. ✸<br />

Wir geben nun ein einfaches Kriterium für die Existenz und Eindeutigkeit starker<br />

Lösungen an. Für eine n × m Matrix A definieren wir die Hilbert-Schmidt Norm<br />

�<br />

�A� = Spur � AAT � �<br />

�<br />

�<br />

n� n�<br />

= �<br />

. (26.5)<br />

i=1 j=1<br />

Für b ∈ R n verwenden wir die euklidische Norm �b�. Da alle Normen auf endlichdimensionalen<br />

Vektorräumen äquivalent sind, spielt es keine wesentliche Rolle,<br />

welche Norm wir genau benutzen. Allerdings vereinfacht die hier eingeführte Norm<br />

die Rechnungen, wie das folgende Lemma zeigt.<br />

Lemma 26.7. Sei t ↦→ H(t) =(Hij(t))i=1,...,n, j=1,...,m progressiv messbar und<br />

E � � T<br />

0 H2 ij (t) dt� < ∞ für alle i, j. Dann gilt<br />

�� �<br />

��� T<br />

E<br />

0<br />

�<br />

�2�<br />

H(t) dWt<br />

�<br />

�<br />

wobei �H� die Hilbert-Schmidt Norm aus (26.5) bezeichnet.<br />

Beweis. Für i =1,...,nist Ii(t) := � m<br />

mit Variationsprozess 〈Ii〉t = � t<br />

0<br />

A 2 i,j<br />

� � T<br />

= E �H(t)�<br />

0<br />

2 �<br />

dt , (26.6)<br />

j=1<br />

� m<br />

j=1 H2 ij<br />

E � (Ii(T )) 2� � � T<br />

= E<br />

0<br />

� t<br />

0 Hij(s) dW j s ein stetiges Martingal<br />

(s) ds. Daher ist<br />

m�<br />

j=1<br />

H 2 �<br />

ij(s) ds.


Die linke Seite in (26.6) ist aber gleich<br />

n�<br />

E � (Ii(T )) 2� � � T<br />

= E<br />

i=1<br />

0<br />

n�<br />

m�<br />

i=1 j=1<br />

26.1 Starke Lösungen 555<br />

H 2 �<br />

ij(s) ds.<br />

Die Behauptung folgt nun aus der Definition von �H(s)� 2 . ✷<br />

Satz 26.8. Seien b und σ Lipschitz-stetig in der ersten Koordinate. Das heißt, es<br />

existiere eine Konstante K>0, sodass für alle x, x ′ ∈ R n und t ≥ 0 gilt, dass<br />

�σ(x, t) − σ(x ′ ,t)� + �b(x, t) − b(x ′ ,t)� ≤K �x − x ′ �. (26.7)<br />

Ferner gelte die Wachstumsbedingung<br />

�σ(t, x)� 2 + �b(t, x)� 2 ≤ K 2 (1 + �x� 2 ) für alle x ∈ R n ,t≥ 0. (26.8)<br />

Dann existiert für jeden Anfangswert X0 = x ∈ R n eine eindeutige starke<br />

Lösung X der SDGL (26.1). Diese Lösung ist ein Markovprozess und im Falle,<br />

wo σ und b nicht von t abhängen, ein starker Markovprozess.<br />

Als Hilfsmittel brauchen wir ein Lemma.<br />

Lemma 26.9 (Gronwall). Seien f,g :[0,T] → R integrierbar und C > 0 so,<br />

dass<br />

� t<br />

f(t) ≤ g(t)+C f(s) ds für alle t ∈ [0,T]. (26.9)<br />

Dann ist<br />

f(t) ≤ g(t)+C<br />

� t<br />

0<br />

0<br />

e C(t−s) g(s) ds für alle t ∈ [0,T].<br />

Ist speziell g(t) ≡ G konstant, so ist f(t) ≤ Ge Ct für alle t ∈ [0,T].<br />

Beweis. Seien F (t) = � t<br />

0 f(s) ds und h(t) =F (t) e−Ct . Dann ist nach (26.9)<br />

Integration liefert<br />

Einsetzen in (26.9) liefert<br />

d<br />

dt h(t) =f(t) e−Ct − CF(t) e −Ct ≤ g(t) e −Ct .<br />

F (t) =e Ct h(t) ≤<br />

� t<br />

f(t) ≤ g(t)+CF(t) ≤ g(t)+C<br />

0<br />

e C(t−s) g(s) ds.<br />

� t<br />

0<br />

g(s) e C(t−s) ds. ✷


556 26 Stochastische Differentialgleichungen<br />

Beweis (von Satz 26.8). Es reicht zu zeigen, dass eine eindeutige starke Lösung<br />

bis T für jedes T


und<br />

� t<br />

Jt :=<br />

0<br />

� N<br />

b(s, Xs ) − b(s, X N−1<br />

s ) � ds.<br />

26.1 Starke Lösungen 557<br />

Indem wir die Doob’sche L2 –Ungleichung auf das nichtnegative Submartingal<br />

(�It�2 )t≥0 , Lemma 26.7 sowie (26.7) anwenden, erhalten wir<br />

� �<br />

E<br />

≤ 4 E � �It� 2�<br />

sup �Is�<br />

s≤t<br />

2<br />

=4E<br />

≤ 4K 2<br />

�� t<br />

0<br />

� t<br />

0<br />

�<br />

� σ(s, X N s ) − σ(s, X N−1<br />

s<br />

E<br />

���X N<br />

s − X N−1<br />

�<br />

�<br />

s<br />

2�<br />

ds<br />

) � �2 �<br />

ds<br />

Für Jt bekommen wir mit der Cauchy-Schwarz’schen Ungleichung<br />

�Jt� 2 � t �<br />

≤ t � N<br />

b(s, Xs ) − b(s, X N−1<br />

s ) � �2 ds.<br />

Also ist<br />

�<br />

E<br />

sup �Js�<br />

s≤t<br />

2<br />

�<br />

≤ t E<br />

0<br />

≤ tK 2<br />

�� t<br />

0<br />

� t<br />

0<br />

�<br />

� b(s, X N s ) − b(s, X N−1<br />

s<br />

���X N<br />

E s − X N−1<br />

�<br />

�2� ds.<br />

s<br />

) � �2 �<br />

ds<br />

Setzen wir<br />

Δ N �<br />

�<br />

(t) :=E sup � N<br />

Xs − X<br />

s≤t<br />

N−1<br />

�<br />

�<br />

s<br />

2<br />

�<br />

,<br />

so erhalten wir mit C := 2K2 (4 + T ) ∨ 2(T +1)K2 (1 + �x�2 )<br />

und<br />

Δ N+1 (t) ≤ C<br />

Δ 1 (t) ≤ 2t<br />

� t<br />

0<br />

� t<br />

0<br />

Δ N (s) ds für N ≥ 1<br />

�b(s, x)� 2 ds + 2<br />

� t<br />

≤ 2(T +1)K 2� 1+�x� 2� · t ≤ Ct<br />

0<br />

�σ(s, x)� 2 ds<br />

(26.12)<br />

(26.13)<br />

nach der Wachstumsvoraussetzung (26.8). Per Induktion folgt Δ N (t) ≤ (Ct)N<br />

N! .Es<br />

folgt mit der Markov’schen Ungleichung<br />

∞�<br />

�<br />

�<br />

P sup �X<br />

s≤t<br />

N s − X N−1<br />

�<br />

�<br />

s<br />

2 > 2 −N<br />

�<br />

≤<br />

N=1<br />

≤<br />

∞�<br />

2<br />

N=1<br />

N Δ N (t)<br />

∞� (2Ct) N<br />

N! ≤ e2Ct < ∞.<br />

N=1


558 26 Stochastische Differentialgleichungen<br />

Nach dem Lemma von Borel-Cantelli folgt sups≤t �XN s − XN−1 2<br />

s �<br />

N→∞<br />

−→ 0 fast<br />

sicher. Mithin ist fast sicher (XN )N∈N eine Cauchy-Folge in dem Banachraum<br />

(C([0,T]), �·�∞). Also konvergiert XN fast sicher gleichmäßig gegen ein X.<br />

Gleichmäßige Konvergenz impliziert Konvergenz der Integrale, also ist X eine starke<br />

Lösung von (26.2).<br />

Markoveigenschaft Die starke Markoveigenschaft folgt direkt aus der starken<br />

Markoveigenschaft der Brown’schen Bewegung, die die SDGL antreibt. ✷<br />

Wichtige Beispiele für diesen Satz haben wir oben schon kennen gelernt. Viele interessante<br />

Probleme führen jedoch auf stochastische Differentialgleichungen, bei<br />

denen die Koeffizienten nicht Lipschitz-stetig sind. Im eindimensionalen Fall kann<br />

man mit speziellen Vergleichsmethoden zeigen, dass es ausreicht, dass σ Hölder-<br />

in der Ortsvariablen ist.<br />

stetig von der Ordnung 1<br />

2<br />

Satz 26.10 (Yamada-Watanabe). Wir betrachten die eindimensionale Situation<br />

m = n =1.EsgebeK0 und a, b ≥ 0 Parameter sind. Die Bedingungen<br />

von Satz 26.10 sind mit α = 1<br />

2 und K = √ γ + a erfüllt. Die eindeutige<br />

starke Lösung X hat offenbar die Eigenschaft, nichtnegativ zu bleiben, wenn<br />

X0 ≥ 0 ist. (Tatsächlich kann man sogar zeigen dass Xt > 0 für alle t>0 gilt,<br />

falls 2ab/γ ≥ 1, und dass Xt die Null mit Wahrscheinlichkeit 1 beliebig häufig<br />

trifft, falls 2ab/γ < 1. Siehe etwa [78, Beispiel IV.8.2, Seite 237]. Vergleiche Beispiel<br />

26.16.)<br />

Dieser Prozess wird je nach Kontext gelegentlich als Feller’sche Verzweigungsdiffusion<br />

mit Immigration oder als Cox-Ingersoll-Ross Modell für die zeitliche<br />

Entwicklung von Zinsraten bezeichnet.<br />

Wir berechnen für den Fall a = b =0mit der Itô-Formel, dass<br />

e −λXt − e −λx − γ λ2<br />

2<br />

� t<br />

e<br />

0<br />

−λXs � t<br />

Xs ds = λ<br />

0<br />

e −λXs<br />

�<br />

γXs dWs


1.5<br />

1<br />

0.5<br />

0<br />

26.1 Starke Lösungen 559<br />

5 10 15 20 25 30<br />

Abb. 26.1. Cox-Ingersoll-Ross Diffusion mit Parametern γ =1, b =1und a =0.3. Der<br />

Pfad trifft die Null immer wieder, da 2ab/γ =0.6 < 1 ist.<br />

2.5<br />

2<br />

1.5<br />

1<br />

0.5<br />

0<br />

5 10 15 20 25 30<br />

Abb. 26.2. Cox-Ingersoll-Ross Diffusion mit Parametern γ =1, b =1und a =2.DerPfad<br />

trifft die Null nie, da 2ab/γ =4≥ 1 ist.<br />

ein Martingal ist. Indem wir Erwartungswerte bilden, erhalten wir für die Laplace-<br />

Transformierte ϕ(t, λ, x) =Ex[e −λXt ] die Differentialgleichung<br />

d<br />

λ2<br />

ϕ(t, λ, x) =γ<br />

dt 2 E�Xt e −λXt� = − γλ2<br />

2<br />

d<br />

ϕ(t, λ, x).<br />

dλ<br />

Diese partielle Differentialgleichung hat mit dem Anfangswert ϕ(0,λ,x)=e −λx<br />

die eindeutige Lösung


560 26 Stochastische Differentialgleichungen<br />

�<br />

λ<br />

ϕ(t, λ, x) =exp −<br />

(γ/2)λt +1 x<br />

�<br />

.<br />

Dies ist aber (für γ =2) genau die Laplace-Transformierte der Übergangswahrscheinlichkeiten<br />

des Markov-Prozesses, den wir in Satz 21.48 definiert hatten und<br />

den wir im Satz von Lindvall (Satz 21.51) als Grenzwert von reskalierten Galton-<br />

Watson Verzweigungsprozessen kennen gelernt haben. ✸<br />

26.2 Schwache Lösungen und Martingalproblem<br />

Im letzten Abschnitt haben wir starke Lösungen der stochastischen Differentialgleichung<br />

dXt = σ(t, Xt) dWt + b(t, Xt) dt (26.15)<br />

kennen gelernt. Diese zeichnen sich dadurch aus, dass jedem Pfad der Brown’schen<br />

Bewegung W genau ein Pfad der Lösung X zugeordnet wird. Wir wollen nun zum<br />

Begriff der schwachen Lösung kommen, bei der zusätzliche Information (das heißt<br />

zusätzlicher Zufall) in die Lösung mit eingehen kann.<br />

Definition 26.12 (Schwache Lösung einer SDGL). Eine schwache Lösung von<br />

(26.15) mit Startverteilung μ ∈M1(R n ) ist ein Tripel<br />

wobei gilt:<br />

L = � (X, W), (Ω,F, P), F � ,<br />

– (Ω,F, P) ist ein Wahrscheinlichkeitsraum,<br />

– F = (Ft)t≥0ist eine Filtration auf (Ω,F, P), die die üblichen Bedingungen<br />

erfüllt,<br />

– W ist eine Brown’sche Bewegung auf (Ω,F, P) und bezüglich F ein Martingal.<br />

– X ist stetig und adaptiert (also progressiv messbar),<br />

– P ◦ (X0) −1 = μ,<br />

– sowie<br />

Xt = X0 +<br />

� t<br />

0<br />

σ(s, Xs) dWs +<br />

� t<br />

0<br />

b(s, Xs) ds P-f.s. (26.16)<br />

Eine schwache Lösung L heißt (schwach) eindeutig, falls für jede weitere Lösung<br />

L ′ mit Startverteilung μ gilt: P ′ ◦ (X ′ ) −1 = P ◦ X −1 .<br />

Bemerkung 26.13. Offenbar ist eine schwache Lösung einer SDGL stets eine verallgemeinerte<br />

n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig<br />

von t,soistdieLösung eine n-dimensionale Diffusion. ✸


26.2 Schwache Lösungen und Martingalproblem 561<br />

Bemerkung 26.14. Offenbar wird durch jede starke Lösung von (26.15) eine schwache<br />

Lösung definiert. Die Umkehrung ist falsch, wie wir im folgenden Beispiel sehen<br />

werden. ✸<br />

Beispiel 26.15. Betrachte die SDGL (mit Startwert X0 =0)<br />

dXt =sign(Xt) dWt, (26.17)<br />

wobei sign = (0,∞) − (−∞,0) die Vorzeichenfunktion ist. Es gilt genau dann<br />

wenn<br />

� t<br />

Wt =<br />

0<br />

Xt = X0 +<br />

dWs =<br />

� t<br />

0<br />

� t<br />

0<br />

sign(Xs) dWs für alle t ≥ 0, (26.18)<br />

sign(Xs) dXs für alle t ≥ 0. (26.19)<br />

Folgendermaßen gelangen wir zu einer schwachen Lösung von (26.17). Sei X<br />

eine Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum (Ω,F, P) und<br />

F = σ(X). Definieren wir W durch (26.19), dann ist W ein stetiges F-Martingal<br />

mit quadratischer Variation<br />

〈W 〉t =<br />

� 1<br />

0<br />

(sign(Xs)) 2 ds = t.<br />

Nach der Lévy’schen Charakterisierung (Satz 25.28) ist W damit eine Brown’sche<br />

Bewegung. Also ist ((X, W), (Ω,F, P), F) eine schwache Lösung von (26.3).<br />

Um zu zeigen, dass es keine starke Lösung gibt, nehmen wir eine beliebige schwache<br />

Lösung her und zeigen, dass X nicht an σ(W ) adaptiert ist. Da X nach<br />

(26.18) ein stetiges Martingal mit quadratischer Variation 〈X〉t = t ist, ist X eine<br />

Brown’sche Bewegung.<br />

Seien Fn ∈ C 2 (R) konvexe gerade Funktionen mit Ableitungen F ′ n und F ′′<br />

n , sodass<br />

�<br />

sup �Fn(x) −|x|<br />

x∈R<br />

� � n→∞<br />

−→ 0,<br />

|F ′ n(x)| ≤1 für alle x ∈ R und F ′ n(x) =sign(x) für |x| > 1<br />

n . Insbesondere gilt<br />

� t<br />

und damit � t<br />

F ′ n(Xs) dXs<br />

0<br />

0<br />

� F ′ n(Xs) − sign(Xs) � 2 ds n→∞<br />

−→ 0 f.s.<br />

n→∞<br />

−→<br />

� t<br />

0<br />

sign(Xs) dXs in L 2 . (26.20)<br />

Indem wir gegebenenfalls zu einer Teilfolge übergehen, können wir annehmen, dass<br />

in (26.20) fast sichere Konvergenz gilt.


562 26 Stochastische Differentialgleichungen<br />

Weil F ′′<br />

n gerade ist, gilt<br />

� t<br />

Wt =<br />

0<br />

sign(Xs) dXs = lim<br />

� t<br />

F<br />

n→∞<br />

0<br />

′ n(Xs) dXs<br />

�<br />

= lim Fn(Xt) − Fn(0) −<br />

n→∞<br />

1<br />

2<br />

1<br />

= |Xt|− lim<br />

n→∞ 2<br />

� t<br />

0<br />

� t<br />

0<br />

F ′′<br />

n (|Xs|) ds.<br />

F ′′<br />

�<br />

n (Xs) ds<br />

Da die rechte Seite nur von |Xs|, s ∈ [0,t] abhängt, ist W an G := (σ(|Xs| : s ∈<br />

[0,t])) adaptiert. Also ist σ(W ) ⊂ G�σ(X), und damit ist X nicht an σ(W )<br />

adaptiert. ✸<br />

Beispiel 26.16. Sei n ∈ N und B =(B 1 ,...,B n ) eine n-dimensionale Brown’sche<br />

Bewegung mit Start in y ∈ R n . Setze x := �y� 2 , Xt := �Bt� 2 =(B 1 t ) 2 + ...+<br />

(B n t ) 2 und<br />

n�<br />

� t<br />

1<br />

Wt := √ B<br />

i=1 0 Xs<br />

i s dB i s.<br />

Dann ist W ein stetiges lokales Martingal mit 〈W 〉t = t für jedes t ≥ 0 und<br />

� t �<br />

Xt = x + nt + Xs dWs.<br />

Das heißt, (X, W) ist eine schwache Lösung der SDGL dXt = √ 2Xt dWt + ndt.<br />

X wird auch n-dimensionaler Bessel-Prozess genannt. Nach Satz 25.41 trifft B<br />

(und damit X) den Ursprung für ein t>0 genau dann, wenn n =1ist. Offenbar<br />

kann man X auch für nicht-ganzzahlig n ≥ 0 definieren. Man kann zeigen, dass X<br />

genau dann die Null trifft, wenn n ≤ 1 ist. Vergleiche Beispiel 26.11. ✸<br />

Für den Zusammenhang von Existenz und Eindeutigkeit von schwachen Lösungen<br />

und starken Lösungen zitieren hier lediglich den Satz von Yamada und Watanabe.<br />

Definition 26.17 (Pfadweise Eindeutigkeit). Wir sagen, dass die Lösung der SDGL<br />

(26.15) mit Startverteilung μ pfadweise eindeutig ist, falls für jedes μ ∈M1(R n )<br />

und je zwei schwache Lösungen (X, W) und (X ′ ,W) auf dem selben Raum<br />

(Ω,F, P) mit der selben Filtration F gilt: P[Xt = X ′ t für alle t ≥ 0] = 1.<br />

Satz 26.18 (Yamada und Watanabe). Es sind äquivalent:<br />

(i) Die SDGL (26.15) hat eine eindeutige starke Lösung.<br />

(ii) Für jedes μ ∈M1(Rn ) hat (26.15) eine schwache Lösung, und es gilt pfadweise<br />

Eindeutigkeit.<br />

Gelten (i) und (ii), so ist die Lösung schwach eindeutig.<br />

0


26.2 Schwache Lösungen und Martingalproblem 563<br />

Beweis. Siehe [161], [140, Seite 151ff] oder [78, Seite 163ff]. ✷<br />

Beispiel 26.19. Sei X eine schwache Lösung von (26.17). Dann ist auch −X eine<br />

schwache Lösung, das heißt, es gilt keine pfadweise Eindeutigkeit (obwohl man<br />

zeigen kann, dass die Lösung schwach eindeutig ist, siehe Satz 26.25). ✸<br />

Wir betrachten den eindimensionalen Fall m = n =1.IstX eine Lösung (stark<br />

oder schwach) von (26.15), so ist<br />

Mt := Xt −<br />

� t<br />

0<br />

b(s, Xs) ds<br />

ein stetiges lokales Martingal mit quadratischer Variation<br />

〈M〉t =<br />

� t<br />

0<br />

σ 2 (s, Xs) ds.<br />

Wir werden sehen, dass hierdurch eine schwache Lösung von (26.15) charakterisiert<br />

ist (jedenfalls unter milden Wachstumsbedingungen and σ und b).<br />

Sei für alle t ≥ 0 und x ∈ Rn die n×n Matrix a(t, x) symmetrisch und nichtnegativ<br />

definit, und sei (t, x) ↦→ a(t, x) messbar.<br />

Definition 26.20. Wir sagen, dass ein n-dimensionaler stetiger Prozess X eine<br />

Lösung des lokalen Martingalproblems zu a und b mit Startverteilung μ ∈M1(Rn )<br />

(kurz: LMP(a, b, μ)) ist, falls P ◦ X −1<br />

0 = μ ist und für jedes i =1,...,n<br />

M i t := X i � t<br />

t −<br />

0<br />

bi(s, Xs) ds, t ≥ 0,<br />

ein stetiges lokales Martingal ist mit quadratischer Kovariation<br />

〈M i ,M j � t<br />

〉t =<br />

0<br />

aij(s, Xs) ds für alle t ≥ 0, i,j=1,...,n.<br />

Wir sagen, dass die Lösung von LMP(a, b, μ) eindeutig ist, wenn für je zwei<br />

Lösungen X und X ′ gilt: P ◦ X −1 = P ◦ (X ′ ) −1 .<br />

Mit σ T bezeichnen wir die transponierte Matrix zu σ. Offenbar ist a = σσ T dann<br />

eine nichtnegativ semidefinite symmetrische n × n Matrix.<br />

Satz 26.21. X ist genau dann eine Lösung von LMP(σσ T ,b,μ), wenn es (gegebenenfalls<br />

auf einer Erweiterung des Wahrscheinlichkeitsraums) eine Brown’sche<br />

Bewegung W gibt, sodass (X, W) eine schwache Lösung von (26.15) ist.<br />

Insbesondere existiert genau dann eine eindeutige schwache Lösung der SDGL<br />

(26.15) mit Startverteilung μ, wennLMP(σσ T ,b,μ) eindeutig lösbar ist.


564 26 Stochastische Differentialgleichungen<br />

Beweis. Wir zeigen die Aussage nur für den Fall m = n =1. Der allgemeine Fall<br />

erfordert ein paar Betrachtungen über Wurzeln von nichtnegativ semidefiniten symmetrischen<br />

Matrizen, die jedoch für die Stochastik keine tiefere Einsicht bringen.<br />

Wir verweisen hier lediglich auf [86, Proposition 5.4.6].<br />

” ⇐= “ Ist (X, W) eine schwache Lösung, dann löst X nach Korollar 25.19 das<br />

lokale Martingalproblem.<br />

” =⇒ “ Sei X eine Lösung von LMP(σ2 ,b,μ). Nach Satz 25.29 existiert auf einer<br />

Erweiterung des Wahrscheinlichkeitsraums eine Brown’sche Bewegung ˜ �<br />

W , sodass<br />

�σ(s, Xs) � � d ˜ Ws gilt. Setzen wir<br />

Mt = � t<br />

0<br />

� t<br />

Wt :=<br />

0<br />

sign(σ(s, Xs)) d ˜ Ws,<br />

so ist Mt = � t<br />

0 σ(s, Xs) dWs, also (X, W) eine schwache Lösung von (26.15). ✷<br />

Ein lokales Martingalproblem ist in gewissem Sinne eine sehr natürliche Art und<br />

Weise, um eine stochastische Differentialgleichung zu schreiben, nämlich als:<br />

X hat lokal die Ableitung (Drift) b und zusätzlich zufällige normalverteilte<br />

Fluktuationen von der Größenordnung σ.<br />

Eine konkrete Brown’sche Bewegung taucht hier gar nicht mehr auf, und bei den<br />

meisten Problemen ist ihr Auftreten auch eher artifiziell. Genau wie man bei der<br />

Beschreibung von Markovketten meist nur die Übergangswahrscheinlichkeiten angibt,<br />

nicht aber die konkrete Realisierung, wie dies etwa in Satz 17.17 beschrieben<br />

wird, möchte man bei vielen stetigen (Zeit und Ort) Prozessen nur die Größe der<br />

Fluktuationen angeben, nicht aber eine konkrete Realisierung.<br />

Technisch gesehen ist die Formulierung von stochastischen Differentialgleichungen<br />

als lokale Martingalprobleme sehr bequem, weil sie Zugang zu einer Reihe von<br />

Techniken schafft wie Martingalungleichungen und Approximationssätze für Martingale,<br />

mit denen sich Existenz und Eindeutigkeit von Lösungen etablieren lässt.<br />

Wir zitieren hier nur zwei wichtige Ergebnisse.<br />

Satz 26.22 (Existenz von Lösungen). Es seien (t, x) ↦→ b(t, x) und (t, x) ↦→<br />

a(t, x) stetig und beschränkt. Dann existiert für jedes μ ∈M1(R n ) eine Lösung<br />

X des LMP(a, b, μ).<br />

Beweis. Siehe [140, Theorem V.23.5]. ✷<br />

Definition 26.23. Wir sagen, dass das LMP(a, b) gut gestellt ist, wenn es für jedes<br />

x ∈ R n eine eindeutige Lösung X von LMP(a, b, δx) gibt.<br />

Bemerkung 26.24. Erfüllen σ und b die Lipschitzbedingungen wie in Satz 26.8, so<br />

ist das LMP(σσ T ,b) gut gestellt. Dies folgt aus Satz 26.8 und Satz 26.18. ✸


Im Folgenden gelte stets:<br />

26.2 Schwache Lösungen und Martingalproblem 565<br />

(t, x) ↦→ σ(t, x) bzw. (t, x) ↦→ a(t, x) ist beschränkt auf kompakten Mengen.<br />

(26.21)<br />

Diese Bedingung sichert die Äquivalenz des lokalen Martingalproblems zu dem<br />

etwas gebräuchlicheren Martingalproblem (siehe [86, Proposition 5.4.11]).<br />

Satz 26.25 (Eindeutigkeit im Martingalproblem). Es gelte (26.21).Für jedes x ∈<br />

R n existiere eine Lösung X x von LMP(a, b, δx), deren Verteilung wir mit Px :=<br />

P ◦ (X x ) −1 bezeichnen.<br />

Für je zwei Lösungen X x und Y x von LMP(a, b, δx) gelte<br />

P ◦ (X x T ) −1 = P ◦ (Y x T ) −1<br />

für jedes T ≥ 0. (26.22)<br />

Dann ist LMP(a, b) gut gestellt, und der kanonische Prozess X ist ein starker Markovprozess<br />

bezüglich (Px, x∈ R n ).Ista = σσ T ,soistX unter Px die eindeutige<br />

schwache Lösung der SDGL (26.15).<br />

Beweis. Siehe [48, Theorem 4.4.1 und Problem 49] und [86, Proposition 5.4.11].✷<br />

Eine wesentliche Stärke dieses Satzes liegt darin, dass wir die Eindeutigkeit nicht<br />

des gesamten Prozesses, sondern in (26.22) nur der eindimensionalen Randverteilungen<br />

prüfen müssen. Wir werden in Abschnitt 26.3 Beispiele dafür angeben, wie<br />

dies ausgenutzt werden kann.<br />

Die Frage nach der Existenz von Lösungen einer stochastischen Differentialgleichung<br />

(oder äquivalent: eines lokalen Martingalproblems) ist leichter zu beantworten<br />

als die Frage nach der Eindeutigkeit von Lösungen. Wir wissen bereits, dass<br />

Eindeutigkeit unter Lipschitzbedingungen an die Koeffizienten b und σ (nicht σσT !)<br />

gilt (nach Satz 26.8 und Satz 26.18), da hier starke Eindeutigkeit der Lösungen gilt.<br />

Eine vielleicht auf den ersten Blick verwirrende Erkenntnis ist, dass der Zufall stabilisierend<br />

wirken kann, dass also eine deterministische Differentialgleichung, deren<br />

Lösung nicht eindeutig ist, durch stochastische Störterme eindeutig lösbar werden<br />

kann. Dazu folgendes eindimensionale Beispiel:<br />

dXt =sign(Xt) |Xt| 1/3 dt + σdWt, X0 =0. (26.23)<br />

Ist σ = 0, so haben wir es mit einer deterministischen Differentialgleichung zu<br />

tun, die ein Kontinuum von Lösungen mit Parametern v ∈{−1, +1} und T ≥ 0<br />

hat, nämlich Xt = v 2 √ 2(t − T ) 3/2 {t>T }. Ist σ > 0, so wird die Instabilität<br />

der Gleichung (26.23) an x =0durch Verrauschen aufgelöst. Wir zitieren hier den<br />

folgenden Satz für den zeitunabhängigen Fall aus [140, Satz V.24.1] (siehe auch<br />

[149, Kapitel 10]).


566 26 Stochastische Differentialgleichungen<br />

Satz 26.26 (Stroock-Varadhan). Sei aij : R n → R stetig und bi : R n → R<br />

messbar für i, j =1,...,n. Es gelte<br />

(i) a(x) =(aij(x)) ist symmetrisch und strikt positiv definit für jedes x ∈ Rn ,<br />

(ii) es gibt ein C 0 und jedes beschränkte,<br />

messbare f : R n → R.<br />

Konkrete Beispiele geben wir in Abschnitt 26.3 an. Wir wollen hier nur festhalten,<br />

dass wir eine spezielle Methode entwickelt haben, um Markovprozesse zu konstruieren,<br />

nämlich als Lösung einer stochastischen Differentialgleichung oder eines lokalen<br />

Martingalproblems. Im Rahmen von Modellen in diskreter Zeit haben wir in<br />

Kapitel 17.2 und speziell in Übung 17.2.1 bereits Markovketten als Lösungen von<br />

Martingalproblemen charakterisiert. Dass dort die Angabe der Drift und der quadratischen<br />

Variation ausreichte, um den Prozess eindeutig zu bestimmen, lag daran,<br />

dass wir die Möglichkeiten für das Ziel eines Schrittes auf drei Punkte begrenzt<br />

hatten. Hier hingegen ist die entscheidende Begrenzung die Stetigkeit der Prozesse.<br />

Übung 26.2.1. Sei der zeithomogene eindimensionale Fall (m = n =1) betrachtet.<br />

Seien σ und b so, dass es für jedes X0 ∈ R eine eindeutige schwache Lösung von<br />

−∞<br />

dXt = σ(Xt) dWt + b(Xt) dt<br />

existiert und ein starker Markovprozess ist. Ferner gebe es ein x0 ∈ R mit<br />

� ∞<br />

1<br />

C :=<br />

σ2 (x) exp<br />

�� x<br />

2b(r)<br />

σ2 (r) dr<br />

�<br />

dr < ∞.<br />

(i) Man zeige: Das Maß π ∈M1(R) mit Dichte<br />

x0<br />

π(dx)<br />

dx = C−1 1<br />

σ 2 (x) exp<br />

�� x<br />

x0<br />

2b(r)<br />

σ2 (r) dr<br />

�<br />

ist eine invariante Verteilung für X.<br />

(ii) Für welche Werte von b hat der Ornstein-Uhlenbeck Prozess dXt = σdWt +<br />

bXt dt eine invariante Verteilung? Man bestimme diese Verteilung und vergleiche<br />

das Ergebnis mit dem, was nach expliziter Rechnung mit der Darstellung<br />

in (26.3) zu erwarten war.<br />

(iii) Man bestimme die invariante Verteilung der Cox-Ingersoll-Ross SDGL (26.14)<br />

(alias Feller’sche Verzweigungsdiffusion).


26.3 Eindeutigkeit schwacher Lösungen via Dualität 567<br />

(iv) Seien γ,c > 0 und θ ∈ (0, 1). Man zeige, dass die invariante Verteilung der<br />

Lösung X der folgenden SDGL auf [0, 1]<br />

dXt = � γXt(1 − Xt) dWt + c(θ − Xt) dt<br />

gegeben ist durch die Betaverteilung β 2cγ/θ, 2cγ/(1−θ). ♣<br />

Übung 26.2.2. Sei γ>0. Seien X 1 und X 2 Lösungen von dX i t = � γX i t dW i t ,<br />

wo W 1 und W 2 zwei unabhängige Brown’sche Bewegungen sind, mit Startwerten<br />

X 1 0 = x 1 0 > 0 und X 2 0 = x 2 0 > 0. Man zeige, dass Z := X 1 + X 2 eine schwache<br />

Lösung ist von Z0 =0und dZt = √ γZt dWt. ♣<br />

26.3 Eindeutigkeit schwacher Lösungen via Dualität<br />

Mit dem Satz von Stroock und Varadhan haben wir ein starkes Kriterium für die<br />

Existenz und Eindeutigkeit von Lösungen von stochastischen Differentialgleichungen.<br />

In vielen Fällen ist jedoch gerade die Bedingung der lokal gleichgradigen Elliptizität<br />

von a (Bedingung (i) in Satz 26.26) nicht erfüllt. Dies trifft insbesondere<br />

dann zu, wenn die Lösungen nur auf Teilmengen von Rn definiert sind.<br />

Wir werden hier ein mächtiges Hilfsmittel kennen lernen, das in vielen Spezialfällen<br />

schwache Eindeutigkeit von Lösungen sichert.<br />

Definition 26.27 (Dualität). Seien X =(X x ,x∈ E) und Y =(Y y ,y∈ E ′ ) Familien<br />

von stochastischen Prozessen mit Werten in den Räumen E beziehungsweise<br />

E ′ und so, dass X x 0 = x f.s. und Y y<br />

0 = y f.s. für alle x ∈ E und y ∈ E′ .Wirsagen,<br />

dass X und Y dual zueinander sind mit Dualitätsfunktion H : E × E ′ → C,<br />

falls für alle x ∈ E, y ∈ E ′ und t ≥ 0 die Erwartungswerte E � H(X x t ,y) � und<br />

E � H(x, Y y<br />

t ) � existieren und gleich sind:<br />

E � H(X x t ,y) � = E � H(x, Y y<br />

t ) � .<br />

Wir nehmen im Folgenden an, dass σij : R n → R und bi : R n → R beschränkt auf<br />

kompakten Mengen sind für alle i =1,...,n, j =1,...,m. Wir betrachten die<br />

zeithomogene stochastische Differentialgleichung<br />

dXt = σ(Xt) dWt + b(Xt) dt. (26.24)<br />

Satz 26.28 (Eindeutigkeit via Dualität). Für jedes x ∈ R n existiere eine Lösung<br />

des lokalen Martingalproblems zu (σσ T ,b,δx). Es gebe eine Familie (Y y ,y∈ E ′ )<br />

von Markovprozessen mit Werten in dem Messraum (E ′ , E ′ ) und eine messbare Ab-<br />

bildung H : R n × E ′ → C, sodass für jedes y ∈ E ′ , x ∈ R n und t ≥ 0 der Erwar-<br />

tungswert E[H(x, Y y<br />

t )] existiert und endlich ist. Ferner sei (H( · ,y), y∈ E ′ ) eine<br />

trennende Funktionenklasse für M1(R n ) (siehe Definition 13.9).


568 26 Stochastische Differentialgleichungen<br />

Für jedes x ∈ R n und jede Lösung X x von LMP(σσ T ,b,δx) gelte die Dualitätsgleichung<br />

E[H(X x t ,y)] = E[H(x, Y y<br />

t )] für alle y ∈ E ′ ,t≥ 0. (26.25)<br />

Dann ist das lokale Martingalproblem zu (σσ T ,b) gut gestellt, also besitzt (26.24)<br />

eine eindeutige schwache Lösung und diese ist ein starker Markovprozess.<br />

Beweis. Nach Satz 26.25 reicht es zu prüfen, dass für jedes x ∈ R n , jede Lösung<br />

X x von LMP(σσ T ,b,δx) und jedes t ≥ 0 die Verteilung P ◦ (X x t ) −1 eindeutig<br />

ist. Da (H( · ,y), y∈ E ′ ) eine trennende Funktionenklasse ist, folgt dies aber aus<br />

(26.16). ✷<br />

Beispiel 26.29 (Wright-Fisher Diffusion). Betrachte die Wright-Fisher SDGL<br />

dXt = [0,1](Xt) � γXt(1 − Xt) dWt, (26.26)<br />

wobei γ > 0 ein Parameter ist. Nach Satz 26.22 existiert für jedes x ∈ R eine<br />

schwache Lösung ( ˜ X,W) von (26.26). ˜ X ist ein stetiges lokales Martingal mit<br />

quadratischer Variation<br />

1<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

0<br />

� �<br />

˜X<br />

t =<br />

� t<br />

0<br />

γ ˜ Xs(1 − ˜ Xs) [0,1]( ˜ Xs) ds.<br />

0.2 0.4 0.6 0.8 1 1.2<br />

Abb. 26.3. Simulation einer Wright-Fisher Diffusion mit Parameter γ =1.<br />

Sei τ := inf{t >0: ˜ Xt �∈ [0, 1]} und X := ˜ Xτ der in τ gestoppte Prozess. Dann<br />

ist X ein stetiges, beschränktes Martingal mit<br />

〈X〉t =<br />

� t<br />

0<br />

γXs(1 − Xs) [0,1](Xs) ds,


26.3 Eindeutigkeit schwacher Lösungen via Dualität 569<br />

also ist (X, W) eine Lösung von (26.26). Nach Konstruktion ist Xt ∈ [0, 1] für alle<br />

t ≥ 0, falls X0 = ˜ X0 ∈ [0, 1] ist.<br />

Sei τ ′ := inf{t >0: ˜ Xt ∈ [0, 1]}. Ist ˜ X0 �∈ [0, 1], soistτ ′ > 0, weil ˜ X stetig ist.<br />

Weil ˜ ′<br />

τ X<br />

ein stetiges lokales Martingal ist mit � ˜ X τ ′� ≡ 0, ist ˜ X τ ′<br />

t = ˜ X0 für alle<br />

t ≥ 0. Daraus folgt aber, dass ˜ Xt = ˜ X0 ist für alle t0 und t ≥ 0 gilt wegen der Markov-Eigenschaft von Y<br />

g x,n � � � � Yt+h<br />

Yt (t + h) =En x = En EYh x ��<br />

=<br />

=<br />

n�<br />

m=1<br />

� Yt Pn[Yh = m] Em x �<br />

n�<br />

Pn[Yh = m] g x,m (t).<br />

m=1


570 26 Stochastische Differentialgleichungen<br />

Es folgt<br />

d<br />

dt gx,n �<br />

−1<br />

(t) = lim h g<br />

h↓0 x,n (t + h) − g x,n �<br />

(t)<br />

n�<br />

Pn[Yh = m] � g x,m (t) − g x,n �<br />

(t)<br />

= lim<br />

h↓0 h −1<br />

=<br />

m=1<br />

n�<br />

q(n, m) g x,m (t)<br />

m=1<br />

� �<br />

n<br />

�<br />

= γ g<br />

2<br />

x,n−1 (t) − g x,n �<br />

(t) .<br />

(26.29)<br />

Offenbar ist g x,1 (t) =x für alle x ∈ [0, 1] und t ≥ 0 und g x,n (0) = x n . Das heißt,<br />

g x,n löst (26.28), und daher gilt (26.27).<br />

Nach Satz 15.4 ist die Familie (H( · ,n), n ∈ N) ⊂ C([0, 1]) trennend für<br />

M1([0, 1]), also sind die Bedingungen von Satz 26.28 erfüllt, und X ist die eindeutige<br />

schwache Lösung von (26.26) und ist ein starker Markovprozess. ✸<br />

Bemerkung 26.30. Das Martingalproblem für die Wright-Fisher Diffusion sieht<br />

fast genauso aus wie das diskrete Martingalproblem für das Moran-Modell (siehe<br />

Beispiel 17.22) M N =(M N n )n∈N0 mit Populationsgröße N: M N ist ein Martingal<br />

mit Werten in der Menge {0, 1/N,...,(N − 1)/N, 1} quadratischem Variations-<br />

prozess<br />

� M N �<br />

n<br />

2<br />

=<br />

N 2<br />

n−1 �<br />

k=0<br />

M N k<br />

� � N<br />

1 − Mk .<br />

In jedem Schritt kann M N nur entweder am Ort bleiben oder um 1/N nach oben<br />

oder unten springen. In Übung 17.2.1 hatten wir gesehen, dass dadurch der Prozess<br />

M N schon eindeutig beschrieben ist. Man kann zeigen, ähnlich wie in Satz 21.51<br />

für Verzweigungsprozesse, dass die zeitlich reskalierten Moran-Prozesse ˜ M N t =<br />

M N ⌊N 2t⌋ gegen die Wright-Fisher Diffusion mit γ =2konvergieren. Die Wright-<br />

Fisher Diffusion tritt also als Limes-Modell eines genealogischen Modells auf und<br />

beschreibt die Genfrequenz (das heißt, den relativen Anteil) eines bestimmten Allels<br />

in einer Population, die durch die Generationenfolge in zufälliger Weise fluktuiert.<br />

✸<br />

Beispiel 26.31 (Feller’sche Verzweigungsdiffusion). Sei (ZN n )n∈N0 ein Galton-<br />

Watson Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung<br />

pk =2−k−1 , k ∈ N0 und ZN 0 = N für jedes N ∈ N. DannistZNein diskretes<br />

Martingal, und es gilt<br />

��ZN E n − Z N � � �<br />

2 ��Z N<br />

n−1 n−1 = Z N n−1<br />

� ∞ �<br />

k=0<br />

pk k 2 �<br />

− 1 =2Z N n−1.


3<br />

2<br />

1<br />

0<br />

26.3 Eindeutigkeit schwacher Lösungen via Dualität 571<br />

1 2 3 4 5<br />

Abb. 26.4. Simulation einer Feller’schen Verzweigungsdiffusion mit Parameter γ =1.<br />

Daher hat Z N die quadratische Variation<br />

Sei nun<br />

〈Z N n−1 �<br />

〉n =<br />

k=0<br />

2Z N k .<br />

Z N t := � t − N −1 � �<br />

⌊tN⌋ Z N ⌊tN⌋+1 − ZN �<br />

⌊tN⌋ + 1<br />

n ZN ⌊tN⌋<br />

eine linear interpolierte Version von N −1Z N ⌊tN⌋ . Nach dem Satz von Lindvall<br />

N N→∞<br />

(Satz 21.51) gibt es einen stetigen Markovprozess Z, sodass Z −→ Z in Verteilung<br />

gilt. Da man zeigen kann, dass auch die Momente konvergieren, gilt, dass Z<br />

ein stetiges Martingal ist und quadratische Variation<br />

〈Z〉t =<br />

� t<br />

0<br />

2Zs ds<br />

hat. Tatsächlich hatten wir in Beispiel 26.11 bereits gezeigt, dass Z die Lösung der<br />

SDGL<br />

dZt = � 2Zt dWt<br />

(26.30)<br />

mit Start in Z0 =1ist. Dort hatten wir auch gezeigt, dass Z dual ist zu Y y<br />

t =<br />

� tγ<br />

2<br />

�−1 1 + y<br />

mit H(x, y) =e−xy . Hieraus folgt die Eindeutigkeit der Lösung von<br />

(26.30) und die starke Markoveigenschaft von Z. ✸<br />

Man kann einwenden, dass in den Beispielen 26.29 und 26.31 nur eindimensionale<br />

Situationen betrachtet wurden, für die wir nach dem Satz von Yamada-<br />

Watanabe (Satz 26.10) sowieso schon um die Eindeutigkeit sogar einer starken


572 26 Stochastische Differentialgleichungen<br />

Lösung wissen. Die wahre Stärke der Methode der Dualität kann sich also erst in<br />

höherdimensionalen Problemen entfalten. Hierzu betrachten wir als Beispiel eine<br />

Erweiterung von Beispiel 26.29.<br />

Beispiel 26.32 (Wechselwirkende Wright-Fisher Diffusionen).<br />

Die Wright-Fisher Diffusion aus Beispiel 26.29 beschreibt die Fluktuationen der<br />

Genfrequenz eines Allels in einer großen Population. Wir wollen nun mehrere Populationen<br />

betrachten, die auf den Punkten i ∈ S := {1,...,N} leben, und miteinander<br />

durch Migration, die durch Wechselwirkungsraten r(i, j) ≥ 0 quantifiziert<br />

wird, in Wechselwirkung stehen. Als Modell für die Genfrequenzen Xt(i)<br />

am Ort i zur Zeit t stellen wir daher die folgende N-dimensionale SDGL für<br />

X =(X(1),...,X(N)) auf:<br />

dXt(i) = � γXt(i)(1 − Xt(i)) dW i N�<br />

t + r(i, j) � Xt(j) − Xt(i) � dt. (26.31)<br />

Dabei ist W =(W 1 ,...,W N ) eine N-dimensionale Brown’sche Bewegung. Diese<br />

SDGL hat nach Satz 26.22 schwache Lösungen, jedoch greift keines unserer<br />

allgemeinen Kriterien für schwache Eindeutigkeit. Wir werden daher die schwache<br />

Eindeutigkeit vermittels Dualität zeigen.<br />

Es ist, ähnlich wie in Beispiel 26.29, nicht schwer zu zeigen, dass Lösungen von<br />

(26.31), die in X0 = x ∈ E := [0, 1] S starten, in [0, 1] S bleiben. Die Diagonalterme<br />

r(i, i) tauchen in (26.31) nicht auf, daher können wir sie noch beliebig festsetzen<br />

und wählen r(i, i) = − �<br />

j�=i r(i, j). SeiY = (Yt)t≥0 der Markovprozess auf<br />

E ′ := SN0 mit der folgenden Q-Matrix<br />

⎧<br />

j=1<br />

ϕ(i) r(i, j), falls η = ϕ − {i} + {j} für<br />

gewisse i, j ∈ S, i �= j,<br />

⎪⎨<br />

q(ϕ, η) =<br />

γ<br />

⎪⎩<br />

� � ϕ(i)<br />

2 , falls η = ϕ − {i} für ein i ∈ S,<br />

� �<br />

ϕ(i)r(i, i) − γ<br />

i∈S<br />

� � ϕ(i)<br />

2<br />

�<br />

, falls η = ϕ,<br />

0, sonst.<br />

Dabei bezeichnet ϕ ∈ E ′ einen generischen Zustand mit ϕ(i) Teilchen am Ort<br />

i ∈ S, und {i} ∈ E ′ bezeichnet den Zustand mit genau einem Teilchen am Ort<br />

i. Der Prozess Y beschreibt ein System von Teilchen, die unabhängig voneinander<br />

mit Rate r(i, j) vom Ort i zum Ort j springen. Sind mehrere Teilchen an einem Ort<br />

i, so verschmilzt jedes der � � ϕ(i)<br />

2 Paare von Teilchen mit der selben Rate γ zu einem<br />

Teilchen. Die gängige genealogische Interpretation dieses Prozesses ist, dass er (in<br />

umgekehrter Zeit) die Ahnenlinien einer Stichprobe von je Y0(i) Individuen ein den<br />

Orten i ∈ S, beschreibt. Durch Migration wechseln die Linien den Ort. Haben zwei<br />

Individuen den selben Vorfahren, so verschmelzen zwei Linien. Offenbar ist für<br />

einen gemeinsamen Vorfahren notwendig aber nicht hinreichend, dass beide Linien<br />

am selben Ort sind.


26.3 Eindeutigkeit schwacher Lösungen via Dualität 573<br />

Für x ∈ R n und ϕ ∈ E ′ schreiben wir x ϕ := �<br />

i∈S x(i)ϕ(i) . Wir zeigen, dass X<br />

und Y dual zueinander sind mit der Dualitätsfunktion H(x, ϕ) =x ϕ :<br />

Ex[X ϕ<br />

t ]=Eϕ[x Yt ] für alle ϕ ∈ S N0 ,x∈ [0, 1] S ,t≥ 0. (26.32)<br />

Sei mx,ϕ (t) :=Ex[X ϕ<br />

t ] und gx,ϕ (t) :=Eϕ[xYt ]. Offenbar hat H die Ableitungen<br />

∂iH( · ,ϕ)(x) =ϕ(i)xϕ− {i} und ∂i∂iH( · ,ϕ)(x) =2 � � ϕ(i) ϕ−2<br />

2 x {i}. Nach der<br />

Itô-Formel ist<br />

X ϕ<br />

t − X ϕ<br />

0 −<br />

� t<br />

0<br />

�<br />

ϕ(i)r(i, j) � Xs(j) − Xs(i) � X ϕ− {i}<br />

ds<br />

i,j∈S<br />

− �<br />

i∈S<br />

� t<br />

0<br />

t<br />

� �<br />

ϕ(i) �Xs(i)(1 γ<br />

− Xs(i))<br />

2<br />

� X ϕ−2 {i}<br />

s ds<br />

ein Martingal. Indem wir Erwartungswerte bilden, erhalten wir ein System von linearen<br />

Integralgleichungen<br />

m x,0 (t) =1<br />

m x,ϕ (t) =x ϕ � t �<br />

+<br />

0<br />

i,j∈S<br />

� t<br />

+<br />

0<br />

�<br />

ϕ(i)r(i, j) m x,ϕ+ �<br />

{j}− {i}(s) x,ϕ<br />

− m (s) ds<br />

γ �<br />

� �<br />

ϕ(i)<br />

�<br />

m<br />

2<br />

x,ϕ− �<br />

{i} x,ϕ<br />

(s) − m (s) ds.<br />

i∈S<br />

(26.33)<br />

Dieses System von Gleichungen lässt sich per Induktion über n = �<br />

i∈I ϕ(i)<br />

eindeutig lösen. Wir wollen die Lösung jedoch nicht explizit ausrechnen, sondern<br />

nur zeigen, dass sie mit g x,ϕ (t) übereinstimmt, indem wir zeigen, dass g ein<br />

äquivalentes System von Differentialgleichungen löst.<br />

Für g erhalten wir wie in (26.29)<br />

d<br />

dt gx,ϕ (t) = �<br />

η∈E ′<br />

q(ϕ, η) g x,ϕ (t)<br />

= � �<br />

r(i, j) g x,ϕ+ �<br />

{j}− {i}(t) x,ϕ<br />

− g (t)<br />

i,j∈S<br />

+ �<br />

� �<br />

ϕ(i)<br />

�<br />

γ g<br />

2<br />

x,ϕ− �<br />

{i} x,ϕ<br />

(t) − g (t) .<br />

i∈S<br />

(26.34)<br />

Zusammen mit dem Startwert g x,0 (t) =1und g x,ϕ (0) = x ϕ ist das System (26.34)<br />

von Differentialgleichungen äquivalent zu (26.33). Also gilt die Dualität (26.32),<br />

und damit ist die SDGL (26.31) eindeutig schwach lösbar. (Tatsächlich kann man<br />

zeigen, dass es eine eindeutige starke Lösung gibt, sogar wenn S abzählbar unendlich<br />

ist und r gewisse Regularitätsannahmen erfüllt, beispielsweise die Q-Matrix<br />

einer Irrfahrt auf S = Z d ist, siehe [144].) ✸


574 26 Stochastische Differentialgleichungen<br />

Übung 26.3.1 (Aussterbewahrscheinlichkeit der Feller’schen Verzweigungsdiffusion).<br />

Sei γ > 0 und Z die Lösung von dZt := √ γZt dWt mit Anfangswert<br />

Z0 = z>0. Man zeige mit Hilfe der Dualität<br />

�<br />

Pz[Zt =0]=exp − 2z<br />

�<br />

. (26.35)<br />

γt<br />

Man bestimme mit Hilfe von Lemma 21.44 die Wahrscheinlichkeit, dass ein Galton-<br />

Watson Verzweigungsprozess X mit kritischer, geometrischer Nachkommenverteilung<br />

und X0 = N ∈ N bis zur Zeit n ∈ N ausgestorben ist und vergleiche das<br />

Ergebnis mit (26.35). ♣


Literatur<br />

1. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and<br />

continuity of connectivity functions for short and long range percolation. Comm. Math.<br />

Phys., 111(4):505–531, 1987.<br />

2. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and related<br />

results in percolation. In Percolation theory and ergodic theory of infinite particle<br />

systems (Minneapolis, Minn., 1984–1985), volume 8 of IMA Vol. Math. Appl., pages<br />

13–20. Springer, New York, 1987.<br />

3. David J. Aldous. Exchangeability and related topics. In École d’été de probabilités de<br />

Saint-Flour, XIII—1983, volume 1117 of Lecture Notes in Math., pages 1–198. Springer,<br />

Berlin, 1985.<br />

4. Krishna B. Athreya und Peter E. Ney. Branching Processes. Springer-Verlag, Berlin,<br />

1972.<br />

5. Jacques Azéma und Marc Yor. Le problème de Skorokhod: compléments à“Unesolution<br />

simple au problème de Skorokhod”. In Séminaire de Probabilités, XIII (Univ.<br />

Strasbourg, Strasbourg, 1977/78), volume 721 of Lecture Notes in Math., pages 625–<br />

633. Springer, Berlin, 1979.<br />

6. Jacques Azéma und Marc Yor. Une solution simple au problème de Skorokhod. In<br />

Séminaire de Probabilités, XIII (Univ. Strasbourg, Strasbourg, 1977/78), volume 721<br />

of Lecture Notes in Math., pages 90–115. Springer, Berlin, 1979.<br />

7. Martin Barner und Friedrich Flohr. Analysis. II. de Gruyter Lehrbuch. Walter de Gruyter<br />

& Co., Berlin, 2. Auflage, 1989.<br />

8. Martin Barner und Friedrich Flohr. Analysis. I. de Gruyter Lehrbuch. Walter de Gruyter<br />

& Co., Berlin, 4. Auflage, 1991.<br />

9. Heinz Bauer. Maß - und Integrationstheorie. de Gruyter Lehrbuch. Walter de Gruyter<br />

& Co., Berlin, 2. Auflage, 1992.<br />

10. Heinz Bauer. <strong>Wahrscheinlichkeitstheorie</strong>. de Gruyter Lehrbuch. Walter de Gruyter &<br />

Co., Berlin, 5. Auflage, 2002.<br />

11. Leonard E. Baum und Melvin Katz. Convergence rates in the law of large numbers.<br />

Trans. Amer. Math. Soc., 120:108–123, 1965.<br />

12. M Baxter und R. Rennie. Financial Calculus. Cambridge University Press, Cambridge,<br />

1997.<br />

13. Andrew C. Berry. The accuracy of the gaussian approximation to the sum of independent<br />

variates. Trans. Amer. Math. Soc., 49:122–136, 1941.<br />

14. Patrick Billingsley. Convergence of probability measures. John Wiley & Sons Inc.,<br />

New York, 1968.<br />

15. Patrick Billingsley. Weak convergence of measures: Applications in probability. Society<br />

for Industrial and Applied Mathematics, Philadelphia, Pa., 1971. Conference Board of<br />

the Mathematical Sciences Regional Conference Series in Appl. Mathematics, No. 5.


576 Literatur<br />

16. Patrick Billingsley. Probability and measure. Wiley Series in Probability and Mathematical<br />

Statistics. John Wiley & Sons Inc., New York, 3. Auflage, 1995. A Wiley-<br />

Interscience Publication.<br />

17. Patrick Billingsley. Convergence of probability measures. Wiley Series in Probability<br />

and Statistics: Probability and Statistics. John Wiley & Sons Inc., New York, 2. Auflage,<br />

1999. A Wiley-Interscience Publication.<br />

18. K. Binder und D. W. Heermann. Monte Carlo simulation in statistical physics, An<br />

introduction, volume 80 of Springer Series in Solid-State Sciences. Springer-Verlag,<br />

Berlin,3.Auflage, 1997.<br />

19. R. M. Blumenthal. An extended Markov property. Trans. Amer. Math. Soc., 85:52–72,<br />

1957.<br />

20. Salomon Bochner. Vorlesungen über Fouriersche Integrale. Chelsea Publishing Company,<br />

New York, 1932. Nachdruck von 1948.<br />

21. Leo Breiman. Probability. Addison-Wesley Publishing Company, Reading, Mass.,<br />

1968.<br />

22. Brockhaus. Die Enzyklopädie in 24 Bänden. F.A. Brockhaus, Mannheim, 20. Auflage,<br />

1998.<br />

23. Jörg Brüdern. Einführung in die analytische Zahlentheorie. Springer-Verlag, Berlin<br />

Heidelberg, 1995.<br />

24. Dirk Brüggemann. Starke Gesetze der großen Zahlen bei blockweisen Unabhängigkeitsbedingungen.<br />

Dissertation, Universität zu Köln, 2002.<br />

25. R. M. Burton und M. Keane. Density and uniqueness in percolation. Comm. Math.<br />

Phys., 121(3):501–505, 1989.<br />

26. Gustave Choquet und Jacques Deny. Sur l’équation de convolution μ = μ ∗ σ. C. R.<br />

Acad. Sci. Paris, 250:799–801, 1960.<br />

27. Yuan Shih Chow und Henry Teicher. Probability theory: Independence, interchangeability,<br />

martingales. Springer Texts in Statistics. Springer-Verlag, New York, 3. Auflage,<br />

1997.<br />

28. K. L. Chung und W. H. J. Fuchs. On the distribution of values of sums of random<br />

variables. Mem. Amer. Math. Soc., 1951(6):12, 1951.<br />

29. Peter Clifford und Aidan Sudbury. A model for spatial conflict. Biometrika, 60:581–<br />

588, 1973.<br />

30. Harald Cramér. Sur un nouveau théorème-limite de la théorie des probabilités. Actualités<br />

Scientifiques et Industrielles, 763:5–23, 1938. Colloque consacré àlathéorie des<br />

probabilités.<br />

31. Freddy Delbaen und Walter Schachermayer. A general version of the fundamental<br />

theorem of asset pricing. Math. Ann., 300(3):463–520, 1994.<br />

32. Amir Dembo und Ofer Zeitouni. Large deviations techniques and applications, volume<br />

38 of Applications of Mathematics (New York). Springer-Verlag, New York, 2.<br />

Auflage, 1998.<br />

33. Jean-Dominique Deuschel und Daniel W. Stroock. Large deviations, volume 137 of<br />

Pure and Applied Mathematics. Academic Press Inc., Boston, MA, 1989.<br />

34. J. Dieudonné. Foundations of Modern Analysis, volume X of Pure and Applied Mathematics.<br />

Academic Press, New York und London, 1960.<br />

35. Monroe D. Donsker. An invariance principle for certain probability limit theorems.<br />

Mem. Amer. Math. Soc.,, 1951(6):12, 1951.<br />

36. Peter G. Doyle und J. Laurie Snell. Random walks and electric networks, volume 22 of<br />

Carus Mathematical Monographs. Mathematical Association of America, Washington,<br />

DC, 1984.


Literatur 577<br />

37. R. M. Dudley. Real analysis and probability, volume 74 of Cambridge Studies in<br />

Advanced Mathematics. Cambridge University Press, Cambridge, 2002. Revidierter<br />

Nachdruck der Originalausgabe von 1989.<br />

38. Richard Durrett. Probability: theory and examples. Duxbury Press, Belmont, CA, 2.<br />

Auflage, 1996.<br />

39. Aryeh Dvoretzky, Paul Erdős und Shizuo Kakutani. Nonincrease everywhere of the<br />

Brownian motion process. In Proc. 4th Berkeley Sympos. Math. Statist. and Prob., Vol.<br />

II, pages 103–116. Univ. California Press, Berkeley, Calif., 1961.<br />

40. Dmitri Egoroff. Sur les suites des fonctions measurables. C. R. Acad. Sci, Paris,<br />

152:135–157, 1911.<br />

41. Robert J. Elliott und P. Ekkehard Kopp. Mathematics of financial markets. Springer<br />

Finance. Springer-Verlag, New York, 1999.<br />

42. Richard S. Ellis. Entropy, large deviations, and statistical mechanics, volume 271 of<br />

Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, New York, 1985.<br />

43. Jürgen Elstrodt. Maß- und Integrationstheorie. Springer-Verlag, New York, 3. Auflage,<br />

1999.<br />

44. P. Erdős und R. L. Graham. On a linear diophantine problem of Frobenius. Acta Arith.,<br />

21:399–408, 1972.<br />

45. Carl-Gustav Esseen. On the liapounoff limit of error in the theory of probability. Ark.<br />

Mat. Astr. och Fys., 28A(9):1–19, 1942.<br />

46. Nasrollah Etemadi. An elementary proof of the strong law of large numbers. Z.<br />

Wahrsch. Verw. Gebiete, 55(1):119–122, 1981.<br />

47. Alison Etheridge. A course in financial calculus. Cambridge University Press, Cambridge,<br />

2002.<br />

48. Stewart N. Ethier und Thomas G. Kurtz. Markov processes, Characterization and convergence.<br />

Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical<br />

Statistics. John Wiley & Sons Inc., New York, 1986.<br />

49. Steven N. Evans und Xiaowen Zhou. Identifiability of exchangeable sequences with<br />

identically distributed partial sums. Electron. Comm. Probab., 4:9–13 (electronic),<br />

1999.<br />

50. William Feller. Über den zentralen Grenzwertsatz der <strong>Wahrscheinlichkeitstheorie</strong> I.<br />

Mathematische Zeitschrift, 40:521–559, 1935.<br />

51. William Feller. Über den zentralen Grenzwertsatz der <strong>Wahrscheinlichkeitstheorie</strong> II.<br />

Mathematische Zeitschrift, 42:301–312, 1937.<br />

52. William Feller. An introduction to probability theory and its applications. Vol. I. John<br />

Wiley & Sons Inc., New York, 3. Auflage, 1968.<br />

53. William Feller. An introduction to probability theory and its applications. Vol. II. John<br />

Wiley & Sons Inc., New York, 2. Auflage, 1971.<br />

54. James Allen Fill. An interruptible algorithm for perfect sampling via Markov chains.<br />

Ann. Appl. Probab., 8(1):131–162, 1998.<br />

55. James Allen Fill, Motoya Machida, Duncan J. Murdoch und Jeffrey S. Rosenthal. Extension<br />

of Fill’s perfect rejection sampling algorithm to general chains. In Proceedings<br />

of the Ninth International Conference “Random Structures and Algorithms” (Poznan,<br />

1999), volume 17, pages 290–316, 2000.<br />

56. Hans Föllmer und Alexander Schied. Stochastic finance, volume 27 of de Gruyter<br />

Studies in Mathematics. Walter de Gruyter & Co., Berlin, 2002.<br />

57. Peter Gänssler und Winfried Stute. <strong>Wahrscheinlichkeitstheorie</strong>. Springer-Verlag, Berlin,<br />

1977.<br />

58. Hans-Otto Georgii. Stochastik. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin,<br />

2003.


578 Literatur<br />

59. Alison L. Gibbs und Francis Edward Su. On choosing and bounding probability metrics.<br />

International Statistical Review, 70(3):419–435, 2002.<br />

60. M. L. Glasser und I. J. Zucker. Extended Watson integrals for the cubic lattices. Proc.<br />

Nat. Acad. Sci. U.S.A., 74(5):1800–1801, 1977.<br />

61. B. V. Gnedenko und A. N. Kolmogorov. Limit distributions for sums of independent<br />

random variables. Addison-Wesley Publishing Co., Reading, Mass.-London-Don<br />

Mills., Ont., 1968.<br />

62. Geoffrey Grimmett. Percolation, volume 321 of Grundlehren der Mathematischen Wissenschaften.<br />

Springer-Verlag, Berlin, 2. Auflage, 1999.<br />

63. Geoffrey R. Grimmett und David R. Stirzaker. Probability and random processes. Oxford<br />

University Press, New York, 3. Auflage, 2001.<br />

64. E. Grosswald. The Student t-distribution of any degree of freedom is infinitely divisible.<br />

Z. <strong>Wahrscheinlichkeitstheorie</strong> und Verw. Gebiete, 36(2):103–109, 1976.<br />

65. Olle Häggström. Finite Markov chains and algorithmic applications, volume 52 of<br />

London Mathematical Society Student Texts. Cambridge University Press, Cambridge,<br />

2002.<br />

66. Takashi Hara und Gordon Slade. Mean-field critical behaviour for percolation in high<br />

dimensions. Comm. Math. Phys., 128(2):333–391, 1990.<br />

67. J. Michael Harrison und Stanley R. Pliska. Martingales and stochastic integrals in the<br />

theory of continuous trading. Stochastic Process. Appl., 11(3):215–260, 1981.<br />

68. Philip Hartman und Aurel Wintner. On the law of the iterated logarithm. Amer. J. Math.,<br />

63:169–176, 1941.<br />

69. W.K. Hastings. Monte Carlo sampling methods using Markov chains and their applications.<br />

Biometrika, 57:97–109, 1970.<br />

70. Edwin Hewitt und Kenneth A. Ross. Abstract harmonic analysis. Vol. II: Structure and<br />

analysis for compact groups. Analysis on locally compact Abelian groups. Die Grundlehren<br />

der mathematischen Wissenschaften, Band 152. Springer-Verlag, New York,<br />

1970.<br />

71. Edwin Hewitt und Leonard J. Savage. Symmetric measures on Cartesian products.<br />

Trans. Math. Soc., 80:470–501, 1955.<br />

72. C.C. Heyde. On a property of the lognormal distribution. J. Royal Stat. Soc. B, 29:392–<br />

393, 1963.<br />

73. Friedrich Hirzebruch und Winfried Scharlau. Einführung in die Funktionalanalysis.<br />

Bibliographisches Institut, Mannheim, 1971. B. I.-Hochschultaschenbücher, No. 296.<br />

74. Frank den Hollander. Large deviations, volume 14 of Fields Institute Monographs.<br />

American Mathematical Society, Providence, RI, 2000.<br />

75. Richard A. Holley und Thomas M. Liggett. Ergodic theorems for weakly interacting<br />

infinite systems and the voter model. Ann. Probability, 3(4):643–663, 1975.<br />

76. Barry D. Hughes. Random walks and random environments. Vol. 1. Oxford Science<br />

Publications. The Clarendon Press Oxford University Press, New York, 1995. Random<br />

walks.<br />

77. Barry D. Hughes. Random walks and random environments. Vol. 2. Oxford Science<br />

Publications. The Clarendon Press Oxford University Press, New York, 1996. Random<br />

environments.<br />

78. Nobuyuki Ikeda und Shinzo Watanabe. Stochastic differential equations and diffusion<br />

processes, volume 24 of North-Holland Mathematical Library. North-Holland Publishing<br />

Co., Amsterdam, 2. Auflage, 1989.<br />

79. Albrecht Irle. Finanzmathematik. Teubner Studienbücher Mathematik. B. G. Teubner,<br />

Stuttgart, 1998.


Literatur 579<br />

80. Jürgen Jost. Partielle Differentialgleichungen. Springer, Berlin, 1998.<br />

81. G. S. Joyce. Singular behaviour of the lattice Green function for the d-dimensional<br />

hypercubic lattice. J. Phys. A, 36(4):911–921, 2003.<br />

82. Shizuo Kakutani. Examples of ergodic measure preserving transformations which are<br />

weakly mising but not strongly mixing. In Recent advances in topological dynamics<br />

(Proc. Conf., Yale Univ., New Haven, Conn., 1972; in honor of Gustav Arnold Hedlund),<br />

pages 143–149. Lecture Notes in Math., Vol. 318. Springer, Berlin.<br />

83. Olav Kallenberg. Random measures. Akademie-Verlag, Berlin, 4. Auflage, 1986.<br />

84. Olav Kallenberg. Foundations of Modern Probability. Probability and Its Applications.<br />

Springer Verlag, New York, Berlin, 2. Auflage, 2002.<br />

85. L. V. Kantorovič und G. ˇS. Rubinˇsteĭn. On a space of completely additive functions.<br />

Vestnik Leningrad. Univ., 13(7):52–59, 1958.<br />

86. Ioannis Karatzas und Steven E. Shreve. Brownian motion and stochastic calculus, volume<br />

113 of Graduate Texts in Mathematics. Springer-Verlag, New York, 2. Auflage,<br />

1991.<br />

87. Ioannis Karatzas und Steven E. Shreve. Methods of mathematical finance, volume 39<br />

of Applications of Mathematics (New York). Springer-Verlag, New York, 1998.<br />

88. Gerhard Keller. Equilibrium states in ergodic theory, volume 42 of London Mathematical<br />

Society Student Texts. Cambridge University Press, Cambridge, 1998.<br />

89. Gerhard Keller. <strong>Wahrscheinlichkeitstheorie</strong>. Vorlesungsskript. Universität Erlangen,<br />

2003.<br />

90. John L. Kelley. General topology. Springer-Verlag, New York, 1975. Nachdruck der<br />

Ausgabe von 1955 [Van Nostrand, Toronto, Ont.], Graduate Texts in Mathematics, No.<br />

27.<br />

91. Richard W. Kenyon, James G. Propp und David B. Wilson. Trees and matchings. Electron.<br />

J. Combin., 7:Research Paper 25, 34 pp. (electronic), 2000.<br />

92. Harry Kesten. Sums of stationary sequences cannot grow slower than linearly. Proc.<br />

Amer. Math. Soc., 49:205–211, 1975.<br />

93. Harry Kesten. The critical probability of bond percolation on the square lattice equals<br />

1<br />

. Comm. Math. Phys., 74(1):41–59, 1980.<br />

2<br />

94. Harry Kesten und Bernt P. Stigum. A limit theorem for multidimensional Galton-<br />

Watson processes. Ann. Math. Statist., 37:1211–1223, 1966.<br />

95. Aleksandr Khintchine. Über dyadische Brüche. Mathematische Zeitschrift, 18:109–<br />

116, 1923.<br />

96. J. F. C. Kingman. Poisson processes, volume 3 of Oxford Studies in Probability. The<br />

Clarendon Press Oxford University Press, New York, 1993. Oxford Science Publications.<br />

97. A. N. Kolmogorov. Sulla determinazione empirica di una legge di distibuzione. Giornale<br />

Istituto Italiano degli Attuari, 4:83–91, 1933.<br />

98. Ralf Korn und Elke Korn. Optionsbewertung und Portfolio-Optimierung. Friedr. Vieweg<br />

& Sohn, Braunschweig, 1999.<br />

99. Ulrich Krengel. Ergodic theorems, volume 6 of de Gruyter Studies in Mathematics.<br />

Walter de Gruyter & Co., Berlin, 1985.<br />

100. Ulrich Krengel. Einführung in die <strong>Wahrscheinlichkeitstheorie</strong> und Statistik, volume 59<br />

of Vieweg Studium: Aufbaukurs Mathematik. Friedr. Vieweg & Sohn, Braunschweig,<br />

2003.<br />

101. S. Kullback und R. A. Leibler. On information and sufficiency. Ann. Math. Statistics,<br />

22:79–86, 1951.


580 Literatur<br />

102. Thomas Kurtz, Russell Lyons, Robin Pemantle und Yuval Peres. A conceptual proof<br />

of the Kesten-Stigum theorem for multi-type branching processes. In Classical and<br />

modern branching processes (Minneapolis, MN, 1994), volume 84 of IMA Vol. Math.<br />

Appl., pages 181–185. Springer, New York, 1997.<br />

103. Paul Lévy. Théorie de l’Addition des Variables Aléatoires. Gauthier-Villars, Paris,<br />

1937.<br />

104. Paul Lévy. Processus Stochastiques et Mouvement Brownien. Suivi d’une note de M.<br />

Loève. Gauthier-Villars, Paris, 1948.<br />

105. Jarl Waldemar Lindeberg. Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechnung.<br />

Mathematische Zeitschrift, 15:211–225, 1922.<br />

106. Jarl Waldemar Lindeberg. Sur la loi de Gauss. C.R. Acad. Sci. Paris, 174:1400–1402,<br />

1922.<br />

107. Torgny Lindvall. Convergence of critical Galton-Watson branching processes. J. Appl.<br />

Probability, 9:445–450, 1972.<br />

108. Russell Lyons, Robin Pemantle und Yuval Peres. Conceptual proofs of L log L criteria<br />

for mean behavior of branching processes. Ann. Probab., 23(3):1125–1138, 1995.<br />

109. Russell Lyons und Yuval Peres. Probability on Trees. 2005. Vorabversion im Internet<br />

unter http://mypage.iu.edu/ rdlyons/prbtree/prbtree.html.<br />

110. Neal Madras. Lectures on Monte Carlo methods, volume 16 of Fields Institute Monographs.<br />

American Mathematical Society, Providence, RI, 2002.<br />

111. Dimitri E. Menchoff. Sur les séries des fonctions orthogonales (première partie). Fund.<br />

Math., 4:92–105, 1923.<br />

112. N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller und E. Teller. Equation<br />

of state calculations by fast computing machines. Journal of Chemical Physics,<br />

21:1087–1092, 1953.<br />

113. Paul-A. Meyer. Probability and potentials. Blaisdell Publishing Co. Ginn and Co.,<br />

Waltham, Mass.-Toronto, Ont.-London, 1966.<br />

114. Ferenc Móricz und Károly Tandori. An improved Menshov-Rademacher theorem.<br />

Proc. Amer. Math. Soc., 124(3):877–885, 1996.<br />

115. Rajeev Motwani und Prabhakar Raghavan. Randomized algorithms. Cambridge University<br />

Press, Cambridge, 1995.<br />

116. Alfred Müller und Dietrich Stoyan. Comparison methods for stochastic models and<br />

risks. Wiley Series in Probability and Statistics. John Wiley & Sons Ltd., Chichester,<br />

2002.<br />

117. J. R. Norris. Markov chains. Cambridge Series in Statistical and Probabilistic Mathematics.<br />

Cambridge University Press, Cambridge, 1998. Nachdruck der Originalausgabe<br />

von 1997.<br />

118. Raymond E.A.C. Paley, Norbert Wiener und Antoni Zygmund. Note on random functions.<br />

Math. Zeit., 38:647–688, 1933.<br />

119. Ronald F. Peierls. On Ising’s model of ferromagnetism. Proc. Cambridge Phil. Soc.,<br />

36:477–481, 1936.<br />

120. Valentin V. Petrov. Sums of independent random variables. Springer-Verlag, New York,<br />

1975. Ergebnisse der Mathematik und ihrer Grenzgebiete, Band 82.<br />

121. Jim Pitman. Combinatorial stochastic processes. In École d’Été de Probabilités de<br />

Saint-Flour 2002, Erscheint in: Lecture Notes in Math. (Im Internet erhältlich unter<br />

www-stat.berkeley.edu/users/pitman).<br />

122. Jim Pitman. Exchangeable and partially exchangeable random partitions. Probab.<br />

Theory Related Fields, 102(2):145–158, 1995.


Literatur 581<br />

123. Jim Pitman und Marc Yor. Bessel processes and infinitely divisible laws. In Stochastic<br />

integrals (Proc. Sympos., Univ. Durham, Durham, 1980), volume 851 of Lecture Notes<br />

in Math., pages 285–370. Springer, Berlin, 1981.<br />

124. Jim Pitman und Marc Yor. The two-parameter Poisson-Dirichlet distribution derived<br />

from a stable subordinator. Ann. Probab., 25(2):855–900, 1997.<br />

125. Jim Pitman und Marc Yor. On the distribution of ranked heights of excursions of a<br />

Brownian bridge. Ann. Probab., 29(1):361–384, 2001.<br />

126. George Pólya. Über eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Irrfahrt<br />

im Straßennetz. Math. Ann., 84:139–160, 1921.<br />

127. George Pólya. Sur quelques points de la théorie de probabilités. Ann. Inst. H. Poincaré,<br />

1:117–161, 1931.<br />

128. Yu. V. Prohorov. Convergence of random processes and limit theorems in probability<br />

theory. Teor. Veroyatnost. i Primenen., 1:177–238, 1956. Russisch mit englischer<br />

Zusammenfassung.<br />

129. James Propp und David Wilson. Coupling from the past: a user’s guide. In Microsurveys<br />

in discrete probability (Princeton, NJ, 1997), volume 41 of DIMACS Ser. Discrete Math.<br />

Theoret. Comput. Sci., pages 181–192. Amer. Math. Soc., Providence, RI, 1998.<br />

130. James Gary Propp und David Bruce Wilson. Exact sampling with coupled Markov<br />

chains and applications to statistical mechanics. In Proceedings of the Seventh International<br />

Conference on Random Structures and Algorithms (Atlanta, GA, 1995), volume<br />

9, pages 223–252, 1996.<br />

131. James Gary Propp und David Bruce Wilson. How to get a perfectly random sample<br />

from a generic Markov chain and generate a random spanning tree of a directed graph.<br />

J. Algorithms, 27(2):170–217, 1998. 7th Annual ACM-SIAM Symposium on Discrete<br />

Algorithms (Atlanta, GA, 1996).<br />

132. Philip E. Protter. Stochastic integration and differential equations, volume 21 of Applications<br />

of Mathematics (New York). Springer-Verlag, Berlin, 2. Auflage, 2004. Stochastic<br />

Modelling and Applied Probability.<br />

133. Boto von Querenburg. Mengentheoretische Topologie. Springer-Verlag, Berlin, 1976.<br />

Korrigierter Nachdruck der ersten Auflage, Hochschultext.<br />

134. Hans Rademacher. Einige Sätze über Reihen von allgemeinen Orthogonalfunktionen.<br />

Math. Ann., 87:112–138, 1922.<br />

135. Pál Révész. Random walk in random and non-random environments. World Scientific<br />

Publishing Co. Pte. Ltd., Hackensack, NJ, second Auflage, 2005.<br />

136. D. Revuz. Markov chains, volume 11 of North-Holland Mathematical Library. North-<br />

Holland Publishing Co., Amsterdam, 2. Auflage, 1984.<br />

137. Daniel Revuz und Marc Yor. Continuous martingales and Brownian motion, volume<br />

293 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 3.<br />

Auflage, 1999.<br />

138. R. Tyrrell Rockafellar. Convex analysis. Princeton Mathematical Series, No. 28. Princeton<br />

University Press, Princeton, N.J., 1970.<br />

139. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales.<br />

Vol. 1: Foundations. Cambridge Mathematical Library. Cambridge University Press,<br />

Cambridge, 2000. Nachdruck der zweiten Auflage von 1994.<br />

140. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales.<br />

Vol. 2: Itô calculus. Cambridge Mathematical Library. Cambridge University Press,<br />

Cambridge, 2000. Nachdruck der zweiten Auflage von 1994.<br />

141. Walter Rudin. Analysis. Oldenbourg Verlag, Müünchen, Wien, 1988.<br />

142. Ivan Nicolaevich Sanov. On the probability of large deviations of random magnitudes.<br />

Mat. Sb. N. S., 42 (84):11–44, 1957. Russisch.


582 Literatur<br />

143. Ivan Nicolaevich Sanov. On the probability of large deviations of random variables. In<br />

Select. Transl. Math. Statist. and Probability, Vol. 1, pages 213–244. Inst. Math. Statist.<br />

and Amer. Math. Soc., Providence, R.I., 1961.<br />

144. Tokuzo Shiga und Akinobu Shimizu. Infinite-dimensional stochastic differential equations<br />

and their applications. J. Math. Kyoto Univ., 20(3):395–416, 1980.<br />

145. Albert N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics.<br />

Springer-Verlag, New York, 2. Auflage, 1996. Übersetzung der ersten russischen Ausgabe<br />

von 1980.<br />

146. N.V. Smirnov. Sur les écarts de la courbe de distribution empirique. Matematicheskij<br />

Sbornik, Rossijskaya Akademiya Nauk, Moscow, 2:3–16, 1939. Russisch mit<br />

französicher Zusammenfassung.<br />

147. Frank Spitzer. Principles of random walks. Springer-Verlag, New York, 2. Auflage,<br />

1976. Graduate Texts in Mathematics, Vol. 34.<br />

148. Daniel W. Stroock und S. R. Srinivasa Varadhan. Diffusion processes with boundary<br />

conditions. Comm. Pure Appl. Math., 24, 1971.<br />

149. Daniel W. Stroock und S. R. Srinivasa Varadhan. Multidimensional diffusion processes,<br />

volume 233 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag,<br />

Berlin, 1979.<br />

150. J. J. Sylvester. Mathematical questions with their solutions. Educational Times, 41:171–<br />

178, 1884.<br />

151. Károly Tandori. Über die orthogonalen Funktionen. I. Acta Sci. Math. Szeged, 18:57–<br />

130, 1957.<br />

152. Károly Tandori. Über die Divergenz der Orthogonalreihen. Publ. Math. Debrecen,<br />

8:291–307, 1961.<br />

153. Károly Tandori. Bemerkung über die paarweise unabhängigen zufälligen Größen. Acta<br />

Math. Hungar., 48(3-4):357–359, 1986.<br />

154. S. R. S. Varadhan. Asymptotic probabilities and differential equations. Comm. Pure<br />

Appl. Math., 19:261–286, 1966.<br />

155. G. N. Watson. Three triple integrals. Quart. J. Math., Oxford Ser., 10:266–276, 1939.<br />

156. Dirk Werner. Funktionalanalysis. Springer-Verlag, Berlin, 2000.<br />

157. David Williams. Probability with martingales. Cambridge Mathematical Textbooks.<br />

Cambridge University Press, Cambridge, 1991.<br />

158. David Bruce Wilson und James Gary Propp. How to get an exact sample from a generic<br />

Markov chain and sample a random spanning tree from a directed graph, both within the<br />

cover time. In Proceedings of the Seventh Annual ACM-SIAM Symposium on Discrete<br />

Algorithms (Atlanta, GA, 1996), pages 448–457, New York, 1996. ACM.<br />

159. Sewall Wright. Evolution in Mendelian populations. Genetics, 16:97–159, 1931.<br />

160. A. M. Yaglom. Certain limit theorems of the theory of branching random processes.<br />

Doklady Akad. Nauk SSSR (N.S.), 56:795–798, 1947.<br />

161. Toshio Yamada und Shinzo Watanabe. On the uniqueness of solutions of stochastic<br />

differential equations. J. Math. Kyoto Univ., 11:155–167, 1971.<br />

162. Kōsaku Yosida. Functional analysis. Classics in Mathematics. Springer-Verlag, Berlin,<br />

1995. Nachdruck der sechsten Auflage von 1980.<br />

163. Ofer Zeitouni. Random walks in random environment. In Lectures on probability<br />

theory and statistics, volume 1837 of Lecture Notes in Math., pages 189–312. Springer,<br />

Berlin, 2004.


Notation<br />

A<br />

Indikatorfunktion der Menge A<br />

2 Ω Potenzmenge, 1<br />

#A Kardinalität der Menge A<br />

A c Komplement Ω \ A der Menge A ⊂ Ω,1<br />

A ∩ B Schnittmenge<br />

A ∪ B Vereinigungsmenge<br />

A ⊎ B disjunkte Vereinigungsmenge (eigentlich ist hierin eine<br />

Aussage enthalten)<br />

A ⊂ B Aist (nicht notwendigerweise echte) Teilmenge von B<br />

A \ B Differenzmenge<br />

A △ B symmetrische Differenz zweier Mengen, 29<br />

A × B kartesisches Produkt von A und B<br />

A Teilmenge von 2 Ω , typischerweise eine σ-Algebra, 1<br />

A � �<br />

B<br />

Spur-Mengensystem auf B,10<br />

A⊗A ′ Produkt der σ-Algebren A und A, 260<br />

B(E) Borel’sche σ-Algebra von E, 8<br />

Berp<br />

βr,s<br />

bn,p<br />

b − r,p<br />

Bernoulliverteilung, 43<br />

Beta-Verteilung mit Parametern r und s, 46<br />

Binomialverteilung, 44, 289<br />

negative Binomialverteilung, 44, 289<br />

C(E),Cb(E),Cc(E) Raum der stetigen (beschränkten) Funktionen, bzw. mit<br />

kompakten Träger, 236<br />

CqV<br />

Funktionen mit stetiger quadratischer Variation, 467<br />

C Menge der komplexen Zahlen, 78<br />

Caua<br />

Cauchy Verteilung, 289


584 Notation<br />

Cov[X, Y ] Kovarianz der Zufallsvariablen X und Y ,98<br />

CPoiν<br />

δx<br />

zusammengesetzte Poisson-Verteilung, 317<br />

Dirac-Verteilung, 12<br />

E[X] Erwartungswert der Zufallsvariablen X,97<br />

E[X; A] =E[X A], 167<br />

E[X |F] bedingter Erwartungswert, 169<br />

exp θ<br />

F =(Ft)t∈I<br />

Exponentialverteilung, 45, 289<br />

Filtration, 185<br />

f.s, f.ü. fast sicher und fast überall, 31<br />

G(x, y) Greeenfunktion einer Markovkette, 351<br />

Γθ,r Gammaverteilung mit Größenparameter θ > 0 und<br />

Formparameter r>0, 46, 289<br />

γp = b − 1,p<br />

geometrische Verteilung mit Parameter p, 44<br />

ggT(M) größter gemeinsamer Teiler aller m ∈ M ⊂ N, 366<br />

H ·X diskretes stochastisches Integral von H bezüglich X, 192<br />

I Menge der invarianten Verteilungen einer Markovkette,<br />

360<br />

i.i.d. independent and identically distributed, 55<br />

Im(z) Imaginärteil von z ∈ C, 281<br />

λ, λ n Lebesgue-Maß, n-dimensionales, 25<br />

Lip(E) Raum der Lipschitz-stetigen Funktionen auf E, 237<br />

L p ,L p Lebesgue’sche Räume p-fach integrierbarer Funktionen,<br />

89, 139, 140<br />

L(X) Verteilung der Zufallsvariablen X<br />

M(E), Mf (E),<br />

M≤1, M1(E) Menge der (endlichen bzw. (Sub-)W-) Maße auf E, 17,<br />

235<br />

Mloc,c<br />

Raum der stetigen lokalen Martingale, 470<br />

μ ⊗ ν Produkt der Maße μ und ν, 27, 264<br />

μ ∗ ν Faltung der Maße μ und ν, 60, 266<br />

μ ⊗n n-faches Produktmaß, 264<br />

μ ∗n n-fache Faltungspotenz, 60<br />

μ ≪ ν μist absolutstetig bezüglich ν, 151


μ ⊥ ν μist singulär bezüglich ν, 151<br />

μ ≈ ν μund ν sind äquivalent, 151<br />

N, N0<br />

N = {1, 2, 3,...}, N0 = N ∪{0}<br />

N μ,σ 2 Normalverteilung, 45, 289<br />

dμ � dν Radon-Nikodym-Ableitung 152<br />

Notation 585<br />

Ω Raum der Elementarereignisse, auf dem P definiert ist<br />

P generisches Wahrscheinlichkeitsmaß<br />

P[A|B], P[A|F] bedingte Wahrscheinlichkeiten, 166, 169<br />

PX = P ◦ X −1 Verteilung der Zufallsvariablen X, 42<br />

Poiλ<br />

Poissonverteilung mit Parameter λ ≥ 0, 45, 289<br />

p n (x, y) =p (n) (x, y) n-Schritt-Übergangswahrscheinlichkeiten einer Markovkette,<br />

340<br />

P n S,T , Pn T<br />

ϕX<br />

ψX<br />

siehe Seite 467<br />

charakteristische Funktion der Zufallsvariablen X, 288<br />

Erzeugendenfunktion der Zufallsvariablen X, 75<br />

Q Menge der rationalen Zahlen<br />

R Menge der reellen Zahlen<br />

R = R ∪{−∞, +∞} Zweipunktkompaktifizierung der reellen Zahlen<br />

Re(z) Realteil von z ∈ C, 281<br />

sign(x) = (0,∞)(x) − (−∞,0)(x), Vorzeichen von x ∈ R, 37<br />

σ( · ) von · erzeugte σ-Algebra oder Filtration, 6, 34, 185<br />

τ k x<br />

Zeit des k-ten Besuches einer Markovkette in x, 349<br />

T ( · ) terminale σ-Algebra, 61<br />

UA<br />

uniforme Verteilung auf A, 12, 33, 289<br />

u.i.v. unabhängig und identisch verteilt, 55<br />

V 1 (G), V 2 (G) Variation und quadratische Variation von G, 466, 467<br />

Var[X] Varianz der Zufallsvariablen X, 97<br />

〈X〉 quadratischer Variationsprozess von X, 200, 467, 471,<br />

475<br />

f(t) ∼ g(t), t→ a : ⇐⇒ limt→a f(t)/g(t) =1<br />

X ∼ μ Die Zufallsvariable X hat Verteilung μ, 42<br />

x ∨ y, x ∧ y, x + ,x − Maximum, Minimum, Positivteil, Negativteil reeller Zahlen,<br />

37


586 Notation<br />

⌊x⌋, ⌈x⌉ Abgerundetes und Aufgerundetes von x,36<br />

z komplex konjugierte Zahl zu z ∈ C, 281<br />

Z Menge der ganzen Zahlen<br />

D<br />

= Gleichheit in Verteilung, 42<br />

D<br />

−→<br />

n→∞<br />

, n→∞<br />

=⇒ Konvergenz der Verteilungen, 243<br />

n→∞<br />

=⇒<br />

fdd<br />

, n→∞<br />

−→<br />

fdd<br />

Konvergenz der endlichdimensionalen Verteilungen, 453


Glossar englischer Ausdrücke<br />

a.a. = almost all fast alle<br />

a.e. = almost everywhere fast überall<br />

a.s. = almost surely fast sicher<br />

array (of random variables) Schema von Zufallsvariablen<br />

backward martingale Rückwärtsmartingal<br />

bond, edge Kante (eines Graphen)<br />

Brownian motion Brown’sche Bewegung<br />

central limit theorem Zentraler Grenzwertsatz<br />

completion Vervollständigung<br />

compound Poisson zusammengesetzt Poisson<br />

conductivity Leitfähigkeit<br />

continuous stetig<br />

convolution Faltung<br />

decompostition Zerlegung<br />

density Dichte<br />

derivative Ableitung<br />

distribution Verteilung<br />

dominated convergence majorisierte Konvergenz<br />

dynamical system Dynamisches System<br />

expectation (conditional) Erwartungswert (bedingter)<br />

ergodic theorem Ergodensatz<br />

event Ereignis<br />

exchangeable austauschbar<br />

extension theorem Fortsetzungssatz, Erweiterungssatz<br />

flow (electric) Fluss (elektrischer)<br />

iff = if and only if dann und nur dann, wenn<br />

i.i.d. = independent and identically unabhängig und identisch verteilt<br />

distributed<br />

increment Zuwachs<br />

indistinguishable ununterscheidbar<br />

integer (number) ganze Zahl<br />

joint distribution gemeinsame Verteilung<br />

large deviation große Abweichung


588 Glossar englischer Ausdrücke<br />

law Verteilung<br />

level set Niveaumenge<br />

Markov chain Markovkette<br />

(strong) Markov property (starke) Markoveigenschaft<br />

map Abbildung<br />

marginal (distribution) Randverteilung<br />

mean Mittelwert<br />

measurable space Messraum<br />

measure Maß<br />

measure preserving maßerhaltend<br />

mixing mischend<br />

modulus (of a number) Absolutbetrag (einer Zahl)<br />

modulus of continuity Stetigkeitsmodul<br />

null array asymptotisch vernachlässigbares Schema<br />

partition function Zustandssumme<br />

p.d.f. = probability distribution function Verteilungsfunktion<br />

p.g.f. = probability generating function Erzeugendenfunktion<br />

phase transition Phasenübergang<br />

predictable, previsible previsibel, vorhersagbar<br />

probability Wahrscheinlichkeit<br />

random walk Irrfahrt<br />

random variable Zufallsvariable<br />

representation Darstellung<br />

semigroup Halbgruppe<br />

σ-field σ-Algebra<br />

size-biased (sampling) größenverzerrtes Ziehen einer Stichprobe<br />

tight straff<br />

trace Spur<br />

transition kernel Übergangskern<br />

uniform distribution Gleichverteilung<br />

uniformly integrable gleichgradig integrierbar<br />

urn model Urnenmodell<br />

(probability) weight (Wahrscheinlichkeits-)gewicht<br />

vertex Punkt/Knoten eines Graphen<br />

w.p. = with probability


Namensregister<br />

Banach, Stefan, 1892 (Krakau) – 1945<br />

(Lemberg, Ukraine), 147<br />

Bayes, Thomas, 1702 (London) – 1761<br />

(Tunbridge Wells, England), 166<br />

Bernoulli, Jakob, 1654 (Basel) – 1705<br />

(Basel), 18<br />

Bienaymé, Irénée-Jules, 1796 (Paris) – 1878<br />

(Paris), 100<br />

Blackwell, David, 1919, 103<br />

Bochner, Salomon, 1899 (Krakau) – 1982<br />

(Houston, Texas), 298<br />

Boltzmann, Ludwig, 1844 (Wien) – 1906<br />

(Duino bei Triest), 378<br />

Borel, Emile, 1871 (Saint-Affrique,<br />

Frankreich) – 1956 (Paris), 8<br />

Brown, Robert, 1773 (Montrose, Scotland)<br />

– 1858 (London), 436<br />

Cantelli, Francesco Paolo, 1875 (Palermo) –<br />

1966 (Rom), 51<br />

Carathéodory, Constantin, 1873 (Berlin) –<br />

1950 (München), 19<br />

Cauchy, Augustin Louis, 1789 (Paris) –<br />

1857 (bei Paris), 101<br />

Cesàro, Ernesto, 1859 (Neapel) – 1906<br />

(Torre Annunziata, Italien), 62<br />

Chebyshev, Pafnutij Lvovich (Qebyxev,<br />

Pafnuti� Lvoviq), 1821 (Okatavo,<br />

Russland) – 1894 (Sankt Petersburg),<br />

104<br />

Cramér, Harald, 1893 (Stockholm) – 1985<br />

(Stockholm), 312<br />

Curie, Pierre, 1859 (Paris) – 1906 (Paris),<br />

508<br />

Dieudonné, Jean Alexandre 1906 (Lille,<br />

Frankreich) – 1992 (Paris), 282<br />

Dirac, Paul Adrien Maurice, 1902 (Bristol)<br />

– 1984 (Tallahassee, Florida), 12<br />

Dirichlet, Lejeune, 1805 (Düren) – 1859<br />

(Göttingen), 391<br />

Doob, Joseph Leo, 1910 (Cincinnati, Ohio)<br />

– 2004 (Urbana, Illinois), 199<br />

Dynkin, Eugene, 1924 (Sankt Petersburg),<br />

4<br />

Egorov, Dmitrij Fedorovich<br />

(Egorov, Dmitri� Fedoroviq),<br />

1869 (Moskau) – 1931 (Kasan), 130<br />

Esseen, Carl-Gustav, 1918 (Linköping,<br />

Schweden) – 2001 (Uppsala ?), 311<br />

Fatou, Pierre, 1878 (Lorient, Frankreich) –<br />

1929 (Pornichet, Frankreich), 91<br />

Feller, William, 1906 (Zagreb) – 1970 (New<br />

York), 306<br />

Fischer, Ernst, 1875 (Wien) – 1954 (Köln),<br />

147<br />

Fourier, Jean Baptiste Joseph, 1768<br />

(Auxerre, Frankreich) – 1830 (Paris).,<br />

286<br />

Fréchet, Maurice René, 1878 (Maligny,<br />

Frankreich) – 1973 (Paris), 147<br />

Fubini, Guido, 1879 (Venedig) – 1943 (New<br />

York), 264<br />

Galton, Francis, 1822 (bei Birmingham) –<br />

1911 (Grayshott House, England), 81<br />

Gauß, Carl-Friedrich, 1777 (Braunschweig)<br />

– 1855 (Göttingen), 45<br />

Gibbs, Josiah Willard, 1839 (New Haven,<br />

Connecticut) – 1903 (New Haven,<br />

Connecticut), 381<br />

Green, George, 1793 (Nottingham) – 1841<br />

(Nottingham), 351


590 Namensregister<br />

Hahn, Hans, 1879 (Wien) – 1934 (Wien),<br />

156<br />

Helly, Eduard, 1884 (Wien) – 1943<br />

(Chicago), 250<br />

Hesse, Ludwig Otto, 1814 (Königsberg) –<br />

1874 München, 144<br />

Hewitt, Edwin, 1920 (Everett, Washington),<br />

228<br />

Hilbert, David, 1862 (Königsberg) – 1943<br />

(Göttingen), 147<br />

Hopf, Eberhard, 1902 (Salzburg) – 1983,<br />

418<br />

Hölder, Otto Ludwig, 1859 (Stuttgart) –<br />

1937 (Leipzig), 146<br />

Ionescu-Tulcea, Cassius, 1923, 273<br />

Ising, Ernst, 1900 (Köln) – 1988 (Peoria,<br />

Illinois), 377<br />

Itô, Kiyosi, 1915 (Hokusei-cho, Japan),<br />

449<br />

Jensen, Johan Ludwig, 1859 (Nakskov,<br />

Dänemark) – 1925 (Kopenhagen), 144<br />

Jordan, Camille, 1838 (bei Lyon) – 1922<br />

(Paris), 158<br />

Kesten, Harry, 1931, 70<br />

Khinchin, Aleksandr Jakovlevich<br />

(Hinqin, Aleksandr �kovleviq)<br />

1894 (Kondrovo, Russland) – 1959<br />

(Moskau), 320<br />

Kirchhoff, Gustav Robert, 1824 (Königsberg)<br />

– 1887 (Berlin), 394<br />

Kolmogorov, Andrej Nikolaevich<br />

(Kolmogorov, Andre� Nikolaeviq),<br />

1903 (Tambow, Russland) –<br />

1987 (Moskau), 63<br />

Laplace, Pierre-Simon, 1749 (Beaumonten-Auge,<br />

Normandie) – 1827 (Paris),<br />

137<br />

Lebesgue, Henri Léon, 1875 (Beauvais,<br />

Oise, Frankreich) – 1941 (Paris), 18<br />

Legendre, Adrien-Marie, 1752 (Paris) –<br />

1833 (Paris), 491<br />

Levi, Beppo, 1875 (Turin, Italien) – 1961<br />

(Rosario, Santa Fe, Argentinien), 91<br />

Lévy, Paul Pierre, 1886 (Paris) – 1971<br />

(Paris), 296, 480<br />

Lindeberg, Jarl Waldemar, 1876 – 1932,<br />

305<br />

Lipschitz, Rudolph, 1832 (Königsberg) –<br />

1903 (Bonn), 237<br />

Lusin, Nikolai Nikolaevich<br />

(Lusin, Nikola� Nikolaeviq),<br />

1883 (Irkutsk, Russland) – 1950<br />

(Moskau), 238<br />

Lyapunov, Aleksandr Mikhajlovich<br />

(L�punov Aleksandr Miha�loviq),<br />

1857 (Jaroslavl, Russland)<br />

– 1918 (Odessa), 305<br />

Markov, Andrej Andreevich (Markov,<br />

Andre� Andreeviq), 1856 (Ryazan,<br />

Russland) – 1922 (Sankt Petersburg),<br />

104<br />

Menshov, Dmitrij Evgen’evich<br />

(Menxov, Dmitri� Evgenъeviq),<br />

1892 (Moskau) – 1988<br />

(Moskau), 117<br />

Minkowski, Hermann, 1864 (Alexotas, heute:<br />

Kaunas, Litauen) – 1909 (Göttingen),<br />

146<br />

Neumann, John von, 1903 (Budapest) –<br />

1957 (Washington D.C.), 152<br />

Nikodym, Otton Marcin, 1889 (Zablotow,<br />

Galizien, Ukraine) – 1974 (Utica, New<br />

York), 152<br />

Ohm, Georg Simon, 1789 (Erlangen) – 1854<br />

(München), 394<br />

Ornstein, Leonard Salomon, 1880<br />

(Nijmegen) – 1941 (Utrecht), 553<br />

Paley, Raymond E.A.C., 1907 (Bournemouth,<br />

England) – 1933 (Banff, Alberta),<br />

439<br />

Parseval, Marc-Antoine,<br />

1755 (Rosières-aux-Salines, Frankreich)<br />

– 1836 (Paris), 447<br />

Pascal, Blaise, 1623 (Clermont-Ferrand,<br />

Frankreich) – 1662 (Paris), 44<br />

Plancherel, Michel, 1885 (Bussy (Fribourg),<br />

Schweiz) – 1967 (Zürich?), 287<br />

Poisson, Siméon Denis, 1781 (Pithiviers,<br />

Frankreich) – 1840 (bei Paris), 45<br />

Pólya, George, 1887 (Budapest) – 1985<br />

(Palo Alto), 297


Prohorov, Yurij Vasil’evich (Prohorov,<br />

�ri� Vasilьeviq), 1929, 248<br />

Rademacher, Hans, 1892 (Hamburg-<br />

Wandsbek) – 1969 (Haverford,<br />

Pennsylvania), 117<br />

Radon, Johann, 1887 (Tetschen, Böhmen) –<br />

1956 (Wien), 152<br />

Riemann, Georg Friedrich Bernhard, 1826<br />

(Breselenz, Kreis Lüchow-Dannenberg)<br />

– 1866 (Selasca, Italien), 50<br />

Riesz, Frigyes, 1880 (Györ, Ungarn) – 1956<br />

(Budapest), 147<br />

Saks, Stanislav (Saks, Stanislav),<br />

1897 (Kalish, Russland (heute Polen))<br />

– 1942 (Warschau, von der Gestapo<br />

ermordet), 220<br />

Savage, Jimmie Leonard, 1917 (Detroit,<br />

Michigan) – 1971 (New Haven,<br />

Connecticut), 228<br />

Schwarz, Hermann Amandus, 1843<br />

(Hermsdorf, Schlesien) – 1921 (Berlin),<br />

101<br />

Slutzky, Evgenij Evgen’evich (Slutzky,<br />

Evgeni� Evgenъeviq), 1880<br />

(Novoe, Gouvernement Jaroslavl,<br />

Russland) – 1948 (Moskau), 243<br />

Stieltjes, Thomas Jan, 1856 (Zwolle,<br />

Overijssel) – 1894 (Toulouse), 26<br />

Stone, Marshall Harvey, 1903 (New York) –<br />

1989 (Madras, Indien), 282<br />

Namensregister 591<br />

Thomson, William (Lord Kelvin), 1824<br />

(Belfast) – 1907 (Largs, Ayrshire,<br />

Schottland), 398<br />

Uhlenbeck, George Eugene, 1900 (Batavia,<br />

heutiges Jakarta) – 1988 (Boulder,<br />

Colorado), 553<br />

Varadhan, S.R. Srinivasa, 1945 (Madras,<br />

Indien), 503<br />

Watson, George Neville, 1886 (Westward<br />

Ho, England) – 1965 (Leamington Spa,<br />

England), 358<br />

Watson, Henry William, 1827 (bei London)<br />

– 1903 (bei Coventry), 81<br />

Weierstraß, Karl, 1815 (Ostenfelde,<br />

Westfalen) – 1897 (Berlin), 282<br />

Weiss, Pierre-Ernest, 1865 (Mulhouse,<br />

Frankreich) – 1940 (Lyon), 506<br />

Wiener, Norbert, 1894 (Columbia, Missouri)<br />

– 1964 (Stockholm), 453<br />

Wintner, Aurel Friedrich, 1903 (Budapest) –<br />

1958 (Baltimore), 486<br />

Wright, Sewall, 1889 (Melrose, Massachusetts)<br />

– 1988 (Madison, Wisconsin),<br />

343<br />

Yaglom, Akiva Moiseevich (�glom,<br />

Akiva Moiseeviq), 1921<br />

(Kharkov), 220<br />

Zygmund, Antoni, 1900 (Warschau) – 1992<br />

(Chicago), 439


Sachregister<br />

0-1 Gesetze<br />

– Blumenthal 438<br />

–für invariante Ereignisse 427<br />

– Hewitt-Savage 228<br />

– Kolmogorov 63<br />

∅-stetig 15<br />

abgeschlossen 8<br />

Abschluss 234<br />

absolutstetig 151<br />

absorbierend 350<br />

adaptiert 185<br />

additiv 11<br />

Algebra 3, 282<br />

Anziehungsbereich einer Verteilung 329<br />

aperiodisch 366<br />

Approximationssatz für Maße 29<br />

äquivalente Maße 151<br />

äquivalentes Martingalmaß 196<br />

Arbitrage 196<br />

Arkussinus-Gesetz 442<br />

asymptotisch vernachlässigbar 305<br />

Aufkreuzung 211<br />

äußeres Maß 21<br />

austauschbar 221<br />

austauschbare σ-Algebra 223<br />

Auswertungsabbildung 451<br />

Azuma’sche Ungleichung 192<br />

Banachraum 147<br />

bedingte<br />

– Erwartung 169<br />

– Unabhängigkeit 229<br />

– Verteilung 176<br />

– Wahrscheinlichkeit 166, 169<br />

Benford’sches Gesetz 422<br />

Bernoulli-Maß 29<br />

Bernoulli-Verteilung 43<br />

Bernstein-Chernov Abschätzung 106<br />

Bernstein-Polynom 106<br />

Berry-Esseen, Satz von 311<br />

beschränkt in L p<br />

132<br />

Bessel-Prozess 562<br />

Beta-Verteilung 46, 232, 303, 519<br />

– Momente 104<br />

Bienaymé-Gleichung 100<br />

Bildmaß 40<br />

binäres Modell 195<br />

Binomialverteilung 44<br />

Black-Scholes Formel 197<br />

Black-Scholes Modell 554<br />

Blackwell-Girshick 103<br />

Blumenthal’sches 0-1 Gesetz 438<br />

Bochner 298<br />

Boltzmann-Verteilung 378, 505<br />

Borel-Cantelli Lemma 51<br />

– bedingte Version 219<br />

Borel-Maß 235<br />

Borel’scher Raum 179<br />

Borel’sche σ-Algebra 8<br />

Borel’sches Paradoxon 182<br />

Box-Muller Methode 60<br />

Brown’sche Bewegung 279, 436<br />

– Existenzsatz 436<br />

– kanonische 453<br />

–Lévy Charakterisierung 541<br />

– Skalierungseigenschaft 437<br />

Brown’sche Brücke 437, 450<br />

Brown’sches Blatt 451<br />

càdlàg 444<br />

Call 196<br />

Carathéodory 19<br />

Cauchy-Schwarz’sche Ungleichung 101<br />

– bedingte 174<br />

Cauchy-Verteilung 46, 289, 547


594 Sachregister<br />

Cesàro-Limes 62<br />

CFW 315<br />

Chapman-Kolmogorov’sche Gleichung<br />

277, 340<br />

charakteristische Funktion 285, 511<br />

– Inversionsformel 286<br />

Chebyshev Polynom 387<br />

Chebyshev’sche Ungleichung 104<br />

China-Restaurant Prozess 524<br />

Cholesky-Faktorisierung 313<br />

Chung-Fuchs, Satz von 357, 424<br />

Claim 196<br />

Continuous Mapping Theorem 245<br />

Cox-Ingersoll-Ross Modell 558<br />

Cox-Ross-Rubinstein’sches Modell 197<br />

Cramér-Lundberg’sche Ungleichung 207<br />

Cramér-Transformierte 492<br />

Cramér-Wold Device 312<br />

Curie-Temperatur 378, 508<br />

Curie-Weiss’sches Gesetz 508<br />

detaillierte Balance 392<br />

Diagonalfolgenargument 250<br />

dicht 234<br />

Dichte 13, 26, 45, 57, 89, 150<br />

Dichtetransformationsformel<br />

– mehrdimensional 41<br />

Differentiationslemma 137<br />

Diffusionsprozess 537<br />

Dirac-Maß 12<br />

Dirichlet-Problem 546<br />

– diskretes 391<br />

Dirichlet’sches Prinzip 398<br />

Dirichlet-Verteilung 519<br />

domain of attraction 329<br />

Donsker, Satz von 456<br />

Doob’sche Regularisierung 444<br />

Doob’sche Ungleichung 210<br />

Doob–Zerlegung 199<br />

Dreireihensatz 310<br />

Drift 537<br />

Dualität 567<br />

Dualraum 160<br />

dynamisches System 416<br />

Dynkin-System 4<br />

einfache Irrfahrt 393<br />

Einheitsmasse 12<br />

Einschluss- Ausschlussformel 15<br />

Einschränkung 10<br />

Eintrittszeit 349<br />

elektrischer Fluss 394<br />

Elementarfunktion 39<br />

empirische Verteilung 231<br />

empirische Verteilungsfunktion 111<br />

Entropie 112, 114, 499<br />

– relative 499<br />

Ereignis 17, 42<br />

– invariantes 71<br />

Ergodensatz<br />

– Individueller (Birkhoff) 419<br />

– Statistischer (von Neumann) 420<br />

ergodisch 416<br />

Erwartungswert 97<br />

Erzeugendenfunktion 75<br />

Erzeuger 6<br />

erzeugte σ-Algebra 6, 34<br />

Etemadi<br />

– Ungleichung von 118<br />

Euler’sche Primzahlformel 50<br />

Explosion 347<br />

Exponentialverteilung 45<br />

Faktorisierungslemma 40<br />

Falle<br />

Faltung<br />

390<br />

– Dichten 266<br />

– diskrete Verteilungen 59<br />

–MaßeaufR n<br />

60, 266<br />

Faltungshalbgruppe 280<br />

Färbungssatz 517<br />

fast alle 31<br />

fast sicher 31<br />

fast überall 31<br />

Fatou, Lemma von 91<br />

Feinheit 467<br />

Feller-Eigenschaft 445<br />

– starke 566<br />

Feller-Prozess 446<br />

Feller’sche Halbgruppe 445<br />

Feller’sche Verzweigungsdiffusion<br />

558, 570<br />

463,<br />

Filtration 185<br />

– rechtsstetige 444<br />

– übliche Bedingungen 444<br />

de Finetti, Satz von 229, 257<br />

Fischer-Riesz, Satz von 147<br />

Fluchtwahrscheinlichkeit 399


Fluss 394<br />

Fortsetzungssatz für Maße 19, 23<br />

Fourier-Inversionsformel 286<br />

freie Energie 506<br />

Frobenius Problem 367<br />

f.s. siehe fast sicher<br />

f.ü. siehe fast überall<br />

Fubini, Satz von 265<br />

–für Itô-Integrale 545<br />

–für Übergangskerne 270<br />

Funktionaler Zentraler Grenzwertsatz 456<br />

Galton-Watson-Prozess 81<br />

– Reskalierung 460<br />

Gambler’s Ruin 205, 385<br />

Gamma-Verteilung 46<br />

–Lévy-Maß 322<br />

– Subordinator 520<br />

Gedächtnislosigkeit der Exponentialverteilung<br />

168<br />

GEM-Verteilung 522, 524<br />

gemeinsame Verteilung 56<br />

gemeinsame Verteilungsfunktion 56<br />

Generator 345<br />

geometrische Brown’sche Bewegung 554<br />

geometrische Verteilung 44<br />

Gesetz der großen Zahl<br />

– Konvergenzraten 115<br />

– schwaches 104<br />

– starkes 104, 108, 227<br />

gestoppter Prozess 204<br />

Gewichtsfunktion 13<br />

Gibbs-Sampler 381<br />

gitterverteilt 294<br />

gleichgradig gleichmäßig stetig 295<br />

gleichgradig integrierbar 130<br />

Gleichverteilung 12, 33<br />

gleitendes Mittel 185, 416<br />

Graph 64<br />

Greenfunktion 351, 391<br />

– Tabelle 359<br />

Gronwall Lemma 555<br />

große Abweichungen 491<br />

größenverzerrte Verteilung 256<br />

Haar-Funktionen 448<br />

Hahn’scher Zerlegungssatz 156<br />

Halbring 3<br />

halbstetig von unten 494<br />

Sachregister 595<br />

haploid 343<br />

harmonische Funktion 360, 390<br />

harmonisches Maß 546<br />

Hartman-Wintner, Satz von 486<br />

Hauptsatz der Differential- und Integralrechnung<br />

239<br />

heat bath algorithm 381<br />

Hedge 196<br />

Helly, Satz von 250<br />

Helmholtz-Potential 506<br />

Hilbertraum 147<br />

Hilbert-Schmidt Norm 554<br />

Hilbert-Schmidt Operator 271<br />

Hölder’sche Ungleichung 146<br />

Hölder-stetig 430<br />

Hopf 418<br />

hypergeometrische Verteilung 45<br />

identisch verteilt 42<br />

i.i.d. siehe u.i.v.<br />

Indikatorfunktion 5<br />

Inhalt 12<br />

Inneres 234<br />

integrierbar 86<br />

Integral 83, 84, 86,87<br />

– Riemann 93<br />

– stochastisches 449, 450<br />

integrierbar 97<br />

– quadrat 97<br />

– stochastischer Prozess 184<br />

Intensitätsmaß 510<br />

invariantes Ereignis 416<br />

Invarianzprinzip von Donsker 457<br />

inverse Temperatur 505<br />

Inversionsformel 286<br />

Irrfahrt 334<br />

– auf einem Graphen 393<br />

– Greenfunktion (Tabelle) 359<br />

–inzufälliger Umgebung 414<br />

– Range 423<br />

– Rekurrenz 353<br />

– Satz von Chung-Fuchs 424<br />

– Satz von Pólya 353<br />

– symmetrische 184<br />

Ising-Modell 377, 382<br />

Iterierter Logarithmus<br />

– Brown’sche Bewegung 477<br />

– Hartman-Wintner 486<br />

ItoFormel


596 Sachregister<br />

–Itô-Formel<br />

– – mehrdimensional 544<br />

Itô-Formel 539<br />

– diskrete 202<br />

– pfadweise 539<br />

Itô-Integral 531<br />

– Produktregel 544<br />

– Satz von Fubini 545<br />

Jensen’sche Ungleichung 144, 172<br />

Jordan, Satz von 158<br />

kanonische Brown’sche Bewegung 453<br />

kanonischer Prozess 261<br />

kanonisches Maß 320, 323, 516<br />

Kantenperkolation 65, 389<br />

Kaufoption 196<br />

Kelvin siehe Thomson<br />

Kesten-Stigum, Satz von 220<br />

Khinchin’sches Gesetz vom iterierten<br />

Logarithmus 486<br />

Kirchhoff’sches Gesetz 394<br />

Kolmogorov-Chentsov, Satz von 432<br />

Kolmogorov’sche Ungleichung 116<br />

Kolmogorov’scher Dreireihensatz 310<br />

Kolmogorov’scher Erweiterungssatz 275<br />

Kolmogorov’sches 0-1 Gesetz 63<br />

Kolmogorov’sches Kriterium für schwache<br />

Relativkompaktheit 455<br />

Kolmogorov-Smirnov Test 459<br />

komplementstabil 1<br />

konkave Funktion 142<br />

Kontraktionsprinzip 502<br />

Konvergenz<br />

– dem Maße nach 126<br />

– fast sichere 126<br />

–fastüberall 126<br />

– im Mittel 127<br />

–imp-ten Mittel 140<br />

– in Verteilung 243<br />

– majorisierte 135<br />

– schnelle 128<br />

– schwache 78, 240<br />

– stochastische 126<br />

– vage 240<br />

– von Verteilungsfunktionen 244<br />

konvexe Funktion 142<br />

konvexe Menge 141<br />

Koordinatenabbildung 260<br />

Kopplung 67, 369<br />

Kopplung aus der Vergangenheit 383<br />

korreliert 98<br />

Kovarianz 98<br />

Kovarianzfunktion 437<br />

Kullback-Leibler Information 499<br />

Ladungsverteilung 156<br />

λ-System siehe Dynkin-System<br />

langsam variierend 329<br />

Laplace-Operator 543<br />

Laplace-Raum 12<br />

Laplace-Transformation 137, 284, 461,<br />

511<br />

Large Deviations siehe Prinzip großer<br />

Abweichungen<br />

LDP siehe Prinzip großer Abweichungen<br />

Lebesgue-Borel-Maß siehe Lebesgue-<br />

Maß<br />

Lebesgue-Integral 89<br />

Lebesgue-Maß 25,32<br />

Lebesgue’scher Konvergenzsatz 135<br />

Lebesgue’scher Zerlegungssatz 152<br />

Lebesgue-Stieltjes Integral 466<br />

Lebesgue-Stieltjes-Maß 26<br />

Legendre-Transformierte 491<br />

Leistung (elektrisches Netzwerk) 397<br />

Leitfähigkeit 393<br />

Lévy-Abstand 246<br />

Lévy-Khinchin Formel 320, 323<br />

–für zufällige Maße 517<br />

Lévy-Maß 320, 323<br />

– allgemeine stabile Verteilung 328<br />

– Cauchy-Verteilung 326<br />

– Gamma-Verteilung 322<br />

– symmetrische stabile Verteilung 327<br />

Lévy’scher Stetigkeitsmodul 480<br />

Lévy’scher Stetigkeitssatz 296<br />

Limes inferior 5<br />

Lindeberg-Bedingung 305<br />

Lipschitz-stetig 237<br />

logarithmische momentenerzeugende<br />

Funktion 491<br />

Log-Normalverteilung 284<br />

lokal beschränkt 193<br />

lokal endlich 235<br />

lokales Martingal 470<br />

lokalisierende Folge 470<br />

lokalkompakt 234


Lokalzeit 201<br />

L p –beschränkt 132<br />

Lusin 238<br />

LV 156<br />

Lyapunov-Bedingung 305<br />

Markoveigenschaft<br />

– elementare 333<br />

– schwache 334<br />

– starke 338<br />

Markovkern 175<br />

Markovkette 334<br />

– aperiodische 366<br />

– diskrete 340<br />

– invariante Verteilung 360<br />

– invariantes Maß 360<br />

– irreduzibel 352<br />

– Konvergenzgeschwindigkeit 383<br />

– Konvergenzsatz 375<br />

– Kopplung 370<br />

– Monte Carlo Methode 376<br />

– nullrekurrent 350<br />

– Periode eines Punktes 366<br />

– positiv rekurrent 350<br />

– rekurrent 350<br />

– reversible 392<br />

– schwach irreduzibel 352<br />

– transient 350<br />

– unabhängiges Verschmelzen 371<br />

Markovprozess 334<br />

Markov’sche Halbgruppe 277<br />

Markov’sche Ungleichung 104<br />

– bedingte 174<br />

Martingal 188<br />

– Konvergenzsatz (L 1 ) 213<br />

– Konvergenzsatz (L p ) 214<br />

– Konvergenzsatz (f.s.) 212<br />

– Konvergenzsatz (rückwärts) 226<br />

– Konvergenzsätze (RCLL) 446<br />

– lokales 470<br />

– quadratische Variation 200<br />

–Rückwärts- 226<br />

Martingaldarstellungssatz 542<br />

Martingalproblem 563<br />

– diskretes 344<br />

– gut gestelltes 564<br />

Martingaltransformierte 192<br />

Maß 12<br />

– äußeres 21<br />

Sachregister 597<br />

– Bernoulli 29<br />

– Borel 235<br />

– Einschränkung 32<br />

– harmonisches 546<br />

– invariantes 360<br />

– Lebesgue 25<br />

– lokal endliches 235<br />

– Produkt- 29, 276<br />

– Radon 235<br />

– reguläres 235<br />

– σ-endliches 12<br />

– signiertes 156<br />

– stationäres 360<br />

– Wahrscheinlichkeits- 12<br />

Maßraum 17<br />

maßtreue Abbildung 416<br />

Maximal-Ergodenlemma 418<br />

MCMC 376<br />

mean field 507<br />

mehrstufiges Binomialmodell 197<br />

Mellin-Transformierte 287<br />

messbar<br />

– Abbildung 33<br />

– Borel 8<br />

– Lebesgue 32<br />

– μ– 22<br />

– Menge 17<br />

Messraum 17<br />

– Isomorphie 179<br />

Metrik<br />

–aufC([0, ∞)) 451<br />

–Lévy 246<br />

– Prohorov 240<br />

– stochastische Konvergenz 127<br />

– vollständige 234<br />

– Wasserstein 370<br />

metrisierbar 234<br />

Metropolis-Algorithmus 377<br />

Minkowski’sche Ungleichung 146<br />

mischend 426<br />

Modifikation 429<br />

Momente 97<br />

– absolute 97<br />

Momentenproblem 301<br />

monoton 11<br />

Monotonieprinzip von Rayleigh 396<br />

Monte Carlo Simulation 111<br />

Moran-Gamma-Subordinator 520


598 Sachregister<br />

Moran-Modell 343<br />

de Morgan’sche Regeln 2<br />

moving average 416<br />

negative Binomialverteilung 44, 77<br />

Niveaumenge 494<br />

Normalverteilung 45<br />

– mehrdimensionale 45, 312<br />

Nullmenge 31<br />

nullrekurrent 350<br />

offen 8<br />

Ohm’sches Gesetz 394<br />

Optional Sampling Theorem 203, 208<br />

– stetige Zeit 435<br />

Optional Stopping Theorem 204<br />

– stetige Zeit 435<br />

Ornstein-Uhlenbeck Prozess 553<br />

orthogonale Polynome 388<br />

orthogonales Komplement 148<br />

Parseval’sche Gleichung 447<br />

partiell stetig 296<br />

Partitionsfunktion 378, 505<br />

Pascal-Verteilung 44<br />

perfekte Simulation 382<br />

Periode 366<br />

Perkolation 64, 389<br />

Petersburger Spiel 92, 185, 193<br />

Pfad 431<br />

pfadweise eindeutig 562<br />

Phasenübergang 378, 508<br />

π-System siehe schnittstabil<br />

Plancherel’sche Gleichung 287<br />

Poisson-Approximation 79<br />

Poisson-Dirichlet-Verteilung 521, 524<br />

Poissonprozess 120, 335<br />

Poisson’sche Summationsformel 443<br />

Poisson’scher Punktprozess 511<br />

Poisson-Verteilung 45<br />

– zusammengesetzte 317<br />

polare Menge 550<br />

Polarisationsformel 468<br />

polnischer Raum 180, 235<br />

Pólya, Satz von 297, 353<br />

Pólya’sches Urnenmodell 232, 276, 519<br />

– verallgemeinertes 347, 349<br />

Portemanteau-Theorem 242<br />

positiv rekurrent 350<br />

positiv semidefinit 298<br />

Präfixcode 113<br />

Prämaß 12<br />

previsibel 185, 530<br />

Prinzip großer Abweichungen 495<br />

Produktmaß 27, 29, 264, 274, 276<br />

produktmessbar 530<br />

Produktraum 260<br />

Produkt-σ-Algebra 260<br />

Produkttopologie 260<br />

progressiv messbar 530<br />

Prohorov 248<br />

Prohorov-Metrik 240, 375<br />

projektive Familie 274<br />

projektiver Limes 275<br />

Propp-Wilson Algorithmus 382<br />

Punkte trennend 282<br />

Punktperkolation 65<br />

Q-Matrix 345<br />

Quader 9<br />

quadratintegrierbar 97<br />

quadratische Variation 468<br />

quadratischer Kovariationsprozess 475<br />

quadratischer Variationsprozess 200, 471<br />

Quellenkodierungssatz 114<br />

Radon-Maß 235<br />

Radon-Nikodym-Ableitung 152<br />

Rand 234<br />

random walk in random environment 414<br />

Ratenfunktion 490, 495<br />

Rayleigh’sches Monotonieprinzip 396<br />

RCLL 444<br />

Rechteckzylinder 262<br />

Reflexionsprinzip 339<br />

– Brown’sche Bewegung 442<br />

reguläre Version der bedingten Verteilung<br />

176<br />

Regularität von Maßen 31, 235<br />

Rejection Sampling 182<br />

rekurrent 350<br />

relativ kompakt 234<br />

replizierbar 196<br />

reversibel 377, 392<br />

Riemann-Integral 93<br />

Riemann’sche Zetafunktion 50<br />

Ring 3<br />

risikoneutral 196


Rückwärtsmartingal 226<br />

Satz<br />

– Approximation von Maßen 29<br />

– Arzelà-Ascoli 454<br />

– Beppo Levi 91<br />

– Berry-Esseen 311<br />

– Bochner 298<br />

– Borel-Cantelli Lemma 51<br />

– – bedingte Version 219<br />

– Carathéodory 19, 23<br />

– Choquet-Deny 374<br />

– Chung-Fuchs 357, 424<br />

– Continuous Mapping Theorem 245<br />

– Cramér 491, 497<br />

– Donsker 457<br />

– Dreireihen 310<br />

– Egorov 130<br />

– Etemadi 108<br />

– Fatou’sches Lemma 91<br />

– de Finetti 229, 257<br />

– Fischer-Riesz 147<br />

– Fortsetzung zu Maßen 19, 23<br />

– Fubini 265<br />

– Fubini für Itô-Integrale 545<br />

– Fubini für Übergangskerne 270<br />

– Glivenko-Cantelli 111<br />

– große Abweichungen 491<br />

– Hahn’scher Zerlegungssatz 156<br />

– Hartman-Wintner 486<br />

– Hauptsatz der Differential- und<br />

Integralrechnung 239<br />

– Helly 250<br />

– Hewitt-Savage 228<br />

– Ionescu-Tulcea 273<br />

– iterierter Logarithmus 478, 486<br />

– Jordan’scher Zerlegungssatz 158<br />

– Kantorovich-Rubinstein 370<br />

– Kesten-Stigum 220<br />

– Kolmogorov-Chentsov 432<br />

– Kolmogorov’sche Ungleichung 116<br />

– Kolmogorov’scher Dreireihensatz 310<br />

– Kolmogorov’scher Erweiterungssatz<br />

275<br />

– Kolmogorov’sches Kriterium für<br />

schwache Relativkompaktheit 455<br />

– Lebesgue’scher Zerlegungssatz 152<br />

–Lévy-Khinchin 320, 323<br />

– Lindeberg-Feller 306<br />

Sachregister 599<br />

– Lusin 238<br />

– majorisierte Konvergenz 135<br />

– Martingalsdarstellung 542<br />

– monotone Konvergenz 91<br />

– Optional Sampling 203, 208<br />

– Optional Sampling, stetige Zeit 435<br />

– Optional Stopping 204<br />

– Optional Stopping, stetige Zeit 435<br />

– Paley-Wiener-Zygmund 439<br />

– π–λ 7<br />

– Poisson-Approximation 79<br />

–Pólya 297, 353<br />

– Portemanteau 242<br />

– Prohorov 248<br />

– Quellenkodierungssatz 114<br />

– Rademacher–Menshov 117<br />

– Radon-Nikodym 152, 217<br />

– Rayleigh’sches Monotonieprinzip 396<br />

– reguläre bedingte Verteilungen 176,<br />

180<br />

– Sanov 500<br />

– Shannon 112<br />

– Skorohod’sche Einbettung 480<br />

– Slutzky 243<br />

– Stetigkeitssatz von Lévy 296<br />

– Stone-Weierstraß 282<br />

– Stroock-Varadhan 566<br />

– Thomson’sches Prinzip 398<br />

– Varadhan’sches Lemma 503<br />

– Yamada-Watanabe 558<br />

Schauderfunktionen 448<br />

Schema von Zufallsvariablen 305<br />

schnittstabil 1<br />

schwache Konvergenz 240<br />

schwache Lösung 560<br />

schwache Topologie 240<br />

SDGL siehe stochastische Differentialgleichung<br />

Semiring 3<br />

separabel 234<br />

Shannon 112<br />

Shift 417<br />

σ-additiv 11<br />

σ-Algebra 2<br />

– austauschbare 223<br />

–derτ-Vergangenheit 187<br />

– invariante 416<br />

– Produkt- 260


600 Sachregister<br />

– terminale 61, 224<br />

σ-kompakt 234<br />

σ-Ring 3<br />

σ-subadditiv 12<br />

signiertes Maß 156<br />

singulär 151<br />

Skalarprodukt 147<br />

Skorohod’scher Einbettungssatz 480<br />

Slutzky, Satz von 243<br />

Spannung 394<br />

Spektrallücke 384<br />

Spiegelungsprinzip 339<br />

Spielstrategie 193<br />

Spin 377<br />

Spur 10<br />

stabile Verteilung 298, 327<br />

– im weiteren Sinne 328<br />

Standardabweichung 97<br />

starke Lösung 552<br />

starke Lösung 552<br />

starke Markoveigenschaft 338<br />

stationär 415<br />

stetig von oben/ unten 15<br />

Stetigkeitslemma 136<br />

Stetigkeitsmodul, Lévy’scher 480<br />

Stetigkeitssatz, Lévy’scher 296<br />

Stirling’sche Formel 301, 491<br />

stochastisch größer 369<br />

Stochastische Differentialgleichung<br />

– pfadweise Eindeutigkeit 562<br />

– schwache Lösung 560<br />

– starke Lösung 552<br />

– starke Lösung unter Lipschitz-<br />

Bedingungen 555<br />

stochastische Differentialgleichung 551<br />

stochastische Kerne<br />

– Produkt 268<br />

stochastische Matrix 341<br />

stochastische Ordnung 369<br />

stochastischer Kern 175<br />

– Halbgruppe 277<br />

– konsistente Familie 276<br />

– Verkettung 269<br />

stochastischer Prozess 183<br />

– adaptiert 185<br />

– Dualität 567<br />

– Explosion 347<br />

– Galton-Watson 81, 219<br />

– Gauß’scher 184, 437<br />

– gestoppter 204<br />

– integrierbarer 184<br />

– Markoveigenschaft 333<br />

– Modifikation 429<br />

– Pfad 431<br />

– Poisson 335<br />

– previsibel 530<br />

– previsibler 185<br />

– produktmessbar 530<br />

– progressiv messbar 530<br />

– starke Markoveigenschaft 338<br />

– stationärer 184<br />

– stationäre Zuwächse 184<br />

– unabhängige Zuwächse 184<br />

– ununterscheidbar 429<br />

– Version 429<br />

– vorhersagbar 530<br />

– vorhersagbarer 185<br />

stochastisches Integral 449, 450<br />

– diskretes 192<br />

Stone-Weierstraß, Satz von 282<br />

Stoppzeit 186<br />

straff 248<br />

Stratonovich-Integral 545<br />

Streuung 97<br />

Stromstärke 394<br />

Student’sche t-Verteilung 316<br />

Sub-Wahrscheinlichkeitsmaße 236<br />

subadditiv 11<br />

subharmonisch 360<br />

Submartingal 188<br />

Subordinator 516<br />

Supermartingal 188<br />

symmetrische Differenz 29<br />

symmetrische einfache Irrfahrt 184<br />

tail σ-field siehe terminale σ-Algebra<br />

terminale σ-Algebra 61, 224<br />

Thomson’sches Prinzip 398<br />

Topologie 8<br />

– schwache 240<br />

– vage 240<br />

topologischer Raum 8<br />

total beschränkt 235<br />

totale Wahrscheinlichkeit 166<br />

totalstetig 154<br />

Totalvariationsnorm 158<br />

Transformationsformel 41


transient 350<br />

translationsinvariant 342<br />

trennende Familie 237<br />

Tschebyscheff siehe Chebyshev<br />

Turmeigenschaft 170<br />

t-Verteilung 316<br />

Übergangskern 175<br />

Übergangsmatrix 340<br />

Übergangswahrscheinlichkeiten 334<br />

übliche Bedingungen 444<br />

u.i.v. 55<br />

unabhängige Inkremente siehe unabhängige<br />

Zuwächse<br />

unabhängige Kopie 369<br />

unabhängige Zuwächse 511<br />

Unabhängigkeit<br />

– bedingte 229<br />

– von Ereignissen 49<br />

– von Mengensystemen 53<br />

– von Zufallsvariablen 55<br />

unbegrenzt teilbar 315<br />

–zufälliges Maß 516<br />

Ungleichung<br />

– Azuma 192<br />

– Bernstein-Chernov 106<br />

– Cauchy-Schwarz 101<br />

– Chebyshev 104<br />

– Doob 210<br />

– Etemadi 118<br />

–Hölder 146<br />

– Jensen 144<br />

– Kolmogorov 116<br />

–Markov siehe Chebyshev<br />

– Minkowski 146<br />

– Young 146<br />

uniforme Verteilung 33<br />

unkorreliert 98<br />

Unstetigkeitsstellen 11<br />

ununterscheidbar 429<br />

vage Konvergenz 240<br />

vage Topologie 240<br />

Varadhan’sches Lemma 503<br />

Varianz 97<br />

Variation 466<br />

– p 468<br />

– quadratische 468<br />

Verkettung von Kernen 269<br />

Sachregister 601<br />

Version 429<br />

Verteilung 42<br />

– Anziehungsbereich 329<br />

– Bernoulli 43<br />

– Beta 46, 232, 303, 519<br />

– binomial 44<br />

– Boltzmann 378<br />

– Cauchy 46, 289, 547<br />

– compound Poisson 317<br />

– Exponential- 45<br />

– Gamma 46, 303<br />

– GEM 522, 524<br />

– geometrische 44<br />

– hypergeometrische 45<br />

– negativ binomial 44, 77<br />

– Normal 45<br />

– Pascal 44, 77<br />

– Poisson 45<br />

– Poisson-Dirichlet 519, 521, 524<br />

– stabile 327<br />

– t- 316<br />

– uniforme 12, 33<br />

– zusammengesetzt Poisson 317<br />

– zweiseitig exponential 289<br />

Verteilungsfunktion 21, 27<br />

– einer Zufallsvariablen 42<br />

– empirische 111<br />

Vervollständigung 32<br />

Verwerfungsmethode 182<br />

Verzweigungsprozess 81, 219<br />

Vitali-Menge 9<br />

vollständig 32, 234<br />

vorhersagbar 185, 530<br />

voter model siehe Wählermodell<br />

Wahrscheinlichkeitsmaß 12<br />

Wahrscheinlichkeitsraum 17<br />

Wahrscheinlichkeitsvektor 13<br />

Wald’sche Identität 99<br />

Wasserstein Metrik 370<br />

Watson Integral 358<br />

Weierstraß’scher Approximationssatz 106<br />

Weiss’scher Ferromagnet 506<br />

Widerstand 393<br />

Wiener-Prozess 453<br />

W-Maß siehe Wahrscheinlichkeitsmaß<br />

Wright’sches Evolutionsmodell 343<br />

Wright-Fisher Diffusion 568<br />

– wechselwirkende 572


602 Sachregister<br />

Wählermodell 216<br />

Young’sche Ungleichung 146<br />

Zentraler Grenzwertsatz 304<br />

– Berry-Esseen 311<br />

– Lindeberg-Feller 306<br />

– mehrdimensional 313<br />

zentriert 97<br />

Zerlegungsfolge, zulässige 467<br />

zufälliges Maß 510<br />

Zufallsvariable 42<br />

zulässige Zerlegungsfolge 467<br />

zusammengesetzte Poissonverteilung 317<br />

Zustandssumme 378, 505<br />

Zweistufenexperiment 259<br />

Zylindermenge 18, 262<br />

Zählmaß 13

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!