Klenke Wahrscheinlichkeitstheorie
Klenke Wahrscheinlichkeitstheorie
Klenke Wahrscheinlichkeitstheorie
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Klenke</strong><br />
<strong>Wahrscheinlichkeitstheorie</strong>
Achim <strong>Klenke</strong><br />
<strong>Wahrscheinlichkeitstheorie</strong><br />
Mit 34 Abbildungen<br />
123
Prof. Dr. Achim <strong>Klenke</strong><br />
Institut für Mathematik<br />
Johannes Gutenberg-Universität Mainz<br />
Staudingerweg 9<br />
55099 Mainz, Deutschland<br />
e-mail: math@aklenke.de<br />
Bibliografische Information der Deutschen Bibliothek<br />
Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;<br />
detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.<br />
Mathematics Subject Classification (2000): 60-01, 28-01, 60G05, 60J10, 60H05<br />
ISBN-10 3-540-25545-1 Springer Berlin Heidelberg New York<br />
ISBN-13 978-3-540-25545-1 Springer Berlin Heidelberg New York<br />
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der<br />
Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung,<br />
der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in<br />
Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung<br />
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen<br />
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom<br />
9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig.<br />
Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.<br />
Springer ist ein Unternehmen von Springer Science+Business Media<br />
springer.de<br />
© Springer-Verlag Berlin Heidelberg 2006<br />
Printed in Germany<br />
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk<br />
berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, daß solche Namen im Sinne<br />
der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von<br />
jedermann benutzt werden dürften. Text und Abbildungen wurden mit größter Sorgfalt erarbeitet.<br />
Verlag und Autor können jedoch für eventuell verbliebene fehlerhafte Angaben und deren Folgen<br />
weder eine juristische Verantwortung noch irgendeine Haftung übernehmen.<br />
Umschlaggestaltung: design & production GmbH, Heidelberg<br />
Herstellung: LE-TEXJelonek,Schmidt&VöcklerGbR,Leipzig<br />
Satz: Datenerstellung durch den Autor unter Verwendung eines Springer TEX-Makropakets<br />
Gedruckt auf säurefreiem Papier 44/3100YL - 543210
Vorwort<br />
Das vorliegende Buch basiert auf den vierstündigen Vorlesungen Stochastik I und<br />
Stochastik II, die ich in den vergangenen Jahren an der Universität zu Köln und<br />
an der Johannes Gutenberg-Universität in Mainz gehalten habe, und die an eine<br />
Vorlesung über elementare Stochastik anschließen. Eine gewisse Vertrautheit mit<br />
den Ideen der elementaren Stochastik wird zwar nicht formal vorausgesetzt, dem<br />
Leser jedoch empfohlen.<br />
Ziel dieses Buches ist es, die zentralen Objekte und Konzepte der <strong>Wahrscheinlichkeitstheorie</strong><br />
vorzustellen: Zufallsvariablen, Unabhängigkeit, Gesetze der großen<br />
Zahl und zentrale Grenzwertsätze, Martingale, Austauschbarkeit und unbegrenzte<br />
Teilbarkeit, Markovketten und -prozesse sowie den Zusammenhang mit der diskreten<br />
Potentialtheorie, Kopplung, Ergodentheorie, die Brown’sche Bewegung und<br />
das Itô-Integral (nebst stochastischen Differentialgleichungen), den Poisson’schen<br />
Punktprozess, Perkolation und die Theorie der großen Abweichungen, sowie stochastische<br />
Differentialgleichungen.<br />
Die Maß- und Integrationstheorie wird entwickelt, soweit sie für das Verständnis<br />
und die Formulierung der <strong>Wahrscheinlichkeitstheorie</strong> notwendig ist: Konstruktion<br />
von Maßen und Integralen, Satz von Radon-Nikodym und reguläre bedingte Verteilungen,<br />
Konvergenzsätze für Funktionen (Lebesgue) und Maße (Prohorov) und<br />
Konstruktion von Maßen in Produkträumen. Die einzelnen maßtheoretischen Kapitel<br />
kommen nicht als Block am Anfang des Buches, obwohl sie so geschrieben sind,<br />
dass das möglich wäre, nämlich unabhängig von den wahrscheinlichkeitstheoretischen<br />
Kapiteln, sondern abwechselnd mit wahrscheinlichkeitstheoretischen Kapiteln,<br />
die so gebaut sind, dass sie mit den gerade zur Verfügung stehenden Begriffen<br />
auskommen (beispielsweise kann man Perkolation studieren, ohne einen Integralbegriff<br />
an der Hand zu haben). Als einzige Ausnahme wird die systematische Konstruktion<br />
von unabhängigen Zufallsvariablen erst im 14ten Kapitel nachgeliefert.<br />
Ich verspreche mir von diesem Vorgehen eine Auflockerung des maßtheoretischen<br />
Stoffes, der von manchen als etwas trocken empfunden wird. Letztlich ist dieses<br />
genauso eine Geschmacksfrage wie diejenige, welches der beiden Themen als linke<br />
und welches als rechte Hand anzusehen ist.<br />
Wer eine maßtheoretische Grundbildung hat, kann insbesondere das erste Kapitel<br />
beim ersten Lesen zunächst überspringen und braucht eventuell nur Einzelnes darin<br />
nachzuschlagen. Das Gleiche gilt für das vierte Kapitel (Integrationstheorie).
VI Vorwort<br />
In den ersten acht Kapiteln wird das Fundament gelegt, das in allen weiteren Kapiteln<br />
benötigt wird. Danach können die sieben inhaltlichen Einheiten von Kapitel<br />
9–12, 13, 14, 15–16, 17–19, 20, und 23 einigermaßen unabhängig voneinander gelesen<br />
werden. Das Kapitel zur Brown’schen Bewegung (21) greift auf die Kapitel<br />
9–15 zurück. Danach sind unabhängig voneinander die Blöcke 22, 24 und 25–26<br />
lesbar.<br />
Ich danke all denjenigen, die das Manuskript gelesen und zahlreiche Verbesserungsvorschläge<br />
und Korrekturen angebracht haben: Den Mitarbeitern und Studenten Roland<br />
Alkemper, Dirk Brüggemann, Anne Eisenbürger, Ortwin Lorenz, Mario Oeler,<br />
Marcus Schölpen, den Kollegen Wolfgang Bühler und Wolfgang König sowie besonders<br />
dem Münchener Kollegen Hans-Otto Georgii. Für weitere Hinweise auf<br />
Fehler unter math@aklenke.de wäre ich dankbar.<br />
Außerdem möchte ich mich beim Springer-Verlag für die gute Zusammenarbeit bedanken.<br />
Mainz, Achim <strong>Klenke</strong><br />
November 2005
Inhaltsverzeichnis<br />
1 Grundlagen der Maßtheorie .................................. 1<br />
1.1 Mengensysteme . . . . ........................................ 1<br />
1.2 Mengenfunktionen . ........................................ 11<br />
1.3 FortsetzungvonMaßen ..................................... 17<br />
1.4 Messbare Abbildungen . . .................................... 33<br />
1.5 Zufallsvariablen . . . . ........................................ 42<br />
2 Unabhängigkeit ............................................. 47<br />
2.1 UnabhängigkeitvonEreignissen.............................. 47<br />
2.2 Unabhängigkeit von Zufallsvariablen . . . . ...................... 54<br />
2.3 Kolmogorov’sches 0-1 Gesetz . . . ............................. 61<br />
2.4 Beispiel: Perkolation . . . . .................................... 64<br />
3 Erzeugendenfunktion ........................................ 75<br />
3.1 Definition und Beispiele . .................................... 75<br />
3.2 Poisson-Approximation . .................................... 78<br />
3.3 Verzweigungsprozesse . . .................................... 80<br />
4 Das Integral ................................................ 83<br />
4.1 KonstruktionundeinfacheEigenschaften ...................... 83<br />
4.2 Monotone Konvergenz und Lemma von Fatou .................. 91<br />
4.3 Lebesgue-Integral versus Riemann-Integral . . . .................. 93<br />
5 Momente und Gesetze der Großen Zahl ......................... 97<br />
5.1 Momente ................................................. 97<br />
5.2 Schwaches Gesetz der Großen Zahl . . . . . ......................104
VIII Inhaltsverzeichnis<br />
5.3 Starkes Gesetz der Großen Zahl . .............................107<br />
5.4 KonvergenzrateimstarkenGGZ..............................115<br />
5.5 Der Poissonprozess . ........................................118<br />
6 Konvergenzsätze ............................................ 125<br />
6.1 Fast-überall- und stochastische Konvergenz . . . ..................125<br />
6.2 Gleichgradige Integrierbarkeit . . . .............................130<br />
6.3 Vertauschung von Integral und Ableitung. ......................136<br />
7 Lp-Räume und Satz von Radon-Nikodym ....................... 139<br />
7.1 Definitionen...............................................139<br />
7.2 Ungleichungen und Satz von Fischer-Riesz . . . ..................141<br />
7.3 Hilberträume ..............................................147<br />
7.4 Lebesgue’scher Zerlegungssatz . . .............................150<br />
7.5 Ergänzung: Signierte Maße . . . . . .............................154<br />
7.6 Ergänzung: Dualräume......................................160<br />
8 Bedingte Erwartungen ....................................... 165<br />
8.1 Elementare bedingte Wahrscheinlichkeiten . . . ..................165<br />
8.2 Bedingte Erwartungen . . ....................................168<br />
8.3 Reguläre Version der bedingten Verteilung . . . ..................175<br />
9 Martingale ................................................. 183<br />
9.1 Prozesse, Filtrationen, Stoppzeiten . . . . . . ......................183<br />
9.2 Martingale ................................................188<br />
9.3 Diskretes stochastisches Integral . .............................192<br />
9.4 Diskreter Martingaldarstellungssatz und CRR Modell . ...........194<br />
10 Optional Sampling Sätze ..................................... 199<br />
10.1 Doob-Zerlegung und quadratische Variation . . ..................199<br />
10.2 Optional Sampling und Optional Stopping . . . . ..................203<br />
10.3 Gleichgradige Integrierbarkeit und Optional Sampling . ...........207<br />
11 Martingalkonvergenzsätze und Anwendungen ................... 209
Inhaltsverzeichnis IX<br />
11.1 Die Doob’sche Ungleichung . . . . .............................209<br />
11.2 Martingalkonvergenzsätze . . . . . . .............................211<br />
11.3 Beispiel: Verzweigungsprozess . . .............................219<br />
12 Rückwärtsmartingale und Austauschbarkeit..................... 221<br />
12.1 Austauschbare Familien von Zufallsvariablen . ..................221<br />
12.2 Rückwärtsmartingale .......................................226<br />
12.3 Satz von de Finetti . . ........................................228<br />
13 Konvergenz von Maßen ...................................... 233<br />
13.1 Wiederholung Topologie ....................................233<br />
13.2 Schwache und vage Konvergenz . .............................240<br />
13.3 Der Satz von Prohorov . . ....................................248<br />
13.4 Anwendung: Satz von de Finetti – anders angeschaut . . ...........257<br />
14 W-Maße auf Produkträumen ................................. 259<br />
14.1 Produkträume..............................................260<br />
14.2 Endliche Produkte und Übergangskerne........................263<br />
14.3 Satz von Ionescu-Tulcea und Projektive Familien . . . . . ...........272<br />
14.4 Markov’sche Halbgruppen . . . ................................276<br />
15 Charakteristische Funktion und Zentraler Grenzwertsatz ......... 281<br />
15.1 Trennende Funktionenklassen . . . .............................281<br />
15.2 Charakteristische Funktionen: Beispiele . . ......................288<br />
15.3 Der Lévy’sche Stetigkeitssatz . . . .............................294<br />
15.4 Charakteristische Funktion und Momente ......................299<br />
15.5 Der Zentrale Grenzwertsatz . . . . . .............................304<br />
15.6 Mehrdimensionaler Zentraler Grenzwertsatz . . ..................312<br />
16 Unbegrenzt teilbare Verteilungen .............................. 315<br />
16.1 Die Lévy-Khinchin Formel . . . . . .............................315<br />
16.2 Stabile Verteilungen ........................................327<br />
17 Markovketten .............................................. 333
X Inhaltsverzeichnis<br />
17.1 Begriffsbildung und Konstruktion . . . . . . . ......................333<br />
17.2 Diskrete Markovketten, Beispiele .............................340<br />
17.3 Diskrete Markovprozesse in stetiger Zeit . ......................344<br />
17.4 Diskrete Markovketten, Rekurrenz und Transienz . . . . . ...........349<br />
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten . ...........353<br />
17.6 Invariante Verteilungen . . ....................................360<br />
18 Konvergenz von Markovketten ................................ 365<br />
18.1 Periodizität von Markovketten . . . .............................365<br />
18.2 Kopplung und Konvergenzsatz . . .............................369<br />
18.3 Markovketten Monte Carlo Methode . . . . ......................376<br />
18.4 Konvergenzgeschwindigkeit. . . . . .............................383<br />
19 Markovketten und elektrische Netzwerke ....................... 389<br />
19.1 Harmonische Funktionen ....................................389<br />
19.2 Reversible Markovketten ....................................392<br />
19.3 Elektrische Netzwerke . . ....................................393<br />
19.4 Rekurrenz und Transienz ....................................399<br />
19.5 Netzwerkreduktion . ........................................405<br />
19.6 Irrfahrt in zufälliger Umgebung . . .............................412<br />
20 Ergodentheorie ............................................. 415<br />
20.1 Begriffsbildung . . . . ........................................415<br />
20.2 Ergodensätze . . . . . . ........................................418<br />
20.3 Beispiele . . . ...............................................421<br />
20.4 Anwendung: Rekurrenz von Irrfahrten . . . ......................423<br />
20.5 Mischung . . ...............................................426<br />
21 Die Brown’sche Bewegung .................................... 429<br />
21.1 Stetige Modifikationen ......................................429<br />
21.2 Konstruktion und Pfadeigenschaften . . . . . ......................436<br />
21.3 Starke Markoveigenschaft . . . . . . .............................441<br />
21.4 Ergänzung: Feller Prozesse . . . . . .............................444
Inhaltsverzeichnis XI<br />
21.5 Konstruktion durch L2-Approximation ........................447<br />
21.6 Der Raum C([0, ∞)) .......................................451<br />
21.7 Konvergenz von W-Maßen auf C([0, ∞)) ......................453<br />
21.8 Satz von Donsker. ..........................................456<br />
21.9 Pfadweise Konvergenz von Verzweigungsprozessen∗ .............460<br />
21.10Quadratische Variation und lokale Martingale . ..................465<br />
22 Gesetz vom iterierten Logarithmus ............................. 477<br />
22.1 Iterierter Logarithmus für die Brown’sche Bewegung . . ...........477<br />
22.2 Skorohod’scher Einbettungssatz . .............................480<br />
22.3 Satz von Hartman-Wintner . . . . . . .............................486<br />
23 Große Abweichungen ........................................ 489<br />
23.1 Satz von Cramér ...........................................490<br />
23.2 Prinzip der großen Abweichungen . . . . . . ......................494<br />
23.3 Satz von Sanov . . . . ........................................498<br />
23.4 Varadhan’sches Lemma und Freie Energie . . . . ..................502<br />
24 Der Poisson’sche Punktprozess ................................ 509<br />
24.1 Zufällige Maße . . . . ........................................509<br />
24.2 Eigenschaften des Poisson’schen Punktprozesses . . . . . ...........513<br />
24.3 Die Poisson-Dirichlet-Verteilung∗ .............................519<br />
25 Das Itô-Integral ............................................. 527<br />
25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung ...........527<br />
25.2 Itô-Integral bezüglich Diffusionen . . . . . . . ......................535<br />
25.3 Die Itô-Formel.............................................538<br />
25.4 Dirichlet-Problem und Brown’sche Bewegung ..................546<br />
25.5 Rekurrenz und Transienz der Brown’schen Bewegung . ...........548<br />
26 Stochastische Differentialgleichungen .......................... 551<br />
26.1 Starke Lösungen . . . ........................................551<br />
26.2 Schwache Lösungen und Martingalproblem . . ..................560<br />
26.3 Eindeutigkeit schwacher Lösungen via Dualität .................567
XII Inhaltsverzeichnis<br />
Literatur....................................................... 575<br />
Notation ....................................................... 583<br />
Glossar englischer Ausdrücke ..................................... 587<br />
Namensregister ................................................. 589<br />
Sachregister .................................................... 593
1 Grundlagen der Maßtheorie<br />
In diesem Kapitel führen wir die Mengensysteme ein, die eine systematische Betrachtung<br />
von Ereignissen und zufälligen Beobachtungen in der <strong>Wahrscheinlichkeitstheorie</strong><br />
erlauben. Ferner sollen Maße, insbesondere Wahrscheinlichkeitsmaße,<br />
auf solchen Mengensystemen konstruiert werden. Schließlich werden wir Zufallsvariablen<br />
als messbare Abbildungen definieren.<br />
1.1 Mengensysteme<br />
Im Folgenden ist stets Ω �= ∅ eine Menge und A⊂2 Ω (Potenzmenge von Ω)<br />
eine Familie von Teilmengen. Später wird die Menge Ω als Raum von Elementarereignissen<br />
interpretiert werden und A als ein System von beobachtbaren Ereignissen.<br />
Wir wollen in diesem Abschnitt Mengensysteme, die abgeschlossen sind unter<br />
einfachen mengentheoretischen Verknüpfungen, mit Namen versehen und einfache<br />
Beziehungen zwischen solchen Systemen herstellen.<br />
Definition 1.1. Das Mengensystem A heißt<br />
– ∩-stabil (sprich: schnittstabil) oder ein π-System, falls für je zwei Mengen<br />
A, B ∈Agilt, dass auch A ∩ B ∈A,<br />
– σ-∩-stabil (sigma-schnittstabil), falls für je abzählbar unendlich viele Mengen<br />
A1,A2,...∈Agilt, dass auch ∞�<br />
An ∈A,<br />
n=1<br />
– ∪-stabil (vereinigungsstabil), falls für je zwei Mengen A, B ∈Agilt, dass auch<br />
A ∪ B ∈A,<br />
– σ-∪-stabil (sigma-vereinigungsstabil), falls für je abzählbar unendlich viele Mengen<br />
A1,A2,...∈Agilt, dass auch ∞�<br />
An ∈A,<br />
n=1<br />
– \-stabil (differenzmengenstabil), falls für je zwei Mengen A, B ∈Agilt, dass<br />
auch A \ B ∈A,<br />
– komplementstabil, falls mit jeder Menge A ∈Aauch Ac := Ω \ A ∈Agilt.
2 1 Grundlagen der Maßtheorie<br />
Definition 1.2 (σ-Algebra). Ein Mengensystem A⊂2 Ω heißt σ-Algebra, falls<br />
die folgenden drei Bedingungen erfüllt sind.<br />
(i) Ω ∈A,<br />
(ii) A ist komplementstabil,<br />
(iii) A ist σ-∪-stabil.<br />
σ-Algebren sind die natürlichen Mengensysteme für zufällige Ereignisse, denn wie<br />
wir sehen werden, können wir diesen Ereignissen in konsistenter Weise Wahrscheinlichkeiten<br />
zuordnen.<br />
Satz 1.3. Ist A komplementstabil, so gelten die beiden folgenden Äquivalenzen.<br />
A ist ∩ -stabil ⇐⇒ A ist ∪ -stabil,<br />
A ist σ- ∩ -stabil ⇐⇒ A ist σ- ∪ -stabil.<br />
Beweis. Dies folgt direkt aus den de Morgan’schen Regeln (Erinnerung: ( � Ai) c =<br />
� A c i ). Ist beispielsweise A σ-∩-stabil und sind A1,A2,...∈A, so ist auch<br />
∞�<br />
n=1<br />
An =<br />
� ∞�<br />
n=1<br />
A c n<br />
� c<br />
∈A.<br />
Also ist A auch σ-∪-stabil. Die anderen Fälle folgen analog. ✷<br />
Satz 1.4. Ist A\-stabil, so gelten die folgenden Aussagen.<br />
(i) A ist ∩-stabil.<br />
(ii) Falls A σ-∪-stabil ist, dann ist A auch σ-∩-stabil.<br />
(iii) Jede abzählbare (beziehungsweise endliche) Vereinigung von Mengen aus A<br />
lässt sich als abzählbare (beziehungsweise endliche), disjunkte Vereinigung<br />
von Mengen in A schreiben.<br />
Beweis. (i) Seien A, B ∈A. Dann ist auch A ∩ B = A \ (A \ B) ∈A.<br />
(ii) Seien A1,A2,...∈A.Dannist<br />
∞�<br />
n=1<br />
An =<br />
∞�<br />
∞�<br />
∞�<br />
(A1 ∩ An) = A1 \ (A1 \ An) =A1 \ (A1 \ An) ∈A.<br />
n=2<br />
n=2<br />
(iii) Seien A1,A2,... ∈A.Dannist ∞�<br />
An als abzählbare, disjunkte Vereinigung<br />
in A darstellbar durch<br />
n=1<br />
n=2
1.1 Mengensysteme 3<br />
∞�<br />
An = A1 ⊎ (A2 \ A1) ⊎ ((A3 \ A1) \ A2) ⊎ (((A4 \ A1) \ A2) \ A3) ⊎ ... ✷<br />
n=1<br />
Bemerkung 1.5. Manchmal bezeichnen wir, wie im obigen Beweis, die Vereinigung<br />
paarweise disjunkter Mengen mit dem Symbol � . Dies soll lediglich der optischen<br />
Verdeutlichung dienen und ist keine neue Verknüpfung. ✸<br />
Definition 1.6. Ein Mengensystem A⊂2 Ω heißt Algebra, falls gilt:<br />
(i) Ω ∈A,<br />
(ii) A ist \-stabil,<br />
(iii) A ist ∪-stabil.<br />
Offenbar ist in einer Algebra stets ∅ = Ω \ Ω enthalten. Diese Eigenschaft ist im<br />
Allgemeinen jedoch schwächer als (i) in Definition 1.6.<br />
Satz 1.7. Ein Mengensystem A⊂2 Ω ist genau dann eine Algebra, wenn es folgende<br />
drei Eigenschaften hat:<br />
(i) Ω ∈A,<br />
(ii) A ist komplementstabil,<br />
(iii) A ist ∩-stabil.<br />
Beweis. Übung! ✷<br />
Definition 1.8. Ein Mengensystem A⊂2 Ω heißt Ring, falls gilt:<br />
(i) ∅∈A,<br />
(ii) A ist \-stabil,<br />
(iii) A ist ∪-stabil.<br />
Ein Ring heißt σ-Ring, falls er σ-∪-stabil ist.<br />
Definition 1.9. Ein Mengensystem A⊂2 Ω heißt Semiring (oder Halbring), falls<br />
gilt:<br />
(i) ∅∈A,<br />
(ii) für je zwei Mengen A, B ∈Aist B \ A endliche Vereinigung von paarweise<br />
disjunkten Mengen aus A,<br />
(iii) A ist ∩-stabil.
4 1 Grundlagen der Maßtheorie<br />
Definition 1.10. Ein Mengensystem A ⊂ 2 Ω heißt Dynkin-System (oder λ-System),<br />
falls gilt:<br />
(i) Ω ∈A,<br />
(ii) für je zwei Mengen A, B ∈Amit A ⊂ B ist B \ A ∈A,<br />
(iii) für<br />
�<br />
je abzählbar viele, paarweise disjunkte Mengen A1,A2,... ∈ A gilt<br />
∞<br />
n=1 An ∈A.<br />
Beispiele 1.11. (i) Ist Ω eine beliebige nichtleere Menge, so sind A = {∅,Ω} und<br />
A = 2 Ω die trivialen Beispiele für Algebren, σ-Algebren und Dynkin-Systeme.<br />
Hingegen sind A = {∅} und A =2 Ω die trivialen Beispiele für Semiringe, Ringe<br />
und σ-Ringe.<br />
(ii) Sei Ω = R. DannistA = {A ⊂ R : A ist abzählbar} ein σ-Ring.<br />
(iii) A = {(a, b] : a, b ∈ R, a≤ b} ist ein Semiring über Ω = R (aber kein<br />
Ring).<br />
(iv) Die Menge endlicher Vereinigungen von beschränkten Intervallen ist ein Ring<br />
über Ω = R (aber keine Algebra).<br />
(v) Die Menge endlicher Vereinigungen beliebiger (auch unbeschränkter) Intervalle<br />
ist eine Algebra über Ω = R (aber keine σ-Algebra).<br />
(vi) Sei E eine endliche, nichtleere Menge und Ω := E N die Menge aller Folgen<br />
ω =(ωn)n∈N mit Werten in E.Für ω1,...,ωn ∈ E sei<br />
[ω1,...,ωn] :={ω ′ ∈ Ω : ω ′ i = ωi für jedes i =1,...,n}<br />
die Menge aller Folgen, die mit den Werten ω1,...,ωn beginnen. Sei A0 = {∅}.<br />
Für n ∈ N setze<br />
An := {[ω1,...,ωn] : ω1,...,ωn ∈ E}. (1.1)<br />
Dann ist A := �∞ n=0 An ein Semiring, aber kein Ring (falls #E >1).<br />
(vii) Sei Ω eine beliebige nichtleere Menge. Dann ist<br />
A := {A ⊂ Ω : A oder A c ist endlich}<br />
eine Algebra. Ist #Ω = ∞, soistAjedoch keine σ-Algebra.<br />
(viii) Sei Ω eine beliebige nichtleere Menge. Dann ist<br />
A := {A ⊂ Ω : A oder A c ist abzählbar}<br />
eine σ-Algebra.<br />
(ix) Jede σ-Algebra ist auch ein Dynkin-System.<br />
(x) Sei Ω = {1, 2, 3, 4} und A = � ∅, {1, 2}, {1, 4}, {2, 3}, {3, 4}, {1, 2, 3, 4} � .<br />
Dann ist A ein Dynkin-System, aber keine Algebra. ✸
Satz 1.12 (Inklusionen zwischen Mengensystemen).<br />
1.1 Mengensysteme 5<br />
(i) Jede σ-Algebra ist ein Dynkin-System, eine Algebra und ein σ-Ring.<br />
(ii) Jeder σ-Ring ist ein Ring, jeder Ring ein Semiring.<br />
(iii) Jede Algebra ist auch ein Ring. Eine Algebra auf einer endlichen Menge Ω ist<br />
auch eine σ-Algebra.<br />
Beweis. (i) Das ist klar.<br />
(ii) Sei A ein Ring. Nach Satz 1.4 ist A schnittstabil und damit ein Semiring.<br />
(iii) Sei A eine Algebra, und seien A, B ∈A.DannistA \ B =(A c ∪ B) c ∈A,<br />
also ist A ein Ring. Ist zudem Ω endlich, so ist A endlich und damit jede abzählbare<br />
Vereinigung in A schon eine endliche Vereinigung. ✷<br />
Definition 1.13 (liminf und limsup). Es seien A1,A2,...Teilmengen von Ω. Dann<br />
heißen<br />
lim inf<br />
n→∞ An<br />
∞� ∞�<br />
∞� ∞�<br />
:= Am und lim sup An := Am<br />
n→∞<br />
n=1 m=n<br />
n=1 m=n<br />
Limes inferior beziehungsweise Limes superior der Folge (An)n∈N.<br />
Bemerkung 1.14. (i) Es gilt<br />
lim inf<br />
n→∞ An = � ω ∈ Ω :#{n ∈ N : ω �∈ An} < ∞ � ,<br />
lim sup An =<br />
n→∞<br />
� ω ∈ Ω :#{n ∈ N : ω ∈ An} = ∞ � .<br />
Der Limes inferior ist also das Ereignis, dass schließlich alle der An eintreten, der<br />
Limes superior hingegen das Ereignis, dass unendlich viele der An eintreten. Insbesondere<br />
ist A∗ := lim infn→∞ An ⊂ A ∗ := lim sup n→∞ An.<br />
(ii) Bezeichnen wir mit<br />
A(x) :=<br />
� 1, falls x ∈ A,<br />
0, falls x �∈ A,<br />
die Indikatorfunktion auf der Menge A,sogilt<br />
A∗<br />
= lim inf<br />
n→∞ An, A∗ = lim sup<br />
n→∞<br />
An.<br />
(1.2)<br />
(iii) Ist A⊂2 Ω eine σ-Algebra und An ∈Afür jedes n ∈ N, soistA∗ ∈Aund<br />
A ∗ ∈A. ✸<br />
Beweis. Übung! ✷
6 1 Grundlagen der Maßtheorie<br />
Satz 1.15 (Schnitt von Mengensystemen). Ist I eine beliebige Indexmenge und Ai<br />
eine σ-Algebra für jedes i ∈ I,soist<br />
AI := � A ⊂ Ω : A ∈Ai für jedes i ∈ I � = �<br />
eine σ-Algebra. Dies gilt analog für: Ringe, σ-Ringe, Algebren und Dynkin-Systeme;<br />
nicht aber für Semiringe.<br />
Beweis. Wir führen den Beweis hier nur für σ-Algebren durch. Wir prüfen für A<br />
die Punkte (i)-(iii) aus Definition 1.2.<br />
(i) Für jedes i ∈ I ist Ω ∈Ai.AlsoistΩ ∈A.<br />
(ii) Sei A ∈A.DannistA ∈Ai für jedes i ∈ I. Also ist auch A c ∈Ai für jedes<br />
i ∈ I. Mithin ist A c ∈A.<br />
(iii) Seien A1,A2,...∈A.DannistAn ∈Ai für jedes n ∈ N und jedes i ∈ I.Also<br />
ist auch A := � ∞<br />
n=1 An ∈Ai für jedes i ∈ I und damit A ∈A.<br />
Gegenbeispiel für Semiringe: Seien Ω = {1, 2, 3, 4}, A1 = {∅,Ω,{1}, {2, 3}, {4}}<br />
und A2 = {∅,Ω,{1}, {2}, {3, 4}}. Dann sind A1 und A2 Semiringe, aber A1 ∩<br />
A2 = {∅,Ω,{1}} ist keiner. ✷<br />
Satz 1.16 (Erzeugte σ-Algebra). Sei E ⊂ 2Ω Algebra σ(E) mit E⊂σ(E):<br />
. Dann existiert eine kleinste σ-<br />
�<br />
σ(E) :=<br />
A.<br />
A⊂2 Ω ist σ-Algebra<br />
A⊃E<br />
σ(E) heißt die von E erzeugte σ-Algebra. E heißt Erzeuger von σ(E). Analog wird<br />
das von E erzeugte Dynkin-System δ(E) definiert.<br />
Beweis. A =2 Ω ist eine σ-Algebra mit E⊂A. Also ist der Schnitt nicht leer. Nach<br />
Satz 1.15 ist σ(E) eine σ-Algebra, und dies ist offenbar die kleinste σ-Algebra, die<br />
E enthält. Für Dynkin-Systeme geht der Beweis genauso. ✷<br />
Bemerkung 1.17. Es gelten die folgenden einfachen Aussagen.<br />
(i) E⊂σ(E).<br />
(ii) Gilt E1 ⊂E2,soistσ(E1) ⊂ σ(E2).<br />
(iii) A ist genau dann σ-Algebra, wenn σ(A) =A.<br />
Die analogen Aussagen gelten für Dynkin-Systeme. Ferner ist stets δ(E) ⊂ σ(E).✸<br />
i∈I<br />
Ai
1.1 Mengensysteme 7<br />
Satz 1.18 (Schnittstabiles Dynkin-System). Ist D⊂2 Ω ein Dynkin-System, so gilt<br />
Beweis. ” ⇐= “ Dies ist klar.<br />
D ist ∩-stabil ⇐⇒ D ist eine σ-Algebra.<br />
” =⇒ “ Wir prüfen die Eigenschaften (i)-(iii) aus Definition 1.2.<br />
(i) Offensichtlich ist Ω ∈D.<br />
(ii) (Komplementstabilität) Sei A ∈D.DaΩ ∈Dgilt, und nach Eigenschaft (ii)<br />
des Dynkin-Systems, ist Ac = Ω \ A ∈D.<br />
(iii) (σ-∪-Stabilität) Seien A, B ∈D. Nach Voraussetzung ist A ∩ B ∈D, und es<br />
gilt trivialerweise A ∩ B ⊂ A. AlsoistA \ B = A \ (A ∩ B) ∈D. Mithin ist<br />
D\-stabil. Seien nun A1,A2,... ∈D. Nach Satz 1.4(iii) existieren paarweise<br />
disjunkte Mengen B1,B2,...∈Dmit ∞�<br />
An = ∞�<br />
Bn ∈D. ✷<br />
Satz 1.19 (Dynkin’scher π–λ–Satz). Sei E⊂2 Ω ein ∩-stabiles Mengensystem.<br />
Dann gilt<br />
σ(E) =δ(E).<br />
n=1<br />
Beweis. ” ⊃“ Dies ist klar nach Bemerkung 1.17.<br />
” ⊂“ Zu zeigen ist: δ(E) ist eine σ-Algebra. Nach Satz 1.18 reicht es zu zeigen,<br />
dass δ(E) ∩-stabil ist. Für B ∈ δ(E) sei<br />
n=1<br />
DB := {A ∈ δ(E) :A ∩ B ∈ δ(E)}.<br />
Für die Schnittstabilität von δ(E) reicht es zu zeigen, dass<br />
δ(E) ⊂DB für jedes B ∈ δ(E). (1.3)<br />
Wir zeigen, dass DE für jedes E ∈ δ(E) ein Dynkin-System ist, indem wir (i)-(iii)<br />
aus Definition 1.10) prüfen:<br />
(i) Offenbar ist Ω ∩ E = E ∈ δ(E), also ist Ω ∈DE.<br />
(ii) Für A, B ∈DE mit A ⊂ B ist (B \ A) ∩ E =(B∩ E) \ (A ∩ E) ∈ δ(E).<br />
(iii) Seien A1,A2,...∈DE paarweise disjunkt. Dann ist<br />
�<br />
∞�<br />
�<br />
∞�<br />
∩ E = (An ∩ E) ∈ δ(E).<br />
An<br />
n=1<br />
n=1
8 1 Grundlagen der Maßtheorie<br />
Nach Voraussetzung ist für A ∈Eauch A ∩ E ∈E, also ist E⊂DE, falls E ∈E<br />
gilt. Nach Bemerkung 1.17(ii) ist daher auch δ(E) ⊂DE für E ∈E.Für B ∈ δ(E)<br />
und E ∈Eist also B ∩ E ∈ δ(E). Mithin gilt E ∈DB für jedes B ∈ δ(E), also<br />
E⊂DB für jedes B ∈ δ(E), und damit gilt (1.3). ✷<br />
Von besonderer Bedeutung sind σ-Algebren, die von Topologien erzeugt werden.<br />
Hier wiederum spielt natürlich der euklidische Raum R n die prominenteste Rolle,<br />
aber wir wollen auch den (unendlichdimensionalen) Raum C([0, 1]) der stetigen<br />
Funktionen [0, 1] → R im Blick haben. Auf diesem Raum wird durch die Norm<br />
�f�∞ =sup x∈[0,1] |f(x)| eine Topologie erzeugt. Zur Erinnerung bringen wir hier<br />
das Axiomensystem der Topologie.<br />
Definition 1.20 (Topologie). Sei Ω �= ∅ eine beliebige Menge. Ein Mengensystem<br />
τ ⊂ Ω heißt Topologie auf Ω, falls folgende drei Eigenschaften gelten.<br />
(i) ∅,Ω ∈ τ.<br />
(ii) Sind A, B ∈ τ,soistauchA∩B∈τ. (iii) Ist F⊂τ eine beliebige Familie, so ist auch ��<br />
A∈F A� ∈ τ.<br />
Das Paar (Ω,τ) heißt dann topologischer Raum. Die Mengen A ∈ τ heißen offen,<br />
die Mengen A ⊂ Ω mit A c ∈ τ heißen abgeschlossen.<br />
Anders als bei σ-Algebren sind bei Topologien nur endliche Schnitte, jedoch auch<br />
überabzählbare Vereinigungen erlaubt. Ist d eine Metrik auf Ω, und bezeichnet<br />
Br(x) ={y ∈ Ω : d(x, y) 0, so wird eine Topologie erzeugt durch<br />
� �<br />
τ =<br />
(x,r)∈F Br(x)<br />
�<br />
: F ⊂ Ω × (0, ∞) .<br />
Dies ist das gewöhnliche System offener Mengen, das man in den meisten Analysisbüchern<br />
findet.<br />
Definition 1.21 (Borel’sche σ-Algebra). Sei (Ω,τ) ein topologischer Raum. Die<br />
von den offenen Mengen erzeugte σ-Algebra<br />
B(Ω) :=B(Ω,τ) :=σ(τ)<br />
heißt Borel’sche σ-Algebra auf Ω. Die Elemente A ∈B(Ω,τ) heißen Borel’sche<br />
Mengen oder Borel-messbare Mengen.<br />
Bemerkung 1.22. Wir sind meistens an B(R n ) interessiert, wobei wir auf R n den<br />
euklidischen Abstand annehmen:
1.1 Mengensysteme 9<br />
�<br />
�<br />
�<br />
d(x, y) =�x − y�2 = � n �<br />
(xi − yi) 2 .<br />
(i) Es gibt Teilmengen von R n , die keine Borel’schen Mengen sind. Diese sind<br />
kompliziert herzustellen, wie beispielsweise die Vitali-Mengen, die man in Analysisbüchern<br />
findet (siehe etwa [7]). Wir wollen hier auf diesen Aspekt nicht näher<br />
eingehen, sondern lediglich die - mathematisch unpräzise - Feststellung treffen, dass<br />
jede Menge, die man sich konstruktiv herstellen kann, auch Borel’sch ist.<br />
(ii) Jede abgeschlossene Menge C ⊂ R n ist in B(R n ),dennesistC c ∈ τ, also ist<br />
C =(C c ) c ∈ σ(τ). Speziell ist {x} ∈B(R n ) für jedes x ∈ R n .<br />
(iii) B(R n ) ist keine Topologie. Sei nämlich V ⊂ R n , V �∈ B(R n ).Wäre B(R n )<br />
eine Topologie, so wären beliebige Vereinigungen Borel’scher Mengen wieder Borel’sch,<br />
also auch V = �<br />
x∈V {x} ∈B(Rn ). ✸<br />
Das Mengensystem der offenen Mengen, das die Borel’sche σ-Algebra erzeugt, ist<br />
in vielen Fällen unhandlich groß. Wir wollen daher andere Mengensysteme als Erzeuger<br />
von B(Rn ) identifizieren, mit denen wir in der Praxis besser arbeiten können.<br />
Hierzu wollen wir einerseits Mengen von einfacher Struktur, Quader etwa, betrachten,<br />
andererseits aber auch die Größe des Systems einschränken, indem wir<br />
abzählbare Mengensysteme betrachten. Wir führen folgende Notationen ein. Mit<br />
Q bezeichnen wir die Menge der rationalen Zahlen, mit Q + die Menge der strikt<br />
positiven rationalen Zahlen. Für a, b ∈ Rn schreiben wir<br />
a
10 1 Grundlagen der Maßtheorie<br />
Beweis. Wir zeigen nur exemplarisch ein paar der Identitäten.<br />
(1) B(Rn )=σ(E1) gilt per Definition.<br />
(2) Sei A ∈E1. DannistA c ∈E2, also A =(A c ) c ∈ σ(E2). Daher gilt E1 ⊂<br />
σ(E2) und dann (wegen Bemerkung 1.17) auch σ(E1) ⊂ σ(E2). Analog folgt aber<br />
σ(E2) ⊂ σ(E1) und damit die Gleichheit.<br />
(3) Jede kompakte Menge ist abgeschlossen. Also gilt σ(E3) ⊂ σ(E2). Sei nun<br />
A ∈E2. Dann sind die Mengen AK := A ∩ [−K, K] n , K ∈ N, kompakt, also ist<br />
die abzählbare Vereinigung A = �∞ K=1 AK in σ(E3). Es gilt also E2 ⊂ σ(E3) und<br />
damit σ(E2) =σ(E3).<br />
(4) Offenbar ist E4 ⊂E1, also σ(E4) ⊂ σ(E1). Sei nun A ⊂ Rn offen. Für x ∈ A<br />
sei R(x) =min(1, sup{r >0: Br(x) ⊂ A}). DaA offen ist, folgt R(x) > 0.<br />
Sei r(x) ∈ (R(x)/2,R(x)) ∩ Q. Für jedes y ∈ A und x ∈ BR(y)/3 ∩ Qn ist nun<br />
R(x) ≥ R(y) −�x− y�2 > 2<br />
1<br />
3R(y), also r(x) > 3R(y), also y ∈ Br(x)(x). Also<br />
ist A = �<br />
x∈A∩Qn Br(x)(x) eine abzählbare Vereinigung von Mengen aus E4 und<br />
damit in σ(E3). Es gilt also auch σ(E1) ⊂ σ(E4).<br />
(5-12) Ähnliche Ausschöpfungsargumente wie in (4) funktionieren auch für die<br />
Quader. In (4) können statt der offenen Kugeln Br(x) offene Quader genommen<br />
werden. So folgt die Gleichheit mit σ(E5). Man bemerke beispielsweise, dass<br />
n<br />
× [ai,bi) =<br />
i=1<br />
∞�<br />
n<br />
× k=1 i=1<br />
�<br />
ai − 1<br />
k ,bi<br />
�<br />
∈ σ(E5).<br />
Die anderen Inklusionen Ei ⊂ σ(Ej) zeigt man analog. ✷<br />
Bemerkung 1.24. Jedes der Mengensystem E1, E2, E3, E5,...,E12 (nicht aber E4)<br />
ist schnittstabil, mithin ist die Borel’sche σ-Algebra jeweils gleich dem erzeugten<br />
Dynkin-System: B(R n ) = δ(Ei) für i = 1,...,12. Die Mengensysteme<br />
E4,...,E12 sind zudem abzählbar. Dies ist eine Eigenschaft, die wir an späterer<br />
Stelle wieder benötigen werden. ✸<br />
Definition 1.25 (Spur eines Mengensystems). Es sei A⊂2 Ω ein beliebiges System<br />
von Teilmengen von Ω und A ∈ 2 Ω \ {∅}. Das Mengensystem<br />
A � � := {A ∩ B : B ∈A}⊂2<br />
A<br />
A<br />
heißt Spur von A auf A, oder Einschränkung von A auf A.<br />
(1.6)<br />
Satz 1.26. Ist A eine σ-Algebra, oder eines der Mengensysteme aus den Definitionen<br />
1.6 – 1.10 auf Ω, soistA � � ein Mengensystem vom selben Typ, allerdings auf<br />
A<br />
A statt Ω.<br />
Beweis. Übung! ✷
1.2 Mengenfunktionen 11<br />
Übung 1.1.1. Sei A ein Semiring. Man zeige: Jede abzählbare (beziehungsweise<br />
endliche) Vereinigung von Mengen aus A lässt sich als abzählbare (beziehungsweise<br />
endliche), disjunkte Vereinigung von Mengen in A schreiben. ♣<br />
Übung 1.1.2. Man zeige durch ein Gegenbeispiel, dass im die Allgemeinen die Vereinigung<br />
A∪A ′ zweier σ-Algebren keine σ-Algebra ist. ♣<br />
Übung 1.1.3. Seien (Ω1,d1) und (Ω2,d2) metrische Räume, f : Ω1 → Ω2 eine<br />
beliebige Abbildung und Uf = � x ∈ Ω1 : f ist unstetig in x � die Menge der<br />
Unstetigkeitsstellen. Man zeige: Uf ∈B(Ω1).<br />
Hinweis: Man zeige zunächst, dass für ε>0 und δ>0 die Menge<br />
U δ,ε<br />
f := � x ∈ Ω1 : es gibt y, z ∈ Bε(x) mit d2(f(y),f(z)) >δ �<br />
(wobei Bε(x) ={y ∈ Ω1 : d1(x, y)
12 1 Grundlagen der Maßtheorie<br />
(v) σ-subadditiv, falls für je abzählbar viele A, A1,A2,... ∈Amit A ⊂ ∞�<br />
gilt, dass μ(A) ≤ ∞�<br />
μ(Ai).<br />
i=1<br />
Ai<br />
i=1<br />
Definition 1.28. Sei A ein Semiring und μ : A→[0, ∞] eine Mengenfunktion mit<br />
μ(∅) =0. μ heißt<br />
– Inhalt, falls μ additiv ist,<br />
– Prämaß, falls μσ-additiv ist,<br />
– Maß, falls μ ein Prämaß ist und A eine σ-Algebra,<br />
– Wahrscheinlichkeitsmaß (kurz W-Maß), falls μ ein Maß ist und μ(Ω) =1.<br />
Definition 1.29. Sei A ein Semiring. Ein Inhalt μ auf A heißt<br />
(i) endlich, falls μ(A) < ∞ für jedes A ∈A,<br />
(ii) σ-endlich, falls es Mengen Ω1,Ω2,... ∈ A gibt mit Ω = ∞�<br />
μ(Ωn) < ∞ für jedes n ∈ N.<br />
n=1<br />
Ωn und<br />
Beispiel 1.30 (Inhalte, Maße). (i) Sei ω ∈ Ω und δω(A) = A(ω) (siehe (1.2)).<br />
Dann ist δω ein Wahrscheinlichkeitsmaß auf jeder σ-Algebra A⊂2 Ω und heißt<br />
Dirac-Maß im Punkt ω, oder Einheitsmasse.<br />
(ii) Sei Ω eine endliche, nichtleere Menge. Durch<br />
μ(A) := #A<br />
#Ω<br />
für A ⊂ Ω,<br />
wird ein Wahrscheinlichkeitsmaß auf A =2 Ω definiert. μ heißt Gleichverteilung<br />
oder uniforme Verteilung auf Ω. Wirführen hierfür das Symbol UΩ := μ ein.<br />
Dersodefinierte Wahrscheinlichkeitsraum (Ω,A, UΩ) wird auch Laplace-Raum<br />
genannt.<br />
(iii) Sei Ω abzählbar unendlich und<br />
A := {A ⊂ Ω :#A
1.2 Mengenfunktionen 13<br />
(iv) Sei (μn)n∈N eine Folge von Maßen (Prämaßen, Inhalten) und (αn)n∈N ei-<br />
ne Folge von nichtnegativen Zahlen. Dann ist auch μ := � ∞<br />
n=1 αnμn ein Maß<br />
(Prämaß, Inhalt).<br />
(v) Sei Ω eine (höchstens) abzählbare, nichtleere Menge und A =2Ω . Ferner<br />
seien (pω)ω∈Ω nichtnegative Zahlen. Dann wird durch μ(A) := �<br />
ω∈A pω für jedes<br />
A ⊂ Ω, ein σ-endliches Maß auf 2Ω definiert. Wir nennen p =(pω)ω∈Ω die<br />
Gewichtsfunktion von μ.<br />
(vi) Ist in (v) speziell �<br />
ω∈Ω pω =1,soistμein Wahrscheinlichkeitsmaß. Wir interpretieren<br />
dann pω als Wahrscheinlichkeit des Elementarereignisses ω und nennen<br />
p =(pω)ω∈Ω auch einen Wahrscheinlichkeitsvektor.<br />
(vii) Ist in (v) speziell pω =1für jedes ω ∈ Ω, so heißt μ das Zählmaß auf Ω.<br />
Ist Ω endlich, so ist auch μ endlich.<br />
(viii) Sei A der Ring endlicher Vereinigungen von Intervallen (a, b] ⊂ R. Für<br />
a1
14 1 Grundlagen der Maßtheorie<br />
Beweis. (i) Es ist A∪B = A⊎(B \A) und B =(A∩B)⊎(B \A).Daμ additiv<br />
ist, folgt<br />
μ(A ∪ B) =μ(A)+μ(B \ A) und μ(B) =μ(A ∩ B)+μ(B \ A).<br />
Hieraus folgt sofort (i).<br />
(ii) Sei A ⊂ B. WegenA ∩ B = A folgt μ(B) =μ(A ⊎ (B \ A)) = μ(A) +<br />
μ(B \ A), falls B \ A ∈Aist, insbesondere also, falls A ein Ring ist. Ist nun A nur<br />
ein Semiring, so ist B \ A = � n<br />
i=1 Ci für gewisses n ∈ N und paarweise disjunkte<br />
Mengen C1,...,Cn ∈A. In diesem Fall ist μ(B) =μ(A)+ � n<br />
i=1 μ(Ci) ≥ μ(A),<br />
also ist μ monoton.<br />
(iii) Seien n ∈ N und A, A1,...,An ∈Amit A ⊂ � n<br />
i=1 Ai. Setze B1 = A1 und<br />
�<br />
k−1<br />
Bk = Ak \ Ai =<br />
i=1<br />
k−1 �<br />
(Ak \ (Ak ∩ Ai)) für k =2,...,n.<br />
i=1<br />
Per Definition des Semirings ist jedes Ak \(Ak ∩Ai) disjunkte Vereinigung endlich<br />
vieler Mengen in A, also existiert ein ck ∈ N und Mengen Ck,1,...,Ck,ck ∈Amit<br />
� ck<br />
i=1 Ck,i = Bk ⊂ Ak. Analog existieren dk ∈ N und Dk,1,...,Dk,dk ∈Amit<br />
Ak \ Bk = � dk<br />
i=1 Dk,i.Daμ additiv ist, gilt<br />
μ(Ak) =<br />
ck�<br />
i=1<br />
μ(Ck,i)+<br />
dk�<br />
i=1<br />
μ(Dk,i) ≥<br />
ck�<br />
i=1<br />
μ(Ck,i).<br />
Wiederum aufgrund von Additivität und Monotonie gilt<br />
�<br />
n� ck�<br />
�<br />
n� ck�<br />
μ(A) =μ (Ck,i ∩ A) = μ(Ck,i ∩ A)<br />
≤<br />
n�<br />
k=1 i=1<br />
ck�<br />
k=1 i=1<br />
μ(Ck,i) ≤<br />
n�<br />
μ(Ak).<br />
k=1<br />
k=1 i=1<br />
Also ist μ subadditiv. Die σ-Subadditivität folgt aus der σ-Additivität in analoger<br />
Weise.<br />
(iv) Sei A ein Ring und A = ∞�<br />
An ∈A.Daμadditiv (und damit monoton) ist,<br />
gilt nach (ii)<br />
n=1<br />
m�<br />
�<br />
m�<br />
μ(An) =μ<br />
�<br />
≤ μ(A) für jedes m ∈ N.<br />
Also ist<br />
n=1<br />
n=1<br />
An<br />
∞�<br />
μ(An) ≤ μ(A). ✷<br />
n=1
1.2 Mengenfunktionen 15<br />
Bemerkung 1.32. In (iv) kann strikte Ungleichheit herrschen (siehe etwa Beispiel<br />
1.30(iii)). Mit anderen Worten: Es gibt Inhalte, die keine Prämaße sind. ✸<br />
Satz 1.33 (Einschluss- Ausschlussformel). Sei A ein Ring und μ ein Inhalt. Dann<br />
gelten für n ∈ N und A1,...,An ∈Adie Einschluss- Ausschlussformeln<br />
μ(A1 ∪ ...∪ An) =<br />
μ(A1 ∩ ...∩ An) =<br />
n�<br />
(−1) k−1<br />
k=1<br />
n�<br />
(−1) k−1<br />
k=1<br />
�<br />
{i1,...,ik}⊂{1,...,n}<br />
�<br />
{i1,...,ik}⊂{1,...,n}<br />
μ(Ai1 ∩ ...∩ Aik ),<br />
μ(Ai1 ∪ ...∪ Aik ),<br />
wobei sich die Summen über alle k-elementigen Teilmengen von {1,...,n} erstrecken.<br />
Beweis. Übung! Hinweis: Man verwende vollständige Induktion über n. ✷<br />
Wir wollen die σ-Subadditivität durch eine Stetigkeitseigenschaft charakterisieren<br />
(Satz 1.36). Hierzu verabreden wir die folgende Sprechweise und Notation.<br />
Definition 1.34. Sind A, A1,A2,...Mengen, so schreiben wir<br />
– An ↑ A, falls A1 ⊂ A2 ⊂ ... und �∞ n=1 An = A,<br />
– An ↓ A, falls A1 ⊃ A2 ⊃ A3 ⊃ ... und �∞ n=1 An = A.<br />
Wir sagen dann, dass (An)n∈N gegen A aufsteigt beziehungsweise absteigt.<br />
Definition 1.35 (Stetigkeit von Inhalten). Sei μ ein Inhalt auf dem Ring A.<br />
(i) μ heißt stetig von unten, falls für jedes A ∈Aund jede Folge (An)n∈N in A<br />
mit An ↑ A gilt: μ(An) n→∞<br />
−→ μ(A).<br />
(ii) μ heißt stetig von oben, falls für jedes A ∈Aund jede Folge (An)n∈N in A<br />
mit An ↓ A sowie μ(An) < ∞ für jedes n ∈ N gilt: μ(An) n→∞<br />
−→ μ(A).<br />
(iii) μ heißt ∅-stetig, falls (ii) für A = ∅ gilt.<br />
Bei der Stetigkeit von oben wurde die Endlichkeitsbedingung eingeführt, weil sogar<br />
für das Zählmaß μ auf (N, 2 N ) und An := {n, n+1,...}↓∅sonst keine Gleichheit<br />
gelten kann.
16 1 Grundlagen der Maßtheorie<br />
Satz 1.36 (Stetigkeit und Prämaß). Sei μ ein Inhalt auf einem Ring A. Betrachte<br />
die folgenden fünf Eigenschaften.<br />
(i) μ ist σ-additiv (also ein Prämaß).<br />
(ii) μ ist σ-subadditiv.<br />
(iii) μ ist stetig von unten.<br />
(iv) μ ist ∅-stetig.<br />
(v) μ ist stetig von oben.<br />
Dann gelten die Implikationen (i) ⇐⇒ (ii) ⇐⇒ (iii)=⇒ (iv) ⇐⇒ (v).<br />
Ist μ endlich, so gilt auch (iv) =⇒ (iii).<br />
Beweis. (i) =⇒ (ii)“ Seien A, A1,A2,... ∈Amit A ⊂<br />
” �∞ i=1 Ai. Setze B1 =<br />
A1 und Bn = An \ �n−1 i=1 Ai ∈Afür n =2, 3,...Dann ist A = �∞ n=1 (A ∩ Bn),<br />
also wegen der Monotonie von μ und der σ-Additivität von μ<br />
∞�<br />
∞�<br />
μ(A) = μ(A ∩ Bn) ≤ μ(An).<br />
n=1<br />
Damit ist μ als σ-subadditiv erkannt.<br />
” (ii) =⇒ (i)“ Dies folgt aus Lemma 1.31(iv).<br />
” (i) =⇒ (iii)“ Sei μ ein Prämaß und A ∈Asowie (An)n∈N eine Folge in A mit<br />
An ↑ A sowie A0 = ∅. Dann gilt<br />
μ(A) =<br />
∞�<br />
μ(Ai \ Ai−1) = lim<br />
i=1<br />
n�<br />
n→∞<br />
i=1<br />
n=1<br />
μ(Ai \ Ai−1) = lim<br />
n→∞ μ(An).<br />
” (iii) =⇒ (i)“ Gelte nun (iii). Seien B1,B2,... ∈Apaarweise disjunkt, und<br />
gelte B = ∞�<br />
Bn ∈A. Setze An = n�<br />
Bi für jedes n ∈ N. Dann folgt aus (iii)<br />
n=1<br />
i=1<br />
μ(B) = lim<br />
n→∞ μ(An) =<br />
Also ist μσ-additiv und damit ein Prämaß.<br />
∞�<br />
μ(Bi).<br />
” (iv) =⇒ (v)“ Seien A, A1,A2,... ∈Amit An ↓ A und μ(A1) < ∞. Setze<br />
Bn = An \ A ∈Afür jedes n ∈ N. Dann gilt Bn ↓∅. Es gilt also μ(An) − μ(A) =<br />
μ(Bn) n→∞<br />
−→ 0.<br />
” (v) =⇒ (iv)“ Dies ist trivial.<br />
i=1
1.3 Fortsetzung von Maßen 17<br />
” (iii) =⇒ (iv)“ Seien A1,A2,... ∈Amit An ↓∅und μ(A1) < ∞. Dann gilt<br />
A1 \ An ∈Afür jedes n ∈ N und A1 \ An ↑ A1, also<br />
μ(A1) = lim<br />
n→∞ μ(A1 \ An) =μ(A1) − lim<br />
n→∞ μ(An).<br />
Wegen μ(A1) < ∞ ist lim<br />
n→∞ μ(An) =0.<br />
” (iv) =⇒ (iii)“ (für den Fall μ endlich) Es gelte nun μ(A) < ∞ für jedes A ∈A,<br />
und μ sei ∅-stetig. Seien A, A1,A2,...∈Amit An ↑ A. Dann gilt A \ An ↓∅und<br />
μ(A) − μ(An) =μ(A \ An) n→∞<br />
−→ 0.<br />
Also gilt (iii). ✷<br />
Beispiel 1.37. (Vergleiche Beispiel 1.30(iii).) Sei Ω abzählbar und<br />
A = {A ⊂ Ω :#A
18 1 Grundlagen der Maßtheorie<br />
Beispiel 1.39 (Lebesgue-Maß). Sei n ∈ N und<br />
A = {(a, b] : a, b ∈ R n ,a
d(ω, ω ′ )=<br />
1.3 Fortsetzung von Maßen 19<br />
� 2 − inf{n∈N: ωn�=ω ′<br />
n } , falls ω �= ω ′ ,<br />
0, falls ω = ω ′ .<br />
Dann ist (Ω,d) ein kompakter, metrischer Raum. Offenbar ist<br />
[ω1,...,ωn] =B 2 −n(ω) ={ω ′ ∈ Ω : d(ω, ω ′ ) < 2 −n }.<br />
(1.9)<br />
Das Komplement von [ω1,...,ωn] ist die Vereinigung von (#E) n − 1 offenen<br />
Kugeln<br />
[ω1,...,ωn] c =<br />
�<br />
[ω ′ 1,...,ω ′ n],<br />
(ω ′ 1 ,...,ω′ n )�=(ω1,...,ωn)<br />
also offen. Damit ist [ω1,...,ωn] abgeschlossen und kompakt, weil Ω kompakt ist.<br />
Ähnlich wie in Satz 1.23 kann man zeigen, dass σ(A) =B(Ω,d).<br />
Übung: Man zeige die obigen Aussagen. ✸<br />
Das Hauptergebnis dieses Kapitels ist der Fortsetzungssatz für Maße, den wir hier<br />
in der Form von Carathéodory formulieren.<br />
Satz 1.41 (Carathéodory). Sei A⊂2 Ω ein Ring und μ ein σ-endliches Prämaß<br />
auf A. Dann kann μ auf genau eine Weise zu einem Maß �μ auf σ(A) fortgesetzt<br />
werden, und ˜μ ist σ-endlich.<br />
Den Beweis dieses Satzes müssen wir mit einigen Lemmata vorbereiten. Wir zeigen<br />
dann in Satz 1.53 eine etwas stärkere Aussage. Dort wird auch die griffige Formulierung<br />
” kann fortgesetzt werden“ präzisiert.<br />
Lemma 1.42 (Eindeutigkeit durch schnittstabilen Erzeuger). Sei (Ω,A,μ) ein<br />
σ-endlicher Maßraum und E ⊂ A ein schnittstabiler Erzeuger von A. Esgebe<br />
E1,E2,... ∈Emit En ↑ Ω und μ(En) < ∞ für jedes n ∈ N. Dann ist μ durch<br />
die Werte μ(E), E ∈E, eindeutig festgelegt.<br />
Ist μ ein W-Maß, so gilt die Folgerung auch ohne die Existenz der Folge (En)n∈N.<br />
Beweis. Sei ν ein weiteres σ-endliches Maß auf (Ω,A) mit der Eigenschaft<br />
μ(E) =ν(E) für jedes E ∈E.<br />
Sei E ∈Emit μ(E) < ∞. Betrachte das Mengensystem<br />
DE = {A ∈A: μ(A ∩ E) =ν(A ∩ E)}.<br />
Um zu zeigen, dass DE ein Dynkin-System ist, prüfen wir die Eigenschaften aus<br />
Definition 1.10:<br />
(i) Offensichtlich ist Ω ∈DE.
20 1 Grundlagen der Maßtheorie<br />
(ii) Seien A, B ∈DE mit A ⊃ B.Dannist<br />
μ ((A \ B) ∩ E) =μ(A ∩ E) − μ(B ∩ E)<br />
= ν(A ∩ E) − ν(B ∩ E) =ν ((A \ B) ∩ E) .<br />
Also ist A \ B ∈DE.<br />
(iii) Seien A1,A2,...∈DE paarweise disjunkt sowie A = ∞�<br />
An. Dannist<br />
also A ∈DE.<br />
n=1<br />
n=1<br />
∞�<br />
∞�<br />
μ(A ∩ E) = μ(An ∩ E) = ν(An ∩ E) =ν(A ∩ E),<br />
Offenbar ist E⊂DE, also δ(E) ⊂DE.DaE schnittstabil ist, ist nach Satz 1.19<br />
n=1<br />
A⊃DE ⊃ δ(E) =σ(E) =A.<br />
Also ist DE = A.<br />
Für jedes A ∈Aund E ∈Emit μ(E) < ∞ gilt also μ(A ∩ E) =ν(A ∩ E). Seien<br />
nun E1,E2,...∈Emit En ↑ Ω und μ(En) < ∞ für jedes n ∈ N.Daμund ν von<br />
unten stetig sind, gilt für A ∈A<br />
μ(A) = lim<br />
n→∞ μ(A ∩ En) = lim<br />
n→∞ ν(A ∩ En) =ν(A).<br />
Der Zusatz ist trivial, denn ˜ E := E∪{Ω} ist ebenfalls ein schnittstabiler Erzeuger<br />
von A, und der Wert μ(Ω) =1ist bekannt. Es kann also die konstante Folge En =<br />
Ω, n ∈ N,gewählt werden. Man beachte jedoch, dass es nicht reicht zu fordern, dass<br />
μ endlich ist, weil dann im Allgemeinen die Gesamtmasse μ(Ω) nicht eindeutig<br />
festgelegt ist (siehe Beispiel 1.45(ii)). ✷<br />
Beispiel 1.43. Sei Ω = Z und E = � En : n ∈ Z � , wobei En =(−∞,n] ∩ Z. E<br />
ist schnittstabil und σ(E) =2 Ω . Also ist ein endliches Maß μ auf (Ω,2 Ω ) eindeutig<br />
festgelegt durch die Werte μ(En), n ∈ N.<br />
Ein σ-endliches Maß auf Z ist jedoch durch die Werte auf E noch nicht eindeutig<br />
bestimmt: Sei μ das Zählmaß auf Z und ν =2μ. Dannistμ(E) =∞ = ν(E) für<br />
jedes E ∈E.Umμ und ν zu unterscheiden, brauchen wir also einen Erzeuger, der<br />
Mengen endlichen Maßes (für μ) enthält. Tun es die Mengen ˜ Fn =[−n, n] ∩ Z,<br />
n ∈ N? InderTatistfür jedes σ-endliche Maß μ jetzt μ( ˜ Fn) < ∞ für jedes<br />
n ∈ N. Allerdings erzeugen die ˜ Fn nicht 2 Ω (sondern welche σ-Algebra?). Wir<br />
können aber die Definition so modifizieren: Fn =[−n/2, (n +1)/2] ∩ Z.Dannist<br />
σ({Fn, n∈ N}) =2 Ω , also E = {Fn, n∈ N} ein schnittstabiler Erzeuger von 2 Ω<br />
und μ(Fn) < ∞ für jedes n ∈ N. WegenFn ↑ Ω sind die Bedingungen des Satzes<br />
erfüllt. ✸
1.3 Fortsetzung von Maßen 21<br />
Beispiel 1.44 (Verteilungsfunktion). Ein W-Maß μ auf dem Raum (R n , B(R n )) ist<br />
durch Angabe der Werte μ((−∞,b]) auf den Mengen (−∞,b]=× n<br />
i=1(−∞,bi],<br />
b ∈ R n , eindeutig festgelegt, da diese Mengen einen schnittstabilen Erzeuger bilden<br />
(Satz 1.23). Speziell ist ein W-Maß μ auf R durch Angabe der Verteilungsfunktion<br />
F : R → [0, 1], x ↦→ μ((−∞,x]) eindeutig bestimmt. ✸<br />
Beispiel 1.45. (i) Sei Ω = {1, 2, 3, 4} und E = { � 1, 2}, {2, 3} � . Offenbar gilt<br />
σ(E) =2Ω , jedoch ist E nicht schnittstabil. Tatsächlich ist hier ein W-Maß μ durch<br />
Angabe der Werte μ({1, 2}) =μ({2, 3}) = 1<br />
2 nicht eindeutig festgelegt. Es gibt<br />
beispielsweise die Möglichkeiten μ = 1<br />
2δ1 + 1<br />
2δ3 oder μ ′ = 1<br />
2δ2 + 1<br />
2δ4. (ii) Sei Ω = {1, 2} und E = {{1}}. DannistEein schnittstabiler Erzeuger von<br />
2Ω , und ein W-Maß μ ist durch Angabe von μ({1}) eindeutig festgelegt. Allerdings<br />
gilt dies nicht für endliche Maße im Allgemeinen, denn μ =0und ν = δ2 sind zwei<br />
endliche Maße, die auf E übereinstimmen. ✸<br />
Definition 1.46 (Äußeres Maß). Eine Mengenfunktion μ ∗ : 2 Ω → [0, ∞] heißt<br />
äußeres Maß, falls gilt:<br />
(i) μ∗ (∅) =0,<br />
(ii) μ∗ ist monoton,<br />
(iii) μ∗ ist σ-subadditiv.<br />
Lemma 1.47. Sei A⊂2Ω ein beliebiges Mengensystem mit ∅∈Aund μ eine<br />
monotone Mengenfunktion auf A mit μ(∅) =0.Für A ⊂ Ω sei<br />
�<br />
U(A) = F⊂A: F ist höchstens abzählbar und A ⊂ �<br />
�<br />
F<br />
F ∈F<br />
die Menge der abzählbaren Überdeckungen F von A mit Mengen F aus A. Setze<br />
μ ∗ � �<br />
�<br />
(A) :=inf μ(F ): F∈U(A) ,<br />
F ∈F<br />
wobei inf ∅ = ∞. Dann ist μ ∗ (A) =μ(A) für jedes A ∈A, und μ ∗ ist ein äußeres<br />
Maß.<br />
Beweis. Wir weisen die Eigenschaften (i)-(iii) des äußeren Maßes nach.<br />
(i) Wegen ∅∈Aist {∅} ∈ U(∅), also ist μ ∗ (∅) =0.<br />
(ii) Ist A ⊂ B,soistU(A) ⊃U(B), also ist μ ∗ (A) ≤ μ ∗ (B).<br />
(iii) Sei An ⊂ Ω für jedes n ∈ N und A ⊂ � ∞<br />
n=1 An. Wirmüssen zeigen, dass<br />
μ ∗ (A) ≤ � ∞<br />
n=1 μ∗ (An). Ohne Einschränkung sei μ ∗ (An) < ∞ und damit
22 1 Grundlagen der Maßtheorie<br />
U(An) �= ∅ für jedes n ∈ N. Wähle ε > 0 und zu jedem n ∈ N eine<br />
Überdeckung Fn ∈U(An) mit<br />
�<br />
F ∈Fn<br />
Dann ist F := � ∞<br />
n=1 Fn ∈U(A) und<br />
F ∈F<br />
μ(F ) ≤ μ ∗ (An)+ε 2 −n .<br />
μ ∗ (A) ≤ �<br />
∞� �<br />
∞�<br />
μ(F ) ≤ μ(F ) ≤ μ ∗ (An)+ε. ✷<br />
n=1 F ∈Fn<br />
Definition 1.48 (μ ∗ -messbare Mengen). Sei μ ∗ ein äußeres Maß. Eine Menge A ∈<br />
2 Ω heißt μ ∗ -messbar, falls<br />
n=1<br />
μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) =μ ∗ (E) für jedes E ∈ 2 Ω . (1.10)<br />
Wir schreiben M(μ ∗ )={A ∈ 2 Ω : A ist μ ∗ -messbar}.<br />
Lemma 1.49. Es ist A ∈M(μ ∗ ) genau dann, wenn<br />
μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) ≤ μ ∗ (E) für jedes E ∈ 2 Ω .<br />
Beweis. Da μ ∗ subadditiv ist, gilt stets die andere Ungleichung. ✷<br />
Lemma 1.50. M(μ ∗ ) ist eine Algebra.<br />
Beweis. Wir prüfen die Eigenschaften (i)-(iii) der Algebra aus Satz 1.7.<br />
(i) Ω ∈M(μ∗ ) ist klar.<br />
(ii) (Komplementstabilität) Per Definition ist A ∈M(μ∗ ) ⇐⇒ Ac ∈M(μ∗ ).<br />
(iii) (Schnittstabilität) Seien A, B ∈M(μ∗ ) und E ∈ 2Ω .Dannist<br />
μ ∗ ((A ∩ B) ∩ E)+μ ∗ ((A ∩ B) c ∩ E)<br />
= μ ∗ (A ∩ B ∩ E)+μ ∗� (A c ∩ B ∩ E) ∪ (A c ∩ B c ∩ E) ∪ (A ∩ B c ∩ E) �<br />
≤ μ ∗ (A ∩ B ∩ E)+μ ∗ (A c ∩ B ∩ E)<br />
+ μ ∗ (A c ∩ B c ∩ E)+μ ∗ (A ∩ B c ∩ E)<br />
= μ ∗ (B ∩ E)+μ ∗ (B c ∩ E)<br />
= μ ∗ (E).<br />
Dabei haben wir in der vorletzten Gleichung A ∈M(μ ∗ ) benutzt und in der letzten<br />
B ∈M(μ ∗ ). ✷<br />
Lemma 1.51. Ein äußeres Maß μ ∗ ist σ-additiv auf M(μ ∗ ).
Beweis. Seien A, B ∈M(μ ∗ ) mit A ∩ B = ∅. Dannist<br />
1.3 Fortsetzung von Maßen 23<br />
μ ∗ (A ∪ B) =μ ∗ (A ∩ (A ∪ B)) + μ ∗ (A c ∩ (A ∪ B)) = μ ∗ (A)+μ ∗ (B).<br />
Induktiv folgt die (endliche) Additivität. Da μ ∗ per Definition σ-subadditiv ist, folgt<br />
nach Satz 1.36, dass μ ∗ auch σ-additiv ist. ✷<br />
Lemma 1.52. Ist μ ∗ ein äußeres Maß, so ist M(μ ∗ ) eine σ-Algebra. Speziell ist μ ∗<br />
ein Maß auf M(μ ∗ ).<br />
Beweis. Nach Lemma 1.50 ist M(μ ∗ ) eine Algebra, also insbesondere schnittstabil.<br />
Nach Satz 1.18 reicht es zu zeigen, dass M(μ ∗ ) ein Dynkin-System ist.<br />
Seien also A1,A2,... ∈M(μ ∗ ) paarweise disjunkt und A := ∞�<br />
ist A ∈M(μ ∗ ), also<br />
n=1<br />
An. Zu zeigen<br />
μ ∗ (A ∩ E)+μ ∗ (A c ∩ E) ≤ μ ∗ (E) für jedes E ∈ 2 Ω . (1.11)<br />
Setze Bn = n�<br />
Ai für jedes n ∈ N. Es gilt für jedes n ∈ N<br />
i=1<br />
μ ∗ (E ∩ Bn+1) =μ ∗� (E ∩ Bn+1) ∩ Bn<br />
= μ ∗ (E ∩ Bn)+μ ∗ (E ∩ An+1),<br />
� ∗<br />
+ μ � (E ∩ Bn+1) ∩ B c �<br />
n<br />
und induktiv μ∗ (E ∩ Bn) = �n i=1 μ∗ (E ∩ Ai). Wegen der Monotonie von μ∗ folgt<br />
μ ∗ (E) =μ ∗ (E ∩ Bn)+μ ∗ (E ∩ B c n) ≥ μ ∗ (E ∩ Bn)+μ ∗ (E ∩ A c )<br />
n�<br />
=<br />
μ<br />
i=1<br />
∗ (E ∩ Ai)+μ ∗ (E ∩ A c ).<br />
Indem wir n →∞gehen lassen, folgt mit der σ-Subadditivität von μ ∗<br />
μ ∗ (E) ≥<br />
∞�<br />
i=1<br />
μ ∗ (E ∩ Ai)+μ ∗ (E ∩ A c ) ≥ μ ∗ (E ∩ A)+μ ∗ (E ∩ A c ).<br />
Also gilt (1.11), und der Beweis ist komplett. ✷<br />
Wir zeigen nun einen Satz, der mit schwächeren Voraussetzungen auskommt als der<br />
Satz von Carathéodory (Satz 1.41) und diesen impliziert.<br />
Satz 1.53 (Fortsetzungssatz für Maße). Sei A ein Semiring und μ : A→[0, ∞]<br />
eine additive, σ-subadditive, σ-endliche Mengenfunktion mit μ(∅) =0.<br />
Dann existiert ein eindeutig bestimmtes, σ-endliches Maß �μ : σ(A) → [0, ∞] mit<br />
�μ(A) =μ(A) für jedes A ∈A.
24 1 Grundlagen der Maßtheorie<br />
Beweis. Da A schnittstabil ist, folgt die Eindeutigkeit aus Lemma 1.42.<br />
Um die Existenz zu zeigen, definieren wir wie in Lemma 1.47<br />
μ ∗ � �<br />
�<br />
(A) :=inf μ(F ): F∈U(A) für jedes A ∈ 2 Ω .<br />
F ∈F<br />
Nach Lemma 1.31(ii) ist μ monoton, also ist μ∗ nach Lemma 1.47 ein äußeres Maß<br />
und μ∗ (A) =μ(A) für jedes A ∈A.Wirmüssen zeigen, dass M(μ∗ ) ⊃ σ(A) gilt.<br />
Da M(μ∗ ) eine σ-Algebra ist (Lemma 1.52), reicht es, A⊂M(μ∗ ) zu zeigen.<br />
Seien also A ∈ A und E ∈ 2Ω mit μ∗ (E) < ∞. Seiε > 0. Dann gibt es<br />
E1,E2,...∈Amit<br />
E ⊂<br />
∞�<br />
En und<br />
n=1<br />
∞�<br />
μ(En) ≤ μ ∗ (E)+ε.<br />
n=1<br />
Setze Bn := En ∩ A ∈A.DaA ein Semiring ist, gibt es zu jedem n ∈ N ein<br />
mn ∈ N sowie C1 n,...,Cmn n ∈Amit En \ A = En \ Bn = mn �<br />
Ck n.Alsoist<br />
∞�<br />
E ∩ A ⊂ Bn, E ∩ A c ∞�<br />
⊂<br />
n=1<br />
n=1<br />
mn �<br />
k=1<br />
k=1<br />
C k n und En = Bn ⊎<br />
μ∗ ist σ-subadditiv, und nach Voraussetzung ist μ additiv. Wegen μ∗� �A ≤ μ (es gilt<br />
sogar Gleichheit, wie wir gleich sehen) folgt<br />
μ ∗ (E ∩ A)+μ ∗ (E ∩ A c ) ≤<br />
n=1<br />
n=1<br />
k=1<br />
mn �<br />
k=1<br />
∞�<br />
μ ∗ ∞�<br />
(Bn)+ μ ∗� mn �<br />
μ(C k �<br />
n)<br />
∞�<br />
∞� mn �<br />
≤ μ(Bn)+ μ(C k n)<br />
=<br />
=<br />
n=1<br />
n=1 k=1<br />
∞�<br />
�<br />
mn �<br />
μ(Bn)+ μ(C k �<br />
n)<br />
n=1<br />
k=1<br />
∞�<br />
μ(En) ≤ μ ∗ (E)+ε.<br />
n=1<br />
Daher ist μ ∗ (E ∩ A) +μ ∗ (E ∩ A c ) ≤ μ ∗ (E) und damit A ∈M(μ ∗ ), also ist<br />
A⊂M(μ ∗ ). Setze nun �μ : σ(A) → [0, ∞], A ↦→ μ ∗ (A). Nach Lemma 1.51 ist �μ<br />
ein Maß und �μ ist σ-endlich, weil μσ-endlich ist. ✷<br />
Beispiel 1.54 (Lebesgue-Maß, Fortsetzung von Beispiel 1.39). Wir wollen das auf<br />
den Quadern A = {(a, b] : a, b ∈ R n ,a
1.3 Fortsetzung von Maßen 25<br />
� n<br />
i=1 (bi − ai) zu einem Maß auf der Borel’schen σ-Algebra B(R n ) fortsetzen. Um<br />
die Voraussetzungen von Satz 1.53 zu prüfen, müssen wir nur noch zeigen, dass μ<br />
σ-subadditiv ist. Seien also (a, b], (a(1),b(1)], (a(2),b(2)],...∈Amit<br />
Wir müssen zeigen, dass<br />
(a, b] ⊂<br />
μ((a, b]) ≤<br />
∞�<br />
(a(k),b(k)].<br />
k=1<br />
∞�<br />
μ((a(k),b(k)]). (1.12)<br />
k=1<br />
Hierzu benutzen wir ein Kompaktheitsargument, um (1.12) auf die endliche Additivität<br />
zurück zu führen. Sei also ε>0, und sei für jedes k ∈ N ein bε(k) >b(k) so<br />
gewählt, dass<br />
μ((a(k),bε(k)]) ≤ μ((a(k),b(k)]) + ε 2 −k−1 .<br />
Ferner sei aε ∈ (a, b) so gewählt, dass μ((aε,b]) ≥ μ((a, b]) − ε<br />
2 . Nun ist [aε,b]<br />
kompakt und<br />
∞�<br />
∞�<br />
(a(k),bε(k)) ⊃ (a(k),b(k)] ⊃ (a, b] ⊃ [aε,b].<br />
k=1<br />
k=1<br />
Also existiert ein K0 mit � K0<br />
k=1 (a(k),bε(k)) ⊃ (aε,b]. Daμ (endlich) subadditiv<br />
ist (Lemma 1.31(iii)), folgt<br />
μ((a, b]) ≤ ε<br />
2 + μ((aε,b]) ≤ ε<br />
2 +<br />
K0 �<br />
μ((a(k),bε(k)])<br />
k=1<br />
k=1<br />
≤ ε<br />
2 +<br />
K0 � � �<br />
∞�<br />
−k−1<br />
ε 2 + μ((a(k),b(k)]) ≤ ε + μ((a(k),b(k)]).<br />
Da ε>0 beliebig war, folgt (1.12) und damit die σ-Subadditivität von μ. ✸<br />
k=1<br />
Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt.<br />
Satz 1.55 (Lebesgue-Maß). Es existiert ein eindeutig bestimmtes Maß λ n auf<br />
(R n , B(R n )) mit der Eigenschaft<br />
λ n ((a, b]) =<br />
n�<br />
(bi − ai) für alle a, b ∈ R n mit a
26 1 Grundlagen der Maßtheorie<br />
Beispiel 1.56 (Lebesgue-Stieltjes-Maß). Sei Ω = R und A = {(a, b] : a, b ∈<br />
R, a ≤ b}. A ist ein Semiring und σ(A) = B(R), woB(R) die Borel’sche σ-<br />
Algebra auf R ist. Ferner sei F : R → R monoton wachsend und rechtsseitig stetig.<br />
Wir definieren eine Mengenfunktion<br />
˜μF : A→[0, ∞), (a, b] ↦→ F (b) − F (a).<br />
Offensichtlich ist ˜μF (∅) =0, und ˜μF ist additiv.<br />
Seien (a, b], (a(1),b(1)], (a(2),b(2)],... ∈Amit (a, b] ⊂ �∞ n=1 (a(n),b(n)]. Sei<br />
ε>0, und sei aε ∈ (a, b) so gewählt, dass F (aε) − F (a) b(k)<br />
so gewählt, dass F (bε(k)) − F (b(k)) 0,<br />
also hat (xn)n∈N keinen Häufungspunkt.<br />
(v) Gilt lim<br />
x→∞ F (x) − F (−x) =1,soistμF ein W-Maß. ✸<br />
� x<br />
Den Fall, wo μF ein W-Maß ist, wollen wir noch weiter untersuchen.
1.3 Fortsetzung von Maßen 27<br />
Definition 1.59 (Verteilungsfunktion). Eine rechtsseitig stetige, monoton wachsende<br />
Funktion F : R → [0, 1] mit F (−∞) := lim F (x) =0und F (∞) :=<br />
x→−∞<br />
lim F (x) =1heißt Verteilungsfunktion. Gilt statt F (∞) =1lediglich F (∞) ≤<br />
x→∞<br />
1, soheißtFuneigentliche Verteilungsfunktion.<br />
Ist μ ein (Sub-)W-Maß auf (R, B(R)), so heißt Fμ : x ↦→ μ((−∞,x]) die Verteilungsfunktion<br />
von μ.<br />
Offenbar ist Fμ rechtsseitig stetig und F (−∞) =0, weil μ stetig von oben und<br />
endlich ist (Satz 1.36). Auf Grund der Stetigkeit von unten ist F (∞) =μ(R), also<br />
ist Fμ tatsächlich eine (uneigentliche) Verteilungsfunktion, wenn μ ein (Sub-)W-<br />
Maß ist.<br />
Die Argumentation aus Beispiel 1.56 liefert nun den folgenden Satz.<br />
Satz 1.60. Die Abbildung μ ↦→ Fμ ist eine Bijektion von der Menge der W-Maße<br />
auf (R, B(R)) auf die Menge der Verteilungsfunktionen, beziehungsweise von der<br />
Menge der Sub-W-Maße auf die der uneigentlichen Verteilungsfunktionen.<br />
Wir sehen also, dass jedes endliche Maß auf (R, B(R)) ein Lebesgue-Stieltjes-Maß<br />
für eine gewisse Funktion F ist. Für σ-endliche Maße ist dies im Allgemeinen<br />
falsch, wie wir in Beispiel 1.58(iv) gesehen haben.<br />
Wir kommen nun zu einem Satz, der Satz 1.55 mit dem Lebesgue-Stieltjes-Maß<br />
kombiniert. Später werden wir sehen, dass dieser Satz in größerer Allgemeinheit<br />
gültig ist. Speziell kann man auf die Bedingung verzichten, dass die einzelnen Faktoren<br />
vom Lebesgue-Stieltjes-Typ sind.<br />
Satz 1.61 (Endliche Produkte von Maßen). Sei n ∈ N, und seien μ1,...,μn<br />
endliche Maße oder, allgemeiner, Lebesgue-Stieltjes-Maße auf (R, B(R)). Dann<br />
existiert ein eindeutig bestimmtes, σ-endliches Maß μ auf (R n , B(R n )) mit<br />
μ((a, b]) =<br />
Wir nennen μ =:<br />
n�<br />
μi((ai,bi]) für alle a, b ∈ R n mit a
28 1 Grundlagen der Maßtheorie<br />
Messräumen gilt. Wir können auch unendliche (sogar überabzählbare) Produkte betrachten,<br />
wenn wir voraussetzen, dass alle Faktoren Wahrscheinlichkeitsräume sind<br />
(Satz 14.36). ✸<br />
Beispiel 1.63 (Unendliches Produktmaß, Fortsetzung von Beispiel 1.40). Sei E<br />
eine endliche Menge und Ω = E N der Raum der Folgen mit Werten in E. Ferner sei<br />
(pe)e∈E ein Wahrscheinlichkeitsvektor. Der auf A = {[ω1,...,ωn] : ω1,...,ωn ∈<br />
E, n ∈ N} definierte Inhalt<br />
μ([ω1,...,ωn]) =<br />
soll nun zu einem Maß auf σ(A) fortgesetzt werden. Um die Voraussetzungen von<br />
Satz 1.53 zu prüfen, müssen wir zeigen, dass μσ-subadditiv ist. Wie im vorangehenden<br />
Beispiel geht dies mit Hilfe eines Kompaktheitsarguments.<br />
Seien also A, A1,A2,... ∈Aund A ⊂ �∞ n=1 An. Es reicht zu zeigen, dass es ein<br />
N ∈ N gibt mit der Eigenschaft<br />
A ⊂<br />
n�<br />
i=1<br />
pωi<br />
N�<br />
An. (1.13)<br />
n=1<br />
Dann ist nämlich aufgrund der endlichen Subadditivität von μ (Lemma 1.31(iii))<br />
schon μ(A) ≤ N�<br />
μ(An) ≤ ∞�<br />
μ(An), also ist μσ-subadditiv.<br />
n=1<br />
n=1<br />
Wir geben nun zwei Beweise für (1.13) an.<br />
1. Beweis Wie in Beispiel 1.40 angemerkt, ist Ω mit der von der Metrik d in<br />
(1.9) erzeugten Produkttopologie kompakt, und jedes A ∈ A ist abgeschlossen<br />
und damit auch kompakt. Da jedes der An zugleich offen ist, gibt es eine endliche<br />
Teilüberdeckung von A, mithin gilt (1.13).<br />
2. Beweis Wir zeigen nun auf elementare Weise die Gültigkeit von (1.13).<br />
Das Vorgehen imitiert den Beweis dafür, dass Ω kompakt ist. Wir setzen Bn :=<br />
A \ �n i=1 Ai, nehmen an, dass Bn �= ∅ für jedes n ∈ N und führen dies zum Widerspruch.<br />
Nach dem Dirichlet’schen Schubfachprinzip (E ist endlich) können wir<br />
ein ω1 ∈ E auswählen, sodass [ω1] ∩ Bn �= ∅ für unendlich viele n ∈ N. Wegen<br />
B1 ⊃ B2 ⊃ ...folgt<br />
[ω1] ∩ Bn �= ∅ für jedes n ∈ N.<br />
Wähle nun sukzessive ω2,ω3,...∈ E so aus, dass<br />
[ω1,...,ωk] ∩ Bn �= ∅ für alle k, n ∈ N.<br />
Bn ist disjunkte Vereinigung von gewissen Mengen Cn,1,...,Cn,mn ∈A.Daher<br />
existiert zu jedem n ∈ N ein in ∈{1,...,mn} mit [ω1,...,ωk] ∩ Cn,in �= ∅ für<br />
unendlich viele k ∈ N.Wegen[ω1] ⊃ [ω1,ω2] ⊃ ...folgt
1.3 Fortsetzung von Maßen 29<br />
[ω1,...,ωk] ∩ Cn,in �= ∅ für alle k, n ∈ N.<br />
Für festes n ∈ N und großes k ist [ω1,...,ωk] ⊂ Cn,in , also ist ω =(ω1,ω2,...) ∈<br />
Cn,in ⊂ Bn. Es folgt im Widerspruch zur Annahme, dass �∞ n=1 Bn �= ∅. ✸<br />
Zusammen mit Satz 1.53 haben wir den folgenden Satz gezeigt.<br />
Satz 1.64 (Produktmaß, Bernoulli-Maß). Sei E eine endliche, nichtleere Menge<br />
und Ω = E N sowie (pe)e∈E ein Wahrscheinlichkeitsvektor. Dann gibt es ein<br />
eindeutig bestimmtes W-Maß μ auf σ(A) =B(Ω) mit<br />
μ([ω1,...,ωn]) =<br />
n�<br />
i=1<br />
pωi für alle ω1,...,ωn ∈ E und n ∈ N.<br />
Wir nennen μ das Produktmaß oder Bernoulli-Maß auf Ω mit Gewichten (pe)e∈E.<br />
Wir schreiben auch �� �⊗N := μ.<br />
e∈E peδe<br />
Ferner nennen wir (2E ) ⊗N := σ(A) die Produkt-σ-Algebra auf Ω.<br />
Auf Produktmaße gehen wir systematisch noch einmal in Kapitel 14 ein.<br />
Der Fortsetzungssatz liefert uns einen abstrakten Existenz- und Eindeutigkeitssatz<br />
für Maße, die wir zuvor nur auf einem Semiring A definiert hatten. Der folgende<br />
Satz zeigt, wie gut wir das Maß von σ(A)-messbaren Mengen durch endliche,<br />
beziehungsweise abzählbare Operationen mit Mengen aus A annähern können.<br />
Wir schreiben<br />
A △ B := (A \ B) ∪ (B \ A), für A, B ⊂ Ω, (1.14)<br />
für die symmetrische Differenz zweier Mengen A und B.<br />
Satz 1.65 (Approximationssatz für Maße). Sei A⊂2 Ω ein Semiring und μ ein<br />
Maß auf σ(A), das σ-endlich auf A ist.<br />
(i) Zu A ∈ σ(A) und ε>0 gibt es paarweise disjunkte Mengen A1,A2,...∈A<br />
mit A ⊂ ∞�<br />
�<br />
∞�<br />
�<br />
An und μ<br />
0 � gibt es n ∈ N und paarweise<br />
disjunkte Mengen A1,...,An ∈Amit μ A △ n�<br />
�<br />
30 1 Grundlagen der Maßtheorie<br />
Beweis. (ii) Da μ auf σ(A) mit dem äußeren Maß μ ∗ übereinstimmt und μ(A)<br />
endlich ist, gibt es nach Definition von μ ∗ (siehe Lemma 1.47) eine Überdeckung<br />
B1,B2,...∈Avon A mit<br />
Sei n ∈ N mit ∞�<br />
i=n+1<br />
Mengen C, D, E gilt<br />
μ(A) ≥<br />
μ(Bi) < ε<br />
2<br />
∞�<br />
μ(Bi) − ε/2.<br />
i=1<br />
(dies existiert, weil μ(A) < ∞). Für je drei<br />
C △D =(D \C)∪(C \D) ⊂ (D \C)∪(C \(D ∪E))∪E ⊂ (C △(D ∪E))∪E.<br />
Mit C = A, D = �n i=1 Bi und E = �∞ i=n+1 Bi erhalten wir<br />
�<br />
n�<br />
� �<br />
∞�<br />
� �<br />
∞�<br />
�<br />
μ A △ ≤ μ A △ + μ<br />
Schreibe nun<br />
i=1<br />
i=1<br />
Bi<br />
≤ μ<br />
� ∞�<br />
i=1<br />
Bi<br />
i=2 j=1<br />
i=1<br />
Bi<br />
i=n+1<br />
Bi<br />
�<br />
− μ(A)+ ε<br />
≤ ε.<br />
2<br />
n�<br />
n� i−1 �<br />
Bi = B1 ⊎ (Bi \ Bj) =:<br />
für ein gewisses k ∈ N und gewisse A1,...,Ak ∈A(Semiring-Eigenschaft).<br />
(i) Sei A ∈ σ(A) und En ↑ Ω, En ∈ σ(A) mit μ(En) < ∞ für jedes n ∈ N.<br />
Wähle zu n ∈ N eine Überdeckung (Bn,m)m∈N von A ∩ En mit<br />
∞�<br />
μ(A ∩ En) ≥ μ(Bn,m) − 2 −n ε.<br />
m=1<br />
(Dies ist möglich nach Definition des äußeren Maßes μ∗ , das auf A mit μ übereinstimmt.)<br />
Schreibe ∞�<br />
Bn,m = ∞�<br />
An für gewisse An ∈ A, n ∈ N<br />
m,n=1<br />
(Übung 1.1.1). Dann ist<br />
�<br />
∞�<br />
� �<br />
∞�<br />
μ An \ A = μ<br />
n=1<br />
≤ μ<br />
≤<br />
∞�<br />
n=1<br />
n=1 m=1<br />
� ∞�<br />
∞�<br />
n=1 m=1<br />
∞�<br />
��<br />
∞�<br />
n=1<br />
m=1<br />
Bn,m \ A<br />
�<br />
k�<br />
i=1<br />
Ai<br />
� Bn,m \ (A ∩ En) ��<br />
μ(Bn,m)<br />
�<br />
�<br />
− μ(A ∩ En) ≤ ε.
1.3 Fortsetzung von Maßen 31<br />
(iii) Sei A ∈M(μ ∗ ) und (En)n∈N wie oben. Wähle zu m, n ∈ N ein An,m ∈<br />
σ(A) mit An,m ⊃ A ∩ En und μ ∗ (An,m) ≤ μ ∗ (A ∩ En)+ 2−n<br />
m .<br />
Setze Am := ∞�<br />
A+ := ∞�<br />
m=1<br />
n=1<br />
An,m ∈ σ(A). DannistAm⊃ A und μ∗ (Am \ A) ≤ 1<br />
m . Setze<br />
Am. Dannistσ(A) ∋ A+ ⊃ A und μ ∗ (A+ \ A) =0.Wähle analog<br />
(A−) c ∈ σ(A) mit (A−) c ⊃ A c und μ ∗ ((A−) c \A c )=0.DannistA+ ⊃ A ⊃ A−<br />
und μ(A+ \ A−) =μ ∗ (A+ \ A−) =μ ∗ (A+ \ A)+μ ∗ (A \ A−) =0. ✷<br />
Bemerkung 1.67. (Regularität von Maßen) (Vergleiche auch Satz 13.6 auf Seite<br />
236.) Sei λ n das Lebesgue-Maß auf (R n , B(R n )). SeiA der Semiring der Quader<br />
der Form [a, b) ⊂ R n . Nach Satz 1.23 ist B(R n )=σ(A). Nach dem Approximationssatz<br />
gibt es zu A ∈B(R n ) und ε>0 abzählbar viele A1,A2,... ∈A<br />
mit<br />
λ n� ∞ �<br />
�<br />
Ai \ A
32 1 Grundlagen der Maßtheorie<br />
Definition 1.69. Ein Maßraum (Ω,A,μ) heißt vollständig, falls Nμ ⊂A.<br />
Bemerkung 1.70 (Vervollständigung eines Maßraums). Sei (Ω,A,μ) ein Maßraum.<br />
Es gibt genau eine kleinste σ-Algebra A ∗ ⊃ A und eine Fortsetzung<br />
μ ∗ von μ auf A ∗ , sodass (Ω,A ∗ ,μ ∗ ) vollständig ist. (Ω,A ∗ ,μ ∗ ) heißt die Ver-<br />
vollständigung von (Ω,A,μ). In der Notation des Beweises von Satz 1.53 ist<br />
�<br />
Ω,M(μ ∗ ),μ ∗� �<br />
� ∗<br />
M(μ )<br />
diese Vervollständigung.<br />
Ferner ist M(μ ∗ )=σ(A∪Nμ) ={A ∪ N : A ∈A,N∈Nμ} und μ ∗ (A ∪ N) =<br />
μ(A) für jedes A ∈Aund N ∈Nμ.<br />
Da wir diese Aussagen im Folgenden nicht benötigen werden, verzichten wir auf<br />
den Beweis und verweisen auf die gängigen Maßtheoriebücher, etwa [43].<br />
Beispiel 1.71. Ist λ das Lebesgue-Maß (genauer: das Lebesgue-Borel-Maß) auf<br />
(Rn , B(Rn )), solässt sich λ eindeutig fortsetzen zu einem Maß λ∗ auf<br />
B ∗ (R n )=σ(B(R n ) ∪N),<br />
wo N die Menge der Teilmengen der Lebesgue-Borel’schen Nullmengen bezeichnet.<br />
B ∗ (R n ) heißt σ-Algebra der Lebesgue-messbaren Mengen. Zur Unterscheidung<br />
wird manchmal λ das Lebesgue-Borel-Maß genannt und λ ∗ das Lebesgue-<br />
Maß. Wir werden diese Unterscheidung im Folgenden aber nicht benötigen. ✸<br />
Beispiel 1.72. Sei μ = δω auf einem Messraum (Ω,A). Ist{ω} ∈A, so ist die<br />
Vervollständigung A ∗ = 2 Ω , μ ∗ = δω. Im Extremfall der trivialen σ-Algebra<br />
A = {∅,Ω} hingegen ist Nμ = {∅}, also die Vervollständigung A ∗ = {∅,Ω},<br />
μ ∗ = δω. Man beachte, dass man auf dieser trivialen σ-Algebra die Dirac-Maße zu<br />
verschiedenen Punkten aus Ω nicht unterscheiden kann. ✸<br />
Definition 1.73. Sei (Ω,A,μ) ein Messraum und Ω ′ ∈A. Dann wird durch<br />
μ � � (A) :=μ(A) für A ∈A mit A ⊂ Ω′<br />
′<br />
Ω<br />
ein Maß auf der Spur-σ-Algebra A � � definiert. Dieses Maß nennen wir die Ein-<br />
′<br />
Ω<br />
schränkung von μ auf Ω ′ .<br />
Beispiel 1.74. Die Einschränkung des Lebesgue-Borel-Maßes λ von (R, B(R)) auf<br />
[0, 1] ist ein W-Maß auf ([0, 1], B(R) � � ). Allgemeiner nennen wir für messbares<br />
[0,1]<br />
A ∈B(R) die Einschränkung λ � � das Lebesgue-Maß auf A. Oftmals wird als Sym-<br />
A<br />
bol wieder λ verwendet, weil wir nicht zu viele kleinliche Unterscheidungen treffen<br />
wollen.<br />
Wir sehen später (Korollar 1.84), dass B(R) � � = B(A), wobei B(A) die Borel’sche<br />
A<br />
σ-Algebra auf A ist, die von den in A (relativ) offenen Mengen erzeugt wird. ✸
1.4 Messbare Abbildungen 33<br />
Beispiel 1.75 (Gleichverteilung). Ist A ∈B(Rn ) mit n-dimensionalem Lebesgue-<br />
Maß λn (A) ∈ (0, ∞), so wird durch<br />
μ(B) := λn (B)<br />
λn für B ∈B(R<br />
(A)<br />
n ),B⊂ A,<br />
ein W-Maß auf B(Rn ) � � definiert. Wir nennen μ die uniforme Verteilung oder<br />
A<br />
Gleichverteilung auf A und schreiben UA := μ. ✸<br />
Übung 1.3.1. Man zeige die folgende Verallgemeinerung von Beispiel 1.58(iv): Ein<br />
Maß �∞ αnδxn n=1 ist genau dann ein Lebesgue-Stieltjes Maß zu einer geeigneten<br />
Funktion F ,wenn �<br />
n: |xn|≤K αn < ∞ für jedes K>0 gilt. ♣<br />
Übung 1.3.2. Sei Ω eine überabzählbare Menge und ω0 ∈ Ω ein beliebiges Element.<br />
Sei A = σ({ω} : ω ∈{ω0}).<br />
(i) Charakterisiere A ähnlich wie in Übung 1.1.4 (Seite 11).<br />
(ii) Zeige, dass (Ω,A,δω0 ) vollständig ist. ♣<br />
Übung 1.3.3. Sei (μn)n∈N eine Folge von endlichen Maßen auf dem Messraum<br />
(Ω,A). Für jedes A ∈Aexistiere der Grenzwert μ(A) := lim<br />
n→∞ μn(A).<br />
Man zeige: μ ist ein Maß auf (Ω,A).<br />
Hinweis: Zu zeigen ist insbesondere die ∅-Stetigkeit von μ. ♣<br />
1.4 Messbare Abbildungen<br />
Eine Zwangshandlung in der Mathematik ist es, Homomorphismen zwischen Objekten<br />
anzugeben, also strukturerhaltende Abbildungen. Für topologische Räume<br />
sind dies die stetigen Abbildungen, für Messräume die messbaren Abbildungen.<br />
Seien im Folgenden stets (Ω,A) und (Ω ′ , A ′ ) Messräume.<br />
Definition 1.76 (Messbare Abbildungen).<br />
(i) Eine Abbildung X : Ω → Ω ′ heißt A – A ′ -messbar (oder kurz: messbar),<br />
falls X −1 (A ′ ):={X −1 (A ′ ):A ′ ∈A ′ }⊂Aist, falls also<br />
X −1 (A ′ ) ∈A für jedes A ′ ∈A ′ .<br />
Ist X messbar, so schreiben wir auch X :(Ω,A) → (Ω ′ , A ′ ).<br />
(ii) Ist Ω ′ = R und A ′ = B(R) die Borel’sche σ-Algebra auf R, soheißtX :<br />
(Ω,A) → (R, B(R)) kurz eine reelle A-messbare Abbildung.
34 1 Grundlagen der Maßtheorie<br />
Beispiel 1.77. (i) Die Identität id : Ω → Ω ist A – A-messbar.<br />
(ii) Ist A =2 Ω oder A ′ = {∅,Ω ′ }, so ist jede Abbildung X : Ω → Ω ′ schon A<br />
– A ′ -messbar.<br />
(iii) Sei A ⊂ Ω. Die Indikatorfunktion A : Ω →{0, 1} ist genau dann A –<br />
2 {0,1} -messbar, wenn A ∈A. ✸<br />
Satz 1.78 (Erzeugte σ-Algebra). Sei (Ω ′ , A ′ ) ein Messraum und Ω eine nichtleere<br />
Menge sowie X : Ω → Ω ′ eine Abbildung. Das Urbild<br />
X −1 (A ′ ):={X −1 (A ′ ): A ′ ∈A ′ } (1.15)<br />
ist die kleinste σ-Algebra, bezüglich der X messbar ist. Wir nennen σ(X) :=<br />
X −1 (A ′ ) die von X erzeugte σ-Algebra auf Ω.<br />
Beweis. Übung! ✷<br />
Wir wollen nun σ-Algebren betrachten, die von mehreren Abbildungen erzeugt werden.<br />
Definition 1.79 (Erzeugte σ-Algebra). Sei Ω eine nichtleere Menge. Sei I eine<br />
beliebige Indexmenge, und für jedes i ∈ I sei (Ωi, Ai) ein Messraum sowie Xi :<br />
Ω → Ωi eine beliebige Abbildung. Dann heißt<br />
� � � �<br />
�<br />
�<br />
σ(Xi, i∈ I) :=σ σ(Xi) = σ<br />
i∈I<br />
i∈I<br />
X −1<br />
i (Ai)<br />
die von (Xi, i∈ I) erzeugte σ-Algebra auf Ω. Dies ist die kleinste σ-Algebra,<br />
bezüglich der jedes Xi messbar ist.<br />
Wie bei stetigen oder linearen Abbildungen gibt es eine Verknüpfungseigenschaft.<br />
Satz 1.80 (Verknüpfung von Abbildungen). Sind (Ω,A), (Ω ′ , A ′ ) und (Ω ′′ , A ′′ )<br />
Messräume sowie X : Ω → Ω ′ messbar und X ′ : Ω ′ → Ω ′′ messbar, so ist die<br />
Abbildung Y := X ′ ◦ X : Ω → Ω ′′ , ω ↦→ X ′ (X(ω)) messbar bezüglich A – A ′′ .<br />
Beweis. Es ist Y −1 (A ′′ )=X −1 ((X ′ ) −1 (A ′′ )) ⊂ X −1 (A ′ ) ⊂A. ✷<br />
Praktisch kann man die Messbarkeit einer Abbildung X kaum prüfen, indem man<br />
sämtliche Urbilder X −1 (A ′ ), A ′ ∈A ′ auf Messbarkeit hin untersucht. Dafür sind<br />
die meisten σ-Algebren A ′ einfach zu groß. Glücklicherweise reicht hier die Betrachtung<br />
eines Erzeugers von A ′ aus:
1.4 Messbare Abbildungen 35<br />
Satz 1.81 (Messbarkeit auf einem Erzeuger). Für jedes System E ′ ⊂A ′ von<br />
A ′ -messbaren Mengen gilt σ(X −1 (E ′ )) = X −1 (σ(E ′ )) und damit<br />
X ist A – σ(E ′ )-messbar ⇐⇒ X −1 (E ′ ) ∈A für jedes E ′ ∈E ′ .<br />
Ist speziell σ(E ′ )=A ′ , dann gilt<br />
X ist A – A ′ -messbar ⇐⇒ X −1 (E ′ ) ⊂A.<br />
Beweis. Offenbar ist X −1 (E ′ ) ⊂ X −1 (σ(E ′ )) = σ(X −1 (σ(E ′ ))). Also ist auch<br />
σ(X −1 (E ′ )) ⊂ X −1 (σ(E ′ )).<br />
Für die andere Inklusion betrachten wir das Mengensystem<br />
A ′ 0 := � A ′ ∈ σ(E ′ ):X −1 (A ′ ) ∈ σ(X −1 (E ′ )) �<br />
und zeigen zunächst, dass A ′ 0 eine σ-Algebra ist, indem wir die Punkte (i)-(iii) aus<br />
Definition 1.2 prüfen:<br />
(i) Offensichtlich ist Ω ′ ∈A ′ 0.<br />
(ii) (Komplementstabilität) Ist A ′ ∈A ′ 0,soist<br />
X −1 ((A ′ ) c )=(X −1 (A ′ )) c ∈ σ(X −1 (E ′ )),<br />
also (A ′ ) c ∈A ′ 0.<br />
(iii) (σ-∪-Stabilität) Seien A ′ 1,A ′ 2,...∈A ′ 0.Dannist<br />
X −1<br />
�<br />
∞�<br />
n=1<br />
also ist � ∞<br />
n=1 A′ n ∈A ′ 0.<br />
A ′ n<br />
�<br />
∞�<br />
= X −1 (A ′ n) ∈ σ(X −1 (E ′ )),<br />
n=1<br />
Wegen E ′ ⊂A ′ 0 ist A ′ 0 = σ(E ′ ), also X −1 (A ′ ) ∈ σ(X −1 (E ′ )) für jedes A ′ ∈ σ(E ′ )<br />
und damit X −1 (σ(E ′ )) ⊂ σ(X −1 (E ′ )). ✷<br />
Korollar 1.82 (Messbarkeit von verknüpften Abbildungen). Sei I eine nichtleere<br />
Indexmenge sowie (Ω,A), (Ω ′ , A ′ ) und (Ωi, Ai) Messräume, i ∈ I. Sei ferner<br />
(Xi : i ∈ I) eine Familie messbarer Abbildungen Xi : Ω ′ → Ωi mit der Eigenschaft<br />
A ′ = σ(Xi : i ∈ I). Dann gilt: Eine Abbildung Y : Ω → Ω ′ ist genau dann<br />
A-A ′ messbar, wenn Xi ◦ Y messbar ist bezüglich A-Ai für jedes i ∈ I.<br />
Beweis. Ist Y messbar, so ist nach Satz 1.80 jedes Xi ◦ Y messbar. Sei nun jede<br />
der zusammengesetzten Abbildungen Xi ◦ Y messbar bezüglich A-Ai. Die Menge<br />
E ′ := {X −1<br />
i (A ′′ ): A ′′ ∈Ai, i∈ I} ist nach Voraussetzung ein Erzeuger von A ′ ,<br />
und es gilt Y −1 (A ′ ) ∈Afür jedes A ′ ∈E ′ wegen der Messbarkeit aller Xi ◦ Y .<br />
Nach Satz 1.81 ist also Y messbar. ✷
36 1 Grundlagen der Maßtheorie<br />
Wir erinnern an den Begriff der Spur eines Mengensystems aus Definition 1.25.<br />
Korollar 1.83 (Spur der erzeugten σ-Algebra). Ist E⊂2Ω und A ⊂ Ω nichtleer,<br />
so gilt σ � E � � �<br />
� = σ(E) �A<br />
A<br />
Beweis. Sei X : A↩→ Ω, ω ↦→ ω die Inklusionsabbildung. Dann ist X−1 (B) =<br />
A ∩ B für jedes B ∈ Ω. Nach Satz 1.81 ist<br />
σ � E � �<br />
� = σ({E ∩ A : E ∈E})<br />
A<br />
= σ({X −1 (E) : E ∈E})=σ(X −1 (E))<br />
= X −1 (σ(E)) = {A ∩ B : B ∈ σ(E)} = σ(E) � � A . ✷<br />
Zur Erinnerung: Für eine Teilmenge A ⊂ Ω eines topologischen Raums (Ω,τ) ist<br />
τ � � die Topologie der in A relativ offenen Mengen. Mit B(Ω,τ) =σ(τ) bezeichnen<br />
A<br />
wir die Borel’sche σ-Algebra auf (Ω,τ).<br />
Korollar 1.84 (Spur der Borel’schen σ-Algebra). Sei (Ω,τ) ein topologischer<br />
Raum und A ⊂ Ω eine beliebige Teilmenge von Ω. Dann gilt<br />
B(Ω,τ) � � = B<br />
A<br />
� A, τ � �<br />
� .<br />
A<br />
Beispiel 1.85. (i) Ist Ω ′ abzählbar, so ist X : Ω → Ω ′ genau dann A – 2Ω′ -<br />
messbar, wenn X−1 ({ω ′ }) ∈Afür jedes ω ′ ∈ Ω ′ .Für überabzählbare Ω ′ ist dies<br />
im Allgemeinen falsch. (Man betrachte etwa Ω = Ω ′ = R, A = B(R), X(ω) =ω<br />
für jedes ω ∈ Ω. Offenbar ist X−1 (ω) ={ω} ∈B(R). Ist andererseits A ⊂ R<br />
nicht in B(R), soistA∈ 2R , jedoch X−1 (A) �∈ B(R).)<br />
(ii) Für x ∈ R verabreden wir folgende Schreibweisen für das Ab- und Aufrunden<br />
⌊x⌋ := max{k ∈ Z : k ≤ x} und ⌈x⌉ :== min{k ∈ Z : k ≥ x}. (1.16)<br />
Die Abbildungen R → Z, x ↦→ ⌊x⌋ und x ↦→ ⌈x⌉ sind messbar bezüglich B(R)<br />
– 2 Z ,dennfür jedes k ∈ Z sind die Urbilder {x ∈ R : ⌊x⌋ = k} =[k, k +1)<br />
und {x ∈ R : ⌈x⌉ = k} = (k − 1,k] in B(R). Nach dem Verknüpfungssatz<br />
(Satz 1.80) sind dann für jede messbare Abbildung f :(Ω,A) → (R, B(R)) auch<br />
die Abbildungen ⌊f⌋ und ⌈f⌉ messbar bezüglich A – 2 Z .<br />
(iii) Eine Abbildung X : Ω → R d ist genau dann A – B(R d )-messbar, wenn<br />
X −1 ((−∞,a]) ∈A für jedes a ∈ R d ,<br />
denn σ((−∞,a], a∈ R d )=B(R d ) nach Satz 1.23. Analog gilt dies auch für die<br />
anderen Mengensysteme E1,...,E12 aus Satz 1.23. ✸
1.4 Messbare Abbildungen 37<br />
Beispiel 1.86. Sei d(x, y) =�x − y�2 der gewöhnliche euklidische Abstand auf Rn und B(Rn ,d)=B(Rn ) die Borel’sche σ-Algebra zu der von d erzeugten Topologie.<br />
Für jede Teilmenge A von Rn ist dann B(A, d) =B(Rn ,d) � � . ✸<br />
A<br />
Wir wollen die reellen Zahlen um die Punkte −∞ und +∞ erweitern und definieren<br />
R := R ∪{−∞, +∞}.<br />
Topologisch wollen wir R als die so genannte Zweipunktkompaktifizierung ansehen,<br />
indem wir R als topologisch isomorph zu [−1, 1] betrachten, beispielsweise<br />
vermöge der Abbildung<br />
⎧<br />
⎪⎨ tan(πx/2), falls x ∈ (−1, 1),<br />
ϕ :[−1, 1] → R, x ↦→<br />
⎪⎩<br />
−∞,<br />
∞,<br />
falls x = −1,<br />
falls x =+1.<br />
In der Tat wird durch ¯ d(x, y) = � �ϕ −1 (x)−ϕ −1 (y) � � für x, y ∈ R eine Metrik auf R<br />
definiert, sodass ϕ und ϕ −1 stetig sind (also ist ϕ ein topologischer Isomorphismus).<br />
Mit ¯τ bezeichnen wir die induzierte Topologie auf R, mit τ die gewöhnliche<br />
Topologie auf R.<br />
Korollar 1.87. Es gilt ¯τ � � R = τ, und daher gilt B(R) � � R = B(R).<br />
Ist speziell X :(Ω,A) → (R, B(R)) messbar, so ist X in kanonischer Weise auch<br />
eine R-wertige messbare Abbildung.<br />
Mit R haben wir also eine echte Erweiterung der reellen Zahlen geschaffen, und die<br />
Inklusion R ↩→ R ist messbar.<br />
Satz 1.88 (Messbarkeit stetiger Abbildungen). Sind (Ω,τ) und (Ω ′ ,τ ′ ) topologische<br />
Räume und f : Ω → Ω ′ stetig, dann ist f auch B(Ω) – B(Ω ′ )-messbar.<br />
Beweis. Wegen B(Ω ′ )=σ(τ ′ ) reicht es nach Satz 1.81 zu zeigen, dass f −1 (A ′ ) ∈<br />
σ(τ) für jedes A ′ ∈ τ ′ .Daf stetig ist, gilt aber sogar f −1 (A ′ ) ∈ τ für jedes<br />
A ′ ∈ τ ′ . ✷<br />
Für x, y ∈ R verabreden wir folgende Notationen<br />
x ∨ y =max(x, y) (Maximum),<br />
x ∧ y =min(x, y) (Minimum),<br />
x + =max(x, 0) (Positivteil),<br />
x − =max(−x, 0) (Negativteil),<br />
|x| =max(x, −x) =x − + x + (Absolutbetrag),<br />
sign(x) = {x>0} − {x
38 1 Grundlagen der Maßtheorie<br />
Analog bezeichnen wir für reelle messbare Abbildungen beispielsweise X + =<br />
max(X, 0). Die Abbildungen x ↦→ x + , x ↦→ x − und x ↦→ |x| sind stetig (und<br />
damit nach dem vorangehenden Satz messbar), die Abbildung x ↦→ sign(x) ist offenbar<br />
auch stetig. Wir erhalten also (zusammen mit Korollar 1.82):<br />
Korollar 1.89. Ist X eine reelle oder R-wertige messbare Abbildung, so sind auch<br />
die Abbildungen X − , X + , |X| und sign(X) messbar.<br />
Satz 1.90 (Koordinatenabbildungen sind messbar). Sei (Ω,A) ein Messraum<br />
und f1,...,fn : Ω → R Abbildungen, sowie f := (f1,...,fn) :Ω → R n . Dann<br />
gilt<br />
f ist A – B(R n )-messbar ⇐⇒ jedes fi ist A – B(R)-messbar.<br />
Die Aussage gilt analog für fi : Ω → R := R ∪{±∞}.<br />
Beweis. Für b ∈ R n ist f −1 ((−∞,b)) = n�<br />
i=1<br />
f −1<br />
i ((−∞,bi)). Ist jedes fi messbar,<br />
so ist also f −1 ((−∞,b)) ∈A. Die Quader (−∞,b), b ∈ R n , erzeugen aber B(R n ),<br />
und daher ist dann f messbar. Sei nun f messbar. Für i =1,...,nsei πi : R n → R,<br />
x ↦→ xi die i-te Projektion. Offenbar ist πi stetig also B(R n ) – B(R)-messbar. Nach<br />
Satz 1.80 ist auch fi = πi ◦ f messbar. ✷<br />
Für den folgenden Satz vereinbaren wir die Konvention x<br />
0 := 0 für jedes x ∈ R.<br />
Satz 1.91. Sei (Ω,A) ein Messraum und f,g : (Ω,A) → (R n , B(R n )) sowie<br />
h :(Ω,A) → (R, B(R)) messbar. Dann sind auch die Abbildungen f + g, f − g,<br />
f · h und f/h messbar.<br />
Beweis. Die Abbildung π : Rn × R → Rn , (x, α) ↦→ α · x ist stetig, also messbar.<br />
Nach Satz 1.90 ist (f,h) :Ω → Rn × R messbar, also auch die zusammengesetzte<br />
Abbildung f · h = π ◦ (f,h). Analog folgt die Messbarkeit von f + g und f − g.<br />
Um die Messbarkeit von f/h zu zeigen, definieren wir H : R → R, x ↦→ 1/x.<br />
Nach unserer Konvention ist H(0) = 0. Dannistf/h = f · H ◦ h. Es reicht also<br />
zu zeigen, dass H messbar ist. Offenbar ist H � � stetig. Für offenes U ⊂ R ist<br />
R\{0}<br />
auch U \{0} offen und damit H−1 (U \{0}) ∈B(R).FerneristH−1 ({0}) ={0}.<br />
Also ist schließlich H−1 (U) =H−1 (U \{0}) ∪ (U ∩{0}) ∈B(R). ✷<br />
Satz 1.92. Sind X1,X2,... messbare Abbildungen (Ω,A) → (R, B(Rq)), dann<br />
sind auch die folgenden Abbildungen messbar:<br />
inf<br />
n∈N Xn, sup Xn, lim inf<br />
n→∞ Xn, lim sup Xn.<br />
n∈N<br />
n→∞
Beweis. Für jedes a ∈ R gilt<br />
�<br />
inf<br />
n∈N Xn<br />
�−1 ([−∞,a)) =<br />
∞�<br />
n=1<br />
1.4 Messbare Abbildungen 39<br />
X −1<br />
n ([−∞,a)) ∈A.<br />
Nach Satz 1.81 folgt hieraus die Messbarkeit von inf<br />
n∈N Xn. Analog geht der Beweis<br />
für sup Xn.<br />
n∈N<br />
Für n ∈ N setzen wir Yn := inf<br />
m≥n Xm. DannistYnmessbar, und damit auch<br />
lim inf Yn. Analog folgt der Beweis für den Limes superior. ✷<br />
n→∞ Xn := sup<br />
n∈N<br />
Ein wichtiges Beispiel für messbare Abbildungen (Ω,A) → (R, B(R)) sind Elementarfunktionen.<br />
Definition 1.93 (Elementarfunktion). Sei (Ω,A) ein Messraum. Eine Abbildung<br />
f : Ω → R heißt Elementarfunktion, wenn es ein n ∈ N und paarweise disjunkte,<br />
messbare Mengen A1,...,An ∈A, sowie Zahlen α1,...,αn ∈ R gibt mit<br />
n�<br />
f = αi Ai .<br />
i=1<br />
Bemerkung 1.94. Eine messbare Abbildung, die nur endlich viele Werte annimmt<br />
ist eine Elementarfunktion. (Übung!) ✸<br />
Definition 1.95. Sind f,f1,f2,...Abbildungen Ω → R mit<br />
f1(ω) ≤ f2(ω) ≤ ... und lim<br />
n→∞ fn(ω) =f(ω) für jedes ω ∈ Ω,<br />
so schreiben wir fn ↑ f und sagen, dass (fn)n∈N punktweise monoton aufsteigend<br />
gegen f konvergiert. Analog schreiben wir fn ↓ f, falls (−fn) ↑ (−f).<br />
Satz 1.96. Sei (Ω,A) ein Messraum und f : Ω → [0, ∞] messbar. Dann gelten<br />
die folgenden Aussagen.<br />
(i) Es gibt eine Folge nichtnegativer Elementarfunktionen (fn)n∈N mit fn ↑ f.<br />
∞�<br />
(ii) Es gibt A1,A2,...∈Aund α1,α2,...≥ 0 mit f = αn An .<br />
Beweis. (i) Für n ∈ N0 definiere fn =(2 −n ⌊2 n f⌋) ∧ n. Dannistfn messbar<br />
(nach Satz 1.92 und Beispiel 1.85(ii)) und nimmt höchstens n2 n +1Werte an, ist<br />
also eine Elementarfunktion. Offenbar gilt fn ↑ f.<br />
n=1
40 1 Grundlagen der Maßtheorie<br />
(ii) Seien fn wie oben, Bn,i := {ω : fn(ω)−fn−1(ω) =i 2 −n } und βn,i = i 2 −n<br />
für n ∈ N und i =1,...,2n .Manüberlege sich, dass �2 n<br />
i=1 Bn,i = Ω. Dannist<br />
fn − fn−1 = 2n �<br />
βn,i Bn,i . Nach Umnummerierung (n, i) ↦→ m erhalten wir<br />
i=1<br />
(αm)m∈N und (Am)m∈N, sodass<br />
f = f0 +<br />
∞�<br />
(fn − fn−1) =<br />
n=1<br />
∞�<br />
m=1<br />
αm Am . ✷<br />
Als Korollar zu dieser Strukturaussage für messbare [0, ∞]-wertige Abbildungen<br />
zeigen wir das Faktorisierungslemma.<br />
Korollar 1.97 (Faktorisierungslemma). Seien (Ω ′ , A ′ ) ein Messraum und Ω eine<br />
nichtleere Menge. Sei f : Ω → Ω ′ eine Abbildung. Eine Abbildung g : Ω → R<br />
ist genau dann messbar bezüglich σ(f) – B(R), wenn es eine messbare Abbildung<br />
ϕ :(Ω ′ , A ′ ) → (R, B(R)) gibt mit g = ϕ ◦ f.<br />
Beweis. ” ⇐= “ Ist ϕ messbar und g = ϕ ◦ f, soistg messbar nach Satz 1.80.<br />
” =⇒ “ Sei nun g messbar bezüglich σ(f) – B(R). Wir betrachten zunächst den<br />
Fall, wo g nichtnegativ ist. Dann existieren messbare Mengen A1,A2 ... ∈ σ(f)<br />
sowie Zahlen α1,α2,...,∈ [0, ∞) mit g = �∞ n=1 αn An .NachderDefinition<br />
von σ(f) gibt es für jedes n ∈ N eine Menge Bn ∈A ′ mit f −1 (Bn) =An, also<br />
mit An = Bn ◦ f.Wirdefinieren nun ϕ : Ω′ → R durch<br />
ϕ =<br />
∞�<br />
αn Bn<br />
n=1<br />
.<br />
Offenbar ist ϕ messbar bezüglich A ′ – B(R), und es gilt g = ϕ ◦ f.<br />
Sei nun der allgemeine Fall betrachtet, wo g auch negative Werte annehmen kann.<br />
Dann existieren messbare Abbildungen ϕ − und ϕ + mit g − = ϕ − ◦ f und g + =<br />
ϕ + ◦ f. Daher leistet ϕ := ϕ + − ϕ − das Gewünschte. ✷<br />
Mit einer messbaren Abbildung wird auch ein Maß von einem Raum auf einen anderen<br />
transportiert.<br />
Definition 1.98 (Bildmaß). Seien (Ω,A) und (Ω ′ , A ′ ) Messräume und μ ein Maß<br />
auf (Ω,A). Ferner sei X :(Ω,A) → (Ω ′ , A ′ ) messbar. Das durch<br />
μ ◦ X −1 : A ′ → [0, ∞], A ′ ↦→ μ(X −1 (A ′ ))<br />
definierte Maß auf (Ω ′ , A ′ ) heißt Bildmaß von μ unter X.
1.4 Messbare Abbildungen 41<br />
Beispiel 1.99. Sei μ ein Maß auf Z2 und X : Z2 → Z, (x, y) ↦→ x + y. Dannist<br />
μ ◦ X −1 ({x}) = �<br />
μ({x − y, y}). ✸<br />
y∈Z<br />
Beispiel 1.100. Ist L : R n → R n eine bijektive lineare Abbildung und λ das<br />
Lebesgue-Maß auf (R n , B(R n )), soistλ ◦ L −1 = | det(L)| −1 λ. Dies ist klar, weil<br />
für a, b ∈ R n mit a
42 1 Grundlagen der Maßtheorie<br />
(i) Zeige: A = σ(Xn : n ∈ N).<br />
(ii) Zeige: U ist A–B([0, 1]) messbar.<br />
(iii) Bestimme das Bildmaß μ ◦ U −1 auf ([0, 1], B([0, 1])).<br />
(iv) Man gebe ein Ω0 ∈Aan, sodass Ũ := U�� bijektiv ist.<br />
Ω0<br />
(v) Man zeige, dass Ũ −1 messbar ist bezüglich B([0, 1])–A � � .<br />
Ω0<br />
(vi) Welche Interpretation hat die Abbildung Xn ◦ Ũ −1 ? ♣<br />
1.5 Zufallsvariablen<br />
In diesem Abschnitt werden wir messbare Abbildungen als Zufallsvariablen auffassen,<br />
die zufällige Beobachtungen beschreiben. Wir definieren den Begriff der<br />
Verteilung von Zufallsvariablen.<br />
Im Folgenden sei stets (Ω,A, P) ein Wahrscheinlichkeitsraum. Die Mengen A ∈A<br />
heißen Ereignisse. P[A] wird als die Wahrscheinlichkeit interpretiert, dass A eintritt.<br />
Oft ist allerdings nicht der Wahrscheinlichkeitsraum selbst betrachtbar, sondern<br />
nur gewisse Beobachtungsgrößen. Wir wollen also Wahrscheinlichkeiten dafür definieren,<br />
dass Zufallsgrößen bestimmte Werte annehmen und einen Kalkül für, zum<br />
Beispiel, Summen von Zufallsgrößen entwickeln.<br />
Definition 1.102 (Zufallsvariablen). Sei (Ω ′ , A ′ ) ein Messraum und X : Ω →<br />
Ω ′ messbar.<br />
(i) X heißt Zufallsvariable mit Werten in (Ω ′ , A ′ ).Ist(Ω ′ , A ′ )=(R, B(R)),so<br />
nennen wir X eine reelle Zufallsvariable oder schlicht Zufallsvariable.<br />
(ii) Ist A ′ ∈A ′ , so schreiben wir {X ∈ A ′ } := X−1 (A ′ ) und P[X ∈ A ′ ]:=<br />
P[X−1 (A ′ )]. Speziell schreiben wir {X ≥ 0} := X−1 ([0, ∞)) und analog<br />
{X ≤ b} und so weiter.<br />
Definition 1.103 (Verteilungen). Sei X eine Zufallsvariable.<br />
(i) Das W-Maß PX := P ◦ X−1 heißt Verteilung von X.<br />
(ii) Ist X eine reelle Zufallsvariable, so heißt die Abbildung FX : x ↦→ P[X ≤ x]<br />
die Verteilungsfunktion von X (eigentlich von PX). Ist μ = PX, soschreiben<br />
wir auch X ∼ μ und sagen, dass X nach μ verteilt ist.<br />
(iii) Eine Familie (Xi)i∈I heißt identisch verteilt, falls PXi = PXj für alle<br />
i, j ∈ I. Wir schreiben X D = Y , falls PX = PY (D für distribution).
1.5 Zufallsvariablen 43<br />
Satz 1.104. Zu jeder Verteilungsfunktion F existiert eine reelle Zufallsvariable X<br />
mit FX = F .<br />
Beweis. Wir müssen explizit einen Wahrscheinlichkeitsraum (Ω,A, P) und eine<br />
Zufallsvariable X : Ω → R angeben mit FX = F .<br />
Die einfachste Möglichkeit ist, (Ω,A) =(R, B(R)) zu wählen, X : R → R die<br />
identische Abbildung und P das Lebesgue-Stieltjes Maß mit Verteilungsfunktion F<br />
(siehe Beispiel 1.56).<br />
Eine andere Möglichkeit, die zudem etwas lehrreicher ist, beruht darauf, zunächst<br />
unabhängig vom konkreten F eine Art Standard-Wahrscheinlichkeitsraum zu definieren,<br />
auf dem eine uniform auf (0, 1) verteilte Zufallsvariable definiert ist, die<br />
dann vermöge der Umkehrabbildung F −1 zu einer Zufallsvariablen X mit Verteilungsfunktion<br />
F transformiert wird: Wir wählen Ω := (0, 1), A := B(R) � � und<br />
Ω<br />
P das Lebesgue-Maß auf (Ω,A) (siehe Beispiel 1.74). Definiere die (linkssstetige)<br />
Inverse von F<br />
Dann ist<br />
F −1 (t) :=inf{x ∈ R : F (x) ≥ t} für t ∈ (0, 1).<br />
F −1 (t) ≤ x ⇐⇒ t ≤ F (x).<br />
Speziell ist {t : F −1 (t) ≤ x} =(0,F(x)] ∩ (0, 1), also ist F −1 :(Ω,A) →<br />
(R, B(R)) messbar und<br />
P[{t : F −1 (t) ≤ x}] =F (x).<br />
Mithin ist X := F −1 die gewünschte Zufallsvariable. ✷<br />
Beispiel 1.105. Wir geben zu verschiedenen Wahrscheinlichkeitsverteilungen auf R<br />
reelle Zufallsvariablen X mit ebendieser Verteilung an. (Der konkrete Ort in diesem<br />
Buch dient lediglich als Vorwand, um ein paar der wichtigsten Verteilungen<br />
einzuführen, auf die wir bei späteren Gelegenheiten immer wieder zurückkommen.)<br />
(i) Ist p ∈ [0, 1] und P[X =1]=p, P[X =0]=1−p,soheißtPX =: Berp die<br />
Bernoulli-Verteilung mit Parameter p. Formal ist<br />
Berp =(1− p) δ0 + pδ1,<br />
und die Verteilungsfunktion ist<br />
⎧<br />
⎨ 0, falls x
44 1 Grundlagen der Maßtheorie<br />
so heißt PX =: bn,p die Binomialverteilung mit Parametern n und p. Formal ist<br />
bn,p =<br />
n�<br />
k=0<br />
(iii) Ist p ∈ (0, 1] und X : Ω → N0 mit<br />
P[X = n] =p (1 − p) n<br />
� �<br />
n<br />
p<br />
k<br />
k (1 − p) n−k δk.<br />
für jedes n ∈ N0,<br />
so heißt γp := b − 1,p := PX die geometrische Verteilung 1 mit Parameter p. Formal<br />
können wir schreiben:<br />
Die Verteilungsfunktion ist<br />
γp =<br />
n=0<br />
∞�<br />
p (1 − p) n δn.<br />
F (x) =1− (1 − p) ⌊x⌋∨0<br />
für x ∈ R.<br />
Wir können X +1als die Wartezeit auf den ersten Erfolg bei unabhängigen“<br />
”<br />
Zufallsexperimenten auffassen, die jeweils mit Wahrscheinlichkeit p zum Erfolg<br />
führen. In der Tat: Sei Ω = {0, 1} N und P das Produktmaß � �⊗N (1 − p)δ0 + pδ1<br />
(Satz 1.64), sowie A = σ([ω1,...,ωn] : ω1,...,ωn ∈{0, 1}, n∈ N). Wir setzen<br />
X(ω) :=inf{n ∈ N : ωn =1}−1,<br />
mit der Konvention inf ∅ = ∞. Offenbar ist jede der Abbildungen<br />
Xn : Ω → R,<br />
�<br />
n − 1,<br />
ω ↦→<br />
∞,<br />
falls ωn =1,<br />
falls ωn =0,<br />
A – B(R)-messbar und X = infn∈N Xn. AlsoistX auch A – B(R)-messbar,<br />
also eine Zufallsvariable. Sei ω 0 := (0, 0,...) ∈ Ω. DannistP[X ≥ n] =<br />
P[[ω 0 1,...,ω 0 n]] = (1 − p) n .Alsoist<br />
P[X = n] =P[X ≥ n] − P[X ≥ n +1]=(1− p) n − (1 − p) n+1 = p (1 − p) n .<br />
(iv) Seien r>0 (nicht notwendigerweise ganzzahlig) und p ∈ (0, 1]. Mit<br />
b − r,p :=<br />
∞�<br />
k=0<br />
� �<br />
−r<br />
(−1)<br />
k<br />
k p r (1 − p) k δk<br />
(1.17)<br />
bezeichnen wir die negative Binomialverteilung oder Pascal-Verteilung mit Parametern<br />
r und p. (Hierbei ist � � x x(x−1)···(x−k+1)<br />
k = für x ∈ R und k ∈ N der<br />
1<br />
Obacht: Manche Autoren nennen die um Eins verschobene Verteilung auf N die geometrische<br />
Verteilung.<br />
k!
1.5 Zufallsvariablen 45<br />
verallgemeinerte Binomialkoeffizient.) Für r ∈ N ist b − r,p, ähnlich wie im vorangehenden<br />
Beispiel, die Verteilung der Wartezeit auf den r-ten Erfolg bei unabhängigen<br />
Versuchen. Wir werden hierauf in Beispiel 3.4(iv) zurückkommen.<br />
(v) Ist λ ∈ [0, ∞) und X : Ω → N0 mit<br />
−λ λn<br />
P[X = n] =e<br />
n!<br />
für jedes n ∈ N0,<br />
so heißt PX =: Poiλ die Poisson-Verteilung mit Parameter λ.<br />
(vi) Die hypergeometrische Verteilung mit Parametern S, W, n ∈ N<br />
� �� S W �<br />
HypS,W,n({s}) =<br />
s n−s<br />
� , s ∈{0,...,n}, (1.18)<br />
� S+W<br />
n<br />
gibt die Wahrscheinlichkeit an, aus einer Urne mit S schwarzen und W weißen Kugeln<br />
bei n-maligen Ziehen ohne Zurücklegen genau s schwarze Kugeln zu ziehen.<br />
(vii) Seien μ ∈ R, σ 2 > 0 und X reell mit<br />
P[X ≤ x] =<br />
1<br />
√ 2πσ 2<br />
� x<br />
−∞<br />
(t−μ)2<br />
−<br />
e 2σ2 dt für x ∈ R,<br />
Dann heißt PX =: N μ,σ 2 Gauß’sche Normalverteilung mit Parametern μ und σ 2 .<br />
(viii) Ist X ≥ 0 reell und θ>0,sowie<br />
P[X ≤ x] =P[X ∈ [0,x]] =<br />
� x<br />
0<br />
θe −θt dt für x ≥ 0,<br />
so heißt PX Exponentialverteilung mit Parameter θ (kurz: exp θ).<br />
(ix) Ist X Rd-wertig, μ ∈ Rd , Σ eine positiv definite d × d Matrix und<br />
P[X ≤ x] = det(2πΣ) −1/2<br />
� �<br />
exp − 1<br />
�<br />
t − μ, Σ<br />
2<br />
−1 ��<br />
(t − μ) λ d (dt)<br />
(−∞,x]<br />
für x ∈ R d (wobei 〈 · , · 〉 das Skalarprodukt im R d bezeichnet), so heißt PX =:<br />
Nμ,Σ die d-dimensionale Normalverteilung mit Parametern μ und Σ. ✸<br />
Definition 1.106. Hat die Verteilungsfunktion F : R n → [0, 1] die Gestalt<br />
F (x) =<br />
� x1<br />
dt1 ···<br />
−∞<br />
� xn<br />
dtn f(t1,...,tn) für x =(x1,...,xn) ∈ R<br />
−∞<br />
n ,<br />
für eine integrierbare Funktion f : R n → [0, ∞), so heißt f die Dichte der Verteilung.
46 1 Grundlagen der Maßtheorie<br />
Beispiel 1.107. (i) Für θ, r > 0 heißt die Verteilung Γθ,r auf [0, ∞) mit Dichte<br />
x ↦→ θr<br />
Γ (r) xr−1 e −θx<br />
(wo Γ die Gamma-Funktion bezeichnet) Gamma-Verteilung mit Größenparameter<br />
θ und Formparameter r.<br />
(ii) Für r, s > 0 heißt die Verteilung βr,s auf [0, 1] mit Dichte<br />
x ↦→<br />
Γ (r + s)<br />
Γ (r)Γ (s) xr−1 (1 − x) s−1<br />
Beta-Verteilung mit Parametern r und s.<br />
(iii) Für a>0 heißt die Verteilung Caua auf R mit Dichte<br />
x ↦→ 1 1<br />
aπ 1+(x/a) 2<br />
Cauchy-Verteilung mit Parameter a. ✸<br />
Übung 1.5.1. Man leite (1.17) nach der Interpretation als Wartezeit kombinatorisch<br />
her unter Benutzung der Identität � � � � −n k n+k−1<br />
k (−1) = k . ♣<br />
Übung 1.5.2. Man gebe ein Beispiel an für zwei normalverteilte X und Y , sodass<br />
(X, Y ) nicht (zweidimensional) normalverteilt ist. ♣<br />
Übung 1.5.3. Man zeige mit Hilfe von Satz 1.101 (Transformationsformel für Dichten):<br />
(i) Ist X ∼N μ,σ 2 und sind a ∈ R\{0} und b ∈ R,soist(aX +b) ∼N aμ+b,a 2 σ 2.<br />
(ii) Ist X ∼ exp θ und a>0,soistaX ∼ exp θ/a. ♣
2 Unabhängigkeit<br />
Die Maßtheorie aus dem vorigen Kapitel ist eine lineare Theorie, die keine Abhängigkeitsstrukturen<br />
zwischen Ereignissen oder Zufallsvariablen kennt. Wir betreten<br />
das Gebiet der <strong>Wahrscheinlichkeitstheorie</strong> genau an dieser Stelle mit der Definition<br />
der Unabhängigkeit von Ereignissen und schließlich von Zufallsvariablen. Die<br />
Unabhängigkeit ist ein zentraler Begriff der <strong>Wahrscheinlichkeitstheorie</strong>, die Quantifizierung<br />
von Abhängigkeiten eines ihrer wichtigen Anliegen.<br />
Fortan ist stets (Ω,A, P) ein Wahrscheinlichkeitsraum, und die Mengen A ∈A<br />
sind die Ereignisse. Sobald wir die Phase hinter uns gelassen haben, in der wir W-<br />
Räume explizit konstruieren, wird der konkrete W-Raum in den Hintergrund treten,<br />
und die beobachtbaren Größen, also Zufallsvariablen, werden an Bedeutung gewinnen.<br />
Das fett gedruckte P steht dann für das universelle Objekt des W-Maßes, und<br />
Wahrscheinlichkeiten P[ · ] bezüglich P werden stets mit eckigen Klammern geschrieben.<br />
2.1 Unabhängigkeit von Ereignissen<br />
Wir wollen zwei Ereignisse A und B als (stochastisch) unabhängig betrachten, wenn<br />
das Eintreten von A nicht die Wahrscheinlichkeit beeinflusst, dass zudem B eintritt.<br />
Etwas formaler können wir diesen intuitiven Begriff fassen, indem wir A und B als<br />
unabhängig betrachten, wenn<br />
P[A ∩ B] =P[A] · P[B]. (2.1)<br />
Beispiel 2.1 (Zweifacher Würfelwurf). Wir betrachten das Zufallsexperiment des<br />
zweifachen Würfelwurfes. Es ist also Ω = {1,...,6} 2 mit der σ-Algebra A =2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)).<br />
(i) Zwei Ereignisse A und B sollten unabhängig sein, wenn A nur vom Ergebnis<br />
des ersten Wurfes abhängt, B hingegen nur vom Ergebnis des zweiten Wurfes.<br />
Formal beschreiben wir diese Situation, indem wir annehmen, dass es Mengen<br />
Ã, ˜ B ⊂{1,...,6} gibt mit<br />
A = Ã ×{1,...,6} und B = {1,...,6}× ˜ B.
48 2 Unabhängigkeit<br />
Wir prüfen jetzt, dass A und B tatsächlich (2.1) erfüllen. Dazu berechnen wir<br />
P[A] = #A #Ã<br />
#B<br />
36 = 6 und P[B] = 36 = # ˜ B<br />
6 . Ferner ist<br />
P[A ∩ B] = #(Ã × ˜ B)<br />
=<br />
36<br />
#Ã<br />
6 · # ˜ B<br />
= P[A] · P[B].<br />
6<br />
(ii) Stochastische Unabhängigkeit kann auch in weniger augenfälligen Situationen<br />
auftreten. Sei hierzu A das Ereignis, dass die Augensumme ungerade ist,<br />
A = � (ω1,ω2) ∈ Ω : ω1 + ω2 ∈ {3, 5, 7, 9, 11} � , und B das Ereignis, dass<br />
der erste Wurf höchstens eine Drei bringt, B = {(ω1,ω2) ∈ Ω : ω1 ∈{1, 2, 3} � .<br />
Obwohl beide Ereignisse anscheinend etwas miteinander zu tun haben, sind sie stochastisch<br />
unabhängig, denn es gilt, wie man leicht prüft, P[A] =P[B] = 1<br />
2 und<br />
P[A ∩ B] = 1<br />
4 . ✸<br />
Wann sind nun drei Ereignisse A1,A2,A3 unabhängig? Hierzu muss natürlich jedes<br />
der Paare (A1,A2), (A1,A3) und (A2,A3) unabhängig sein. Jedoch wollen<br />
wir auch sicherstellen, dass beispielsweise das Eintreten von A1 und A2 nicht die<br />
Wahrscheinlichkeit für das zusätzliche Eintreten von A3 beeinflusst. Wir müssen<br />
also mehr als nur Paare betrachten.<br />
Formal nennen wir daher drei Ereignisse A1,A2 und A3 (stochastisch) unabhängig,<br />
falls<br />
P[Ai ∩ Aj] =P[Ai] · P[Aj] für alle i, j ∈{1, 2, 3}, i�= j, (2.2)<br />
und<br />
P[A1 ∩ A2 ∩ A3] =P[A1] · P[A2] · P[A3]. (2.3)<br />
Man beachte, dass (2.3) nicht aus (2.2) folgt (und (2.2) nicht aus (2.3)).<br />
Beispiel 2.2 (Dreifacher Würfelwurf). Wir betrachten den dreifachen Wurf eines<br />
Würfels. Sei also Ω = {1,...,6} 3 ausgestattet mit der diskreten σ-Algebra A =<br />
2Ω und der Gleichverteilung P = UΩ (siehe Beispiel 1.30(ii)).<br />
(i) Hängt für i =1, 2, 3 das Ereignis Ai nur vom i-ten Wurf ab, so sind die Ereignisse<br />
A1, A2 und A3 unabhängig. In der Tat können wir sie wie im vorangehenden<br />
Beispiel für gewisse Mengen Ã1, Ã2, Ã3 ⊂{1,...6} schreiben als<br />
A1 = Ã1 ×{1,...,6} 2 ,<br />
A2 = {1,...,6}× Ã2 ×{1,...,6},<br />
A3 = {1,...,6} 2 × Ã3.<br />
Die Gültigkeit von (2.2) folgt wie in Beispiel 2.1(i). Um (2.3) zu zeigen, berechnen<br />
wir<br />
P[A1 ∩ A2 ∩ A3] = #(Ã1 × Ã2 × Ã3)<br />
216<br />
(ii) Wir betrachten nun die folgenden drei Ereignisse<br />
=<br />
3�<br />
i=1<br />
# Ãi<br />
6 =<br />
3�<br />
P[Ai].<br />
i=1
2.1 Unabhängigkeit von Ereignissen 49<br />
A1 := {ω ∈ Ω : ω1 = ω2},<br />
A2 := {ω ∈ Ω : ω2 = ω3},<br />
A3 := {ω ∈ Ω : ω1 = ω3}.<br />
Dann ist #A1 =#A2 =#A3 =36, also P[A1] =P[A2] =P[A3] = 1<br />
6 . Ferner<br />
ist #(Ai ∩ Aj) =6, falls i �= j, also P[Ai ∩ Aj] = 1<br />
36 . Daher gilt (2.2). Jedoch ist<br />
#(A1 ∩ A2 ∩ A3) =6, also P[A1 ∩ A2 ∩ A3] = 1 1 1 1<br />
36 �= 6 · 6 · 6 , mithin ist (2.3)<br />
verletzt, und die Ereignisse A1,A2,A3 sind nicht unabhängig. ✸<br />
Um für größere Familien von Ereignissen Unabhängigkeit zu definieren, müssen<br />
wir die Gültigkeit von Produktformeln wie (2.2) und (2.3) nunmehr nicht nur für<br />
Paare und Tripel fordern, sondern für alle endlichen Teilfamilien. Wir treffen daher<br />
die folgende Definition.<br />
Definition 2.3 (Unabhängigkeit von Ereignissen). Sei I eine beliebige Indexmenge,<br />
und sei (Ai)i∈I eine beliebige Familie von Ereignissen. Die Familie<br />
(Ai)i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊂ I gilt, dass<br />
� � �<br />
P = �<br />
P[Aj].<br />
j∈J<br />
Aj<br />
Das wichtigste Beispiel für eine unendlich große, unabhängige Familie von Ereignissen<br />
wird durch die unendliche (unabhängige) Wiederholung eines Zufallsexperiments<br />
gegeben.<br />
Beispiel 2.4. Sei E eine endliche Menge (die möglichen Ausgänge des einzelnen<br />
Experiments) und (pe)e∈E ein Wahrscheinlichkeitsvektor auf E. Sei (wie in<br />
Satz 1.64) der Wahrscheinlichkeitsraum Ω = EN ausgestattet mit der σ-Algebra<br />
A = σ({[ω1,...,ωn] :ω1,...,ωn ∈ E, n ∈ N}) und P = ��<br />
e∈E peδe<br />
�⊗N das<br />
Produktmaß (oder Bernoulli-Maß) auf (Ω,A), also P � [ω1,...,ωn] � n�<br />
= pωi .Sei<br />
Ãi ⊂ E für jedes i ∈ N, und Ai das Ereignis, dass Ãi im i-ten Durchgang des<br />
Experiments auftritt, also<br />
Ai = � ω ∈ Ω : ωi ∈ Ãi<br />
� �<br />
=<br />
[ω1,...,ωi].<br />
j∈J<br />
(ω1,...,ωi)∈E i−1 × Ãi<br />
Nach unserer Intuition sollte die Familie (Ai)i∈N unabhängig sein, wenn die Definition<br />
der Unabhängigkeit sinnvoll sein soll. Wir weisen jetzt nach, dass dies in der<br />
Tat richtig ist. Sei J ⊂ N endlich mit k := #J und n := max J. Wir setzen formal<br />
Bj = Aj und ˜ Bj = Ãj für j ∈ J und Bj = Ω und ˜ Bj = E für j ∈{1,...,n}\J.<br />
Dann ist<br />
i=1
50 2 Unabhängigkeit<br />
�<br />
�<br />
P<br />
j∈J<br />
Aj<br />
�<br />
�<br />
�<br />
= P<br />
= �<br />
j∈J<br />
e1∈ ˜ B1<br />
Bj<br />
�<br />
··· �<br />
�<br />
�n<br />
= P<br />
n�<br />
en∈ ˜ Bn<br />
j=1<br />
j=1<br />
Bj<br />
pej =<br />
�<br />
n�<br />
�<br />
�<br />
j=1<br />
e∈ ˜ Bj<br />
pe<br />
�<br />
= �<br />
�<br />
�<br />
j∈J<br />
e∈ Ãj<br />
Dies gilt speziell natürlich für #J =1, also ist P[Ai] = �<br />
e∈Ãi pe für jedes i ∈ N.<br />
Es folgt<br />
�<br />
�<br />
�<br />
P = �<br />
P[Aj]. (2.4)<br />
j∈J<br />
Aj<br />
Da dies für alle endlichen J ⊂ N gilt, ist die Familie (Ai)i∈N unabhängig. ✸<br />
Sind A und B unabhängig, so sind auch A c und B unabhängig, denn P[A c ∩ B] =<br />
P[B] − P[A ∩ B] =P[B] − P[A]P[B] =(1− P[A])P[B] =P[A c ]P[B]. Wir<br />
wollen diese Beobachtung etwas verallgemeinern und als Satz festhalten.<br />
Satz 2.5. Sei I eine beliebige Indexmenge, und sei (Ai)i∈I eine Familie von Ereignissen.<br />
Setze B0 i = Ai und B1 i = Aci für i ∈ I. Dann sind folgende drei Aussagen<br />
äquivalent.<br />
(i) Die Familie (Ai)i∈I ist unabhängig.<br />
(ii) Es gibt ein α ∈{0, 1} I , sodass die Familie (B αi<br />
i )i∈I unabhängig ist.<br />
(iii) Für jedes α ∈{0, 1} I ist die Familie (B αi<br />
i )i∈I unabhängig.<br />
Beweis Übung!<br />
Beispiel 2.6 (Euler’sche Primzahlformel). Die Riemann’sche Zetafunktion ist<br />
definiert durch die Dirichlet-Reihe<br />
∞�<br />
ζ(s) := n −s<br />
für s ∈ (1, ∞).<br />
n=1<br />
Die Euler’sche Primzahlformel ist die Produktdarstellung<br />
ζ(s) = � � −s<br />
1 − p �−1 , (2.5)<br />
p∈P<br />
wobei P := {p ∈ N : p ist Primzahl} ist.<br />
Wir beweisen die Produktdarstellung probabilistisch. Sei Ω = N und (für festes s)<br />
P definiert durch<br />
P[{n}] =ζ(s) −1 n −s<br />
für n ∈ N.<br />
Sei pN = {pn : n ∈ N} und Pn = {p ∈P: p ≤ n}. Wir fassen pN ⊂ Ω als<br />
Ereignis auf und bemerken, dass (pN, p∈P) unabhängig ist. In der Tat: Für k ∈ N<br />
und unterschiedliche p1,...,pk ∈P ist � k<br />
i=1 piN =(p1 ···pk)N, also<br />
j∈J<br />
pe<br />
�<br />
.
2.1 Unabhängigkeit von Ereignissen 51<br />
�<br />
k�<br />
�<br />
∞�<br />
P (piN) = P � {p1 ···pkn} �<br />
i=1<br />
n=1<br />
= ζ(s) −1 (p1 ···pk) −s<br />
=(p1 ···pk) −s =<br />
∞�<br />
n −s<br />
n=1<br />
k�<br />
P[ piN ].<br />
Nach Satz 2.5 ist nun auch ((pN) c ,p∈P) unabhängig. Deshalb gilt<br />
ζ(s) −1 �<br />
�<br />
= P[{1}] =P (pN) c<br />
�<br />
= lim<br />
n→∞ P<br />
� �<br />
= lim<br />
�<br />
n→∞<br />
p∈Pn<br />
p∈Pn<br />
p∈P<br />
(pN) c�<br />
i=1<br />
� � � � −s<br />
1 − P[ pN ] = 1 − p � .<br />
Damit ist (2.5) gezeigt. ✸<br />
Wenn wir einen Würfel unendlich oft werfen, wie groß ist die Wahrscheinlichkeit,<br />
dass unendlich oft (also: immer wieder mal) eine Sechs geworfen wird? Diese Wahrscheinlichkeit<br />
sollte Eins sein, denn sonst gäbe es einen letzten Zeitpunkt, zu dem<br />
eine Sechs fällt und danach nicht wieder. Dies wäre zumindest nicht sehr plausibel.<br />
Man erinnere sich daran, wie wir mit Hilfe des Limes superior (Definition 1.13)<br />
formalisiert hatten, dass unendlich viele Ereignisse aus einer Familie von Ereignissen<br />
eintreten. Der folgende Satz bestätigt nun unsere oben geäußerte Vermutung<br />
und gibt zudem Auskunft darüber, unter welchen Bedingungen wir nicht erwarten<br />
können, dass unendlich viele der Ereignisse eintreten.<br />
Satz 2.7 (Lemma von Borel-Cantelli). Seien A1,A2,...Ereignisse, und sei A∗ =<br />
lim sup An.<br />
n→∞<br />
(i) Ist �∞ n=1 P[An] < ∞, soistP[A∗ ]=0. (Hier kann P ein beliebiges Maß<br />
auf (Ω,A) sein.)<br />
(ii) Ist (An)n∈N unabhängig und �∞ n=1 P[An] =∞,soistP[A∗ ]=1.<br />
Beweis. (i) Da P stetig von oben und σ-subadditiv ist, ist nach Voraussetzung<br />
P[A ∗ ] = lim<br />
n→∞ P<br />
�<br />
∞�<br />
�<br />
∞�<br />
Am ≤ lim P[Am] =0.<br />
n→∞<br />
m=n<br />
p∈P<br />
m=n
52 2 Unabhängigkeit<br />
(ii) Offensichtlich ist log(1 − x) ≤−xfür x ∈ [0, 1]. Nach den de Morgan’schen<br />
Regeln und der Stetigkeit von P von unten gilt daher<br />
P � (A ∗ ) c� �<br />
∞�<br />
= P<br />
∞�<br />
A c �<br />
n = lim<br />
m→∞ P<br />
�<br />
∞�<br />
A c �<br />
n .<br />
m=1 n=m<br />
Nun ist aber für jedes m ∈ N<br />
�<br />
�∞<br />
P<br />
�<br />
=<br />
∞� �<br />
1 − P[An] �<br />
n=m<br />
A c n<br />
n=m<br />
�<br />
�∞<br />
=exp<br />
n=m<br />
log � 1 − P[An] ��<br />
�<br />
≤ exp −<br />
n=m<br />
∞�<br />
n=m<br />
�<br />
P[An] =0. ✷<br />
Beispiel 2.8. Wir betrachten den unendlich oft wiederholten Würfelwurf und fragen<br />
nach der Wahrscheinlichkeit, dass unendlich oft die Sechs auftritt. Es ist<br />
also Ω = {1,...,6} N , A = (2 {1,...,6} ) ⊗N die Produkt-σ-Algebra und P =<br />
� �<br />
e∈{1,...,6}<br />
1<br />
6 δe<br />
� ⊗N das Bernoulli-Maß (vergleiche Satz 1.64). Ferner sei An =<br />
{ω ∈ Ω : ωn = 6} das Ereignis, dass beim n-ten Wurf eine Sechs auftritt.<br />
Dann ist A∗ = lim sup An das Ereignis, dass unendlich oft eine Sechs auftritt (sie-<br />
n→∞<br />
he Beispiel 1.14). Ferner ist (An)n∈N eine unabhängige Familie mit ∞�<br />
P[An] =<br />
∞�<br />
n=1<br />
1<br />
6 = ∞ und deshalb nach dem Lemma von Borel-Cantelli P[A∗ ]=1. ✸<br />
Beispiel 2.9. Wir werfen einen Würfel nur einmal und definieren An für jedes n ∈<br />
N als das Ereignis, dass bei diesem (einen) Wurf eine Sechs geworfen wurde. Man<br />
bemerke, dass A1 = A2 = A3 = ... Dann ist �<br />
n∈N P[An] =∞, jedoch P[A∗ ]=<br />
P[A1] = 1<br />
6 . Dies zeigt, dass in Teil (ii) des Lemmas von Borel-Cantelli nicht ohne<br />
weiteres auf die Unabhängigkeit verzichtet werden kann. ✸<br />
Beispiel 2.10. Sei Λ ∈ (0, ∞) und 0 ≤ λn ≤ Λ für n ∈ N. Ferner seien Xn, n ∈ N,<br />
Poisson-verteilte Zufallsvariablen mit Parametern λn. Dann gilt<br />
Es ist nämlich<br />
∞�<br />
P[Xn ≥ n] =<br />
n=1<br />
P � Xn ≥ n für unendlich viele n � =0.<br />
=<br />
∞�<br />
n=1 m=n<br />
∞�<br />
∞�<br />
P[Xn = m] =<br />
m�<br />
e<br />
m=1 n=1<br />
−λn λmn m! ≤<br />
∞�<br />
m=1 n=1<br />
∞�<br />
m=1<br />
n=1<br />
m�<br />
P[Xn = m]<br />
m Λm<br />
m! = ΛeΛ < ∞. ✸
2.1 Unabhängigkeit von Ereignissen 53<br />
Da im obigen Satz, zumindest im Falle unabhängiger Ereignisse, nur die Wahrscheinlichkeiten<br />
P[A∗ ]=0und P[A∗ ]=1auftreten können, zählt das Lemma<br />
von Borel-Cantelli zu den so genannten 0-1 Gesetzen. Wir werden später weitere<br />
0-1 Gesetze kennen lernen (siehe beispielsweise Satz 2.37).<br />
Wir wollen jetzt den Begriff der Unabhängigkeit von Familien von Ereignissen auf<br />
Familien von Ereignissystemen ausdehnen.<br />
Definition 2.11 (Unabhängigkeit von Mengensystemen). Sei I eine beliebige<br />
Indexmenge und Ei ⊂A für jedes i ∈ I. Die Familie (Ei)i∈I heißt unabhängig,<br />
falls für jede endliche Teilmenge J ⊂ I und für jede Wahl von Ej ∈Ej, j ∈ J,<br />
gilt, dass<br />
�<br />
�<br />
�<br />
P = �<br />
P[Ej]. (2.6)<br />
j∈J<br />
Ej<br />
Beispiel 2.12. Sei (Ω,A, P) wie in Beispiel 2.4 der Produktraum der unendlichen<br />
Wiederholung des Experiments mit Ausgängen in der endlichen Menge E mit<br />
Wahrscheinlichkeitsvektor p =(pe)e∈E. Setze für i ∈ N<br />
j∈J<br />
Ei = � {ω ∈ Ω : ωi ∈ A} : A ⊂ E � .<br />
Dann ist für jede Wahl von Ai ∈Ei, i ∈ N, die Familie (Ai)i∈N unabhängig, also<br />
ist (Ei)i∈N unabhängig. ✸<br />
Satz 2.13. (i) Sei I endlich, und für jedes i ∈ I sei Ei ⊂Amit Ω ∈Ei. Dann<br />
gilt<br />
(Ei)i∈I ist unabhängig ⇐⇒ (2.6) gilt für J = I.<br />
(ii) (Ei)i∈I ist unabh. ⇐⇒ � (Ej)j∈J ist unabh. für alle endlichen J ⊂ I � .<br />
(iii) Ist (Ei ∪ {∅}) ∩-stabil, dann gilt<br />
(Ei)i∈I ist unabhängig ⇐⇒ (σ(Ei))i∈I ist unabhängig.<br />
(iv) Sei K eine beliebige Menge und (Ik)k∈K paarweise � �<br />
disjunkte Teilmengen<br />
von I.Ist(Ei)i∈Iunabhängig, dann ist auch i∈Ik Ei<br />
�<br />
k∈K unabhängig.<br />
Beweis. (i) ” =⇒ “ Dies ist trivial.<br />
(i) ” ⇐= “ Für J ⊂ I und j ∈ I \ J wähle Ej = Ω.<br />
(ii) Dies ist trivial.<br />
(iii) ” ⇐= “ Dies ist trivial.
54 2 Unabhängigkeit<br />
(iii) ” =⇒ “ Sei J ⊂ I endlich. Wir zeigen: Für je zwei endliche Mengen J und<br />
J ′ mit J ⊂ J ′ ⊂ I gilt<br />
�<br />
�<br />
P<br />
i∈J ′<br />
Ei<br />
�<br />
= �<br />
�<br />
Ei ∈ σ(Ei), falls i ∈ J,<br />
P[Ei] für jede Wahl<br />
Ei ∈Ei, falls i ∈ J ′ \ J.<br />
i∈J ′<br />
(2.7)<br />
Mit J ′ = J ist dies genau die zu zeigende Aussage.<br />
Wir führen den Beweis von (2.7) durch vollständige Induktion nach #J.Für #J =<br />
0 gilt (2.7) nach Voraussetzung des Satzes.<br />
Es gelte nun (2.7) für jedes J mit #J = n und jedes endliche J ′ ⊃ J. Sei solch ein<br />
J gewählt und j ∈ I \ J.SeiJ ′ ⊃ ˜ J := J ∪{j}. Wir zeigen nun die Gültigkeit von<br />
(2.7) mit ˜ J statt mit J.Wegen# ˜ J = n +1ist damit der Induktionsschritt gezeigt.<br />
Sei Ei ∈ σ(Ei) für jedes i ∈ J und Ei ∈Eifür jedes i ∈ J ′ \ (J ∪{j}). Wir<br />
definieren Maße μ und ν auf (Ω,A) durch<br />
�<br />
�<br />
�<br />
μ : Ej ↦→ P<br />
und ν : Ej ↦→ �<br />
P[Ei].<br />
i∈J ′<br />
Ei<br />
Nach Induktionsvoraussetzung (2.7) gilt μ(Ej) =ν(Ej) für jedes Ej ∈Ej∪{∅,Ω}.<br />
Da Ej ∪ {∅} schnittstabil ist, gilt nach Lemma 1.42 auch μ(Ej) =ν(Ej) für jedes<br />
Ej ∈ σ(Ej), das heißt, es gilt (2.7) mit J ∪{j} statt J.<br />
(iv) Dies ist trivial, weil (2.6) nur für J ⊂ I mit<br />
i∈J ′<br />
#(J ∩ Ik) ≤ 1 für jedes k ∈ K,<br />
nachgewiesen werden muss. ✷<br />
2.2 Unabhängigkeit von Zufallsvariablen<br />
Nachdem wir Unabhängigkeit von Ereignissen behandelt haben, wollen wir auch<br />
Unabhängigkeit von Zufallsvariablen betrachten. Auch hier läuft die Definition<br />
auf eine Produktformel hinaus. Formal können wir jedoch die Unabhängigkeit der<br />
von Zufallsvariablen erzeugten σ-Algebren als Definition heranziehen. Wir können<br />
dann Verteilungen von Summen unabhängiger Zufallsvariablen vermittels Faltung<br />
ausrechnen. Da wir an dieser Stelle noch keinen allgemeinen Integralbegriff zur<br />
Verfügung haben, bringen wir die Faltung zunächst nur für Zufallsvariablen mit<br />
ganzzahligen Werten.<br />
Sei I eine beliebige Indexmenge, und für jedes i ∈ I sei (Ωi, Ai) ein Messraum<br />
sowie Xi :(Ω,A) → (Ωi, Ai) eine Zufallsvariable mit erzeugter σ-Algebra<br />
σ(Xi) =X −1<br />
i (Ai).
2.2 Unabhängigkeit von Zufallsvariablen 55<br />
Definition 2.14 (Unabhängigkeit von Zufallsvariablen). Die Familie (Xi)i∈I<br />
von Zufallsvariablen heißt unabhängig, falls die Familie (σ(Xi))i∈I von σ-<br />
Algebren unabhängig ist.<br />
Wir schreiben, dass (Xi)i∈I ” u.i.v.“ ist, für ” unabhängig und identisch verteilt“<br />
(englisch: i.i.d.“ für independent and identically distributed“), falls (Xi)i∈I un-<br />
” ”<br />
abhängig ist und PXi = PXj für alle i, j ∈ I gilt.<br />
Bemerkung 2.15. (i) Ist ( Ãi)i∈I eine unabhängige Familie von σ-Algebren und<br />
ist jedes Xi messbar bezüglich Ãi – Ai, soist(Xi)i∈I unabhängig. Dies ist<br />
klar, weil σ(Xi) ⊂ Ãi, also die Bedingung an die Unabhängigkeit von (Xi)i∈I<br />
schwächer ist als die Bedingung an die Unabhängigkeit von ( Ãi)i∈I.<br />
(ii) Für jedes i ∈ I sei (Ω ′ i , A′ i ) ein weiterer Messraum, sowie fi :(Ωi, Ai) →<br />
(Ω ′ i , A′ i ) eine messbare Abbildung. Ist (Xi)i∈I unabhängig, so ist (fi ◦ Xi)i∈I un-<br />
abhängig. Diese Aussage ist ein Spezialfall von (i), weil fi◦Xi messbar ist bezüglich<br />
σ(Xi) – A ′ i (siehe Satz 1.80). ✸<br />
Satz 2.16 (Unabhängigkeit von Erzeugern). Für jedes i ∈ I sei Ei ⊂Ai ein<br />
schnittstabiler Erzeuger von Ai.Ist(X −1<br />
i (Ei))i∈I unabhängig, so ist (Xi)i∈I unabhängig.<br />
Beweis. Nach Satz 1.81(iii) ist X −1<br />
i (Ei) ist ein schnittstabiler Erzeuger der σ-<br />
Algebra X −1<br />
i (Ai) =σ(Xi). Mit Satz 2.13 folgt die Aussage. ✷<br />
Beispiel 2.17. Sei E eine höchstens abzählbare Menge, und seien (Xi)i∈I Zufallsvariablen<br />
mit Werten in (E,2E ). In diesem Falle ist (Xi)i∈I genau dann unabhängig,<br />
wenn für jede endliche Teilmenge J ⊂ I und jede Wahl von xj ∈ E,<br />
j ∈ J, gilt, dass<br />
P � Xj = xj für jedes j ∈ J � = �<br />
P[Xj = xj].<br />
Dies ist klar, weil � {x} : x ∈ E � ∪ {∅} ein schnittstabiler Erzeuger von 2E ist,<br />
also � X −1<br />
i ({xi}) : xi ∈ E � ∪ {∅} ein schnittstabiler Erzeuger von σ(Xi) ist<br />
(Satz 1.81). ✸<br />
Beispiel 2.18. Sei E eine endliche Menge und p =(pe)e∈E ein Wahrscheinlichkeitsvektor.<br />
Wir wollen das zu E und p gehörige Zufallsexperiment unendlich oft<br />
unabhängig wiederholen (siehe Beispiel 1.40 und Satz 1.64). Sei Ω = EN der unendliche<br />
Produktraum und A die von den endlichen Zylindermengen (siehe (1.8))<br />
erzeugte σ-Algebra, sowie P = ��<br />
e∈E peδe<br />
�⊗N das Bernoulli-Maß. Ferner sei für<br />
jedes n ∈ N<br />
j∈J
56 2 Unabhängigkeit<br />
Xn : Ω → E, (ωm)m∈N ↦→ ωn,<br />
die Projektion auf die n-te Koordinate. Mit anderen Worten: Zu jedem Elementarereignis<br />
ω ∈ Ω liefert Xn(ω) das Ergebnis des n-ten Experiments. Dann gilt nach<br />
(2.4) (in Beispiel 2.4) für n ∈ N und x ∈ En P � Xj = xj für jedes j =1,...,n � = P � [x1,...,xn] � �<br />
�n<br />
= P X −1<br />
�<br />
j ({xj})<br />
=<br />
n�<br />
j=1<br />
P � X −1<br />
j ({xj}) � =<br />
j=1<br />
n�<br />
P[Xj = xj],<br />
sowie P[Xj = xj] =pxj . Nach Satz 2.13(i) sind also (X1,...,Xn) unabhängig<br />
und nach Satz 2.13(ii) auch (Xn)n∈N. ✸<br />
Speziell haben wir den folgenden Satz gezeigt.<br />
Satz 2.19. Sei E eine endliche Menge und (pe)e∈E ein Wahrscheinlichkeitsvektor<br />
auf E. Dann existiert ein Wahrscheinlichkeitsraum (Ω,A, P) und eine unabhängige<br />
Familie (Xn)n∈N von E-wertigen Zufallsvariablen auf (Ω,A, P) mit<br />
P[Xn = e] =pe für jedes e ∈ E.<br />
Wir werden später sehen, dass wir auf die Endlichkeit von E verzichten können<br />
und auch unterschiedliche Verteilungen zulassen können. Für den Moment gibt uns<br />
dieser Satz aber genügend Beispiele für abzählbare Familien von unabhängigen Zufallsvariablen<br />
an die Hand.<br />
Wir wollen nun einfache Kriterien zur Prüfung der Unabhängigkeit von Zufallsvariablen<br />
herleiten, die sich mit Hilfe von Verteilungsfunktionen beziehungsweise<br />
Dichten ausdrücken lassen.<br />
Definition 2.20. Für jedes i ∈ I sei Xi eine reelle Zufallsvariable. Für jede endliche<br />
Teilmenge J ⊂ I sei<br />
FJ := F (Xj)j∈J : R J → [0, 1],<br />
x ↦→ P � Xj ≤ xj für jedes j ∈ J � �<br />
�<br />
= P<br />
j∈J<br />
j=1<br />
X −1�<br />
j (−∞,xj] ��<br />
.<br />
Dann heißt FJ die gemeinsame Verteilungsfunktion von (Xj)j∈J. Das W-Maß<br />
P (Xj)j∈J auf R J heißt gemeinsame Verteilung von (Xj)j∈J.<br />
Satz 2.21. Eine Familie (Xi)i∈I reeller Zufallsvariablen ist genau dann unabhängig,<br />
wenn für jedes endliche J ⊂ I und jedes x =(xj)j∈J ∈ RJ gilt, dass<br />
FJ(x) = �<br />
F {j}(xj). (2.8)<br />
j∈J
2.2 Unabhängigkeit von Zufallsvariablen 57<br />
Beweis. Das Mengensystem {(−∞,b], b∈ R} ist ein schnittstabiler Erzeuger der<br />
Borel’schen σ-Algebra B(R) (siehe Satz 1.23). Die Gleichung (2.8) besagt nun aber,<br />
dass für jede Wahl von reellen Zahlen (xi)i∈I die Ereignisse (X −1 ((−∞,xi]))i∈I<br />
unabhängig sind. Nach Satz 2.16 folgt daher die Aussage dieses Satzes. ✷<br />
Korollar 2.22. Zusätzlich zur Situation von Satz 2.21 nehmen wir an, dass jedes FJ<br />
eine stetige Dichte fJ<br />
fJ : R<br />
= f (Xj)j∈J hat, das heißt, es gibt eine stetige Abbildung<br />
J → [0, ∞) mit<br />
� xj1 � xjn<br />
FJ(x) = dt1 ··· dtn fJ(t1,...,tn) für jedes x ∈ R<br />
−∞<br />
−∞<br />
J ,<br />
(wobei J = {j1,...,jn}). Dann ist die Familie (Xi)i∈I genau dann unabhängig,<br />
wenn für jedes endliche J ⊂ I gilt<br />
fJ(x) = �<br />
fj(xj) für jedes x ∈ R J . (2.9)<br />
j∈J<br />
Korollar 2.23. Seien n ∈ N und μ1,...,μn W-Maße auf (R, B(R)). Dann existiert<br />
ein W-Raum (Ω,A, P) und eine unabhängige Familie von Zufallsvariablen<br />
(Xi)i=1,...,n auf (Ω,A, P) mit PXi = μi für jedes i =1,...,n.<br />
Beweis. Sei Ω = Rn und A = B(Rn ) sowie P = �n i=1 μi das Produktmaß der μi<br />
(siehe Satz 1.61). Ferner sei Xi : Rn → R, (x1,...,xn) ↦→ xi die Projektion auf<br />
die i-te Koordinate für jedes i =1,...,n.Dannistfür jedes i =1,...,n<br />
F {i}(x) = P[Xi ≤ x] = P � R i−1 × (−∞,x] × R n−i−1�<br />
� � �<br />
� �<br />
= μi (−∞,x] · μj(R) = μi (−∞,x] .<br />
j�=i<br />
Also gilt tatsächlich PXi = μi. Ferner ist für x1,...,xn ∈ R<br />
� n �<br />
F {1,...,n}(x1,...,xn) =P × (−∞,xi] =<br />
i=1<br />
n�<br />
i=1<br />
�<br />
μi (−∞,xi] � =<br />
n�<br />
F {i}(xi).<br />
Nach Satz 2.21 (und Satz 2.13(i)) folgt die Unabhängigkeit von (Xi)i=1,...,n. ✷<br />
Beispiel 2.24. Seien X1,...,Xn unabhängige, exponentialverteilte Zufallsvariablen<br />
mit Parametern θ1,...,θn ∈ (0, ∞). DannistF {i}(x) = � x<br />
0 θi exp(−θit) dt =<br />
1 − exp(−θix) für x ≥ 0 und daher<br />
�<br />
F {1,...,n} (x1,...,xn) � =<br />
n� � −θixi 1 − e � .<br />
Betrachte nun die Zufallsvariable Y =max(X1,...,Xn). Dannist<br />
i=1<br />
i=1
58 2 Unabhängigkeit<br />
FY (x) =P � Xi ≤ x für jedes i =1,...,n �<br />
� �<br />
= F {1,...,n} (x,...,x) =<br />
n� � −θix<br />
1 − e � .<br />
Für die Zufallsvariable Z := min(X1,...,Xn) hat die Verteilungsfunktion eine<br />
schöne geschlossene Form<br />
i=1<br />
FZ(x) =1− P[Z >x]<br />
=1− P � Xi >x für jedes i =1,...,n �<br />
n�<br />
=1− e −θix =1− exp � − (θ1 + ...+ θn) x � .<br />
i=1<br />
Mit anderen Worten: Z ist exponentialverteilt mit Parameter θ1 + ...+ θn. ✸<br />
Beispiel 2.25. Seien μi ∈ R und σ2 i > 0, i ∈ I, sowie(Xi)i∈Ireell mit gemeinsamen<br />
Dichtefunktionen (für endliches J ⊂ I)<br />
fJ(x) = �<br />
�<br />
− � (xj − μj) 2 �<br />
für x ∈ R J .<br />
j∈J<br />
� � 1<br />
2 − 2 2πσj exp<br />
Dann sind die (Xi)i∈I unabhängig und normalverteilt mit Parametern (μi,σ2 i ).<br />
Für jedes endliche I = {i1,...,in} (mit paarweise unterschiedlichen i1,...,in)<br />
ist der Vektor Y =(Xi1 ,...,Xin ) n-dimensional normalverteilt mit μ = μI :=<br />
(μi1 ,...,μin ) und Σ = ΣI die Diagonalmatrix mit Einträgen σ2 i1 ,...,σ2 in (vergleiche<br />
Beispiel 1.105(ix)). ✸<br />
Satz 2.26. Sei K eine beliebige Menge und Ik, k ∈ K, beliebige paarweise disjunkte<br />
Indexmengen sowie I = �<br />
Ik.<br />
k∈K<br />
Ist die Familie (Xi)i∈I unabhängig, dann sind auch die σ-Algebren (σ(Xj,j ∈<br />
Ik))k∈K unabhängig.<br />
Beweis. Sei für k ∈ K<br />
�<br />
�<br />
Zk =<br />
j∈Ik<br />
j∈J<br />
2σ 2 j<br />
�<br />
Aj : Aj ∈ σ(Xj), #{j ∈ Ik : Aj �= Ω} < ∞<br />
der Ring der endlichdimensionalen Zylinder. Offenbar ist Zk schnittstabil und<br />
σ(Zk) =σ(Xj,j ∈ Ik). Also reicht es nach Satz 2.13(iii) zu zeigen, dass (Zk)k∈K<br />
unabhängig ist. Nach Satz 2.13(ii) können wir sogar annehmen, dass K endlich ist.<br />
Für k ∈ K seien nun Bk ∈Zk und Jk ⊂ Ik endlich mit Bk = �<br />
gewisse Aj ∈ σ(Xj). Setze J = �<br />
k∈K Jk.Dannist<br />
j∈Jk Aj für
�<br />
�<br />
P<br />
k∈K<br />
Bk<br />
�<br />
2.2 Unabhängigkeit von Zufallsvariablen 59<br />
�<br />
�<br />
�<br />
= P Aj = �<br />
P[Aj] = � �<br />
P[Aj] = �<br />
P[Bk]. ✷<br />
j∈J<br />
j∈J<br />
k∈K j∈Jk<br />
Beispiel 2.27. Sind (Xn)n∈N unabhängige, reelle Zufallsvariablen, dann sind auch<br />
(Yn)n∈N =(X2n − X2n−1)n∈N unabhängig. In der Tat ist für jedes n ∈ N die<br />
Zufallsvariable Yn schon messbar bezüglich σ(X2n,X2n−1) nach Satz 1.91, und<br />
(σ(X2n,X2n−1))n∈N ist unabhängig nach Satz 2.26. ✸<br />
Beispiel 2.28. Seien (Xm,n) (m,n)∈N 2 unabhängige Bernoulli-Zufallsvariablen mit<br />
Parameter p ∈ (0, 1). Sei<br />
Ym := inf � n ∈ N : Xm,n =1 � − 1<br />
die Wartezeit auf den ersten ” Erfolg“ in der m-ten Zeile der Matrix (Xm,n)m,n.<br />
Dann sind (Ym)m∈N unabhängige, geometrisch verteilte Zufallsvariablen mit Parameter<br />
p (siehe Beispiel 1.105(iii)). Denn:<br />
k+1 �<br />
{Ym ≤ k} =<br />
l=1<br />
k∈K<br />
{Xm,l =1}∈σ(Xm,l, l=1,...,k+1)⊂ σ(Xm,l, l∈ N).<br />
Also ist Ym messbar bezüglich σ(Xm,l,l ∈ N), und damit ist (Ym)m∈N unabhängig.<br />
Ferner ist<br />
P[Ym >k]=P[Xm,l =0,l=1,...,k+1]=<br />
k+1 �<br />
l=1<br />
P[Xm,l =0]=(1− p) k+1 .<br />
Es folgt P[Ym = k] =P[Ym >k− 1] − P[Ym >k]=p(1 − p) k . ✸<br />
Definition 2.29 (Faltung). Seien μ und ν W-Maße auf (Z, 2 Z ).Wirdefinieren die<br />
Faltung μ ∗ ν als das W-Maß auf (Z, 2 Z ) mit<br />
(μ ∗ ν)({n}) =<br />
∞�<br />
m=−∞<br />
μ({m}) ν({n − m}).<br />
Wir definieren die n-te Faltungspotenz rekursiv durch μ ∗1 = μ und<br />
μ ∗(n+1) = μ ∗n ∗ μ.<br />
Bemerkung 2.30. Es gilt μ ∗ ν = ν ∗ μ ✸<br />
Satz 2.31. Sind X und Y unabhängige Z-wertige Zufallsvariablen, so gilt<br />
PX+Y = PX ∗ PY .
60 2 Unabhängigkeit<br />
Beweis. Für jedes n ∈ Z gilt<br />
PX+Y ({n}) =P[X + Y = n]<br />
�<br />
�<br />
= P<br />
m∈Z<br />
�<br />
�<br />
{X = m}∩{Y = n − m}<br />
�<br />
= �<br />
P � {X = m}∩{Y = n − m} �<br />
m∈Z<br />
= �<br />
PX[{m}] PY [{n − m}] = (PX∗PY )[{n}]. ✷<br />
m∈Z<br />
Auf Grund dieses Satzes liegt es nahe, die Faltung von zwei Wahrscheinlichkeitsmaßen<br />
auf R n (oder allgemeiner: auf abelschen Gruppen) als die Verteilung der<br />
Summe zweier unabhängiger Zufallsvariablen mit den entsprechenden Verteilungen<br />
zu definieren. Wir werden später eine andere Definition kennen lernen, die natürlich<br />
zu dieser äquivalent ist, jedoch auf den Integralbegriff zurückgreift, der hier noch<br />
nicht verfügbar ist (siehe Definition 14.17).<br />
Definition 2.32 (Faltung von Maßen). Seien μ und ν W-Maße auf R n , und seien<br />
X und Y unabhängige Zufallsvariablen mit PX = μ und PY = ν. Dann definieren<br />
wir die Faltung von μ und ν durch μ ∗ ν = PX+Y .<br />
Iterativ definieren wir die Faltungspotenzen μ ∗k für k ∈ N, sowie μ ∗0 = δ0.<br />
Beispiel 2.33. Seien X und Y unabhängig und Poisson-verteilt mit Parametern<br />
μ, λ ≥ 0. Dann gilt<br />
P[X + Y = n] =e −μ e −λ<br />
n�<br />
m=0<br />
−(μ+λ) 1<br />
= e<br />
n!<br />
μm λ<br />
m!<br />
n−m<br />
(n − m)!<br />
n�<br />
� �<br />
n<br />
μ<br />
m<br />
m λ n−m −(μ+λ) (μ + λ)n<br />
= e .<br />
n!<br />
m=0<br />
Also ist Poiμ ∗ Poiλ =Poiμ+λ. ✸<br />
Übung 2.2.1. Seien X und Y unabhängige Zufallsvariablen mit X ∼ exp θ und<br />
Y ∼ exp ρ für gewisse θ, ρ > 0. Man zeige:<br />
P[X
2.3 Kolmogorov’sches 0-1 Gesetz 61<br />
X := � −2log(U) cos(2πV ) und Y := � −2log(U) sin(2πV ).<br />
Man zeige: X und Y sind unabhängig und N0,1-verteilt.<br />
Hinweis: Man berechne zunächst die Verteilung von � −2log(U) und benutze die<br />
Transformationsformel für Dichten (Satz 1.101) sowie Polarkoordinatentransformation.<br />
♣<br />
2.3 Kolmogorov’sches 0-1 Gesetz<br />
Mit dem Lemma von Borel-Cantelli haben wir bereits ein 0-1 Gesetz für unabhängige<br />
Ereignisse kennen gelernt. Wir kommen jetzt zu einem weiteren 0-1 Gesetz<br />
für unabhängige Ereignisse, beziehungsweise σ-Algebren. Um dies zu formulieren,<br />
müssen wir zunächst den Begriff der terminalen σ-Algebra einführen.<br />
Definition 2.34 (Terminale σ-Algebra). Sei I eine abzählbar unendliche Indexmenge<br />
und (Ai)i∈I eine Familie von σ-Algebren. Dann heißt<br />
T � � �<br />
� � �<br />
(Ai)i∈I := σ Aj<br />
J⊂I<br />
#J
62 2 Unabhängigkeit<br />
Beweis. ” ⊂“ Dies ist klar.<br />
” ⊃“ Sei Jn ↑ I mit endlichen Mengen Jn ⊂ I, n ∈ N, und sei J ⊂ I endlich.<br />
Dann existiert ein N ∈ N mit J ⊂ JN , und es ist<br />
∞�<br />
N�<br />
n=1<br />
� � �<br />
σ<br />
Am<br />
m∈I\Jn<br />
⊂<br />
n=1<br />
� � �<br />
σ<br />
Am<br />
m∈I\Jn<br />
� � � � �<br />
= σ<br />
Am ⊂ σ<br />
m∈I\JN<br />
m∈I\J Am<br />
�<br />
.<br />
Die linke Seite hängt nicht von J ab, also können wir den Schnitt über alle endlichen<br />
J bilden und erhalten<br />
∞� � � �<br />
σ<br />
Am ⊂T<br />
m∈I\Jn<br />
� �<br />
(Ai)i∈I . ✷<br />
n=1<br />
Es ist vielleicht nicht so ohne weiteres klar, dass es überhaupt noch interessante Ereignisse<br />
in der terminalen σ-Algebra gibt. Vielleicht ist nicht einmal a priori klar,<br />
dass nicht etwa T = {∅,Ω} gilt. Daher geben wir jetzt erst einmal einfache Beispiele<br />
für terminale Ereignisse beziehungsweise terminal messbare Zufallsvariablen<br />
an. In Abschnitt 2.4 werden wir ein weiteres Beispiel kennen lernen.<br />
Beispiel 2.36. (i) Seien A1,A2,... Ereignisse. Dann sind die Ereignisse A∗ :=<br />
lim inf<br />
n→∞ An und A∗ := lim sup An in T ((An)n∈N). Setzen wir nämlich Bn :=<br />
n→∞<br />
∞�<br />
Am für n ∈ N, dann gilt Bn ↑ A∗ und Bn ∈ σ((Am)m≥N ) für jedes n ≥ N.<br />
m=n<br />
Also ist A∗ ∈ σ((Am)m≥N) für jedes N ∈ N und damit A∗ ∈T((An)n∈N). Für<br />
A∗ geht dies analog.<br />
(ii) Ist (Xn)n∈N eine Familie R-wertiger Zufallsvariablen, so sind auch die Abbildungen<br />
X∗ := lim infn→∞ Xn und X∗ := lim supn→∞ Xn messbar bezüglich<br />
T ((Xn)n∈N). In der Tat: Setzen wir Yn := supm≥n Xm, soistfür jedes N ∈ N<br />
die Zufallsvariable X∗ = infn≥1Yn = infn≥NYnmessbar bezüglich TN :=<br />
σ(Xn, n≥ N), also auch bezüglich T ((Xn)n∈N) = �∞ n=1 Tn.<br />
Für X∗ geht dies analog.<br />
(iii) Seien (Xn)n∈N reellwertige Zufallsvariablen. Dann sind die Cesàro-Limiten<br />
lim inf<br />
n→∞<br />
1<br />
n<br />
n�<br />
i=1<br />
Xi und lim sup<br />
n→∞<br />
messbar bezüglich T ((Xn)n∈N). Um dies zu zeigen, wählen wir ein N ∈ N und<br />
beachten, dass<br />
n�<br />
n�<br />
1<br />
1<br />
X∗ := lim inf Xi = lim inf Xi<br />
n→∞ n<br />
n→∞ n<br />
i=1<br />
1<br />
n<br />
n�<br />
i=1<br />
i=N<br />
Xi
2.3 Kolmogorov’sches 0-1 Gesetz 63<br />
σ((Xn)n≥N )-messbar ist. Da dies für jedes N gilt, ist X∗ auch T ((Xn)n∈N)messbar.<br />
Für den Limes superior geht das analog. ✸<br />
Satz 2.37 (Kolmogorov’sches 0-1 Gesetz). Sei I eine abzählbar unendliche Indexmenge,<br />
und sei (Ai)i∈I eine unabhängige Familie von σ-Algebren. Dann ist<br />
die terminale σ-Algebra P-trivial, das heißt, es gilt<br />
P[A] ∈{0, 1} für jedes A ∈T((Ai)i∈I).<br />
Beweis. Es reicht, den Fall I = N zu betrachten. Sei A ∈T := T � �<br />
(An)n∈N .Für<br />
n ∈ N sei<br />
�<br />
�n<br />
�<br />
Fn := Ak : A1 ∈A1,...,An ∈An .<br />
k=1<br />
Dann ist F := �∞ n=1 Fn ein Semiring und σ(F) =σ( �<br />
n∈N An). InderTatistfür<br />
jedes n ∈ N und An ∈An auch An ∈F, also σ( �<br />
n∈N An) ⊂ σ(F). Andererseits<br />
ist Fm ⊂ σ( �m n=1 An) ⊂ σ( �<br />
n∈N An) für jedes m ∈ N, also F⊂σ( �<br />
n∈N An).<br />
Sei A ∈T((An)n∈N), und sei ε>0. Nach dem Approximationssatz für Maße<br />
(Satz 1.65) existiert ein n ∈ N und ein Fn = ˜ F1 ⊎ ...⊎ ˜ FN mit ˜ F1,..., ˜ FN ∈Fn<br />
und mit P[A △ Fn] P[A \ Fn] =P[A ∩ (Ω \ Fn)] = P[A](1 − P[Fn]) ≥ P[A](1 − P[A] − ε).<br />
Da ε>0 beliebig war, folgt 0=P[A](1 − P[A]). ✷<br />
Korollar 2.38. Sei (An)n∈N eine Folge unabhängiger Ereignisse. Dann gilt<br />
� �<br />
� �<br />
P<br />
∈{0, 1} und P<br />
∈{0, 1}.<br />
lim sup An<br />
n→∞<br />
lim inf<br />
n→∞ An<br />
Beweis. Dies ist im Grunde eine Schlussfolgerung aus dem Lemma von Borel-<br />
Cantelli. Allerdings folgt es auch direkt aus dem Kolmogorov’schen 0-1 Gesetz,<br />
da Limes superior und Limes inferior in der terminalen σ-Algebra liegen. ✷<br />
Korollar 2.39. Sei (Xn)n∈N eine unabhängige Familie von R-wertigen Zufallsvariablen.<br />
Dann sind X∗ := lim infn→∞ Xn und X∗ := lim supn→∞ Xn fast sicher<br />
konstant, das heißt, es gibt x∗,x∗ ∈ R mit P[X∗ = x∗] =1und P[X∗ = x∗ ]=1.<br />
Falls alle Xi sogar reellwertig sind, so sind auch die Cesàro-Limiten<br />
fast sicher konstant.<br />
lim inf<br />
n→∞<br />
1<br />
n<br />
n�<br />
i=1<br />
Xi und lim sup<br />
n→∞<br />
1<br />
n<br />
n�<br />
i=1<br />
Xi
64 2 Unabhängigkeit<br />
Beweis. Sei X∗ := lim inf<br />
n→∞ Xn. Für jedes x ∈ R ist {X∗ ≤ x} ∈T((Xn)n∈N),<br />
also P[X∗ ≤ x] ∈{0, 1}. Setze<br />
Ist x∗ = ∞, so ist offenbar<br />
x∗ := inf{x ∈ R : P[X∗ ≤ x] =1}∈R.<br />
P[X∗ < ∞] = lim<br />
n→∞ P[X∗ ≤ n] =0.<br />
Ist x∗ ∈ R, soist<br />
P[X∗ ≤ x∗] = lim<br />
n→∞ P<br />
�<br />
X∗ ≤ x∗ + 1<br />
�<br />
=1<br />
n<br />
und<br />
P[X∗ −∞] = lim<br />
n→∞ P[X∗ > −n] =0.<br />
Für den Limes superior sowie für die Cesàro-Limiten geht dies analog. ✷<br />
Übung 2.3.1. Man zeige: Ist (Xn)n∈N eine unabhängige Familie von Zufallsvariablen<br />
mit P[Xn = −1] = P[Xn = +1] = 1<br />
2 , und ist Sn = X1 + ...+ Xn für jedes<br />
n ∈ N, soistlim supn→∞ Sn = ∞ fast sicher. ♣<br />
2.4 Beispiel: Perkolation<br />
Wir betrachten das d-dimensionale Gitter Z d , wobei jeder Punkt durch je eine Kante<br />
mit seinen 2d nächsten Nachbarpunkten verbunden ist. Sind x, y ∈ Z d nächste<br />
Nachbarn, das heißt �x − y�2 = 1, so schreiben wir k = 〈x, y〉 = 〈y, x〉 für<br />
die Kante, die x und y verbindet. Formal ist die Kantenmenge eine Teilmenge der<br />
zweielementigen Teilmengen von Z d :<br />
K = � {x, y} : x, y ∈ Z d mit�x − y�2 =1 � .<br />
Etwas allgemeiner ist ein (ungerichteter) Graph G ein Paar G =(V,K), wobei<br />
V eine Menge ist (die Menge der Knoten oder Punkte des Graphen) und K ⊂<br />
{{x, y} : x, y ∈ V, x �= y} eine Teilmenge aller zweielementigen Teilmengen von<br />
V (die Menge der Kanten).<br />
Da wir unter einer Kante intuitiv eine Verbindung zwischen zwei Punkten x und<br />
y verstehen (und nicht das ungeordnete Paar {x, y}), verwenden wir ein anderes<br />
Symbol als die Mengenklammern und schreiben 〈x, y〉 statt {x, y}.
2.4 Beispiel: Perkolation 65<br />
Dieses Gitter ist für uns der Ausgangspunkt für ein stochastisches Modell eines<br />
porösen Mediums. Wir stellen uns die Kanten als Röhren vor, entlang derer Wasser<br />
fließen kann. Nun soll das Medium allerdings nicht völlig homogen wasserdurchlässig<br />
sein, sondern eine amorphe Struktur besitzen, etwa wie Bimsstein. Zu<br />
diesem Zweck wollen wir zufällig einen gewissen Anteil 1 − p (wobei p ∈ [0, 1] ein<br />
Parameter ist) der Kanten zerstören, sodass das Wasser nur durch die verbliebenen<br />
Kanten fließen kann. Die Frage, die sich stellt, ist, bei welchen Werten von p die intakten<br />
Röhren unendlich große verbundene Systeme bilden und bei welchen Werten<br />
alle verbundenen Systeme nur endliche Größe haben.<br />
Wir kommen jetzt zur formalen Beschreibung des Modells. Wir wählen einen Parameter<br />
p ∈ [0, 1] und eine unabhängige Familie identisch verteilter Zufallsvariablen<br />
(X p<br />
k )k∈K mit X p<br />
k =Berp, also P[X p<br />
k =1]=1−P[Xp k =0]=p für jedes k ∈ K.<br />
Dann definieren wir<br />
K p := {k ∈ K : X p<br />
k =1} (2.10)<br />
als die Menge der intakten (oder offenen) Kanten. Entsprechend nennen wir die Kanten<br />
K \ Kp defekt (oder geschlossen). Auf diese Weise haben wir einen (zufälligen)<br />
Teilgraphen (Zd ,Kp ) von (Zd ,K) hergestellt. Wir nennen (Zd ,K) auch ein Perkolationsmodell<br />
(genauer: ein Modell für Kantenperkolation, im Gegensatz zu<br />
Punktperkolation, wo die einzelnen Punkte geschlossen oder offen sind). Ein (offener)<br />
Pfad (der Länge n) in diesem Teilgraphen ist eine Folge π =(x0,x1,...,xn)<br />
von Punkten in Zd mit 〈xi−1,xi〉 ∈Kp für jedes i =1,...,n. Wir sagen, dass zwei<br />
Punkte x, y ∈ Zd durch einen offenen Pfad verbunden werden können, wenn es ein<br />
n ∈ N und einen offenen Pfad (x0,x1,...,xn) mit x0 = x und xn = y gibt. In diesem<br />
Fall schreiben wir x ←→p y. Offenbar ist ←→p“ eine Äquivalenzrelation, je-<br />
”<br />
doch eine zufällige, weil sie von den Werten der Zufallsvariablen (X p<br />
k )k∈K abhängt.<br />
Für x ∈ Zd nennen wir<br />
C p (x) :={y ∈ Z d : x ←→p y} (2.11)<br />
den (zufälligen) offenen Cluster von x, also die Zusammenhangskomponente von x<br />
in dem Graphen (Z d ,K p ).<br />
Lemma 2.40. Für je zwei Punkte x, y ∈ Z d ist {x←→ py} eine Zufallsvariable.<br />
Insbesondere ist #C p (x) eine Zufallsvariable für jedes x ∈ Z d .<br />
Beweis. Ohne Einschränkung können wir annehmen, dass x =0ist. Wir setzen<br />
fn(y) =1, falls es einen offenen Pfad von 0 nach y der Länge höchstens n gibt, und<br />
fn(y) =0sonst. Offenbar ist fn(y) ↑ {0←→ py}, also reicht es, die Messbarkeit<br />
von fn zu zeigen. Sei Bn := {−n, −n +1,...,n − 1,n} d und Kn := {k ∈<br />
K : k ∩ Bn �= ∅}. DannistYn := (X p<br />
k : k ∈ Kn) :Ω →{0, 1} Kn messbar<br />
(bezüglich 2 ({0,1}Kn )) nach Satz 1.90. Nun ist aber fn eine Funktion von Yn, sagen<br />
wir fn = gn◦Yn für gewisses gn : {0, 1} Kn →{0, 1}. Nach dem Verknüpfungssatz<br />
(Satz 1.80) ist daher fn messbar.<br />
Der Zusatz folgt, weil #C p (x) = �<br />
y∈Z d {x←→ py}. ✷
66 2 Unabhängigkeit<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � �<br />
Abb. 2.1. Perkolation auf einem 15 × 15 Gitter, p =0.42<br />
Definition 2.41. Wir sagen, dass Perkolation eintritt, falls es (wenigstens) einen unendlich<br />
großen, offenen Cluster gibt und nennen<br />
ψ(p) :=P[es gibt einen unendlich großen, offenen Cluster]<br />
� �<br />
= P {#C p �<br />
(x) =∞}<br />
x∈Z d<br />
die Perkolationswahrscheinlichkeit. Wir definieren weiterhin die Funktion<br />
θ(p) :=P[#C p (0) = ∞]<br />
als die Wahrscheinlichkeit, dass der Ursprung in einem unendlich großen, offenen<br />
Cluster liegt.<br />
Auf Grund der Translationsinvarianz des Gitters ist<br />
θ(p) =P[#C p (y) =∞] für jedes y ∈ Z d . (2.12)
2.4 Beispiel: Perkolation 67<br />
Die Grundfrage lautet: Wie groß sind θ(p) und ψ(p) in Abhängigkeit von p?<br />
Wir machen die folgende, intuitiv leicht einsehbare Beobachtung.<br />
Satz 2.42. Die Abbildung [0, 1] → [0, 1], p ↦→ θ(p) ist monoton wachsend.<br />
Beweis. Obwohl die Aussage offensichtlich erscheint, wollen wir einen formalen<br />
Beweis geben, weil er ein wichtiges Beweisprinzip, das der Kopplung, verwendet.<br />
Seien p, p ′ ∈ [0, 1] mit p 0.<br />
Beweis. Ist θ(p) =0, so ist nach (2.12)<br />
ψ(p) ≤ �<br />
P[#C p (y) =∞] = �<br />
θ(p) =0.<br />
y∈Z d<br />
y∈Z d<br />
Sei nun A = �<br />
y∈Zd{#Cp (y) = ∞}. Offenbar ändert es nichts am Eintreten<br />
von A, wenn endlich viele Kanten ihren Zustand verändern. Das heißt A ∈<br />
σ((X p<br />
k ) k∈K\Kn<br />
) für jedes n ∈ N. Nach Satz 2.35 ist A also in der terminalen σ-<br />
Algebra T ((X p<br />
k )k∈K). Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) gilt<br />
also ψ(p) =P[A] ∈{0, 1}. Ist nun θ(p) > 0, so folgt wegen ψ(p) ≥ θ(p) schon<br />
ψ(p) =1. ✷
68 2 Unabhängigkeit<br />
Aufgrund der Monotonie können wir nun die folgende Definition treffen.<br />
Definition 2.44. Der kritische Wert pc für das Auftreten von Perkolation wird definiert<br />
als<br />
pc = inf{p ∈ [0, 1] : θ(p) > 0} = sup{p ∈ [0, 1] : θ(p) =0}<br />
= inf{p ∈ [0, 1] : ψ(p) =1} = sup{p∈ [0, 1] : ψ(p) =0}.<br />
Wir kommen zu einem Hauptsatz dieses Abschnitts.<br />
Satz 2.45. Für d =1 ist pc =1.Für d ≥ 2 ist pc(d) ∈ �<br />
1<br />
2d−1<br />
�<br />
2 , 3 .<br />
Beweis. Sei zunächst d =1und p
2.4 Beispiel: Perkolation 69<br />
Es reicht also, den Fall d =2zu betrachten. Hier zeigen wir pc ≤ 2<br />
3 . Wir geben ein<br />
Konturargument an, das von Peierls für ein Magnetismusmodell (das Ising Modell,<br />
siehe Beispiel 18.21 und speziell (18.13)) entwickelt wurde (siehe [119]).<br />
Für N ∈ N schreiben wir (vergleiche (2.11) mit x =(i, 0))<br />
CN :=<br />
N�<br />
C p� (i, 0) �<br />
i=0<br />
für die Menge der Punkte, die eine offene Verbindung in die Menge {0,...,N}×<br />
{0} haben. Dann ist wegen der Subadditivität der Wahrscheinlichkeit (und wegen<br />
P[#C p� (i, 0) � = ∞] =θ(p) für jedes i ∈ Z)<br />
θ(p) =<br />
1<br />
N +1<br />
N�<br />
P � #C p� (i, 0) � = ∞ � ≥<br />
i=0<br />
1<br />
N +1 P� #CN = ∞ � .<br />
Wir betrachten nun Konturen im dualen Graphen ( ˜ Z 2 , ˜ K), dieCN umschließen,<br />
falls #CN < ∞. Der duale Graph ist dabei definiert durch<br />
˜Z 2 �<br />
1 1<br />
�<br />
= , + Z<br />
2 2<br />
2 ,<br />
�<br />
˜K = {x, y} : x, y ∈ ˜ Z 2 �<br />
, �x − y�2 =1 .<br />
Eine Kante ˜ k im dualen Graphen ( ˜ Z2 , ˜ K) kreuzt also genau eine Kante k in<br />
(Z2 ,K). Wir nennen ˜ k offen, falls k offen ist, und sonst geschlossen. Ein Kreis<br />
γ ist ein selbstüberschneidungsfreier Pfad in ( ˜ Z2 , ˜ K), bei dem Anfangs- und Endpunkt<br />
übereinstimmen. Eine Kontur der Menge CN ist ein minimaler Kreis, der CN<br />
umschließt. Minimal heißt dabei, dass die umschlossene Fläche minimal ist (siehe<br />
Abb. 2.2). Für n ≥ 2N sei<br />
�<br />
�<br />
Γn = γ : γ ist ein Kreis der Länge n und umschließt {0,...,N}×{0} .<br />
Wir wollen eine obere Abschätzung für #Γn angeben. Dafür wählen wir für γ ∈<br />
Γn � einen Punkt � aus γ willkürlich als Startpunkt aus, nämlich den oberen Punkt<br />
1 1 m + 2 , 2 des rechtesten x-Achsendurchgangs von γ (in Abb. 2.2 ist dies der<br />
Punkt � 5+ 1<br />
�<br />
1<br />
2 , 2 ). Offenbar ist m ≥ N und m ≤ n weil der Ursprung von Γn<br />
umschlossen wird. Ausgehend von � m + 1<br />
�<br />
1<br />
2 , 2 gibt es für jede weitere Kante von γ<br />
jeweils höchstens drei Möglichkeiten. Also ist<br />
#Γn ≤ n · 3 n .<br />
Der Kreis γ heißt geschlossen, wenn er nur (in ˜ K) geschlossene Kanten benutzt.<br />
Eine Kontur von CN muss automatisch geschlossen sein und eine Länge größer als<br />
2N haben. Daher gilt für p> 2<br />
3
70 2 Unabhängigkeit<br />
1<br />
0<br />
−1<br />
� � � � � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � � � � �<br />
� � � � � � � � � � � � � � � � � �<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
� � � � � � �<br />
❜ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣<br />
❜ ❜ ❜ ❜ ♣<br />
� � � � � � �<br />
❜ ♣♣♣♣♣♣♣♣♣♣❜<br />
❜ ♣♣♣♣♣♣♣♣♣❜<br />
♣<br />
� � � � � � �<br />
❜ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣<br />
❜ ❜ ❜ ❜ ♣ ❜<br />
� � � � � � �<br />
❜ ❜<br />
� � � � � � �<br />
❜ ❜ ♣♣♣♣♣♣♣♣♣❜<br />
♣<br />
� � � � � � �<br />
❜ ❜ ♣♣♣♣♣♣♣♣♣♣❜<br />
♣ ❜<br />
� � � � � � �<br />
❜ ♣♣♣♣♣♣♣♣♣❜<br />
❜ ❜<br />
� � � � � � �<br />
♣♣♣♣♣♣♣♣♣ ❜ ❜<br />
� � � � � � �<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
�<br />
−1 0 1 5<br />
P[#CN < ∞] =<br />
≤<br />
Abb. 2.2. Kontur des Clusters C5<br />
∞�<br />
n=2N<br />
∞�<br />
n=2N<br />
P � �<br />
es gibt einen geschlossenen Kreis γ ∈ Γn<br />
n · � 3(1 − p) � n N→∞<br />
−→ 0.<br />
Es folgt pc ≤ 2<br />
3 . ✷<br />
Im Allgemeinen ist der Wert von pc nicht bekannt und extrem schwer zu bestimmen.<br />
Im Fall der Kantenperkolation in Z 2 ist allerdings ein genaues Ergebnis bekannt,<br />
da man hier das starke Hilfsmittel der Selbstdualität des Graphen (Z 2 ,K)<br />
zur Verfügung hat. (Ist G =(V,K) ein planarer Graph, also einer, den man mit<br />
überschneidungsfreien Kanten in den R 2 einbetten kann, so hat der duale Graph als<br />
Punktmenge die Menge der Flächen von G und als Kante zwischen zwei solchen<br />
Punkten, diejenige Kante aus K, die die beiden Flächenstücke trennt. Offenbar ist<br />
das zweidimensionale Gitter als Graph isomorph zu seinem dualen Graphen. Man<br />
beachte, dass man die Kontur in Abb. 2.2 als geschlossenen Pfad im dualen Graphen<br />
auffassen kann.) Wir zitieren hier den Satz von Kesten [93].<br />
Satz 2.46 (Kesten (1980)). Für Kantenperkolation in Z 2 ist die kritische Wahrscheinlichkeit<br />
pc = 1<br />
2 , und es gilt θ(pc) =0.<br />
Beweis. Siehe etwa das Buch von Grimmett [62, Seite 287ff]. ✷
2.4 Beispiel: Perkolation 71<br />
Es wird vermutet, dass θ(pc) =0in jeder Dimension d ≥ 2 gilt. Rigoros bewiesen<br />
ist dies allerdings nur für d =2und d ≥ 19 (siehe [66]).<br />
Eindeutigkeit des unendlichen Clusters ∗<br />
Es sei p so gewählt, dass θ(p) > 0 ist. Wir haben gesehen, dass es mit Wahrscheinlichkeit<br />
1 mindestens einen unendlich großen, offenen Cluster gibt. Wir wollen nun<br />
zeigen, dass es genau einen gibt.<br />
Sei also N ∈{0, 1,...,∞} die (zufällige) Anzahl von unendlich großen Clustern.<br />
Satz 2.47 (Eindeutigkeit des unendlichen großen Clusters). Für jedes p ∈ [0, 1]<br />
gilt Pp[N ≤ 1] = 1.<br />
Beweis. Diese Aussage wurde erstmals von Aizenman, Kesten und Newman gezeigt<br />
[1, 2]. Wir folgen der einfacheren Beweisidee von Burton und Keane [25], wie<br />
sie etwa in [62, Abschnitt 8.2] beschrieben wird.<br />
In den Fällen p =1und θ(p) =0(speziell also im Fall p =0) ist die Aussage<br />
trivial. Seien nun also p ∈ (0, 1) und θ(p) > 0.<br />
1. Schritt Wir zeigen zunächst:<br />
Pp[N = m] =1 für ein m =0, 1,...,∞. (2.13)<br />
Wir benötigen ein 0-1 Gesetz, ähnlich dem Kolmogorov’schen. Allerdings ist N<br />
nicht messbar bezüglich der terminalen σ-Algebra, wir müssen also etwas subtiler<br />
vorgehen. Sei e1 =(1, 0,...,0) der erste Einheitsvektor in Zd . Auf der Kantenmenge<br />
K definieren wir die Translation τ : K → K durch τ(〈x, y〉) =〈x + e1,y+ e1〉.<br />
Sei<br />
K0 := � 〈(x1,...,xd), (y1,...,yd)〉 ∈K : x1 =0,y1≥ 0 �<br />
die Menge aller Kanten in Zd , die zwei Punkte in {0}×Zd−1 verbinden oder einen<br />
Punkt aus {0}×Zd−1 mit einem aus {1}×Zd−1 verbinden. Offenbar sind die Men-<br />
gen (τ n (K0), n∈ Z) disjunkt und K = �<br />
n∈Z τ n (K0). Daher sind die Zufallsva-<br />
riablen Yn := (X p<br />
τ n )k∈K0 (k) , n ∈ Z, unabhängig und identisch verteilt (mit Werten<br />
in {0, 1} K0 ). Setze Y =(Yn)n∈Zund τ(Y )=(Yn+1)n∈Z. SeiAm∈{0, 1} K<br />
definiert durch<br />
{Y ∈ Am} = {N = m}.<br />
Offenbar ändert sich der Wert von N nicht, wenn wir alle Kanten gleichzeitig verschieben.<br />
Es gilt also {Y ∈ Am} = {τ(Y ) ∈ Am}. Ein Ereignis mit dieser<br />
Eigenschaft nennen wir invariant. Mit einem Argument ähnlich dem für das Kolmogorov’sche<br />
0-1 Gesetz kann man zeigen, dass invariante Ereignisse (die durch<br />
u.i.v. Zufallsvariablen definiert werden) nur die Wahrscheinlichkeiten 0 oder 1 haben<br />
können (für einen formalen Beweis siehe Beispiel 20.26).
72 2 Unabhängigkeit<br />
2. Schritt Wir zeigen:<br />
Pp[N = m] =0 für jedes m ∈ N \{1}. (2.14)<br />
Sei also m =2, 3,... Wir nehmen an, dass P[N = m] =1gilt und führen dies<br />
zum Widerspruch.<br />
Für L ∈ N setzen wir BL := {−L,...,L} d und bezeichnen mit KL = {k =<br />
〈x, y〉 ∈K : x, y ∈ BL} die Menge der Kanten, deren beide Endpunkte in BL<br />
liegen. Für i =0, 1 sei Di L := {Xp k = i für alle k ∈ KL}. SeiN1 L die Anzahl der<br />
unendlichen Cluster, wenn wir (unabhängig vom Wert von X p<br />
k ) jede Kante k in KL<br />
als offen betrachten. Analog definieren wir N 0 L , wobei wir hier die Kanten in KL<br />
als geschlossen betrachten. Wegen Pp[Di L ] > 0, und wegen N = m fast sicher, gilt<br />
N i L = m fast sicher für i =0, 1.<br />
Sei<br />
A 2 � � � � p 1 p 2 p 1<br />
L:=<br />
C (x ) ∩ C (x )=∅ ∩ #C (x )=#Cp(x 2 )=∞ �<br />
x 1 ,x 2 ∈BL\BL−1<br />
das Ereignis, dass es zwei Punkte auf dem Rand von BL gibt, die in unterschiedlichen,<br />
unendlich großen, offenen Clustern sitzen. Offenbar gilt A2 L ↑{N ≥ 2} für<br />
L →∞.<br />
Sei A2 L,0 ähnlich wie A2L definiert, jedoch wollen wir alle Kanten k ∈ KL als<br />
geschlossen betrachten, egal ob X p<br />
k =1oder Xp<br />
k =0ist. Tritt A2L ein, so gibt es<br />
zwei Punkte x1 ,x2 auf dem Rand von BL und zu jedem i =1, 2 einen unendlich<br />
langen selbstüberschneidungsfreien, offenen Pfad πxi, der in xi startet und x3−i vermeidet. Es gilt also A2 L ⊂ A2L,0 .Wähle nun L so groß, dass P[A2L,0 ] > 0 ist.<br />
Tritt A 2 L,0 ein und werden alle Kanten in BL geöffnet, so werden mindestens zwei<br />
der unendlich großen, offenen Cluster durch Kanten in BL verbunden, die Gesamt-<br />
zahl der unendlich großen, offenen Cluster also um mindestens Eins verringert. Es<br />
folgt Pp[N 1 L ≤ N 0 L − 1] ≥ Pp[A2 L,0 ] > 0, was einen Widerspruch bedeutet.<br />
3. Schritt Da wir im zweiten Schritt bereits gezeigt haben, dass N fast sicher<br />
keinen endlichen Wert größer als 1 annimmt, brauchen wir nun nur noch zu zeigen,<br />
dass N fast sicher nicht den Wert ∞ annimmt. Wir zeigen hier, dass in der Tat gilt:<br />
Pp[N ≥ 3] = 0. (2.15)<br />
Dieses ist der schwierigste Teil. Wir nehmen an, dass Pp[N ≥ 3] > 0 gilt und<br />
führen dies zum Widerspruch.<br />
Wir nennen einen Punkt x ∈ Z d einen Trifurkationspunkt, falls x in einem unendlich<br />
großen, offenen Cluster C p (x) liegt, genau drei offene Kanten zu x führen und<br />
die Wegnahme dieser drei Kanten C p (x) in drei unendlich große, disjunkte Cluster<br />
zerteilt. Mit T bezeichnen wir die Menge der Trifurkationspunkte und schreiben<br />
TL := T ∩ BL. Seir := Pp[0 ∈ T ]. Aufgrund der Translationsinvarianz gilt<br />
(#BL) −1 Ep[#TL] =r für jedes L.
Sei<br />
A 3 L:=<br />
�<br />
x 1 ,x 2 ,x 3 ∈BL\BL−1<br />
� �<br />
i�=j<br />
2.4 Beispiel: Perkolation 73<br />
{C p (x i ) ∩ C p (x j � �<br />
�3<br />
)=∅} ∩ {#C p (x i �<br />
)=∞}<br />
das Ereignis, dass es drei Punkte auf dem Rand von BL gibt, die in unterschiedlichen,<br />
unendlich großen, offenen Clustern sitzen. Offenbar gilt A3 L ↑{N ≥ 3} für<br />
L →∞.<br />
Analog zu A2 L,0 definieren wir A3 L,0<br />
Rand von BL gibt, die in unterschiedlichen unendlich großen, offenen Clustern sitzen,<br />
wenn wir alle Kanten in KL als geschlossen ansehen. Wie oben ist A3 L ⊂ A3L,0 .<br />
i=1<br />
als das Ereignis, dass es drei Punkte auf dem<br />
Für drei unterschiedliche Punkte x 1 ,x 2 ,x 3 ∈ BL \BL−1 sei F x 1 ,x 2 ,x 3 das Ereignis,<br />
dass es zu jedem i =1, 2, 3 einen unendlich langen selbstüberschneidungsfreien,<br />
offenen Pfad π x i gibt, der in x i startet, nur Kanten aus K p \ KL benutzt und die<br />
anderen xj , j �= i, vermeidet. Dann gilt<br />
A 3 �<br />
L,0 ⊂<br />
x 1 ,x 2 ,x 3 ∈BL\BL−1<br />
paarweise unterschiedlich<br />
F x 1 ,x 2 ,x 3.<br />
Sei L so groß, dass Pp[A 3 L,0 ] ≥ Pp[N ≥ 3]/2 > 0 gilt. Wähle drei unterschiedliche<br />
Punkte x 1 ,x 2 ,x 3 ∈ BL \ BL−1 mit Pp[F x 1 ,x 2 ,x 3] > 0.<br />
Tritt F x 1 ,x 2 ,x 3 ein,sokönnen wir einen Punkt y ∈ BL finden, von dem aus drei<br />
disjunkte (nicht notwendigerweise offene) Pfade π1, π2 und π3 zu den Punkten x 1 ,<br />
x 2 und x 3 führen. Sei G y,x 1 ,x 2 ,x 3 das Ereignis, dass in KL genau diejenigen Kanten<br />
offen sind, die zu diesen Pfaden gehören, und alle anderen geschlossen. Die Ereignisse<br />
F x 1 ,x 2 ,x 3 und G y,x 1 ,x 2 ,x 3 sind unabhängig, und y ist ein Trifurkationspunkt,<br />
falls beide eintreten. Daher ist<br />
r = Pp[y ∈ T ] ≥ Pp[Fx1 ,x2 ,x3] · � p ∧ (1 − p) � #KL<br />
> 0.<br />
Wir zeigen nun, dass r =0sein muss, was die Annahme Pp[N ≥ 3] > 0 ad absurdum<br />
führt. Wir machen die Menge TL zu einem Graphen, indem wir zwei Punkte<br />
x, y ∈ TL als benachbart betrachten, falls es einen offenen Pfad von x nach y gibt,<br />
der keinen anderen Punkt in T trifft. Wir schreiben dann x ∼ y. Eine Schleife ist ein<br />
selbstüberschneidungsfreier, endlicher Pfad, der zu seinem Startpunkt zurückkehrt.<br />
Der Graph (TL, ∼) ist schleifenfrei. In der Tat: gäbe es einen in x ∈ TL startenden<br />
selbstüberschneidungsfreien Pfad, der, sagen wir, die beiden Punkte y, z ∈ TL trifft,<br />
so entstünden durch die Wegnahme der drei Kanten k ∈ Kp , die an x angrenzen,<br />
höchstens zwei Cluster - wobei einer y und z enthält.<br />
Wir schreiben degTL (x) für die Anzahl der Nachbarn von x in TL.DaTL schleifenfrei<br />
ist, ist #TL− 1 �<br />
2 x∈TL degTL (x) die Anzahl der Zusammenhangskomponenten<br />
von TL, also insbesondere nichtnegativ. Andererseits ist 3 − degTL (x) die Anzahl
74 2 Unabhängigkeit<br />
von Kanten k ∈ Kp , die an x angrenzen und deren Wegnahme einen unendlich<br />
großen, offenen Cluster erzeugt, in dem kein weiterer Punkt von TL liegt. Sei ML<br />
die Anzahl der unendlich großen, offenen Cluster, die entstehen, wenn wir von allen<br />
Punkten in TL die drei benachbarten offenen Kanten wegnehmen. Es ist dann<br />
ML = �<br />
(3 − degTL (x)) ≥ #TL.<br />
x∈TL<br />
Zu jedem dieser Cluster gehört aber (mindestens) ein Punkt auf BL \BL−1. Es folgt<br />
#TL<br />
#BL<br />
≤ #(BL \ BL−1)<br />
#BL<br />
≤ d<br />
L<br />
L→∞<br />
−→ 0.<br />
Wegen r =(#BL) −1 E[#TL] ≤ d/L folgt r =0. (Man beachte, dass wir hier im<br />
Vorgriff auf Kapitel 5 den Erwartungswert E[#TL] benutzt haben.) ✷
3 Erzeugendenfunktion<br />
Ein wichtiges Prinzip in der Mathematik ist es, eine Klasse von Objekten, die man<br />
betrachten möchte, in eine andere Klasse von Objekten, mit denen man besser rechnen<br />
kann, hinein abzubilden. Diese Abbildung kann eineindeutig sein, etwa bei der<br />
Zuordnung von Matrizen zu linearen Abbildungen, oder auch nur manche Eigenschaften<br />
eindeutig abbilden, etwa bei Determinanten.<br />
Zu der zweiten Kategorie gehören in der <strong>Wahrscheinlichkeitstheorie</strong> die Kenngrößen<br />
wie Median, Erwartungswert und Varianz von Zufallsvariablen. Zur ersten<br />
Kategorie hingegen charakteristische Funktionen, Laplace-Transformierte und Erzeugendenfunktionen,<br />
die enge Verwandte sind und ihre Nützlichkeit daraus ziehen,<br />
dass Addition von unabhängigen Zufallsvariablen in Multiplikation übergeht. Bevor<br />
wirinspäteren Kapiteln insbesondere die charakteristischen Funktionen ausgiebig<br />
behandeln, wollen wir wichtige Grundideen in der einfacheren Situation der Erzeugendenfunktionen,<br />
deren Anwendung auf N0-wertige Zufallsvariablen beschränkt<br />
ist, kennen lernen.<br />
3.1 Definition und Beispiele<br />
Definition 3.1 (Erzeugendenfunktion). Sei X eine N0-wertige Zufallsvariable.<br />
Die Abbildung ψPX = ψX, die erklärt wird durch<br />
ψX :[0, 1] → [0, 1], z ↦→<br />
∞�<br />
P[X = n] z n , (3.1)<br />
n=0<br />
heißt Erzeugendenfunktion von PX (oder etwas lax: von X).<br />
Satz 3.2. (i) ψX ist stetig und in (0, 1) unendlich oft stetig differenzierbar. Es<br />
gilt für n ∈ N und die n-te Ableitung ψ (n)<br />
X<br />
lim ψ<br />
z↑1 (n)<br />
X<br />
(z) =<br />
∞�<br />
P[X = k] · k(k − 1) ···(k − n +1), (3.2)<br />
k=n<br />
wobei beide Seiten =+∞ sein können.
76 3 Erzeugendenfunktion<br />
(ii) Die Verteilung PX von X ist durch ψX eindeutig charakterisiert.<br />
(iii) ψX ist durch die Angabe von abzählbar vielen Werten ψX(xi), xi ∈ [0, 1],<br />
i ∈ N, eindeutig festgelegt. Konvergiert die Reihe in (3.1) auch für ein z>1,<br />
so gilt<br />
lim X (z) =ψ(n)<br />
X (1) < ∞ für n ∈ N,<br />
z↑1 ψ (n)<br />
und ψX ist durch Angabe von ψ (n)<br />
X (1), n ∈ N, eindeutig charakterisiert.<br />
Beweis. Das folgt aus der elementaren Theorie der Potenzreihen. ✷<br />
Satz 3.3 (Multiplikativität der Erzeugendenfunktion). Sind X1,...,Xn unabhängig<br />
und N0-wertig, so ist<br />
n�<br />
ψX1+...+Xn =<br />
i=1<br />
ψXi .<br />
Beweis. Für z ∈ [0, 1) können wir ψX1 (z) ψX2 (z) als Cauchy-Produkt schreiben<br />
�<br />
∞�<br />
ψX1 (z) ψX2 (z) = P[X1 = n] z n<br />
��<br />
∞�<br />
P[X2 = n] z n<br />
�<br />
=<br />
=<br />
=<br />
n=0<br />
n=0<br />
∞�<br />
z n<br />
�<br />
n�<br />
�<br />
P[X1 = m] P[X2 = n − m]<br />
n=0<br />
∞�<br />
z n<br />
n=0<br />
∞�<br />
n=0<br />
m=0<br />
n�<br />
P[X1 = m, X2 = n − m]<br />
m=0<br />
P[X1 + X2 = n] z n = ψX1+X2 (z).<br />
Induktiv folgt die Aussage für jedes n ≥ 2. ✷<br />
Beispiel 3.4. (i) Sei Xbn,p-verteilt für gewisse n ∈ N und p ∈ [0, 1]. Dannist<br />
ψX(z) =<br />
n�<br />
m=0<br />
� �<br />
n<br />
p<br />
m<br />
m (1 − p) n−m z m = � pz +(1−p) �n . (3.3)<br />
(ii) Sind X, Y unabhängig und bm,p beziehungsweise bn,p-verteilt, so ist nach<br />
Satz 3.3<br />
ψX+Y (z) = � pz +(1−p) �m � �n pz +(1−p) � �m+n. = pz +(1−p) Also ist nach Satz 3.2(ii) X + Ybm+n,p-verteilt und damit (nach Satz 2.31)
m,p ∗ bn,p = bm+n,p.<br />
3.1 Definition und Beispiele 77<br />
(iii) Seien X und Y unabhängig und Poisson-verteilt mit Parametern λ ≥ 0 und<br />
μ ≥ 0, also P[X = n] =e −λ λ n /n! für n ∈ N0. Dannist<br />
ψPoiλ (z) =<br />
∞�<br />
n=0<br />
Also hat X + Y die Erzeugendenfunktion<br />
−λ (λz)n<br />
e<br />
n! = eλ(z−1) . (3.4)<br />
ψPoiλ (z) · ψPoiμ (z) =eλ(z−1) e μ(z−1) = ψPoiλ+μ (z),<br />
und daher ist X + Y ∼ Poiλ+μ. Es folgt<br />
Poiλ ∗ Poiμ =Poiλ+μ. (3.5)<br />
(iv) Seien X1,...,Xn ∼ γp unabhängig und geometrisch verteilt mit Parameter<br />
p ∈ (0, 1). Wir setzen Y = X1 + ...+ Xn.Esistfür z ∈ [0, 1]<br />
ψX1 (z) =<br />
∞�<br />
k=0<br />
p(1 − p) k z k =<br />
p<br />
. (3.6)<br />
1 − (1 − p)z<br />
Nach der verallgemeinerten binomischen Formel (siehe Lemma 3.5 mit α = −n),<br />
Satz 3.3 und (3.6) ist<br />
ψY (z) =ψX1 (z)n p<br />
=<br />
n<br />
(1 − (1 − p)z) n<br />
∞�<br />
= p n<br />
� �<br />
−n<br />
(−1)<br />
k<br />
k (1 − p) k z k<br />
=<br />
k=0<br />
∞�<br />
b − n,p({k}) z k ,<br />
k=0<br />
wobei für beliebiges r ∈ (0, ∞) und p ∈ (0, 1]<br />
b − r,p =<br />
∞�<br />
k=0<br />
� �<br />
−r<br />
(−1)<br />
k<br />
k p r (1 − p) k δk<br />
(3.7)<br />
die negative Binomialverteilung mit Parametern r und p ist. Nach dem Eindeutigkeitssatz<br />
für Erzeugendenfunktionen ist damit Y ∼ b− n,p, also (siehe Definition 2.29<br />
für die n-te Faltungspotenz) b− n,p = γ∗n p . ✸<br />
Lemma 3.5 (Verallgemeinerter binomischer Lehrsatz). Für α ∈ R und k ∈ N0<br />
definieren wir den Binomialkoeffizienten
78 3 Erzeugendenfunktion<br />
� �<br />
α<br />
:=<br />
k<br />
Es gilt die erweiterte binomische Formel:<br />
Speziell gilt<br />
(1 + x) α =<br />
1<br />
√ 1 − x =<br />
∞�<br />
n=0<br />
∞�<br />
k=0<br />
α · (α − 1) ···(α − k +1)<br />
. (3.8)<br />
k!<br />
� �<br />
α<br />
x<br />
k<br />
k<br />
� �<br />
2n<br />
4<br />
n<br />
−n x n<br />
für jedes x ∈ C mit |x| < 1. (3.9)<br />
für jedes x ∈ C mit |x| < 1. (3.10)<br />
Beweis. Die Abbildung f : x ↦→ (1 + x) α ist holomorph bis auf eventuell eine<br />
Singularität bei x = −1, ist also um 0 in eine Potenzreihe entwickelbar mit Radius<br />
mindestens 1:<br />
f(x) =<br />
∞�<br />
k=0<br />
f (k) (0)<br />
k!<br />
x k<br />
für |x| < 1.<br />
Für k ∈ N0 ist die k-te Ableitung f (k) (0) = α(α − 1) ···(α − k +1), also folgt<br />
(3.9).<br />
Der Zusatz folgt, weil für α = −1/2 gilt, dass � � � � −1/2 2n −n<br />
n = n (−4) . ✷<br />
Übung 3.1.1. Man zeige b − r,p ∗ b − s,p = b − r+s,p für r, s ∈ (0, ∞) und p ∈ (0, 1]. ♣<br />
3.2 Poisson-Approximation<br />
Lemma 3.6. Seien μ und (μn)n∈N W-Maße auf (N0, 2N0 ) mit Erzeugendenfunktionen<br />
ψμ und ψμn ,n∈ N. Dann sind äquivalent<br />
(i) μn({k}) n→∞<br />
−→ μ({k}) für jedes k ∈ N0,<br />
(ii) μn(A) n→∞<br />
−→ μ(A) für jedes A ⊂ N0,<br />
(iii) ψn(z) n→∞<br />
−→ ψ(z) für jedes z ∈ [0, 1],<br />
(iv) ψn(z) n→∞<br />
−→ ψ(z) für jedes z ∈ [0,η) für ein η>0.<br />
Gilt eine der vier Bedingungen, so schreiben wir μn<br />
konvergiere schwach gegen μ.<br />
n→∞<br />
−→ μ und sagen (μn)n∈N<br />
Beweis. (i) =⇒ (ii) Sei ε>0 und N ∈ N so gewählt, dass μ({N +1,N +<br />
2,...}) < ε<br />
4 .Für hinreichend großes n0 ∈ N ist ferner
N� �<br />
�μn({k}) − μ({k}) � �<br />
ε<br />
<<br />
4<br />
k=0<br />
3.2 Poisson-Approximation 79<br />
für jedes n ≥ n0.<br />
Speziell ist für n ≥ n0 auch μn({N +1,N +2,...}) < ε<br />
2 .Alsoistfür n ≥ n0<br />
�<br />
�μn(A) − μ(A) � � ≤ μn({N +1,N +2,...})+μ({N +1,N +2,...})<br />
n). Für jedes n ∈ N sei (Xn,k)k∈N eine unabhängige<br />
Familie von Zufallsvariablen mit Xn,k ∼ Berpn,k . Setze<br />
S n :=<br />
∞�<br />
l=1<br />
Xn,l und S n k :=<br />
k�<br />
Xn,l für k ∈ N.<br />
Satz 3.7 (Poisson-Approximation). Unter den obigen Annahmen konvergieren<br />
die Verteilungen (PS n)n∈N schwach gegen die Poisson-Verteilung Poiλ.<br />
Beweis. Die Poisson-Verteilung hat die Erzeugendenfunktion ψ(z) =eλ(z−1) (siehe<br />
(3.4)). Andererseits sind Sn − Sn k und Sn k unabhängig für jedes k ∈ N, also<br />
.Nunistfür jedes z ∈ [0, 1]<br />
ψS n = ψS n k · ψS n −S n k<br />
1 ≥<br />
ψS n(z)<br />
l=1<br />
ψS n k (z) = ψS n −S n k (z) ≥ 1 − P[Sn − S n k ≥ 1] ≥ 1 −<br />
∞�<br />
l=k+1<br />
pn,l<br />
k→∞<br />
−→ 1,
80 3 Erzeugendenfunktion<br />
also<br />
ψSn(z) = lim<br />
k→∞ ψSn(z) =<br />
k<br />
∞�<br />
l=1<br />
=exp<br />
(pn,lz +(1− pn,l))<br />
� ∞�<br />
l=1<br />
log � 1+pn,l(z − 1) ��<br />
.<br />
Für |x| < 1<br />
2 ist | log(1 + x) − x| ≤x2 . Nach Voraussetzung gilt max<br />
l∈N pn,l → 0 für<br />
n →∞, also ist für hinreichend großes n<br />
��<br />
� �∞<br />
�<br />
� log<br />
l=1<br />
� 1+pn,l(z − 1) ��<br />
� ∞�<br />
��<br />
���<br />
− (z − 1) pn,l<br />
l=1<br />
∞�<br />
≤ p 2 �<br />
∞�<br />
�<br />
n→∞<br />
n,l ≤<br />
−→ 0.<br />
Zusammen mit (3.11) folgt<br />
lim ψSn(z) = lim<br />
n→∞ n→∞ exp<br />
3.3 Verzweigungsprozesse<br />
l=1<br />
l=1<br />
�<br />
∞�<br />
(z − 1)<br />
l=1<br />
pn,l<br />
pn,l<br />
max<br />
l∈N pn,l<br />
�<br />
= e λ(z−1) . ✷<br />
Seien T,X1,X2,...unabhängige, N0-wertige Zufallsvariablen. Wie sieht die Verteilung<br />
von S := �T n=1 Xn aus? Zunächst bemerken wir, dass S messbar ist, denn<br />
∞�<br />
{S = k} = {T = n}∩{X1 + ...+ Xn = k}.<br />
n=0<br />
Satz 3.8. Sind die X1,X2,...zusätzlich identisch verteilt, so ist die Erzeugendenfunktion<br />
von S gegeben durch ψS(z) =ψT (ψX1 (z)).<br />
Beweis.<br />
ψS(z) =<br />
=<br />
=<br />
∞�<br />
P[S = k] z k<br />
k=0<br />
∞�<br />
k=0 n=0<br />
∞�<br />
n=0<br />
∞�<br />
P[T = n] P[X1 + ...+ Xn = k] z k<br />
P[T = n] ψX1 (z)n �<br />
= ψT ψX1 (z)� . ✷
3.3 Verzweigungsprozesse 81<br />
Wir nehmen jetzt an, dass p0,p1,p2,... ∈ [0, 1] sind mit � ∞<br />
k=0 pk = 1.Sei<br />
(Xn,i)n,i∈N0 eine unabhängige Familie von Zufallsvariablen mit P[Xn,i = k] =pk<br />
für jedes k ∈ N0 und jedes i ∈ N.<br />
Setze Z0 =1und<br />
Zn =<br />
Zn−1 �<br />
i=1<br />
Xn−1,i für n ∈ N.<br />
Wir geben die folgende Interpretation an: Zn ist die Anzahl von Individuen in der<br />
n-ten Generation einer sich zufällig entwickelnden Population. Das i-te Individuum<br />
aus der n-ten Generation hat Xn,i Nachkommen (in der (n +1)-ten Generation).<br />
Definition 3.9. (Zn)n∈N0 heißt Galton-Watson-Prozess oder Verzweigungsprozess<br />
mit Nachkommenverteilung (pk)k∈N0 .<br />
Ein wichtiges Hilfsmittel bei der Untersuchung von Verzweigungsprozessen sind<br />
Erzeugendenfunktionen. Sei also<br />
ψ(z) =<br />
∞�<br />
k=0<br />
pk z k<br />
die Erzeugendenfunktion der Nachkommenverteilung und ψ ′ deren Ableitung. Wir<br />
definieren die n-te Iterierte von ψ durch<br />
ψ1 := ψ, ψn := ψ ◦ ψn−1 für n =2, 3,...<br />
Sei schließlich ψZn die Erzeugendenfunktion von Zn.<br />
Lemma 3.10. Es gilt ψn = ψZn<br />
für jedes n ∈ N.<br />
Beweis. Für n =1ist dies per Definition richtig. Für n ∈ N folgt mit Satz 3.8<br />
induktiv ψZn+1 = ψ ◦ ψZn = ψ ◦ ψn = ψn+1. ✷<br />
Offenbar ist die Wahrscheinlichkeit qn := P[Zn =0],dassZ zur Zeit n schon<br />
ausgestorben ist, wachsend in n. Wir bezeichnen mit<br />
q := lim<br />
n→∞ P[Zn =0]<br />
die Aussterbewahrscheinlichkeit.<br />
Unter welchen Bedingungen ist q =0, q =1, oder q ∈ (0, 1)? Offenbar ist q ≥ p0.<br />
Ist andererseits p0 =0,soistZn wachsend in n, also q =0.
82 3 Erzeugendenfunktion<br />
Satz 3.11 (Aussterbewahrscheinlichkeit des Galton-Watson-Prozesses).<br />
Sei p1 �= 1.<br />
(i) Es gilt {r ∈ [0, 1] : ψ(r) =r} = {q, 1}.<br />
(ii) Es gelten die Äquivalenzen<br />
q 1 ⇐⇒<br />
∞�<br />
kpk > 1.<br />
Beweis. ψ ist strikt konvex und monoton wachsend und ψ(1) = 1. Istlim ψ<br />
z↑1 ′ (z) ≤<br />
1, soistψ(z) >zfür jedes z ∈ [0, 1). Istlim ψ<br />
z↑1 ′ (z) > 1, so gibt es genau ein<br />
r ∈ [0, 1) mit ψ(r) =r. Offenbar ist<br />
q =0 ⇐⇒ p0 =0 ⇐⇒ ψ(0) = 0 ⇐⇒ ψ(z) 0 angenommen. Offenbar gilt<br />
qn = ψn(0) = ψ(qn−1).<br />
Wir wissen, dass qn ↑ q. Daψ stetig ist, gilt<br />
k=1<br />
ψ(q) =ψ( lim<br />
n→∞ qn) = lim<br />
n→∞ ψ(qn) = lim<br />
n→∞ qn+1 = q.<br />
Also ist q ein Fixpunkt von ψ, und wir müssen im Fall ψ ′ (1) > 1 noch ausschließen,<br />
dass q =1ist. Ist r = ψ(r), soistr≥ ψ(0) = q0, also r = ψ(r) ≥ ψ(q0) =q1<br />
und induktiv r ≥ qn für jedes n ∈ N0, also r ≥ q. Mithin ist q die kleinste Lösung<br />
in [0, 1] von ψ(r) =r.<br />
Die zweite Äquivalenz in (ii) folgt aus (3.2). ✷
4 Das Integral<br />
Nach dem Begriff des Maßraums und der messbaren Abbildung ist das Integral<br />
messbarer reeller Abbildungen bezüglich allgemeiner Maße, nicht nur des<br />
Lebesgue-Maßes, wie es in den meisten Analysis-Vorlesungen behandelt wird, ein<br />
Eckstein der systematischen <strong>Wahrscheinlichkeitstheorie</strong>, der es uns beispielsweise<br />
erlaubt, Erwartungswerte und höhere Momente zu definieren.<br />
In diesem Kapitel definieren wir das Integral durch Approximation mit Elementarfunktionen<br />
und leiten einfache Eigenschaften her wie das Lemma von Fatou. Die<br />
anderen Konvergenzsätze für Integrale folgen in den Kapiteln 6 und 7.<br />
4.1 Konstruktion und einfache Eigenschaften<br />
Sei im Folgenden stets (Ω,A,μ) ein Maßraum. Wir bezeichnen mit E den Vektorraum<br />
der Elementarfunktionen (siehe Definition 1.93) auf (Ω,A) und mit E + :=<br />
{f ∈ E : f ≥ 0} den Kegel (woher der Name?) der nichtnegativen Elementarfunktionen.<br />
Gilt<br />
m�<br />
f = αi Ai (4.1)<br />
i=1<br />
für gewisses m ∈ N und für α1,...,αm ∈ (0, ∞) sowie paarweise disjunkte Mengen<br />
A1,...,Am ∈A, so sagen wir, dass (4.1) eine Normaldarstellung der Elementarfunktion<br />
f ist.<br />
Lemma 4.1. Sind f = �m i=1 αi Ai und f = �n j=1 βj Bj<br />
lungen von f ∈ E + , so gilt<br />
m�<br />
αi μ(Ai) =<br />
i=1<br />
n�<br />
βj μ(Bj).<br />
j=1<br />
zwei Normaldarstel-<br />
Beweis. Ist μ(Ai ∩ Bj) > 0 für gewisse i und j, soistAi∩Bj �= ∅, und für jedes<br />
ω ∈ Ai ∩ Bj ist f(ω) =αi = βj. Außerdem ist offenbar Ai ⊂ �n j=1 Bj, falls<br />
αi �= 0und Bj ⊂ �m i=1 Ai, falls βj �= 0. Es folgt
84 4 Das Integral<br />
m�<br />
m� n�<br />
αi μ(Ai) = αi μ(Ai ∩ Bj)<br />
i=1<br />
=<br />
i=1 j=1<br />
m�<br />
i=1 j=1<br />
n�<br />
βj μ(Ai ∩ Bj) =<br />
n�<br />
βj μ(Bj). ✷<br />
Dieses Lemma erlaubt uns, die folgende Definition zu treffen (weil der definierte<br />
Wert I(f) von der gewählten Normaldarstellung nicht abhängt).<br />
Definition 4.2. Wir definieren eine Abbildung I : E + → [0, ∞] durch<br />
I(f) =<br />
m�<br />
i=1<br />
αi μ(Ai),<br />
falls f die Normaldarstellung f = � m<br />
i=1 αi Ai hat.<br />
Lemma 4.3. Die Abbildung I ist positiv linear und monoton: Seien f,g ∈ E + und<br />
α ≥ 0. Dann gelten die folgenden Aussagen.<br />
(i) I(αf) =αI(f).<br />
(ii) I(f + g) =I(f)+I(g).<br />
(iii) Ist f ≤ g,soistI(f) ≤ I(g).<br />
Beweis. Übung. ✷<br />
Definition 4.4 (Integral). Ist f : Ω → [0, ∞] messbar, so definieren wir das Integral<br />
von f bezüglich μ durch<br />
�<br />
fdμ:= sup � I(g) : g ∈ E + ,g≤ f � .<br />
Bemerkung 4.5. Nach Lemma 4.3(iii) ist I(f) = � fdμfür jedes f ∈ E + .Also<br />
ist das Integral eine Fortsetzung der Abbildung I von E + auf die Menge der nichtnegativen<br />
messbaren Funktionen. ✸<br />
Sind f,g : Ω → R Abbildungen, so schreiben wir f ≤ g, falls f(ω) ≤ g(ω)<br />
für jedes ω ∈ Ω gilt. Analog verwenden wir die Schreibweise f ≥ 0 und so fort.<br />
Hingegen schreiben wir ” f ≤ g fast überall“, falls die schwächere Bedingung gilt,<br />
dass eine μ-Nullmenge N existiert mit f(ω) ≤ g(ω) für jedes ω ∈ N c .<br />
j=1
4.1 Konstruktion und einfache Eigenschaften 85<br />
Lemma 4.6. Seien f,g,f1,f2,...messbare Abbildungen Ω → [0, ∞]. Dann gilt<br />
(i) (Monotonie) Ist f ≤ g, dann ist � fdμ≤ � gdμ.<br />
(ii) (Monotone Konvergenz) Gilt fn ↑ f, dann konvergieren auch die Integrale<br />
� fn dμ ↑ � fdμ.<br />
(iii) (Linearität) Sind α, β ∈ [0, ∞], so gilt<br />
�<br />
�<br />
(αf + βg) dμ = α<br />
wobei wir die Konvention ∞·0:=0benutzen.<br />
�<br />
fdμ+ β<br />
Beweis. (i) Dies folgt direkt aus der Definition des Integrals.<br />
(ii) Nach (i) gilt<br />
�<br />
lim<br />
n→∞<br />
�<br />
fn dμ =sup<br />
n∈N<br />
gdμ,<br />
�<br />
fn dμ ≤ fdμ.<br />
Wir müssen also nur noch � �<br />
fdμ≤ sup fn dμ zeigen.<br />
n∈N<br />
Sei g ∈ E + mit g ≤ f. Es reicht zu zeigen, dass<br />
� �<br />
sup<br />
n∈N<br />
fn dμ ≥ gdμ. (4.2)<br />
Die Elementarfunktion g habe die Normaldarstellung g = �N i=1 αi Ai , wobei<br />
α1,...,αN ∈ (0, ∞) sind und A1,...,AN ∈Apaarweise disjunkt sind. Für jedes<br />
ε>0 und n ∈ N definieren wir die Menge<br />
B ε n = {fn ≥ (1 − ε) g}.<br />
Wegen fn ↑ f ≥ g gilt Bε n ↑ Ω für jedes ε>0. Also gilt nach (i) für ε>0<br />
� �<br />
�(1<br />
fn dμ ≥ − ε) g Bε �<br />
dμ n<br />
=<br />
N�<br />
(1 − ε) αi μ(Ai ∩ B<br />
i=1<br />
ε n)<br />
n→∞<br />
−→<br />
N�<br />
�<br />
(1 − ε) αi μ(Ai) = (1−ε) gdμ.<br />
i=1<br />
Da ε>0 beliebig war, folgt (4.2) und damit die Aussage (ii).<br />
(iii) Nach Satz 1.96 ist jede nichtnegative messbare Abbildung monotoner Limes<br />
von Elementarfunktionen. Es gibt also Folgen (fn)n∈N und (gn)n∈N in E + mit
86 4 Das Integral<br />
fn ↑ f und gn ↑ g. Es gilt dann aber auch (αfn + βgn) ↑ αf + βg. Nach (ii)<br />
und Lemma 4.3 gilt daher<br />
�<br />
�<br />
(αf + βg) dμ = lim<br />
n→∞<br />
(αfn + βgn) dμ<br />
�<br />
�<br />
� �<br />
= α lim<br />
n→∞<br />
fn dμ + β lim<br />
n→∞<br />
gn dμ = α fdμ+ β gdμ. ✷<br />
Für messbares f : Ω → R ist f + ≤|f| und f − ≤|f|, also gilt auch � f ± dμ ≤<br />
� |f| dμ. Ist speziell � |f| dμ < ∞, so ist auch � f − dμ < ∞ und � f + dμ < ∞.<br />
Daher können wir die folgende Definition treffen, die abschließend das Integral für<br />
messbare Funktionen erklärt.<br />
Definition 4.7 (Integral für messbare Funktionen). Eine messbare Funktion<br />
f : Ω → R heißt μ-integrierbar, falls � |f| dμ < ∞. Wir schreiben<br />
L 1 (μ) :=L 1 �<br />
(Ω,A,μ):= f : Ω → R : f ist messbar und � �<br />
|f| dμ < ∞ .<br />
Für f ∈L1 (μ) definieren wir das Integral von f bezüglich μ durch<br />
�<br />
� �<br />
f(ω) μ(dω) := fdμ:= f + �<br />
dμ − f − dμ. (4.3)<br />
Ist lediglich � f − dμ < ∞ oder � f + dμ < ∞,sodefinieren wir ebenfalls � fdμ<br />
durch (4.3), wobei wir dann die Werte +∞ beziehungsweise −∞ zulassen.<br />
� �<br />
Ist A ∈A, so schreiben wir fdμ:= (f A) dμ.<br />
Satz 4.8. Sei f : Ω → [0, ∞] messbar.<br />
A<br />
(i) Es ist f =0 fast überall genau dann, wenn � fdμ=0gilt.<br />
(ii) Ist � fdμ
4.1 Konstruktion und einfache Eigenschaften 87<br />
(ii) Sei A = {ω : f(ω) =∞}. Für n ∈ N ist 1<br />
n f {f≥n} ≥ {f≥n}, also nach<br />
Lemma 4.6(i)<br />
� �<br />
μ(A) = A dμ ≤<br />
{f≥n} dμ ≤ 1<br />
�<br />
n<br />
f {f≥n} dμ ≤ 1<br />
�<br />
n<br />
Satz 4.9 (Eigenschaften des Integrals). Seien f,g ∈L 1 (μ).<br />
(i) (Monotonie) Ist f ≤ g fast überall, so ist � fdμ≤ � gdμ.<br />
Ist speziell f = g fast überall, so ist � fdμ= � gdμ.<br />
(ii) (Dreiecksungleichung) Es gilt stets � � � fdμ � � ≤ � |f| dμ.<br />
(iii) (Linearität) Sind α, β ∈ R, dann ist αf + βg ∈L1 (μ) und<br />
�<br />
� �<br />
(αf + βg) dμ = α fdμ+ β gdμ.<br />
fdμ n→∞<br />
−→ 0. ✷<br />
Diese Gleichung gilt auch, wenn höchstens eines der Integrale � fdμund<br />
� gdμeinen der Werte ±∞ annimmt.<br />
Beweis. (i) Es gilt f + ≤ g + und f − ≥ g − f.ü., also ist nach Lemma 4.6(i)<br />
�<br />
Es folgt<br />
�<br />
fdμ =<br />
f + dμ ≤<br />
�<br />
�<br />
f + �<br />
dμ −<br />
g + dμ und<br />
f − dμ ≤<br />
�<br />
�<br />
f − dμ ≥<br />
g + �<br />
dμ −<br />
�<br />
g − dμ.<br />
g − dμ =<br />
(ii) Wegen f + + f − = |f| ist nach Lemma 4.6(iii)<br />
� �<br />
�<br />
�<br />
� � �<br />
� �<br />
fdμ�<br />
= � f + �<br />
dμ − f − � �<br />
�<br />
dμ�<br />
≤ f + �<br />
dμ + f − dμ<br />
�<br />
gdμ.<br />
�<br />
�f + −<br />
= + f � �<br />
dμ = |f| dμ.<br />
(iii) Wegen |αf + βg| ≤ |α| ·|f| + |β| ·|g| ist nach Lemma 4.6(i) und (iii)<br />
auch αf + βg ∈L 1 (μ). Um die Linearität zu zeigen, reicht es die drei folgenden<br />
Eigenschaften zu prüfen.<br />
(a) � (f + g) dμ = � fdμ+ � gdμ.<br />
(b) Für α ≥ 0 ist � αf dμ = α � fdμ.<br />
(c) � (−f) dμ = − � fdμ.
88 4 Das Integral<br />
Zu (a): Es ist (f + g) + − (f + g) − = f + g = f + − f − + g + − g− , also ist<br />
(f + g) + + f − + g− =(f + g) − + f + + g + . Nach Lemma 4.6(iii) gilt<br />
�<br />
(f + g) + �<br />
dμ + f − �<br />
dμ + g − �<br />
dμ = (f + g) − �<br />
dμ + f + �<br />
dμ + g + dμ,<br />
also ist<br />
�<br />
�<br />
(f + g) dμ =<br />
�<br />
=<br />
�<br />
=<br />
Zu (b):<br />
�<br />
Für α ≥ 0 ist<br />
�<br />
αf dμ = αf + �<br />
dμ −<br />
Zu (c): Es ist<br />
�<br />
�<br />
(−f) dμ =<br />
�<br />
=<br />
(f + g) + �<br />
dμ − (f + g) − dμ<br />
f + �<br />
dμ − f − �<br />
dμ + g + �<br />
dμ −<br />
fdμ+ gdμ.<br />
αf − �<br />
dμ = α<br />
f + �<br />
dμ − α<br />
(−f) + �<br />
dμ − (−f) − dμ<br />
f − �<br />
dμ − f + �<br />
dμ = −<br />
�<br />
g − dμ<br />
f − �<br />
dμ = α<br />
fdμ.<br />
fdμ.<br />
Der Zusatz ist simpel und verbleibt zur Übung. ✷<br />
Satz 4.10 (Bildmaß). Seien (Ω,A) und (Ω ′ , A ′ ) Messräume, μ ein Maß auf (Ω,A)<br />
und X : Ω → Ω ′ messbar. Sei μ ′ = μ ◦ X −1 das Bildmaß von μ unter X und<br />
f : Ω ′ → R integrierbar bezüglich μ ′ . Dann ist f ◦ X ∈L1 (μ) und<br />
�<br />
�<br />
(f ◦ X) dμ = fd(μ◦ X −1 ).<br />
Ist speziell X eine Zufallsvariable auf (Ω,A, P),soist<br />
�<br />
�<br />
� �<br />
f(x) P[X ∈ dx] := f(x) PX[dx] = fdPX = f(X(ω)) P[dω].<br />
Beweis. Übung! ✷<br />
Beispiel<br />
�<br />
4.11 (Diskreter Maßraum). Sei (Ω,A) ein diskreter Messraum und μ =<br />
αωδω für gewisse Zahlen αω ≥ 0, ω ∈ Ω. Eine Abbildung f : Ω → R ist<br />
ω∈Ω<br />
genau dann integrierbar, wenn �<br />
|f(ω)| αω < ∞ ist. In diesem Fall gilt<br />
ω∈Ω<br />
�<br />
fdμ= �<br />
f(ω) αω. ✸<br />
ω∈Ω
4.1 Konstruktion und einfache Eigenschaften 89<br />
Definition 4.12 (Lebesgue-Integral). Sei λ das Lebesgue-Maß auf R n und f :<br />
R n → R messbar bezüglich B ∗ (R n ) – B(R) (wobei B ∗ (R n ) die Lebesgue’sche<br />
σ-Algebra ist, siehe Beispiel 1.71) und λ-integrierbar. Dann nennen wir<br />
�<br />
fdλ<br />
das Lebesgue-Integral von f. IstA∈B(Rn ) und f : Rn → R messbar (oder<br />
f : A → R messbar bezüglich B∗ (Rn ) � � – B(R) und damit f A messbar bezüglich<br />
A<br />
B ∗ (R n ) – B(R)), so schreiben wir<br />
�<br />
A<br />
�<br />
fdλ:= f A dλ.<br />
Definition 4.13. Sei μ ein Maß auf (Ω,A) und f : Ω → [0, ∞) messbar. Wir sagen,<br />
dass das durch<br />
�<br />
ν(A) := ( A f) dμ für A ∈A<br />
definierte Maß fμ := ν die Dichte f bezüglich μ hat.<br />
Bemerkung 4.14. Wir müssen noch zeigen, dass ν ein Maß ist und prüfen hierzu<br />
die Bedingung von Satz 1.36 nach. Offenbar ist ν(∅) =0. Endliche Additivität folgt<br />
aus der Additivität des Integrals (Lemma 4.6(iii)) und Stetigkeit von unten aus dem<br />
Satz von der monotonen Konvergenz (Satz 4.20). ✸<br />
Satz 4.15. Es ist g ∈L1 (fμ) genau dann, wenn (gf) ∈L1 (μ). In diesem Fall gilt<br />
�<br />
�<br />
gd(fμ)= (gf) dμ.<br />
Beweis. Die Aussage gilt zunächst für Indikatorfunktionen und wird dann mit den<br />
üblichen Argumenten auf Elementarfunktionen, nichtnegative Funktionen sowie<br />
schließlich auf messbare Funktionen fortgesetzt. ✷<br />
Definition 4.16. Für messbares f : Ω → R definieren wir<br />
��<br />
�f�p := |f| p �1/p dμ , falls p ∈ [1, ∞),<br />
und<br />
�f�∞ := inf � K ≥ 0:μ({|f| >K}) =0 � .<br />
Ferner definieren wir für jedes p ∈ [1, ∞] den Vektorraum<br />
L p �<br />
�<br />
(μ) := f : Ω → R ist messbar und �f�p < ∞ .
90 4 Das Integral<br />
Satz 4.17. Die Abbildung � · �1 ist eine Pseudonorm auf L 1 (μ), das heißt, es gilt<br />
für f,g ∈L 1 (μ) und α ∈ R<br />
�αf�1 = |α|·�f�1<br />
�f + g�1 ≤�f�1 + �g�1<br />
�f�1 ≥ 0 für alle f und �f�1 =0, falls f =0 f.ü.<br />
(4.4)<br />
Beweis. Die erste und dritte Aussage folgen aus Satz 4.9(iii) und Satz 4.8(i). Die<br />
zweite folgt aus Satz 4.9(i), denn es ist |f + g| ≤|f| + |g|, also<br />
�<br />
� �<br />
�f + g�1 = |f + g| dμ ≤ |f| dμ + |g| dμ = �f�1 + �g�1. ✷<br />
Bemerkung 4.18. Tatsächlich ist � · �p für jedes p ∈ [1, ∞] eine Pseudonorm auf<br />
L p (μ). Linearität und Positivität sind klar, und die Dreiecksungleichung ist die Minkowski’sche<br />
Ungleichung, die wir in Satz 7.17 zeigen werden. ✸<br />
Satz 4.19. Seien μ(Ω) < ∞ und 1 ≤ p ′ ≤ p ≤∞. Dann ist Lp (μ) ⊂Lp′ (μ), und<br />
die kanonische Inklusion i : Lp (μ) ↩→ Lp′ (μ), f ↦→ f ist stetig.<br />
Beweis. Sei f ∈L∞ (μ) und p ′ ∈ [1, ∞). Dannist|f| p′<br />
�<br />
|f| p′<br />
�<br />
dμ ≤<br />
�f� p′<br />
∞ dμ = �f� p′<br />
∞ · μ(Ω) < ∞.<br />
≤�f� p′<br />
∞ fast überall, also<br />
Für f,g ∈L∞ (μ) ist also �f − g�p ′ ≤ μ(Ω)1/p′ �f − g�∞ und damit ist i stetig.<br />
Seien nun p, p ′ ∈ [1, ∞) mit p ′ 0 ist<br />
|f − g| p′<br />
= |f − g| p′<br />
{|f−g|≤c} + |f − g| p′<br />
Speziell erhalten wir mit c = �f − g�p<br />
{|f−g|>c} ≤ c p′<br />
+ c p′ −p p<br />
|f − g| .<br />
�<br />
�f − g�p ′ ≤ c p′<br />
μ(Ω)+c p′ � ′<br />
1/p<br />
−p p<br />
�f − g�p =(1+μ(Ω)) 1/p′<br />
�f − g�p.<br />
Also ist i auch in diesem Falle stetig. ✷<br />
Übung 4.1.1 (Folgenräume). Wir nehmen jetzt nicht mehr an, dass μ(Ω) < ∞ ist.<br />
Man zeige: Gibt es ein a>0, sodass für jedes A ∈Aentweder μ(A) =0oder<br />
μ(A) ≥ a gilt, so gilt die zu Satz 4.19 umgekehrte Inklusion<br />
L p′<br />
(μ) ⊂L p (μ), falls 1 ≤ p ′ ≤ p ≤∞. (4.5)<br />
♣
4.2 Monotone Konvergenz und Lemma von Fatou 91<br />
Übung 4.1.2. Sei 1 ≤ p ′
92 4 Das Integral<br />
Beispiel 4.22 (Petersburger Spiel). Wir wollen durch ein Beispiel zeigen, dass auf<br />
die Voraussetzung der Existenz einer integrierbaren Minorante im Lemma von Fatou<br />
nicht verzichtet werden kann. Wir betrachten ein Glücksspiel in einem Casino,<br />
bei dem in jeder Runde ein vom Spieler gewählter Einsatz entweder verdoppelt<br />
zurückgezahlt wird oder verloren geht. Dies ist etwa beim Roulette der Fall, wo der<br />
Spieler zum Beispiel auf Rot“ setzen kann. Kommt eine rote Zahl, so gewinnt der<br />
”<br />
Spieler seinen Einsatz verdoppelt zurück, ansonsten verliert er ihn. Es gibt 37 Felder,<br />
von denen 18 rot sind und 18 schwarz, sowie die Null, die grün ist. Die Gewinnchance<br />
sollte also p = 18 1<br />
37 < 2 betragen. Dieses Glücksspiel werde unendlich oft unabhängig<br />
hintereinander ausgeführt. Wir können es also auf einem Wahrscheinlichkeitsraum<br />
(Ω,A, P) realisieren, wobei (Ω = {−1, 1} N , A =(2 {−1,1} ) ⊗N die von<br />
den Zylindern [ω1,...,ωn] erzeugte σ-Algebra ist und P =((1−p)δ−1 + pδ1) ⊗N<br />
das Produktmaß. Wir bezeichnen mit Dn : Ω →{−1, 1}, ω ↦→ ωn das Ergebnis der<br />
n-ten Runde für jedes n ∈ N. Macht der Spieler in der n-ten Runde den (zufälligen)<br />
Einsatz Hn, so beträgt die Summe der Gewinne nach der n-ten Runde<br />
n�<br />
Sn = HnDn.<br />
i=1<br />
Wir nehmen nun an, dass der Spieler die folgende Strategie verfolgt: In der ersten<br />
Runde ist der Einsatz H1 =1. Gewinnt er, so setzt er in den folgenden Spielen gar<br />
nicht mehr, also ist Hn =0für jedes n ≥ 2, falls D1 =1. Verliert er hingegen, so<br />
setzt er in der zweiten Runde den doppelten Einsatz, also ist H2 =2, falls D1 = −1.<br />
Gibt die zweite Runde einen Gewinn, so setzt er ab der dritten Runde gar nicht<br />
mehr, andernfalls verdoppelt er wiederum seinen Einsatz in der dritten Runde und<br />
so weiter. Wir erhalten also als Strategie<br />
�<br />
0, falls es ein i ∈{1,...,n− 1} gibt mit Di =1,<br />
Hn =<br />
2n−1 , sonst.<br />
Man beachte, dass Hn nur von D1,...,Dn−1 abhängt, also messbar ist bezüglich<br />
σ(D1,...,Dn−1). Dies ist offenbar ein wichtige Forderung an jede Spielstrategie,<br />
da man die Entscheidung über den Einsatz aufgrund der vorhandenen Kenntnis zum<br />
jeweiligen Zeitpunkt treffen muss und nicht in die Zukunft blicken kann.<br />
Die Wahrscheinlichkeit, dass bis zum Zeitpunkt n kein Spiel gewonnen wurde ist<br />
(1 − p) n , also ist P[Sn =1−2n ]=(1−p) n und P[Sn =1]=1− (1 − p) n .Man<br />
erwartet also im Mittel einen Gewinn von<br />
�<br />
Sn dP =(1−p) n (1 − 2 n )+(1− (1 − p) n )=1− � 2(1− p) �n ≤ 0,<br />
da p ≤ 1<br />
2 ist (in den profitablen Spielbanken). Wir setzen nun<br />
�<br />
−∞, falls − 1=D1 = D2 = ...,<br />
S =<br />
1, sonst.
4.3 Lebesgue-Integral versus Riemann-Integral 93<br />
n→∞<br />
�<br />
Dann gilt Sn −→ S f.s., jedoch ist limn→∞ Sn dP < � SdP =1, weil S =1<br />
fast sicher gilt. Nach dem Lemma von Fatou ist dies nur möglich, wenn es keine<br />
integrierbare Minorante zur Folge (Sn)n∈N gibt. Setzen wir ˜ S := inf{Sn : n ∈ N},<br />
so gilt in der Tat P[ ˜ S =1−2n−1 ]=P[D1 = ...= Dn−1 = −1 undDn =1}] =<br />
p(1 − p) n−1 , also � SdP ˜<br />
�∞ = n=1 (1 − 2n−1 ) p(1 − p) n−1 = −∞, weil p ≤ 1<br />
2 .✸<br />
Übung 4.2.1. Sei (Ω,A,μ) ein Maßraum und f ∈L 1 (μ). Man zeige: Zu jedem<br />
ε>0 gibt es ein A ∈Amit μ(A) < ∞ und � � �<br />
A fdμ− � fdμ � �
94 4 Das Integral<br />
Satz 4.23 (Riemann-Integral und Lebesgue-Integral). Sei f : I → R Riemannintegrierbar<br />
auf I =[a, b]. Dann ist f Lebesgue-integrierbar auf I mit Integral<br />
�<br />
I<br />
fdλ=<br />
� b<br />
a<br />
f(x) dx.<br />
Beweis. Sei t so gewählt, dass (4.6) gilt. Nach Voraussetzung gibt es ein n ∈ N<br />
mit |U t n(f)| < ∞ und |O t n(f)| < ∞. Alsoistf beschränkt. Indem wir f durch<br />
f + �f�∞ ersetzen, können wir annehmen, dass f ≥ 0 gilt. Setze<br />
gn := f(b) {b} +<br />
hn := f(b) {b} +<br />
n�<br />
i=1<br />
n�<br />
i1<br />
(inf f([t n i−1,t n i ))) [t n i−1 ,t n i ),<br />
(sup f([t n i−1,t n i ))) [t n i−1 ,t n i ).<br />
Da t n+1 eine Verfeinerung von t n ist, gilt gn ≤ gn+1 ≤ hn+1 ≤ hn. Also existieren<br />
g und h mit gn ↑ g und hn ↓ h. Nach Konstruktion gilt g ≤ h und<br />
�<br />
�<br />
gdλ= lim<br />
I<br />
n→∞<br />
gn dλ = lim<br />
I<br />
n→∞ U t n(f)<br />
� �<br />
hn dλ = hdλ.<br />
= lim<br />
n→∞ Ot n(f) = lim<br />
n→∞<br />
Also ist λ-fast überall h = g. Nach Konstruktion ist g ≤ f ≤ h, und g und h sind als<br />
Limiten von Elementarfunktionen messbar bezüglich B(I) – B(R). Es folgt, dass<br />
für jedes α ∈ R<br />
{f ≤ α} = � {g ≤ α}∩{g = h} � ⊎ � {f ≤ α}∩{g �= h} �<br />
die Vereinigung einer B(I)-Menge mit einer Teilmenge einer Nullmenge ist, also in<br />
B(I) ∗ (der Lebesgue’schen Vervollständigung von B(I)) liegt. Mithin ist f messbar<br />
bezüglich B(I) ∗ . Nach dem Satz über monotone Konvergenz (Satz 4.20) ist<br />
�<br />
I<br />
�<br />
fdλ= lim gn dλ =<br />
n→∞<br />
I<br />
� b<br />
a<br />
I<br />
f(x) dx. ✷<br />
Beispiel 4.24. Sei f :[0, 1] → R, x ↦→ Q. Dannistfoffenbar nicht Riemannintegrierbar,<br />
weil Un(f) =0und On(f) =1für jedes n ∈ N. Andererseits ist f<br />
Lebesgue-integrierbar mit Integral �<br />
fdλ=0,dennQ∩ [0, 1] ist eine Nullmen-<br />
[0,1]<br />
ge. ✸<br />
I
4.3 Lebesgue-Integral versus Riemann-Integral 95<br />
Bemerkung 4.25. Eine uneigentlich Riemann-integrierbare Funktion f auf einem<br />
halboffenen Intervall I =(a, b] oder I =[0, ∞) ist nicht notwendigerweise auch<br />
Lebesgue-integrierbar. Hier wird nämlich das uneigentliche Integral � ∞<br />
f(x) dx :=<br />
� 0<br />
n<br />
limn→∞ f(x) dx durch eine Grenzwertprozedur definiert, die Rücksicht auf die<br />
0<br />
Geometrie von R nimmt. Dies tut das Lebesgue-Integral nicht. So ist die Funktion<br />
f :[0, ∞) → R, x ↦→ 1<br />
1+x sin(x) (uneigentlich) Riemann-integrierbar, jedoch nicht<br />
Lebesgue-integrierbar, weil �<br />
|f| dλ = ∞ ist. ✸<br />
[0,∞)<br />
Wir haben schon gesehen, dass uneigentlich Riemann-integrierbare Funktionen<br />
nicht notwendigerweise auch Lebesgue-integrierbar sind. Andererseits gibt es Lebesgue-integrierbare<br />
Funktionen, die nicht Riemann-integrierbar sind (wie etwa<br />
Q). Geometrisch lässt sich dies so interpretieren, dass das Riemann-Integral die<br />
Geometrie des Integrationsbereiches respektiert, indem es als Grenzwert von Flächen<br />
schmaler senkrechter Streifen entsteht, während das Lebesgue-Integral als Grenzwert<br />
mit flachen waagerechten Streifen gedacht werden kann. Insbesondere macht<br />
dieses Integral gar keine Annahmen an den Definitionsbereich des Integranden, weshalb<br />
es eben universeller einsetzbar ist. Um dies zu unterstreichen, bringen wir einen<br />
Satz, der uns auch ansonsten noch nützlich sein wird.<br />
Satz 4.26. Sei f : Ω → R messbar und f ≥ 0 fast überall. Dann gelten<br />
∞�<br />
μ({f ≥ n}) ≤<br />
�<br />
fdμ ≤<br />
∞�<br />
μ({f >n}) (4.7)<br />
n=1<br />
und �<br />
fdμ =<br />
� ∞<br />
0<br />
n=0<br />
μ({f ≥ t}) dt. (4.8)<br />
Beweis. Setze f ′ = ⌊f⌋ und f ′′ = ⌈f⌉. Dannistf ′ ≤ f ≤ f ′′ und deshalb<br />
� f ′ dμ ≤ � fdμ≤ � f ′′ dμ. Nun ist<br />
�<br />
Analog ist<br />
f ′ dμ =<br />
�<br />
∞�<br />
μ({f ′ = k}) · k =<br />
k=1<br />
f ′′ dμ =<br />
=<br />
=<br />
∞�<br />
k=1 n=1<br />
∞�<br />
n=1 k=n<br />
k�<br />
μ({f ′ = k})<br />
∞�<br />
μ({f ′ = k})<br />
∞�<br />
μ({f ′ ≥ n}) =<br />
n=1<br />
∞�<br />
μ({f ′′ ≥ n}) =<br />
n=1<br />
∞�<br />
μ({f ≥ n}).<br />
n=1<br />
∞�<br />
μ({f >n−1}). n=1
96 4 Das Integral<br />
Hieraus folgt (4.7).<br />
Gilt g(t) :=μ({f ≥ t}) =∞ für ein t>0, so sind beide Seiten in (4.8) gleich ∞.<br />
Sei im Folgenden also g(t) < ∞ für alle t>0.<br />
Für ε>0 und k ∈ N setze f ε := f {f≥ε} sowie f ε k =2kfε und<br />
Dann gilt α ε k<br />
α ε k =2 −k<br />
≤ 2 −k<br />
∞�<br />
α ε k := 2 −k<br />
μ({f<br />
n=1<br />
ε ≥ n2 −k }).<br />
k→∞<br />
−→ � ∞<br />
ε g(t) dt. Ferner gilt nach (4.7) (mit f ε k statt f)<br />
∞�<br />
μ({f ε �<br />
k ≥ n}) ≤ f ε dμ<br />
n=1<br />
∞�<br />
Wegen 2 −k g(ε) k→∞<br />
∞�<br />
μ({f<br />
n=0<br />
ε k >n}) =2 −k<br />
μ({f<br />
n=0<br />
ε >n2 −k }) ≤ α ε k +2 −k g(ε).<br />
−→ 0 folgt � ∞<br />
ε g(t) dt = � f ε dμ. Wegenfε↑f für ε ↓ 0 folgt<br />
(4.8) aus dem Satz über monotone Konvergenz. ✷<br />
Übung 4.3.1. Sei f :[0, 1] → R beschränkt. Zeige: f ist genau dann (eigentlich)<br />
Riemann-integrierbar, wenn fλ-f.ü. stetig ist. ♣<br />
Übung 4.3.2. Ist f :[0, 1] → R Riemann-integrierbar, so ist f Lebesgue-messbar.<br />
Man zeige durch ein Beispiel, dass f nicht Borel-messbar sein muss. (Hinweis: Man<br />
verwende ohne Beweis die Existenz einer Teilmenge von [0, 1], die nicht Borelmessbar<br />
ist und konstruiere hieraus eine nicht-Borel’sche Menge, deren Abschluss<br />
eine Nullmenge ist.) ♣
5 Momente und Gesetze der Großen Zahl<br />
Die wichtigsten Kenngrößen für Zufallsvariablen sind Median, Erwartungswert und<br />
Varianz. Der Erwartungswert beschreibt für großes n den typischen ungefähren<br />
Wert des arithmetischen Mittels (X1 + ... + Xn)/n von u.i.v. Zufallsvariablen<br />
(Gesetz der Großen Zahl). In Kapitel 15 werden wir sehen, wie die Varianz hingegen<br />
die typischen Abweichungen des arithmetischen Mittels vom Erwartungswert<br />
determiniert.<br />
5.1 Momente<br />
Im Folgenden sei (Ω,A, P) ein Wahrscheinlichkeitsraum.<br />
Definition 5.1. Sei X eine Zufallsvariable.<br />
(i) Ist X ∈L1 (P),soheißtXintegrierbar, und wir nennen<br />
�<br />
E[X] := XdP<br />
den Erwartungswert von X. IstE[X] =0,soheißtXzentriert. Etwas allgemeiner<br />
schreiben wir auch E[X] = � XdP, falls nur X− oder X + integrierbar<br />
ist.<br />
(ii) Ist n ∈ N und X ∈Ln (P), so heißen die Größen<br />
mk := E � X k� , Mk := E � |X| k�<br />
für jedes k =1,...,n,<br />
die k-ten Momente beziehungsweise absoluten Momente von X.<br />
(iii) Ist X ∈L2 (P),soheißtXquadratintegrierbar, und wir nennen<br />
Var[X] :=E � X 2� − E[X] 2<br />
die Varianz von X. Die Zahl σ := √ Var[X] heißt die Streuung oder Standardabweichung<br />
von X. Formal setzen wir manchmal Var[X] = ∞, falls<br />
E[X 2 ]=∞ ist.
98 5 Momente und Gesetze der Großen Zahl<br />
(iv) Sind X, Y ∈L 2 (P), sodefinieren wir die Kovarianz von X und Y durch<br />
Cov[X, Y ]:=E �� X − E[X] �� Y − E[Y ] �� .<br />
X und Y heißen unkorreliert, falls Cov[X, Y ]=0ist.<br />
Bemerkung 5.2. (i) Die Definition in (ii) ist sinnvoll, denn für X ∈L n (P) ist<br />
nach Satz 4.19 Mk < ∞ für jedes k =1,...,n.<br />
(ii) Sind X, Y ∈L 2 (P), soistwegen|XY |≤X 2 + Y 2 auch XY ∈L 1 (P).<br />
Deshalb ist die Definition in (iv) sinnvoll, und es gilt<br />
Cov[X, Y ]=E[XY ] − E[X] E[Y ].<br />
Speziell ist Var[X] =Cov[X, X]. ✸<br />
Wir fassen die wichtigsten Rechenregeln für Erwartungswerte als Satz zusammen.<br />
Alle aufgeführten Eigenschaften folgen direkt aus den Eigenschaften des Integrals.<br />
Satz 5.3 (Rechenregeln für den Erwartungswert). Seien X, Y, Xn,Yn, n ∈ N,<br />
reelle integrierbare Zufallsvariablen auf (Ω,A, P). Dann gilt<br />
(i) Ist PX = PY ,soistE[X] =E[Y ].<br />
(ii) (Linearität) Sei c ∈ R. Dann gelten cX ∈L 1 (P) und X + Y ∈L 1 (P) sowie<br />
E[cX] =cE[X] und E[X + Y ]=E[X]+E[Y ].<br />
(iii) Ist X ≥ 0 fast sicher, so gilt<br />
E[X] =0 ⇐⇒ X =0 fast sicher.<br />
(iv) (Monotonie) Gilt X ≤ Y fast sicher, so gilt E[X] ≤ E[Y ] mit Gleichheit<br />
genau dann, wenn X = Y fast sicher.<br />
(v) (Dreiecksungleichung) Es ist � � � �<br />
�E[X] � ≤ E |X| .<br />
�<br />
� ∞�<br />
(vi) Ist Xn ≥ 0 fast sicher für jedes n ∈ N, soistE (vii) Gilt Yn ↑ Y , so gilt E[Y ] = limn→∞ E[Yn].<br />
Xn<br />
n=1<br />
= ∞�<br />
E[Xn].<br />
Die <strong>Wahrscheinlichkeitstheorie</strong> beginnt wieder an der Stelle, wo die Unabhängigkeit<br />
ins Spiel kommt, wir also den Bereich der linearen Integrationstheorie verlassen.<br />
Satz 5.4 (Unabhängige Zufallsvariablen sind unkorreliert).<br />
Seien X, Y ∈ L 1 (P) unabhängig. Dann ist (XY) ∈ L 1 (P) und E[XY ] =<br />
E[X] E[Y ]. Speziell sind unabhängige Zufallsvariablen unkorreliert.<br />
n=1
5.1 Momente 99<br />
Beweis. Wir nehmen zunächst an, dass X und Y nur endlich viele Werte annehmen.<br />
Dann nimmt auch XY nur endlich viele Werte an, speziell ist offenbar<br />
XY ∈L1 (P). Es folgt<br />
E[XY ]= �<br />
z P[XY = z]<br />
z∈R\{0}<br />
= �<br />
�<br />
z∈R\{0} x∈R\{0}<br />
= �<br />
�<br />
y∈R\{0} x∈R\{0}<br />
x∈R<br />
x z<br />
P[X = x, Y = z/x]<br />
x<br />
xy P[X = x] P[Y = y]<br />
�<br />
�<br />
��<br />
�<br />
�<br />
= x P[X = x] y P[Y = y]<br />
= E[X] E[Y ].<br />
Für N ∈ N sind auch die Zufallsvariablen XN := � 2 −N � 2 N |X| �� ∧ N und YN :=<br />
� 2 −N � 2 N |Y | �� ∧ N, die nur endlich viele Werte annehmen, unabhängig, und es<br />
gilt XN ↑|X| sowie YN ↑|Y |. Nach dem Satz von der monotonen Konvergenz<br />
(Satz 4.20) ist daher<br />
y∈R<br />
E[|XY |] = lim<br />
N→∞ E[XN YN ] = lim<br />
N→∞ E[XN ] E[YN ]<br />
�<br />
= lim<br />
N→∞ E[XN<br />
��<br />
] lim<br />
N→∞ E[YN<br />
�<br />
] = E[|X|] E[|Y |] < ∞.<br />
Also ist XY ∈L 1 (P). Außerdem haben wir damit den Satz gezeigt für den Fall,<br />
wo X und Y nichtnegativ sind. Daher (und weil jede der Familien {X + ,Y + },<br />
{X − ,Y + }, {X + ,Y − } und {X − ,Y − } unabhängig ist) gilt<br />
E[XY ]=E[(X + − X − )(Y + − Y − )]<br />
= E[X + Y + ] − E[X − Y + ] − E[X + Y − ]+E[X − Y − ]<br />
= E[X + ] E[Y + ] − E[X − ] E[Y + ] − E[X + ] E[Y − ]+E[X − ] E[Y − ]<br />
= E[X + − X − ] E[Y + − Y − ]=E[X] E[Y ]. ✷<br />
Satz 5.5 (Wald’sche Identität). Seien T,X1,X2,... unabhängige, reelle Zufallsvariablen<br />
in L1 (P). EsseiP[T ∈ N0] =1, und es seien X1,X2,... identisch<br />
verteilt. Wir setzen<br />
T�<br />
ST := Xi.<br />
i=1<br />
Dann ist ST ∈L 1 (P) und E[ST ]=E[T ] E[X1].<br />
Beweis. Setze Sn = �n i=1 Xi für n ∈ N0. DannistST = �∞ n=1 Sn {T =n}.<br />
Nach Bemerkung 2.15 sind Sn und {T =n} unabhängig für jedes n ∈ N und damit<br />
unkorreliert. Es folgt (mit Hilfe der Dreiecksungleichung, siehe Satz 5.3(v))
100 5 Momente und Gesetze der Großen Zahl<br />
E � |ST | � =<br />
≤<br />
∞�<br />
n=1<br />
E � �<br />
|Sn| {T =n} =<br />
∞�<br />
n=1<br />
E � |Sn| � E � �<br />
{T =n}<br />
∞�<br />
E � |X1| � n P[T = n] =E[|X1|] E[T ].<br />
n=1<br />
Die selbe Rechnung ohne Betragstriche liefert den Rest der Behauptung. ✷<br />
Wir stellen hier ein paar einfache Eigenschaften der Varianz zusammen.<br />
Satz 5.6. Sei X ∈L 2 (P). Dann gilt:<br />
(i) Var[X] =E � (X − E[X]) 2� ≥ 0,<br />
(ii) Var[X] =0 ⇐⇒ X = E[X] fast sicher,<br />
(iii) Die Abbildung f : R → R, x ↦→ E � (X −x) 2� ist minimal genau in x0 = E[X]<br />
mit f(E[X]) = Var[X].<br />
Beweis. (i) Klar nach Bemerkung 5.2(ii).<br />
(ii) Nach Satz 5.3(iii) ist E � (X − E[X]) 2� =0 ⇐⇒ (X − E[X]) 2 =0f.s.<br />
(iii) Es ist f(x) =E[X 2 ] − 2x E[X]+x 2 = Var[X]+(x − E[X]) 2 . ✷<br />
Satz 5.7. Die Abbildung Cov : L2 (P) ×L2 (P) → R ist eine positiv semidefinite<br />
symmetrische Bilinearform, und es gilt Cov[X, Y ]=0, falls Y fast sicher konstant<br />
ist. Ausgeschrieben heißt dies: Für X1,..., Xm, Y1,..., Yn ∈L2 (P) und<br />
α1,...,αm, β1,...,βn ∈ R, sowie d, e ∈ R gilt<br />
⎡<br />
⎤<br />
m�<br />
n�<br />
Cov ⎣d + αiXi,e+ ⎦ = �<br />
αiβj Cov[Xi,Yj]. (5.1)<br />
i=1<br />
βjYj<br />
j=1<br />
Speziell gilt die Bienaymé-Gleichung<br />
�<br />
m�<br />
�<br />
m�<br />
Var = Var[Xi]+<br />
Xi<br />
i=1<br />
i=1<br />
i,j<br />
m�<br />
i,j=1<br />
i�=j<br />
Cov[Xi,Xj]. (5.2)<br />
Für unkorrelierte X1,...,Xm gilt Var [ � m<br />
i=1 Xi] = � m<br />
i=1 Var[Xi].
Beweis.<br />
� m�<br />
Cov d + αi Xi, e+<br />
i=1<br />
n�<br />
j=1<br />
��<br />
�m<br />
= E<br />
=<br />
=<br />
m�<br />
i=1<br />
i=1 j=1<br />
m�<br />
i=1 j=1<br />
βj Yj<br />
�<br />
��<br />
�n<br />
αi(Xi − E[Xi])<br />
j=1<br />
5.1 Momente 101<br />
��<br />
βj(Yj − E[Yj])<br />
n�<br />
αiβj E � (Xi − E[Xi])(Yj − E[Yj]) �<br />
n�<br />
αiβj Cov[Xi,Yj]. ✷<br />
Satz 5.8 (Cauchy-Schwarz’sche Ungleichung). Sind X, Y ∈L2 (P), sogilt<br />
� �2 Cov[X, Y ] ≤ Var[X] Var[Y ].<br />
Es gilt genau dann Gleichheit, wenn es a, b, c ∈ R gibt aX + bY + c =0 f.s.<br />
Beweis. Die Cauchy-Schwarz’sche Ungleichung gilt für jede positiv semidefinite<br />
Bilinearform 〈 · , · 〉 auf einem Vektorraum V . Es gilt jeweils genau dann Gleichheit<br />
〈x, y〉 2 = 〈x, x〉〈y, y〉, wenn es Zahlen a, b ∈ R gibt mit 〈ax − by, ax − by〉 =0.<br />
Wenden wir dies auf die positiv semidefinite Bilinearform Cov[ · , · ] auf L2 (P)<br />
an, so erhalten wir die Cauchy-Schwarz’sche Ungleichung für X, Y ∈L2 (P) mit<br />
Gleichheit genau dann, wenn Var[aX + bY ]=0, also genau dann, wenn (vergleiche<br />
Satz 5.6(ii)) aX + bY = c := E[aX + bY ] fast sicher.<br />
Zeigen wir nun also die Aussage für die allgemeine positiv semidefinite Bilinearform<br />
auf R. Ohne Einschränkung gilt 〈y, y〉 > 0 (sonst ist die Aussage trivial). Es<br />
gilt dann mit θ = − 〈x,y〉<br />
〈y,y〉<br />
0 ≤ � x + θy, x + θy � �<br />
〈y, y〉 = 〈x, x〉 +2θ〈x, y〉 + θ 2 �<br />
〈y, y〉 〈y, y〉<br />
= 〈x, x〉〈y, y〉−〈x, y〉 2 . ✷<br />
Beispiel 5.9. (i) Es sei p ∈ [0, 1] und X ∼ Berp. DannistE[X 2 ]=E[X] =<br />
P[X =1]=p und damit Var[X] =p(1 − p).<br />
(ii) Seien n ∈ N und p ∈ [0, 1] sowie X binomialverteilt X ∼ bn,p. Dannist
102 5 Momente und Gesetze der Großen Zahl<br />
Ferner ist<br />
E[X] =<br />
n�<br />
kP[X = k] =<br />
k=0<br />
= np ·<br />
E[X(X − 1)] =<br />
=<br />
n�<br />
k=1<br />
n�<br />
� �<br />
n<br />
k p<br />
k<br />
k (1 − p) n−k<br />
k=0<br />
� �<br />
n − 1<br />
p<br />
k − 1<br />
k−1 (1 − p) (n−1)−(k−1) = np.<br />
n�<br />
k(k − 1) P[X = k]<br />
k=0<br />
n�<br />
� �<br />
n<br />
k(k − 1) p<br />
k<br />
k (1 − p) n−k<br />
k=0<br />
= np ·<br />
n�<br />
� �<br />
n − 1<br />
(k − 1) p<br />
k − 1<br />
k−1 (1 − p) (n−1)−(k−1)<br />
k=1<br />
= n(n − 1)p 2 ·<br />
= n(n − 1)p 2 .<br />
n�<br />
k=2<br />
� �<br />
n − 2<br />
p<br />
k − 2<br />
k−2 (1 − p) (n−2)−(k−2)<br />
Also ist E[X 2 ]=E[X(X − 1)] + E[X] =n 2 p 2 + np(1 − p) und damit Var[X] =<br />
np(1 − p).<br />
Etwas einfacher als durch die direkte Berechnung sehen wir dies ein, indem wir<br />
bemerken (siehe nach Beispiel 3.4(ii)), dass bn,p = b ∗n<br />
1,p. Das heißt, es gilt (siehe<br />
Satz 2.31) PX = PY1+...+Yn ,woY1,...,Yn unabhängig sind und Yi ∼ Berp für<br />
jedes i =1,...,n. Es folgt<br />
E[X] = nE[Y1] = np<br />
Var[X] = nVar[Y1] = np(1 − p).<br />
(iii) Seien μ ∈ R und σ 2 > 0 sowie X normalverteilt X ∼N μ,σ 2.Dannist<br />
E[X] =<br />
=<br />
1<br />
√ 2πσ 2<br />
1<br />
√ 2πσ 2<br />
= μ +<br />
� ∞<br />
−∞<br />
� ∞<br />
1<br />
√ 2πσ 2<br />
−∞<br />
� ∞<br />
xe −(x−μ)2 /(2σ 2 ) dx<br />
(x + μ) e −x2 /(2σ 2 ) dx<br />
−∞<br />
Ähnlich folgt Var[X] =E[X 2 ] − μ 2 = ...= σ 2 .<br />
xe −x2 /(2σ 2 ) dx = μ<br />
(5.3)<br />
(5.4)
(iv) Sei θ>0 und X exponentialverteilt X ∼ exp θ.Dannist<br />
E[X] =θ<br />
� ∞<br />
Var[X] =−θ −2 + θ<br />
0<br />
xe −θx dx = 1<br />
θ ,<br />
� ∞<br />
x<br />
0<br />
2 e −θx dx = θ −2<br />
�<br />
−1+<br />
� ∞<br />
0<br />
5.1 Momente 103<br />
x 2 e −x �<br />
dx = θ −2 . ✸<br />
Satz 5.10 (Blackwell-Girshick). Seien T,X1,X2,...unabhängige, reelle Zufallsvariablen<br />
in L2 (P). EsseiP[T ∈ N0] =1, und es seien X1,X2,... identisch<br />
verteilt. Wir setzen<br />
T�<br />
ST := Xi.<br />
Dann ist ST ∈L 2 (P) und<br />
i=1<br />
Var[ST ]=E[X1] 2 Var[T ]+E[T ] Var[X1].<br />
Beweis. Wir setzen Sn = � n<br />
i=1 Xi für n ∈ N. Dann sind (wie beim Beweis der<br />
Wald’schen Identität) Sn und {T =n} unabhängig, also S 2 n und {T =n} unkorreliert<br />
und damit<br />
E � S 2 �<br />
T =<br />
=<br />
=<br />
=<br />
∞�<br />
n=0<br />
∞�<br />
n=0<br />
E � {T =n} S 2� n<br />
E[ {T =n}] E � S 2� n<br />
∞�<br />
P[T = n] � Var[Sn]+E[Sn] 2�<br />
n=0<br />
∞�<br />
n=0<br />
�<br />
P[T = n] n Var[X1]+n 2 E[X1] 2�<br />
= E[T ] Var[X1]+E � T 2� E[X1] 2 .<br />
Nach der Wald’schen Identität (Satz 5.5) ist E[ST ]=E[T ] E[X1], also ist<br />
Var[ST ]=E � S 2 �<br />
T − E[ST ] 2 = E[T ] Var[X1]+ � E � T 2� − E[T ] 2� E[X1] 2 .<br />
Dies ist aber die Behauptung. ✷<br />
Übung 5.1.1. Man zeige (mit Satz 4.15): Ist X eine integrierbare reelle Zufallsvariable,<br />
deren Verteilung PX die Dichte f (bezüglich des Lebesgue-Maßes λ) besitzt,<br />
so gilt<br />
�<br />
E[X] = xf(x) λ(dx). ♣<br />
R
104 5 Momente und Gesetze der Großen Zahl<br />
Übung 5.1.2. Sei X ∼ βr,s eine Beta-verteilte Zufallsvariable mit Parametern<br />
r, s > 0 (vergleiche Beispiel 1.107(ii)). Man zeige<br />
E[X n ]=<br />
n−1 �<br />
k=0<br />
r + k<br />
r + s + k<br />
für jedes n ∈ N. ♣<br />
Übung 5.1.3. Es seien X1,X2,...u.i.v. nichtnegative Zufallsvariablen. Man zeige<br />
mit Hilfe des Lemmas von Borel-Cantelli:<br />
1<br />
lim sup<br />
n→∞ n Xn<br />
�<br />
0 f.s., falls E[X1] < ∞,<br />
=<br />
♣<br />
∞ f.s., falls E[X1] =∞.<br />
Übung 5.1.4. Es seien X1,X2,... u.i.v. nichtnegative Zufallsvariablen Man zeige<br />
mit Hilfe des Lemmas von Borel-Cantelli: Für jedes c ∈ (0, 1) gilt<br />
∞�<br />
lim sup e<br />
n→∞<br />
Xn c n<br />
�<br />
< ∞ f.s., falls E[X1] < ∞,<br />
♣<br />
= ∞ f.s., falls E[X1] =∞.<br />
n=1<br />
5.2 Schwaches Gesetz der Großen Zahl<br />
Satz 5.11 (Markov’sche Ungleichung, Chebyshev’sche Ungleichung).<br />
Sei X eine Zufallsvariable und f :[0, ∞) → [0, ∞) monoton wachsend. Dann<br />
gilt für jedes ε>0 mit f(ε) > 0 die Markov’sche Ungleichung<br />
P � |X| ≥ε � ≤ E[f(|X|)]<br />
.<br />
f(ε)<br />
Im Spezialfall f(x) =x 2 erhalten wir P � |X| ≥ε � ≤ ε −2 E � X 2� und, falls<br />
X ∈L 2 (P), insbesondere die Chebyshev’sche Ungleichung<br />
Beweis. Es gilt<br />
P � |X − E[X]| ≥ε � ≤ ε −2 Var[X].<br />
E[f(|X|)] ≥ E � �<br />
f(|X|) {f(|X|)≥f(ε)}<br />
≥ E � �<br />
f(ε) {f(|X|)≥f(ε)}<br />
≥ f(ε) P � |X| ≥ε � . ✷
5.2 Schwaches Gesetz der Großen Zahl 105<br />
Definition 5.12. Sei (Xn)n∈N eine Folge reeller Zufallsvariablen in L 1 (P) und<br />
�Sn = � n<br />
i=1 (Xi − E[Xi]).<br />
(i) Wir sagen, (Xn)n∈N genüge dem schwachen Gesetz der großen Zahl, falls<br />
lim<br />
n→∞ P<br />
��<br />
��� 1<br />
n � �<br />
�<br />
Sn�<br />
� >ε<br />
�<br />
=0 für jedes ε>0.<br />
(ii) Wir sagen, (Xn)n∈N genüge dem starken Gesetz der großen Zahl, falls<br />
� �<br />
�<br />
P lim sup �<br />
1<br />
�<br />
n→∞ n � �<br />
�<br />
Sn�<br />
� =0<br />
�<br />
=1.<br />
Bemerkung 5.13. Das starke Gesetz der großen Zahl impliziert das schwache. Ist<br />
nämlich Aε ��� 1<br />
n := n � � � � �<br />
Sn�<br />
>ε und A = lim sup � 1<br />
n<br />
n→∞<br />
� � �<br />
Sn�<br />
> 0 , so gilt offenbar<br />
A = �<br />
lim sup A<br />
n→∞<br />
m∈N<br />
1/m<br />
n ,<br />
�<br />
also P lim sup A<br />
n→∞<br />
ε �<br />
n =0für ε>0. Nach dem Lemma von Fatou (Satz 4.21) ist<br />
�<br />
lim sup P [A<br />
n→∞<br />
ε n]=1− lim inf<br />
n→∞ E � (Aε n )c<br />
�<br />
≤ 1 − E lim inf<br />
n→∞<br />
(Aε n )c<br />
�<br />
�<br />
= E lim sup<br />
n→∞<br />
Aε n<br />
�<br />
= 0. ✷<br />
Satz 5.14. Seien X1,X2,... unkorrelierte Zufallsvariablen in L2 (P) mit V :=<br />
supn∈N Var[Xn] < ∞. Dann genügt (Xn)n∈N dem schwachen Gesetz der großen<br />
Zahl. Es gilt sogar für jedes ε>0<br />
��<br />
��� 1<br />
P<br />
n � � �<br />
�<br />
Sn�<br />
� ≥ ε<br />
≤ V<br />
ε 2 n<br />
für jedes n ∈ N. (5.5)<br />
Beweis. Ohne Einschränkung sei E[Xi] = 0 für jedes i ∈ N und damit Sn =<br />
X1 + ···+ Xn. Nach der Formel von Bienaymé (Satz 5.7) ist<br />
Var<br />
� 1<br />
n � Sn<br />
�<br />
= n −2<br />
n�<br />
i=1<br />
Var [Xi] ≤ V<br />
n .<br />
Nach der Chebyshev’schen Ungleichung (Satz 5.11) gilt für ε>0<br />
P � | � Sn/n| >ε � ≤ V<br />
ε 2 n<br />
n→∞<br />
−→ 0. ✷
106 5 Momente und Gesetze der Großen Zahl<br />
Beispiel 5.15 (Weierstraß’scher Approximationssatz). Sei f :[0, 1] → R eine<br />
stetige Abbildung. Nach dem Weierstraß’schen Approximationssatz existieren Polynome<br />
fn vom Grad höchstens n, sodass<br />
�fn − f�∞<br />
n→∞<br />
−→ 0,<br />
wobei �f�∞ := sup{|f(x)| : x ∈ [0, 1]} die Supremumsnorm von f ∈ C([0, 1])<br />
bezeichnet.<br />
Wir führen hier einen probabilistischen Beweis dieser Aussage vor. Für n ∈ N sei<br />
das Polynom fn definiert durch<br />
n�<br />
� �<br />
n<br />
fn(x) := f(k/n) x<br />
k<br />
k (1 − x) n−k<br />
für x ∈ [0, 1].<br />
k=0<br />
Dieses Polynom heißt Bernstein-Polynom der Ordnung n.<br />
Sei ε>0 fest gewählt. Da f auf [0, 1] stetig ist, ist f sogar gleichmäßig stetig. Es<br />
existiert also ein δ>0, sodass<br />
|f(x) − f(y)|
5.3 Starkes Gesetz der Großen Zahl 107<br />
P � Sn ≥ (1 + δ)m � �<br />
e<br />
≤<br />
δ<br />
(1 + δ) 1+δ<br />
�m<br />
und<br />
P � Sn ≤ (1 − δ)m � �<br />
≤ exp − δ2 �<br />
m<br />
.<br />
2<br />
Hinweis: Verwende für Sn die Markov’sche Ungleichung mit f(x) =eλx für gewisses<br />
λ>0 und finde dasjenige λ, das die Abschätzung optimiert. ♣<br />
5.3 Starkes Gesetz der Großen Zahl<br />
Wir kommen nun zu einem starken Gesetz der großen Zahl, nämlich dem in der<br />
Form von Etemadi für identisch verteilte, paarweise unabhängige Zufallsvariablen.<br />
Es gibt viele verschiedene Formen von starken Gesetzen der großen Zahl, die unterschiedliche<br />
Voraussetzungen machen. So kann man darauf verzichten, dass die<br />
Zufallsvariablen identisch verteilt sind, wenn man stärkere Annahmen, etwa beschränkte<br />
Varianzen, macht und so weiter. Wir werden hier nicht bis in alle Tiefen<br />
gehen, sondern nur exemplarisch ein paar Aussagen vorstellen. Um die Methode für<br />
den Beweis des Satzes von Etemadi zu illustrieren, stellen wir zunächst ein Starkes<br />
Gesetz der großen Zahl unter stärkeren Annahmen vor.<br />
Satz 5.16. Sind X1,X2,... ∈L 2 (P) paarweise unabhängig (das heißt, Xi und<br />
Xj sind unabhängig für alle i, j ∈ N mit i �= j) und identisch verteilt, so genügt<br />
(Xn)n∈N dem starken Gesetz der großen Zahl.<br />
Beweis. Es sind (X + n )n∈N und (X− n )n∈N wieder paarweise unabhängige Familien<br />
quadratintegrierbarer Zufallsvariablen (vergleiche Bemerkung 2.15(ii)). Es reicht<br />
daher, (X + n )n∈N zu betrachten. Wir nehmen also im Folgenden an, dass Xn ≥ 0 ist<br />
fast sicher für jedes n ∈ N.<br />
Sei Sn = X1 + ...+ Xn für n ∈ N. Wähle ε>0. Für jedes n ∈ N setzen wir<br />
kn = ⌊(1 + ε) n⌋≥ 1<br />
2 (1 + ε)n . Dann ist nach der Chebyshev’schen Ungleichung<br />
(Satz 5.11)<br />
∞�<br />
n=1<br />
��<br />
��� Skn<br />
P<br />
kn<br />
�<br />
�<br />
�<br />
∞�<br />
− E[X1] �<br />
� ≥ (1 + ε)−n/4 ≤ (1 + ε) n/2 Var � k −1<br />
=<br />
n=1<br />
∞�<br />
n Skn<br />
(1 + ε)<br />
n=1<br />
n/2 k −1<br />
n Var[X1]<br />
≤ 2 Var[X1]<br />
∞�<br />
(1 + ε) −n/2 < ∞.<br />
n=1<br />
�<br />
(5.6)
108 5 Momente und Gesetze der Großen Zahl<br />
Nach dem Lemma von Borel-Cantelli gibt es daher für P-f.a. ω ein n0 = n0(ω) mit<br />
�<br />
�<br />
�Skn<br />
�<br />
�<br />
� − E[X1] �<br />
� < (1 + ε)−n/4 für jedes n ≥ n0.<br />
kn<br />
Also gilt<br />
�<br />
�<br />
lim sup �k<br />
n→∞<br />
−1<br />
�<br />
�<br />
n Skn − E[X1] � =0 fast sicher.<br />
Für hinreichend großes n ∈ N ist kn+1 ≤ (1 + 2ε)kn. Für l ∈{kn,...,kn+1} ist<br />
dann<br />
1<br />
1+2ε k−1<br />
n Skn<br />
≤ k−1<br />
n+1 Skn ≤ l−1 Sl ≤ k −1<br />
n Skn+1<br />
≤ (1 + 2ε) k−1 Skn+1 n+1 .<br />
Wegen 1 − (1 + 2ε) −1 ≤ 2ε folgt<br />
�<br />
�<br />
lim sup �l<br />
l→∞<br />
−1 �<br />
�<br />
�<br />
�<br />
Sl − E[X1] � ≤ lim sup �k<br />
n→∞<br />
−1<br />
�<br />
�<br />
n Skn − E[X1] � +2ε lim sup<br />
n→∞<br />
≤ 2ε E[X1] fast sicher,<br />
k −1<br />
n Skn<br />
und damit gilt das starke Gesetz der großen Zahl. ✷<br />
Die Ähnlichkeit der Varianzabschätzungen im schwachen Gesetz der großen Zahl<br />
und in (5.6) legen nahe, dass im vorangehenden Satz auf die Bedingung verzichtet<br />
werden kann, dass die Zufallsvariablen X1,X2,... identisch verteilt sind, wenn<br />
man nur fordert, dass die Varianzen beschränkt sind (siehe Übung 5.3.1).<br />
Wir können die Bedingung in Satz 5.16 in anderer Weise abschwächen, indem wir<br />
nur Integrierbarkeit statt Quadratintegrierbarkeit der Zufallsvariablen fordern.<br />
Satz 5.17 (Starkes Gesetz der großen Zahl von Etemadi (1981)). Es seien<br />
X1,X2,... ∈L 1 (P) paarweise unabhängig und identisch verteilt. Dann genügt<br />
(Xn)n∈N dem starken Gesetz der großen Zahl.<br />
Wir folgen dem Beweis in [38]. Setze im Folgenden μ = E[X1]. Zur Vorbereitung<br />
des Beweises stellen wir ein paar Lemmata bereit.<br />
Lemma 5.18. Für n ∈ N seien Yn := Xn {|Xn|≤n} und Tn = Y1 + ···+ Yn. Die<br />
Folge (Xn)n∈N erfüllt das starke Gesetz der großen Zahl, falls Tn/n n→∞<br />
−→ μ f.s.<br />
Beweis. Nach Satz 4.26 ist ∞�<br />
P<br />
n=1<br />
� |Xn| >n � ≤ E � |X1| � < ∞. Nach dem Lemma<br />
von Borel-Cantelli ist daher<br />
P � Xn �= Yn für unendlich viele n � =0.<br />
Es gibt also ein n0 = n0(ω) mit Xn = Yn für jedes n ≥ n0. Daher gilt für n ≥ n0<br />
Tn − Sn<br />
n<br />
= Tn0 − Sn0<br />
n<br />
n→∞<br />
−→ 0. ✷
5.3 Starkes Gesetz der Großen Zahl 109<br />
Lemma 5.19. Für jedes x ≥ 0 ist 2x �<br />
n −2 ≤ 4.<br />
n>x<br />
Beweis. Für m ∈ N ist nach dem Integralvergleichskriterium<br />
Lemma 5.20. Es gilt<br />
∞�<br />
n<br />
n=m<br />
−2 ≤ m −2 � ∞<br />
+<br />
m<br />
∞�<br />
n=1<br />
E � Y 2 �<br />
n<br />
n2 ≤ 4 E[|X1|].<br />
t −2 dt = m −2 + m −1 ≤ 2<br />
. ✷<br />
m<br />
Beweis. Nach Satz 4.26 ist E � Y 2 � � ∞<br />
n = 0 P�Y 2 n > t � dt. Mit der Substitution<br />
x = √ t erhalten wir<br />
E � Y 2� n =<br />
� ∞<br />
0<br />
2x P[|Yn| >x] dx ≤<br />
� n<br />
0<br />
2x P[|X1| >x] dx.<br />
Nach dem Satz über monotone Konvergenz und Lemma 5.19 gilt für m →∞<br />
�<br />
m�<br />
�<br />
fm(x) =<br />
2x P[|X1| >x] ↑ f(x) ≤ 4 P[|X1| >x].<br />
n=1<br />
n −2 {xx] dx =4E[|X1|]. ✷<br />
Beweis von Satz 5.17 Wie im Beweis von Satz 5.16 reicht es, Xn ≥ 0 zu betrachten.<br />
Wähle ε>0 und setze α =1+ε.Für n ∈ N setzen wir kn = ⌊α n ⌋ und haben<br />
speziell kn ≥ α n /2. Es ist also (mit n0 = ⌈log m/ log α⌉)<br />
�<br />
n: kn≥m<br />
k −2<br />
n ≤ 4<br />
∞�<br />
n=n0<br />
α −2n =4α −2n0 (1 − α −2 ) −1 ≤ 4(1 − α −2 ) −1 m −2 . (5.7)<br />
Unser Ziel ist es, mit Hilfe von Lemma 5.20 die Abschätzung (5.6) für (Yn)n∈N<br />
und (Tn)n∈N zu verfeinern. Die Chebyshev’sche Ungleichung liefert (zusammen<br />
mit (5.7)) wiederum für δ>0
110 5 Momente und Gesetze der Großen Zahl<br />
∞�<br />
P �� �Tkn − E� �� �<br />
Tkn<br />
� −2<br />
>δkn ≤ δ<br />
n=1<br />
= δ −2<br />
∞�<br />
n=1<br />
k −2<br />
n<br />
∞�<br />
n=1<br />
Var [Tkn ]<br />
k 2 n<br />
kn�<br />
Var[Ym] =δ −2<br />
m=1<br />
≤ 4(1 − α −2 ) −1 δ −2<br />
∞�<br />
m=1<br />
∞�<br />
Var[Ym] �<br />
m=1<br />
n: kn≥m<br />
k −2<br />
n<br />
m −2 E � Y 2 �<br />
m < ∞ nach Lemma 5.20.<br />
(Im dritten Schritt durften wir die Summationsreihenfolge vertauschen, weil alle<br />
Summanden nichtnegativ sind.) Da δ>0 beliebig war, folgt (mit dem Lemma von<br />
Borel-Cantelli)<br />
Tkn − E [Tkn ]<br />
lim<br />
=0<br />
n→∞ kn<br />
fast sicher. (5.8)<br />
Nach dem Satz über monotone Konvergenz (Satz 4.20) gilt<br />
E[Yn] =E � X1<br />
� n→∞<br />
{|X1|≤n} −→ E[X1].<br />
n→∞<br />
Also gilt E[Tkn ]/kn −→ E[X1] und wegen (5.8) auch Tkn /kn<br />
Wie im Beweis von Satz 5.16 gilt jetzt auch (weil Yn ≥ 0)<br />
Tl<br />
lim<br />
l→∞ l = E[X1] fast sicher.<br />
n→∞<br />
−→ E[X1] f.s.<br />
Nach Lemma 5.18 folgt hieraus die Behauptung von Satz 5.17. ✷<br />
Beispiel 5.21 (Monte Carlo Integration). Betrachte eine Funktion f :[0, 1] → R,<br />
deren Integral I := � 1<br />
f(x) dx numerisch bestimmt werden soll. Wir nehmen an,<br />
0<br />
dass uns der Computer Zahlen X1,X2,... generiert, die wir als unabhängige Zufallszahlen<br />
auffassen können, die auf [0, 1] gleichverteilt sind. Für n ∈ N definieren<br />
wir den Schätzwert<br />
�In := 1<br />
n�<br />
f(Xi).<br />
n<br />
i=1<br />
Unter der Annahme, dass f ∈L1 ([0, 1]) ist, liefert das starke Gesetz der großen<br />
Zahl � n→∞<br />
In −→ I fast sicher.<br />
Allerdings haben wir im letzten Satz keine Aussage zur Geschwindigkeit der Konvergenz,<br />
also zur Größe P[| � In − I| >ε] bekommen. Um genauere Schätzungen für<br />
das Integral zu bekommen, benötigen wir zusätzliche Information, etwa den Wert<br />
V1 := � f 2 (x) dx − I2 , falls f ∈L2 ([0, 1]) ist. (Für beschränktes f etwa lässt sich<br />
V1 leicht nach oben abschätzen.) Dann ist nämlich Var[ � In] =V1/n, also ist nach<br />
der Chebyshev’schen Ungleichung<br />
�<br />
P | � In − I| >εn −1/2�<br />
≤ V1/ε 2 .
5.3 Starkes Gesetz der Großen Zahl 111<br />
Der Fehler ist mithin maximal von der Größenordnung n−1/2 . Der Zentrale Grenzwertsatz<br />
wird uns zeigen, dass der Fehler exakt von dieser Ordnung ist.<br />
Wenn über f minimale Glattheitseigenschaften bekannt sind, so liefern die gängigen<br />
numerischen Verfahren sehr viel bessere Konvergenzordnungen. Die hier beschriebene<br />
Monte Carlo Simulation sollte also nur angewandt werden, wenn alle anderen<br />
Verfahren ungeeignet sind. Speziell ist dies der Fall, wenn statt [0, 1] ein Gebiet<br />
G ⊂ Rd für sehr großes d betrachtet wird. ✸<br />
Definition 5.22 (Empirische Verteilungsfunktion). Seien X1,X2,... reelle Zufallsvariablen.<br />
Dann heißt die Abbildung F : R → [0, 1], x ↦→ 1<br />
n�<br />
n<br />
i=1 (−∞,x](Xi)<br />
die empirische Verteilungsfunktion von X1,...,Xn.<br />
Satz 5.23 (Glivenko-Cantelli). Seien X1,X2,...u.i.v. reelle Zufallsvariablen mit<br />
Verteilungsfunktion F , und seien Fn, n ∈ N, die empirischen Verteilungsfunktionen.<br />
Dann gilt<br />
lim sup<br />
n→∞<br />
�<br />
sup �Fn(x) − F (x)<br />
x∈R<br />
� � =0 fast sicher.<br />
Beweis. Wähle ein x ∈ R und setze Yn(x) = (−∞,x](Xn) und Zn(x) =<br />
(−∞,x)(Xn) für n ∈ N. Wirdefinieren außerdem die linksseitigen Limiten<br />
F (x−) = limy↑x F (y) und analog für Fn. Dann sind (Yn(x))n∈N und (Zn(x))n∈N<br />
jeweils unabhängige Familien und E[Yn(x)] = P[Xn ≤ x] = F (x) sowie<br />
E[Zn(x)] = P[Xn
112 5 Momente und Gesetze der Großen Zahl<br />
und<br />
Also gilt<br />
Fn(x) ≥ Fn(xj−1) ≥ F (xj−1) − Rn ≥ F (x) − Rn − 1<br />
N .<br />
lim sup<br />
n→∞<br />
�<br />
sup �Fn(x) − F (x)<br />
x∈R<br />
� �<br />
1<br />
≤<br />
N<br />
+ lim sup Rn =<br />
n→∞<br />
1<br />
N .<br />
Indem wir N →∞gehen lassen, folgt die Behauptung. ✷<br />
Beispiel 5.24 (Satz von Shannon). Wir betrachten eine Informationsquelle, die<br />
zufällig (und unabhängig) hintereinander Zeichen X1,X2,... eines endlichen Alphabets<br />
E (also einer beliebigen endlichen Menge) ausgibt. Dabei soll pe die<br />
Wahrscheinlichkeit für das Auftreten des Zeichens e ∈ E sein. Formal sind also<br />
X1,X2,...u.i.v. E-wertige Zufallsvariablen mit P[Xi = e] =pe für e ∈ E.<br />
Sei für jedes ω ∈ Ω und n ∈ N<br />
πn(ω) :=<br />
n�<br />
pXi(ω) die Wahrscheinlichkeit, dass die beobachtete Sequenz X1(ω),...,Xn(ω) auftritt.<br />
Wir setzen Yn := − log(pXn(ω)). Dannist(Yn)n∈Nu.i.v. und E[Yn] = H(p),<br />
wobei<br />
H(p) :=− �<br />
pe log(pe)<br />
i=1<br />
e∈E<br />
die Entropie der Verteilung p =(pe)e∈E ist. Aus dem starken Gesetz der großen<br />
Zahl folgt der Satz von Shannon:<br />
− 1<br />
n log πn = 1<br />
n<br />
n�<br />
i=1<br />
Yi<br />
Entropie und Quellenkodierungssatz ∗<br />
n→∞<br />
−→ H(p) fast sicher. ✸<br />
Wir wollen kurz auf die Bedeutung von πn und der Entropie eingehen. Wie groß ist<br />
die ” Information“, die in einer Nachricht X1(ω),...,Xn(ω) steckt? Diese Information<br />
kann man messen durch die Länge der kürzesten Folge von Nullen und Einsen,<br />
mit der man die Nachricht kodieren kann. Wir wollen jetzt natürlich nicht für jede<br />
Nachricht eine eigene Kodierung erfinden, und auch nicht für jede mögliche Nachrichtenlänge.<br />
Stattdessen ordnen wir jedem einzelnen Zeichen e ∈ E eine Folge<br />
von Nullen und Einsen zu, die dann aneinander gereiht die Nachricht ergeben. Die<br />
Länge l(e) der Folge, die das Zeichen e kodiert, darf dabei von e abhängen. So geben<br />
wir Zeichen, die häufiger auftreten, einen kürzeren Code als den selteneren Zeichen,<br />
um einen möglichst effizienten Code zu bekommen. Beim Morse-Alphabet ist dies
5.3 Starkes Gesetz der Großen Zahl 113<br />
so ähnlich eingerichtet ( e“ und t“, die im Englischen häufig vorkommen, haben<br />
” ”<br />
die Codes kurz“ und lang“, der seltenere Buchstabe q“ hat den Code lang-lang-<br />
” ” ” ”<br />
kurz-lang“), allerdings besteht der Morse-Code nicht nur aus kurzen und langen<br />
Signalen, sondern auch noch aus Pausenzeichen, die das Ende eines Buchstabens<br />
signalisieren. Wenn wir nur Nullen und Einsen verwenden dürfen, haben wir keine<br />
solchen Pausenzeichen und müssen den Code so anlegen, dass der Code eines<br />
Zeichens nicht gleichzeitig der Anfang eines Codes eines anderen Zeichens ist. Wir<br />
dürfen also nicht etwa ein Zeichen mit 0110 kodieren und ein anderes mit 011011.<br />
Ein Code, der diese Bedingung erfüllt, heißt ein binärer Präfixcode. Wir bezeichnen<br />
mit c(e) ∈{0, 1} l(e) den Code von e, wobei l(e) die Länge ist. Wir können die<br />
Codes aller Zeichen in einem Baum darstellen.<br />
Wir wollen nun einen Code C =(c(e), e∈ E) herstellen, der effizient ist in dem<br />
Sinne, dass die erwartete Länge des Codes (für ein zufälliges Zeichen)<br />
Lp(C) := �<br />
e∈E<br />
pe l(e)<br />
möglichst klein ist.<br />
Wir konstruieren zunächst einen Code und zeigen dann, dass dieser fast optimal ist.<br />
Als ersten Schritt nummerieren wir E = {e1,...,eN } so, dass pe1 ≥ pe2 ≥ ... ≥<br />
gilt. Wir definieren ℓ(e) ∈ N für jedes e ∈ E durch<br />
peN<br />
2 −ℓ(e) ≤ pe < 2 −ℓ(e)+1 .<br />
Setze ˜pe =2−ℓ(e) für jedes e ∈ E und ˜qk = �<br />
˜pel lk, also ist<br />
� c1(ek),...,c ℓ(ek)(ek) � �= � c1(el),...,c ℓ(ek)(el) �<br />
für alle l ≥ k.<br />
Daher ist C =(c(e) : e ∈ E) ein Präfixcode.<br />
Wir schreiben für jedes b>0 und x>0logb(x) := log(x)<br />
log(b) für den Logarithmus<br />
von x zur Basis b. Nach Konstruktion ist − log2(pe) ≤ l(e) ≤ 1 − log2(pe). Also<br />
ist die erwartete Länge<br />
− �<br />
pe log2(pe) ≤ Lp(C) ≤ 1 − �<br />
pe log2(pe). e∈E<br />
e∈E
114 5 Momente und Gesetze der Großen Zahl<br />
Die Länge dieses Codes für die ersten n Zeichen unserer zufälligen Quelle ist also<br />
ungefähr �n k=1 log2(pXk(ω)) = log2 πn(ω), womit wir den Anknüpfungspunkt<br />
zum Satz von Shannon haben. Dieser trifft also eine Aussage über die Länge eines<br />
Binärcodes, der zur Übertragung einer langen Nachricht gebraucht wird.<br />
Ist nun der oben angegebene Code optimal, oder gibt es Codes mit geringerer erwarteter<br />
Länge? Antwort gibt der Quellenkodierungssatz, den wir hier mit einer<br />
Definition und einem Lemma vorbereiten.<br />
Definition 5.25 (Entropie). Sei p = (pe)e∈E eine Wahrscheinlichkeitsverteilung<br />
auf einer höchstens abzählbaren Menge E.Für b>0 definieren wir<br />
Hb(p) :=− �<br />
pe logb(pe), e∈E<br />
wobei wir 0log b(0) := 0 festlegen. Wir nennen H(p) :=He(p) (e die Euler’sche<br />
Zahl) die Entropie und H2(p) die binäre Entropie von p.<br />
Man beachte, dass nur für endliches E die Entropie stets endlich ist.<br />
Lemma 5.26 (Entropie-Ungleichung). Seien b und p wie oben. Ferner sei q eine<br />
Sub-Wahrscheinlichkeitsverteilung, also qe ≥ 0 für jedes e ∈ E und �<br />
e∈E qe ≤ 1.<br />
Dann gilt<br />
Hb(p) ≤− �<br />
pe logb(qe) (5.9)<br />
e∈E<br />
mit Gleichheit genau dann, wenn Hb(p) =∞ oder q = p.<br />
Beweis. Ohne Einschränkung können wir mit b = e, also mit dem natürlichen Logarithmus<br />
rechnen. Es gilt log(1 + x) ≤ x für x>−1 mit Gleichheit genau dann,<br />
wenn x =0ist. Ist in (5.9) die linke oder die rechte Seite endlich, so können wir<br />
die rechte von der linken Seite abziehen und erhalten<br />
H(p)+ �<br />
pe log(qe) = �<br />
pe log(qe/pe)<br />
e∈E<br />
e: pe>0<br />
= �<br />
e: pe>0<br />
≤ �<br />
�<br />
pe log 1+ qe<br />
�<br />
− pe<br />
pe<br />
qe − pe<br />
pe<br />
pe<br />
e: pe>0<br />
= �<br />
e∈E<br />
� �<br />
qe − pe ≤ 0.<br />
Ist q �= p, soistqe �= pe für ein e ∈ E mit pe > 0. Ist dies nun der Fall, so gilt<br />
strikte Ungleichheit, falls H(p) < ∞. ✷<br />
Satz 5.27 (Quellenkodierungssatz). Sei p =(pe)e∈E eine Wahrscheinlichkeitsverteilung<br />
auf dem endlichen Alphabet E. Für jeden binären Präfixcode C =<br />
(c(e), e ∈ E) gilt Lp(C) ≥ H2(p), und es gibt einen solchen Code C mit<br />
Lp(C) ≤ H2(p)+1.
5.4 Konvergenzrate im starken GGZ 115<br />
Beweis. Der zweite Teil des Satzes wurde durch die obige Konstruktion schon gezeigt.<br />
Sei nun also ein Präfixcode gegeben. Sei L =maxe∈E l(e). Für e ∈ E sei<br />
CL(e) ={c ∈{0, 1} L : ck = ck(e) für k ≤ l(e)} die Menge aller Binärfolgen<br />
der Länge L, diewiec(e) beginnen. Da wir einen Präfixcode vorliegen haben, sind<br />
die CL(e), e ∈ E, paarweise disjunkt und �<br />
e∈E CL(e) ⊂{0, 1} L . Setzen wir also<br />
qe := 2−l(e) , so ist (beachte: #CL(e) =2L−l(e) )<br />
� �<br />
−L<br />
qe =2 #CL(e) ≤ 1.<br />
e∈E<br />
e∈E<br />
Nach Lemma 5.26 gilt Lp(C) = �<br />
pe l(e) =− �<br />
pe log2(qe) ≥ H2(p). ✷<br />
e∈E<br />
Übung 5.3.1. Man zeige die folgende Verbesserung von Satz 5.16: Sind X1,X2,...<br />
∈L 2 (P) paarweise unabhängig mit beschränkten Varianzen, so genügt (Xn)n∈N<br />
dem starken Gesetz der großen Zahl. ♣<br />
Übung 5.3.2. Man zeige: Ist (Xn)n∈N eine unabhängige Folge identisch verteilter<br />
Zufallsvariablen mit 1<br />
n (X1 + ...+ Xn) n→∞<br />
−→ Y fast sicher für eine Zufallsvariable<br />
Y ,soistX1∈L1 (P) und Y = E[X1] fast sicher.<br />
Hinweis: Man zeige zunächst<br />
P � |Xn| >n für unendlich viele n � =0 ⇐⇒ X1 ∈L 1 (P). ♣<br />
Übung 5.3.3. Sei E endlich und p ein Wahrscheinlichkeitsvektor auf E. Man zeige,<br />
dass die Entropie H(p) minimal ist (nämlich Null), falls p = δe für ein e ∈ E und<br />
maximal (nämlich log(#E)), falls p die Gleichverteilung auf E ist. ♣<br />
Übung 5.3.4. Sei b ∈{2, 3, 4,...}. Ein b-adischer Präfixcode ist ähnlich definiert<br />
wie ein binärer Präfixcode, jedoch sind jetzt als Zeichen die Zahlen 0, 1,...,b− 1<br />
zugelassen. Man zeige, dass die Aussage des Quellenkodierungssatzes sinngemäß<br />
für b-adische Präfixcodes gilt, mit Hb(p) statt H2(p). ♣<br />
5.4 Konvergenzrate im starken GGZ<br />
Im schwachen Gesetz der großen Zahl hatten wir auch eine Aussage über die Konvergenzgeschwindigkeit<br />
gemacht (Satz 5.14), im starken Gesetz der großen Zahl<br />
hingegen nicht. Da wir hier nur erste Momente der Zufallsvariablen gefordert hatten,<br />
können wir auch keine brauchbaren allgemein gültigen Aussagen erwarten. Nehmen<br />
wir hingegen höhere Momente an, so bekommen wir nützliche Aussagen zur Konvergenzgeschwindigkeit.<br />
Das Herzstück des schwachen Gesetzes der großen Zahl ist die Chebyshev’sche<br />
Ungleichung. Hier geben wir eine schärfere Ungleichung an, die mit der gleichen<br />
e∈E
116 5 Momente und Gesetze der Großen Zahl<br />
oberen Schranke nun das Maximum über alle Partialsummen bis zu einer bestimmten<br />
Grenze abschätzt.<br />
Satz 5.28 (Kolmogorov’sche Ungleichung). Seien n ∈ N und X1,X2,...,Xn<br />
unabhängige Zufallsvariablen mit E[Xi] =0und Var[Xi] 0<br />
P � max{Sk : k =1,...,n}≥t � ≤<br />
sowie die Kolmogorov’sche Ungleichung<br />
Var[Sn]<br />
t 2 + Var[Sn]<br />
(5.10)<br />
P � max{|Sk| : k =1,...,n}≥t � ≤ t −2 Var[Sn]. (5.11)<br />
In Satz 11.2 werden wir mit der Doob’schen Ungleichung eine Verallgemeinerung<br />
der Kolmogorov’schen Ungleichung kennen lernen.<br />
Beweis. Wir führen eine Zerlegung durch nach dem ersten Zeitpunkt τ, zu dem die<br />
Partialsummen t überschreiten. Sei also<br />
τ := min � k ∈{1,...,n} : Sk ≥ t �<br />
und Ak = {τ = k} für k =1,...,nsowie<br />
n�<br />
A = Ak = � max{Sk : k =1,...,n}≥t � .<br />
k=1<br />
Sei c ≥ 0. Die Zufallsvariable (Sk + c) Ak ist messbar bezüglich σ(X1,...,Xk),<br />
und Sn − Sk ist messbar bezüglich σ(Xk+1,...,Xn). Nach Satz 2.26 sind die<br />
beiden Zufallsvariablen unabhängig, und es gilt<br />
E � (Sk + c) Ak (Sn − Sk) � = E � � � �<br />
(Sk + c) Ak E Sn − Sk =0.<br />
Offenbar sind die Ereignisse A1,...,An paarweise disjunkt, also �n k=1 Ak =<br />
A ≤ 1. Wir erhalten so<br />
Var[Sn]+c 2 = E � (Sn + c) 2�<br />
�<br />
n�<br />
≥ E (Sn + c) 2 �<br />
n�<br />
Ak = E � (Sn + c) 2 �<br />
Ak<br />
=<br />
=<br />
≥<br />
k=1<br />
k=1<br />
k=1<br />
n�<br />
E � (Sk + c) 2 �<br />
Ak .<br />
k=1<br />
k=1<br />
n�<br />
E �� (Sk + c) 2 +2(Sk + c)(Sn − Sk)+(Sn − Sk) 2� �<br />
Ak<br />
n�<br />
E � (Sk + c) 2 �<br />
n�<br />
Ak + E � (Sn − Sk) 2 (5.12)<br />
�<br />
Ak<br />
k=1
5.4 Konvergenzrate im starken GGZ 117<br />
Wegen c ≥ 0 ist (Sk + c) 2 Ak ≥ (t + c)2 Ak , also können wir (5.12) fortsetzen<br />
durch<br />
≥<br />
n�<br />
E � (t + c) 2 � 2<br />
Ak =(t + c) P[A].<br />
k=1<br />
Für c = Var[Sn]/t ≥ 0 erhalten wir<br />
P[A] ≤<br />
Var[Sn]+c 2<br />
(t + c) 2<br />
= c(t + c)<br />
tc<br />
=<br />
(t + c) 2 t2 Var[Sn]<br />
=<br />
+ tc t2 + Var[Sn] .<br />
Damit ist (5.10) gezeigt. Um (5.11) zu zeigen, wähle ¯τ := min � k ∈{1,...,n} :<br />
|Sk| ≥t � und Āk = {¯τ = k} sowie Ā = {¯τ ≤ n}. Die obige Fortsetzung von<br />
(5.12) mit c>0 ist jetzt nicht zulässig. Wenn wir aber c =0wählen, gilt S2 k ≥<br />
t2 Āk . Mit der selben Rechnung wie in (5.12) erhalten wir P[Ā] ≤ t−2Var[Sn].✷ Wir folgern aus der Kolmogorov’schen Ungleichung eine erste Verschärfung des<br />
starken Gesetzes der großen Zahl.<br />
Satz 5.29. Seien X1,X2,...unabhängige Zufallsvariablen mit E[Xn] =0für jedes<br />
n ∈ N und V := sup{Var[Xn] : n ∈ N} < ∞. Dann gilt für jedes ε>0<br />
lim sup<br />
n→∞<br />
|Sn|<br />
n1/2 =0 fast sicher.<br />
(log(n)) (1/2)+ε<br />
Beweis. Setze kn =2 n und l(n) =n 1/2 (log(n)) (1/2)+ε für n ∈ N. Für k ∈ N mit<br />
kn ≤ k ≤ kn+1 ist |Sk|/k ≤ 2|Sk|/kn+1. Also reicht es, für δ>0 zu zeigen, dass<br />
lim sup l(kn)<br />
n→∞<br />
−1 max{|Sk| : k ≤ kn} ≤δ fast sicher. (5.13)<br />
Für δ > 0 und n ∈ N setze Aδ n := � max{|Sk| : k ≤ kn} > δl(kn) � .Die<br />
Kolmogorov’sche Ungleichung liefert<br />
∞�<br />
n=1<br />
P � A δ �<br />
n ≤<br />
∞�<br />
n=1<br />
δ −2 (l(kn)) −2 Vkn =<br />
V<br />
δ 2 (log 2) 1+2ε<br />
∞�<br />
n −1−2ε < ∞.<br />
Das Borel Cantelli Lemma liefert nun P � lim supn→∞ Aδ �<br />
n =0, also (5.13). ✷<br />
Wir werden in Kapitel 22 sehen, dass für unabhängige, identisch verteilte, quadratintegrierbare,<br />
zentrierte Zufallsvariablen X1,X2,...die folgende Verschärfung gilt<br />
lim sup<br />
n→∞<br />
n=1<br />
|Sn|<br />
� =1 fast sicher.<br />
2n Var[X1] log(log(n))<br />
Die Konvergenzrate ist also in diesem Fall genau bekannt. Sind die X1,X2,...nicht<br />
unabhängig, sondern nur paarweise unabhängig, so verschlechtert sich die Konvergenzrate,<br />
wenngleich nicht drastisch: Wir geben hier ohne Beweis einen Satz an,<br />
den Rademacher 1922 [134] und Menshov 1923 [111] unabhängig voneinander gefunden<br />
haben.
118 5 Momente und Gesetze der Großen Zahl<br />
Satz 5.30 (Rademacher–Menshov). Seien X1,X2,... unkorrelierte quadratintegrierbare<br />
zentrierte Zufallsvariablen und (an)n∈N eine wachsende Folge nichtnegativer<br />
Zahlen mit<br />
∞�<br />
(log n) 2 a −2<br />
n Var[Xn] < ∞. (5.14)<br />
Dann gilt lim sup<br />
n→∞<br />
�<br />
�<br />
�<br />
�<br />
n=1<br />
n�<br />
� a−1 n Xk<br />
k=1<br />
�<br />
�<br />
�<br />
� =0 fast sicher.<br />
�<br />
Beweis. Siehe etwa [120]. ✷<br />
Bemerkung 5.31. Die Bedingung (5.14) ist scharf in dem Sinne, dass es für jede<br />
wachsende Folge (an)n∈N mit �∞ n=1 a−2 n (log n) 2 = ∞ eine Folge paarweise<br />
unabhängiger, quadratintegrierbarer, zentrierter Zufallsvariablen X1,X2,...mit<br />
Var[Xn] =1für jedes n ∈ N gibt, sodass<br />
�<br />
�<br />
�<br />
lim sup �<br />
n→∞ � a−1<br />
n�<br />
�<br />
�<br />
�<br />
n Xk�<br />
= ∞ fast sicher.<br />
�<br />
k=1<br />
Siehe [24]. Dort wird ein Beispiel von Tandori [151] für so genannte orthogonale<br />
Reihen weiter entwickelt. Siehe auch [114]. ✸<br />
Für Zufallsvariablen mit unendlicher Varianz werden Aussagen über die Konvergenzgeschwindigkeit<br />
naturgemäß schwächer. Es gilt beispielsweise (siehe [11]):<br />
Satz 5.32 (Baum und Katz (1965)). Sei γ>1, und seien X1,X2,... u.i.v. sowie<br />
Sn = X1 + ...+ Xn für n ∈ N. Dann gilt<br />
∞�<br />
n γ−2 P[|Sn|/n>ε] < ∞ für jedes ε>0 ⇐⇒ E[|X1| γ ]0 die Ungleichung<br />
von Etemadi gilt:<br />
�<br />
P max<br />
k=1,...,n |Sk|<br />
�<br />
≥t<br />
5.5 Der Poissonprozess<br />
≤ 3 max<br />
k=1,...,n P� |Sk| ≥t/3 � . ♣<br />
Wir wollen ein Modell für die Anzahl der Klicks entwickeln, die ein Geigerzähler<br />
in einem (Zeit-)Intervall I =(a, b] macht. Die Anzahl der Klicks soll dabei
5.5 Der Poissonprozess 119<br />
– zufällig sein und unabhängig für disjunkte Intervalle,<br />
– zeitlich homogen in dem Sinne, dass die Anzahl der Klicks in I =(a, b] die selbe<br />
Verteilung hat, wie die Anzahl der Klicks in c + I =(a + c, b + c],<br />
– einen Erwartungswert besitzen,<br />
– keine Doppelpunkte aufweisen: der Zähler macht zu jedem Zeitpunkt nur einen<br />
Klick.<br />
Wir formalisieren diese Forderungen, indem wir die Notation einführen:<br />
I := {(a, b] : a, b ∈ [0, ∞), a≤ b}.<br />
ℓ((a, b]) := b − a (die Länge des Intervalls I =(a, b]).<br />
Für I ∈Isei NI die Anzahl der Klicks nach Zeitpunkt a und nicht später als b.<br />
Speziell setzen wir Nt := N (0,t] für die Gesamtzahl aller Klicks bis zur Zeit t. Die<br />
obigen Forderungen lassen sich nun übersetzen zu: (NI, I ∈I) ist eine Familie<br />
von Zufallsvariablen mit Werten in N0 mit den Eigenschaften<br />
(P1) NI∪J = NI + NJ, falls I ∩ J = ∅ und I ∪ J ∈Iist.<br />
(P2) Die Verteilung von NI hängt nur von der Länge von I ab: PNI = PNJ für<br />
alle I,J ∈Imit ℓ(I) =ℓ(J).<br />
(P3) Ist J ⊂ I mit I ∩ J = ∅ für alle I,J ∈Jmit I �= J, soist(NJ, J∈J)<br />
eine unabhängige Familie.<br />
(P4) Für jedes I ∈Igilt E[NI] < ∞.<br />
(P5) Es gilt lim supε↓0 ε−1 P[Nε ≥ 2] = 0.<br />
Die Bedeutung von (P5) erklärt sich durch die folgende Rechnung: Setzen wir λ :=<br />
lim supε↓0 ε−1 k k→∞<br />
P[Nε ≥ 2],soist(wegen(1 − ak/k) −→ e−a , falls ak<br />
P � es gibt einen Doppelklick in (0, 1] � = lim<br />
n→∞ P<br />
=1− lim<br />
n→∞ P<br />
2<br />
=1− lim<br />
n→∞<br />
n −1<br />
k=0<br />
=1− lim<br />
n→∞<br />
=1− e −λ .<br />
� 2 n �−1<br />
k→∞<br />
−→ a)<br />
� N(k 2 −n ,(k+1)2 −n ] ≥ 2 ��<br />
k=0<br />
� 2 n �−1<br />
�<br />
N(k 2−n ,(k+1)2−n ] ≤ 1 ��<br />
�<br />
k=0<br />
P � N (k 2 −n ,(k+1)2 −n ] ≤ 1 �<br />
� 1 − P[N2 −n ≥ 2] � 2 n<br />
Wir müssen also λ =0fordern; dies ist aber gerade (P5).
120 5 Momente und Gesetze der Großen Zahl<br />
Der nächste Satz zeigt, dass die Bedingungen (P1) – (P5) die Zufallsvariablen<br />
(NI, I∈I) eindeutig charakterisieren und zwar als Poissonprozess.<br />
Definition 5.33 (Poissonprozess). Eine Familie (Nt, t≥ 0) von N0–wertigen Zufallsvariablen<br />
heißt Poissonprozess mit Intensität α ≥ 0, falls N0 =0und:<br />
(i) Für jedes n ∈ N und je n +1Zahlen 0=t0 s≥ 0 ist Nt − Ns Poisson-verteilt mit Parameter α(t − s), also<br />
−α(t−s) (α(t − s))k<br />
P[Nt − Ns = k] =e<br />
k!<br />
für jedes k ∈ N0.<br />
Die Existenz eines Poissonprozesses ist an dieser Stelle noch nicht gesichert. Darauf<br />
kommen wir in Satz 5.35 zurück.<br />
Satz 5.34. Erfüllt (NI, I∈I) die Bedingungen (P1) – (P5), so ist (N (0,t], t≥ 0)<br />
ein Poissonprozess mit Intensität α := E[N (0,1]]. Ist umgekehrt (Nt, t≥ 0) ein<br />
Poissonprozess, so erfüllt (Nt − Ns, (s, t] ∈I) die Bedingungen (P1)–(P5).<br />
Beweis. Sei zunächst (Nt, t≥ 0) ein Poissonprozess mit Intensität α ≥ 0. Dann<br />
ist für I =(a, b] offenbar PNI =Poi α(b−a) =Poi αℓ(I). Also gilt (P2). Wegen (i)<br />
gilt (P3). Offenbar ist E[NI] =αℓ(I) < ∞, also gilt (P4). Schließlich ist P[Nε ≥<br />
2] = 1 − e −αε − αεe −αε = f(0) − f(αε), wobei f(x) :=e −x + xe −x . Wir bilden<br />
die Ableitung f ′ (x) =−xe −x . Dann ist offenbar<br />
lim ε<br />
ε↓0 −1 P[Nε ≥ 2] = −αf ′ (0) = 0.<br />
Also gilt auch (P5).<br />
Erfülle nun (NI, I∈I) die Bedingungen (P1) – (P5). Setze α(t) :=E[Nt]. Dann<br />
ist (wegen (P2))<br />
α(s + t) =E � � � � � �<br />
N (0,s] + N (s,s+t] = E N(0,s] + E N(0,t] = α(s)+α(t).<br />
Da t ↦→ α(t) monoton wachsend ist, folgt hieraus sogar α(t) =tα(1) für jedes t ≥<br />
0. Wir setzen α := α(1) und erhalten E[NI] =αℓ(I).Wirmüssen nur noch zeigen,<br />
dass PNt =Poiαt gilt. Um den Satz über die Poissonapproximation (Satz 3.7) zu<br />
verwenden, zerlegen wir für festes n ∈ N, das Intervall (0,t] in 2 n disjunkte gleich<br />
lange Intervalle<br />
I n (k) := � (k − 1)2 −n t, k2 −n t � , k =1,...,2 n ,<br />
und setzen Xn (k) :=NIn (k) sowie<br />
X n �<br />
n 1, falls X (k) ≥ 1,<br />
(k) :=<br />
0, sonst.
5.5 Der Poissonprozess 121<br />
Nach den Annahmen (P2) und (P3) sind (X n (k), k=1,...,2 n ) unabhängig und<br />
identisch verteilt. Daher ist auch (X n (k), k=1,...,2 n ) unabhängig und identisch<br />
verteilt, nämlich X n (k) ∼ Berpn , wobei pn = P[N 2 −n t ≥ 1].<br />
Schließlich setzen wir N n t := �2 n<br />
k=1 Xn (k). DannistNn t ∼ b2n ,pn . Offenbar ist<br />
N n+1<br />
t − N n t ≥ 0. Nun gilt nach (P5)<br />
P [Nt �= N n �<br />
t ] ≤ P [X n (k) ≥ 2] = 2 n P [N2−nt ≥ 2] n→∞<br />
−→ 0. (5.15)<br />
2 n<br />
k=1<br />
�<br />
Also ist P Nt = lim<br />
n→∞ N n t<br />
�<br />
=1. Nach dem Satz über monotone Konvergenz gilt<br />
αt= E [Nt] = lim<br />
n→∞ E [N n t ] = lim<br />
n→∞ pn 2 n .<br />
Nach dem Satz über Poisson-Approximation (Satz 3.7) gilt daher für jedes l ∈ N0<br />
P[Nt = l] = lim<br />
n→∞ P [N n t = l] =Poiαt({l}).<br />
Also ist PNt =Poiαt. ✷<br />
Bislang steht noch der Nachweis aus, dass es überhaupt Poissonprozesse gibt. In Kapitel<br />
24 werden wir ein allgemeines Konstruktionsprinzip kennen lernen, das auch<br />
für allgemeinere Räume als [0, ∞) funktioniert (siehe auch Übung 5.5.1).<br />
Eine weitere, instruktive Konstruktion basiert auf den Wartezeiten zwischen den<br />
Klicks, oder formal zwischen den Unstetigkeitsstellen der Abbildung t ↦→ Nt(ω).<br />
Wie groß ist die Wahrscheinlichkeit, dass wir zur Zeit s auf den nächsten Klick des<br />
Zählers länger als t Zeiteinheiten warten müssen? Wenn wir die Klicks als Poissonprozess<br />
mit Intensität α modellieren, ist diese Wahrscheinlichkeit<br />
P � N (s,s+t] =0 � = e −αt .<br />
Mithin ist die Wartezeit auf den nächsten Klick exponentialverteilt mit Parameter<br />
α. Außerdem sollten die Wartezeiten unabhängig voneinander sein. Wir nehmen<br />
nun die Wartezeiten als Startpunkt der Betrachtung und konstruieren hieraus den<br />
Poissonprozess.<br />
Sei W1,W2,...eine unabhängige Familie von exponentialverteilten Zufallsvariablen<br />
mit Parameter α>0, also P[Wn >x]=e−αx . Wir setzen<br />
n�<br />
Tn := Wk<br />
k=1<br />
und interpretieren Wn als die Wartezeit zwischen dem (n − 1)-ten und dem nten<br />
Klick. Tn ist der Zeitpunkt des n-ten Klicks. In Anlehnung an diese Intuition<br />
definieren wir
122 5 Momente und Gesetze der Großen Zahl<br />
Nt := #{n ∈ N0 : Tn ≤ t}<br />
als die Anzahl der Klicks bis zur Zeit t. Es ist dann<br />
Speziell ist also Nt eine Zufallsvariable.<br />
{Nt = k} = {Tk ≤ t
� ∞<br />
0<br />
···<br />
� ∞<br />
dxk+1 ··· dxk+l {s
6 Konvergenzsätze<br />
Im starken und schwachen Gesetz der großen Zahl hatten wir implizit schon die<br />
Begriffe von fast sicherer und stochastischer Konvergenz von Folgen von Zufallsvariablen<br />
kennen gelernt und gesehen, dass die fast sichere die stochastische Konvergenz<br />
impliziert. In diesem Kapitel definieren wir die Begriffe von fast sicherer<br />
und stochastischer Konvergenz sowie Konvergenz im Mittel von Folgen messbarer<br />
Abbildungen und setzen sie in Beziehung zueinander. Eine Schlüsselrolle kommt<br />
dabei dem Konzept der gleichgradigen Integrierbarkeit zu.<br />
6.1 Fast-überall- und stochastische Konvergenz<br />
Im Folgenden ist (Ω,A,μ) stets ein σ-endlicher Maßraum. Wir definieren zunächst<br />
Fast-überall-Konvergenz und stochastische Konvergenz in metrischen Räumen und<br />
vergleichen dann beide Konzepte miteinander. Hierfür benötigen wir zunächst zwei<br />
Lemmata, die sicher stellen, dass die Abstandsfunktion zweier messbarer Abbildungen<br />
wieder messbar ist. Sei im Folgenden (E,d) ein separabler, metrischer Raum<br />
mit Borel’scher σ-Algebra B(E). ” Separabel“ heißt dabei bekanntlich, dass es eine<br />
abzählbare, dichte Teilmenge gibt. Für x ∈ E und r>0 bezeichnen wir mit<br />
Br(x) ={y ∈ E : d(x, y)
126 6 Konvergenzsätze<br />
Seien f,f1,f2,... : Ω → E messbar bezüglich A – B(E).<br />
Definition 6.2. Wir sagen: (fn)n∈N konvergiert gegen f<br />
stoch<br />
(i) μ-stochastisch (oder dem Maße nach), in Formeln fn −→ f,wennfür jedes<br />
A ∈Amit μ(A) < ∞ und für jedes ε>0 gilt, dass<br />
μ({d(f,fn) >ε}∩A) n→∞<br />
−→ 0.<br />
f.ü.<br />
(ii) μ-fast überall, in Formeln fn −→ f, wenn es eine μ-Nullmenge N ∈Agibt,<br />
sodass für jedes ω ∈ Ω \ N gilt, dass<br />
d(f(ω),fn(ω)) n→∞<br />
−→ 0.<br />
Ist μ ein W-Maß, so sagen wir in diesem Fall auch, dass (fn)n∈N fast sicher<br />
f.s.<br />
konvergiert und schreiben fn −→ f. Gelegentlich werden die Hinweise fast<br />
”<br />
überall“ und fast sicher“ auch weglassen.<br />
”<br />
Bemerkung 6.3. Fast-überall-Konvergenz ist äquivalent zur Fast-überall-Konvergenz<br />
auf allen Mengen endlichen Maßes. ✸<br />
Bemerkung 6.4. Fast-überall-Konvergenz impliziert die stochastische: Sei zu ε>0<br />
Dn(ε) ={d(f,fm) >ε für ein m ≥ n}.<br />
Dann gilt D(ε) := �∞ n=1 Dn(ε) ⊂ N, wobei N die Nullmenge aus der Definition<br />
der F.ü.-Konvergenz ist. Die σ-Stetigkeit von oben von μ impliziert μ(Dn(ε) ∩<br />
A) n→∞<br />
−→ μ(D(ε) ∩ A) =0für jedes A ∈Amit μ(A) < ∞. ✸<br />
Bemerkung 6.5. Stochastische oder Fast-überall-Konvergenz legen den Grenzwert<br />
stoch<br />
stoch<br />
eindeutig fest bis auf Gleichheit fast überall. In der Tat: Sei fn −→ f und fn −→ g.<br />
Seien A1,A2,... ∈Amit An ↑ Ω und μ(An) < ∞ für jedes n ∈ N. Dannist<br />
(wegen d(f,g) ≤ d(f,fn)+d(g, fn)) für jedes m ∈ N und ε>0<br />
μ � Am ∩{d(f,g) >ε} �<br />
≤ μ � Am ∩{d(f,fn) >ε/2} � + μ � Am ∩{d(g, fn) >ε/2} � n→∞<br />
−→ 0.<br />
Also ist μ � {d(f,g) > 0} � =0. ✸<br />
Bemerkung 6.6. Im Allgemeinen impliziert stochastische Konvergenz nicht F.ü.-<br />
Konvergenz. In der Tat: Sei (Xn)n∈N eine unabhängige Familie von Zufallsvari-<br />
stoch<br />
ablen mit Xn ∼ Ber1/n. Dann gilt Xn −→ 0, jedoch ist nach dem Lemma von<br />
Borel-Cantelli lim supn→∞ Xn =1fast sicher. ✸
6.1 Fast-überall- und stochastische Konvergenz 127<br />
Satz 6.7. Seien A1,A2,... ∈Amit AN ↑ Ω und μ(AN ) < ∞ für jedes N ∈ N.<br />
Für messbare f,g : Ω → E setze<br />
˜d(f,g) :=<br />
∞�<br />
N=1<br />
2 −N<br />
1+μ(AN )<br />
�<br />
AN<br />
� 1 ∧ d(f(ω),g(ω)) � μ(dω). (6.1)<br />
Dann ist ˜ d eine Metrik, die die stochastische Konvergenz erzeugt: Sind f,f1,f2,...<br />
messbar, so gilt<br />
fn<br />
Beweis. Für N ∈ N setze<br />
�<br />
˜dN (f,g) :=<br />
stoch<br />
−→ f ⇐⇒ ˜ d(f,fn) n→∞<br />
−→ 0.<br />
AN<br />
� 1 ∧ d(f(ω),g(ω)) � μ(dω).<br />
Genau dann gilt ˜ d(f,fn) n→∞<br />
−→ 0,wenn˜ dN(f,fn) n→∞<br />
−→ 0 für jedes N ∈ N.<br />
” =⇒ “ Es gelte fn<br />
stoch<br />
−→ f. Dannistfür jedes ε ∈ (0, 1)<br />
˜dN (f,fn) ≤ μ � AN ∩{d(f,fn) >ε} � + εμ(AN ) n→∞<br />
−→ εμ(AN ).<br />
Da ε ∈ (0, 1) beliebig war, gilt ˜ dN (f,fn) n→∞<br />
−→ 0.<br />
” ⇐= “ Es gelte ˜ d(f,fn) n→∞<br />
−→ 0. SeiB ∈Amit μ(B) < ∞. Wähle δ>0 und<br />
N ∈ N so groß, dass μ(B \ AN ) ε} � ≤ δ + μ � AN ∩{d(f,fn) >ε} �<br />
≤ δ + ε −1 ˜ dN (f,fn) n→∞<br />
−→ δ.<br />
Da δ>0 beliebig war, folgt μ � B ∩{d(f,fn) >ε} � n→∞<br />
stoch<br />
−→ 0, also fn −→ f. ✷<br />
Wir betrachten nun den wichtigen Fall E = R mit der euklidischen Metrik. Hier<br />
haben wir durch das Integral einen weiteren Konvergenzbegriff zur Verfügung.<br />
Definition 6.8 (Konvergenz im Mittel). Seien f,f1,f2,... ∈L 1 (μ). Wir sagen<br />
(fn)n∈N konvergiere im Mittel gegen f, in Formeln<br />
falls �fn − f�1<br />
n→∞<br />
−→ 0.<br />
Bemerkung 6.9. Gilt fn<br />
fn<br />
L 1<br />
−→ f,<br />
L 1<br />
−→ f, so gilt insbesondere � fn dμ n→∞<br />
−→ � fdμ. ✸
128 6 Konvergenzsätze<br />
L 1<br />
Bemerkung 6.10. Gilt fn −→ f und fn −→ g, soistf = g fast überall. In der Tat<br />
n→∞<br />
ist nach der Dreiecksungleichung �f − g�1 ≤�fn− f�1 + �fn − g�1 −→ 0. ✸<br />
Bemerkung 6.11. L 1 -Konvergenz und F.ü.-Konvergenz implizieren jeweils stochastische<br />
Konvergenz. Alle anderen Implikationen sind im Allgemeinen falsch. ✸<br />
Satz 6.12 (Schnelle Konvergenz). Sei (E,d) ein separabler, metrischer Raum.<br />
Damit die Folge (fn)n∈N messbarer Abbildungen Ω → E fast überall konvergiert,<br />
ist hinreichend, dass eine der folgenden Bedingungen gilt.<br />
L 1<br />
(i) Es gilt E = R, es gibt ein p ∈ [1, ∞) mit fn ∈Lp (μ) für jedes n ∈ N, und<br />
es gibt ein f ∈Lp ∞�<br />
(μ) mit �fn − f�p < ∞.<br />
(ii) Es gibt ein messbares f mit<br />
n=1<br />
∞�<br />
μ(A ∩{d(f,fn) >ε}) < ∞ für jedes ε>0<br />
n=1<br />
und für jedes A ∈Amit μ(A) < ∞.<br />
In beiden Fällen gilt fn<br />
n→∞<br />
−→ f fast überall.<br />
(iii) E ist vollständig, und es gibt eine summierbare Folge (εn)n∈N, sodass<br />
∞�<br />
μ(A ∩{d(fn,fn+1) >εn}) < ∞ für jedes A ∈A mit μ(A) < ∞.<br />
n=1<br />
Beweis. Offenbar impliziert (i) schon (ii), denn nach der Markov’schen Ungleichung<br />
ist μ({|f − fn| >ε}) ≤ ε−p�f − fn�p p.<br />
Nach Bemerkung 6.3 reicht es, den Fall μ(Ω) < ∞ zu betrachten.<br />
Gelte nun (ii). Sei Bn(ε) = {d(f,fn) > ε} und B(ε) = lim sup Bn(ε). Das<br />
n→∞<br />
Lemma von Borel-Cantelli liefert μ(B(ε)) = 0.SeiN = �∞ n=1 B (1/n). Dann gilt<br />
μ(N) =0und fn(ω) n→∞<br />
−→ f(ω) für jedes ω ∈ Ω \ N.<br />
Gelte (iii). Sei Bn = {d(fn+1,fn) >εn} und B = lim sup Bn. Dannistμ(B) =<br />
n→∞<br />
0, und für jedes ω ∈ Ω\B ist (fn(ω))n∈N eine Cauchy-Folge in E.DaE vollständig<br />
ist, existiert der Limes f(ω) := limn→∞ fn(ω). Für ω ∈ B setze f(ω) =0. ✷<br />
Korollar 6.13. Sei (E,d) vollständig und separabel. Seien f,f1,f2,... messbare<br />
Abbildungen Ω → E. Dann sind die beiden folgenden Aussagen äquivalent.<br />
(i) fn<br />
n→∞<br />
−→ f stochastisch,<br />
(ii) Zu jeder Teilfolge von (fn)n∈N existiert eine gegen f fast überall konvergente<br />
Teilfolge.
6.1 Fast-überall- und stochastische Konvergenz 129<br />
Beweis. ” (ii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Dann gibt es ein ε>0<br />
und eine Teilfolge (fnk )k∈N mit ˜ d(fn,k,f) >εfür jedes k ∈ N. Offenbar konvergiert<br />
keine Teilfolge von (fnk )k∈N stochastisch gegen f, also auch nicht f.ü.<br />
” (i) =⇒ (ii)“ Gelte nun (i). Nach Bemerkung 6.3 können wir ohne Einschrän-<br />
stoch<br />
kung annehmen, dass μ(Ω) < ∞ gilt. Sei nk ↑∞beliebig. Wegen fnk −→ f für<br />
k →∞,können wir eine Teilfolge (fnk )l∈N wählen, sodass<br />
l<br />
∞�<br />
l=1<br />
�<br />
μ<br />
|f − fnk l | > 1<br />
l<br />
�<br />
< ∞.<br />
Nach Satz 6.12(ii) konvergiert (fnk l )l∈N fast überall gegen f. ✷<br />
Korollar 6.14. Ist (Ω,A,μ) ein Maßraum, bei dem stochastische und F.ü.-Konvergenz<br />
nicht zusammenfallen, so gibt es keine Topologie auf der Menge der messbaren<br />
Abbildungen Ω → E, die die F.ü.-Konvergenz erzeugt.<br />
Beweis. Wir nehmen an, dass es eine Topologie gibt, die die F.ü.-Konvergenz er-<br />
stoch<br />
zeugt. Seien f,f1,f2,...messbare Abbildungen mit der Eigenschaft, dass fn −→<br />
n→∞<br />
f, jedoch nicht fn −→ f fast überall. Sei nun U eine offene Menge, die f enthält,<br />
für die jedoch fn �∈ U für unendlich viele n ∈ N gilt. Sei also (fnk )k∈N eine Teil-<br />
k→∞<br />
folge mit fnk �∈ U für jedes k ∈ N. Wegenfnk−→<br />
f stochastisch, gibt es nach<br />
Korollar 6.13 wiederum eine Teilfolge (fnk )l∈N von (fnk l )k∈N<br />
l→∞<br />
mit fnk −→ f<br />
l<br />
fast überall. Es ist dann aber fnk ∈ U für alle bis auf endlich viele l, was einen<br />
l<br />
Widerspruch darstellt. ✷<br />
Korollar 6.15. Sei (E,d) ein separabler, vollständiger metrischer Raum. Es sei<br />
(fn)n∈N eine stochastische Cauchy-Folge in E, das heißt, für jedes A ∈ A mit<br />
μ(A) < ∞ und jedes ε>0 gilt<br />
μ � A ∩{d(fn,fm) >ε} � −→ 0 für m, n →∞.<br />
Dann konvergiert (fn)n∈N stochastisch.<br />
Beweis. Ohne Einschränkung kann μ(Ω) < ∞ angenommen werden. Wähle eine<br />
Teilfolge (fnk )k∈N, sodass<br />
μ �� d(fn,fnk ) > 2−k�� < 2 −k<br />
für jedes n ≥ nk.<br />
k→∞<br />
Nach Satz 6.12(iii) gibt es ein f mit fnk −→ f fast überall, also insbesondere<br />
k→∞<br />
μ({d(fnk ,f) >ε/2}) −→ 0 für jedes ε>0. Nun ist aber<br />
μ({d(fn,f) >ε}) ≤ μ({d(fnk ,fn) >ε/2})+μ({d(fnk ,f) >ε/2}).<br />
Ist k so groß, dass 2−k ε}) n→∞<br />
−→ 0, das heißt, es gilt fn<br />
stoch<br />
−→ f. ✷
130 6 Konvergenzsätze<br />
Übung 6.1.1. Man zeige: Ist Ω höchstens abzählbar, so folgt aus stochastischer<br />
Konvergenz schon F.ü.-Konvergenz. ♣<br />
Übung 6.1.2. Man gebe jeweils ein Beispiel an für eine Folge, die<br />
(i) in L1 konvergiert, aber nicht fast überall,<br />
(ii) fast überall konvergiert, aber nicht in L1 . ♣<br />
Übung 6.1.3. (Satz von Egorov (1911)) Sei (Ω,A,μ) ein endlicher Maßraum,<br />
und seien f1,f2,...messbare Funktionen, die fast überall gegen ein f konvergieren.<br />
Man zeige: Zu jedem ε>0 gibt es eine Menge A ∈Amit μ(Ω \ A) �g}<br />
Ist μ(Ω) < ∞, so ist die gleichgradige Integrierbarkeit äquivalent zu jeder der<br />
beiden folgenden Bedingungen<br />
(i) inf<br />
a∈[0,∞) sup<br />
�<br />
(|f|−a)<br />
f∈F<br />
+ dμ =0,<br />
(ii) inf<br />
a∈[0,∞) sup<br />
�<br />
|f| dμ =0.<br />
f∈F<br />
{|f|>a}
6.2 Gleichgradige Integrierbarkeit 131<br />
Beweis. Offenbar gilt (|f|−g) + ≤|f|·<br />
gradige Integrierbarkeit.<br />
{|f|>g}, also impliziert (6.3) die gleich-<br />
Gelte nun (6.2). Für jedes ε>0 sei gε ∈L1 (μ) so gewählt, dass<br />
�<br />
sup<br />
f∈F<br />
(|f|−gε) + dμ ≤ ε. (6.4)<br />
Setze �gε =2gε/2. Dannistfür f ∈F<br />
�<br />
�<br />
|f| dμ ≤ (|f|−gε/2) + dμ +<br />
{|f|> �gε}<br />
{|f|> �gε}<br />
�<br />
{|f|> �gε}<br />
g ε/2 dμ.<br />
Per Konstruktion ist �<br />
{|f|> �gε} (|f|−gε/2) + dμ ≤ ε/2 und gε/2 {|f|> �gε} ≤ (|f|−<br />
gε/2) + {|f|> �gε}, also auch �<br />
{|f|> �gε} gε/2 dμ ≤ �<br />
|f|> �gε (|f| −gε/2) + dμ ≤ ε/2.<br />
Insgesamt haben wir also<br />
�<br />
sup |f| dμ ≤ ε. (6.5)<br />
f∈F<br />
{|f|> �gε}<br />
Offenbar impliziert (ii) schon (i), und (i) impliziert die gleichgradige Integrierbarkeit<br />
von F, denn das Infimum wird hier ja über die kleinere Menge der konstanten<br />
Funktionen gebildet. Wir müssen noch zeigen, dass gleichgradige Integrierbarkeit<br />
(ii) impliziert. Sei also F gleichgradig integrierbar und μ(Ω) < ∞. Zu gegebenem<br />
ε>0 (und gε und ˜gε wie oben) wählen wir aε so, dass �<br />
{�g ε/2>aε} �g ε/2 dμ < ε<br />
2 .<br />
Dann ist<br />
�<br />
{|f|>aε}<br />
�<br />
|f| dμ ≤<br />
{|f|>�g ε/2}<br />
�<br />
|f| dμ + �g ε/2 dμ < ε. ✷<br />
{�g ε/2>aε}<br />
Satz 6.18. (i) Ist F ⊂ L 1 (μ) eine endliche Menge, so ist F gleichgradig integrierbar.<br />
(ii) Sind F, G⊂L 1 (μ) gleichgradig integrierbar, dann sind auch (f + g : f ∈<br />
F, g∈G) und (f − g : f ∈F,g∈G) sowie {|f| : f ∈F}gleichgradig<br />
integrierbar.<br />
(iii) Ist F gleichgradig integrierbar und existiert zu jedem g ∈Gein f ∈Fmit<br />
|g| ≤|f|, soistauchG gleichgradig integrierbar.<br />
Beweis. Der einfache Beweis verbleibt zur Übung. ✷<br />
Der folgende Satz beschreibt ein sehr gut anwendbares Kriterium für gleichgradige<br />
Integrierbarkeit. Wir werden diesen Satz an vielen Stellen einsetzen.
132 6 Konvergenzsätze<br />
Satz 6.19. Für endliches μ ist F⊂L1 (μ) genau dann gleichgradig integrierbar,<br />
wenn es eine Funktion H :[0, ∞) → [0, ∞) gibt mit limx→∞ H(x)/x = ∞ und<br />
�<br />
sup H(|f|) dμ < ∞.<br />
f∈F<br />
H kann sogar monoton wachsend und konvex gewählt werden.<br />
Beweis. ⇐= “ Es existiere H mit den angegebenen Eigenschaften. Dann gilt<br />
”<br />
Ka := infx≥a H(x)<br />
x ↑∞,wenna↑∞.Alsoistfür a>0<br />
sup<br />
f∈F<br />
�<br />
|f| dμ ≤<br />
{|f|≥a}<br />
1<br />
Ka<br />
sup<br />
f∈F<br />
�<br />
H(|f|) dμ<br />
{|f|≥a}<br />
�<br />
H (|f|) dμ a→∞<br />
−→ 0.<br />
≤ 1<br />
Ka<br />
sup<br />
f∈F<br />
” =⇒ “ Sei F gleichgradig integrierbar. Da μ(Ω) < ∞ gilt, gibt es (nach<br />
Satz 6.17) eine Folge an ↑∞mit<br />
�<br />
sup (|f|−an)<br />
f∈F<br />
+ dμ < 2 −n .<br />
Wir setzen<br />
H(x) =<br />
∞�<br />
(x − an) +<br />
n=1<br />
für jedes x ≥ 0.<br />
Dann ist H als Summe konvexer Funktionen konvex. Ferner gilt für jedes n ∈ N<br />
und x ≥ 2an, dassH(x)/x ≥ �n k=1 (1 − ak/x) + ≥ n/2, also gilt H(x)/x ↑∞.<br />
Schließlich ist nach dem Satz über monotone Konvergenz für jedes f ∈F<br />
�<br />
∞�<br />
�<br />
H(|f(ω)|) μ(dω) = (|f|−an) + ∞�<br />
dμ ≤ 2 −n =1. ✸<br />
n=1<br />
Zur Notation � · �p erinnere man sich an Definition 4.16.<br />
Definition 6.20. Sei p ∈ [1, ∞]. Eine Familie F ⊂ L p (μ) heißt beschränkt in<br />
L p (μ), falls sup{�f�p : f ∈F}< ∞ gilt.<br />
Korollar 6.21. Ist μ(Ω) < ∞ und p>1 sowie F beschränkt in L p (μ), dann ist F<br />
gleichgradig integrierbar.<br />
Beweis. Wende Satz 6.19 an mit der konvexen Abbildung H(x) =x p . ✷<br />
n=1
6.2 Gleichgradige Integrierbarkeit 133<br />
Korollar 6.22. Ist (Xi)i∈I eine Familie von Zufallsvariablen mit sup{|E[Xi]| : i ∈<br />
I} < ∞ und sup{Var[Xi] : i ∈ I} < ∞, dann ist (Xi)i∈I gleichgradig integrierbar.<br />
Beweis. Dies folgt aus Korollar 6.21 mit p =2,dennE[X 2 i ]=E[Xi] 2 + Var[Xi]<br />
ist in i ∈ I beschränkt. ✷<br />
Lemma 6.23. Es existiert eine Abbildung h ∈L 1 (μ) mit h>0 fast überall.<br />
Beweis. Seien A1,A2,...,∈Amit An ↑ Ω und μ(An) < ∞ für n ∈ N. Setze<br />
∞�<br />
h = 2 −n� 1+μ(An)) −1 An .<br />
n=1<br />
Dann ist h>0 fast überall und � hdμ≤ ∞�<br />
n=1<br />
2−n μ(An)<br />
1+μ(An) ≤ 1. ✷<br />
Satz 6.24. Eine Familie F⊂L1 (μ) ist genau dann gleichgradig integrierbar, wenn<br />
die beiden folgenden Bedingungen erfüllt sind.<br />
�<br />
(i) C := sup<br />
f∈F<br />
|f| dμ < ∞.<br />
(ii) Es gibt eine Funktion 0 ≤ h ∈L1 (μ), sodass für jedes ε>0 ein δ(ε) > 0<br />
existiert mit<br />
�<br />
�<br />
sup<br />
f∈F<br />
|f| dμ ≤ ε für jedes A ∈A mit hdμ0 gibt es ein δ(ε) > 0, sodass<br />
�<br />
sup<br />
f∈F<br />
|f| dμ ≤ ε für jedes A ∈A mit μ(A) 0<br />
fast überall. Sei ε>0 und �g ε/3 eine ε/3–Schranke für F (wie in (6.5)). Wegen<br />
� �gε/3 ≥ αh � ↓∅für α →∞, gilt für hinreichend großes α = α(ε)<br />
�<br />
�g ε/3≥αh<br />
�g ε/3 dμ < ε<br />
3 .<br />
Mit δ(ε) := ε<br />
�<br />
3α(ε) gilt dann für jedes A ∈Amit hdμ
134 6 Konvergenzsätze<br />
�<br />
|f| dμ ≤<br />
A<br />
�<br />
{|f|>�g ε/3}<br />
≤ ε<br />
3<br />
A<br />
�<br />
|f| dμ +<br />
�<br />
+ α hdμ +<br />
A<br />
�g ε/3 dμ<br />
�<br />
�g ε/3≥αh<br />
�g ε/3 dμ ≤ ε.<br />
Damit ist (ii) gezeigt. Setzen wir in die Rechnung A = Ω ein, so erhalten wir<br />
�<br />
|f| dμ ≤ 2ε<br />
Damit ist auch (i) gezeigt.<br />
�<br />
+ α<br />
3<br />
hdμ0. Wähle h und δ(ε) > 0 wie in (ii) und C<br />
wie in (i). Setze �h = C<br />
δ(ε) h. Dann ist<br />
�<br />
hdμ= δ(ε)<br />
C<br />
�<br />
�<br />
�<br />
δ(ε)<br />
hdμ≤<br />
C<br />
|f| dμ ≤ δ(ε),<br />
{|f|> � h}<br />
also nach Voraussetzung<br />
�<br />
{|f|> � h}<br />
{|f|> � h}<br />
|f| dμ < ε.<br />
” (ii) =⇒ (iii)“ Es gelte (ii). Sei ε>0 und δ = δ(ε) wie in (ii) gewählt. Sei<br />
K
Beweis. ” (i) =⇒ (ii)“ Dies ist klar.<br />
6.2 Gleichgradige Integrierbarkeit 135<br />
” (ii) =⇒ (iii)“ Für jedes ε>0 gibt es ein nε ∈ N, sodass �fn − fnε�1 ε}) ≤ ε −1 �fm − fn�1 −→ 0 für m, n →∞.<br />
Deshalb ist (fn)n∈N auch eine stochastische Cauchy-Folge, also stochastisch konvergent<br />
nach Korollar 6.15.<br />
” (iii) =⇒ (i)“ Sei f der stochastische Grenzwert der Folge (fn)n∈N. Wir nehmen<br />
an, dass (fn)n∈N nicht in L1 gegen f konvergiert. Dann gibt es ein ε>0 und eine<br />
Teilfolge (fnk )k∈N mit<br />
�f − fnk�1 > 2ε für jedes k ∈ N, (6.6)<br />
wobei wir �f − fnk�1 = ∞ setzen, falls f �∈ L1 (μ) ist. Nach Korollar 6.13 gibt<br />
es eine Teilfolge (fn ′ k )k∈N von (fnk )k∈N mit fn ′ k→∞<br />
−→ f fast überall. Nach dem<br />
k<br />
Lemma von Fatou (Satz 4.21) mit 0 als Minorante gilt daher<br />
�<br />
�<br />
|f| dμ ≤ lim inf<br />
k→∞<br />
|fn ′ | dμ < ∞.<br />
k<br />
Also ist f ∈L 1 (μ). Nach Satz 6.18(ii) (mit G = {f})ist(f −fn ′ k )n∈N gleichgradig<br />
integrierbar, also gibt es ein 0 ≤ g ∈L 1 (μ), sodass � (|f − fn ′ k |−g)+ dμ < ε.<br />
Setze<br />
k→∞<br />
gk = |fn ′ k<br />
− f|∧g für jedes k ∈ N.<br />
Dann gilt gk −→ 0 fast überall und g − gk ≥ 0. Nach dem Lemma von Fatou ist<br />
� �<br />
�<br />
lim sup<br />
k→∞<br />
gk dμ =<br />
�<br />
gdμ− lim inf<br />
k→∞<br />
� �<br />
(g − gk) dμ<br />
�<br />
≤ gdμ− lim (g − gk)<br />
k→∞<br />
dμ = 0.<br />
Wegen {|f − fn ′ k | >gk} = {|f − fn ′ k<br />
lim sup �f − fn<br />
k→∞<br />
′ k �1 ≤ lim sup<br />
k→∞<br />
{|f−fn ′ |>g}<br />
k<br />
| >g} ist also<br />
�<br />
|f − fn ′ �<br />
| dμ + lim sup<br />
k<br />
k→∞<br />
gk dμ ≤ ε,<br />
im Widerspruch zu (6.6). ✷<br />
Korollar 6.26 (Lebesgue’scher Konvergenzsatz, majorisierte Konvergenz). Sei<br />
f messbar und (fn)n∈N eine Folge in L1 (μ) mit fn<br />
n→∞<br />
−→ f stochastisch. Es existiere<br />
eine integrierbare Majorante 0 ≤ g ∈L1 (μ) mit |fn| ≤g fast überall für<br />
jedes n ∈ N. Dann gilt f ∈L1 (μ) und fn<br />
n→∞<br />
−→ f in L1 �<br />
fn dμ<br />
, also insbesondere<br />
n→∞<br />
−→ � fdμ.
136 6 Konvergenzsätze<br />
Beweis. Das folgt aus Satz 6.25, weil die Majorante die gleichgradige Integrierbarkeit<br />
der Folge (fn)n∈N sichert. ✷<br />
Übung 6.2.1. Sei H ∈L 1 (μ) mit H>0 μ-f.ü. (siehe Lemma 6.23) und (E,d) ein<br />
separabler metrischer Raum. Man zeige:<br />
(i) Durch<br />
�<br />
�1 �<br />
dH(f,g) := ∧ d(f(ω),g(ω)) H(ω) μ(dω)<br />
wird eine Metrik definiert, die die stochastische Konvergenz erzeugt.<br />
(ii) Ist (E,d) vollständig, so ist dH vollständig. ♣<br />
6.3 Vertauschung von Integral und Ableitung<br />
Wir wollen untersuchen, wie sich Eigenschaften wie Stetigkeit und Differenzierbarkeit<br />
von Zweiparameterfunktionen unter Integration nach einer Variablen erhalten.<br />
Satz 6.27 (Stetigkeitslemma). Sei (E,d) ein metrischer Raum, x0 ∈ E und f :<br />
Ω × E → R eine Abbildung mit den Eigenschaften<br />
(i) für jedes x ∈ E ist die Abbildung ω ↦→ f(ω, x) in L1 (μ),<br />
(ii) für fast alle ω ∈ Ω ist die Abbildung x ↦→ f(ω, x) stetig im Punkte x0,<br />
(iii) die Abbildung h : ω ↦→ supx∈E |f(ω, x)| ist in L1 (μ).<br />
�<br />
Dann ist die Abbildung F : E → R, x ↦→ f(ω, x) μ(dω) stetig in x0.<br />
Beweis. Sei (xn)n∈N eine Folge in E mit lim<br />
n→∞ xn = x0. Setze fn = f( · ,xn).<br />
n→∞<br />
Nach Voraussetzung ist |fn| ≤h und fn −→ f( · ,x0) fast überall. Nach dem<br />
Satz von der majorisierten Konvergenz (Korollar 6.26) ist<br />
�<br />
F (xn) = fn dμ n→∞<br />
�<br />
−→ f( · ,x0) dμ = F (x0).<br />
Also ist F stetig in x0. ✷
6.3 Vertauschung von Integral und Ableitung 137<br />
Satz 6.28 (Differentiationslemma). Sei I ⊂ R ein nichttriviales, offenes Intervall<br />
und f : Ω × I eine Abbildung mit den Eigenschaften<br />
(i) für jedes x ∈ I ist (ω ↦→ f(ω, x)) ∈L1 (μ),<br />
(ii) für fast alle ω ∈ Ω ist I → R, x ↦→ f(ω, x) differenzierbar, wobei wir die<br />
Ableitung mit f ′ bezeichnen,<br />
(iii) h := supx∈I |f ′ ( · ,x)| ∈L1 (μ).<br />
Dann gilt: Für jedes x ∈ I ist f ′ ( · ,x) ∈ L1 � (μ). Die Funktion F : x ↦→<br />
f(ω, x) μ(dω) ist differenzierbar mit Ableitung<br />
F ′ �<br />
(x) = f ′ (ω, x) μ(dω).<br />
Beweis. Sei x0 ∈ I und (xn)n∈N eine Folge in I mit xn �= x0 für jedes n ∈ N,<br />
sowie lim<br />
n→∞ xn = x0. Wir zeigen, dass entlang der Folge (xn)n∈N die Differenzenquotienten<br />
konvergieren. Setze<br />
gn(ω) = f(ω, xn) − f(ω, x0)<br />
xn − x0<br />
Nach Voraussetzung (ii) gilt<br />
gn<br />
für jedes ω ∈ Ω.<br />
n→∞<br />
−→ f ′ ( · ,x0) μ − fast überall.<br />
Nach dem Zwischenwertsatz der Differentialrechnung existiert zu jedem n ∈ N und<br />
fast jedem ω ∈ Ω ein yn(ω) ∈ I mit gn(ω) =f ′ (ω, yn(ω)). Speziell ist |gn| ≤h<br />
für jedes n ∈ N. Nach dem Satz von der majorisierten Konvergenz (Korollar 6.26)<br />
ist also die Grenzfunktion f ′ ( · ,x0) in L1 (μ) und<br />
F (xn) − F (x0)<br />
lim<br />
= lim<br />
n→∞ xn − x0 n→∞<br />
�<br />
�<br />
gn(ω) μ(dω) = f ′ (ω, x0) μ(dω). ✷<br />
Beispiel 6.29. (Laplace-Transformation) Sei X eine nichtnegative Zufallsvariable<br />
auf (Ω,A, P), I =[0, ∞) und f(x, λ) =e−λx für λ ∈ I. Dannist<br />
F (λ) =E � e −λX�<br />
in (0, ∞) unendlich oft differenzierbar. Die ersten Ableitungen sind F ′ (λ) =<br />
−E[Xe −λX ] und F ′′ (λ) =E[(X 2 )e −λX ]. Sukzessive erhalten wir die n-te Ableitung<br />
F (n) (λ) =E[(−X) n e −λX ]. Es gilt (monotone Konvergenz)<br />
E[X] =− lim<br />
λ↓0 F ′ (λ) (6.7)
138 6 Konvergenzsätze<br />
und<br />
E[X n ]=(−1) n lim<br />
λ↓0 F (n) (λ) für jedes n ∈ N. (6.8)<br />
In der Tat: Für ε>0 und I =(ε, ∞) ist sup<br />
x≥0,λ∈I<br />
�<br />
� d<br />
dλ f(x, λ)� � = sup<br />
x≥0,λ∈I<br />
xe −λx =<br />
ε −1 e −1 < ∞. Damit gelten die Voraussetzungen des Satzes für F . Iterativ erhalten<br />
wir die Aussage für F (n) ,denn � � d n<br />
dλ n f(x, λ) � � ≤ (n/ε) n e −n < ∞ für x ≥ 0 und<br />
λ ≥ ε. ✸<br />
Übung 6.3.1. Sei X eine Zufallsvariable auf (Ω,A, P) und<br />
Λ(t) :=log � E � e tX��<br />
für jedes t ∈ R.<br />
Man zeige, dass D := {t ∈ R : Λ(t) < ∞} ein nichtleeres Intervall ist, und dass Λ<br />
im Inneren von D unendlich oft differenzierbar ist. ♣
7 L p -Räume und Satz von Radon-Nikodym<br />
In diesem Kapitel wollen wir die Räume der Funktionen untersuchen, deren p-te<br />
Potenz integrierbar ist. Wir leiten in Abschnitt 7.2 zunächst wichtige Ungleichungen<br />
her (Hölder, Minkowski, Jensen) und untersuchen dann in Abschnitt 7.3 den<br />
Fall p =2, wo wir Hilberträume vorliegen haben, im Detail. Neben den genannten<br />
Ungleichungen sind die wichtigsten Ergebnisse für die Stochastik der Zerlegungssatz<br />
von Lebesgue sowie der Satz von Radon-Nikodym in Abschnitt 7.4. Der Leser<br />
mag beim ersten Lesen die anderen, eher analytisch als stochastisch ausgerichteten,<br />
Teile dieses Kapitels überschlagen.<br />
7.1 Definitionen<br />
In Definition 4.16 hatten wir für messbares f : Ω → R definiert<br />
��<br />
�f�p := |f| p �1/p dμ für p ∈ [1, ∞),<br />
und<br />
�f�∞ := inf � K ≥ 0: μ(|f| >K)=0 � .<br />
Ferner hatten wir die Räume definiert, wo diese Ausdrücke endlich sind<br />
L p (Ω,A,μ)=L p (A,μ)=L p (μ) ={f : Ω → R ist messbar und �f�p < ∞}.<br />
Wir hatten gesehen, dass � · �1 eine Pseudonorm auf L 1 (μ) ist. Unser erstes Ziel<br />
ist es hier, � · �p zu einer echten Norm zu machen, und zwar für jedes p ∈ [1, ∞].<br />
Abgesehen davon, dass die Dreiecksungleichung noch zu zeigen ist, müssen wir zu<br />
diesem Zwecke auch den Raum verändern, denn es gilt nur<br />
�f − g�p =0 ⇐⇒ f = g μ-f.ü.<br />
Bei einer echten (also nicht nur Pseudo-)Norm muss aus der linken Seite schon<br />
Gleichheit (nicht nur f.ü.) von f und g gelten. Wir sehen daher f und g als äquivalent<br />
an, falls f = g fast überall. Sei also<br />
N = {f ist messbar und f =0 μ-f.ü.}.
140 7 L p -Räume und Satz von Radon-Nikodym<br />
Für jedes p ∈ [1, ∞] ist N ein Untervektorraum von L p (μ).Wirkönnen also formal<br />
den Quotientenraum bilden. Dies ist das Standardverfahren, um aus einer Pseudonorm,<br />
eine Norm zu machen.<br />
Definition 7.1 (Quotientenraum). Für jedes p ∈ [1, ∞] definieren wir<br />
L p (Ω,A,μ):=L p (Ω,A,μ)/N = { ¯ f := f + N : f ∈L p (μ)}.<br />
Für ¯ f ∈ L p (μ) setzen wir � � ¯ f � �p = �f�p für ein f ∈ ¯ f und � ¯ fdμ= � fdμ, falls<br />
dieser Ausdruck für f definiert ist.<br />
Man beachte, dass � � ¯ f � �p nicht von der Wahl des Repräsentanten f ∈ ¯ f abhängt.<br />
Wir wollen jetzt zunächst die Konvergenz bezüglich � · �p untersuchen und erweitern<br />
dazu den entsprechenden Satz (Satz 6.25) über die Konvergenz bezüglich<br />
� · �1.<br />
Definition 7.2. Seien p ∈ [1, ∞] und f,f1,f2,... ∈Lp n→∞<br />
(μ). Falls �fn − f�p −→<br />
0 gilt, so sagen wir, dass (fn)n∈N im p-ten Mittel gegen f konvergiere und schreiben<br />
L p<br />
−→ f.<br />
fn<br />
Satz 7.3. Seien p ∈ [1, ∞] und f1,f2,...∈L p (μ). Dann sind äquivalent:<br />
(i) Es gibt ein f ∈Lp L<br />
(μ) mit fn<br />
p<br />
−→ f.<br />
(ii) (fn)n∈N ist eine Cauchy-Folge in Lp (μ).<br />
Ist p
7.2 Ungleichungen und Satz von Fischer-Riesz 141<br />
stochastisch, und (gn)n∈N ist gleichgradig integrierbar, da gn ≤ 2p (|fn| p + |f| p ).<br />
Also gilt (nach Satz 6.25) �fn − f�p p = �gn�1<br />
n→∞<br />
−→ 0. ✷<br />
Übung 7.1.1. Seien (Xi)i∈N unabhängige, quadratintegrierbare Zufallsvariablen mit<br />
E[Xi] =0für jedes i ∈ N.<br />
(i) Man zeige: Gilt �∞ i=1 Var[Xi] < ∞, so existiert eine reelle Zufallsvariable<br />
X mit �n i=1 Xi<br />
n→∞<br />
−→ X fast sicher.<br />
(ii) Gilt in (i) auch die Umkehrung? ♣<br />
Übung 7.1.2. Sei f : Ω → R messbar. Zeige:<br />
(i) Gilt � |f| p dμ < ∞ für ein p ∈ (0, ∞), so gilt �f�p<br />
p→∞<br />
−→ �f�∞.<br />
(ii) Auf die Integrierbarkeitsbedingung in (i) kann nicht verzichtet werden. ♣<br />
Übung 7.1.3. Sei p ∈ (1, ∞), f ∈L p (λ), wobei λ das Lebesgue-Maß auf R ist,<br />
und T : R → R, x ↦→ x +1. Man zeige:<br />
n−1<br />
1 �<br />
n<br />
k=0<br />
f ◦ T k n→∞<br />
−→ 0 in L p (λ). ♣<br />
7.2 Ungleichungen und Satz von Fischer-Riesz<br />
Wir wollen eine der wichtigsten Ungleichungen der <strong>Wahrscheinlichkeitstheorie</strong>, die<br />
Jensen’sche Ungleichung für konvexe Funktionen, herleiten. Aus dieser kann man<br />
die Hölder’sche Ungleichung und die Minkowski’sche Ungleichung folgern, die uns<br />
die Dreiecksungleichung für � · �p liefern sowie den Dualraum zu bestimmen helfen.<br />
Allerdings geben wir hier direkte (und einfachere) Beweise für die beiden letztgenannten<br />
Ungleichungen.<br />
Bevor wir zur Jensen’schen Ungleichung kommen, wiederholen wir kurz Grundsätzliches<br />
zur Konvexität von Mengen und Funktionen.<br />
Definition 7.4. Eine Teilmenge G eines Vektorraums (beziehungsweise eines affinlinearen<br />
Raums) heißt konvex, falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1]<br />
auch λx +(1− λ)y ∈ G ist.<br />
Beispiele 7.5. (i) Die konvexen Teilmengen von R sind die Intervalle.<br />
(ii) Ein linearer Unterraum eines Vektorraums ist konvex.<br />
(iii) Die Menge aller W-Maße auf einem Messraum ist eine konvexe Menge ✸
142 7 L p -Räume und Satz von Radon-Nikodym<br />
Definition 7.6. Sei G eine konvexe Menge. Eine Abbildung ϕ : G → R heißt konvex,<br />
falls für je zwei Punkte x, y ∈ G und jedes λ ∈ [0, 1] gilt<br />
f heißt konkav, falls −f konvex ist.<br />
ϕ(λx +(1− λ)y) ≤ λϕ(x)+(1− λ)ϕ(y).<br />
Ist I ⊂ R ein Intervall und ϕ : I → R stetig und im Inneren I ◦ zweimal stetig differenzierbar<br />
mit zweiter Ableitung ϕ ′′ ,soistϕ genau dann konvex, wenn ϕ ′′ (x) ≥ 0<br />
ist für alle x ∈ I ◦ . Anders ausgedrückt: Die erste Ableitung ϕ ′ einer konvexen<br />
Funktion ist eine monoton wachsende Funktion. Wir werden im nächsten Satz sehen,<br />
dass dies auch dann noch gilt, wenn ϕ nicht zweimal stetig differenzierbar ist,<br />
wenn wir zur rechtsseitigen Ableitung D + ϕ übergehen (oder zur linksseitigen), von<br />
der wir zeigen, dass sie immer existiert.<br />
Satz 7.7. Sei I ⊂ R ein Intervall mit Innerem I ◦ , sowie ϕ : I → R eine konvexe<br />
Abbildung. Dann gilt:<br />
(i) ϕ ist stetig in I◦ und insbesondere messbar bezüglich B(I).<br />
(ii) Für x ∈ I◦ definiere die Funktion der Differenzenquotienten<br />
ϕ(y) − ϕ(x)<br />
gx(y) := für y ∈ I \{x}.<br />
y − x<br />
Dann ist gx monoton wachsend, und es existieren die links- und rechtsseitigen<br />
Ableitungen<br />
und<br />
D − ϕ(x) := lim<br />
y↑x gx(y) =sup{gx(y) : yx}.<br />
(iii) Für x ∈ I ◦ gilt D − ϕ(x) ≤ D + ϕ(x) und<br />
ϕ(x)+(y − x)t ≤ ϕ(y) für jedes y ∈ I ⇐⇒ t ∈ [D − ϕ(x),D + ϕ(x)].<br />
D−ϕ(x) und D + ϕ(x) sind also die minimale und die maximale Tangentensteigung<br />
in x.<br />
(iv) Die Abbildungen x ↦→ D−ϕ(x) und x ↦→ D + ϕ(x) sind monoton wachsend.<br />
x ↦→ D−ϕ(x) ist linksstetig und x ↦→ D + ϕ(x) ist rechtsstetig. Es gilt<br />
D−ϕ(x) =D + ϕ(x) in allen Stetigkeitspunkten von D−ϕ und D + ϕ.<br />
(v) ϕ ist genau dann in x differenzierbar, wenn D−ϕ(x) =D + ϕ(x) ist. In diesem<br />
Fall ist die Ableitung ϕ ′ (x) =D + ϕ(x).<br />
(vi) ϕ ist fast überall differenzierbar, und es gilt ϕ(b) − ϕ(a) = � b<br />
a D+ ϕ(x) dx für<br />
a, b ∈ I ◦ .
7.2 Ungleichungen und Satz von Fischer-Riesz 143<br />
Beweis. (i) Sei x ∈ I ◦ . Wir nehmen an, dass lim infn→∞ ϕ(x−1/n) ≤ ϕ(x)−ε<br />
für ein ε>0 gilt. Da ϕ konvex ist, gilt<br />
ϕ(y) ≥ ϕ(x)+n(y − x)(ϕ(x) − ϕ(x − 1/n)) für jedes y>x und n ∈ N.<br />
Zusammen mit der obigen Annahme folgt ϕ(y) = ∞ für jedes y > x. Mithin<br />
war die Annahme falsch. Die analoge Überlegung für die rechte Seite liefert die<br />
Stetigkeit von ϕ in x.<br />
(ii) Die Monotonie folgt aus der Konvexität. Die anderen Aussagen sind klar.<br />
(iii) Aufgrund der Monotonie von gx gilt D−ϕ(x) ≤ D + ϕ(x). Per Konstruktion<br />
ist ϕ(x)+(y − x)t ≤ ϕ(y) für alle yxgenau dann, wenn t ≤ D + ϕ(x) ist.<br />
(iv) Für ε>0 ist aufgrund der Konvexität x ↦→ gx(x + ε) monoton wachsend<br />
und nach (i) stetig. Als Infimum monotoner, stetiger Funktionen ist x ↦→ D + ϕ(x)<br />
monoton wachsend und rechtsstetig. Analog folgt die Aussage für D−ϕ.Dax ↦→<br />
gx(y) monoton ist, folgt D + ϕ(x ′ ) ≥ D−ϕ(x ′ ) ≥ D + ϕ(x) für x ′ >x.IstD + ϕ<br />
stetig in x,soistD−ϕ(x) =D + ϕ(x).<br />
(v) Dies ist klar, da D−ϕ und D + ϕ die Limiten der linksseitigen und rechtsseitigen<br />
Sekantensteigungsfolgen sind.<br />
(vi) Für ε>0 sei Aε = {x ∈ I : D + ϕ(x) ≥ ε + limy↑x D + ϕ(y)} die Menge<br />
der Unstetigkeitsstellen der Höhe mindestens ε. Für je zwei Punkte a, b ∈ I mit<br />
a
144 7 L p -Räume und Satz von Radon-Nikodym<br />
Beweis. ” (ii) =⇒ (iii) ⇐⇒ (iv)“ Dies ist klar.<br />
” (iii) =⇒ (i)“ Das Supremum konvexer Funktionen ist konvex, und jede affin<br />
lineare Funktion ist konvex. Also ist sup L(ϕ) konvex, falls L(ϕ) �= ∅.<br />
” (i) =⇒ (ii)“ Nach Satz 7.7(iii) ist für jedes x0 ∈ I die Abbildung x ↦→ ϕ(x0)+<br />
(x − x0)D + ϕ(x0) in L(ϕ). ✷<br />
Satz 7.9 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall und X eine Zufallsvariable<br />
mit Werten in I und E[|X|] < ∞.Istϕ konvex, dann gilt E[ϕ(X) − ] < ∞<br />
und<br />
E[ϕ(X)] ≥ ϕ(E[X]).<br />
Beweis. Da nach Korollar 7.8(iii) L(ϕ) �= ∅ ist, können wir a, b ∈ R so wählen,<br />
dass ax + b ≤ ϕ(x) gilt für alle x ∈ I. Es ist dann<br />
E[ϕ(X) − ] ≤ E[(aX + b) − ] ≤|b| + |a|·E[|X|] < ∞.<br />
Wir unterscheiden die Fälle, wo E[X] im Inneren I◦ oder am Rand ∂I liegt.<br />
1. Fall Ist E[X] ∈ I◦ ,soseit + := D + ϕ(E[X]) die maximale Tangentensteigung<br />
von ϕ in E[X]. Dannistϕ(x) ≥ t + · (x − E[X]) + ϕ(E[X]) für jedes x ∈ I, also<br />
E[ϕ(X)] ≥ t + E[X − E[X]] + E[ϕ(E[X])] = ϕ(E[X]).<br />
2. Fall Ist E[X] ∈ ∂I, soistX = E[X] f.s., also E[ϕ(X)] = E[ϕ(E[X])] =<br />
ϕ(E[X]). ✷<br />
Die Jensen’sche Ungleichung lässt sich auf den R n ausweiten. Hierfür benötigen<br />
wir eine Darstellung konvexer Funktionen mehrerer Veränderlicher als Supremum<br />
von affin linearen Funktionen. Dabei heißt eine Funktion g : R n → R affin linear,<br />
wenn es ein a ∈ R n und ein b ∈ R gibt mit g(x) =〈a, x〉 + b für jedes x. Hierbei<br />
bezeichnet 〈 · , · 〉 das gewöhnliche Skalarprodukt auf R n .<br />
Satz 7.10. Sei G ⊂ R n offen und konvex und ϕ : G → R eine Abbildung. Dann gilt<br />
Korollar 7.8 sinngemäß mit I = G. Istϕ konvex, so ist ϕ stetig und insbesondere<br />
messbar. Ist ϕ zweimal stetig differenzierbar, so ist ϕ genau dann konvex, wenn die<br />
Hesse-Matrix positiv semidefinit ist.<br />
Beweis. Da wir die Aussagen nur für den Beweis der mehrdimensionalen Jensen’schen<br />
Ungleichung benötigen, die aber im weiteren Verlaufe keine tragende<br />
Bedeutung hat, geben wir nur die Literatur an: Im Buch von Rockafellar [138] folgt<br />
die Stetigkeit aus Theorem 10.1, die Aussage von 7.8 aus Theorem 12.1 beziehungsweise<br />
Theorem 18.8. Die Aussage über die Hesse-Matrix steht in Theorem 4.5. ✷
7.2 Ungleichungen und Satz von Fischer-Riesz 145<br />
Satz 7.11 (Jensen’sche Ungleichung im R n ). Sei G ⊂ R n konvex, und seien<br />
X1,...,Xn integrierbare reelle Zufallsvariablen mit P[(X1,...,Xn) ∈ G] =1.<br />
Sei ferner ϕ : G → R konvex. Dann ist E[ϕ(X1,...,Xn) − ] < ∞ und<br />
E � ϕ(X1,...,Xn) � ≥ ϕ(E[X1],...,E[Xn]).<br />
Beweis. Wir betrachten zunächst den Fall, wo G offen ist. Die Argumentation läuft<br />
hier ähnlich wie beim Beweis von Satz 7.9.<br />
Sei g ∈ L(ϕ) mit g(E[X1],...,E[Xn]) = ϕ(E[X1],...,E[Xn]). Dag ≤ ϕ linear<br />
ist, folgt<br />
E � ϕ(X1,...,Xn) � ≥ E[g(X1,...,Xn)] = g(E[X1],...,E[Xn]).<br />
Die Integrierbarkeit von ϕ(X1,...,Xn) − folgt völlig analog wie im eindimensionalen<br />
Fall. Sei jetzt der allgemeine Fall betrachtet, das heißt derjenige, wo G nicht<br />
notwendigerweise offen ist. Hier ist das Problem, wenn (E[X1],...,E[Xn]) ∈ ∂G<br />
liegt, etwas kniffliger als im eindimensionalen Fall, weil ∂G flache Stücke haben<br />
kann, die aber selbst notwendigerweise wieder konvex sind. Man kann also nicht<br />
schließen, dass (X1,...,Xn) fast sicher gleich dem Erwartungswert ist. Wir skizzieren<br />
nur das Argument: Zunächst kann man nur folgern, dass (X1,...,Xn) fast<br />
sicher in einem solchen flachen Stück liegt. Dieses ist dann notwendigerweise von<br />
Dimension kleiner als n ist (oder Null, falls das Stück schon ein Punkt ist). Jetzt<br />
muss man ϕ auf das flache Stück einschränken und sich iterativ in der Dimension<br />
herunter arbeiten. Die Details finden sich beispielsweise in [37, Theorem 10.2.6].✷<br />
Beispiel 7.12. Sei X eine reelle Zufallsvariable mit E[X 2 ] < ∞, I = R und<br />
ϕ(x) =x 2 . Aus der Jensen’schen Ungleichung folgt<br />
Var[X] =E[X 2 ] − (E[X]) 2 ≥ 0. ✸<br />
Beispiel 7.13. G =[0, ∞) × [0, ∞), und α ∈ (0, 1), sowieϕ(x, y) =x α y 1−α .<br />
ϕ ist konkav (Übung!), daher gilt für nichtnegative Zufallsvariablen X und Y mit<br />
endlicher Erwartung (nach Satz 7.11)<br />
E � X α Y 1−α� ≤ (E[X]) α (E[Y ]) 1−α . ✸<br />
Beispiel 7.14. Seien G, X und Y wie in Beispiel 7.13. Sei p ∈ (1, ∞). Dannist<br />
ψ(x, y) = � x 1/p + y 1/p�p konkav. Daher gilt (nach Satz 7.11)<br />
�<br />
E[X] 1/p + E[Y ] 1/p� p<br />
��<br />
≥ E X 1/p + Y 1/p� p�<br />
. ✸<br />
Wir kommen nun zu den beiden weiteren wichtigen Ungleichungen, der Hölder’schen<br />
Ungleichung und der Minkowski’schen Ungleichung. Zur Vorbereitung bringen<br />
wir ein Lemma.
146 7 L p -Räume und Satz von Radon-Nikodym<br />
Lemma 7.15 (Young’sche Ungleichung). Für p, q ∈ (1, ∞) mit 1<br />
p<br />
x, y ∈ [0, ∞) gilt<br />
xy ≤ xp<br />
p<br />
1 + q =1und für<br />
yq<br />
+ . (7.1)<br />
q<br />
Beweis. Wir halten y ∈ [0, ∞) fest und definieren f(x) := xp<br />
p<br />
+ yq<br />
q<br />
− xy für<br />
x ∈ [0, ∞). f ist zweimal stetig differenzierbar in (0, ∞) mit Ableitungen f ′ (x) =<br />
x p−1 − y und f ′′ (x) =(p − 1)x p−2 . Speziell ist f strikt konvex und besitzt daher<br />
eine eindeutige Minimalstelle bei x0 = y 1/(p−1) . Nach Voraussetzung ist q = p<br />
p−1 ,<br />
also x p<br />
0 = yq und daher<br />
f(x0) =<br />
� �<br />
1 1<br />
+ y<br />
p q<br />
q − y 1/(p−1) y =0. ✷<br />
Satz 7.16 (Hölder’sche Ungleichung). Seien p, q ∈ [1, ∞] mit 1<br />
p<br />
f ∈L p (μ), g∈L q (μ). Dann gilt (fg) ∈L 1 (μ) und<br />
�fg�1 ≤�f�p ·�g�q.<br />
+ 1<br />
q =1und<br />
Beweis. Die Fälle p =1und p = ∞ sind trivial. Sei also nun p ∈ (1, ∞) und<br />
f ∈ L p (μ) und g ∈ L q (μ) nicht fast überall Null. Indem wir zu f/�f�p und<br />
g/�g�q übergehen, können wir �f�p = �g�q =1annehmen. Nach Lemma 7.15 ist<br />
�<br />
�fg�1 = |f|·|g| dμ ≤ 1<br />
�<br />
|f|<br />
p<br />
p dμ + 1<br />
�<br />
|g|<br />
q<br />
q dμ<br />
= 1 1<br />
+<br />
p q =1 = �f�p ·�g�q. ✷<br />
Satz 7.17 (Minkowski’sche Ungleichung). Für p ∈ [1, ∞] und f,g ∈L p (μ) gilt<br />
�f + g�p ≤�f�p + �g�p. (7.2)<br />
Beweis. Der Fall p = ∞ ist wiederum trivial. Sei also p ∈ [1, ∞). Die linke Seite<br />
in (7.2) wird nicht kleiner, wenn wir f und g durch |f| und |g| ersetzen. Wir können<br />
also ohne Einschränkung annehmen, dass f ≥ 0 und g ≥ 0 gelten.<br />
Nun ist (f + g) p ≤ 2 p (f p ∨ g p ) ≤ 2 p (f p + g p ), also ist f + g ∈L p (μ). Mit Hilfe<br />
der Hölder’schen Ungleichung, angewandt auf f ·(f +g) p−1 und auf g ·(f +g) p−1 ,<br />
erhalten wir<br />
�f + g� p p =<br />
�<br />
(f + g) p �<br />
dμ =<br />
f(f + g) p−1 �<br />
dμ +<br />
≤�f�p ·�(f + g) p−1 �q + �g�p ·�(f + g) p−1 �q<br />
=(�f�p + �g�p) ·�f + g� p−1<br />
p ,<br />
g(f + g) p−1 dμ
7.3 Hilberträume 147<br />
wobei wir im letzten Schritt ausgenutzt haben, dass p − p/q =1ist. Teilen wir nun<br />
beide Seiten durch �f + g� p−1<br />
p , so folgt (7.2). ✷<br />
Wir haben in Satz 7.17 die Dreiecksungleichung gezeigt und damit, dass � · �p<br />
eine Norm ist. In Satz 7.3 wurde hingegen gezeigt, dass diese Norm vollständig<br />
ist (jede Cauchy-Folge konvergiert). Ein vollständiger normierter Vektorraum heißt<br />
Banachraum. Wir haben also den folgenden Satz gezeigt:<br />
Satz 7.18 (Fischer-Riesz). Für p ∈ [1, ∞] ist (L p (μ), � · �p) ein Banachraum.<br />
Übung 7.2.1. Zeige die Hölder’sche Ungleichung mit Hilfe der Jensen’schen Ungleichung<br />
mit der Funktion aus Beispiel 7.13. ♣<br />
Übung 7.2.2. Zeige die Minkowski’sche Ungleichung mit Hilfe der Jensen’schen<br />
Ungleichung mit der Funktion aus Beispiel 7.14. ♣<br />
Übung 7.2.3. Sei X eine reelle Zufallsvariable und p, q ∈ (1, ∞) mit 1<br />
p<br />
+ 1<br />
q =1.<br />
Zeige: X ist genau dann in L p (P), wenn es ein C 0 für jedes x ∈ V \{0}.<br />
Gelten lediglich (i), (ii) und 〈x, x〉 ≥0 für jedes x, soheißt〈 · , · 〉 eine positiv<br />
semidefinite symmetrische Bilinearform.<br />
Ist 〈 · , · 〉 ein Skalarprodukt, so heißt (V,〈 · , · 〉) ein (reeller) Hilbertraum, falls<br />
die durch �x� := 〈x, x〉 1/2 definierte Norm vollständig ist, falls also (V,� · �) ein<br />
Banachraum ist.
148 7 L p -Räume und Satz von Radon-Nikodym<br />
Definition 7.20. Für f,g ∈L2 (μ) definieren wir<br />
�<br />
〈f,g〉 := fgdμ.<br />
Für ¯ f,¯g ∈ L 2 (μ) definieren wir 〈 ¯ f,¯g〉 := 〈f,g〉, wobei f ∈ ¯ f und g ∈ ¯g.<br />
Man beachte, dass diese Definition unabhängig von der Wahl der Repräsentanten f<br />
und g ist.<br />
Satz 7.21. 〈 · , · 〉 ist ein Skalarprodukt auf L 2 (μ) und eine positiv semidefinite symmetrische<br />
Bilinearform auf L 2 (μ). Es gilt �f�2 = 〈f,f〉 1/2 .<br />
Beweis. Übung! ✷<br />
Als Korollar zu Satz 7.18 erhalten wir:<br />
Korollar 7.22. (L 2 (μ), 〈 · , · 〉) ist ein reeller Hilbertraum.<br />
Lemma 7.23. Ist 〈 · , · 〉 eine positiv semidefinite Bilinearform auf dem reellen Vektorraum<br />
V ,soist〈 · , · 〉 : V × V → R stetig (bezüglich der Produkttopologie der<br />
Topologie auf V , die von der Pseudometrik d(x, y) =〈x − y, x − y〉 1/2 erzeugt<br />
wird).<br />
Beweis. Klar. ✷<br />
Definition 7.24 (Orthogonales Komplement). Sei V ein reeller Vektorraum mit<br />
Skalarprodukt 〈 · , · 〉.IstW ⊂ V , so bezeichnen wir den Untervektorraum<br />
W ⊥ := � v ∈ V : 〈v, w〉 =0 für alle w ∈ W �<br />
als das orthogonale Komplement von W .<br />
Satz 7.25 (Orthogonale Zerlegung). Sei (V,〈 · , · 〉) ein Hilbertraum und W ⊂ V<br />
ein abgeschlossener linearer Unterraum. Für jedes x ∈ V existiert eine eindeutige<br />
Darstellung x = y + z, wobei y ∈ W und z ∈ W ⊥ ist.<br />
Beweis. Sei x ∈ V und c := inf{�x − w� : w ∈ W }. Sei ferner (wn)n∈N eine<br />
Folge in W mit �x − wn� n→∞<br />
−→ c. Die Parallelogrammgleichung ergibt<br />
�wm − wn� 2 =2�wm − x� 2 +2�wn − x� 2 �<br />
�<br />
− 4 �<br />
1<br />
�2<br />
(wm<br />
�2<br />
�<br />
+ wn) − x�<br />
� .<br />
Da W linear ist, ist (wm + wn)/2 ∈ W , also � 1<br />
2 (wm + wn) − x� ≥c. Alsoist<br />
(wn)n∈N eine Cauchy-Folge: �wm − wn� −→0, falls m, n →∞.
7.3 Hilberträume 149<br />
Da V vollständig ist und W abgeschlossen, ist auch W vollständig, also gibt es ein<br />
n→∞<br />
y ∈ W mit wn −→ y. Setze nun z := x−y.Dannist�z� = limn→∞ �wn−x� =<br />
c aufgrund der Stetigkeit der Norm (Lemma 7.23).<br />
Betrachte ein beliebiges w ∈ W \{0}. Wir setzen ϱ := −〈z,w〉/�w�2 und erhalten<br />
y + ϱw ∈ W , also<br />
c 2 ≤ �x − (y + ϱw)� 2 = �z� 2 + ϱ 2 �w� 2 +2ϱ 〈z,w〉 = c 2 − ϱ 2 �w� 2 .<br />
Folglich ist 〈z,w〉 =0für alle w ∈ W und damit z ∈ W ⊥ .<br />
Die Eindeutigkeit der Darstellung klar: Ist x = y ′ + z ′ eine weitere orthogonale<br />
Zerlegung, so ist y − y ′ ∈ W und z − z ′ ∈ W ⊥ sowie y − y ′ + z − z ′ =0, also ist<br />
0 = �y − y ′ + z − z ′ � 2 = �y − y ′ � 2 + �z − z ′ � 2 +2〈y − y ′ ,z− z ′ 〉<br />
= �y − y ′ � 2 + �z − z ′ � 2 .<br />
Es folgt y = y ′ und z = z ′ . ✷<br />
Satz 7.26 (Darstellungssatz von Riesz-Fréchet). Sei (V,〈 · , · 〉) ein Hilbertraum<br />
und F : V → R eine Abbildung. Dann sind äquivalent:<br />
(i) F ist stetig und linear.<br />
(ii) Es gibt ein f ∈ V mit F (x) =〈x, f〉 für alle x ∈ V .<br />
Das Element f ∈ V in (ii) ist eindeutig bestimmt.<br />
Beweis. ” (ii) =⇒ (i)“ Für jedes f ∈ V ist per Definition des Skalarprodukts die<br />
Abbildung x ↦→ 〈x, f〉 linear. Nach Lemma 7.23 ist diese Abbildung auch stetig.<br />
” (i) =⇒ (ii)“ Ist F ≡ 0, sowähle f =0. Sei nun F nicht identisch Null. Da F<br />
stetig ist, ist der Kern W := F −1 ({0}) ein abgeschlossener echter linearer Unterraum<br />
von V .Seiv∈ V \W und v = y +z für y ∈ W und z ∈ W ⊥ die orthogonale<br />
Zerlegung von v. Dannistz�= 0, und F (z) =F (v) − F (y) =F (v) �= 0, und<br />
wir können u := z/F(z) ∈ W ⊥ definieren. Offenbar ist F (u) =1, und für jedes<br />
x ∈ V ist F (x − F (x)u) =F (x) − F (x)F (u) =0, also x − F (x)u ∈ W<br />
und damit 〈x − F (x)u, u〉 =0. Folglich ist F (x) =〈x, u〉/�u�2 . Setzen wir nun<br />
f := u/�u�2 ,soistF (x) =〈x, f〉 für alle x ∈ V .<br />
” Eindeutigkeit“ Sei 〈x, f〉 = 〈x, g〉 für alle x ∈ V . Setzen wir x = f − g, so<br />
erhalten wir 0=〈f − g, f − g〉, also f = g. ✷<br />
Wir werden den Darstellungssatz im folgenden Abschnitt für den Raum L 2 (μ) brauchen<br />
statt für den Hilbertraum L 2 (μ). Mit ein bisschen abstract nonsense lässt sich<br />
aber der vorangehende Satz auf diese Situation anwenden. Wir erinnern daran, dass<br />
N = {f ∈L 2 (μ) : 〈f,f〉 =0} der Unterraum der Funktionen ist, die fast sicher<br />
Null sind, und L 2 (μ) =L 2 (μ)/N der Quotientenraum. Dies ist ein Spezialfall der
150 7 L p -Räume und Satz von Radon-Nikodym<br />
Situation, wo (V,〈 · , · 〉) ein linearer Raum mit vollständiger positiv semidefiniter<br />
symmetrischer Bilinearform ist. In diesem Fall ist N := {v ∈ V : 〈v, v〉 =0} und<br />
V0 = V/N := {f + N : f ∈ V }. Wir schreiben 〈v + N ,w+ N〉0 := 〈v, w〉 und<br />
erhalten so einen Hilbertraum (V0, 〈 · , · 〉0).<br />
Korollar 7.27. Sei (V,〈 · , · 〉) ein linearer Vektorraum mit vollständiger positiv semidefiniter<br />
symmetrischer Bilinearform. Die Abbildung F : V → R ist genau dann<br />
stetig und linear, wenn es ein f ∈ V gibt mit F (x) =〈x, f〉 für alle x ∈ V .<br />
Beweis. Die eine Implikation ist trivial. Sei also F stetig und linear. Dann ist<br />
F (0) = 0, weil F linear ist, und für jedes v ∈Nist F (v) =F (0) = 0, weil<br />
F stetig ist (klar: v liegt in jeder offenen Umgebung von 0, also muss F in v denselben<br />
Wert annehmen wie in 0). Also induziert F eine stetige lineare Abbildung<br />
F0 : V0 → R durch F0(x + N )=F (x). Nach Satz 7.26 existiert ein f + N∈V0<br />
mit F0(x + N )=〈x + N ,f+ N〉0 für jedes x + N∈V0. Nach Definition von F0<br />
und 〈 · , · 〉0 ist nun aber F (x) =〈x, f〉 für jedes x ∈ V . ✷<br />
Korollar 7.28. Die Abbildung F : L 2 (μ) → R ist genau dann stetig und linear,<br />
wenn es ein f ∈L 2 (μ) gibt mit F (g) = � gf dμ für alle g ∈L 2 (μ).<br />
Beweis. Der Raum L 2 (μ) erfüllt die Bedingungen des vorangehenden Korollars.✷<br />
7.4 Lebesgue’scher Zerlegungssatz<br />
In diesem Abschnitt benutzen wir die eben gewonnen Aussagen über Hilberträume,<br />
um ein Maß zu zerlegen in einen singulären und einen absolutstetigen Anteil bezüglich<br />
eines zweiten Maßes. Für den absolutstetigen Anteil zeigen wir, dass er eine<br />
Dichte besitzt. Seien μ und ν Maße auf (Ω,A). Nach Definition 4.13 heißt eine<br />
messbare Funktion f : Ω → [0, ∞) eine Dichte von ν bezüglich μ, falls<br />
�<br />
ν(A) := f A dμ für jedes A ∈A. (7.3)<br />
Andererseits definiert für jedes messbare f : Ω → [0, ∞) Gleichung (7.3) ein Maß<br />
ν auf (Ω,A). Wir schreiben in diesem Fall auch<br />
ν = fμ und f = dν<br />
. (7.4)<br />
dμ<br />
Beispielsweise hat die Normalverteilung ν = N0,1 die Dichte f(x) = 1<br />
√ 2π e −x2 /2<br />
bezüglich des Lebesgue-Maßes μ = λ auf R.<br />
Ist g : Ω → [0, ∞] messbar, so gilt (nach Satz 4.15)
7.4 Lebesgue’scher Zerlegungssatz 151<br />
� �<br />
gdν = gf dμ. (7.5)<br />
Wir erhalten so, dass genau dann g ∈L 1 (ν) ist, wenn gf ∈L 1 (μ) gilt, und in<br />
diesem Fall ist (7.5) erfüllt.<br />
Gilt ν = fμ, so ist offenbar ν(A) =0für jedes A ∈Amit μ(A) =0. In gewissem<br />
Sinne komplementär ist die Situation beispielsweise bei der Poissonverteilung μ =<br />
Poiϱ mit Parameter ϱ>0 und ν = N0,1. Hier ist N0 ⊂ R eine ν-Nullmenge mit<br />
μ(R \ N0) =0. Wir sagen, dass ν singulär zu μ ist.<br />
Das Ziel dieses Kapitels ist es, im allgemeinen Fall zu zeigen, dass ein beliebiges<br />
σ-endliches Maß ν auf einem Messraum (Ω,A) zerlegt werden kann in einen Teil,<br />
der singulär zum σ-endlichen Maß μ ist, und einen Teil, der eine Dichte bezüglich<br />
μ hat (Lebesgue’scher Zerlegungssatz, Satz 7.33).<br />
Satz 7.29 (Eindeutigkeit der Dichte). Sei νσ-endlich. Sind f1 und f2 Dichten von<br />
ν bezüglich μ, sogiltf1 = f2 μ-fast überall. Speziell ist die Dichtefunktion dν<br />
dμ<br />
eindeutig bis auf Gleichheit μ-fast überall.<br />
Beweis. Sei En ↑ Ω mit ν(En) < ∞, n ∈ N. SeiAn = En ∩{f1 >f2} für<br />
n ∈ N. Dannistν(An) < ∞, also<br />
�<br />
0=ν(An) − ν(An) = f1 − f2 dμ.<br />
Nach Satz 4.8(i) gilt f2 An = f1 An μ–f.ü., also μ(An) =0und μ({f1 >f2}) =<br />
μ( �<br />
n∈N An) =0. Analog folgt μ({f1 0, soistμ(A) = �<br />
fdλ>0 falls λ(A) > 0,<br />
A<br />
also μ ≈ λ.Istλ({f =0}) > 0,soist(wegenμ({f =0}) =0) λ �≪ μ.
152 7 L p -Räume und Satz von Radon-Nikodym<br />
(ii) Betrachte die Bernoulli-Verteilungen Berp und Berq für p, q ∈ [0, 1]. Istp∈ (0, 1), so gilt Berq ≪ Berp. Istp ∈{0, 1}, soistBerq ≪ Berp genau dann, wenn<br />
p = q, und Berq ⊥ Berp genau dann, wenn q =1− p.<br />
(iii) Betrachte die Poisson-Verteilungen Poiα und Poiβ für α, β ≥ 0. Es ist genau<br />
dann Poiα ≪ Poiβ,wennβ>0 oder α =0.<br />
(iv) Betrachte die unendlichen Produktmaße (siehe Satz 1.64) Ber ⊗N<br />
p<br />
auf Ω = {0, 1} N .DannistBer ⊗N<br />
p<br />
und Ber ⊗N<br />
q<br />
⊥ Ber ⊗N<br />
q , falls p �= q. In der Tat: Sei<br />
Xn((ω1,ω2,...)) = ωn für jedes n ∈ N die Projektion von Ω auf die n-te Koordinate.<br />
Dann ist (Xn)n∈N unabhängig und Bernoulli-verteilt (siehe Beispiel 2.18)<br />
mit Parameter r unter Ber ⊗N<br />
r . Nach dem starken Gesetz der großen Zahl gibt es also<br />
für r ∈{p, q} eine messbare Menge Ar ⊂ Ω mit Ber ⊗N<br />
r (Ω \ Ar) =0und<br />
1<br />
lim<br />
n→∞ n<br />
n�<br />
Xi(ω) =r für jedes ω ∈ Ar.<br />
i=1<br />
Speziell ist also Ap ∩ Aq = ∅, falls p �= q, und damit Ber ⊗N<br />
p ⊥ Ber ⊗N<br />
q . ✸<br />
Satz 7.33 (Zerlegungssatz von Lebesgue). Seien μ und νσ-endliche Maße auf<br />
(Ω,A). Dann lässt sich ν auf eindeutige Weise zerlegen in den (bezüglich μ) absolutstetigen<br />
Anteil νa und den singulären Anteil νs:<br />
ν = νa + νs, wobei νa ≪ μ und νs ⊥ μ.<br />
νa hat eine Dichte bezüglich μ, und dνa<br />
dμ<br />
ist A-messbar und μ–f.ü. endlich.<br />
Korollar 7.34 (Satz von Radon-Nikodym). Seien μ und νσ-endliche Maße auf<br />
(Ω,A). Dann gilt<br />
ν hat eine Dichte bezüglich μ ⇐⇒ ν ≪ μ.<br />
In diesem Fall ist dν<br />
dν<br />
dμ A-messbar und μ–f.ü. endlich. dμ heißt Radon-Nikodym-<br />
Ableitung von ν nach μ.<br />
Beweis. Die eine Richtung ist trivial. Sei also ν ≪ μ. Mit Satz 7.33 bekommen<br />
wir, dass ν = νa eine Dichte bezüglich μ hat. ✷<br />
Beweis (Satz 7.33). Die Idee geht auf v. Neumann zurück, wir folgen der Darstellung<br />
in [37].<br />
Wir können uns durch die üblichen Ausschöpfungsargumente auf den Fall beschränken<br />
wo μ und ν endlich sind. Nach Satz 4.19 ist die kanonische Inklusion
7.4 Lebesgue’scher Zerlegungssatz 153<br />
i : L2 (Ω,A,μ+ ν) ↩→ L1 (Ω,A,μ+ ν) stetig. Wegen ν ≤ μ + ν ist also auch<br />
die Linearform L2 (Ω,A,μ + ν) → R, h ↦→ � hdν stetig. Nach dem Satz von<br />
Riesz-Fréchet (hier: Korollar 7.28) existiert daher ein g ∈L2 (Ω,A,μ+ ν) mit<br />
� �<br />
hdν = hg d(μ + ν) für jedes h ∈L 2 (Ω,A,μ+ ν), (7.7)<br />
oder äquivalent dazu<br />
�<br />
f(1 − g) d(μ + ν) =<br />
�<br />
fdμ für jedes f ∈L 2 (Ω,A,μ+ ν). (7.8)<br />
Wählen wir in (7.7) speziell h = {g1}, in (7.8) dass (μ + ν)-fast überall g ≤ 1 gilt,<br />
also ist 0 ≤ g ≤ 1. Sei nun f ∈L 1 (Ω,A,μ+ ν), und seien (fn)n∈N nichtnegative<br />
Funktionen in L 2 (Ω,A,μ + ν) mit fn ↑ f. Nach dem Satz von der monotonen<br />
Konvergenz (angewandt auf das Maß (1 − g)(μ + ν), dem Maß mit Dichte (1 − g)<br />
bezüglich μ + ν) erhalten wir, dass (7.8) für alle messbaren f ≥ 0 gilt. Analog folgt<br />
die Gültigkeit von (7.7) für alle messbaren h ≥ 0.<br />
Sei E := g −1 ({1}). Setzen wir f = E in (7.8) ein, so erhalten wir μ(E) =0.Wir<br />
definieren jetzt zwei Maße νa und νs für A ∈Adurch<br />
νa(A) :=ν(A \ E) und νs(A) :=ν(A ∩ E).<br />
Offenbar gilt ν = νa + νs und νs(Ω \ E) =0, also νs ⊥ μ. Ist nun A ∩ E = ∅<br />
und μ(A) =0,soist � A dμ =0, also nach (7.8) auch �<br />
(1 − g) d(μ + ν) =0.<br />
A<br />
Andererseits ist 1−g >0 auf A, also μ(A)+ν(A) =0und damit νa(A) =ν(A) =<br />
0. Ist allgemeiner B messbar mit μ(B) =0,soistμ(B \ E) =0, also nach dem<br />
Gezeigten νa(B) =νa(B \ E) =0. Folglich ist νa ≪ μ und ν = νa + νs die<br />
gewünschte Zerlegung.<br />
Um die Dichte von νa bezüglich μ zu erhalten, setzen wir f := g<br />
1 − g Ω\E. Für<br />
jedes A ∈Aist nun nach (7.8) und (7.7) mit h = A\E<br />
�<br />
A<br />
�<br />
fdμ =<br />
A∩E c<br />
gd(μ + ν) =ν(A \ E) =νa(A).<br />
Also ist f = dνa<br />
dμ . ✷<br />
Übung 7.4.1. Wir definieren eine Abbildung F : (0, 1] → (0, 1] an der Stelle<br />
x ∈ (0, 1] mit nicht abbrechender Binärdarstellung x = (0,x1x2x3 �<br />
...) :=<br />
∞<br />
n=1 xn2−n durch<br />
∞�<br />
F (x) =(0,x1x1x2x2x3x3 ...)= 3 xn 4 −n .<br />
Man zeige, dass F die stetige Verteilungsfunktion eines W-Maßes μ auf B((0, 1])<br />
ist, und dass μ singulär zum Lebesgue-Maß λ � � ist. ♣<br />
(0,1]<br />
n=1
154 7 L p -Räume und Satz von Radon-Nikodym<br />
Übung 7.4.2. Sei n ∈ N und p, q ∈ [0, 1]. Unter welchen Bedingungen gilt für die<br />
Binomialverteilungen bn,p ≪ bn,q? Man bestimme die Radon-Nikodym Ableitung<br />
dbn,p<br />
. ♣<br />
dbn,q<br />
7.5 Ergänzung: Signierte Maße<br />
In diesem Abschnitt bringen wir die Zerlegungssätze für signierte Maße (Hahn, Jordan)<br />
und liefern einen alternativen Beweis für den Lebesgue’schen Zerlegungssatz.<br />
Definition 7.35. Seien μ und ν zwei Maße auf (Ω,A). ν heißt totalstetig bezüglich<br />
μ, falls es für jedes ε>0 ein δ>0 gibt, sodass für jedes A ∈Agilt<br />
μ(A) 0.<br />
k=n<br />
∞�<br />
2 −k = 0.<br />
Also ist ν �≪ μ. ✷
7.5 Ergänzung: Signierte Maße 155<br />
Beispiel 7.38. Die Endlichkeitsannahme ist für die Umkehrung im vorigen Satz essenziell.<br />
Sei beispielsweise μ = N0,1 die Standardnormalverteilung auf R und ν<br />
das Lebesgue-Maß auf R. Dann hat ν bezüglich μ die Dichte f(x) = √ 2πex2 /2 .<br />
Speziell gilt ν ≪ μ. Andererseits gilt μ([n, ∞)) n→∞<br />
−→ 0 und ν([n, ∞)) = ∞ für<br />
jedes n ∈ N. Mithin ist ν nicht totalstetig bezüglich μ. ✸<br />
Beispiel 7.39. Sei (Ω,A) ein Messraum, und seien μ und ν endliche Maße auf<br />
(Ω,A). MitZbezeichnen wir die Menge der endlichen Zerlegungen von Ω in disjunkte,<br />
messbare Mengen. Das heißt, Z ∈Zist eine endliche Teilmenge von A so,<br />
dass die Mengen C ∈ Z paarweise disjunkt sind und �<br />
C∈Z C = Ω für jedes Z.<br />
Für Z ∈Zdefinieren wir eine Funktion fZ : Ω → R durch<br />
fZ(ω) =<br />
�<br />
C∈Z: μ(C)>0<br />
ν(C)<br />
μ(C) C(ω).<br />
Wir zeigen, dass die folgenden drei Aussagen äquivalent sind:<br />
(i) Die Familie (fZ : Z ∈ Z) ist gleichgradig integrierbar in L 1 (μ) und<br />
� fZ dμ = ν(Ω) für jedes Z ∈Z.<br />
(ii) Es gilt ν ≪ μ.<br />
(iii) ν ist totalstetig bezüglich μ.<br />
Die Äquivalenz von (ii) und (iii) wurde im vorigen Satz bewiesen. Gilt (ii), so ist<br />
für jedes Z ∈Z �<br />
fZ dμ =<br />
�<br />
ν(C) =ν(Ω),<br />
C∈Z: μ(C)>0<br />
weil ν(C) =0ist für diejenigen C, die in der Summe nicht auftauchen. Sei nun<br />
ε>0 gegeben. Da aus (iii) aus (ii) folgt, gibt es ein δ ′ > 0, sodass ν(A)
156 7 L p -Räume und Satz von Radon-Nikodym<br />
Es folgt schließlich für A ∈Amit μ(A) 0<br />
�<br />
0ν(C)<br />
μ(A ∩ C) ν(C)<br />
μ(C) +<br />
�<br />
Kμ(C)>ν(C)<br />
Kμ(A ∩ C) ≤ ε<br />
+ Kμ(A) < ε.<br />
2<br />
Also ist (fZ, Z∈Z) gleichgradig integrierbar nach Satz 6.24(iii).<br />
μ(A ∩ C) ν(C)<br />
μ(C)<br />
Gelte nun (i). Ist μ =0,soist � fdμ=0für jedes f, also ν(Ω) =0und damit<br />
ν ≪ μ. Sei also μ �= 0.SeiA ∈Amit μ(A) =0.DannistZ = {A, A c }∈Zund<br />
fZ = A cν(Ac )/μ(A c ). Nach Voraussetzung ist ν(Ω) = � fdμ = ν(A c ), also<br />
ν(A) =0und damit ν ≪ μ. ✸<br />
Definition 7.40 (Ladungsverteilung, signiertes Maß). Eine Mengenfunktion ϕ :<br />
A → R heißt signiertes Maß oder Ladungsverteilung auf (Ω,A), falls sie σ–<br />
additiv ist, falls also für jede Folge paarweise disjunkter Mengen A1,A2,... ∈A<br />
gilt, dass<br />
�<br />
∞�<br />
�<br />
∞�<br />
ϕ = ϕ(An). (7.10)<br />
n=1<br />
An<br />
Die Menge aller Ladungsverteilungen bezeichnen wir mit LV = LV(Ω,A).<br />
Bemerkung 7.41. (i) Ist ϕ ein signiertes Maß, so liegt in (7.10) automatisch schon<br />
absolute Konvergenz vor. Tatsächlich ändert sich ja der Wert der linken Seite nicht,<br />
wenn wir die Mengen A1,A2,... umnummerieren. Damit dies für die rechte Seite<br />
auch gilt, muss nach dem Weierstraß’schen Umordnungssatz die Reihe absolut<br />
konvergieren. Speziell gilt für jede Folge (An)n∈N �<br />
paarweise disjunkter Mengen<br />
∞<br />
lim<br />
n→∞<br />
k=n |ϕ(Ak)| =0.<br />
(ii) Ist ϕ ∈LV,soistϕ(∅) =0,daR ∋ ν(∅) = �<br />
n∈N ν(∅).<br />
(iii) ϕ ∈LVist im Allgemeinen nicht σ-subadditiv. ✸<br />
Beispiel 7.42. Sind μ + ,μ − endliche Maße, so ist ϕ := μ + −μ − ∈LV. Wir werden<br />
sehen, dass jedes signierte Maß eine solche Darstellung besitzt. ✸<br />
Satz 7.43 (Zerlegungssatz von Hahn). Sei ϕ ein signiertes Maß. Dann gibt es<br />
eine Menge Ω + ∈Amit ϕ(A) ≥ 0 für jedes A ∈A, A ⊂ Ω + und ϕ(A) ≤ 0 für<br />
jedes A ∈A, A ⊂ Ω − := Ω \ Ω + . Eine solche Darstellung Ω = Ω − ⊎ Ω + wird<br />
auch Hahn-Zerlegung von Ω (bezüglich ϕ) genannt.<br />
n=1
7.5 Ergänzung: Signierte Maße 157<br />
Beweis. Sei α := sup � ϕ(A) : A ∈A � .Wirmüssen zeigen, dass ϕ das Maximum<br />
α tatsächlich annimmt, dass es also ein Ω + ∈Agibt mit ϕ(Ω + )=α. Dannist<br />
nämlich α ∈ R, und für A ⊂ Ω + , A ∈Agilt<br />
α ≥ ϕ(Ω + \ A) =ϕ(Ω + ) − ϕ(A) =α − ϕ(A),<br />
also ϕ(A) ≥ 0. Für A ⊂ Ω − , A ∈Aist ϕ(A) ≤ 0,denn<br />
α ≥ ϕ(Ω + ∪ A) =ϕ(Ω + )+ϕ(A) =α + ϕ(A).<br />
Wir konstruieren nun Ω + mit ϕ(Ω + ) = α. Sei(An)n∈Neine Folge in A mit<br />
α = lim<br />
n→∞ ϕ(An). Setze A := �∞ n=1 An. Da jedes An noch Anteile mit negati-<br />
”<br />
ver Masse“ enthalten kann, können wir nicht einfach Ω + = A wählen. Vielmehr<br />
müssen wir Schicht für Schicht die negativen Anteile abfischen.<br />
Setze A 0 n := An und A 1 n := A \ An sowie<br />
�<br />
n�<br />
Pn :=<br />
i=1<br />
A s(i)<br />
i<br />
: s ∈{0, 1} n<br />
�<br />
die Partition von A,dievonA1,...,An erzeugt wird. Offensichtlich gilt für B,C ∈<br />
Pn entweder B = C oder B ∩ C = ∅. Außerdem gilt An = �<br />
B. Setze<br />
und<br />
B∈Pn<br />
B⊂An<br />
P − n := {B ∈Pn : ϕ(B) < 0}, P + n := Pn \P − n ,<br />
B∈Pn<br />
B⊂An<br />
Cn := �<br />
B∈P +<br />
n<br />
B⊂An<br />
B∈P + n<br />
Wegen der endlichen Additivität von ϕ ist<br />
ϕ(An) = �<br />
ϕ(B) ≤ �<br />
ϕ(B) ≤ �<br />
ϕ(B) =ϕ(Cn).<br />
B.<br />
B∈P + n<br />
Für m ≤ n setze En m = Cm ∪ ...∪ Cn.Für m
158 7 L p -Räume und Satz von Radon-Nikodym<br />
Wir setzen jetzt Ω + = �∞ m=1 Em, also Em ↓ Ω + .Dannist<br />
⎛<br />
ϕ(Em) =ϕ ⎝Ω + ⊎ �<br />
⎞<br />
(En \ En+1) ⎠<br />
= ϕ(Ω + )+<br />
n≥m<br />
∞�<br />
n=m<br />
ϕ(En \ En+1) m→∞<br />
−→ ϕ(Ω + ),<br />
wobei wir im letzten Schritt Bemerkung 7.41(i) ausgenutzt haben. Insgesamt ist<br />
α = lim<br />
m→∞ ϕ(Am) ≤ lim<br />
m→∞ ϕ(Em) =ϕ(Ω + ).<br />
Per Definition ist aber α ≥ ϕ(Ω + ), also α = ϕ(Ω + ), was zu zeigen war. ✷<br />
Korollar 7.44 (Zerlegungssatz von Jordan). Sei ϕ ∈LV(Ω,A) ein signiertes<br />
Maß. Dann gibt es eindeutig bestimmte endliche Maße ϕ + ,ϕ − mit ϕ = ϕ + − ϕ −<br />
und ϕ + ⊥ ϕ − .<br />
Beweis. Sei Ω = Ω + ⊎ Ω − die Hahn-Zerlegung. Setze ϕ + (A) :=ϕ(A ∩ Ω + ) und<br />
ϕ − (A) :=−ϕ(A ∩ Ω − ).<br />
Die Eindeutigkeit der Zerlegung ist trivial. ✷<br />
Korollar 7.45. Sei ϕ ∈LV(Ω,A) und ϕ = ϕ + − ϕ− die Jordan-Zerlegung von ϕ,<br />
sowie Ω = Ω + ⊎ Ω− die Hahn-Zerlegung von Ω. Dann definiert<br />
�ϕ�TV := sup � ϕ(A) − ϕ(Ω \ A) : A ∈A �<br />
= ϕ(Ω + ) − ϕ(Ω − )<br />
= ϕ + (Ω)+ϕ − (Ω)<br />
eine Norm auf LV(Ω,A), die so genannte Totalvariationsnorm.<br />
Beweis. Zu zeigen ist nur die Dreiecksungleichung. Seien ϕ1,ϕ2 ∈LV.SeiΩ =<br />
Ω + ⊎ Ω − die Hahn-Zerlegung bezüglich ϕ := ϕ1 + ϕ2 und Ω = Ω +<br />
i<br />
bezüglich ϕi, i =1, 2. Dann gilt<br />
�ϕ1 + ϕ2�TV = ϕ1(Ω + ) − ϕ1(Ω − )+ϕ2(Ω + ) − ϕ2(Ω − )<br />
≤ ϕ1(Ω + 1 ) − ϕ1(Ω − 1 )+ϕ2(Ω + 2 ) − ϕ2(Ω − 2 )<br />
⊎ Ω−<br />
i die<br />
= �ϕ1�TV + �ϕ2�TV. ✷<br />
Wir wollen jetzt einen alternativen Beweis des Zerlegungssatzes von Lebesgue<br />
(Satz 7.33) angeben und bereiten dies mit einem Lemma vor.
7.5 Ergänzung: Signierte Maße 159<br />
Lemma 7.46. Seien μ, ν endliche Maße auf (Ω,A), die nicht singulär zueinander<br />
sind, kurz: μ �⊥ ν. Dann gibt es ein A ∈Amit μ(A) > 0 und ein ε>0 mit<br />
εμ(E) ≤ ν(E) für jedes E ∈A mit E ⊂ A.<br />
Beweis. Für n ∈ N sei Ω = Ω + n ⊎Ω− n eine Hahn-Zerlegung zu (ν− 1<br />
nμ) ∈LV. Setze<br />
M := �<br />
n∈N Ω− n .Offenbarist(ν−1 1<br />
nμ)(M) ≤ 0, also ν(M) ≤ nμ(M) für jedes<br />
n ∈ N und deshalb ν(M) =0.Wegenμ�⊥ ν folgt μ � Ω \M) =μ( �<br />
n∈N Ω+ �<br />
n > 0,<br />
also μ(Ω + n0 ) > 0 für ein n0 ∈ N. Setze A := Ω + 1<br />
n0 und ε := . Damit ist dann<br />
n0<br />
μ(A) > 0 und (ν − εμ)(E) ≥ 0 für jedes E ⊂ A, E ∈A. ✷<br />
Alternativer Beweis von Satz 7.33 Wir zeigen hier nur die Existenz der Zerlegung.<br />
Indem wir eine geeignete Folge Ωn ↑ Ω betrachten, können wir annehmen, dass ν<br />
schon endlich ist. Betrachte die Menge der Funktionen<br />
�<br />
�<br />
�<br />
G := g : Ω → [0, ∞] : g ist messbar und gdμ≤ ν(A) für alle A ∈A<br />
A<br />
und setze<br />
�<br />
γ := sup<br />
�<br />
�<br />
gdμ: g ∈G .<br />
Unser Ziel ist es, ein maximales Element f in G zu konstruieren (also eines mit<br />
� fdμ= γ), das dann die gesuchte Dichte von νa ist.<br />
Offenbar ist 0 ∈G, also G �= ∅. Weiter gilt<br />
f,g ∈G impliziert f ∨ g ∈G. (7.11)<br />
Mit E := {f ≥ g} ist nämlich für A ∈A<br />
�<br />
�<br />
�<br />
f ∨ gdμ = fdμ+ gdμ ≤ ν(A ∩ E)+ν(A \ E) = ν(A).<br />
A<br />
A∩E<br />
A\E<br />
Wähle eine Folge (gn)n∈N in G mit � gn dμ n→∞<br />
−→ γ und setze fn = g1 ∨ ...∨ gn.<br />
Wegen (7.11) ist fn ∈G. Der Satz von der monotonen Konvergenz liefert für f :=<br />
sup{fn : n ∈ N}<br />
�<br />
�<br />
fdμ = sup<br />
A<br />
n∈N<br />
(das heißt f ∈G) und weiter<br />
�<br />
fdμ = sup<br />
n∈N<br />
fn dμ ≤ ν(A) für jedes A ∈A,<br />
A<br />
�<br />
�<br />
fn dμ ≥ sup<br />
n∈N<br />
gn dμ = γ,<br />
also � fdμ= γ ≤ ν(Ω).Wirdefinieren nun für jedes A ∈A
160 7 L p -Räume und Satz von Radon-Nikodym<br />
�<br />
νa(A) := fdμ, νs(A) :=ν(A) − νa(A).<br />
A<br />
Nach Konstruktion ist nun νa ≪ μ ein endliches Maß mit Dichte f bezüglich μ.<br />
Wegen f ∈Gist νs(A) =ν(A) − �<br />
fdμ≥ 0 für jedes A ∈A, also ist auch νs<br />
A<br />
ein endliches Maß. Es bleibt zu zeigen, dass νs ⊥ μ.<br />
An dieser Stelle benutzen wir Lemma 7.46. Wir nehmen an, dass νs �⊥ μ gälte.<br />
Dann gäbe es ein ε>0 und ein A ∈Amit μ(A) > 0 so, dass εμ(E) ≤ νs(E) für<br />
jedes E ⊂ A, E ∈A.Für B ∈Awäre dann<br />
�<br />
�<br />
(f + ε A) dμ = fdμ+ εμ(A ∩ B)<br />
B<br />
B<br />
≤ νa(B)+νs(A ∩ B) ≤ νa(B)+νs(B) = ν(B).<br />
Mit anderen Worten: (f + ε A) ∈Gund damit � (f + ε A) dμ = γ + εμ(A) >γ,<br />
was im Widerspruch zur Definition von γ steht. Also ist tatsächlich νs ⊥ μ. ✷<br />
Übung 7.5.1. Sei μ ein σ-endliches Maß auf (Ω,A) und ϕ ein signiertes Maß auf<br />
(Ω,A). Man zeige, dass, analog zum Satz von Radon-Nikodym, die beiden folgenden<br />
Aussagen äquivalent sind:<br />
(i) Für jedes A ∈Amit μ(A) =0ist ϕ(A) =0.<br />
(ii) Es gibt ein f ∈L1 (μ) mit ϕ = fμ, also �<br />
fdμ= ϕ(A) für jedes A ∈A. ♣<br />
Übung 7.5.2. Seien μ, ν, α endliche Maße auf (Ω,A) mit ν ≪ μ ≪ α.<br />
(i) Zeige, dass die Kettenregel für die Radon-Nikodym-Ableitung gilt:<br />
dν<br />
dα<br />
= dν<br />
dμ<br />
dμ<br />
dα<br />
A<br />
α-f.ü.<br />
(ii) Zeige, dass f := dν<br />
dν f<br />
d(μ+ν) existiert und dass μ-f.ü. dμ = 1−f gilt. ♣<br />
7.6 Ergänzung: Dualräume<br />
Nach dem Darstellungssatz von Riesz-Fréchet (Satz 7.26) hat jede stetige Linearform<br />
F : L 2 (μ) → R eine Darstellung F (g) =〈f,g〉 für ein f ∈ L 2 (μ). Andererseits<br />
ist für jedes f ∈ L 2 (μ) die Abbildung L 2 (μ) → R, g ↦→ 〈f,g〉 stetig und<br />
linear. Daher ist L 2 (μ) in kanonischer Weise isomorph zu seinem topologischen<br />
Dualraum (L 2 (μ)) ′ . Dieser ist allgemein wie folgt definiert.<br />
Definition 7.47 (Dualraum). Sei (V,� · �) ein Banachraum. Der Dualraum V ′ von<br />
V ist definiert durch
V ′ := {F : V → R ist stetig und linear}.<br />
Für F ∈ V ′ setzen wir �F � ′ := sup{|F (f)| : �f� =1}.<br />
7.6 Ergänzung: Dualräume 161<br />
Bemerkung 7.48. Da F stetig ist, existiert für jedes δ > 0 ein ε > 0, sodass<br />
|F (f)|
162 7 L p -Räume und Satz von Radon-Nikodym<br />
Beweis. Für den Beweis greifen wir zurück auf den Satz von Radon-Nikodym (Korollar<br />
7.34). Allerdings skizzieren wir den Beweis nur, weil wir die Theorie der<br />
signierten Maße und Inhalte nicht vertiefen wollen. Ein signierter Inhalt ν ist eine<br />
additive Mengenfunktion, die sich als Differenz ν = ν + − ν − zweier endlicher<br />
Inhalte darstellen lässt, also auch negative Werte annehmen kann. (Diese Begriffsbildung<br />
ist analog zu der des signierten Maßes, das sich ja als Differenz zweier<br />
Maße darstellen lässt.)<br />
Da κ eine Isometrie ist, ist κ insbesondere injektiv. Wir müssen also nur noch zeigen,<br />
dass κ surjektiv ist. Sei F ∈ (L p (μ)) ′ .Dannistν(A) =F ( A) ein signierter Inhalt<br />
auf A, und es gilt<br />
|ν(A)| ≤�F � ′ p (μ(A)) 1/p .<br />
Da μ ∅-stetig ist, ist also auch ν ∅-stetig und daher ein signiertes Maß auf A. Es gilt<br />
sogar ν ≪ μ. Nach dem Satz von Radon-Nikodym (Korollar 7.34) (angewandt auf<br />
die Maße ν − und ν + , vergleiche Übung 7.5.1) besitzt ν eine Dichte bezüglich μ,<br />
also eine messbare Funktion f mit ν = fμ.<br />
Sei Ee := {g : g ist Elementarfunktion mit μ(g �= 0)< ∞} und E + e := {g ∈<br />
Ee : g ≥ 0}. Dannistfür g ∈ Ee<br />
�<br />
F (g) = gf dμ. (7.13)<br />
Um zu zeigen, dass (7.13) für alle g ∈L p (μ) gilt, müssen wir zunächst zeigen, dass<br />
f ∈L q (μ) liegt. Wir unterscheiden zwei Fälle.<br />
Fall 1: p =1. Für jedes α>0 ist<br />
μ({|f| >α}) ≤ 1<br />
ν({|f| >α})<br />
α<br />
= 1<br />
α F ( {|f|>α}) ≤ 1<br />
α �F �′ 1 ·� {|f|>α}�1 = 1<br />
α �F �′ 1 · μ({|f| >α}).<br />
Es folgt μ({|f| >α}) =0, falls α>�F � ′ 1, also �f�∞ ≤�F � ′ 1 < ∞.<br />
Fall 2: p ∈ (0, ∞). Nach Satz 1.96 existieren g1,g2,... ∈ E + e so, dass gn ↑|f|<br />
μ–f.ü. Setzen wir hn =sign(f)(gn) q−1 ∈ Ee,sogilt<br />
�gn� q �<br />
q ≤ hnf dμ = F (hn)<br />
≤ �F � ′ p ·�hn�p = �F � ′ p · (�gn�q) q−1 ,<br />
also ist �gn�q ≤ �F � ′ p. Monotone Konvergenz (Satz 4.20) liefert nun �f�q ≤<br />
�F � ′ p < ∞ also f ∈L q (μ).<br />
Daher ist die Abbildung � F : g ↦→ � gf dμ in (L p (μ)) ′ und � F (g) =F (g) für jedes<br />
g ∈ Ee.Da � F stetig ist und Ee ⊂ L p (μ) dicht liegt, gilt schon � F = F . ✷
7.6 Ergänzung: Dualräume 163<br />
Bemerkung 7.51. Die Aussage von Satz 7.50 ist für p = ∞ im Allgemeinen falsch.<br />
(Für endliches A ist die Aussage trivialerweise auch für p = ∞ richtig.) Sei beispielsweise<br />
Ω = N, A =2Ω und μ das Zählmaß. Wir betrachten also Folgenräume<br />
ℓp = Lp (N, 2N ,μ). Für den Unterraum ℓK ⊂ ℓ∞ der konvergenten Folgen ist<br />
F : ℓK → R, (an)n∈N ↦→ lim<br />
n→∞ an ein stetiges lineares Funktional. Nach den<br />
Hahn-Banach Sätzen der Funktionalanalysis (siehe etwa [73] oder [156]) kann F<br />
zu einem stetigen linearen Funktional auf ℓ∞ fortgesetzt werden. Offenbar gibt es<br />
jedoch kein (bn)n∈N ∈ ℓ1 mit F ((an)n∈N) = ∞�<br />
ambm. ✸<br />
m=1<br />
Übung 7.6.1. Man zeige, dass Ee ⊂ L p (μ) dicht liegt, falls p ∈ [1, ∞). ♣
8 Bedingte Erwartungen<br />
Wenn über den Ausgang eines Zufallsexperimentes eine Teilinformation vorhanden<br />
ist, ändern sich die Wahrscheinlichkeiten für die möglichen Ereignisse. Das Konzept<br />
der bedingten Wahrscheinlichkeiten und bedingten Erwartungen formalisiert den<br />
zugehörigen Kalkül.<br />
8.1 Elementare bedingte Wahrscheinlichkeiten<br />
Beispiel 8.1. Wir werfen einen fairen sechsseitigen Würfel und betrachten die Ereignisse<br />
A := {Augenzahl drei oder kleiner},<br />
B := {Augenzahl ungerade}.<br />
Offenbar ist P[A] = 1<br />
1<br />
2 und P[B] = 2 . Wie groß ist aber die Wahrscheinlichkeit,<br />
dass B eintritt, wenn wir schon wissen, dass A eintritt?<br />
Wir modellieren das Experiment auf einem Wahrscheinlichkeitsraum (Ω,A, P),<br />
wobei Ω = {1,...,6}, A =2Ω und P die Gleichverteilung auf Ω ist. Dann ist<br />
A = {1, 2, 3} und B = {1, 3, 5}.<br />
Wenn wir nur wissen, dass A eingetreten ist, liegt es nahe, auf {1, 2, 3} die Gleichverteilung<br />
zu vermuten. Wir definieren also auf (A, 2 A ) ein neues W-Maß PA durch<br />
PA[C] = #C<br />
#A<br />
für C ⊂ A.<br />
Indem wir Punkten in Ω \ A die Wahrscheinlichkeit Null geben (die können ja nicht<br />
eingetreten sein, wenn A eingetreten ist), können wir PA auf Ω fortsetzen durch<br />
P[C |A] := PA[C ∩ A] =<br />
So erhalten wir P[B |A] =<br />
#{1, 3}<br />
#{1, 2, 3}<br />
#(C ∩ A)<br />
#A<br />
für C ⊂ Ω.<br />
2<br />
= . ✸<br />
3
166 8 Bedingte Erwartungen<br />
Durch das Beispiel motiviert treffen wir die folgende Definition.<br />
Definition 8.2 (Bedingte Wahrscheinlichkeit). Sei (Ω,A, P) ein Wahrscheinlichkeitsraum<br />
und A ∈A. Dann definieren wir die bedingte Wahrscheinlichkeit<br />
gegeben A für jedes B ∈Adurch<br />
⎧<br />
⎨ P[A ∩ B]<br />
, falls P[A] > 0,<br />
P[B |A] = P[A]<br />
(8.1)<br />
⎩<br />
0, sonst.<br />
Bemerkung 8.3. Die genaue Festsetzung in (8.1) für den Fall P[A] =0ist willkürlich<br />
und unerheblich. ✸<br />
Satz 8.4. Ist P[A] > 0, soistP[ · |A] ein W-Maß auf (Ω,A).<br />
Beweis. Trivial! ✷<br />
Satz 8.5. Seien A, B ∈Amit P[A], P[B] > 0. Dann gilt<br />
A, B sind unabhängig ⇐⇒ P[B |A] =P[B] ⇐⇒ P[A|B] =P[A].<br />
Beweis. Trivial! ✷<br />
Satz 8.6 (Formel von der totalen Wahrscheinlichkeit).<br />
Sei I eine höchstens abzählbare Menge und (Bi)i∈I paarweise disjunkte Mengen<br />
mit P ��<br />
i∈I Bi<br />
�<br />
=1. Dann gilt für jedes A ∈A<br />
P[A] = �<br />
P[A|Bi] P[Bi]. (8.2)<br />
i∈I<br />
Beweis. Wegen der σ-Additivität von P ist<br />
� �<br />
�<br />
P[A] =P (A ∩ Bi) = �<br />
P[A ∩ Bi] = �<br />
P[A|Bi]P[Bi]. ✷<br />
i∈I<br />
i∈I<br />
Satz 8.7 (Bayes’sche Formel). Sei I eine höchstens abzählbare Menge sowie<br />
(Bi)i∈I paarweise disjunkte Mengen mit P ��<br />
i∈I Bi<br />
�<br />
=1. Dann gilt für jedes<br />
A ∈Amit P[A] > 0 und jedes k ∈ I<br />
i∈I<br />
P[Bk |A] = P[A|Bk] P[Bk]<br />
�<br />
i∈I P[A|Bi] P[Bi]<br />
(8.3)
Beweis. Es gilt<br />
P[Bk |A] = P[Bk ∩ A]<br />
P[A]<br />
8.1 Elementare bedingte Wahrscheinlichkeiten 167<br />
= P[A|Bk] P[Bk]<br />
.<br />
P[A]<br />
Setze jetzt (8.2) für P[A] ein. ✷<br />
Beispiel 8.8. Bei der Produktion gewisser elektronischer Bauteile sind 2% der Ware<br />
defekt. Ein schnelles Testverfahren erkennt ein defektes Bauteil mit Wahrscheinlichkeit<br />
95%, meldet aber bei 10% der intakten Bauteile falschen Alarm.<br />
Mit welcher Wahrscheinlichkeit ist ein als defekt erkanntes Bauteil wirklich defekt?<br />
Wir formalisieren die obige Beschreibung. Seien<br />
A := {Bauteil wird als defekt deklariert},<br />
B := {Bauteil ist defekt},<br />
sowie<br />
P[B] =0.02, P[Bc ]=0.98,<br />
P[A|B] =0.95, P[A|B c ]=0.1.<br />
Die Bayes’sche Formel liefert nun<br />
P[B |A] =<br />
P[A|B] P[B]<br />
P[A|B] P[B]+P[A|B c ] P[B c ]<br />
0.95 · 0.02 19<br />
=<br />
= ≈ 0.162.<br />
0.95 · 0.02 + 0.1 · 0.98 117<br />
Andererseits ist die Wahrscheinlichkeit, dass ein nicht als defekt erkanntes Bauteil<br />
dennoch defekt ist<br />
P[B |A c ] =<br />
0.05 · 0.02<br />
0.05 · 0.02 + 0.9 · 0.98<br />
= 1<br />
883<br />
≈ 0.00113. ✸<br />
Sei nun X ∈L 1 (P).IstA ∈A, so ist offenbar auch AX ∈L 1 (P), und wir setzen<br />
E[X; A] :=E[ A X]. (8.4)<br />
Ist P[A] > 0, soistP[ · |A] ein W-Maß. Wegen AX ∈L 1 (P) ist auch X ∈<br />
L 1 (P[ · |A]). Alsokönnen wir den Erwartungswert von X bezüglich P[ · |A] definieren.<br />
Definition 8.9. Sei X ∈L1 (P) und A ∈A. Dann setzen wir<br />
E[X |A] :=<br />
�<br />
X(ω) P[dω|A] =<br />
⎧<br />
⎨ E[ AX]<br />
,<br />
P[A]<br />
⎩<br />
0,<br />
falls P[A] > 0,<br />
sonst.<br />
(8.5)
168 8 Bedingte Erwartungen<br />
Offenbar ist P[B |A] =E[ B |A] für jedes B ∈A.<br />
Wir betrachten nun die Situation, die wir bei der Formel von der totalen Wahrscheinlichkeit<br />
untersucht hatten. Sei also I eine höchstens abzählbare Menge, und<br />
seien (Bi)i∈I paarweise disjunkte Ereignisse mit �<br />
Bi = Ω. Wirdefinieren F :=<br />
σ(Bi, i∈ I). Für X ∈L 1 (P) definieren wir eine Abbildung E[X |F]:Ω → R<br />
durch<br />
E[X |F](ω) =E[X |Bi] ⇐⇒ Bi ∋ ω. (8.6)<br />
Lemma 8.10. Die Abbildung E[X |F] hat die folgenden Eigenschaften:<br />
(i) E[X |F] ist F-messbar,<br />
(ii) E[X |F] ∈L1 �<br />
(P), und für jedes A ∈Fgilt<br />
Beweis. (i) Sei f die Abbildung f : Ω → I, mit<br />
i∈I<br />
f(ω) =i ⇐⇒ Bi ∋ ω.<br />
A<br />
�<br />
E[X |F] dP =<br />
A<br />
XdP.<br />
Ferner sei g : I → R, i ↦→ E[X |Bi]. DaI diskret ist, ist g messbar. Da f messbar<br />
ist bezüglich F, ist auch E[X |F]=g ◦ f messbar bezüglich F.<br />
(ii) Sei A ∈Fund J ⊂ I mit A = �<br />
j∈J Bj. SeiJ ′ := {i ∈ J : P[Bi] > 0}.<br />
Dann ist<br />
�<br />
E[X |F] dP = �<br />
P[Bi] E[X |Bi] = �<br />
E[ BiX]= �<br />
XdP. ✷<br />
A<br />
i∈J ′<br />
Übung 8.1.1 (Gedächtnislosigkeit der Exponentialverteilung). Sei X eine nichtnegative<br />
Zufallsvariable und θ>0. Man zeige: Genau dann ist X exponentialverteilt,<br />
wenn<br />
i∈J ′<br />
P[X >t+ s|X >s]=P[X >t] für alle s, t ≥ 0.<br />
Insbesondere gilt für θ>0: Genau dann ist X ∼ exp θ,wennP[X >t+ s|X ><br />
s] =e −θt für alle s, t ≥ 0 gilt. ♣<br />
8.2 Bedingte Erwartungen<br />
Wir nehmen an, dass X eine uniform auf [0, 1] verteilte Zufallsvariable ist, und dass<br />
bei Kenntnis des Wertes X = x die Zufallsvariablen Y1,...,Yn unabhängig und<br />
Berx-verteilt sind. Mit unserem Apparat können wir bisher bedingte Wahrscheinlichkeiten<br />
vom Typ P[ · |X ∈ [a, b]], a < b, ausrechnen. Wie sieht es aber aus<br />
A
8.2 Bedingte Erwartungen 169<br />
mit P[Y1 = ... = Yn =1 � �X = x]? Intuitiv sollte dies xn sein. Wir brauchen<br />
einen Begriff der bedingten Wahrscheinlichkeit, der auch für Ereignisse mit Wahrscheinlichkeit<br />
Null in konsistenter Weise unserer Intuition entspricht. Wir werden<br />
(im nächsten Abschnitt) sehen, dass dies im vorliegenden Beispiel mit Hilfe von<br />
Übergangskernen möglich ist. Zunächst aber betrachten wir die allgemeine Situation.<br />
Sei im Folgenden stets F ⊂ A eine Unter-σ-Algebra und X ∈L1 (Ω,A, P). In<br />
Anlehnung an Lemma 8.10 treffen wir die folgende Definition.<br />
Definition 8.11 (Bedingte Erwartung). Eine Zufallsvariable Y heißt bedingte<br />
Erwartung von X gegeben F, symbolisch E[X |F]:=Y , falls gilt:<br />
(i) Y ist F-messbar.<br />
(ii) Für jedes A ∈Fgilt E[X A] =E[Y A].<br />
Für B ∈Aheißt P[B |F]:=E[ B |F] die bedingte Wahrscheinlichkeit von B<br />
gegeben F.<br />
Satz 8.12. E[X |F] existiert und ist eindeutig (bis auf Gleichheit fast sicher).<br />
Da bedingte Erwartungen nur bis auf Gleichheit f.s. definiert sind, sind alle Gleichheiten<br />
mit bedingten Erwartungen immer nur als Gleichheiten f.s. zu verstehen, auch<br />
wenn nicht explizit darauf hingewiesen wird.<br />
Beweis. Eindeutigkeit. Seien Y und Y ′ Zufallsvariablen, die (i) und (ii) erfüllen.<br />
Setze A = {Y > Y ′ }∈F. Dann ist nach Bedingung (ii)<br />
0 = E[Y A] − E[Y ′ A] = E[(Y − Y ′ ) A].<br />
Wegen (Y − Y ′ ) A ≥ 0, ist dann P[A] =0, also Y ≤ Y ′ fast sicher. Analog folgt<br />
Y ≥ Y ′ fast sicher.<br />
Existenz. Seien X + = X ∨ 0 und X − = X + − X. Durch<br />
Q ± (A) :=E[X ± A] für jedes A ∈F,<br />
werden zwei endliche Maße auf (Ω,F) definiert. Offenbar ist Q ± ≪ P, also liefert<br />
der Satz von Radon-Nikodym (Korollar 7.34) die Existenz von Dichten Y ± , sodass<br />
Q ± �<br />
(A) = Y ± dP = E[Y ± A].<br />
A<br />
Setze nun Y = Y + − Y − . ✷<br />
Definition 8.13. Ist Y eine Zufallsvariable und X ∈ L 1 (P), sodefinieren wir<br />
E[X |Y ]:=E[X |σ(Y )].
170 8 Bedingte Erwartungen<br />
Satz 8.14 (Eigenschaften der bedingten Erwartung). Seien (Ω,A, P) und X<br />
wie oben sowie G⊂F⊂Aσ-Algebren. Ferner sei Y ∈L 1 (Ω,A, P). Dann gilt:<br />
(i) (Linearität) E[λX + Y |F]=λE[X |F]+E[ Y |F].<br />
(ii) (Monotonie) Ist X ≥ Y f.s., so ist E[X |F] ≥ E[ Y |F].<br />
(iii) Ist E[|XY |] < ∞ und Y messbar bezüglich F, dann ist<br />
E[XY |F]=Y E[X |F] und E[ Y |F]=E[ Y |Y ]=Y.<br />
(iv) (Turmeigenschaft) E[E[X |F]|G]=E[E[X |G]|F]=E[X |G].<br />
(v) (Dreiecksungleichung) E[|X| � �F] ≥ � �E[X |F] � �.<br />
(vi) (Unabhängigkeit) Sind σ(X) und F unabhängig, so ist E[X |F]=E[X].<br />
(vii) Gilt P[A] ∈{0, 1} für jedes A ∈F,soistE[X |F]=E[X].<br />
(viii) (Majorisierte Konvergenz) Ist Y ≥ 0 und ist (Xn)n∈N eine Folge von Zu-<br />
n→∞<br />
fallsvariablen mit |Xn| ≤Y für n ∈ N sowie Xn −→ X f.s., so gilt<br />
lim<br />
n→∞ E[Xn |F]=E[X |F] f.s. und in L 1 (P). (8.7)<br />
Beweis. (i) Die rechte Seite ist F-messbar, und für A ∈Fist<br />
E � � �� �<br />
A λE[X |F]+E[Y |F] = λE A E[X |F] � + E � A E[Y |F] �<br />
= λE[ A X]+E[ A Y ]<br />
= E � A (λX + Y ) � .<br />
(ii) Sei A = {E[X |F] < E[Y |F]} ∈F.WegenX ≥ Y ist E[ A (X − Y )] ≥ 0,<br />
also P[A] =0.<br />
(iii) Sei zunächst X ≥ 0 und Y ≥ 0. Für n ∈ N setze Yn =2 −n ⌊2 n Y ⌋. Dannist<br />
Yn ↑ Y sowie Yn E[X |F] ↑ Y E[X |F] (da E[X |F] ≥ 0 nach (ii)). Es gilt nach<br />
dem Satz von der monotonen Konvergenz (Lemma 4.6(ii))<br />
Andererseits ist<br />
E � A Yn E[X |F] � n→∞<br />
−→ E � A Y E[X |F] � .<br />
E � A Yn E[X |F] � =<br />
=<br />
∞�<br />
E � A {Yn=k 2−n } k 2 −n E[X |F] �<br />
k=1<br />
∞�<br />
E � A {Yn=k 2−n } k 2 −n X �<br />
k=1<br />
= E � A YnX � n→∞<br />
−→ E[ A YX].
8.2 Bedingte Erwartungen 171<br />
Also gilt E[ A Y E[X |F]] = E[ A YX]. Im allgemeinen Fall schreiben wir X =<br />
X + − X − und Y = Y + − Y − und nutzen die Linearität der bedingten Erwartung<br />
aus.<br />
(iv) Die zweite Gleichung folgt aus (iii) mit Y = E[X |G] und X =1. Sei nun<br />
A ∈G. Dann ist insbesondere auch A ∈F, also<br />
E � AE[E[X |F]|G] � = E � AE[X |F] � = E[ A X] = E � A E[X |G] � .<br />
(v) Das folgt aus (i) und (ii) mit X = X + − X − .<br />
(vi) Trivialerweise ist E[X] messbar bezüglich F. SeiA ∈F. Dann sind X und<br />
A unabhängig, also ist E[E[X |F] A] =E[X A] =E[X] E[ A].<br />
(vii) Für jedes A ∈Fund B ∈Agilt P[A ∩ B] =0, falls P[A] =0ist, und<br />
P[A∩B] =P[B], falls P[A] =1ist. Also ist F von A unabhängig und damit auch<br />
von jeder Teil-σ-Algebra von A. Speziell ist F von σ(X) unabhängig. Die Aussage<br />
folgt also aus (vi).<br />
n→∞<br />
(viii) Sei |Xn| ≤Y für jedes n ∈ N und Xn −→ X fast sicher. Setze Zn :=<br />
supk≥n |Xk − X|. Dannist0≤ Zn ≤ 2Y und Zn<br />
f.s.<br />
−→ 0. Nach Korollar 6.26<br />
(majorisierte Konvergenz) gilt E[Zn] n→∞<br />
−→ 0, also nach der Dreiecksungleichung<br />
E �� �E[Xn |F]−E[X |F] � � � ≤ E[E[|Xn−X| � �F]] = E[|Xn−X|] ≤ E[Zn] n→∞<br />
−→ 0.<br />
Dies ist aber die L1 �<br />
(P)-Konvergenz in (8.7). Sei Z := lim supn→∞ E[Zn<br />
�F].<br />
Nach dem Lemma von Fatou ist<br />
E[Z] ≤ lim<br />
n→∞ E[Zn] = 0,<br />
�<br />
also Z =0und damit E[Zn<br />
�F] n→∞<br />
−→ 0 fast sicher. Nach (v) ist aber<br />
� � � �<br />
�E[Xn<br />
�F] − E[X �F] � ≤ E[Zn]. ✷<br />
Bemerkung 8.15. Intuitiv ist E[X |F] die beste Vorhersage, die wir für den Wert<br />
von X machen können, wenn uns die Information aus der σ-Algebra F zur Verfügung<br />
steht. Ist beispielsweise σ(X) ⊂ F, kennen wir also X schon, dann ist<br />
E[X |F] =X, wie in (iii) gezeigt. Am anderen Ende der Skala ist der Fall, wo<br />
X und F unabhängig sind, wir also durch Kenntnis von F keine Information über<br />
X gewinnen. Hier ist die beste Vorhersage für X der Erwartungswert selber, also<br />
E[X] =E[X |F] wie in (vii) gezeigt.<br />
Was heißt dabei aber eigentlich genau ” beste Vorhersage“? Wir wollen dies für quadratintegrierbare<br />
Zufallsvariablen X als diejenige F-messbare Zufallsvariable verstehen,<br />
die den L 2 –Abstand zu X minimiert. Dass dies die bedingte Erwartung<br />
tatsächlich tut, ist der Inhalt des folgenden Korollars. ✸
172 8 Bedingte Erwartungen<br />
Korollar 8.16 (Bedingte Erwartung als Projektion). Sei F⊂Aeine σ-Algebra<br />
und X eine Zufallsvariable mit E[X2 ] < ∞. Dann ist E[X |F] die orthogonale<br />
Projektion von X auf L2 (Ω,F, P). Es gilt also für jedes F-messbare Y mit<br />
E[Y 2 ] < ∞<br />
E � (X − Y ) 2� ≥ E � (X − E[X |F]) 2�<br />
mit Gleichheit genau dann, wenn Y = E[X |F].<br />
Beweis. Sei Y messbar bezüglich F. Dann ist (mit der Turmeigenschaft) E[XY ]=<br />
E[E[X |F]Y ] und E � XE[X |F] � = E � E[XE[X |F] � �F] � = E � E[X |F] 2� , also<br />
E � (X − Y ) 2� ��X �� �<br />
2<br />
− E − E[X |F<br />
�<br />
= E X 2 − 2XY + Y 2 − X 2 +2XE[X |F] − E[X |F] 2�<br />
�<br />
= E Y 2 − 2Y E[X |F]+E[X |F] 2�<br />
��Y � �<br />
2<br />
= E − E[X |F] ≥ 0. ✷<br />
Beispiel 8.17. Seien X, Y ∈L 1 (P) unabhängig. Dann ist<br />
E[X + Y |Y ]=E[X |Y ]+E[Y |Y ]=E[X]+Y. ✸<br />
Beispiel 8.18. Seien X1,...,XN unabhängig mit E[Xi] =0, i =1,...,N. Setze<br />
Fn := σ(X1,...,Xn) und Sn := X1 + ...+ Xn für n =1,...,N.Dannistfür<br />
n ≥ m<br />
�<br />
�<br />
�<br />
E[Sn<br />
�Fm] =E[X1<br />
�Fm]+...+ E[Xn<br />
�Fm] = X1 + ...+ Xm + E[Xm+1]+...+ E[Xn]<br />
= Sm<br />
Nach Satz 8.14(iv) ist wegen σ(Sm) ⊂Fm auch<br />
E[Sn |Sm] = E � E[Sn |Fm] � �<br />
�Sm = E[Sm |Sm] = Sm. ✸<br />
Wir kommen nun zur Jensen’schen Ungleichung für bedingte Erwartungen.<br />
Satz 8.19 (Jensen’sche Ungleichung). Sei I ⊂ R ein Intervall, und sei ϕ : I →<br />
R konvex und X eine Zufallsvariable auf (Ω,A, P) mit Werten in I. Ferner sei<br />
E[|X|] < ∞ und F⊂Aeine σ-Algebra. Dann gilt<br />
∞ ≥ E[ϕ(X)|F] ≥ ϕ(E[X |F]).<br />
Beweis. (Man erinnere sich der Definition 1.68 zur Sprechweise ” fast sicher auf<br />
A“.) Auf dem Ereignis {E[X |F] ist ein Randpunkt von I} ist X = E[X |F] fast
8.2 Bedingte Erwartungen 173<br />
sicher, und die Aussage ist trivial. In der Tat: Ohne Einschränkung sei 0 der linke<br />
Randpunkt von I und A := {E[X |F]=0}. DaX Werte in I ⊂ [0, ∞) annimmt,<br />
ist 0 ≤ E[X A] =E[E[X |F] A] =0, also ist X A =0. Der Fall eines rechten<br />
Randpunktes geht analog.<br />
Sei also nun das Ereignis B := {E[X |F] ist innerer Punkt von I} betrachtet.<br />
Für jeden inneren Punkt x ∈ I sei D + ϕ(x) die maximale Tangentensteigung von ϕ<br />
in x, also der maximale Wert t mit ϕ(y) ≥ (y − x)t + ϕ(x) für alle y ∈ I (siehe<br />
Satz 7.7). Die Abbildung x ↦→ D + ϕ(x) ist monoton wachsend, also messbar, und<br />
daher ist D + ϕ(E[X |F]) eine F-messbare Zufallsvariable. Es folgt<br />
E � ϕ(X)|F � ��X � � � +<br />
≥ E − E[X |F] D ϕ(E[X |F]) + ϕ E[X |F] � �<br />
�<br />
�F<br />
= ϕ � E[X |F] �<br />
f.s auf B. ✷<br />
Korollar 8.20. Sei p ∈ [1, ∞] und F ⊂ A eine Teil-σ-Algebra. Dann ist die<br />
Abbildung Lp (Ω,A, P) → Lp (Ω,F, P), X ↦→ E[X |F] eine Kontraktion (das<br />
heißt: �E[X |F]�p ≤ �X�p) und damit insbesondere stetig. Es gilt also für<br />
X, X1,X2,...∈Lp n→∞<br />
(Ω,A, P) mit �Xn − X�p −→ 0 auch<br />
�<br />
�E[Xn |F] − E[X |F] � � p<br />
n→∞<br />
−→ 0.<br />
Beweis. Für p ∈ [1, ∞) benutze die Jensen’sche Ungleichung mit ϕ(x) =|x| p �<br />
.Für<br />
p = ∞ beachte, dass |E[X |F]| ≤E[|X||F] ≤ E[�X�∞ �F] =�X�∞. ✷<br />
Korollar 8.21. Ist (Xi, i∈ I) gleichgradig integrierbar � und (Fj, j∈ J) eine Familie<br />
von Teil-σ-Algebren von A, sowie Xi,j := E[Xi<br />
�Fj], dann ist (Xi,j, (i, j) ∈<br />
I × J) gleichgradig integrierbar. Insbesondere ist für X ∈ L1 (P) die Familie<br />
(E[X |Fj], j∈ J) gleichgradig integrierbar.<br />
Beweis. Nach Satz 6.19 existiert eine wachsende, konvexe Funktion f mit der Eigenschaft<br />
f(x)/x →∞, x →∞und L := sup i∈I E[f(|Xi|)] < ∞. Dannist<br />
x ↦→ f(|x|) konvex, also nach der Jensen’schen Ungleichung<br />
E � f(|Xi,j|) � = E � f �� �E[Xi |Fj] � � �� ≤ L < ∞.<br />
Nach Satz 6.19 ist daher (Xi,j, (i, j) ∈ I × J) gleichgradig integrierbar. ✷<br />
Beispiel 8.22. Seien μ und ν endliche Maße mit ν ≪ μ.Seif = dν/dμ die Radon-<br />
Nikodym-Ableitung, und sei I = {F ⊂ A : F ist eine σ-Algebra}. Betrachte die<br />
auf F eingeschränkten Maße μ � � und ν<br />
F<br />
� � .Dannistν<br />
F<br />
� � ≪ μ<br />
F<br />
� � (klar, denn in<br />
F<br />
F gibt es ja weniger μ–Nullmengen), also existiert die Radon-Nikodym-Ableitung<br />
fF := dν � � /dμ<br />
F<br />
� � .Dannist(fF : F ∈ I) gleichgradig integrierbar (bezüglich<br />
F<br />
μ). (Für endliche σ-Algebren F wurde dies schon in Beispiel 7.39 gezeigt.) In der
174 8 Bedingte Erwartungen<br />
Tat: Sei P = μ/μ(Ω) und Q = ν/μ(Ω). DannistfF = dQ � � /dP<br />
F<br />
� � .Für jedes<br />
F<br />
F ∈ F ist also E[fF F ] = �<br />
F fF dP = Q(F ) = �<br />
F fdP = E[f F ], also<br />
fF = E[f |F]. Nach dem vorangehenden Korollar ist (fF : F∈I) gleichgradig<br />
integrierbar bezüglich P und damit auch bezüglich μ. ✸<br />
Übung 8.2.1. (Bayes’sche Formel) Seien A ∈Aund B ∈F. Man zeige<br />
�<br />
P[A|F] dP<br />
B P[B |A] = � .<br />
P[A|F] dP<br />
Wird F von paarweise disjunkten Mengen B1,B2,... erzeugt, so ist dies gerade<br />
die Bayes’sche Formel aus Satz 8.7. ♣<br />
Übung 8.2.2. Man zeige durch ein Beispiel, dass E[E[X |F]|G] �= E[E[X |G]|F]<br />
gelten kann. ♣<br />
Übung 8.2.3. Man zeige die bedingte Markov’sche Ungleichung: Für monoton<br />
wachsendes f :[0, ∞) → [0, ∞) und ε>0 mit f(ε) > 0 ist<br />
P � |X| ≥ε|F � ≤ E�f(|X|) � �<br />
�F . ♣<br />
f(ε)<br />
Übung 8.2.4. Man zeige die bedingte Cauchy-Schwarz’sche Ungleichung: Für quadratintegrierbare<br />
Zufallsvariablen X, Y gilt<br />
E[XY |F] 2 ≤ E[X 2 |F] E[Y 2 |F]. ♣<br />
Übung 8.2.5. Seien X1,...,Xn integrierbar, unabhängig und identisch verteilt. Sei<br />
Sn = X1 + ...+ Xn. Zeige:<br />
E[Xi |Sn] = 1<br />
n Sn für jedes i =1,...,n. ♣<br />
Übung 8.2.6. Seien X1 und X2 unabhängig und exponentialverteilt mit Parameter<br />
θ>0. Man bestimme E[X1 ∧ X2 |X1]. ♣<br />
Übung 8.2.7. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichte f,<br />
und sei h : R → R messbar mit E[|h(X)|] < ∞. Es bezeiche λ das Lebesgue-Maß<br />
auf R.<br />
(i) Zeige, dass fast sicher gilt:<br />
E[h(X)|Y ]=<br />
� h(x)f(x, Y ) λ(dx)<br />
� f(x, Y ) λ(dx)<br />
(ii) Seien speziell X und Y unabhängig und exp θ-verteilt für ein θ>0. Bestimme<br />
E[X |X + Y ] und P[X ≤ x|X + Y ] für x ≥ 0. ♣<br />
.
8.3 Reguläre Version der bedingten Verteilung 175<br />
8.3 Reguläre Version der bedingten Verteilung<br />
Ist X eine Zufallsvariable mit Werten in einem Messraum (E,E),sokönnen wir mit<br />
unserem Apparat bisher für festes A ∈Adie bedingte Wahrscheinlichkeit P[A|X]<br />
angeben. Können wir die Situation aber auch so einrichten, dass wir für jedes x ∈ E<br />
ein W-Maß P[ · |X = x] angeben können, sodass für jedes A ∈Agilt P[A|X] =<br />
P[A|X = x] auf {X = x}?<br />
Wir sind beispielsweise an einem zweistufigen Zufallsexperiment interessiert: Im<br />
ersten Schritt wird eine Münze in zufälliger Weise so gefälscht, dass sie die Erfolgswahrscheinlichkeit<br />
X hat. Danach werden unabhängige Würfe Y1,...,Yn mit<br />
dieser Münze durchgeführt. Die ” bedingte Verteilung von (Y1,...,Yn) gegeben<br />
{X = x}“ sollte also (Berx) ⊗n sein.<br />
Sei X wie oben und Z eine σ(X)-messbare, reelle Zufallsvariable. Nach dem Faktorisierungslemma<br />
(Korollar 1.97) existiert eine E – B(R)-messbare Abbildung<br />
ϕ : E → R mit ϕ(X) =Z. IstX surjektiv, so ist ϕ eindeutig festgelegt. Wir<br />
schreiben dann Z ◦ X −1 := ϕ (auch wenn die Umkehrabbildung X −1 selber nicht<br />
existiert).<br />
Definition 8.23. Sei Y ∈L1 (P) und X :(Ω,A) → (E,E). Dann definieren wir<br />
die bedingte Erwartung von Y gegeben X = x, kurz E[Y |X = x], als die Funktion<br />
ϕ aus dem Faktorisierungslemma mit Z = E[Y |X].<br />
�<br />
Wir setzen analog P[A|X = x] =E[ �X A = x] für A ∈A.<br />
Für eine Menge B ∈Amit P[B] > 0 ist die bedingte Wahrscheinlichkeit P[ · |B]<br />
ein W-Maß. Gilt das Gleiche für P[ · |X = x]? Der Fall liegt hier komplizierter, da<br />
wir für jedes A ∈Aden Ausdruck P[A|X = x] für x nur bis auf eine Ausnahmemenge,<br />
die allerdings von A abhängt, definiert haben. Wenn wir die σ-Algebra<br />
A nun durch abzählbar viele A genügend gut approximieren können, besteht Hoffnung,<br />
dass die Ausnahmemengen sich zu einer Nullmenge vereinigen. Wir fassen<br />
zunächst die Begriffe genauer und zeigen dann das angedeutete Ergebnis.<br />
Definition 8.24 (Übergangskern, Markovkern). Sind (Ω1, A1), (Ω2, A2) Messräume,<br />
so heißt κ : Ω1 ×A2 → [0, ∞] ein (σ–)endlicher Übergangskern (von Ω1<br />
nach Ω2), falls<br />
(i) ω1 ↦→ κ(ω1,A2) ist A1-messbar für jedes A2 ∈A2.<br />
(ii) A2 ↦→ κ(ω1,A2) ist ein (σ–)endliches Maß auf (Ω2, A2) für jedes ω1 ∈ Ω1.<br />
Ist das Maß in (ii) ein W-Maß für jedes ω1 ∈ Ω1, soheißtκ stochastischer Kern<br />
oder Markovkern. Wird in (ii) zusätzlich κ(ω1,Ω2) ≤ 1 für jedes ω1 ∈ Ω1 gefordert,soheißtκ<br />
sub-Markov’sch oder substochastisch.
176 8 Bedingte Erwartungen<br />
Bemerkung 8.25. Es reicht, in Definition 8.24 die Eigenschaft (i) nur für Mengen<br />
A2 aus einem schnittstabilen Erzeuger E von A2, derΩ2oder eine Folge En ↑ Ω2<br />
enthält, zu fordern. Es ist nämlich stets<br />
D := � A2 ∈A2 : ω1 ↦→ κ(ω1,A2) ist A1-messbar �<br />
ein Dynkin-System (Übung!). Wegen E⊂Dist (Satz 1.19) D = σ(E) =A2. ✸<br />
Beispiel 8.26. (i) Sind (Ω1, A1) und (Ω2, A2) diskrete Messräume, so liefert jede<br />
Matrix (Kij) i∈Ω1 j∈Ω2 mit nichtnegativen Einträgen und endlichen Zeilensummen<br />
Ki := �<br />
Kij < ∞ für i ∈ Ω1,<br />
j∈Ω2<br />
einen endlichen Übergangskern von Ω1 nach Ω2 vermöge κ(i, A) = �<br />
Kij. Der<br />
Kern ist stochastisch, falls Ki =1für jedes i ∈ N und substochastisch, falls Ki ≤ 1<br />
für jedes i ∈ Ω1.<br />
(ii) Ist μ2 ein endliches Maß auf Ω2, dannistκ(ω1, · ) ≡ μ2 ein endlicher Übergangskern.<br />
(iii) κ(x, · )=Poix ist ein stochastischer Kern von [0, ∞) nach N0 (beachte: für<br />
jedes A ⊂ N0 ist x ↦→ Poix(A) stetig, also insbesondere messbar).<br />
(iv) Sei μ eine Verteilung auf R n und X eine Zufallsvariable mit PX = μ. Dann<br />
definiert κ(x, · )=P[X + x ∈ · ]=δx ∗ μ einen stochastischen Kern von R n nach<br />
R n . In der Tat: Die Mengen (−∞,y], y ∈ R n , bilden einen schnittstabilen Erzeuger<br />
von B(R n ) und x ↦→ κ(x, (−∞,y]) = μ((−∞,y−x]) ist linksstetig, also messbar.<br />
Nach Bemerkung 8.25 ist daher x ↦→ κ(x, A) messbar für jedes A ∈B(R n ). ✸<br />
Definition 8.27. Sei Y eine Zufallsvariable mit Werten in einem Messraum (E,E)<br />
und F⊂Aeine Unter-σ-Algebra. Ein stochastischer Kern κY,F von (Ω,F) nach<br />
(E,E) heißt reguläre Version der bedingten Verteilung von Y gegeben F, falls<br />
κY,F(ω, B) =P[{Y ∈ B}|F](ω) für P-fast alle ω ∈ Ω und für jedes B ∈E.<br />
Sei speziell F = σ(X) für eine Zufallsvariable X (in einem beliebigen Messraum<br />
(E ′ , E ′ )). Dann heißt der stochastische Kern (x, A) ↦→ κY,X(x, A) =P[{Y ∈<br />
A}|X = x] =κ Y,σ(X)(X −1 (x),A) (die Funktion aus dem Faktorisierungslemma<br />
mit beliebiger Festsetzung für x �∈ X(Ω)) eine reguläre Version der bedingten<br />
Verteilung von Y gegeben X.<br />
Satz 8.28 (Reguläre bedingte Verteilungen in R). Ist Y :(Ω,A) → (R, B(R))<br />
reellwertig, dann existiert eine reguläre Version κY,F der bedingten Verteilungen<br />
P[{Y ∈ · }|F].<br />
j∈A
8.3 Reguläre Version der bedingten Verteilung 177<br />
Beweis. Die Strategie besteht darin, eine messbare Version der Verteilungsfunktion<br />
der bedingten Verteilung von Y zu konstruieren, indem diese zunächst für rationale<br />
Werte festgelegt wird (bis auf eine Nullmenge) und dann auf die reellen Zahlen<br />
fortgesetzt wird.<br />
Für r ∈ Q sei F (r, · ) eine Version der bedingten Wahrscheinlichkeit P[Y ∈<br />
(−∞,r]|F]. Für r ≤ s ist offenbar {Y ∈(−∞,r]} ≤ {Y ∈(−∞,s]}, also gibt es<br />
nach Satz 8.14(ii) (Monotonie der bedingten Erwartung) eine Nullmenge Ar,s ∈F<br />
mit<br />
F (r, ω) ≤ F (s, ω) für jedes ω ∈ Ω \ Ar,s.<br />
Nach Satz 8.14(viii) (majorisierte Konvergenz) gibt es Nullmengen (Br)r∈Q ∈F<br />
und C ∈F, sodass<br />
lim<br />
n→∞ F<br />
�<br />
r + 1<br />
n ,ω<br />
�<br />
= F (r, ω) für jedes ω ∈ Ω \ Br und<br />
lim F (−n, ω) =0, lim F (n, ω) =1 für jedes ω ∈ Ω \ C.<br />
n→∞ n→∞<br />
Setze N := �<br />
r,s∈Q Ar,s ∪ �<br />
r∈Q Br ∪ C.Für ω ∈ Ω \ N definieren wir<br />
˜F (z,ω) :=inf � F (r, ω) : r ∈ Q, r≥ z �<br />
für alle z ∈ R.<br />
Da F ( · ,ω) monoton wachsend ist, ist ˜ F ( · ,ω) monoton wachsend und rechtsstetig<br />
in jedem z ∈ R \ Q. DaF ( · ,ω) zudem rechtsstetig ist, ist ˜ F ( · ,ω) rechtsstetig in<br />
jedem z ∈ Q. Alsoist˜ F ( · ,ω) eine Verteilungsfunktion für jedes ω ∈ Ω \ N. Für<br />
ω ∈ N setze ˜ F ( · ,ω)=F0, wobei F0 eine beliebige fest gewählte Verteilungsfunktion<br />
ist.<br />
Für jedes ω ∈ Ω definieren wir κ(ω, · ) als das durch die Verteilungsfunktion<br />
˜F ( · ,ω) definierte W-Maß auf (Ω,A). Für r ∈ Q und B =(−∞,r] ist dann<br />
ω ↦→ κ(ω, B) =P[Y ∈ B |F](ω) N c(ω)+F0(r) N (ω) (8.8)<br />
F-messbar. Nun ist {(−∞,r], r∈ Q} ein schnittstabiler Erzeuger von B(R). Nach<br />
Bemerkung 8.25 gilt die Messbarkeit also für jedes B ∈B(R), und damit ist κ als<br />
stochastischer Kern erkannt.<br />
Wir müssen noch zeigen, dass κ eine Version der bedingten Verteilungen ist. Für<br />
A ∈F, r ∈ Q und B =(−∞,r] ist nach (8.8)<br />
�<br />
�<br />
κ(ω, B) P[dω] = P � Y ∈ B |F � dP = P � A ∩{Y ∈ B} � .<br />
A<br />
A<br />
Als Funktion von B sind beide Seiten endliche Maße auf B(R), die auf dem schnittstabilen<br />
Erzeuger � (−∞,r],r∈ Q � übereinstimmen. Nach dem Eindeutigkeitssatz<br />
(Lemma 1.42) gilt daher für jedes B ∈B(R) Gleichheit und damit P-fast sicher<br />
κ( · ,B)=P[Y ∈ B |F], also κ = κY,F. ✷
178 8 Bedingte Erwartungen<br />
Beispiel 8.29. Seien Z1,Z2 unabhängig und Poisson-verteilt mit den Parametern<br />
λ1,λ2 ≥ 0. Dann kann man zeigen (Übung!), dass (mit Y = Z1 und X = Z1 + Z2)<br />
P[Z1 = k � � Z1 + Z2 = n] =bn,p(k) für k =0,...,n,<br />
wobei p = λ1<br />
ist. ✸<br />
λ1+λ2<br />
Dieses Beispiel ließ sich aber im Grunde genommen auch noch mit elementaren<br />
Mitteln bearbeiten. Die volle Stärke des Ergebnisses nutzen wir in den folgenden<br />
Beispielen aus.<br />
Beispiel 8.30. Seien X und Y reelle Zufallsvariablen mit gemeinsamer Dichtefunktion<br />
f (bezüglich des Lebesgue-Maßes λ2 auf R2 ). Für x ∈ R setzen wir<br />
�<br />
fX(x) = f(x, y) λ(dy).<br />
R<br />
Offenbar ist fX(x) > 0 für PX-f.a. x ∈ R und f −1<br />
X ist die Dichte des absolutstetigen<br />
Anteils des Lebesgue-Maßes λ bezüglich PX. Die reguläre Version der bedingten<br />
Verteilung von Y gegeben X hat die Dichte<br />
P[Y ∈ dy|X = x]<br />
dy<br />
= f Y |X(x, y) :=<br />
f(x, y)<br />
fX(x)<br />
für PX[dx]-f.a. x ∈ R. (8.9)<br />
In � der Tat ist nach dem Satz von Fubini (siehe Satz 14.16) die Abbildung x ↦→<br />
B fY |X(x, y) λ(dy) messbar für jedes B ∈B(R), und für A, B ∈B(R) gilt<br />
�<br />
�<br />
P[X ∈ dx] fY |X(x, y) λ(dy)<br />
A<br />
B�<br />
= P[X ∈ dx] fX(x)<br />
A<br />
−1<br />
�<br />
f(x, y) λ(dy)<br />
� �<br />
B<br />
= λ(dx) f(x, y) λ(dy)<br />
A<br />
�<br />
B<br />
= fdλ 2 = P[X ∈ A, Y ∈ B]. ✸<br />
.<br />
A×B<br />
Beispiel 8.31. Seien μ1,μ2 ∈ R, σ1,σ2 > 0 und Z1,Z2 unabhängig und N μi,σ 2 i<br />
verteilt (i =1, 2). Dann existiert eine reguläre Version der bedingten Verteilung<br />
P[Z1 ∈ · |Z1 + Z2 = x] für x ∈ R.<br />
Setzen wir X = Z1+Z2 und Y = Z1,soist(X, Y ) ∼Nμ,Σ �<br />
bivariat normalverteilt<br />
2 σ1 + σ<br />
mit Kovarianzmatrix Σ :=<br />
2 2 σ2 �<br />
� �<br />
1<br />
μ1 + μ2<br />
und mit μ :=<br />
.Wegen<br />
σ 2 1<br />
σ 2 1<br />
μ1
8.3 Reguläre Version der bedingten Verteilung 179<br />
Σ −1 = � σ 2 1σ 2 �<br />
� 2<br />
−1 σ1 2<br />
−σ2 −σ<br />
1<br />
2 1 σ2 1 + σ2 �<br />
2<br />
= (σ 2 1σ 2 2) −1 B T B,<br />
� �<br />
σ1 −σ1<br />
wo B =<br />
ist, hat (X, Y ) die Dichte (siehe Beispiel 1.105(ix))<br />
0 σ2<br />
f(x, y) = det(2πΣ) −1/2 �<br />
exp − 1<br />
2σ2 1σ2 �<br />
�<br />
�<br />
�<br />
2<br />
B<br />
� ��2 x − (μ1 + μ2) ���<br />
y − μ1<br />
�<br />
= � 4π 2 σ 2 1σ 2 �<br />
�−1/2 2 exp − σ2 1(y − (x − μ1)) 2 + σ2 2(y − μ2) 2<br />
2σ2 1σ2 �<br />
2<br />
= Cx exp � − (y − μx) 2 /2σ 2� x ,<br />
wobei Cx eine Normalisierungskonstante ist und<br />
μx = μ1 + σ2 1<br />
σ2 1 + σ2 (x − μ1 − μ2)<br />
2<br />
und σ 2 x = σ2 1σ2 2<br />
σ2 1 + σ2 .<br />
2<br />
Nach (8.9) hat P[Z1 ∈ · |Z1 + Z2 = x] die Dichte<br />
also ist<br />
y ↦→ fY |X(x, y) = Cx<br />
fX(x) exp<br />
�<br />
−<br />
(y − μx) 2<br />
2σ 2 x<br />
P[Z1 ∈ · |Z1 + Z2 = x] =N μx,σ 2 x für fast alle x ∈ R. ✸<br />
Beispiel 8.32. Sind X und Y unabhängige, reelle Zufallsvariablen, so ist für PXfast<br />
alle x ∈ R<br />
P[X + Y ∈ · |X = x] =δx ∗ PY . ✸<br />
Die Situation ist noch nicht vollends zufriedenstellend, da wir die sehr starke Annahme<br />
gemacht haben, dass Y reellwertig ist. Ursprünglich waren wir aber auch an<br />
einer Situation interessiert, wo Y Werte in R n annimmt, oder sogar in allgemeineren<br />
Räumen. Wir dehnen nun das Ergebnis auf eine größere Klasse von Wertebereichen<br />
von Y aus.<br />
Definition 8.33. Zwei Messräume (E,E) und (E ′ , E ′ ) heißen isomorph, falls es eine<br />
bijektive Abbildung ϕ : E → E ′ gibt, sodass ϕ messbar ist bezüglich E–E ′ und<br />
die Umkehrabbildung ϕ −1 messbar ist bezüglich E ′ –E. Wir nennen dann ϕ einen<br />
Messraum-Isomorphismus. Sind zudem μ und μ ′ Maße auf (E,E) und (E ′ , E ′ )<br />
und gilt μ ′ = μ ◦ ϕ −1 ,soistϕ ein Maßraum-Isomorphismus, und die Maßräume<br />
(E,E,μ) und (E ′ , E ′ ,μ ′ ) heißen isomorph.<br />
Definition 8.34. Ein Messraum (E,E) heißt Borel’scher Raum, falls es eine Borel’sche<br />
Menge B ∈B(R) gibt, sodass (E,E) und (B,B(B)) isomorph sind.<br />
�<br />
,
180 8 Bedingte Erwartungen<br />
Ein separabler topologischer Raum, dessen Topologie durch eine vollständige Metrik<br />
erzeugt wird, heißt polnischer Raum. Speziell sind R d , Z d , R N , (C([0, 1]), � ·<br />
�∞) und so fort polnisch. Abgeschlossene Teilmengen von polnischen Räumen sind<br />
ebenfalls polnisch. Wir kommen auf polnische Räume im Zusammenhang mit der<br />
Konvergenz von Maßen in Kapitel 13 zurück. Ohne Beweis bringen wir das folgende<br />
topologische Ergebnis (siehe etwa [37, Theorem 13.1.1]).<br />
Satz 8.35. Ist E ein polnischer Raum mit Borel’scher σ-Algebra E, dann ist (E,E)<br />
ein Borel’scher Raum.<br />
Satz 8.36 (Reguläre bedingte Verteilungen). Sei F⊂Aeine Unter-σ-Algebra.<br />
Sei Y eine Zufallsvariable mit Werten in einem Borel’schen Raum (E,E) (also<br />
zum Beispiel E polnisch, E = R d , E = R ∞ , E = C([0, 1]) usw.). Dann existiert<br />
eine reguläre Version κY,F der bedingten Verteilungen P[{Y ∈ · }|F].<br />
Beweis. Sei B ∈ B(R) und ϕ : E → B ein Messraum-Isomorphismus. Mit<br />
Satz 8.28 erhalten wir die regulären bedingten Verteilungen κY ′ ,F der reellen Zufallsvariablen<br />
Y ′ = ϕ ◦ Y . Wir setzen nun κY,F(ω, A) = κY ′ ,F(ω, ϕ(A)) für<br />
A ∈E. ✷<br />
Abschließend greifen wir das eingangs betrachtete Beispiel wieder auf und können<br />
nun die dort in Anführungszeichen gemachte Aussage formal hinschreiben. Sei also<br />
X uniform auf [0, 1] verteilt, und gegeben den Wert X = x seien (Y1,...,Yn)<br />
unabhängig Berx–verteilt. Wir setzen Y =(Y1,...,Yn). Nach Satz 8.36 (mit E =<br />
{0, 1} n ⊂ R n ) existieren die regulären bedingten Verteilungen<br />
κY,X(x, · )=P[Y ∈ · |X = x] für x ∈ [0, 1].<br />
In der Tat ist für fast alle x ∈ [0, 1]<br />
P[Y ∈ · |X = x] =(Berx) ⊗n .<br />
Satz 8.37. Sei X ein Zufallsvariable auf (Ω,A, P) mit Werten in einem Borel’schen<br />
Raum (E,E). SeiF ⊂ A eine σ-Algebra und κX,F eine Version der regulären<br />
bedingten Verteilungen von X gegeben F. Sei ferner f : E → R messbar und<br />
E[|f(X)|] < ∞. Dann ist<br />
�<br />
E[f(X)|F](ω) = f(x) κY,F(ω, dx) für P-fast alle ω. (8.10)<br />
Beweis. Wir rechnen nach, dass die rechte Seite in (8.10) die Eigenschaften des<br />
bedingten Erwartungswertes hat.<br />
Es reicht, den Fall f ≥ 0 zu betrachten. Indem wir f durch Elementarfunktionen<br />
approximieren, sehen wir, dass die rechte Seite in (8.10) messbar bezüglich F ist
8.3 Reguläre Version der bedingten Verteilung 181<br />
(siehe Lemma 14.20 für ein formales Argument). Nach Satz 1.96 existieren dann<br />
Mengen A1,A2,...∈Eund Zahlen α1,α2,...≥ 0 mit<br />
gn :=<br />
Für jedes n ∈ N und B ∈Fist nun<br />
E[gn(X) B] =<br />
=<br />
=<br />
n�<br />
i=1<br />
αi Ai<br />
n→∞<br />
−→ f.<br />
n�<br />
αi P[{X ∈ Ai}∩B]<br />
i=1<br />
n�<br />
i=1<br />
n�<br />
i=1<br />
�<br />
=<br />
�<br />
=<br />
αi<br />
αi<br />
B i=1<br />
B<br />
�<br />
�<br />
B<br />
B<br />
P[{X ∈ Ai}|F] P[dω]<br />
κX,F(ω, Ai) P[dω]<br />
n�<br />
αi κX,F(ω, Ai) P[dω]<br />
��<br />
�<br />
gn(x) κX,F(ω, dx) P[dω].<br />
Nach dem Satz von der monotonen Konvergenz konvergiert für fast jedes ω das<br />
innere Integral gegen � f(x)κX,F(ω, dx). Erneute Anwendung des Satzes von der<br />
monotonen Konvergenz liefert<br />
E[f(X) B] = lim<br />
n→∞ E[gn(X)<br />
� �<br />
B] = f(x) κX,F(ω, dx) P[dω]. ✷<br />
Übung 8.3.1. Sei (E,E) ein Borel’scher Raum und μ ein atomloses Maß (das heißt,<br />
μ({x}) =0für jedes x ∈ E). Man zeige: Für jedes A ∈Eund jedes n ∈ N<br />
existieren paarweise disjunkte Mengen A1,...,An ∈Emit �n k=1 Ak = A und<br />
μ(Ak) =μ(A)/n für jedes k =1,...,n. ♣<br />
Übung 8.3.2. Seien p, q ∈ (1, ∞) mit 1<br />
p<br />
B<br />
+ 1<br />
q = 1, und seien X ∈ Lp (P) und<br />
Y ∈L q (μ). SeiF⊂Aeine σ-Algebra. Man zeige mit Hilfe des vorangehenden<br />
Satzes die bedingte Version der Hölder’schen Ungleichung:<br />
E � |XY | � � F � ≤ E � |X| p � �F � 1/p E � |Y | q � �F � 1/q<br />
fast sicher. ♣<br />
Übung 8.3.3. Sei (X, Y ) uniform verteilt auf B := {(x, y) ∈ R 2 : x 2 + y 2 ≤ 1}<br />
beziehungsweise auf [−1, 1] 2 .<br />
(i) Man bestimme jeweils die bedingte Verteilung von Y gegeben X = x.<br />
(ii) Sei R := √ X 2 + Y 2 und Θ = arctan(Y/X). Man bestimme jeweils die<br />
bedingte Verteilung von Θ gegeben R = r. ♣
182 8 Bedingte Erwartungen<br />
Übung 8.3.4. Sei (X, Y ) uniform verteilt auf G := {(x, y) ∈ R 2 : x 2 + y 2 ≤ 1}.<br />
Man bestimme die bedingte Verteilung von Y gegeben X = x. ♣<br />
Übung 8.3.5. Sei A ⊂ R n eine Borel-messbare Menge mit endlichem Lebesgue-<br />
Maß λ(A) ∈ (0, ∞), und sei B ⊂ A messbar mit λ(B) > 0. Zeige: Ist X uniform<br />
verteilt (siehe Beispiel 1.75) auf A, so ist die bedingte Verteilung von X gegeben<br />
{X ∈ B} die uniforme Verteilung auf B. ♣<br />
Übung 8.3.6. (Borel’sches Paradoxon) Wir wollen die Erde als Kugel ansehen und<br />
betrachten einen zufälligen uniform auf der Erdoberfläche verteilten Punkt X. Wir<br />
wollen die Koordinaten von X durch die geografische Länge Θ und Breite Φ angeben.<br />
Allerdings soll, entgegen der üblichen Konvention, Θ die Werte in [0,π)<br />
annehmen und Φ in [−π, π). Damit wird für festes Θ ein kompletter Großkreis beschrieben,<br />
wenn Φ seinen Wertebereich durchläuft. Ist nun Φ gegeben Θ uniform<br />
verteilt auf [−π, π)? Man sollte annehmen, dass jeder Punkt auf dem Großkreis<br />
gleich wahrscheinlich ist. Dies ist jedoch nicht der Fall! Der etwas ” aufgedickte“<br />
Großkreis, mit Längen zwischen Θ und Θ + ε (für kleines ε)istamÄquator dicker<br />
als an den Polen. Lassen wir ε → 0 gehen, so sollten wir, zumindest intuitiv, die<br />
bedingten Wahrscheinlichkeiten erhalten.<br />
(i) Man zeige: P[{Φ ∈ · }|Θ = θ] hat für fast alle θ die Dichte 1<br />
4 | cos(φ)| für<br />
φ ∈ [−π, π).<br />
(ii) Man zeige: P[{Θ ∈ · }|Φ = φ] =U [0,π) für fast alle φ.<br />
Hinweis: Man zeige, dass Θ und Φ unabhängig sind und bestimme die Verteilungen<br />
von Θ und Φ. ♣<br />
Übung 8.3.7 (Verwerfungmethode zur Erzeugung von Zufallsvariablen). Sei<br />
E höchstens abzählbar und P und Q Wahrscheinlichkeitsmaße auf E. Esgebe<br />
ein c > 0 mit f(e) := Q({e})<br />
P ({e}) ≤ c für jedes e ∈ E mit P ({e}) > 0. Seien<br />
X1,X2,... unabhängige Zufallsvariablen mit Verteilung P und U1,U2,... davon<br />
unabhängige u.i.v. Zufallsvariablen, die uniform auf [0, 1] verteilt sind. Wähle N<br />
als die (zufällige) kleinste natürliche Zahl n, sodass Un ≤ f(Xn)/c, und setze<br />
Y := XN .<br />
Man zeige: Y hat die Verteilung Q.<br />
Anmerkung: Dieses Verfahren zur Erzeugung einer Zufallsvariable mit einer gewünschten<br />
Verteilung Q wird auch Verwerfungsmethode (rejection sampling) genannt,<br />
denn man kann es so interpretieren: Die Zufallsvariable X1 ist ein Vorschlag<br />
für den möglichen Wert von Y . Dieser Vorschlag wird mit Wahrscheinlichkeit<br />
f(X1)/c angenommen, ansonsten wird X2 betrachtet und so weiter. ♣<br />
Übung 8.3.8. Sei E ein polnischer Raum und P, Q ∈M1(R), sowiec>0 mit<br />
≤ cP-fast sicher. Zeige die analoge Aussage zu Übung 8.3.7. ♣<br />
f := dQ<br />
dP
9 Martingale<br />
Einer der wichtigsten Begriffe der modernen <strong>Wahrscheinlichkeitstheorie</strong> ist das<br />
Martingal, das die Idee eines fairen Spiels (Xn)n∈N0 formalisiert. In diesem Kapitel<br />
wird der Begriffsapparat für die Beschreibung allgemeiner stochastischer Prozesse<br />
aufgebaut. Danach werden Martingale und das diskrete stochastische Integral<br />
eingeführt und auf ein Modell der Finanzmathematik angewandt.<br />
9.1 Prozesse, Filtrationen, Stoppzeiten<br />
Wir führen die grundlegenden technischen Begriffe für die Behandlung stochastischer<br />
Prozesse, darunter Martingale, ein. Um die Begriffe später in einem anderen<br />
Kontext weiter verwenden zu können, streben wir eine größere Allgemeinheit an als<br />
für die Behandlung von Martingalen notwendig wäre.<br />
Im Folgenden sei stets (E,τ) ein polnischer Raum mit Borel’scher σ-Algebra E.<br />
Weiter sei (Ω,F, P) ein W-Raum und I ⊂ R beliebig. Meistens interessieren uns<br />
die Fälle I = N0, I = Z, I =[0, ∞) und I ein Intervall.<br />
Definition 9.1 (Stochastischer Prozess). Sei I ⊂ R. Eine Familie von Zufallsvariablen<br />
X =(Xt, t∈ I) (auf (Ω,F, P)) mit Werten in (E,E) heißt stochastischer<br />
Prozess mit Zeitbereich I und Zustandsraum E.<br />
Bemerkung 9.2. Etwas allgemeiner werden manchmal auch beliebig indizierte Familien<br />
von Zufallsvariablen stochastischer Prozess genannt. Beispielsweise ist dies<br />
beim Poisson’schen Punktprozess aus Kapitel 24 der Fall. ✸<br />
Bemerkung 9.3. Oftmals werden wir (gewissen Traditionen folgend) einen stochastischen<br />
Prozess auch als X =(Xt)t∈I schreiben, wenn wir weniger den Aspekt<br />
betonen wollen, dass X eine Familie von Zufallsvariablen ist, sondern den zeitlichen<br />
Verlauf der Beobachtungen stärker gewichten. Formal sollen beide Objekte<br />
identisch sein. ✸<br />
Beispiel 9.4. Sei I = N0 und (Yn, n∈ N) eine Familie von u.i.v. Zufallsvariablen<br />
auf einem W-Raum (Ω,F, P), mit P[Yn =1]=1− P[Yn = −1] = 1<br />
2 . Setze
184 9 Martingale<br />
E = Z (mit der diskreten Topologie) und<br />
Xt =<br />
t�<br />
Yn für jedes t ∈ N0.<br />
n=1<br />
(Xt, t∈ N0) heißt symmetrische einfache Irrfahrt auf Z. ✸<br />
Beispiel 9.5. Der Poissonprozess X =(Xt)t≥0 mit Intensität α>0 (siehe Kapitel<br />
5.5) ist ein stochastischer Prozess mit Wertebereich N0. ✸<br />
Wir führen weitere Begriffe ein:<br />
Definition 9.6. Ist X eine Zufallsvariable (oder ein stochastischer Prozess), so<br />
schreiben wir auch L[X] = PX für die Verteilung von X. IstG ⊂ F eine σ-<br />
Algebra, so schreiben wir L[X |G] für eine reguläre Version der bedingten Verteilung<br />
von X gegeben G.<br />
Definition 9.7. Ein stochastischer Prozess X =(Xt)t∈I mit Werten in E heißt<br />
(i) reellwertig, falls E = R,<br />
(ii) Prozess mit unabhängigen Zuwächsen, falls X reellwertig ist und für jedes<br />
n ∈ N und alle t0,...,tn ∈ I mit t0
9.1 Prozesse, Filtrationen, Stoppzeiten 185<br />
(iii) Sei (Xn)n∈Z reellwertig und stationär, und seien k ∈ N und c1,...,ck ∈ R.<br />
Dann definiert<br />
k�<br />
Yn :=<br />
i=1<br />
ciXn−i<br />
einen stationären Prozess Y =(Yn)n∈Z. Gilt c1,...,ck ≥ 0 und c1 + ...+ ck =1,<br />
so wird Y das gleitende Mittel von X (mit Gewichten c1,...,ck) genannt. ✸<br />
Die beiden folgenden Definitionen sind auch für allgemeinere halbgeordnete Mengen<br />
I sinnvoll, wir beschränken uns jedoch weiterhin auf den Fall I ⊂ R.<br />
Definition 9.9 (Filtration). Eine Familie F =(Ft, t∈ I) von σ-Algebren mit<br />
Ft ⊂Ffür jedes t ∈ I, heißt Filtration, falls Fs ⊂Ft für alle s, t ∈ I mit s ≤ t.<br />
Definition 9.10 (adaptiert). Ein stochastischer Prozess X =(Xt, t∈ I) heißt<br />
adaptiert an die Filtration F, falls Xt bezüglich Ft messbar ist für jedes t ∈ I.<br />
Gilt Ft = σ(Xs, s≤ t) für jedes t ∈ I, so schreiben wir F = σ(X) und nennen<br />
F die von X erzeugte Filtration.<br />
Bemerkung 9.11. Offenbar ist ein stochastischer Prozess stets an seine erzeugte<br />
Filtration adaptiert. Die erzeugte Filtration ist die ” kleinste“ Filtration, an die ein<br />
Prozess adaptiert ist. ✸<br />
Definition 9.12 (vorhersagbar / previsibel). Ein stochastischer Prozess X =<br />
(Xn, n ∈ N0) heißt vorhersagbar (oder previsibel) bezüglich der Filtration<br />
F =(Fn, n∈ N0), falls X0 konstant ist und für jedes n ∈ N gilt:<br />
Xn ist Fn−1-messbar.<br />
Beispiel 9.13. Seien I = N0, und seien Y1,Y2,... reelle Zufallsvariablen sowie<br />
Xn := � n<br />
m=1 Ym. Setze<br />
F0 = {∅,Ω} und Fn = σ(Y1,...,Yn) für n ∈ N.<br />
Dann ist F =(Fn, n∈ N0) =σ(Y ) die von Y =(Yn)n∈N erzeugte Filtration,<br />
und X ist an F adaptiert, also ist σ(X) ⊂ F. Offenbar ist (Y1,...,Yn) messbar<br />
bezüglich σ(X1,...,Xn), also σ(Y ) ⊂ σ(X), und daher gilt auch F = σ(X).<br />
Sei nun � Xn := � n<br />
m=1 [0,∞)(Ym). Dann ist auch � X an F adaptiert, jedoch ist im<br />
Allgemeinen F�σ( � X). ✸<br />
Beispiel 9.14. Sei I = N0, und seien D1,D2,...unabhängig und identisch verteilt<br />
mit P[Di = −1] = P[Di =1]= 1<br />
2 für jedes i ∈ N. Setze D =(Di)i∈N und
186 9 Martingale<br />
F = σ(D). Wir interpretieren Di als das Ergebnis einer Wette, die uns pro Spielschein<br />
einen Gewinn oder Verlust von einer Geldeinheit bringt. Vor jedem Spiel entscheiden<br />
wir, wie viele Spielscheine wir einsetzen wollen. Die Anzahl Hn der in der<br />
n-ten Runde eingesetzten Spielscheine darf nur von den Ergebnissen der bisherigen<br />
Spiele abhängen, nicht aber von Dn und auch nicht von einem Dm für m>n.Mit<br />
anderen Worten: Es muss eine Funktion Fn : {−1, 1} n−1 → N geben mit Hn =<br />
Fn(D1,...,Dn−1). (Für das Petersburger Spiel (Beispiel 4.22) galt beispielsweise<br />
Fn(x1,...,xn−1) =2 n−1 {x1=x2=...=xn−1=0}.) Damit ist H dann vorhersagbar.<br />
Andererseits besitzt jedes vorhersagbare H die Gestalt Hn = Fn(D1,...,Dn−1),<br />
n ∈ N, für gewisse Funktionen Fn : {−1, 1} n−1 → N, kommt also als Spielstrategie<br />
in Betracht. ✸<br />
Definition 9.15 (Stoppzeit). Eine Zufallsvariable τ mit Werten in I ∪ {∞} heißt<br />
Stoppzeit (bezüglich F), falls für jedes t ∈ I gilt, dass<br />
{τ ≤ t} ∈Ft.<br />
Die Idee hinter dieser Definition ist, dass Ft den Kenntnisstand eines Beobachters<br />
zur Zeit t wiedergibt. Der Wahrheitsgehalt der Aussage {τ ≤ t} kann also aufgrund<br />
der Beobachtungen bis zur Zeit t bestimmt werden.<br />
Satz 9.16. Ist I abzählbar, so ist τ genau dann eine Stoppzeit, wenn {τ = t} ∈Ft<br />
für jedes t ∈ I gilt.<br />
Beweis. Übung! ✷<br />
Beispiel 9.17. Seien I ⊂ [0, ∞) abzählbar und K ⊂ R messbar, sowie X ein reeller,<br />
adaptierter stochastischer Prozess. Wir betrachten den Zeitpunkt, zu dem X<br />
erstmals in K ist:<br />
τK := inf{t ≥ 0: Xt ∈ K}.<br />
Intuitiv ist klar, dass τK eine Stoppzeit ist, denn ob {τ ≤ t} eintritt oder nicht,<br />
können wir aufgrund der Beobachtungen von X bis zur Zeit t entscheiden. Formal<br />
können wir argumentieren, indem wir bemerken, dass {Xs ∈ K} ∈Fs ⊂Ftfür s ≤ t gilt. Also ist auch die abzählbare Vereinigung dieser Mengen wieder in Ft:<br />
{τK ≤ t} = �<br />
{Xs ∈ K} ∈ Ft.<br />
s∈I∩[0,t]<br />
Betrachte nun den zufälligen Zeitpunkt �τ := sup{t ≥ 0: Xt ∈ K} des letzten<br />
Aufenthalts von X in K. Zu fester Zeit t können wir aufgrund der bisherigen Beobachtungen<br />
nicht entscheiden, ob X bereits das letzte Mal in K war. Hierzu bedürfte<br />
es der Prophetie. Also ist �τ im Allgemeinen keine Stoppzeit. ✸
Lemma 9.18. Seien σ und τ Stoppzeiten. Dann gilt:<br />
(i) σ ∨ τ und σ ∧ τ sind Stoppzeiten.<br />
(ii) Gilt σ, τ ≥ 0, dann ist auch σ + τ eine Stoppzeit.<br />
9.1 Prozesse, Filtrationen, Stoppzeiten 187<br />
(iii) Ist s ≥ 0, dann ist τ + s eine Stoppzeit, jedoch im Allgemeinen nicht τ − s.<br />
Bevor wir zum einfachen formalen Beweis kommen, wollen wir festhalten, dass insbesondere<br />
(i) und (iii) Eigenschaften sind, die wir von Stoppzeiten erwarten konnten:<br />
Bei (i) ist die Interpretation klar. Für (iii) beachte man, dass τ − s um s in die<br />
Zukunft blickt (denn {τ −s ≤ t} ∈Ft+s), während τ +s um s in die Vergangenheit<br />
schaut. Stoppzeiten ist aber nur der Blick in die Vergangenheit erlaubt.<br />
Beweis. (i) Für t ∈ I ist {σ ∨ τ ≤ t} = {σ ≤ t}∩{τ ≤ t} ∈Ft und {σ ∧ τ ≤<br />
t} = {σ ≤ t}∪{τ ≤ t} ∈Ft.<br />
(ii) Sei t ∈ I. Nach (i) sind τ ∧ t und σ ∧ t Stoppzeiten für jedes t ∈ I. Speziell<br />
ist für jedes s ≤ t dann {τ ∧ t ≤ s} ∈Fs ⊂Ft. Andererseits ist für s>tstets<br />
τ ∧ t ≤ s. Alsosindτ ′ := (τ ∧ t)+ {τ>t} und σ ′ := (σ ∧ t)+ {σ>t} messbar<br />
bezüglich Ft und damit auch τ ′ + σ ′ . Es folgt {τ + σ ≤ t} = {τ ′ + σ ′ ≤ t} ∈Ft.<br />
(iii) Für τ + s folgt dies aus (ii) (mit der Stoppzeit σ ≡ s). Für τ − s beachte man,<br />
dass in der Definition der Stoppzeit für jedes t ∈ I lediglich gefordert wird, dass<br />
{τ − s ≤ t} = {τ ≤ t + s} ∈Ft+s. Im Allgemeinen ist aber Ft+s eine echte<br />
Obermenge von Ft, also τ − s keine Stoppzeit. ✷<br />
Definition 9.19. Ist τ eine Stoppzeit, so heißt<br />
Fτ := � A ∈F: A ∩{τ ≤ t} ∈Ft für jedes t ∈ I �<br />
die σ-Algebra der τ-Vergangenheit.<br />
Beispiel 9.20. Sei I höchstens abzählbar, X ein adaptierter, reellwertiger stochastischer<br />
Prozess, K ∈ R und τ = inf{t : Xt ≥ K} die Stoppzeit des ersten<br />
Eintretens in [K, ∞). Betrachte die Ereignisse A = {sup{Xt : t ∈ I} >K− 5}<br />
und B = {sup{Xt : t ∈ I} >K+5}.<br />
Für jedes t ∈ I ist {τ ≤ t} ⊂A, also ist A ∩{τ ≤ t} = {τ ≤ t} ∈Ft. Es folgt<br />
A ∈Fτ . Jedoch ist im Allgemeinen B/∈Fτ , denn wir können bis zur Zeit τ eben<br />
nicht entscheiden, ob X auch die Hürde K +5noch nehmen wird oder nicht. ✸<br />
Lemma 9.21. Sind σ und τ Stoppzeiten mit σ ≤ τ, so gilt Fσ ⊂Fτ .<br />
Beweis. Sei A ∈Fσ und t ∈ I. DannistA∩{σ ≤ t} ∈Ft. Daτ eine Stoppzeit<br />
ist, ist auch {τ ≤ t} ∈Ft.Wegenσ≤τ ist also<br />
A ∩{τ ≤ t} = � A ∩{σ ≤ t} � ∩{τ ≤ t} ∈ Ft. ✷
188 9 Martingale<br />
Definition 9.22. Ist τs.<br />
Bemerkung 9.25. Offenbar ist für Martingale t ↦→ E[Xt] konstant, für Submartingale<br />
monoton wachsend und für Supermartingale monoton fallend. ✸<br />
Bemerkung 9.26. Die Etymologie des Begriffs Martingal ist nicht völlig geklärt.<br />
Das französische la martingale (ursprünglich provenzalisch martegalo nach der
9.2 Martingale 189<br />
Stadt Martiques) bedeutet im Reitsport einen ” beim Spring- und Geländereiten verwendeten<br />
Hilfszügel“ als Teil des Zaumzeugs ([22]). Manchmal wird die verzweigte<br />
Form, insbesondere des Jagdmartingals (französisch: la martingale à anneaux,<br />
englisch: running martingale), als sinnbildlich für die Verdoppelungsstrategie im<br />
Petersburger Spiel angesehen. Eben diese Verdoppelungsstrategie ist die zweite Bedeutung<br />
von la martingale. Von hier aus scheint eine Bedeutungsverschiebung hin<br />
zum mathematischen Begriff durchaus möglich. Eine andere Herleitung geht, statt<br />
vom Aussehen, von der Funktion des Zaumzeugs aus und nennt das Bestreben einer<br />
Spielstrategie, den Zufall im Zaume zu halten. So wird der Begriff des Martingals<br />
zunächst auf Spielstrategien im Allgemeinen, dann auf die Verdoppelungsstrategie<br />
im Speziellen übertragen. ✸<br />
Bemerkung 9.27. Ist I = N, I = N0 oder I = Z, so reicht es, jeweils nur<br />
t = s +1zu betrachten, denn nach der Turmeigenschaft der bedingten Erwartung<br />
(Satz 8.14(iv)) ist<br />
�<br />
E[Xs+2<br />
�Fs] =E � �<br />
E[Xs+2<br />
�Fs+1] � �<br />
�Fs ,<br />
und wenn die definierende Gleichung (beziehungsweise Ungleichung) in einem<br />
Zeitschritt gilt, dann zieht sie sich durch in den zweiten Zeitschritt und so fort. ✸<br />
Bemerkung 9.28. Geben wir die Filtration F nicht explizit an, so nehmen wir stillschweigend<br />
an, dass F die von X erzeugte Filtration Ft = σ(Xs, s≤ t) ist. ✸<br />
Bemerkung 9.29. Sind F und F ′ Filtrationen mit Ft ⊂F ′ t für jedes t, und ist X an<br />
F adaptiert und ein F ′ -(Sub-, Super-)Martingal, dann ist X auch ein (Sub-, Super-)<br />
Martingal bezüglich der kleineren Filtration F. Es gilt nämlich für ssist E[Yr �Fs] =0.Alsoistfür t>s<br />
�<br />
�<br />
�<br />
E[Xt<br />
�Fs] = E[Xs<br />
�Fs]+E[Xt − Xs<br />
�Fs] = Xs +<br />
Es folgt, dass X ein F-Martingal ist.<br />
t�<br />
r=s+1<br />
�<br />
E[Yr<br />
�Fs] = Xs.<br />
Analog ist X ein Submartingal, falls E[Yt] ≥ 0 für jedes t gilt beziehungsweise ein<br />
Supermartingal, falls E[Yt] ≤ 0 für jedes t gilt. ✸
190 9 Martingale<br />
Beispiel 9.31. Wir betrachten die Situation des vorangehenden Beispiels, jedoch mit<br />
E[Yt] =1und Xt = �t s=1 Ys für t ∈ N0. Nach Satz 5.4 ist Y1 · Y2 integrierbar.<br />
Iterativ erhalten wir E[|Xt|] < ∞ für jedes t ∈ N0. Offenbar ist X an F adaptiert,<br />
und für s ∈ N0 gilt<br />
�<br />
�<br />
�<br />
E[Xs+1 �Fs] = E[XsYs+1 �Fs] = Xs E[Ys+1 �Fs] = Xs.<br />
Also ist X ein F-Martingal. ✸<br />
Satz 9.32. (i) X ist genau dann ein Supermartingal, wenn (−X) ein Submartingal<br />
ist.<br />
(ii) Seien X und Y Martingale und a, b ∈ R. Dann ist (aX + bY ) ein Martingal.<br />
(iii) Seien X und Y Supermartingale und a, b ≥ 0. Dann ist (aX + bY ) ein<br />
Supermartingal.<br />
(iv) Seien X und Y Supermartingale. Dann ist Z := X ∧ Y =(min(Xt,Yt))t∈I<br />
ein Supermartingal.<br />
(v) Ist (Xt)t∈N0 ein Supermartingal und E[XT ] ≥ E[X0] für ein T ∈ N0, dann<br />
ist (Xt) t∈{0,...,T } ein Martingal. Gibt es eine Folge TN →∞mit E[XTN ] ≥<br />
E[X0], dann ist X ein Martingal.<br />
Beweis. (i), (ii) und (iii) Dies ist klar.<br />
(iv) Wegen |Zt| ≤ |Xt| + |Yt| ist E[|Zt|] < ∞ für jedes � t ∈ I. Wegen � der<br />
Monotonie der bedingten Erwartung (Satz 8.14(ii)) ist E[Zt<br />
�Fs] ≤ E[Xt<br />
�<br />
� �<br />
�<br />
Fs] ≤<br />
Xs für t>sund E[Zt<br />
�Fs] ≤ E[Yt<br />
�Fs] ≤ Ys, also E[Zt<br />
�Fs] ≤ Xs ∧ Ys = Zs.<br />
�<br />
(v) Für t ≤ T setze Yt := E[XT<br />
�Ft]. DannistYein Martingal und Yt ≤ Xt.<br />
Daher ist<br />
E[X0] ≤ E[XT ]=E[YT ]=E[Yt] ≤ E[Xt] ≤ E[X0].<br />
(Die erste Ungleichung gilt hierbei nach Voraussetzung.) Es folgt Yt = Xt fast<br />
sicher für jedes t, und daher ist (Xt) t∈{0,...,T } ein Martingal.<br />
Sei TN →∞mit E[XTN ] ≥ E[X0] für� jedes N ∈ N. Dann gibt es für t>s≥ 0<br />
ein N ∈ N mit TN >t. Daher ist E[Xt<br />
�Fs] =E[Xs], also X ein Martingal. ✷<br />
Bemerkung 9.33. Viele Aussagen über Supermartingale gelten mutatis mutandis<br />
auch für Submartingale. So gilt im vorangehenden Satz Aussage (i) mit vertauschten<br />
Rollen, Aussage (iv) gilt für Submartingale, wenn das Minimum durch ein Maximum<br />
ersetzt wird, und so fort. Wir geben die Aussagen nicht stets sowohl für Submartingale<br />
wie für Supermartingale an, sondern wählen pars pro toto einen Fall aus.<br />
Man beachte aber, dass die Aussagen, die explizit über Martingale gemacht werden,<br />
nicht ohne weiteres auf Sub- oder Supermartingale übertragen werden können (vergleiche<br />
etwa (ii) im vorangehenden Satz). ✸
9.2 Martingale 191<br />
Korollar 9.34. Sei X ein Submartingal und a ∈ R. Dann ist (X − a) + ein Submartingal.<br />
Beweis. Offenbar sind 0 und Y = X − a Submartingale. Nach (iv) ist daher auch<br />
(X − a) + = Y ∨ 0 ein Submartingal. ✷<br />
Satz 9.35. Sei X ein Martingal und ϕ : R → R eine konvexe Funktion.<br />
(i) Ist<br />
E[ϕ(Xt) + ] < ∞ für jedes t ∈ I, (9.1)<br />
dann ist (ϕ(Xt))t∈I ein Submartingal.<br />
(ii) Ist t∗ := sup(I) ∈ I, so impliziert E[ϕ(Xt∗)+ ] < ∞ schon (9.1).<br />
(iii) Ist speziell p ≥ 1 und E[|Xt| p ] < ∞ für jedes t ∈ I, dann ist (|Xt| p )t∈I ein<br />
Submartingal.<br />
Beweis. (i) Es ist stets E[ϕ(Xt) − ] < ∞ (Satz 8.19), also nach Voraussetzung<br />
E[|ϕ(Xt)|] < ∞ für jedes t ∈ I. Die Jensen’sche Ungleichung (Satz 8.19) liefert<br />
für t>s<br />
E[ϕ(Xt) � �<br />
�Fs] ≥ ϕ(E[Xt<br />
�Fs]) = ϕ(Xs).<br />
(ii) Da ϕ konvex ist, ist auch x ↦→ ϕ(x) + konvex. Weiter ist nach Voraussetzung<br />
E[ϕ(Xt∗)+ ] < ∞, also gilt nach der Jensen’schen Ungleichung für jedes t ∈ I:<br />
E[ϕ(Xt) + ]=E � ϕ � E[Xt∗ �<br />
�Ft] � +� �<br />
≤ E E[ϕ(Xt∗)+ � �Ft] � = E � ϕ(Xt∗)+� < ∞.<br />
(iii) Dies ist klar, weil x ↦→ |x| p konvex ist. ✷<br />
Beispiel 9.36. (Siehe Beispiel 9.4.) Die symmetrische einfache Irrfahrt X auf Z ist<br />
ein quadratintegrierbares Martingal. Also ist (X2 n)n∈N0 ein Submartingal. ✸<br />
Übung 9.2.1. Sei Y eine Zufallsvariable mit E[|Y |] < ∞ und F eine Filtration<br />
sowie<br />
Xt := E[Y � �Ft] für jedes t ∈ I.<br />
Man zeige, dass X ein F-Martingal ist. ♣<br />
Übung 9.2.2. Sei (Xn)n∈N0 ein vorhersagbares F-Martingal. Man zeige, dass dann<br />
für jedes n ∈ N0 fast sicher Xn = X0 gilt. ♣<br />
Übung 9.2.3. Man zeige, dass die Aussage von Satz 9.35 auch gilt, wenn X nur<br />
ein Submartingal, ϕ jedoch zusätzlich monoton wachsend ist. Man zeige durch ein<br />
Beispiel, dass hier auf die Monotonie im Allgemeinen nicht verzichtet werden kann.<br />
(Vergleiche Korollar 9.34.) ♣
192 9 Martingale<br />
Übung 9.2.4 (Ungleichung von Azuma). Man zeige:<br />
(i) Ist X eine Zufallsvariable mit |X| ≤1 f.s., so gibt es eine Zufallsvariable Y<br />
mit Werten in {−1, +1} und mit E[Y |X] =X.<br />
(ii) Für X wie in (i) mit E[X] =0folgere man (mit Hilfe der Jensen’schen Ungleichung)<br />
E � e λX� ≤ cosh(λ) ≤ e λ2 /2<br />
für alle λ ∈ R.<br />
(iii) Ist (Mn)n∈N0 ein Martingal mit M0 = 0, und gibt es eine Folge (ck)k∈N<br />
nichtnegativer Zahlen mit |Mn − Mn−1| ≤cn f.s. für jedes n ∈ N, sogilt<br />
E � e λMn� �<br />
1<br />
≤ exp<br />
2 λ2<br />
n�<br />
c 2 �<br />
k .<br />
(iv) Unter den Bedingungen von (iii) gilt die Azuma’sche Ungleichung<br />
P � |Mn| ≥λ � �<br />
≤ 2exp−<br />
λ2 �<br />
für alle λ ≥ 0.<br />
k=1<br />
2 � n<br />
k=1 c2 k<br />
Hinweis: Verwende die Markov’sche Ungleichung für f(x) =e γx und wähle<br />
γ optimal. ♣<br />
9.3 Diskretes stochastisches Integral<br />
Bisher haben wir das Martingal als Partialsummenprozess eines fairen Spiels kennen<br />
gelernt. Dies kann beispielsweise auch der Kurs einer Aktie sein, die zu diskreten<br />
Zeitpunkten an einer Börse gehandelt wird. Bei dieser Interpretation ist es<br />
besonders evident, dass es natürlich ist, neue stochastische Prozesse zu generieren,<br />
indem man Anlagestrategien für die entsprechende Aktie betrachtet. Die Wertentwicklung<br />
des neuen Prozesses ist dann die mit der jeweilig im Portefeuille befindlichen<br />
Anzahl von Aktien zu multiplizierende Wertentwicklung des Aktienkurses.<br />
Dies führt zu der folgenden Begriffsbildung.<br />
Definition 9.37 (Diskretes Stochastisches Integral). Sei (Xn)n∈N0 ein reeller, Fadaptierter<br />
Prozess und (Hn)n∈N reellwertig und F-vorhersagbar. Wir definieren<br />
den stochastischen Prozess H ·X durch<br />
(H ·X)n :=<br />
n�<br />
Hm(Xm − Xm−1) für n ∈ N0, (9.2)<br />
m=1<br />
und nennen H·X das diskrete stochastische Integral von H bezüglich X.IstX ein<br />
Martingal, so nennen wir H ·X auch die Martingaltransformierte von X.
9.3 Diskretes stochastisches Integral 193<br />
Bemerkung 9.38. Offenbar ist H ·X adaptiert an F. ✸<br />
Sei X ein (möglicherweise unfaires) Spiel, wobei Xn − Xn−1 den Spielgewinn pro<br />
Spielschein in der n-ten Runde bezeichnet. Wir interpretieren Hn als die Anzahl<br />
der Spielscheine, die für das n-te Spiel eingesetzt werden, und verstehen H als<br />
Spielstrategie. Offenbar muss die Entscheidung, wie groß Hn sein soll, zur Zeit<br />
n − 1, also vor der Bekanntgabe des Ergebnisses Xn fallen. Das heißt, H muss<br />
vorhersagbar sein.<br />
Ist nun X ein faires Spiel, also ein Martingal, und ist H lokal � beschränkt (das<br />
heißt, jedes Hn ist beschränkt), dann ist (wegen E[Xn+1 − Xn<br />
�Fn] =0)<br />
�<br />
E[(H ·X)n+1<br />
�Fn] =E[(H ·X)n + Hn+1(Xn+1 − Xn) � �Fn]<br />
�<br />
�Fn] =(H ·X)n + Hn+1 E[Xn+1 − Xn<br />
=(H ·X)n.<br />
Also ist H · X ein Martingal. Im folgenden Satz zeigen wir, dass auch die Umkehrung<br />
gilt, also X ein Martingal ist, wenn für hinreichend viele vorhersagbare<br />
Prozesse das stochastische Integral ein Martingal ist.<br />
Satz 9.39 (Stabilitätssatz für Stochastische Integrale).<br />
Sei (Xn)n∈N0 ein adaptierter, reeller stochastischer Prozess mit E[|X0|] < ∞.<br />
(i) X ist genau dann ein Martingal, wenn für jeden lokal beschränkten, vorhersagbaren<br />
Prozess H das stochastische Integral H ·X ein Martingal ist.<br />
(ii) X ist genau dann ein Submartingal (Supermartingal), wenn H ·X ein Submartingal<br />
(Supermartingal) ist für jedes beschränkte, vorhersagbare H ≥ 0.<br />
Beweis. (i) ” =⇒ “ Dies hat die obige Diskussion schon gezeigt.<br />
” ⇐= “ Wähle n0 ∈ N. Setze Hn = {n=n0}. Dannist(H ·X)n0−1 =0, also<br />
0 = E � � � � � �<br />
(H ·X)n0<br />
�Fn0−1 = E Xn0<br />
�Fn0−1 − Xn0−1.<br />
(ii) Dies geht analog wie in (i). ✷<br />
Der vorangehende Satz sagt uns insbesondere, dass wir keine (beschränkte) Spielstrategie<br />
finden können, die aus einem Martingal (oder schlimmer: einem Supermartingal)<br />
ein Submartingal machte. Genau dies wird einem aber natürlich durch<br />
diverse Aufforderungen zum so genannten ” Systemlotto“ und Ähnlichem nahe gelegt.<br />
Beispiel 9.40 (Petersburger Spiel). Wir führen Beispiel 9.14 fort (siehe auch Beispiel<br />
4.22). Setzen wir Xn := D1 + ...+ Dn für n ∈ N0, soistX ein Martingal.<br />
Die Spielstrategie Hn := 2 n−1 {D1=D2=...=Dn−1=−1} für n ∈ N und H0 =1ist
194 9 Martingale<br />
vorhersagbar und lokal beschränkt. Sei Sn = �n i=1 HiDi =(H·X)n der Zugewinn<br />
nach n Runden. Dann ist S nach dem vorangehenden Satz ein Martingal. Speziell<br />
erhalten wir das bereits in Beispiel 4.22 gezeigte Ergebnis, dass E[Sn] =0ist für<br />
jedes n ∈ N. Dass dies, wie dort gezeigt, in zumindest vordergründigem Kontrast zu<br />
n→∞<br />
der Aussage Sn −→ 1 f.s. steht, wird uns später noch einmal beschäftigen (siehe<br />
Beispiel 11.6).<br />
Für den Moment sei angemerkt, dass das Martingal S ′ = (1 − Sn)n∈N0 wie in<br />
Beispiel 9.31 die Struktur eines Produkts unabhängiger Zufallsvariablen mit Erwartungswert<br />
1 hat. Es gilt nämlich S ′ n = �n i=1 (1 − Di). ✸<br />
9.4 Diskreter Martingaldarstellungssatz und CRR Modell<br />
Wir haben nun gesehen, dass wir vermittels des stochastischen Integrals aus einem<br />
Martingal X durch eine Spielstrategie H ein neues Martingal H ·X herstellen<br />
können. Welche Martingale Y (mit Y0 =0) sind nun durch eine geeignete Spielstrategie<br />
H = H(Y ) aus X zu gewinnen? Womöglich alle? Dies ist sicher nicht<br />
der Fall, wie das folgende Beispiel zeigt. Allerdings sind alle Martingale darstellbar,<br />
wenn für die Zuwächse Xn+1 − Xn immer nur zwei Werte in Frage kommen<br />
(gegeben X1,...,Xn). Wir geben für diesen Fall einen Darstellungssatz an und<br />
diskutieren in der Folge den fairen Preis der europäischen Kaufoption (europäischer<br />
Call) in dem Aktienkursmodell von Cox-Ross-Rubinstein. Wir wollen dabei einen<br />
naiven Standpunkt einnehmen und einen in vielerlei Hinsicht idealisierten Markt<br />
voraussetzen (keine Handelskosten, gebrochene Anzahlen handelbar, und so fort).<br />
Für eine umfassendere Lektüre zum Thema Finanzmathematik eignen sich etwa die<br />
Lehrbücher [41], [79], [98], [56], [12] oder [47].<br />
Beispiel 9.41. Wir betrachten ein ganz einfaches Martingal X =(Xn)n=0,1 mit nur<br />
zwei Zeitpunkten. Es sei X0 =0fast sicher und P[X1 = −1] = P[X1 =0]=<br />
P[X1 =1]= 1<br />
3 .SeiY0 =0sowie Y1 =2, falls X1 =1und Y1 = −1 sonst. Dann<br />
ist Y offenbar ein σ(X)-Martingal. Allerdings können wir keine Zahl H1 angeben,<br />
sodass H1X1 = Y1 wäre. ✸<br />
Sei T ∈ N ein fester Zeitpunkt. Ist (Yn)n=0,1,...,T �<br />
ein F-Martingal, dann ist<br />
Yn = E[YT<br />
�Fn] für jedes n ≤ T . Durch die Angabe von YT ist ein F-Martingal Y<br />
also eindeutig festgelegt (und umgekehrt). Da (H ·X) ein Martingal ist, falls X ein<br />
Martingal ist, reduziert sich das Darstellungsproblem für Martingale auf das Problem,<br />
eine integrierbare Zufallsvariable V := YT darzustellen als v0 +(H ·X)T ,<br />
wobei v0 = E[YT ] ist, falls X ein Martingal ist.<br />
Wir haben eben schon gesehen, dass dies im Allgemeinen nicht möglich ist, wenn<br />
die Differenzen Xn+1 − Xn drei (oder mehr) unterschiedliche Werte annehmen<br />
können. Wir betrachten nun also den Fall, wo nur zwei Werte möglich sind. Hier<br />
muss in jedem Schritt ein lineares Gleichungssystem mit zwei Gleichungen und
9.4 Diskreter Martingaldarstellungssatz und CRR Modell 195<br />
zwei Unbekannten gelöst werden. Im Falle von drei möglichen Werten von Xn+1 −<br />
Xn wären dies drei Gleichungen für zwei Unbekannte, und im Allgemeinen ist<br />
dieses Gleichungssystem dann nicht lösbar.<br />
Definition 9.42 (Binäres Modell). Ein stochastischer Prozess X0,...,XT heißt<br />
binäres Modell, falls es Zufallsvariablen D1,...,DT mit Werten in {−1, +1} gibt<br />
und Funktionen fn : R n−1 ×{−1, +1} →R für n =1,...,T, sowie x0 ∈ R,<br />
sodass X0 = x0 und<br />
Xn = fn(X1,...,Xn−1,Dn) für jedes n =1,...,T.<br />
Mit F = σ(X) bezeichnen wir dann die von X erzeugte Filtration.<br />
Man beachte, dass Xn nur von X1,...,Xn−1 und Dn abhängt und nicht von der<br />
vollen Information der Werte D1,...,Dn. Man mache sich klar, dass im letzteren<br />
Fall eine mehr als binäre Aufspaltung der Werte in einem Zeitschritt möglich wäre.<br />
Satz 9.43 (Darstellungssatz). Sei X ein binäres Modell und VT eine FT -messbare<br />
Zufallsvariable. Dann existiert ein beschränkter, vorhersagbarer Prozess H und ein<br />
v0 ∈ R mit VT = v0 +(H ·X)T .<br />
Man beachte, dass F die von X erzeugte Filtration ist, nicht die im Allgemeinen<br />
größere, von D1,...,DT erzeugte. Für diese ist die Aussage des Satzes im Allgemeinen<br />
nicht zutreffend, weil wir eben mit H nicht auf die Di sondern nur auf X<br />
wetten können.<br />
Beweis. Wir zeigen, dass es FT −1-messbare Zufallsvariablen VT −1 und HT gibt,<br />
sodass VT = VT −1 + HT (XT − XT −1). Dies liefert per Rückwärtsinduktion die<br />
gewünschte Aussage.<br />
Da VT messbar ist bezüglich FT , existiert nach dem Faktorisierungslemma (Korollar<br />
1.97) eine Funktion gT : RT → R mit VT = gT (X1,...,XT ). Wir setzen<br />
X ±<br />
T = fT (X1,...,XT−1, ±1) und V ±<br />
T<br />
= gT (X1,...,XT −1,X ±<br />
T ).<br />
Jede dieser vier Zufallsvariablen ist offenbar FT −1-messbar. Wir suchen nun also<br />
VT −1 und HT , die das folgende lineare Gleichungssystem lösen<br />
Per Konstruktion ist X +<br />
T<br />
auflösen und erhalten<br />
VT −1 + HT (X −<br />
T − XT −1) =V −<br />
T ,<br />
VT −1 + HT (X +<br />
T − XT −1) =V +<br />
T .<br />
HT :=<br />
− X−<br />
T<br />
⎧<br />
⎨<br />
⎩<br />
�=0, falls V +<br />
T<br />
− V −<br />
T<br />
V + −<br />
T −VT X +<br />
T −X−<br />
, falls X<br />
T<br />
+<br />
T<br />
0, sonst,<br />
(9.3)<br />
�=0.Alsokönnen wir (9.3)<br />
�= X−<br />
T ,<br />
und VT −1 = V +<br />
T − HT (X +<br />
T − XT −1) =V −<br />
T − HT (X −<br />
T − XT −1). ✷
196 9 Martingale<br />
Wir wollen nun X als Kurs einer Aktie auffassen und VT als Auszahlungsfunktion<br />
eines Finanzderivats auf X, eines so genannten Claims. Beispielsweise kann<br />
VT eine europäische Kaufoption (Call) mit Fälligkeitszeitpunkt (maturity) T und<br />
Ausübungspreis (strike price) K ≥ 0 sein. In diesem Fall wäre VT =(XT − K) + .<br />
Ökonomisch ausgedrückt gibt diese Option dem Käufer das Recht (aber nicht die<br />
Pflicht) vom Herausgeber der Option zum Zeitpunkt T die Eingehung eines Kaufvertrages<br />
über eine Aktie zum Preis K einzufordern. Von diesem Recht macht man<br />
sinnvollerweise nur dann Gebrauch, wenn XT ≥ K ist. In diesem Fall kann man<br />
die erworbene Aktie zum Preis XT wieder an der Börse verkaufen und hat einen<br />
Gewinn von VT gemacht.<br />
An den Börsen werden nun aber nicht nur Aktien, sondern auch Derivate auf Aktien<br />
gehandelt. Welches ist also der faire Preis π(VT ) für den eine Börsenhändlerin<br />
den Claim VT anbieten kann? Gibt es eine Strategie H und ein v0, sodass VT =<br />
v0 +(H ·X)T ist, dann kann die Händlerin gegen Bezahlung von v0 risikolos VT<br />
nachbilden, indem sie H als Handelsstrategie an der Börse benutzt. Wir nennen den<br />
Claim VT dann replizierbar und die Strategie H einen Hedge. Ein Markt, in dem<br />
jeder Claim replizierbar ist, heißt vollständig. In diesem Sinne ist das Binärmodell<br />
also ein vollständiger Markt.<br />
Gäbe es nun eine zweite Strategie H ′ und ein zweites v ′ 0 mit v ′ 0 +(H ′ ·X)T = VT ,<br />
so wäre insbesondere v0 − v ′ 0 =((H ′ − H)·X)T .Wäre v0 >v ′ 0,sokönnte die<br />
Händlerin risikolos durch Verfolgen der Strategie H ′ − H einen Gewinn v0 − v ′ 0<br />
machen, im Falle v0
9.4 Diskreter Martingaldarstellungssatz und CRR Modell 197<br />
Das Maß PX ′ wird auch äquivalentes Martingalmaß genannt. Während es hier<br />
für uns nur von rechnerischem Interesse ist, hat es eine ökonomische Interpretation<br />
als Maß für die Preisbildung, falls alle Händler sich risikoneutral verhalten, also den<br />
Wert einer künftigen Auszahlung allein nach deren Erwartungswert bemessen (was<br />
typischerweise nicht der Fall ist; die meisten Anleger sind risikoavers, lassen sich<br />
also Unsicherheiten durch einen Aufschlag bezahlen).<br />
Nun wollen wir aber ein Modell im Detail betrachten.<br />
Definition 9.44. Seien T ∈ N, a ∈ (−1, 0) und b>0 sowie p ∈ (0, 1). Ferner<br />
seien D1,...,DT u.i.v. mit P[D1 =1]=1− P[D1 = −1] = p. Wirdefinieren<br />
X0 = x0 > 0 und für n =1,...,T<br />
�<br />
(1 + b) Xn−1, falls Dn =+1,<br />
Xn =<br />
(1 + a) Xn−1, falls Dn = −1.<br />
X heißt mehrstufiges Binomialmodell oder Cox-Ross-Rubinstein’sches Modell<br />
(ohne Verzinsung).<br />
Nach dem bisher Gezeigten ist das CRR Modell vollständig. Ferner können wir<br />
den Prozess X zu einem Martingal machen. Mithin ist<br />
durch die Wahl p∗ = a<br />
a−b<br />
das Modell auch arbitragefrei (für jedes p ∈ (0, 1)). Wir wollen nun den Preis des<br />
europäischen Calls VT := (XT − K) + explizit ausrechnen. Hierzu können wir<br />
wieder p = p∗ annehmen. Wir erhalten dann mit A := min{i ∈ N0 :(1+b) i (1 +<br />
a) T −ix0 >K},<br />
π(VT )=Ep ∗[VT ]=<br />
= x0<br />
T�<br />
i=A<br />
T�<br />
bT,p∗({i}) � (1 + b) i (1 + a) T −i x0 − K �+<br />
i=0<br />
� �<br />
T<br />
(p<br />
i<br />
∗ ) i (1 − p ∗ ) T −i � (1 + b) i (1 + a) T −i� − K<br />
T�<br />
i=A<br />
bT,p ∗({i}).<br />
Setzen wir p ′ =(1+b)p ∗ ,dannistp ′ ∈ (0, 1) und 1 − p ′ =(1− p ∗ )(1 + a). Wir<br />
erhalten so die Cox-Ross-Rubinstein’sche Formel<br />
π(VT )=x0 bT,p ′({A,...,T}) − KbT,p∗({A,...,T}). (9.5)<br />
Dies ist das diskrete Analogon zur berühmten Black–Scholes Formel für die Optionsbewertung<br />
in gewissen zeitkontinuierlichen Märkten.
10 Optional Sampling Sätze<br />
Wir haben im vorigen Kapitel gesehen, dass aus Martingalen wieder Martingale<br />
werden, wenn man gewisse Spielstrategien anwendet. Wir wollen in diesem Kapitel<br />
ähnliche Stabilitätseigenschaften für zufällig gestoppte Martingale zeigen. Um die<br />
Aussagen auch für Submartingale und Supermartingale zu bekommen, geben wir<br />
im ersten Abschnitt einen Zerlegungssatz für adaptierte Prozesse an. Im zweiten<br />
Abschnitt kommen dann die Optional Sampling und Optional Stopping Sätze.<br />
10.1 Doob-Zerlegung und quadratische Variation<br />
Sei X =(Xn)n∈N0 ein adaptierter Prozess mit E[|Xn|] < ∞ für jedes n ∈ N0.Wir<br />
wollen X zerlegen in eine Summe aus einem Martingal und einem vorhersagbaren<br />
Prozess. Dazu definieren wir für n ∈ N0<br />
und<br />
Mn := X0 +<br />
n�<br />
An :=<br />
k=1<br />
n�<br />
k=1<br />
� �<br />
Xk − E[Xk<br />
�Fk−1] �<br />
� �<br />
�<br />
E[Xk �Fk−1] − Xk−1 .<br />
(10.1)<br />
Offenbar ist Xn = Mn + An. Per Konstruktion ist A vorhersagbar mit A0 =0, und<br />
M ist ein Martingal, denn<br />
�<br />
E[Mn − Mn−1<br />
�Fn−1] = E � �<br />
Xn − E[Xn �Fn−1] � �<br />
�Fn−1 = 0.<br />
Satz 10.1 (Doob-Zerlegung). Sei X =(Xn)n∈N0 ein adaptierter, integrierbarer<br />
Prozess. Dann existiert eine eindeutige Zerlegung X = M + A, wobei A vorhersagbar<br />
ist mit A0 =0und M ein Martingal. Diese Darstellung von X heißt<br />
Doob–Zerlegung. X ist genau dann ein Submartingal, wenn A monoton wachsend<br />
ist.<br />
Beweis. Nur die Eindeutigkeit ist zu zeigen. Seien also X = M + A = M ′ + A ′<br />
zwei Zerlegungen mit den genannten Eigenschaften. Dann ist M −M ′ = A ′ −A ein
200 10 Optional Sampling Sätze<br />
vorhersagbares Martingal, also ist (siehe Übung 9.2.2) Mn − M ′ n = M0 − M ′ 0 =0<br />
für jedes n ∈ N0. ✷<br />
Beispiel 10.2. Sei I = N0 oder I = {0,...,N}. Sei(Xn)n∈Iein quadratisch integrierbares<br />
F–Martingal (das heißt E[X2 n] < ∞ für jedes n ∈ I). Nach Satz 9.32<br />
ist Y := (X2 n)n∈I ein Submartingal. Sei Y = M + A die Doob-Zerlegung<br />
von Y . Es ist dann (X2 �<br />
n − An)n∈I ein Martingal. Ferner ist E[Xi−1Xi<br />
�Fi−1]<br />
�<br />
=<br />
Xi−1E[Xi<br />
, also (wie in (10.1))<br />
An =<br />
�Fi−1] =X 2 i−1<br />
=<br />
=<br />
n�<br />
i=1<br />
�<br />
E[X 2 �<br />
�Fi−1] i − X 2 �<br />
i−1<br />
n� �<br />
E[(Xi − Xi−1) 2 � �Fi−1] − 2X 2 �<br />
i−1 +2E[Xi−1Xi<br />
i=1<br />
n�<br />
i=1<br />
� Fi−1]<br />
E � (Xi − Xi−1) 2 � �<br />
�Fi−1 . ✸<br />
Definition 10.3. Sei (Xn)n∈I ein quadratisch integrierbares F-Martingal. Der<br />
eindeutig bestimmte vorhersagbare Prozess A, mit dem (X 2 n − An)n∈I ein Martingal<br />
wird, heißt quadratischer Variationsprozess von X und wird in Formeln mit<br />
(〈X〉n)n∈I := A bezeichnet.<br />
Aus dem vorangehenden Beispiel ergibt sich sofort der folgende Satz.<br />
Satz 10.4. Sei X wie in Definition 10.3. Dann ist für n ∈ N0<br />
und<br />
〈X〉n =<br />
n�<br />
i=1<br />
E � (Xi − Xi−1) 2 � �<br />
�Fi−1 �<br />
(10.2)<br />
E[〈X〉n] =Var[Xn − X0]. (10.3)<br />
Bemerkung 10.5. Sind Y und A wie in Beispiel 10.2, dann ist A monoton wachsend,<br />
weil (X 2 n)n∈I ein Submartingal ist (vergleiche Satz 10.1). Deshalb wird A<br />
manchmal auch der wachsende Prozess von Y genannt. ✸<br />
Beispiel 10.6. Seien Y1,Y2,... unabhängige, quadratisch integrierbare, zentrierte<br />
Zufallsvariablen. Dann wird durch Xn := Y1 + ... + Yn ein quadratisch integrierbares<br />
Martingal definiert mit 〈X〉n = �n 2<br />
i=1 E[Yi ],dennesistAn �<br />
=<br />
n �<br />
2<br />
i=1 E[Y �Y1,...,Yi−1] i<br />
= �n 2<br />
i=1 E[Yi ] (wie in Beispiel 10.2).<br />
Man beachte, dass es für diese einfache Darstellung von 〈X〉 nicht ausreicht, dass<br />
die Y1,Y2,... unkorreliert sind. ✸
10.1 Doob-Zerlegung und quadratische Variation 201<br />
Beispiel 10.7. Seien Y1,Y2,... unabhängige, quadratisch integrierbare Zufallsvariablen<br />
mit E[Yn] = 1 für n ∈ N. Setze Xn := �n i=1 Yi für n ∈ N0. Dann<br />
ist X =(Xn)n∈N0 ein quadratisch integrierbares Martingal (warum?) bezüglich<br />
F = σ(X) und<br />
E � (Xn − Xn−1) 2 � � �<br />
�Fn−1 = E (Yn − 1) 2 X 2 � �<br />
�<br />
n−1 Fn−1 = Var[Yn] X 2 n−1.<br />
Also ist 〈X〉n = �n i=1 Var[Yi] X2 i−1 . Wir sehen, dass der quadratische Variationsprozess<br />
also durchaus ein echt zufälliger Prozess sein kann. ✸<br />
Beispiel 10.8. Sei (Xn)n∈N0 die eindimensionale symmetrische einfache Irrfahrt:<br />
n�<br />
Xn = Ri für jedes n ∈ N0,<br />
i=1<br />
wobei R1,R2,R3,... u.i.v. sind mit P[Ri =1]=1− P[Ri = −1] = 1<br />
2 .<br />
Offenbar ist X ein Martingal, also |X| ein Submartingal. Sei |X| = M + A die<br />
Doob-Zerlegung von |X|. Dannist<br />
n� �<br />
An = E[|Xi| � �Fi−1] −|Xi−1| � .<br />
Nun ist<br />
Also gilt<br />
i=1<br />
⎧<br />
⎪⎨<br />
|Xi−1| + Ri, falls Xi−1 > 0,<br />
|Xi| = |Xi−1|−Ri,<br />
⎪⎩<br />
1,<br />
falls Xi−1 < 0,<br />
falls Xi−1 =0.<br />
E[|Xi| � �<br />
|Xi−1|, falls |Xi−1| �= 0,<br />
�Fi−1] =<br />
1, falls |Xi−1| =0.<br />
Mithin ist<br />
An =# � i ≤ n − 1:|Xi| =0 �<br />
die Lokalzeit von X in 0. Es folgt (wegen P[X2j =0]= � � 2j −j<br />
j 4 und P[X2j+1 =<br />
0] = 0):<br />
E[|Xn|] =E � #{i ≤ n − 1: Xi =0} �<br />
n−1 �<br />
= P[Xi =0]=<br />
i=0<br />
⌊(n−1)/2⌋ �<br />
j=0<br />
� �<br />
2j<br />
4<br />
j<br />
−j . ✸<br />
Beispiel 10.9. Wir wollen das vorangehende Beispiel jetzt noch etwas verallgemeinern.<br />
Offenbar brauchten wir (außer in der letzten Formel) nicht, dass X eine Irrfahrt<br />
ist, sondern lediglich, dass die Differenzen (ΔX)n := Xn − Xn−1 nur die Werte
202 10 Optional Sampling Sätze<br />
−1 und +1 annehmen können. Sei also jetzt X ein Martingal mit |Xn − Xn−1| =1<br />
fast sicher für jedes n ∈ N und mit X0 = x0 ∈ Z fast sicher. Sei f : Z → R eine<br />
beliebige Abbildung. Dann ist Y := (f(Xn))n∈N0 ein integrierbarer, adaptierter<br />
Prozess (weil |f(Xn)| ≤maxx∈{x0−n,...,x0+n} |f(x)|). Um die Doob-Zerlegung<br />
von Y zu bestimmen, definieren wir die erste und zweite (diskrete) Ableitung von f<br />
und<br />
f ′ (x) :=<br />
f(x +1)− f(x − 1)<br />
2<br />
f ′′ (x) :=f(x − 1) + f(x +1)− 2f(x).<br />
Wir setzen noch F ′ n := f ′ (Xn−1) und F ′′<br />
n := f ′′ (Xn−1). Durch Unterscheidung<br />
der Fälle Xn = Xn−1 − 1 und Xn = Xn−1 +1sehen wir, dass für jedes n ∈ N<br />
f(Xn) − f(Xn−1) = f(Xn−1 +1)−f(Xn−1 − 1)<br />
(Xn − Xn−1)<br />
2<br />
+ 1<br />
2 f(Xn−1 − 1) + 1<br />
2 f(Xn−1 +1)− f(Xn−1)<br />
= f ′ (Xn−1)(Xn − Xn−1)+ 1<br />
2 f ′′ (Xn−1)<br />
= F ′ n · (Xn − Xn−1)+ 1 ′′<br />
F n .<br />
2<br />
Insgesamt erhalten wir also die diskrete Itô-Formel<br />
f(Xn) =f(x0)+<br />
n�<br />
i=1<br />
= f(x0)+(F ′ ·X)n +<br />
f ′ (Xi−1)(Xi − Xi−1)+<br />
n�<br />
i=1<br />
1 ′′<br />
F i .<br />
2<br />
n�<br />
i=1<br />
1<br />
2 f ′′ (Xi−1)<br />
(10.4)<br />
Hierbei ist F ′ ·X das diskrete stochastische Integral (siehe Definition 9.37). Nun ist<br />
M := f(x0)+F ′ ·X ein Martingal nach Satz 9.39, weil F ′ vorhersagbar ist (und<br />
|F ′ n|≤maxx∈{x0−n,...,x0+n} |F ′ (x)|), und A := ��n i=1 1<br />
�<br />
′′<br />
2F i ist vorhersag-<br />
n∈N0<br />
bar. Also ist f(X) :=(f(Xn))n∈N0 = M + A die Doob-Zerlegung von f(X).<br />
Speziell ist natürlich f(X) ein Submartingal, wenn f ′′ (x) ≥ 0 für alle x ∈ Z,wenn<br />
also f konvex ist. Dies wussten wir zwar schon aus Satz 9.35, allerdings haben wir<br />
hier auch noch quantifiziert, wie weit f(X) von einem Martingal abweicht.<br />
In den Spezialfällen f(x) =x2 und f(x) =|x| ist f ′′ (x) =2beziehungsweise<br />
f ′′ (x) =2· {0}(x), und wir erhalten aus (10.4) die Aussagen von Satz 10.4 und<br />
Beispiel 10.8.<br />
Später werden wir eine zu (10.4) vergleichbare Formel auch für stochastische Prozesse<br />
in stetiger Zeit herleiten (siehe Kapitel 25.3). ✸
10.2 Optional Sampling und Optional Stopping 203<br />
10.2 Optional Sampling und Optional Stopping<br />
Lemma 10.10. Sei I ⊂ R höchstens abzählbar, (Xt)t∈I � ein Martingal, T ∈ I und τ<br />
eine Stoppzeit mit τ ≤ T . Dann gilt Xτ = E[XT<br />
�Fτ ] und speziell E[Xτ ]=E[X0].<br />
Beweis. Es reicht zu zeigen, dass E[XT A] =E[Xτ A] für jedes A ∈Fτ gilt.<br />
Nach der Definition von Fτ ist {τ = t}∩A ∈Ft für jedes t ∈ I, also<br />
E[Xτ A] = �<br />
E[Xt {τ=t}∩A] = �<br />
E � �<br />
�<br />
E[XT<br />
�Ft] {τ=t}∩A<br />
t≤T<br />
t≤T<br />
= �<br />
E[XT A {τ=t}] = E[XT A]. ✷<br />
t≤T<br />
Satz 10.11 (Optional Sampling Theorem). Sei X =(Xn)n∈N0 ein Supermartingal,<br />
und seien σ ≤ τ Stoppzeiten.<br />
(i) Gibt es ein T ∈ N mit τ ≤ T , dann ist<br />
�<br />
Xσ ≥ E[Xτ<br />
�Fσ] und speziell E[Xσ] ≥ E[Xτ ].IstX ein Martingal, so gilt jeweils Gleichheit.<br />
(ii) Ist X nichtnegativ und τ < ∞ f.s., �so<br />
gelten E[Xτ ] ≤ E[X0] < ∞,<br />
E[Xσ] ≤ E[X0] < ∞ und Xσ ≥ E[Xτ �Fσ].<br />
(iii) Ist allgemeiner X lediglich adaptiert und integrierbar, so ist X genau dann<br />
ein Martingal, wenn E[Xτ ]=E[X0] für jede beschränkte Stoppzeit τ gilt.<br />
Beweis. (i) Sei X = M + A die Doob-Zerlegung von X, also A vorhersagbar<br />
und monoton fallend, A0 =0, und M ein Martingal. Dann ist nach Lemma 10.10,<br />
angewandt auf M,<br />
�<br />
Xσ = Aσ + Mσ = E[Aσ + MT �Fσ]<br />
�<br />
�<br />
≥ E[Aτ + MT<br />
�Fσ] = E[Aτ + E[MT<br />
�Fτ ] � �Fσ]<br />
�<br />
�<br />
= E[Aτ + Mτ<br />
�Fσ] = E[Xτ<br />
�Fσ]. Wir haben dabei Fτ ⊃Fσ, die Turmeigenschaft und die Monotonie der bedingten<br />
Erwartung (Satz 8.14) ausgenutzt.<br />
n→∞<br />
(ii) Es gilt Xτ∧n −→ Xτ fast sicher. Nach (i) gilt E[Xτ∧n] ≤ E[X0] für jedes<br />
n ∈ N. Nach dem Lemma von Fatou ist also<br />
Analog zeigt man E[Xσ] ≤ E[X0].<br />
E[Xτ ] ≤ lim inf<br />
n→∞ E[Xτ∧n] ≤ E[X0] < ∞.
204 10 Optional Sampling Sätze<br />
Seien nun m, n ∈ N mit m ≥ n. Teil (i) mit den beschränkten Stoppzeiten τ ∧ m ≥<br />
σ ∧ n liefert<br />
�<br />
Xσ∧n ≥ E[Xτ∧m<br />
�Fσ∧n].<br />
Für A ∈Fσ ist {σ
10.2 Optional Sampling und Optional Stopping 205<br />
Also ist X τ ein F-Submartingal. Da X τ an F τ adaptiert und F τ die kleinere Filtration<br />
ist, ist X auch ein F τ –Submartingal (siehe Bemerkung 9.29). ✷<br />
Beispiel 10.16. Sei X die symmetrische einfache Irrfahrt aus Beispiel 10.8. Seien<br />
a, b ∈ Z, a0 sowie<br />
τa =inf{t ≥ 0:Xt = a}, τb =inf{t ≥ 0:Xt = b} und τa,b = τa ∧ τb.<br />
τa,b ist eine Stoppzeit nach Lemma 9.18. Sei A = {τa,b = τa} das Ereignis, dass<br />
X in a ist bevor es in b ist. Wir wollen P[A] bestimmen. Nach Übung 2.3.1 ist<br />
fast sicher lim supn→∞ Xn = ∞ und lim infn→∞ Xn = −∞. Also ist fast sicher<br />
τa < ∞ und τb < ∞. Nach dem Optional Stopping Theorem Xτa,b ein Martingal.<br />
Wegen τa,b ∧ n n→∞<br />
−→ τa,b fast sicher, gilt X τa,b n→∞<br />
n −→ Xτa,b fast sicher. Da |Xτa,b n |<br />
durch b − a beschränkt ist, gilt X τa,b n→∞<br />
n −→ Xτa,b auch in L1 .Alsoist<br />
0 = lim<br />
n→∞ E � X τa,b�<br />
� �<br />
n = E Xτa,b = a · P [τa,b = τa]+b · P [τa,b = τb]<br />
= b +(a− b) P[τa,b = τa].<br />
Es folgt P [τa,b = τa] = b<br />
. ✸<br />
b − a<br />
Beispiel 10.17. Schließlich wollen wir unsere Maschinerie benutzen, um E[τa,b]<br />
und E[τa] zu berechnen. Der quadratische Variationsprozess 〈X〉 (vergleiche Definition<br />
10.3) ist gegeben durch<br />
〈X〉n =<br />
n�<br />
i=1<br />
E � (Xi − Xi−1) 2 � �<br />
�Fi−1 = n,<br />
also ist � X2 n − n �<br />
ein Martingal. Nach dem Optional Stopping Theorem ist<br />
n∈N0<br />
0=E � X 2 τa,b∧n − (τa,b ∧ n) �<br />
für jedes n ∈ N0.<br />
Monotone Konvergenz liefert<br />
E [τa,b] =E � X 2 � 2<br />
τa,b = a P [τa,b = τa]+b 2 P [τa,b = τb] =|a|·b.<br />
Um E[τa] zu berechnen, bemerken wir, dass τa,b ↑ τa fast sicher gilt, falls b →∞.<br />
Der Satz von der monotonen Konvergenz liefert also E[τa] = lim<br />
b→∞ E[τa,b] =∞. ✸<br />
Bemerkung 10.18. Offenbar ist Xτb = b>0, also X0 < E � � �<br />
Xτb<br />
�F0 = b. Die<br />
Aussage des Optional Sampling Theorems gilt also im Allgemeinen nicht, falls die<br />
Stoppzeit unbeschränkt ist. ✸<br />
Beispiel 10.19 (Gambler’s Ruin Problem). Wir betrachten ein Spiel zwischen<br />
zwei Personen A und B. In jeder Runde wird eine Münze geworfen. Je nach Ergebnis<br />
erhält A von B eine Geldeinheit oder B von A. Gespielt wird so lange, bis
206 10 Optional Sampling Sätze<br />
einer der beiden Spieler ruiniert ist. Wir nehmen der Einfachheit halber an, dass A<br />
zum Spielbeginn kA ∈ N Geldeinheiten hat, B hingegen kB = N − kA, wobei<br />
N ∈ N, N ≥ kA. Gesucht ist die Ruinwahrscheinlichkeit von B. In Beispiel 10.16<br />
haben wir für den Fall einer fairen Münze bereits ausgerechnet, dass die Ruinwahrscheinlichkeit<br />
kA/N ist. Nun wollen wir den Fall einer unfairen Münze betrachten.<br />
Seien also Y1,Y2,... unabhängig und P[Yi =1]=1− P[Yi = −1] = p für alle<br />
i ∈ N und für gewisses p ∈ (0, 1) \{ 1<br />
2 }.MitXn := kB + �n i=1 Yi bezeichnen<br />
wir den Kontostand von B nach n Runden, wobei wir formal annehmen, dass die<br />
Spiele weiter gehen, auch wenn ein Spieler bereits ruiniert ist. Wir definieren noch<br />
wie oben τ0, τN und τ0,N als die ersten Eintreffzeiten von X in 0, N beziehungs-<br />
weise {0,N}. Die Ruinwahrscheinlichkeit von B ist nun p N B := P[τ0,N = τ0].<br />
Da X kein Martingal ist (außer im Falle p = 1<br />
2 , den wir hier ausschließen wollen),<br />
behelfen wir uns mit einem Trick: Wir definieren einen neuen Prozess Z durch<br />
Zn := rXn = rkB �n i=1 rYi , wobei wir r>0 noch geeignet wählen müssen, sodass<br />
Z ein Martingal wird. Nach Beispiel 9.31 ist dies genau dann der Fall, wenn<br />
E[rY1 ]=pr +(1− p)r−1 =1ist, also wenn r =1oder r = 1−p<br />
p ist. Offenbar<br />
ist die Wahl r = 1 nutzlos, also nehmen wir r = 1−p<br />
p an. Wir erhalten so<br />
τ0 =inf{n ∈ N0 : Zn =1} und τN =inf{n ∈ N0 : Zn = rN }.<br />
(Man beachte, dass wir hier nicht wie oben argumentieren können, um zu zeigen,<br />
dass τ0 < ∞ und τN < ∞ fast sicher gilt. In der Tat ist für p �= 1<br />
2 auch stets<br />
nur genau eine der beiden Aussagen richtig. Allerdings erhält man, beispielsweise<br />
durch das starke Gesetz der großen Zahl, dass lim infn→∞ Xn = ∞ (und damit<br />
τN < ∞) fast sicher, falls p> 1<br />
2 . Analog ist τ0 < ∞ fast sicher, falls p< 1<br />
2 .)<br />
Wie in Beispiel 10.16 liefert der Optional Stopping Satz r kB = Z0 = E[Zτ0,N ]=<br />
p N B +(1− pN B )rN , also ist die Ruinwahrscheinlichkeit von B<br />
p N B = rkB − rN . (10.5)<br />
1 − rN Ist das Spiel vorteilhaft für B, also p> 1<br />
2 ,soistr
10.3 Gleichgradige Integrierbarkeit und Optional Sampling 207<br />
Übung 10.2.2. Wir betrachten hier eine allgemeinere Situation als im vorangehenden<br />
Beispiel, indem wir nur noch annehmen, dass Y1,Y2,... u.i.v. integrierbare<br />
Zufallsvariablen sind, die nicht fast sicher konstant sind (und Xn = Y1 + ...+ Yn).<br />
Weiter nehmen wir an, dass es ein δ > 0 gibt mit E[exp(θY1)] < ∞ für jedes<br />
θ ∈ (−δ, δ). Wirdefinieren eine Abbildung ψ : (−δ, δ) → R durch θ ↦→<br />
log � E[exp(θY1)] � und setzen Z θ n := exp(θXn − nψ(θ)) für n ∈ N0. Man zeige:<br />
(i) Für jedes θ ∈ (−δ, δ) ist Zθ ist ein Martingal.<br />
(ii) ψ ist strikt konvex.<br />
(iii) E �� Zθ � n→∞<br />
n −→ 0 für θ �= 0.<br />
(iv) Z θ n<br />
n→∞<br />
−→ 0 fast sicher.<br />
Interpretieren wir Yn als die Differenz zwischen Prämieneinnahmen und Schadensauszahlungen<br />
einer Versicherungsgesellschaft zur Zeit n,sogibtk0+Xn den Kontostand<br />
der Versicherung zur Zeit n wieder, wenn das Anfangskapital k0 > 0 beträgt.<br />
Wir interessieren uns für die Ruinwahrscheinlichkeit<br />
p(k0) =P � inf{Xn + k0 : n ∈ N0} < 0 �<br />
in Abhängigkeit vom Startkapital.<br />
Man kann davon ausgehen, dass die Prämien so kalkuliert sind, dass E[Y1] > 0.<br />
Man zeige: Falls die Gleichung ψ(θ) =0eine Lösung θ∗ �=0hat, so ist θ∗ < 0.<br />
Man zeige, dass in diesem Fall die Cramér-Lundberg’sche Ungleichung gilt:<br />
p(k0) ≤ exp(θ ∗ k0). (10.8)<br />
In dem Fall, wo Yi nur die Werte −1 und 1 annimmt und k0 ∈ N ist, gilt Gleichheit,<br />
und wir erhalten Gleichung (10.6) mit r =exp(θ ∗ ). ♣<br />
10.3 Gleichgradige Integrierbarkeit und Optional Sampling<br />
Wir wollen jetzt das Optional Sampling Theorem auf unbeschränkte Stoppzeiten<br />
ausweiten. Dies geht, falls das zugrunde liegende Martingal gleichgradig integrierbar<br />
ist (vergleiche Definition 6.16).<br />
Lemma 10.20. Sei X ein gleichgradig integrierbares Martingal. Dann ist die Familie<br />
(Xτ : τ ist endliche Stoppzeit) gleichgradig integrierbar.<br />
Beweis. Nach Satz 6.19) eine monoton wachsende, konvexe Funktion f :[0, ∞) →<br />
[0, ∞) mit lim infx→∞ f(x)/x = ∞ und L := supn∈N0 E[f(|Xn|)] < ∞. Ist<br />
τ
208 10 Optional Sampling Sätze<br />
E � � � �<br />
f(|Xτ |) {τ≤n} = E f(|Xτ∧n|) {τ≤n}<br />
≤ E � E � f(|Xn|) � � �<br />
�Fτ∧n {τ≤n}<br />
= E � �<br />
f(|Xn|) {τ≤n} ≤ L.<br />
Also ist E[f(|Xτ |)] ≤ L. Nach Satz 6.19 ist (Xτ ,τ ist endliche Stoppzeit) gleichgradig<br />
integrierbar. ✷<br />
Satz 10.21 (Optional Sampling und gleichgradige Integrierbarkeit).<br />
Ist (Xn, n ∈ N0) ein gleichgradig integrierbares Martingal (beziehungsweise<br />
Supermartingal), und sind σ ≤ τ Stoppzeiten, dann gilt E[|Xτ |] < ∞ und Xσ �<br />
�<br />
=<br />
E[Xτ<br />
�Fσ] (beziehungsweise Xσ ≥ E[Xτ<br />
�Fσ]). Beweis. Sei zunächst X ein Martingal. Für A ∈Fσ ist {σ ≤ n}∩A ∈Fσ∧n, also<br />
nach dem Optional Sampling Theorem (Satz 10.11)<br />
E � � � �<br />
Xτ∧n {σ≤n}∩A = E Xσ∧n {σ≤n}∩A .<br />
Nach Lemma 10.20 ist (Xσ∧n, n ∈ N0) und damit (Xσ∧n {σ≤n}∩A, n ∈ N0)<br />
gleichgradig integrierbar. Analog gilt dies für Xτ . Nach Satz 6.25 gilt daher<br />
E[Xτ A] = lim<br />
n→∞ E�Xτ∧n �<br />
{σ≤n}∩A = lim<br />
n→∞ E�Xσ∧n �<br />
{σ≤n}∩A = E[Xσ A].<br />
�<br />
Es folgt E[Xτ �Fσ] =Xσ.<br />
Sei nun X ein Supermartingal. Dann hat X die Doob-Zerlegung X = M + A,<br />
wobei M ein Martingal ist und A ≤ 0 vorhersagbar und fallend. Wegen<br />
E[|An|] =E[−An] ≤ E[|Xn − X0|] ≤ E[|X0|]+ supE[|Xm|]<br />
< ∞,<br />
m∈N0<br />
gilt An ↓ A∞ für ein A∞ ≤ 0 mit E[−A∞] < ∞. AlsoistA damit auch M =<br />
X − A gleichgradig integrierbar (Satz 6.19). Es folgt<br />
Ferner ist<br />
E[|Xτ |] ≤ E[−Aτ ]+E[|Mτ |] ≤ E[−A∞]+E[|Mτ |] < ∞.<br />
�<br />
E[Xτ �Fσ] =E[Mτ<br />
�<br />
�<br />
�Fσ]+E[Aτ �Fσ]<br />
= Mσ + Aσ + E[(Aτ − Aσ) � �Fσ]<br />
≤ Mσ + Aσ = Xσ. ✷<br />
Korollar 10.22. Ist X ein gleichgradig integrierbares Martingal (beziehungsweise<br />
Supermartingal), und sind τ1 ≤ τ2 ≤ ...endliche Stoppzeiten, so ist (Xτn )n∈N ein<br />
Martingal (beziehungsweise Supermartingal).
11 Martingalkonvergenzsätze und Anwendungen<br />
Wir haben Martingale X =(Xn)n∈N0 als faire Spiele kennen gelernt und festgestellt,<br />
dass sie unter gewissen Transformationen (Optionales Stoppen, diskretes stochastisches<br />
Integral) wieder zu Martingalen werden. In diesem Kapitel werden wir<br />
sehen, dass unter schwachen Bedingungen (Nichtnegativität oder gleichgradige Integrierbarkeit)<br />
Martingale fast sicher konvergieren. Zudem impliziert die Martingalstruktur<br />
die Lp-Konvergenz schon unter formal schwächeren Annahmen als denen,<br />
die wir in Kapitel 7 gesehen haben. Die grundlegenden Ideen dieses Kapitels liegen<br />
in der Doob’schen Ungleichung (Satz 11.2) und in der Aufkreuzungsungleichung<br />
(Lemma 11.3).<br />
11.1 Die Doob’sche Ungleichung<br />
Wir haben mit der Kolmogorov’schen Ungleichung (Satz 5.28) eine Ungleichung<br />
kennen gelernt, die analog zur Chebyshev’schen Ungleichung die Wahrscheinlichkeit<br />
für große Werte des Maximums eines quadratisch integrierbaren Prozesses mit<br />
unabhängigen, zentrierten Zuwächsen nach oben abschätzt. An dieser Stelle wollen<br />
wir die Ungleichung in mehrere Richtungen verbessern. Einerseits wollen wir<br />
Martingale betrachten. Andererseits wollen wir mit weniger als zweiten Momenten<br />
auskommen, beziehungsweise bei Anwesenheit höherer Momente die Ungleichung<br />
verschärfen.<br />
Sei I ⊂ N0 und X =(Xn)n∈I ein stochastischer Prozess. Wir schreiben für n ∈ N<br />
X ∗ n =sup{Xk : k ≤ n} und |X| ∗ n =sup{|Xk| : k ≤ n}.<br />
Lemma 11.1. Ist X ein Submartingal, dann gilt für jedes λ>0<br />
λ P � X ∗ n ≥ λ � ≤ E � Xn {X∗ n≥λ} � � �<br />
≤ E |Xn| {X∗ n≥λ} .<br />
Beweis. Die zweite Ungleichung ist trivial. Für die erste betrachte<br />
τ := inf � k ∈ I : Xk ≥ λ � ∧ n.<br />
Nach Satz 10.11 (Optional Sampling Theorem) ist
210 11 Martingalkonvergenzsätze und Anwendungen<br />
E[Xn] ≥ E[Xτ ]=E � Xτ {X∗ n≥λ} � �<br />
+ E Xτ {X∗ n
E � (|X| ∗ n ∧ K) p� ≤<br />
11.2 Martingalkonvergenzsätze 211<br />
p<br />
p − 1 E� (|X| ∗ n ∧ K) p� (p−1)/p · E � |Xn| p� 1/p .<br />
Indem wir beide Seiten zur p-ten Potenz erheben und durch E � (|X| ∗ n ∧ K) p�p−1 teilen (hier wird das Abschneiden bei K gebraucht, damit wir sicher durch eine<br />
endliche Zahl teilen), erhalten wir<br />
E � (|X| ∗ n ∧ K) p� � �p p<br />
≤<br />
E<br />
p − 1<br />
� |Xn| p� .<br />
Jetzt lassen wir K nach ∞ gehen. ✷<br />
Übung 11.1.1. Sei (Xn)n∈N0 ein Submartingal oder Supermartingal. Man zeige mit<br />
Hilfe von Satz 11.2 und der Doob-Zerlegung, dass für jedes n ∈ N und λ>0<br />
λ P � |X| ∗ n ≥ λ � ≤ 12 E[|X0|]+9E[|Xn|]. ♣<br />
11.2 Martingalkonvergenzsätze<br />
In diesem Abschnitt zeigen wir die gängigen Martingalkonvergenzsätze und geben<br />
ein paar kleinere Beispiele an. Wir beginnen mit dem Herzstück der Martingalkonvergenzsätze,<br />
der Aufkreuzungsungleichung.<br />
� �<br />
Sei F =(Fn)n∈N0 eine Filtration und F∞ = σ<br />
n∈N0 Fn<br />
� .Sei(Xn)n∈N0 re-<br />
ellwertig und an F adaptiert. Seien a, b ∈ R mit a < b. Stellen wir uns X als<br />
Aktienkurs vor, so wäre es eine sinnvolle Handelsstratgie, immer dann die Aktie<br />
zu kaufen, wenn ihr Kurs unter a gefallen ist, und zu verkaufen, sobald der Kurs<br />
wieder über b gestiegen ist – jedenfalls dann, wenn wir sicher wissen, dass der Kurs<br />
immer wieder über b steigt. Jedes Mal, wenn der Kurs der Aktie eine solche Aufkreuzung<br />
von a nach b macht, erhalten wir einen Gewinn von mindestens b − a.<br />
Indem wir den maximal möglichen Gewinn nach oben abschätzen, erhalten wir eine<br />
obere Abschätzung für die Zahl der Aufkreuzungen. Ist diese aber endlich für je<br />
zwei Werte a
212 11 Martingalkonvergenzsätze und Anwendungen<br />
Lemma 11.3 (Aufkreuzungsungleichung). Es sei (Xn)n∈N0 ein Submartingal.<br />
Dann ist<br />
E � U a,b�<br />
E[(Xn − a)<br />
n ≤ + ] − E[(X0 − a) + ]<br />
.<br />
b − a<br />
Beweis. Wir erinnern an das diskrete stochastische Integral (Definition 9.37) H ·X<br />
und beschreiben formal die oben angedeutete Handelsstrategie H durch m ∈ N0<br />
�<br />
1, falls m ∈{τk +1,...,σk} für ein k ∈ N,<br />
Hm :=<br />
0, sonst.<br />
H ist nichtnegativ und vorhersagbar, denn für m ∈ N ist<br />
{Hm =1} =<br />
∞� �<br />
{τk ≤ m − 1}∩{σk >m− 1} � ,<br />
k=1<br />
und jedes der Ereignisse liegt in Fm−1. Setze Y = max(X, a). Istk∈ N und<br />
σk < ∞, so ist offenbar Yσi − Yτi = Yσi − a ≥ b − a für jedes i ≤ k , also ist<br />
(H ·Y )σk =<br />
k�<br />
σi �<br />
i=1 j=τi+1<br />
(Yj − Yj−1) =<br />
k�<br />
(Yσi − Yτi ) ≥ k(b − a).<br />
Für j ∈{σk,...,τk+1} ist (H ·Y )j =(H ·Y )σk , und für j ∈{τk +1,...,σk} ist<br />
(H ·Y )j ≥ (H ·Y )τk =(H ·Y )σk−1 .Für n ∈ N ist daher (H ·Y )n ≥ (b − a)U a,b<br />
n .<br />
Nach Korollar 9.34 ist Y ein Submartingal, und damit (nach Satz 9.39) auch H ·Y<br />
und (1 − H)·Y . Nun ist Yn − Y0 =(1·Y )n =(H ·Y )n + ((1 − H)·Y )n, also<br />
E[Yn − Y0] ≥ E � � � � a,b<br />
(H ·Y )n ≥ (b − a)E Un . ✷<br />
Satz 11.4 (Martingalkonvergenzsatz).<br />
Sei (Xn)n∈N0 ein Submartingal mit sup{E[X+ n ]: n ≥ 0} < ∞. Dann existiert<br />
n→∞<br />
eine F∞-messbare Zufallsvariable X∞ mit E[|X∞|] < ∞ und Xn −→ X∞<br />
fast sicher.<br />
Beweis. Für a
und<br />
C = �<br />
a,b∈Q<br />
a
214 11 Martingalkonvergenzsätze und Anwendungen<br />
Bemerkung 11.8. Die Aussage von Satz 11.7 lässt sich so ausdrücken: Der Prozess<br />
(Xn) n∈N0∪{∞} ist ein (Sub-, Super-) Martingal bezüglich (Fn) n∈N0∪{∞}. ✸<br />
Beweis. Wir führen den Beweis für den Fall, wo X ein Submartingal ist. Gleichgradige<br />
Integrierbarkeit impliziert sup{E[X + n ]: n ≥ 0} < ∞. Nach Satz 11.4 existiert<br />
der fast sichere Limes X∞. Nach Satz 6.25 gilt dann E[|Xn − X∞|] n→∞<br />
−→ 0.<br />
Nach Korollar 8.20 impliziert diese L1-Konvergenz schon die L1-Konvergenz der<br />
bedingten Erwartungen E �� �<br />
�<br />
�E[Xn �Fm] − E[X∞<br />
�Fm] � � � n→∞<br />
−→ 0. DaX ein Submartingal<br />
ist, ist � � �− E[Xn<br />
�Fm] − Xm =0für n ≥ m. Die Dreiecksungleichung<br />
liefert also<br />
� �E[X∞ � � �<br />
−<br />
E �Fm] − Xm = lim<br />
n→∞ E<br />
� �E[Xn � � �<br />
− �Fm] − Xm =0.<br />
�<br />
Es folgt, dass E[X∞ �Fm] − Xm ≥ 0 fast sicher. ✷<br />
Korollar 11.9. Sei X ≥ 0 ein Martingal und X∞ = lim<br />
n→∞ Xn. Genau dann ist<br />
E[X∞] =E[X0], wennX gleichgradig integrierbar ist.<br />
Beweis. Das folgt direkt aus Satz 6.25. ✷<br />
Sei p ∈ [1, ∞). Ein reellwertiger stochastischer Prozess (Xi)i∈I heißt L p –beschränkt,<br />
falls sup i∈I E[|Xi| p ] < ∞ (Definition 6.20). Im Allgemeinen folgt aus<br />
der L p –Beschränktheit eines Prozesses (Xi)i∈I nicht, dass (|Xi| p )i∈I gleichgradig<br />
integrierbar wäre. Ist X ein Martingal und p > 1, so folgt dies jedoch aus<br />
der Doob’schen Ungleichung. Insbesondere folgt dann aus fast sicherer Konvergenz<br />
schon die Konvergenz in L p .<br />
Satz 11.10 (Lp-Konvergenzsatz für Martingale).<br />
Sei p>1 und (Xn)n∈N0 ein Lp-beschränktes Martingal. Dann existiert eine F∞messbare<br />
Zufallsvariable X∞ mit E[|X∞| p n→∞<br />
] < ∞, sowie Xn −→ X∞ fast<br />
gleichgradig integrierbar.<br />
sicher und in L p . Speziell ist (|Xn| p )n∈N0<br />
Beweis. Nach Korollar 6.21 ist X gleichgradig integrierbar. Also existiert der fast<br />
sichere Limes X∞. Nach der Doob’schen Ungleichung (Satz 11.2) ist für n ∈ N<br />
E � sup � |Xk| p : k ≤ n �� � �p p<br />
≤<br />
E<br />
p − 1<br />
� |Xn| p� .<br />
Also ist<br />
�<br />
E sup � |Xk| p �<br />
: k ∈ N0<br />
� � �p p<br />
�<br />
≤<br />
sup E<br />
p − 1<br />
� |Xn| p� �<br />
: n ∈ N0 < ∞.<br />
Insbesondere ist (|Xn| p )n∈N0 also gleichgradig integrierbar.<br />
Majorisierte Konvergenz liefert (wegen |Xn − X∞| p ≤ 2p sup{|Xn| p : n ∈ N0})<br />
E � |X∞| p� < ∞ und E � |Xn − X∞| p� n→∞<br />
−→ 0. ✷
11.2 Martingalkonvergenzsätze 215<br />
Für den Fall quadratintegrierbarer Martingale gibt es ein handliches Kriterium für<br />
die L 2 -Beschränktheit, das wir hier als Korollar festhalten (siehe Definition 10.3).<br />
Korollar 11.11. Sei X ein quadratintegrierbares Martingal X mit quadratischem<br />
Variationsprozess 〈X〉. Dann sind folgende vier Aussagen äquivalent:<br />
(i) supn∈N E[X2 n] < ∞,<br />
(ii) limn→∞ E[〈X〉n] < ∞,<br />
(iii) X konvergiert in L2 ,<br />
(iv) X konvergiert fast sicher und in L2 .<br />
Beweis. (i) ⇐⇒ (ii)“ Wegen Var[Xn − X0] =E[〈X〉n] (siehe Satz 10.4) ist<br />
”<br />
X genau dann in L2 beschränkt, wenn (ii) gilt.<br />
” (iv) =⇒ (iii) =⇒ (i)“ Dies ist trivial.<br />
” (i) =⇒ (iv)“ Dies ist die Aussage von Satz 11.10. ✷<br />
Bemerkung 11.12. Die Aussage von Satz 11.10 ist für p = 1 im Allgemeinen<br />
falsch. Siehe Übung 11.2.1. ✸<br />
Lemma 11.13. Sei X ein quadratintegrierbares Martingal mit quadratischem Variationsprozess<br />
〈X〉, und sei τ eine Stoppzeit. Dann hat der gestoppte Prozess X τ<br />
den quadratischen Variationsprozess 〈X τ 〉 = 〈X〉 τ := (〈X〉τ∧n)n∈N0 .<br />
Beweis. Übung! ✷<br />
Nehmen wir statt wie in Korollar 11.11 nicht die Beschränktheit der Erwartungswerte<br />
der quadratischen Variation an, sondern lediglich die fast sichere Beschränktheit,<br />
so erhalten wir immerhin noch fast sichere Konvergenz von X, im Allgemeinen<br />
nicht jedoch L 2 -Konvergenz.<br />
Satz 11.14. Sei X ein quadratintegrierbares Martingal mit sup n∈N〈X〉n < ∞ fast<br />
sicher. Dann konvergiert X fast sicher.<br />
Beweis. Ohne Einschränkung können wir annehmen, dass X0 =0ist, sonst betrachten<br />
wir das Martingal (Xn − X0)n∈N0 , das den selben quadratischen Variationsprozess<br />
hat. Betrachte für K>0<br />
τK := inf{n ∈ N : 〈X〉n+1 ≥ K}.<br />
Dies ist eine Stoppzeit, da 〈X〉 vorhersagbar ist. Offenbar ist supn∈N〈X〉τK∧n ≤ K<br />
fast sicher. Nach Korollar 11.11 konvergiert der gestoppte Prozess XτK fast sicher<br />
(und in L2 ) gegen eine Zufallsvariable, die wir XτK ∞ nennen wollen. Nach Voraussetzung<br />
gilt P[τK = ∞] → 1 für K →∞, also konvergiert X fast sicher. ✷
216 11 Martingalkonvergenzsätze und Anwendungen<br />
Beispiel 11.15. Sei X die symmetrische einfache Irrfahrt auf Z, das heißt Xn �<br />
=<br />
n<br />
k=1 Rk, wobei R1,R2,... u.i.v. sind mit P[R1 =1]=1− P[R1 = −1] = 1<br />
2 .<br />
Dann ist X ein Martingal, jedoch ist lim supn→∞ Xn = ∞ und lim infn→∞ Xn =<br />
−∞, also X nicht einmal uneigentlich konvergent. Dies geht nach dem Martingalkonvergenzsatz<br />
einher damit, dass X nicht gleichgradig integrierbar ist. ✸<br />
Beispiel 11.16 (Wählermodell). Wir betrachten ein einfaches Modell zum Verhalten<br />
von opportunistischen Wählern, die nur einer von zwei Meinungen (zu einem<br />
politischen Thema) fähig sind, sagen wir 0 und 1. Wir betrachten eine Menge<br />
Λ ⊂ Zd , die wir als die Menge der Orte auffassen, an denen je ein Individuum<br />
sitzt. Zur Einfachheit nehmen wir an, dass Λ = {0,...,L− 1} d für ein L ∈ N.Mit<br />
x ∈{0, 1} Λ bezeichnen wir einen generischen Zustand des gesamten Wahlvolkes,<br />
wobei x(i) ∈{0, 1} die Meinung des Individuums i ∈ Λ ist. Wir stellen uns nun<br />
vor, dass sich die Meinungen in diskreten Zeitschritten ändern. Zu jedem Zeitpunkt<br />
n vergisst ein zufällig gewähltes Individuum In seine Meinung und übernimmt stattdessen<br />
die Meinung eines zufällig gewählten Nachbarn In + Nn, wobei wir die<br />
Addition als komponentenweise modulo L verstehen (manchmal wird dies auch<br />
periodische Randbedingungen genannt, weil wir Λ als diskreten Torus auffassen).<br />
So erhalten wir eine zufällige Folge (Xn)n∈N0 von Zuständen in {0, 1}Λ , die die<br />
zufällige Entwicklung der Meinungen darstellt.<br />
Um noch einmal formal zu fassen, was wir gerade beschrieben haben: Wir betrachten<br />
unabhängige Zufallsvariablen (In)n∈N und (Nn)n∈N. Für jedes n ∈ N sei In<br />
uniform verteilt auf Λ und Nn uniform verteilt auf den 2d direkten Nachbarn des<br />
Ursprungs N := {i ∈ Zd : �i�2 =1}. Zudem ist x = X0 ∈{0, 1} Λ der ursprüngliche<br />
Zustand. Die weiteren Zustände definieren wir induktiv durch<br />
�<br />
Xn−1(i), falls In �= i,<br />
Xn(i) =<br />
Xn−1(In + Nn), falls In = i.<br />
Wir interessieren uns jetzt für das Langzeitverhalten von (Xn)n∈N0 .Wirdesauf<br />
lange Sicht einen Konsens unter allen Individuen geben, oder können zwei konkurrierende<br />
Meinungen koexistieren? Wir betrachten dazu die Gesamtzahl aller Individuen<br />
mit Meinung 1 zur Zeit n, nämlich Mn := �<br />
i∈Λ Xn(i). SeiFdie Filtration<br />
F =(Fn)n∈N0 , wobei Fn = σ(Ik, Nk : k ≤ n) ist für jedes n ∈ N0. DannistM<br />
an F adaptiert und<br />
�<br />
E[Mn<br />
�Fn−1] =Mn−1 − E[Xn−1(In) � �Fn−1]+E[Xn−1(In + Nn) � �Fn−1] = Mn−1 + �<br />
P[In = i] Xn−1(i) − �<br />
P[In + Nn = i] Xn−1(i)<br />
= Mn−1,<br />
i∈Λ<br />
weil P[In = i] = P[In + Nn = i] = L −d für jedes i ∈ Λ. AlsoistM ein<br />
beschränktes F-Martingal und damit fast sicher und in L 1 konvergent gegen eine<br />
Zufallsvariable M∞.DaM nur ganzzahlige Werte annimmt, gibt es ein (zufälliges)<br />
i∈Λ
11.2 Martingalkonvergenzsätze 217<br />
n0, sodass Mn = Mn0 für jedes n ≥ n0. Damit ist aber auch Xn = Xn0 für jedes<br />
n ≥ n0. Offenbar ist jedoch kein Zustand x mit x �≡ 0 und x �≡ 1 stabil, denn hier<br />
gilt, falls i und j in Λ benachbart sind und x(i) �= x(j),<br />
�<br />
P[Xn �= Xn−1<br />
�Xn−1 = x] ≥ P[In−1 = i, Nn−1 = j − i] =L −d (2d) −1 .<br />
Es muss also M∞ ∈{0,L d } gelten. Nun ist aber E[M∞] =M0, also gilt<br />
P � M∞ = L d � = M0<br />
Ld und P � M∞ =0 � =1− M0<br />
.<br />
Ld Etwas formaler sehen wir den Sachverhalt, dass nur die beiden extremen Zustände<br />
stabil sind, so ein: Wir betrachten den quadratischen Variationsprozess 〈M〉 von M.<br />
Dann ist<br />
n�<br />
n�<br />
〈M〉n = {Mk�=Mk−1} =<br />
Also ist<br />
k=1<br />
k=1<br />
L 2d ≥ Var[Mn] =E[〈M〉n]<br />
n�<br />
=<br />
k=1<br />
{Xk−1(Ik)�=Xk−1(Ik+Nk)}.<br />
P[Xk−1(Ik) �= Xk−1(Ik + Nk)]<br />
≥ (2d) −1 L −d<br />
n�<br />
k=1<br />
P[Mk−1 �∈ {0,L d }].<br />
Es folgt, dass � ∞<br />
k=1 P[Mk−1 �∈ {0,L d }] ≤ 2dL 3d < ∞, also ist nach dem Lemma<br />
von Borel-Cantelli M∞ ∈{0,L d }. ✸<br />
Beispiel 11.17 (Satz von Radon-Nikodym). Wir wollen mit Hilfe des Martingalkonvergenzsatzes<br />
einen alternativen Beweis des Satzes von Radon-Nikodym (Korollar<br />
7.34) angeben.<br />
Sei (Ω,F, P) ein W-Raum und Q ein weiteres W-Maß auf (Ω,A). Wir nehmen<br />
zudem an, dass F abzählbar erzeugt ist, dass es also (höchstens) abzählbar viele<br />
Mengen A1,A2,...∈Fgibt, sodass F = σ({A1,A2,...}). Dies ist beispielsweise<br />
dann richtig, wenn F die Borel’sche σ-Algebra auf einem polnischen Raum ist.<br />
Speziell können wir für den Fall Ω = Rd offene Kugeln mit rationalen Radien und<br />
rationalen Zentren nehmen.<br />
Wir bilden nun eine Filtration F =(Fn)n∈N, indem wir Fn := σ({A1,...,An})<br />
setzen. Offenbar ist #Fn < ∞ für jedes n ∈ N. Genauer gilt, dass es eine endliche<br />
(eindeutig bestimmte) Teilmenge Zn ⊂Fn \ {∅} gibt mit B = �<br />
C für jedes<br />
C∈Zn<br />
C⊂B<br />
B ∈Fn. Zn ist die Zerlegung von Fn in ” Atome“. Schließlich definieren wir einen<br />
stochastischen Prozess (Xn)n∈N durch
218 11 Martingalkonvergenzsätze und Anwendungen<br />
Xn :=<br />
�<br />
C∈Zn: P[C]>0<br />
Q(C)<br />
P[C] C.<br />
Offenbar ist X an F adaptiert. Sei B ∈Fnund m ≥ n. Für jedes C ∈ Zm gilt<br />
entweder C ∩ B = ∅ oder C ⊂ B.Alsoist<br />
E[Xm B] = � Q(C)<br />
P[C ∩B] =<br />
P[C] �<br />
Q(C) =Q(B). (11.1)<br />
C∈Zm: P[C]>0<br />
Insbesondere ist X also ein F-Martingal.<br />
C∈Zm: C⊂B<br />
Wir nehmen nun an, dass Q absolutstetig bezüglich P ist. Nach Beispiel 7.39 ist X<br />
dann gleichgradig integrierbar. Nach dem Martingalkonvergenzsatz konvergiert X<br />
fast sicher und in L1 gegen eine Zufallsvariable X∞. Nach (11.1) ist E[X∞ B] =<br />
Q(B) für jedes B ∈ �<br />
n∈N Fn, also auch für jedes B ∈F. Mithin ist X∞ die<br />
Radon-Nikodym-Dichte von Q bezüglich P.<br />
Man beachte, dass wir für diesen Beweis des Satzes von Radon-Nikodym nirgends<br />
die Existenz bedingter Erwartungen vorausgesetzt haben, also nicht in versteckter<br />
Weise auf den Satz selber zurückgegriffen haben.<br />
Man könnte einwenden, dass wir hier nur den Spezialfall von W-Maßen behandeln<br />
konnten. Dieser Mangel kann jedoch sehr leicht behoben werden: Sind μ und ν<br />
beliebige (jedoch von Null verschiedene) σ-endliche Maße, dann gibt es messbare<br />
Funktionen g, h : Ω → (0, ∞) mit � gdμ =1und � hdν =1. Wir setzen nun<br />
P = gμ und Q = hν. Offenbar gilt genau dann Q ≪ P, wennν≪μ. In diesem<br />
Fall ist g<br />
hX∞ eine Version der Radon-Nikodym-Ableitung dν<br />
dμ .<br />
Auf die Einschränkung, dass F abzählbar erzeugt werden kann, kann man ebenfalls<br />
verzichten. Mit Hilfe der Approximationssätze für Maße kann man zeigen, dass es<br />
stets eine abzählbar erzeugte σ-Algebra G⊂Fgibt, sodass für jedes A ∈Fein<br />
B ∈Gexistiert mit P[A △ B] =0. Hiermit lässt sich der allgemeine Fall beweisen.<br />
Wir führen dies hier nicht aus, sondern verweisen auf [157, Kapitel 14.13]. ✸<br />
Übung 11.2.1. Die Aussage von Satz 11.10 ist für p =1im Allgemeinen falsch.<br />
Man gebe ein Beispiel an für ein nichtnegatives Martingal X mit E[Xn] =1für<br />
n→∞<br />
jedes n ∈ N, aber Xn −→ 0 fast sicher. ♣<br />
Übung 11.2.2. Seien X1,X2,...unabhängige, quadratisch integrierbare Zufallsvariablen<br />
mit �∞ n=1 1<br />
n2 Var[Xn] < ∞. Man zeige mit Hilfe des Martingalkonvergenzsatzes<br />
das starke Gesetz der großen Zahl für (Xn)n∈N. ♣<br />
Übung 11.2.3. Man gebe ein Beispiel an für ein quadratisch integrierbares Martingal,<br />
das fast sicher konvergiert, aber nicht in L 2 . ♣<br />
Übung 11.2.4. Man zeige: In Satz 11.14 gilt im Allgemeinen nicht die Umkehrung.<br />
Das heißt, es gibt ein quadratintegrierbares Martingal X, das fast sicher konvergiert,<br />
für das aber nicht gilt, dass lim<br />
n→∞ 〈X〉n < ∞ fast sicher. ♣
11.3 Beispiel: Verzweigungsprozess 219<br />
Übung 11.2.5. Man zeige: In Satz 11.14 gilt die Umkehrung unter der zusätzlichen<br />
Annahme, dass es ein K>0 gibt mit |Xn − Xn−1| ≤K f.s. für jedes n ∈ N. ♣<br />
Übung 11.2.6. Sei (Fn)n∈N0 eine Filtration und (An)n∈N Ereignisse. Setze A∗ =<br />
lim supn→∞ An und A∞ = � �∞ n=1 P[An |Fn−1] =∞ � . Man zeige die bedingte<br />
Version des Borel-Cantelli Lemmas: P[A∞ △ A∗ ]=0.<br />
Hinweis: Wende Übung 11.2.5 an auf Xn = �∞ n=1 ( An − P[An |Fn−1]). ♣<br />
Übung 11.2.7. Sei p ∈ [0, 1] und X =(Xn)n∈N0 ein stochastischer Prozess mit<br />
Werten in [0, 1]. Für jedes n ∈ N0 gelte: Gegeben X0,...,Xn ist<br />
�<br />
1 − p + pXn mit Wahrscheinlichkeit Xn,<br />
Xn+1 =<br />
pXn mit Wahrscheinlichkeit 1 − Xn.<br />
Man zeige, dass X ein Martingal ist und fast sicher konvergiert. Man bestimme die<br />
Verteilung des fast sicheren Grenzwerts limn→∞ Xn. ♣<br />
Übung 11.2.8. Sei f ∈L1 (λ), wobei λ die Einschränkung des Lebesgue-Maßes auf<br />
[0, 1] bezeichnet. Sei In,k =[k2−n , (k +1)2−n ) für n ∈ N und k =0,...,2n − 1.<br />
Definiere fn :[0, 1] → R durch<br />
fn(x) =2 n<br />
�<br />
fdλ, falls k so gewählt ist, dass x ∈ Ik,n.<br />
Ik,n<br />
Zeige: Für λ-fast alle x ∈ [0, 1] gilt fn(x) n→∞<br />
−→ f(x). ♣<br />
Übung 11.2.9. Sei (Ω,A, P) ein Wahrscheinlichkeitsraum mit einer Filtration F =<br />
(Fn)n∈N. SeiF∞ := σ(Fn : n ∈ N), und sei M der Vektorraum der gleichgradig<br />
integrierbaren F-Martingale. Man zeige: die Abbildung Φ : L 1 (F∞) →M, X∞ ↦→<br />
(E[X∞ |Fn])n∈N ist ein Vektorraumisomorphismus. ♣<br />
11.3 Beispiel: Verzweigungsprozess<br />
Sei p =(pk)k∈N0 ein Wahrscheinlichkeitsvektor auf N0 und (Zn)n∈N0 der Galton-<br />
Watson-Prozess mit einem Urahn und Nachkommenverteilung p (siehe Definition<br />
3.9). Zur Erinnerung geben wir die Konstruktion von Z an. Seien (Xn,i)n∈N0,i∈N<br />
u.i.v. Zufallsvariablen P[X1,1 = k] =pk für k ∈ N0. Setze Z0 =1und induktiv<br />
Zn<br />
Zn+1 =<br />
i=1<br />
�<br />
Xn,i für n ∈ N0.<br />
Wir interpretieren Zn als Größe einer Population zur Zeit n und Xn,i als Anzahl der<br />
Nachkommen des i-ten Individuums aus der n-ten Generation.<br />
Seien m := E[X1,1] < ∞ die erwartete Kinderanzahl pro Individuum und σ 2 :=<br />
Var[X1,1] ∈ (0, ∞) die Varianz der Kinderzahl. Setze Fn := σ(Xk,i : k
220 11 Martingalkonvergenzsätze und Anwendungen<br />
Lemma 11.18. W ist ein Martingal. Speziell ist E[Z n ]=m n für jedes n ∈ N.<br />
Beweis. Wir berechnen die bedingte Erwartung für n ∈ N0:<br />
�<br />
E[Wn+1<br />
�Fn] =m −(n+1) �<br />
E[Zn+1<br />
�Fn] = m −(n+1) � �<br />
Zn � �<br />
E Xn,i<br />
�Fn<br />
= m −(n+1)<br />
= m −n<br />
i=1<br />
∞�<br />
E � � �<br />
{Zn=k}k · Xn,i<br />
�Fn<br />
k=1<br />
∞�<br />
E � � �<br />
k · �Fn<br />
{Zn=k}<br />
k=1<br />
= m −n Zn = Wn. ✷<br />
Satz 11.19. Sei Var[X1,1] ∈ (0, ∞). Es existiert der fast sichere Limes W∞ =<br />
lim<br />
n→∞ Wn, und es gilt<br />
m>1 ⇐⇒ E[W∞] =1 ⇐⇒ E[W∞] > 0.<br />
Beweis. W∞ existiert, weil W ≥ 0 ein Martingal ist. Ist m ≤ 1, so folgt, dass<br />
(Zn)n∈N f.s. gegen ein Z∞ konvergiert. Wegen σ2 > 0 kommt nur Z∞ =0in<br />
Frage.<br />
Sei nun m>1. Es gilt nach dem Satz von Blackwell-Girshick (Satz 5.10) wegen<br />
E[Zn−1] =mn−1 (Lemma 11.18)<br />
Var[Wn] =m −2n � σ 2 E[Zn−1]+m 2 Var[Zn−1] �<br />
= σ 2 m −(n+1) + Var[Wn−1].<br />
Induktiv folgt Var[Wn] =σ 2<br />
n+1 �<br />
m<br />
k=2<br />
−k ≤ σ2 m<br />
m − 1 < ∞. AlsoistWin L2 beschränkt,<br />
und Satz 11.10 liefert, dass Wn → W∞ in L2 und damit auch in L1 .<br />
Speziell ist E[W∞] =E[W0] =1. ✷<br />
Unter der Annahme der endlichen Varianz waren die Aussagen von Satz 11.19 nicht<br />
schwer zu zeigen. Es gilt aber eine viel stärkere Aussage, die wir hier nur zitieren<br />
(siehe [94], beziehungsweise [108] für einen modernen Beweis).<br />
Satz 11.20 (Kesten-Stigum (1966)). Sei m>1. Dann sind äquivalent<br />
(i) E[W∞] =1,<br />
(ii) E[W∞] > 0,<br />
(iii) E[X1,1 log(X1,1) + ] < ∞.
12 Rückwärtsmartingale und Austauschbarkeit<br />
Bei vielen Datenerhebungen, etwa Telefonumfragen, ist die Reihenfolge, in der die<br />
Daten kommen, unerheblich. Mathematisch sprechen wir von austauschbaren Zufallsvariablen,<br />
wenn sich die gemeinsame Verteilung unter endlichen Vertauschungen<br />
nicht ändert. Der Struktursatz für austauschbare Zufallsvariablen von de Finetti<br />
besagt, dass sich eine unendlich große austauschbare Familie von Zufallsvariablen<br />
mit Werten im Raum E als Zweistufenexperiment beschreiben lässt: In der ersten<br />
Stufe wird eine zufällige Wahrscheinlichkeitsverteilung Ξ auf E ausgewürfelt. In<br />
der zweiten Stufe werden die Zufallsvariablen u.i.v. mit Verteilung Ξ realisiert.<br />
Wir definieren zunächst den Begriff der Austauschbarkeit. Danach betrachten wir<br />
Rückwärtsmartingale und zeigen den Konvergenzsatz für Rückwärtsmartingale.<br />
Dieser ist der Eckstein für den Beweis des Satzes von de Finetti.<br />
12.1 Austauschbare Familien von Zufallsvariablen<br />
Definition 12.1. Sei I eine beliebige Indexmenge und E ein polnischer Raum. Eine<br />
Familie (Xi)i∈I von Zufallsvariablen mit Werten in E heißt austauschbar, falls für<br />
jede endliche Permutation ϱ : I → I gilt, dass<br />
L<br />
��Xϱ(i) �<br />
i∈I<br />
�<br />
= L � �<br />
(Xi) i∈I .<br />
Als endliche Permutation bezeichnen wir dabei eine Bijektion ϱ : I → I, die alle<br />
bis auf endlich viele Koordinaten unverändert lässt.<br />
Bemerkung 12.2. Offenbar sind äquivalent:<br />
(i) (Xi)i∈I ist austauschbar.<br />
(ii) Für n ∈ N und paarweise unterschiedliche i1,...,in ∈ I sowie paarweise<br />
unterschiedliche j1,...,jn ∈ I gilt L[(Xi1 ,...,Xin )] = L[(Xj1 ,...,Xjn )].<br />
Insbesondere sind austauschbare Zufallsvariablen stets identisch verteilt (dies ist (ii)<br />
mit n =1). ✸
222 12 Rückwärtsmartingale und Austauschbarkeit<br />
Beispiel 12.3. (i) Ist (Xi)i∈I u.i.v., so ist (Xi)i∈I austauschbar.<br />
(ii) In einer Urne seien N Kugeln, davon M schwarz. Wir ziehen sukzessive ohne<br />
Zurücklegen alle Kugeln und setzen<br />
�<br />
1, falls die n-te Kugel schwarz ist,<br />
Xn :=<br />
0, sonst.<br />
Dann ist (Xn)n=1,...,N austauschbar. Dies folgt aus elementarer Kombinatorik,<br />
denn für jede Wahl von x1,...,xN ∈{0, 1} mit x1 + ...+ xN = M ist offenbar<br />
P � � 1<br />
X1 = x1,...,XN = xN = �.<br />
Diese Formel können wir aber auch formal durch eine kleine Rechnung mit bedingten<br />
Wahrscheinlichkeiten herleiten, die wir in ähnlicher Form für das Pólya’sche<br />
Urnenmodell in Beispiel 12.29 noch einmal durchführen werden. Setze dazu sk =<br />
x1 + ...+ xk für k =0,...,N und<br />
�<br />
M − sk, falls x =1,<br />
gk(x) =<br />
N − M + sk − k, falls x =0.<br />
Dann ist P[X1 = x1] =g0(x1)/N und<br />
P[Xk+1 = xk+1 |X1 = x1,...,Xk = xk] = gk(xk+1)<br />
N − k<br />
� N<br />
M<br />
für k =1,...,N − 1.<br />
Ferner ist offenbar gk(0) = N − M − l, wobei l =#{i
12.1 Austauschbare Familien von Zufallsvariablen 223<br />
Sei X =(Xn)n∈N ein stochastischer Prozess mit Werten in einem polnischen Raum<br />
E.SeiS(n) die Menge der Permutationen ϱ : {1,...,n}→{1,...,n}. Wir fassen<br />
ϱ ebenfalls als Abbildung N → N auf durch ϱ(k) =k für k>n.Für ϱ ∈ S(n)<br />
und x =(x1,...,xn) ∈ E n schreiben wir x ϱ =(x ϱ(1),...,x ϱ(n)). Für x ∈ E N<br />
schreiben wir analog x ϱ =(x ϱ(1),x ϱ(2),...) ∈ E N .IstE ′ ein weiterer polnischer<br />
Raum, so definieren wir für messbare Abbildungen f : E n → E ′ und F : E N → E ′<br />
die Abbildungen f ϱ und F ϱ durch f ϱ (x) =f(x ϱ ) und F ϱ (x) =F (x ϱ ). Ferner<br />
schreiben wir f(x) =f(x1,...,xn) auch, falls x ∈ E N .<br />
Definition 12.4. (i) Eine Abbildung f : En → E ′ heißt symmetrisch, falls f ϱ =<br />
f ist für jedes ϱ ∈ S(n).<br />
(ii) Eine Abbildung F : EN → E ′ heißt n-symmetrisch, falls F ϱ = F für jedes<br />
ϱ ∈ S(n). F heißt symmetrisch, falls Fn-symmetrisch ist für jedes n ∈ N.<br />
Beispiel 12.5. (i) Für x ∈ RN definieren wir das n-te arithmetische Mittel durch<br />
an(x) = 1 �n n i=1 xi. Offenbar ist an eine n-symmetrische Abbildung (aber nicht<br />
m-symmetrisch für ein m>n). Weiter definiert ā(x) := lim sup an(x) eine sym-<br />
n→∞<br />
metrische Abbildung RN → R ∪{−∞, +∞}.<br />
(ii) Die Abbildung s : RN → [0, ∞], x ↦→ �∞ i=1 |xi| ist symmetrisch. Anders als<br />
ā hängt der Wert von s von jeder einzelnen Koordinate ab, falls er endlich ist.<br />
(iii) Für x ∈ EN �<br />
definieren wir die n-te empirische Verteilung durch ξn(x) =<br />
1 n<br />
n i=1 δxi . Offenbar ist ξn eine n-symmetrische Abbildung.<br />
(iv) Sei k ∈ N und ϕ : Ek → R eine Abbildung. Das n-te symmetrisierte Mittel<br />
An(ϕ) :E N → R, x ↦→ 1<br />
n!<br />
�<br />
ϕ(x ϱ ) (12.1)<br />
ϱ∈S(n)<br />
ist eine n-symmetrische Abbildung. ✸<br />
Definition 12.6. Sei X =(Xn)n∈N ein stochastischer Prozess mit Werten in E.Für<br />
n ∈ N sei En := σ(F ◦ X : F : E N → R ist messbar und n-symmetrisch) die<br />
σ-Algebra der unter allen Permutation ϱ ∈ S(n) invarianten Ereignisse. Ferner sei<br />
E :=<br />
∞�<br />
En = σ � F ◦ X : F : E N → R ist messbar und symmetrisch �<br />
n=1<br />
die σ-Algebra der austauschbaren Ereignisse für X, oder kurz die austauschbare<br />
σ-Algebra.<br />
Bemerkung 12.7. Ist A ∈ σ(Xn, n∈ N) ein Ereignis, so gibt es ein messbares<br />
B ⊂ E N mit A = {X ∈ B}. Schreiben wir A ϱ = {X ϱ ∈ B} für ϱ ∈ S(n), soist<br />
En = {A : A ϱ = A für alle ϱ ∈ S(n)}. Dies rechtfertigt den Namen ” austauschbares<br />
Ereignis“. ✸
224 12 Rückwärtsmartingale und Austauschbarkeit<br />
Bemerkung 12.8. Schreiben wir Ξn(ω) :=ξn(X(ω)) = 1 �n n i=1 δXi(ω) für die<br />
n-te empirische Verteilung, so ist nach Übung 12.1.1 En = σ(Ξn). ✸<br />
Bemerkung 12.9. Bezeichnen wir mit T = �<br />
n∈N σ(Xn+1,Xn+2,...) die terminale<br />
σ-Algebra, so ist T ⊂ E, wobei im Falle #E ≥ 2 strikte Inklusion gilt.<br />
In der Tat: Offenbar ist σ(Xn+1,Xn+2,...) ⊂En für n ∈ N, alsoT ⊂ E. Sei nun<br />
#E ≥ 2.Wähle ein messbares B ⊂ E mit B �= ∅ und B c �= ∅. Die Zufallsvariable<br />
S := � ∞<br />
n=1 B(Xn) ist messbar bezüglich E, nicht aber bezüglich T . ✸<br />
Satz 12.10. Sei X = (Xn)n∈N austauschbar. Ist ϕ : E k → R messbar und<br />
E[|ϕ(X)|] < ∞, dann gilt für jedes n ≥ k und jedes ϱ ∈ S(n)<br />
Speziell ist<br />
E[ϕ(X)|En] =E[ϕ(X ϱ )|En]. (12.2)<br />
E[ϕ(X) � � En] =An(ϕ) := 1<br />
n!<br />
�<br />
ϱ∈S(n)<br />
ϕ(X ϱ ). (12.3)<br />
Beweis. Sei A ∈En und F = X(A). DannistF ◦ X = A. Nach der Definition<br />
von En ist also F : E N → R messbar, n-symmetrisch und beschränkt. Daher ist<br />
E � ϕ(X)F (X) � = E � ϕ(X ϱ )F (X ϱ ) � = E � ϕ(X ϱ )F (X) � ,<br />
wobei wir in der ersten Gleichung die Austauschbarkeit von X benutzt haben, in der<br />
zweiten hingegen die Symmetrie von F . Hieraus folgt (12.2). Nun ist aber An(ϕ)<br />
schon En-messbar, also ist<br />
⎡<br />
⎤<br />
E � ϕ(X) � �<br />
�En = E ⎣ 1<br />
n!<br />
�<br />
ϱ∈S(n)<br />
ϕ(X ϱ �<br />
�<br />
) �<br />
� En<br />
Heuristik zur Struktur austauschbarer Familien<br />
⎦ = 1<br />
n!<br />
�<br />
ϱ∈S(n)<br />
ϕ(X ϱ ). ✷<br />
Wir betrachten eine endliche, austauschbare Familie X1,...,XN von E-wertigen<br />
Zufallsvariablen. Wie sieht für n ≤ N die bedingte Verteilung von (X1,...,Xn)<br />
gegeben ΞN aus? Für jedes messbare A ⊂ E kommt {Xi ∈ A} für genau NΞN(A)<br />
viele i ∈{1,...,N} vor, wobei die Reihenfolge des Auftretens keinen Einfluss auf<br />
die Wahrscheinlichkeit hat. Wir sind also in der Situation des Ziehens von gefärbten<br />
Kugeln ohne Zurücklegen. Genauer gesagt können wir annehmen, dass die paarweise<br />
unterschiedlichen e1,...,ek ∈ E die Atome von ΞN mit Häufigkeiten<br />
N1,...,Nk sind, dass also ΞN = �k i=1 =(Ni/N )δei gilt. Wir haben es also mit<br />
Kugeln in k Farben zu tun, wobei von der i-ten Farbe genau Ni Kugeln vorhanden<br />
sind. Wir ziehen n dieser Kugeln ohne Zurücklegen, aber mit Beachtung der Reihenfolge.<br />
Bis auf die Beachtung der Reihenfolge ist die resultierende Verteilung also
12.1 Austauschbare Familien von Zufallsvariablen 225<br />
die allgemeine hypergeometrische Verteilung (siehe etwa [58, Abschnitt 2.3.2]). Es<br />
gilt also für paarweise disjunkte, messbare Mengen A1,...,Ak mit �k l=1 Al = E,<br />
für i1,...,in ∈{1,...,k}, paarweise unterschiedliche j1,...,jn ∈{1,...,N}<br />
und mit der Festlegung ml := #{r ∈{1,...,n} : ir = l} für l ∈{1,...,k}<br />
P � Xjr ∈ Air für jedes r =1,...,n� �<br />
k� 1 �<br />
�ΞN = NΞN(Al)<br />
(N)n l=1<br />
�ml , (12.4)<br />
wobei wir (n)l := n(n − 1) ···(n − l +1)definieren.<br />
Was passiert nun, wenn wir N →∞gehen lassen? Wir nehmen hier der Einfachheit<br />
halber an, dass der Limes Ξ∞(Al) = limN→∞ ΞN(Al) für jedes l =1,...,k in<br />
einem geeigneten Sinne existiert. Dann wird aus (12.4) formal<br />
P � Xjr ∈ Air für jedes r =1,...,n� �<br />
n�<br />
�Ξ∞ = Ξ∞(Al) ml . (12.5)<br />
Aus dem Ziehen der Kugeln ohne Zurücklegen wird nun also asymptotisch für<br />
große Kugelanzahl das Ziehen mit Zurücklegen. Damit sind die Zufallsvariablen<br />
X1,X2,...unabhängig mit Verteilung Ξ∞ gegeben Ξ∞.<br />
Einen formalen Beweis, der entlang der von dieser Heuristik vorgezeichneten Linie<br />
verläuft, bringen wir in Kapitel 13.4.<br />
Um diese Aussage, den so genannten Satz von de Finetti, in Abschnitt 12.3 rigoros<br />
zu formulieren und zu beweisen, brauchen wir noch etwas Begriffsbildung (etwa<br />
bedingte Unabhängigkeit). Als technisches Hilfsmittel verwenden wir in diesem<br />
Kapitel den Konvergenzsatz für Rückwärtsmartingale, den wir in Abschnitt 12.2<br />
formulieren.<br />
Übung 12.1.1. Sei n ∈ N. Man zeige, dass sich jede symmetrische Funktion f :<br />
En → R schreiben lässt als f(x) =g � � 1 n<br />
n i=1 δxi<br />
�<br />
, wobei g (abhängig von f)<br />
geeignet zu wählen ist. ♣<br />
Übung 12.1.2. Man leite (12.4) formal her. ♣<br />
Übung 12.1.3. Seien X1,...,Xn austauschbare quadratintegrierbare Zufallsvariablen.<br />
Man zeige<br />
Cov[X1,X2] ≥− 1<br />
n − 1 Var[X1]. (12.6)<br />
Man gebe für n ≥ 2 ein (nichttriviales) Beispiel für Gleichheit in (12.6) an. ♣<br />
Übung 12.1.4. Seien X1,X2,X3 ...austauschbare, quadratintegrierbare Zufallsvariablen.<br />
Man zeige, dass Cov[X1,X2] ≥ 0 gilt. ♣<br />
Übung 12.1.5. Man zeige: Für jedes n ∈ N\{1} gibt es eine austauschbare Familie<br />
von Zufallsvariablen X1,...,Xn, die nicht zu einer unendlichen, austauschbaren<br />
Familie X1,X2,... fortgesetzt werden kann. ♣<br />
l=1
226 12 Rückwärtsmartingale und Austauschbarkeit<br />
12.2 Rückwärtsmartingale<br />
Die Begriffe der Filtration und des Martingals haben nirgends vorausgesetzt, dass<br />
die Zeitmenge I ⊂ [0, ∞) wäre. Wir wollen jetzt den Fall I = −N0 betrachten.<br />
Definition 12.11 (Rückwärtsmartingal). Sei F =(Fn)n∈−N0 eine Filtration und<br />
X = (Xn)n∈−N0 ein F-Martingal. Dann nennen wir X = (X−n)n∈N0ein Rückwärtsmartingal.<br />
Bemerkung 12.12. Ein Rückwärtsmartingal ist stets gleichgradig � integrierbar. Dies<br />
folgt aus Korollar 8.21 und der Tatsache, dass X−n = E[X0<br />
�F−n] für jedes n ∈<br />
N0. ✸<br />
Beispiel 12.13. Seien X1,X2,...austauschbare, reelle Zufallsvariablen. Für n ∈ N<br />
setze F−n = En und<br />
Y−n = 1<br />
n�<br />
Xi.<br />
n<br />
i=1<br />
Die folgende Rechnung zeigt, dass (Y−n)n∈N ein F-Rückwärtsmartingal ist: Adaptiertheit<br />
ist klar. Außerdem ist nach Satz 12.10 (mit k = n und ϕ(X1,...,Xn) =<br />
1<br />
n−1 (X1 + ...+ Xn−1))<br />
E � � �<br />
Y−n+1<br />
�<br />
1<br />
F−n =<br />
n!<br />
�<br />
ϱ∈S(n)<br />
1 � �<br />
Xϱ(1) + ...+ Xϱ(n−1) = Y−n.<br />
n − 1<br />
Betrachten wir statt F die kleinere Filtration G =(Gn)n∈−N, diefür n ∈ N durch<br />
G−n = σ(Y−n,Xn+1,Xn+2,...) = σ(Y−n,Y−n−1,Y−n−2,...) definiert wird,<br />
also die von Y erzeugte Filtration, so ist Y natürlich auch bezüglich G ein Rückwärtsmartingal<br />
(siehe Bemerkung 9.29). ✸<br />
Seien a
1<br />
n<br />
n�<br />
i=1<br />
Xi<br />
In der Tat: Setzen wir Y−n := 1<br />
n<br />
�<br />
−→ E[X1 �E] f.s. und in L1 .<br />
n→∞<br />
12.2 Rückwärtsmartingale 227<br />
n�<br />
Xi, so ist (nach Beispiel 12.13) (Y−n)n∈N ein<br />
i=1<br />
Rückwärtsmartingal bezüglich (Fn)n∈−N =(E−n)n∈−N, und daher gilt<br />
Y−n<br />
�<br />
−→ Y−∞ = E[X1<br />
� 1 E] f.s. und in L .<br />
n→∞<br />
Nun ist nach Beispiel 2.36(ii) Y−∞ schon T -messbar, also � (wegen T ⊂ E und der<br />
Turmeigenschaft der bedingten Erwartung) Y−∞ = E[X1<br />
�T ]. ✸<br />
Beispiel 12.16 (Starkes Gesetz der großen Zahl). Sind Z1,Z2,...reell und u.i.v.<br />
mit E[|Z1|] < ∞, dann gilt<br />
1<br />
n<br />
n�<br />
Zi<br />
i=1<br />
n→∞<br />
−→ E[Z1] fast sicher.<br />
Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist die terminale σ-Algebra T<br />
nämlich trivial, also gilt<br />
�<br />
E[Z1<br />
�T ]=E[Z1] fast sicher.<br />
In Korollar 12.19 werden wir sehen, dass � im Falle unabhängiger Zufallsvariablen<br />
auch E schon P-trivial ist, woraus E[Z1<br />
�E]=E[Z1] folgt. ✸<br />
Wir schließen diesen Abschnitt, indem wir Beispiel 12.15 auf Mittelwerte von Funktionen<br />
von k ∈ N Variablen verallgemeinern. Diese Schlussfolgerung aus dem Konvergenzsatz<br />
für Rückwärtsmartingale wird im folgenden Abschnitt in essenzieller<br />
Weise benötigt.<br />
Satz 12.17. Sei X =(Xn)n∈N eine austauschbare Familie von Zufallsvariablen mit<br />
Werten in E, seik∈ N und ϕ : Ek → R messbar mit E[|ϕ(X1,...,Xk)|] < ∞.<br />
Wir schreiben ϕ(X) =ϕ(X1,...,Xk) und setzen An(ϕ) := 1 �<br />
n! ϱ∈S(n) ϕ(Xϱ ).<br />
Dann gilt<br />
E[ϕ(X) � � E]=E[ϕ(X) � �T ] = lim<br />
n→∞ An(ϕ) f.s. und in L 1 . (12.7)<br />
Beweis. Nach Satz 12.10 ist An(ϕ) =E[ϕ(X) � �En]. Alsoist(A−n(ϕ)) n≥k ein<br />
Rückwärtsmartingal bezüglich (E−n)<br />
n∈−N . Nach Satz 12.14 ist also<br />
An(ϕ) n→∞<br />
−→ E � ϕ(X) � �<br />
�E f.s. und in L1 . (12.8)<br />
Wir können wie für das arithmetische Mittel (Beispiel 12.16) argumentieren, dass<br />
limn→∞ An(ϕ) schon T -messbar ist. In der Tat ist
228 12 Rückwärtsmartingale und Austauschbarkeit<br />
#<br />
lim sup<br />
n→∞<br />
� ϱ ∈ S(n) : ϱ−1 (i) ≤ l für ein i ∈{1,...,k} �<br />
=0<br />
n!<br />
für jedes l ∈ N.<br />
Der Wert von An(ϕ) hängt für große n also in zu vernachlässigender Weise von den<br />
ersten l Koordinaten ab. Zusammen mit (12.8) folgt (12.7). ✷<br />
Korollar 12.18. Sei X =(Xn)n∈N austauschbar. Dann gibt es für jedes A ∈Eein<br />
B ∈T mit P[A △ B] =0.<br />
Man beachte, dass T ⊂ E ist, dass also die Aussage trivialerweise gilt, wenn wir<br />
die Rollen von E und T vertauschen.<br />
Beweis. Wegen E ⊂ σ(X1,X2,...) existiert nach dem Approximationssatz für<br />
Maße eine Folge von messbaren Mengen (Ak)k∈N mit Ak ∈ σ(X1,...,Xk) und<br />
P[A △ Ak] k→∞<br />
−→ 0. SeiCk∈ Ek messbar mit Ak = {(X1,...,Xk) ∈ Ck} für<br />
jedes k ∈ N. Mitϕk := Ck folgt aus Satz 12.17<br />
�<br />
A = E[ A |E]=E lim<br />
k→∞ ϕk(X)<br />
� �<br />
�<br />
�E = lim<br />
k→∞ E[ϕk(X)|E]<br />
= lim<br />
k→∞ E[ϕk(X)|T ]=:ψ fast sicher.<br />
Es gibt also eine T -messbare Funktion ψ mit ψ = A fast sicher. Wir können nun<br />
annehmen, dass ψ = B für ein B ∈T. ✷<br />
Als weitere Anwendung erhalten wir das 0-1 Gesetz von Hewitt und Savage [71].<br />
Korollar 12.19 (0-1 Gesetz von Hewitt-Savage). Seien X1,X2,... u.i.v. Zufallsvariablen.<br />
Dann ist die austauschbare σ-Algebra P-trivial, also P[A] ∈{0, 1} für<br />
jedes A ∈E.<br />
Beweis. Nach dem Kolmogorov’schen 0-1 Gesetz (Satz 2.37) ist T trivial. Die Aussage<br />
folgt also ohne weiteres aus Korollar 12.18. ✷<br />
12.3 Satz von de Finetti<br />
Wir zeigen in diesem Abschnitt den Struktursatz für (abzählbar) unendliche, austauschbare<br />
Familien, den wir heuristisch schon am Ende von Abschnitt 12.1 motiviert<br />
hatten. Es soll also gezeigt werden, dass eine unendliche, austauschbare Familie<br />
von Zufallsvariablen eine unabhängige, identisch verteilte Familie ist gegeben<br />
die austauschbare σ-Algebra E. Ferner berechnen wir die bedingte Verteilung der<br />
einzelnen Zufallsvariablen. Als ersten Schritt geben wir eine Definition der bedingten<br />
Unabhängigkeit an.
12.3 Satz von de Finetti 229<br />
Definition 12.20 (Bedingte Unabhängigkeit). Seien (Ω,F, P) ein W-Raum, A⊂<br />
F eine Teil-σ-Algebra sowie (Ai)i∈I eine beliebige Familie von Teil-σ-Algebren<br />
von F. Die Familie (Ai)i∈I heißt unabhängig gegeben A, falls für jedes endliche<br />
J ⊂ I und jede Wahl von Aj ∈Aj für j ∈ J gilt<br />
� �<br />
P<br />
j∈J<br />
� �<br />
Aj �A<br />
= �<br />
j∈J<br />
P � �<br />
Aj �A �<br />
fast sicher. (12.9)<br />
Eine Familie (Xi)i∈I von Zufallsvariablen auf (Ω,F, P) heißt unabhängig (und<br />
identisch verteilt) gegeben A, falls die erzeugten σ-Algebren (σ(Xi))i∈I unabhängig<br />
gegeben A sind (und die bedingten Verteilungen P[Xi ∈ · |A] alle gleich sind).<br />
Beispiel 12.21. Jede beliebige Familie (Ai)i∈I von σ-Algebren von F ist unabhängig<br />
gegeben F. In der Tat ist in diesem Fall nämlich (mit A = �<br />
j∈J Aj)<br />
P[A|F] = A = �<br />
j∈J<br />
Aj<br />
= �<br />
j∈J<br />
P � �<br />
Aj �F �<br />
fast sicher. ✸<br />
Beispiel 12.22. Ist (Ai)i∈I eine unabhängige Familie von σ-Algebren, und ist A<br />
trivial, dann ist (Ai)i∈I unabhängig gegeben A. ✸<br />
Beispiel 12.23. Es gibt keine ” Monotonie“ bei der bedingten Unabhängigkeit in folgendem<br />
Sinne: Sind F1, F2 und F3 σ-Algebren mit F1 ⊂F2 ⊂F3, und ist (Ai)i∈I<br />
unabhängig sowohl gegeben F1 wie auch gegeben F3, so folgt noch nicht die Unabhängigkeit<br />
gegeben F2.<br />
Um dies zu illustrieren, nehmen wir an, dass X und Y nichttriviale, unabhängige,<br />
reelle Zufallsvariablen sind. Wir wählen F1 = {∅,Ω}, F2 = σ(X + Y ) und F3 =<br />
σ(X, Y ). Dann sind σ(X) und σ(Y ) unabhängig gegeben F1 und gegeben F3, nicht<br />
jedoch gegeben F2. ✸<br />
Sei X =(Xn)n∈N ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum<br />
(Ω,F, P) mit Werten in einem polnischen Raum E. SeiE die austauschbare σ-<br />
Algebra und T die terminale σ-Algebra.<br />
Satz 12.24 (de Finetti). Die Familie X =(Xn)n∈N ist genau dann austauschbar,<br />
wenn es eine σ-Algebra A⊂Fgibt, sodass (Xn)n∈N u.i.v. gegeben A ist. In<br />
diesem Fall kann A = E oder A = T gewählt werden.<br />
Beweis. ” =⇒ “ Sei X austauschbar, und sei A = E oder A = T .Für jedes<br />
n ∈ N sei fn : E → R eine messbare und beschränkte Abbildung. Setze<br />
ϕk(x1,...,xk) =<br />
k�<br />
fi(xi) für jedes k ∈ N.<br />
i=1
230 12 Rückwärtsmartingale und Austauschbarkeit<br />
Dann ist (wobei An(ϕ) das symmetrisierte Mittel aus Satz 12.17 ist)<br />
wobei<br />
�<br />
An(ϕk−1)An(fk) = 1<br />
n!<br />
� Rn,k<br />
= 1<br />
n!<br />
�<br />
ϱ∈S(n)<br />
�<br />
ϱ∈S(n)<br />
� � �<br />
� ≤ 2 �ϕk−1�<br />
·<br />
∞ � �<br />
�fk � ·<br />
∞ 1 1<br />
n! n<br />
=2 � �<br />
�ϕk−1 � ·<br />
∞ � �<br />
�fk � ·<br />
∞<br />
Es folgt zusammen mit Satz 12.17<br />
ϕk−1(X ϱ ) 1<br />
n<br />
n�<br />
fk(Xi)<br />
i=1<br />
ϕk(X ϱ )+Rn,k = An(ϕk)+Rn,k,<br />
k − 1<br />
n<br />
�<br />
n�<br />
ϱ∈S(n) i=1<br />
n→∞<br />
−→ 0.<br />
{i∈{ϱ(1),...,ϱ(k−1)}}<br />
An(ϕk−1) An(fk) n→∞<br />
−→ E � ϕk(X1,...,Xk) � � A � f.s. und in L 1 .<br />
Andererseits gilt nach Satz 12.17<br />
und<br />
also<br />
An(ϕk−1) n→∞<br />
−→ E � ϕk−1 (X1,...,Xk−1) � � A �<br />
An(fk) n→∞<br />
−→ E � fk(X1) � �A � ,<br />
E � ϕk(X1,...,Xk) � � A � = E � ϕk−1(X1,...,Xk−1) � � A � E � fk(X1) � � A �<br />
und induktiv<br />
�<br />
k� �<br />
�<br />
E fi(Xi) �<br />
�A �<br />
=<br />
i=1<br />
Mithin ist X u.i.v. gegeben A.<br />
k�<br />
E � fi(X1) � �A � .<br />
” ⇐= “ Sei nun X u.i.v. gegeben A für eine geeignete σ-Algebra A⊂F.Für<br />
jede beschränkte, messbare Funktion ϕ : En → R und für jedes ϱ ∈ S(n) ist dann<br />
E[ϕ(X) � �<br />
� ϱ A]=E[ϕ(X ) �A], also<br />
E[ϕ(X)] = E � E[ϕ(X) � �A] � = E � E[ϕ(X ϱ ) � �A] � = E[ϕ(X ϱ )].<br />
Mithin ist X austauschbar. ✷<br />
Mit M1(E) bezeichnen wir die Menge der W-Maße auf E, ausgestattet mit der Topologie<br />
der schwachen Konvergenz (siehe Definition 13.12 und Bemerkung 13.14),<br />
i=1
12.3 Satz von de Finetti 231<br />
das heißt: Eine Folge (μn)n∈N in M1(E) konvergiert genau dann schwach gegen<br />
ein μ ∈ M1(E), wenn � n→∞<br />
fdμn −→ � fdμfür jede stetige und beschränkte<br />
Funktion f : E → R. Wir werden die schwache Konvergenz in Kapitel 13 genauer<br />
untersuchen. An dieser Stelle wollen wir die Topologie lediglich verwenden,<br />
um M1(E) zu einem Messraum zu machen, nämlich mit der Borel’schen<br />
σ-Algebra B(M1(E)). Wirkönnen jetzt Zufallsvariablen mit Werten in M1(E)<br />
betrachten, so genannte zufällige Maße (vergleiche Kapitel 24.1). Für x ∈ EN sei<br />
ξn(x) = 1 �n δxi n i=1 ∈M1(E).<br />
Definition 12.25. Das zufällige Maß Ξn := ξn(X) := 1<br />
n<br />
Verteilung von X1,...,Xn.<br />
Wir betrachten die selben Voraussetzung wie in Satz 12.24.<br />
n�<br />
i=1<br />
δXi<br />
heißt empirische<br />
Satz 12.26 (de Finetti Darstellungssatz). Die Familie X =(Xn)n∈N ist genau<br />
dann austauschbar, wenn es eine σ-Algebra A⊂Fgibt und eine A-messbare Zufallsvariable<br />
Ξ∞ : Ω →M1(E) mit der Eigenschaft: gegeben Ξ∞ ist (Xn)n∈N<br />
u.i.v. mit L[X1 |Ξ∞] =Ξ∞. In diesem Fall kann A = E oder A = T gewählt<br />
werden.<br />
Beweis. ” ⇐= “ Dies ist klar wie im Beweis von Satz 12.24.<br />
” =⇒ “ Sei X austauschbar. Dann existiert nach Satz 12.24 eine σ-Algebra A⊂<br />
F, sodass (Xn)n∈N u.i.v. gegeben A ist. Da E polnisch ist, existiert � eine reguläre<br />
Version der bedingten Verteilung (siehe Satz 8.36) Ξ∞ := L[X1 �A].Für messbare<br />
A1,...,An ⊂ E ist P[Xi ∈ Ai |A]=Ξ∞(Ai) für jedes i =1,...,n, also<br />
� n �<br />
� �<br />
P {Xi ∈ Ai} �<br />
�Ξ∞ � � � n �<br />
� �<br />
= E P {Xi ∈ Ai} �<br />
�A �� �<br />
���<br />
Ξ∞<br />
i=1<br />
i=1<br />
i=1<br />
�<br />
�n<br />
�<br />
�<br />
= E Ξ∞(Ai) �<br />
� Ξ∞<br />
�<br />
=<br />
n�<br />
Ξ∞(Ai).<br />
Mithin ist L[X |Ξ∞] =Ξ ⊗N<br />
∞ . ✷<br />
Bemerkung 12.27. In dem beschriebenen Fall ist nach dem starken Gesetz der<br />
großen Zahl für jede stetige und beschränkte Funktion f : E → R<br />
�<br />
�<br />
fdΞn<br />
n→∞<br />
−→ fdΞ∞ fast sicher.<br />
Ist E zudem lokalkompakt (zum Beispiel E = R d ), so kann man sogar zeigen, dass<br />
Ξn<br />
i=1<br />
n→∞<br />
−→ Ξ∞ fast sicher. ✸
232 12 Rückwärtsmartingale und Austauschbarkeit<br />
Beispiel 12.28. Seien (Xn)n∈N austauschbar und Xn ∈{0, 1}. Dann existiert eine<br />
Zufallsvariable Y : Ω → [0, 1], sodass für endliches J ⊂ N<br />
P � Xj =1 für jedes j ∈ J � � Y � = Y #J .<br />
Mit anderen Worten: Gegeben Y ist (Xn)n∈N unabhängig und BerY -verteilt. Vergleiche<br />
Beispiel 12.3(iii). ✸<br />
Beispiel 12.29. (Pólya’sches Urnenmodell) (Siehe Beispiel 14.38 und [127].) In<br />
einer Urne seien anfangs N Kugeln, davon M schwarz und N − M weiß. In jedem<br />
Schritt wird eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben<br />
Farbe wieder zurückgelegt. Sei<br />
�<br />
1, falls die n-te Kugel schwarz ist,<br />
Xn :=<br />
0, sonst,<br />
und Sn = �n i=1 Xi. Dannist<br />
P � Xn =1 � � Sn−1 �<br />
+ M<br />
X1,X2,...,Xn−1 =<br />
N + n − 1 .<br />
Sukzessive erhält man für x1,...,xn ∈{0, 1} und sk = �k i=1 xi<br />
P � Xi = xi für jedes i =1,...,n �<br />
= �<br />
�<br />
= (N − 1)!<br />
i≤n: xi=1<br />
M + si−1<br />
N + i − 1<br />
i≤n: xi=0<br />
(N − 1+n)! · (M + sn − 1)!<br />
(M − 1)!<br />
N + i − 1 − M − si−1<br />
N + i − 1<br />
�<br />
N − M − 1+(n− sn) � !<br />
.<br />
(N − M − 1)!<br />
Die rechte Seite hängt nur von sn und nicht von der Reihenfolge der x1,...,xn ab.<br />
1<br />
Also ist (Xn)n∈N austauschbar. Sei Z = lim<br />
n→∞ nSn.Dannist(Xn)n∈Nunabhängig und identisch BerZ-verteilt gegeben Z. Also ist (siehe Beispiel 12.28)<br />
E [Z n ]=E � P � X1 = ···= Xn =1 � ��<br />
�Z = P [Sn = n]<br />
= (N − 1)!<br />
(M − 1)!<br />
(M + n − 1)!<br />
(N + n − 1)!<br />
für jedes n ∈ N.<br />
Nach Übung 5.1.2 sind dies sind aber gerade die Momente der Beta-Verteilung<br />
βM,N−M auf [0, 1] mit Parametern (M,N − M) (siehe Beispiel 1.107(ii)). Durch<br />
Angabe der Momente ist eine Verteilung auf [0, 1] eindeutig bestimmt (Satz 15.4).<br />
Also gilt Z ∼ βM,N−M . ✸
13 Konvergenz von Maßen<br />
In der <strong>Wahrscheinlichkeitstheorie</strong> interessiert man sich für Verteilungen, die durch<br />
das Zusammenwirken vieler zufälliger Einflüsse zustandekommen. Oftmals lässt<br />
sich eine brauchbare Idealisierung erreichen, indem man Grenzwerte solcher Verteilungen<br />
anschaut, zum Beispiel, wenn die Anzahl der Einflüsse nach Unendlich geht.<br />
Ein Beispiel ist die Konvergenz der Anzahl eingetretener Ereignisse bei vielen seltenen<br />
Ereignissen gegen die Poisson-Verteilung (siehe Satz 3.7). Vielfach sind aber<br />
auch Skalierungen der ursprünglichen Verteilung notwendig, um das wesentliche<br />
Fluktuationsverhalten zu erfassen, etwa im Zentralen Grenzwertsatz. Während diese<br />
Sätze mit reellen Zufallsvariablen auskommen, werden wir auch Grenzwertsätze<br />
kennen lernen, bei denen die Zufallsvariablen Werte in allgemeineren Räumen annehmen,<br />
beispielsweise im Raum aller stetigen Funktionen, wenn wir die zufällige<br />
zeitliche Bewegung eines Teilchens modellieren.<br />
In diesem Kapitel wird der Begriff der schwachen Konvergenz von W-Maßen auf<br />
allgemeinen (meist polnischen) Räumen eingeführt und untersucht. Hierzu ist eine<br />
solide Kenntnis von mengentheoretischer Topologie notwendig. Wir beginnen daher<br />
mit einem kurzen Überblick über die verwendeten topologischen Begriffe und<br />
Sätze.<br />
Dieses Kapitel soll nur eine knappe Einführung in die für die <strong>Wahrscheinlichkeitstheorie</strong><br />
wichtigsten Sätze liefern. Als ausführlichere Darstellungen seien [17] und<br />
[83] empfohlen.<br />
Beim ersten Lesen mag der Leser dieses eher analytisch geprägte Kapitel vielleicht<br />
überspringen. In diesem Fall genügt es fürs Erste, sich mit den Definitionen von<br />
schwacher Konvergenz und Straffheit (Definition 13.12 und 13.26) vertraut zu machen,<br />
sowie mit den Aussagen des Portemanteau Theorems (Satz 13.16) und des<br />
Satzes von Prohorov (Satz 13.29).<br />
13.1 Wiederholung Topologie<br />
Wir geben kursorisch einige Definitionen und Aussagen der mengentheoretischen<br />
Topologie an. Zum Nachlesen eignen sich etwa [90] oder [133].
234 13 Konvergenz von Maßen<br />
Im Folgenden sei stets (E,τ) ein topologischer Raum mit der Borel’schen σ-<br />
Algebra E = B(E) (vergleiche Definition 1.20 und 1.21).<br />
(E,τ) heißt Hausdorffraum, falls zu je zwei Punkten x, y ∈ E mit x �= y offene<br />
Mengen U, V existieren mit x ∈ U, y ∈ V und U ∩ V = ∅. IstA⊂ E, so<br />
bezeichnen wir mit A den Abschluss von A, mit A◦ das Innere und mit ∂A den<br />
Rand von A. Eine Menge A ⊂ E heißt dicht, falls A = E.<br />
(E,τ) heißt metrisierbar, falls es eine Metrik d auf E gibt, sodass τ durch die<br />
offenen Kugeln Bε(x) :={y ∈ E : d(x, y) 0, die ganz in U liegt und relativ kompakt ist. Indem<br />
man εx eventuell nochmal halbiert, kann man annehmen, dass sogar der Abschluss<br />
dieser Kugel in U liegt. Da K kompakt ist, gibt es endlich viele x1,...,xn ∈ K<br />
mit K ⊂ V := �n i=1 Bεx (xi). Nach Konstruktion ist L = V ⊂ U kompakt.)<br />
i<br />
Einen in der <strong>Wahrscheinlichkeitstheorie</strong> wichtigen Typ von topologischen Räumen<br />
stellen wir in einer separaten Definition vor.
13.1 Wiederholung Topologie 235<br />
Definition 13.1. Ein topologischer Raum (E,τ) heißt polnischer Raum, falls er<br />
vollständig metrisierbar und separabel ist.<br />
Polnische Räume sind beispielsweise abzählbare, diskrete Räume (nicht jedoch Q<br />
mit der üblichen Topologie), die euklidischen Räume Rn , aber auch der Raum<br />
C([0, 1]) der stetigen Funktionen [0, 1] → R, ausgestattet mit der Supremumsnorm<br />
� · �∞. Praktisch sind alle Räume, die in der <strong>Wahrscheinlichkeitstheorie</strong> bedeutsam<br />
sind, polnische Räume.<br />
Sei (E,d) ein metrischer Raum. Eine Menge A ⊂ E heißt total beschränkt, falls<br />
n�<br />
es zu jedem ε>0 endlich viele Punkte x1,...,xn ∈ A gibt mit A ⊂ Bε(xi).<br />
Kompakte Mengen sind offenbar total beschränkt. In polnischen Räumen gilt sogar:<br />
Lemma 13.2. Sei (E,τ) polnisch mit vollständiger Metrik d. Eine Teilmenge A ⊂<br />
E ist genau dann total beschränkt bezüglich d,wennA relativ kompakt ist.<br />
Beweis. Übung! ✷<br />
Im Folgenden sei stets (E,τ) ein topologischer Raum mit Borel’scher σ-Algebra<br />
E = B(E) :=σ(τ) und vollständiger Metrik d.Für Maße auf (E,E) führen wir die<br />
folgenden Regularitätsbegriffe ein.<br />
Definition 13.3. Ein σ-endliches Maß μ auf (E,E) heißt<br />
(i) lokal endlich oder Borel-Maß, falls es zu jedem Punkt x ∈ E eine offene<br />
Menge U ∋ x gibt mit μ(U) < ∞,<br />
(ii) regulär von innen, falls<br />
μ(A) =sup � μ(K) : K ⊂ A ist kompakt �<br />
(iii) regulär von außen, falls<br />
μ(A) =inf � μ(U) : U ⊃ A ist offen �<br />
(iv) regulär, falls μ von innen und von außen regulär ist,<br />
(v) Radon-Maß, falls μ ein von innen reguläres Borel-Maß ist.<br />
i=1<br />
für jedes A ∈E, (13.1)<br />
für jedes A ∈E, (13.2)<br />
Definition 13.4. Wir führen die folgenden Mengen von Maßen auf E ein.<br />
M(E) := � Radon-Maße auf (E,E) � ,<br />
Mf (E) := � endliche Maße auf (E,E) � ,<br />
M1(E) := � μ ∈Mf (E) :μ(E) =1 � ,<br />
M≤1(E) := � μ ∈Mf (E) :μ(E) ≤ 1 � .
236 13 Konvergenz von Maßen<br />
Die Elemente von M≤1(E) nennen wir Sub-Wahrscheinlichkeitsmaße auf E.<br />
Ferner vereinbaren wir die folgende Notation für Mengen von stetigen Funktionen<br />
C(E) := � f : E → R ist stetig � ,<br />
Cb(E) := � f ∈ C(E) ist beschränkt � ,<br />
Cc(E) := � f ∈ C(E) hat kompakten Träger � ⊂ Cb(E).<br />
Der Träger einer reellen Funktion f ist dabei f −1 (R \{0}).<br />
Ist nichts anderes vereinbart, so sind die Vektorräume C(E), Cb(E) und Cc(E) mit<br />
der Supremumsnorm ausgestattet.<br />
Lemma 13.5. Ist E polnisch und μ ∈Mf (E), so existiert zu jedem ε>0 eine<br />
kompakte Menge K ⊂ E mit μ(E \ K) 0. Zu jedem n ∈ N existieren xn 1 ,xn 2 ,... ∈ E mit E =<br />
∞�<br />
B1/n(xn i ).Wähle Nn<br />
� Nn �<br />
∈ N so, dass μ E \ B1/n (x n �<br />
i ) < ε<br />
. Setze<br />
2n i=1<br />
A :=<br />
∞�<br />
Nn �<br />
n=1 i=1<br />
i=1<br />
B 1/n (x n i ) .<br />
Nach Konstruktion ist A total beschränkt. Da E polnisch ist, ist also A kompakt.<br />
Außerdem folgt μ � E \ A � ≤ μ � E \ A � < ∞�<br />
ε 2−n = ε. ✷<br />
Satz 13.6. Ist E polnisch und μ ∈ Mf (E), soistμ regulär. Speziell ist dann<br />
Mf (E) ⊂M(E).<br />
Beweis. Sei B ∈ E und ε > 0. Nach dem Approximationssatz (Satz 1.65 mit<br />
A = τ) gibt es eine offene Menge U ⊃ B mit μ(U \ B)
13.1 Wiederholung Topologie 237<br />
Da jedes Kn beschränkt ist, ist λ(Kn) < ∞. Es existiert also nach dem vorangehenden<br />
Satz zu jedem n ∈ N eine offene Menge Un ⊃ A ∩ Kn mit λ(Un \ A) 0 LipK(E; F ) den Raum der Lipschitzstetigen<br />
Funktionen auf E.<br />
Wir schreiben kurz LipK(E) :=LipK(E; R) und Lip(E) :=Lip(E; R).<br />
Definition 13.9. Sei F ⊂ M(E) eine Familie von Radon-Maßen. Eine Familie C<br />
messbarer Abbildungen E → R heißt trennende Familie für F, falls für je zwei<br />
Maße μ, ν ∈Fgilt:<br />
�� �<br />
fdμ= fdν für jedes f ∈C∩L 1 (μ) ∩L 1 �<br />
(ν) =⇒ μ = ν.<br />
Lemma 13.10. Sei (E,d) ein metrischer Raum. Zu jeder abgeschlossenen Menge<br />
A ⊂ E und jedem ε>0 gibt es eine Lipschitz-stetige Abbildung ρA,ε : E → [0, 1]<br />
mit<br />
�<br />
1, falls x ∈ A,<br />
ρA,ε(x) =<br />
0, falls d(x, A) ≥ ε.<br />
Beweis. Sei ϕ : R → [0, 1], t ↦→ (t ∨ 0) ∧ 1. Für x ∈ E setze ρA,ε(x) =<br />
1 − ϕ � ε −1 d(x, A) � . ✷<br />
Satz 13.11. Sei (E,d) ein metrischer Raum.<br />
(i) Lip1(E;[0, 1]) ist trennend für M(E).<br />
(ii) Ist E zudem lokalkompakt, so ist Cc(E) ∩ Lip1(E;[0, 1]) trennend für M(E).
238 13 Konvergenz von Maßen<br />
Beweis. (i) Seien μ1,μ2 ∈ M(E) mit � fdμ1 = � fdμ2 für jedes f ∈<br />
Lip 1(E;[0, 1]). IstA ∈E,soistμi(A) =sup{μi(K) : K ⊂ A ist kompakt},<br />
da das Radon-Maß μi von innen regulär ist (i =1, 2). Es reicht also zu zeigen, dass<br />
μ1(K) =μ2(K) für jede kompakte Menge K.<br />
Sei nun K ⊂ E kompakt. Da μ1 und μ2 lokal endlich sind, existiert zu jedem<br />
x ∈ K eine offene Menge Ux ∋ x mit μ1(Ux) < ∞ und μ2(Ux) < ∞. Da<br />
K kompakt ist, können wir endlich viele Punkte x1,...,xn ∈ K finden, sodass<br />
K ⊂ U := �n j=1 Uxj . Nach Konstruktion ist μi(U) < ∞, also U ∈ L1 (μi) für<br />
i =1, 2. DaUc abgeschlossen ist, und U c ∩ K = ∅, istδ := d(U c ,K) > 0. Für<br />
die Abbildung ρK,ε aus Lemma 13.10 ist also K ≤ ρK,ε ≤ U ∈ L1 ε→0<br />
(μi), falls<br />
ε ∈ (0,δ). WegenρK,ε −→ K �folgt aus dem Satz über majorisierte Konvergenz<br />
(Korollar 6.26) μi(K) = limε→0 ρK,ε dμi. Nun ist aber ερK,ε ∈ Lip1(E;[0, 1])<br />
für jedes ε>0, also nach Voraussetzung<br />
�<br />
ρK,ε dμ1 = ε −1<br />
�<br />
(ερK,ε) dμ1 = ε −1<br />
�<br />
�<br />
(ερK,ε) dμ2 = ρK,ε dμ2.<br />
Es folgt μ1(K) =μ2(K), also μ1 = μ2.<br />
(ii) Ist E lokalkompakt, so können wir in (i) die Umgebungen Ux zusätzlich relativ<br />
kompakt wählen. Es ist dann U relativ kompakt, also hat ρK,ε für ε ∈ (0,δ) einen<br />
kompakten Träger, ist also in Cc(E). ✷<br />
Übung 13.1.1. (i) Man zeige, dass C([0, 1]) eine abzählbare, dichte Teilmenge<br />
besitzt.<br />
(ii) Man zeige, dass der Raum (Cb([0, ∞)), � · �∞) der stetigen, beschränkten<br />
Funktionen mit der Supremumsnorm nicht separabel ist.<br />
(iii) Man zeige, dass der Raum Cc([0, ∞)) der stetigen Funktionen mit kompaktem<br />
Träger, ausgestattet mit der Supremumsnorm, separabel ist. ♣<br />
Übung 13.1.2. Man zeige: Ist μ ein lokal endliches Maß, so ist μ(K) < ∞ für jede<br />
kompakte Menge K. ♣<br />
Übung 13.1.3 (Satz von Lusin). Sei Ω ein polnischer Raum, μ ein σ-endliches<br />
Maß auf (Ω,B(Ω)) und f : Ω → R eine Abbildung. Man zeige, dass die beiden<br />
folgenden Aussagen äquivalent sind:<br />
(i) Es gibt eine Borel-messbare Abbildung g : Ω → R mit f = g μ-fast überall.<br />
(ii) Zu jedem ε>0 gibt es eine kompakte Menge Kε mit μ(Ω \ Kε)
13.1 Wiederholung Topologie 239<br />
Übung 13.1.4. Sei U eine Familie offener Intervalle in R so, dass W := �<br />
U∈U U<br />
endliches Lebesgue-Maß λ(W ) hat. Man zeige: Für jedes ε>0 gibt es endlich<br />
viele, paarweise disjunkte Mengen U1,...,Un ∈Umit<br />
n�<br />
λ(Ui) ><br />
i=1<br />
1 − ε<br />
3<br />
λ(W ).<br />
Hinweis: Man wähle eine endliche Familie U ′ ⊂ U, sodass �<br />
U∈U<br />
mindestens (1 − ε)λ(W ) hat. Hieraus wähle man eine nach absteigender Länge<br />
sortierte maximale Folge U ′′ disjunkter Intervalle aus und zeige, dass jedes U ∈U ′<br />
in (x − 3a, x +3a) liegt für ein (x − a, x + a) ∈U ′′ . ♣<br />
′ U das Maß<br />
Übung 13.1.5. Sei C ⊂ Rd eine offene, beschränkte und konvexe Menge und<br />
U ⊂ {x + rC : x ∈ Rd ,r > 0} so gewählt, dass W := �<br />
U∈U U endliches<br />
Lebesgue-Maß λd (W ) hat. Man zeige: Für jedes ε>0 gibt es endlich viele, paarweise<br />
disjunkte Mengen U1,...,Un ∈Umit<br />
n�<br />
λ d 1 − ε<br />
(Ui) > λ(W ).<br />
3d i=1<br />
Man überlege sich ein Gegenbeispiel, das zeigt, dass man auf die Bedingung der<br />
Ähnlichkeit der offenen Mengen aus U nicht ohne Weiteres verzichten kann. ♣<br />
Übung 13.1.6. Sei μ ein Radon-Maß auf R d und A ∈B(R d ) eine μ-Nullmenge.<br />
Man zeige mit Hilfe von Übung 13.1.5, dass für jede beschränkte, konvexe und<br />
offene Menge C ⊂ R d mit 0 ∈ C gilt:<br />
μ(x + rC)<br />
lim<br />
r↓0 rd =0 für λ d – fast alle x ∈ A.<br />
Man folgere: Ist F die Verteilungsfunktion eines Stieltjes-Maßes μ auf R und A ∈<br />
F (x) =0für λ – fast alle x ∈ A. ♣<br />
B(R) eine μ-Nullmenge, so gilt d<br />
dx<br />
Übung 13.1.7 (Hauptsatz der Differential- und Integralrechnung). Sei f ∈<br />
L 1 (R d ), μ = fλ d und C ⊂ R d offen, konvex und beschränkt mit 0 ∈ C. Man<br />
zeige:<br />
μ(x + rC)<br />
lim<br />
r↓0 rd λd (C) = f(x) für λd – fast alle x ∈ R d .<br />
Man folgere für den Fall d =1den Hauptsatz der Differential- und Integralrechnung:<br />
�<br />
d<br />
fdλ= f(x)<br />
dx [0,x]<br />
für λ – fast alle x ∈ R.<br />
Hinweis: Verwende Übung 13.1.6 mit μq(dx) =(f(x) − q) + λd (dx) für q ∈ Q,<br />
sowie die Ungleichung<br />
μ(x + rC)<br />
. ♣<br />
rd λd (C) ≤ q + μq(x + rC)<br />
rd λd (C)
240 13 Konvergenz von Maßen<br />
13.2 Schwache und vage Konvergenz<br />
Nachdem wir in Satz 13.11 gesehen haben, dass Integrale stetiger, beschränkter<br />
Funktionen, beziehungsweise für lokalkompaktes E sogar stetiger Funktionen mit<br />
kompaktem Träger, ein Radon-Maß vollständig bestimmen, liegt es nahe, Cb(E)<br />
und Cc(E) auch als Klassen von Testfunktionen für Konvergenzbegriffe für Maße<br />
heranzuziehen.<br />
Definition 13.12 (Schwache und vage Konvergenz). Sei E ein metrischer Raum.<br />
(i) Seien μ, μ1,μ2,... ∈Mf (E). Wir sagen, dass (μn)n∈N schwach (weakly)<br />
gegen μ konvergiere, in Formeln μn<br />
n→∞<br />
−→ μ schwach oder μ =w-lim<br />
n→∞ μn,<br />
falls �<br />
�<br />
fdμn<br />
n→∞<br />
−→ fdμ für jedes f ∈ Cb(E).<br />
(ii) Es seien μ, μ1,μ2,...∈M(E). Wir sagen, dass (μn)n∈N vag (vaguely) gegen<br />
μ konvergiert, in Formeln μn<br />
n→∞<br />
−→ μ vag oder μ =v-lim<br />
n→∞ μn, falls<br />
�<br />
�<br />
fdμn<br />
n→∞<br />
−→ fdμ für jedes f ∈ Cc(E).<br />
Bemerkung 13.13. Ist E polnisch, so ist nach Satz 13.6 und 13.11 der schwache<br />
Limes eindeutig. Das Gleiche gilt für den vagen Limes, falls E lokalkompakt ist.✸<br />
Bemerkung 13.14. (i) In der Funktionalanalysis wird die hier eingeführte schwache<br />
Konvergenz die Schwach ∗ -Konvergenz genannt.<br />
(ii) Die schwache Konvergenz erzeugt auf Mf (E) die schwache Topologie τw<br />
(oder Schwach ∗ -Topologie in der Funktionalanalysis). Dies ist die gröbste Topologie,<br />
sodass für jedes f ∈ Cb(E) die Abbildung Mf (E) → R, μ ↦→ � fdμstetig<br />
ist. Ist E separabel, so kann man zeigen, dass (Mf (E),τw) metrisierbar ist, zum<br />
Beispiel mit der so genannten Prohorov-Metrik<br />
wobei<br />
dP (μ, ν) :=max{d ′ P (μ, ν),d ′ P (ν, μ)}, (13.3)<br />
d ′ P (μ, ν) :=inf{ε >0: μ(B) ≤ ν(B ε )+ε für jedes B ∈B(E)}, (13.4)<br />
und wo B ε = {x : d(x, B)
13.2 Schwache und vage Konvergenz 241<br />
lokalkompakt, so ist (M(E),τv) ein Hausdorffraum. Ist E zudem polnisch, so ist<br />
(M(E),τv) ebenfalls polnisch (siehe etwa [83, Sektion 15.7]). ✸<br />
Während bei der schwachen Konvergenz stets auch Konvergenz der Gesamtmassen<br />
gilt (schließlich ist 1 ∈ Cb(E)), kann bei der vagen Konvergenz ein Massendefekt<br />
im Limes auftreten, jedoch kein Massenzuwachs, wie das folgende Lemma zeigt.<br />
Lemma 13.15. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1,μ2,...<br />
n→∞<br />
∈Mf (E) mit μn −→ μ vag. Dann gilt<br />
μ(E) ≤ lim sup μn(E).<br />
n→∞<br />
Beweis. Sei (fN )N∈N eine Folge in Cc(E; [0, 1]) mit fN ↑ 1. Dann gilt<br />
�<br />
�<br />
μ(E) =sup<br />
N∈N<br />
fN dμ =suplim<br />
N∈N n→∞<br />
�<br />
fN dμn<br />
≤ lim sup sup<br />
n→∞<br />
N∈N<br />
fN dμn = lim sup μn(E). ✸<br />
n→∞<br />
Die Folge (δ 1/n)n∈N von W-Maßen auf R konvergiert offenbar schwach gegen δ0,<br />
nicht jedoch in der Totalvariationsnorm: Für die abgeschlossene Menge (−∞, 0]<br />
gilt nämlich limn→∞ δ 1/n((−∞, 0]) = 0 < 1=δ0((−∞, 0]). Etwas lax gesagt,<br />
kann in abgeschlossene Mengen im schwachen Limes Masse an der Rändern einwandern<br />
(nicht jedoch auswandern). Die komplementäre Aussage gilt für offene<br />
Mengen, denn limn→∞ δ 1/n((0, ∞)) = 1 > 0=δ0((0, ∞)), hier kann also Masse<br />
auswandern, nicht jedoch einwandern. Tatsächlich kann man die schwache Konvergenz<br />
über diese Eigenschaft charakterisieren. Im folgenden Satz werden wir ein<br />
ganzes Bündel solcher Aussagen ” auf einen Kleiderbügel (französisch: portemanteau)<br />
hängen“.<br />
Für messbares g : Ω → R sei Ug die Menge der Unstetigkeitsstellen von g. Beachte,<br />
dass Ug Borel-messbar ist (nach Übung 1.1.3).
242 13 Konvergenz von Maßen<br />
Satz 13.16 (Portemanteau Theorem). Sei E ein metrischer Raum, und seien<br />
μ, μ1, μ2,...∈M≤1(E). Dann sind äquivalent:<br />
(i) μ =w-lim<br />
n→∞ μn.<br />
(ii) � fdμn<br />
(iii) � fdμn<br />
n→∞<br />
−→ � fdμ für alle beschränkten, Lipschitz-stetigen f.<br />
n→∞<br />
−→ � fdμfür alle beschränkten, messbaren f mit μ(Uf )=0.<br />
(iv) Es gilt lim inf<br />
n→∞ μn(E) ≥ μ(E) und lim sup μn(F ) ≤ μ(F ) für alle abge-<br />
n→∞<br />
schlossenen F ⊂ E.<br />
(v) Es gilt lim sup<br />
G ⊂ E.<br />
n→∞<br />
μn(E) ≤ μ(E) und lim inf<br />
n→∞ μn(G) ≥ μ(G) für alle offenen<br />
(vi) lim<br />
n→∞ μn(A) =μ(A) für alle messbaren A mit μ(∂A) =0.<br />
Ist E auch lokalkompakt und polnisch, so sind zudem jeweils äquivalent<br />
(vii) μ =v-lim<br />
n→∞ μn und μ(E) = lim<br />
n→∞ μn(E).<br />
(viii) μ =v-lim<br />
n→∞ μn und μ(E) ≥ lim<br />
n→∞ μn(E).<br />
Beweis. ” (iv) ⇐⇒ (v) =⇒ (vi)“ Dies ist trivial.<br />
” (iii) =⇒ (i) =⇒ (ii)“ Dies ist trivial.<br />
” (ii) =⇒ (iv)“ Die Konvergenz der Gesamtmassen folgt mit der Testfunktion<br />
1 ∈ Lip(E;[0, 1]). SeiFabgeschlossen und ρF,ε wie in Lemma 13.10. Dann ist<br />
�<br />
�<br />
lim sup μn(F ) ≤ inf<br />
n→∞<br />
ε>0 lim<br />
n→∞<br />
weil ρF,ε(x) ε→0<br />
−→ F (x) für jedes x ∈ E.<br />
ρF,ε dμn =inf<br />
ε>0<br />
” (vii) =⇒ (viii)“ Dies ist klar nach Lemma 13.15.<br />
ρF,ε dμ = μ(F ),<br />
” (i) =⇒ (vii)“ Wegen Cc(E) ⊂ Cb(E) und 1 ∈ Cb(E) ist dies klar.<br />
” (vii) =⇒ (v)“ Sei G offen und ε>0. Daμ von innen regulär ist (Satz 13.6),<br />
gibt es ein Kompaktum K ⊂ G mit μ(G) − μ(K) 0 und ρK,δ wie<br />
in Lemma 13.10. Dann ist K ≤ ρK,δ ≤ L, also ρK,δ ∈ Cc(E) und daher<br />
�<br />
�<br />
ρK,δ dμn = ρK,δ dμ ≥ μ(K) ≥ μ(G) − ε.<br />
lim inf<br />
n→∞ μn(G) ≥ lim inf<br />
n→∞<br />
Indem wir ε → 0 gehen lassen, folgt die Aussage von (v).
13.2 Schwache und vage Konvergenz 243<br />
” (vi) =⇒ (iii)“ Sei f : E → R beschränkt und messbar mit μ(Uf )=0.Wir<br />
machen die elementare Beobachtung, dass für jedes D ⊂ R gilt<br />
∂f −1 (D) ⊂ f −1 (∂D) ∪ Uf . (13.5)<br />
In der Tat: Falls f in x ∈ E stetig ist, so existiert zu jedem δ>0 ein ε(δ) > 0 mit<br />
f(Bε(δ)(x)) ⊂ Bδ(f(x)). Istx∈ ∂f−1 (D), so existieren y ∈ f −1 (D) ∩ Bε(δ)(x) und z ∈ f −1 (Dc ) ∩ Bε(δ)(x). Alsoistf(y) ∈ Bδ(f(x)) ∩ D �= ∅ und f(z) ∈<br />
Bδ(f(x)) ∩ Dc �= ∅, also f(x) ∈ ∂D.<br />
Sei ε>0. Offenbar ist die Menge A := � y ∈ R : μ � f −1 ({y}) � > 0 � der Atome<br />
des endlichen Maßes μ ◦ f −1 höchstens abzählbar. Daher gibt es N ∈ N und y0 ≤<br />
−�f�∞
244 13 Konvergenz von Maßen<br />
�<br />
lim sup�E[f(Yn)]<br />
− E[f(X)]<br />
n→∞<br />
� �<br />
�<br />
≤ lim sup �E[f(X)] − E[f(Xn)]<br />
n→∞<br />
� �<br />
� + lim sup �E[f(Xn) − f(Yn)]<br />
n→∞<br />
� � =0. ✷<br />
n→∞<br />
Korollar 13.19. Gilt Xn −→ X stochastisch, so gilt auch Xn<br />
Die Umkehrung ist im Allgemeinen falsch.<br />
D<br />
−→ X, n →∞.<br />
Beispiel 13.20. Sind X, X1,X2,...u.i.v. (mit nicht-trivialer Verteilung), so gilt trivialerweise<br />
Xn<br />
D<br />
−→ X, jedoch nicht Xn<br />
n→∞<br />
−→ X stochastisch. ✸<br />
Man erinnere sich an die Definition der Verteilungsfunktion eines Wahrscheinlichkeitsmaßes<br />
in Definition 1.59.<br />
Definition 13.21. Seien F, F1,F2,... Verteilungsfunktionen von W-Maßen auf R.<br />
n→∞<br />
Wir sagen (Fn)n∈N konvergiere schwach gegen F , in Formeln Fn =⇒ F ,<br />
Fn<br />
D<br />
−→ F oder F =w-lim<br />
n→∞ Fn,wenn<br />
F (x) = lim<br />
n→∞ Fn(x) für alle Stetigkeitspunkte x von F. (13.6)<br />
Sind F, F1,F2,... Verteilungsfunktionen von Sub-Wahrscheinlichkeitsmaßen, so<br />
setzen wir F (∞) := limx→∞ F (x) und fordern für die schwache Konvergenz<br />
zusätzlich F (∞) ≥ lim supn→∞ Fn(∞).<br />
Man beachte, dass aus (13.6) stets F (∞) ≤ lim infn→∞ Fn(∞) folgt. Gilt nun<br />
D<br />
−→ F , so ist also F (∞) = limn→∞ Fn(∞).<br />
Fn<br />
Beispiel 13.22. Ist F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes auf<br />
R und Fn(x) :=F (x + n) für x ∈ R,sokonvergiert(Fn)n∈N punktweise gegen 1.<br />
Dies ist jedoch keine Verteilungsfunktion, da diese für x →−∞gegen Null konvergieren.<br />
Ist andererseits Gn(x) =F (x − n),sokonvergiert(Gn)n∈N punktweise<br />
gegen G ≡ 0. Nun ist aber G(∞) =0< lim sup n→∞ Gn(∞) =1, also liegt auch<br />
in diesem Falle keine schwache Konvergenz vor. In der Tat: es tritt jeweils im Limes<br />
ein Massendefekt ein (bei den Fn nach links, bei den Gn nach rechts). Die Definition<br />
der schwachen Konvergenz von Verteilungsfunktionen ist aber so angelegt, dass<br />
kein Massendefekt im Limes eintreten darf. ✸<br />
Satz 13.23. Seien μ, μ1,μ2,... ∈M≤1(R) mit zugehörigen Verteilungsfunktionen<br />
F, F1,F2,... Dann sind äquivalent<br />
(i) μ =w-lim<br />
n→∞ μn,<br />
(ii) Fn<br />
D<br />
−→ F .
13.2 Schwache und vage Konvergenz 245<br />
Beweis. (i) =⇒ (ii)“ Sei F in x stetig. Dann ist μ<br />
” � ∂(−∞,x] � = μ({x}) =0.<br />
Nach Satz 13.16 gilt Fn(x) =μn ((−∞,x]) n→∞<br />
−→ μ((−∞,x]) = F (x).<br />
” (ii) =⇒ (i)“ Sei f ∈ Lip1(R;[0, 1]). Nach Satz 13.16 reicht es zu zeigen, dass<br />
�<br />
fdμn<br />
n→∞<br />
−→<br />
�<br />
fdμ. (13.7)<br />
Sei ε>0. Wähle N ∈ N und N +1Stetigkeitspunkte y0
246 13 Konvergenz von Maßen<br />
Beweis. Nach Übung 1.1.3 ist Uϕ ⊂ E1 Borel-messbar. Also sind die angegebenen<br />
Bedingungen sinnvoll.<br />
(i) Sei f ∈ Cb(E2).Dannistf◦ϕ beschränkt und messbar, und es ist Uf◦ϕ ⊂ Uϕ,<br />
also μ(Uf◦ϕ) =0. Nach Satz 13.16 ist<br />
�<br />
�<br />
lim<br />
n→∞<br />
fd � μn ◦ ϕ −1� = lim<br />
n→∞<br />
(f ◦ ϕ) dμn<br />
�<br />
�<br />
= (f ◦ ϕ) dμ = fd � μ ◦ ϕ −1� .<br />
(ii) Dies ist klar, wegen P ϕ(X) = PX ◦ ϕ −1 . ✷<br />
Übung 13.2.1. Man zeige: Für d ′ P aus (13.4) und μ, ν ∈M1(E) gilt: dP (μ, ν) =<br />
d ′ P (μ, ν) =d′ P (ν, μ). ♣<br />
Übung 13.2.2. Man zeige: Die Topologie der schwachen Konvergenz auf Mf (E)<br />
ist gröber als die von der Totalvariation (siehe Korollar 7.45) erzeugte Topologie auf<br />
n→∞<br />
n→∞<br />
Mf (E). Das heißt, es gilt �μn − μ�TV −→ 0,sogiltμn−→<br />
μ schwach. ♣<br />
Übung 13.2.3. Sei E = R und μn = 1 �n n k=0 δk/n sowie μ = λ � � das auf [0, 1]<br />
[0,1]<br />
eingeschränkte Lebesgue-Maß. Man zeige, dass μ =w-lim<br />
n→∞ μn. ♣<br />
Übung 13.2.4. Sei E = R und λ das Lebesgue-Maß auf R. Für n ∈ N sei μn =<br />
λ � � . Man zeige: λ =v-lim<br />
[−n,n]<br />
n→∞ μn, jedoch ist (μ)n∈N nicht schwach konvergent. ♣<br />
Übung 13.2.5. Sei E = R und μn = δn für n ∈ N. Man zeige: v-lim<br />
n→∞ μn =0,<br />
jedoch ist (μn)n∈N nicht schwach konvergent. ♣<br />
Übung 13.2.6 (Lévy-Abstand). Für zwei Verteilungsfunktionen F und G von<br />
Wahrscheinlichkeitsmaßen auf R wird der Lévy-Abstand definiert als<br />
d(F, G) =inf � ε ≥ 0: G(x − ε) − ε ≤ F (x) ≤ G(x + ε)+ε für alle x ∈ R � .<br />
Zeige:<br />
(i) d ist eine Metrik auf der Menge der Verteilungsfunktionen.<br />
(ii) Es gilt Fn<br />
n→∞<br />
=⇒ F genau dann, wenn d(Fn,F) n→∞<br />
−→ 0.<br />
(iii) Zu jedem P ∈M1(R) gibt es eine Folge (Pn)n∈N in M1(R), sodass jedes Pn<br />
endlichen Träger hat, und sodass Pn<br />
n→∞<br />
=⇒ P . ♣
13.2 Schwache und vage Konvergenz 247<br />
Übung 13.2.7. Wir können die Begriffe schwache Konvergenz und vage Konvergenz<br />
auf Ladungsverteilungen ausdehnen, also auf Differenzen ϕ := μ + −μ− von Maßen<br />
aus Mf (E) beziehungsweise M(E), indem wir den Wortlaut von Definition 13.12<br />
auf diese Klassen anwenden. Man zeige, dass man hier die schwache Konvergenz<br />
im Allgemeinen nicht metrisieren kann.<br />
Anleitung: Man betrachte E =[0, 1].<br />
(i) Für n ∈ N definiere ϕn = δ1/n − δ2/n. Zeige: Für jedes C>0 konvergiert<br />
(Cϕn)n∈N schwach gegen das Nullmaß.<br />
(ii) Man nehme an, dass es eine Metrik gäbe, die die schwache Konvergenz erzeugt.<br />
Man zeige: Dann gäbe es eine Folge (Cn)n∈N mit Cn ↑ ∞ und<br />
0=w-lim<br />
n→∞ (Cnϕn).<br />
(iii) Wähle ein f ∈ C([0, 1]) mit f(2−n )=(−1) nC −1/2<br />
n<br />
� � �<br />
zeige: fd(Cnϕn)<br />
n∈N<br />
konvergiert nicht gegen Null.<br />
für jedes n ∈ N und<br />
(iv) Man führe diese Konstruktion zum Widerspruch mit der Metrisierbarkeitsannahme.<br />
♣<br />
Übung 13.2.8. Man zeige, dass durch (13.3) eine Metrik auf M1(E) definiert wird,<br />
und dass diese die Topologie der schwachen Konvergenz erzeugt. ♣<br />
Übung 13.2.9. Man zeige die Implikation ” (vi) =⇒ (iv)“ aus Satz 13.16 direkt. ♣<br />
Übung 13.2.10. Seien X, X1,X2,... und Y1,Y2,... reelle Zufallsvariablen. Es<br />
gelte PYn = N0,1/n für jedes n ∈ N. Man zeige: Es gilt genau dann Xn<br />
D<br />
−→ X,<br />
wenn Xn + Yn<br />
D<br />
−→ X. ♣<br />
Übung 13.2.11. Betrachte die Maße μn := 1<br />
n (δ 1/n +...+δ (n−1)/n +δ1) auf [0, 1].<br />
Zeige, dass μn schwach gegen das Lebesgue-Maß auf [0, 1] konvergiert. ♣<br />
Übung 13.2.12. Für jedes n ∈ N sei Xn eine geometrisch verteilte Zufallsvariable<br />
mit Parameter pn ∈ (0, 1). Wie muss die Folge (pn)n∈N gewählt sein, damit P Xn/n<br />
schwach gegen die Exponentialverteilung mit Parameter α>0 konvergiert? ♣<br />
Übung 13.2.13. Seien X, X1,X2,... reelle Zufallsvariablen mit Xn<br />
Zeige:<br />
(i) E[|X|] ≤ lim infn→∞ E[|Xn|].<br />
n→∞<br />
=⇒ X.<br />
(ii) Ist p > 0 und sup n∈N E[|Xn| r ] < ∞ für eine r > p, so gilt E[|X| p ] =<br />
limn→∞ E[|Xn| p ]. ♣
248 13 Konvergenz von Maßen<br />
13.3 Der Satz von Prohorov<br />
Sei E stets ein polnischer Raum mit Borel’scher σ-Algebra E. Eine grundlegende<br />
Frage ist, wann eine Folge (μn)n∈N von Maßen auf (E,E) einen schwachen Grenzwert<br />
besitzt, oder wenigstens einen schwachen Häufungspunkt. Eine offensichtlich<br />
notwendige Bedingung ist, dass (μn(E))n∈N beschränkt ist, deshalb werden wir<br />
ohne Beschränkung der Allgemeinheit nur Folgen in M≤1(E) betrachten. Dies ist<br />
allerdings nicht hinreichend, denn beispielsweise konvergiert die Folge (δn)n∈N von<br />
W-Maßen auf R nicht schwach. Wir müssen also zusätzlich noch sicher stellen, dass<br />
keine Masse ins Unendliche auswandert“. Dies liefert gerade die Bedingung der<br />
”<br />
Straffheit.<br />
Wir beginnen diesen Abschnitt, indem wir zunächst als Hauptsatz den Satz von<br />
Prohorov [128] vorstellen. Wir geben den Beweis erst in dem Spezialfall E = R an<br />
und kommen dann zu Anwendungen, bevor wir den Satz am Ende des Abschnitts<br />
in voller Allgemeinheit beweisen.<br />
Definition 13.26 (Straffheit). Eine Familie F ⊂ Mf (E) heißt straff, falls zu<br />
jedem ε>0 eine kompakte Menge K ⊂ E existiert mit<br />
sup � μ(E \ K) : μ ∈F � 0 und K =[−C/ε,C/ε] ist<br />
nach der Markov’schen Ungleichung PXi (R \ K) =P[|Xi| >C/ε] ≤ ε.<br />
(iii) Die Familie (δn)n∈N von W-Maßen auf R ist nicht straff.<br />
(iv) Die Familie (U [−n,n])n∈N von uniformen Verteilungen auf den Intervallen<br />
[−n, n] ist nicht straff. ✸
13.3 Der Satz von Prohorov 249<br />
Satz 13.29 (Satz von Prohorov (1956)). Sei (E,d) ein metrischer Raum und F⊂<br />
M≤1(E).<br />
(i) Es gilt<br />
F ist straff =⇒ F ist schwach relativ folgenkompakt.<br />
(ii) Ist E zudem polnisch, so gilt auch die Umkehrung<br />
F ist straff ⇐= F ist schwach relativ folgenkompakt.<br />
Korollar 13.30. Sei E ein kompakter, metrischer Raum. Dann sind die Mengen<br />
M≤1(E) und M1(E) schwach folgenkompakt.<br />
Korollar 13.31. Ist E ein lokalkompakter, separabler, metrischer Raum, so ist<br />
M≤1(E) vag folgenkompakt.<br />
Beweis. Seien x1,x2,... dicht in E. DaE lokalkompakt ist, existiert zu jedem<br />
n ∈ N eine offene Umgebung Un ∋ xn, deren Abschluss U n kompakt ist. Dann ist<br />
aber auch En := � n<br />
k=1 U n kompakt für jedes n ∈ N. Für jede kompakte Menge<br />
K ⊂ E gibt es nun eine endliche Überdeckung K ⊂ � n<br />
k=1 Uk ⊂ En, wobei<br />
n = n(K) von K abhängt.<br />
Nach Korollar 13.30 gibt es zu jedem n ∈ N ein ˜μn ∈M≤1(Kn) und eine Teilfolge<br />
(kn l )l∈N mit ˜μn =w-lim<br />
l→∞ μkn �<br />
� . Mit Hilfe des Diagonalfolgenarguments können<br />
l<br />
Kn<br />
wir annehmen, dass (k n+1<br />
l<br />
)l∈N eine Teilfolge von (kn l )l∈N<br />
�<br />
ist und damit ˜μn+1�<br />
=<br />
Kn<br />
˜μn für jedes n ∈ N. Es existiert also ein μ ∈M≤1(E) mit μ � � =˜μn für jedes<br />
Kn<br />
n ∈ N.Für jedes f ∈ Cc(E) ist der Träger in einem Km enthalten, also gilt (wegen<br />
μkn � n→∞<br />
� −→ μ n<br />
Km<br />
� � schwach)<br />
Km<br />
�<br />
�<br />
n→∞<br />
−→ fdμ,<br />
und damit μk n n<br />
fdμk n n<br />
n→∞<br />
−→ μ vag. ✷<br />
Bemerkung 13.32. Die Implikation in Satz 13.29(ii) ist die weitaus einfachere,<br />
wenn auch weniger nützliche. Hier wird benötigt, dass E polnisch ist, denn eine<br />
einelementige Familie ist offenbar immer schwach kompakt, jedoch nur unter Zusatzannahmen<br />
straff – beispielsweise eben, wenn E polnisch ist (Lemma 13.5). ✸<br />
Beweis (von Satz 13.29(ii)). Wir gehen zunächst ähnlich vor wie im Beweis von<br />
Lemma 13.5. Sei {x1,x2,...}⊂E dicht. Für n ∈ N setze An,N := N�<br />
B1/n(xi). i=1<br />
Dann gilt An,N ↑ E für N →∞für jedes n ∈ N.Sei
250 13 Konvergenz von Maßen<br />
δ := sup<br />
n∈N<br />
inf<br />
N∈N sup μ(A<br />
μ∈F<br />
c n,N ).<br />
Dann gibt es ein n ∈ N, sodass für jedes N ∈ N ein μN ∈ F existiert mit<br />
μN(A c n,N ) ≥ δ/2. DaF schwach relativ folgenkompakt ist, besitzt (μN )N∈N<br />
eine schwach konvergente Teilfolge (μNk )k∈N mit einem schwachen Limes μ ∈<br />
M≤1(E). Nach dem Portemanteau Theorem (Satz 13.16(iv)) gilt für jedes N ∈ N<br />
μ(A c n,N ) ≥ lim inf<br />
k→∞ μNk (Acn,N ) ≥ lim inf<br />
k→∞ μNk (Acn,Nk ) ≥ δ/2.<br />
Andererseits gilt Ac n,N ↓∅für N →∞, also μ(Ac N→∞<br />
n,N ) −→ 0. Mithin ist δ =0.<br />
Sei nun ε>0 beliebig. Nach dem eben Gezeigten können wir zu jedem n ∈ N<br />
ein N ′ n ∈ N wählen, sodass μ(Ac n,N ′ n )
13.3 Der Satz von Prohorov 251<br />
besitzt (Fn(q1))n∈N eine konvergente Teilfolge � Fn1 (q1)<br />
k �<br />
k∈N<br />
eine Teilfolge (n2 k )k∈N von (n1 k )k∈N, sodass � Fn2 (q2)<br />
k �<br />
k∈N<br />
halten wir Teilfolgen (n1 k ) ⊃ (n2 k ) ⊃ (n3 k ) ⊃ ..., sodass � Fnl (ql)<br />
k �<br />
. Ebenso finden wir<br />
konvergiert. Iterativ er-<br />
für jedes<br />
k∈N<br />
l ∈ N konvergiert. Setze jetzt nk := nk k . Dann konvergiert � Fnk (q)� für jedes<br />
k∈N<br />
q ∈ Q. Setze � F (q) = lim Fnk (q) und<br />
k→∞<br />
F (x) =inf � � F (q) : q ∈ Q mit q>x � .<br />
Da � F monoton wachsend ist, ist F rechtsstetig und monoton wachsend.<br />
Ist F stetig in x, so existieren zu ε>0 Zahlen q− ,q + ∈ Q, q− K.Istx > K eine Stetigkeitsstelle von F , dann gilt<br />
lim supk→∞ Fnk (∞) ≤ lim supk→∞ Fnk (x)+ε = F (x)+ε ≤ F (∞)+ε. ✷<br />
Wir kommen zu einer ersten Anwendung des Satzes von Prohorov. Die ganze Stärke<br />
des folgenden Satzes wird erst deutlich, wenn wir geeignete trennende Funktionenklassen<br />
zur Verfügung haben. Diese werden wir in Kapitel 15 genauer untersuchen.<br />
Satz 13.34. Sei E polnisch, und seien μ, μ1, μ2,...∈M≤1(E). Dann sind äquivalent:<br />
(i) μ =w-lim<br />
n→∞ μn.<br />
(ii) (μn)n∈N ist straff, und es gibt eine trennende Familie C⊂Cb(E) mit<br />
�<br />
�<br />
fdμ= lim<br />
n→∞<br />
fdμn für jedes f ∈C. (13.8)<br />
Beweis. ” (i) =⇒ (ii)“ Nach der einfachen Implikation im Satz von Prohorov<br />
(Satz 13.29(ii)) folgt aus der schwachen Konvergenz die Straffheit.
252 13 Konvergenz von Maßen<br />
” (ii) =⇒ (i)“ Sei (μn)n∈N straff und C⊂Cb(E) trennend mit (13.8). Wir nehmen<br />
an, (μn)n∈N konvergiere nicht schwach gegen μ. Dann existieren ε>0, f ∈ Cb(E)<br />
und (nk)k∈N mit nk ↑∞und<br />
��<br />
�<br />
� fdμnk � −<br />
� �<br />
�<br />
fdμ�<br />
� >ε für alle k ∈ N. (13.9)<br />
Nach dem Satz von Prohorov (Satz 13.29) existiert ein ν ∈ M≤1(E) und eine<br />
Teilfolge (n ′ k )k∈N von (nk)k∈N mit μn ′ → ν schwach. Wegen (13.9) ist<br />
�<br />
k<br />
� � fdμ− � fdν � � ≥ ε, also μ �= ν. Andererseits ist<br />
�<br />
�<br />
hdμ= lim<br />
k→∞<br />
hdμn ′ k =<br />
�<br />
hdν für jedes h ∈C,<br />
also μ = ν. Damit ist die Annahme zum Widerspruch geführt, und es gilt (i). ✷<br />
Wir wollen den Zusammenhang zwischen schwacher und vager Konvergenz näher<br />
beleuchten.<br />
Satz 13.35. Sei E ein lokalkompakter, polnischer Raum, und seien μ, μ1,μ2,...<br />
∈Mf (E). Dann sind äquivalent:<br />
(i) μ =w-lim<br />
n→∞ μn,<br />
(ii) μ =v-lim<br />
n→∞ μn und μ(E) = lim<br />
n→∞ μn(E),<br />
(iii) μ =v-lim<br />
n→∞ μn und μ(E) ≥ lim sup μn(E),<br />
n→∞<br />
(iv) μ =v-lim<br />
n→∞ μn und {μn, n∈ N} ist straff.<br />
Beweis. ” (i) ⇐⇒ (ii) ⇐⇒ (iii)“ Dies folgt aus dem Portemanteau Theorem.<br />
” (ii) =⇒ (iv)“ Es reicht zu zeigen, dass für jedes ε>0 ein Kompaktum K ⊂ E<br />
existiert mit lim supn→∞ μn(E \ K) ≤ ε.Daμregulär ist (Satz 13.6) existiert eine<br />
kompakte Menge L ⊂ E mit μ(E \ L)
13.3 Der Satz von Prohorov 253<br />
�<br />
sup μn(E) ≤ 1+supμn(L)<br />
≤ 1+sup ρdμn < ∞,<br />
n∈N<br />
n∈N<br />
n∈N<br />
weil nach Voraussetzung � ρdμnkonvergiert. Es ist also auch<br />
C := max(μ(E), sup{μn(E) : n ∈ N}) < ∞,<br />
und wir können zu μ/C und μn/C übergehen und ohne Einschränkung annehmen,<br />
dass alle Maße in M≤1(E) liegen. Da Cc(E) trennend ist für M≤1(E) (siehe<br />
Satz 13.11), folgt (i) aus Satz 13.34. ✷<br />
Beweis des Satzes von Prohorov, Teil (i), allgemeiner Fall. Es gibt prinzipiell<br />
zwei Möglichkeiten, den Satz im allgemeinen Fall zu beweisen. Die eine<br />
Möglichkeit besteht darin, den Satz zunächst für Maße auf R d zu zeigen (das haben<br />
wir für d =1bereits getan, siehe auch Übung 13.3.4 für d ≥ 2). In einem<br />
zweiten Schritt wird die Aussage auf Folgenräume R N angehoben. Schließlich wird<br />
im dritten Schritt eine Einbettung von E in R N konstruiert. Diesen Weg findet man<br />
beispielsweise in [14] oder [84].<br />
Wir folgen hier der anderen Route, wie sie etwa in [15] (beziehungsweise [17]) oder<br />
[43] dargestellt wird. Der Hauptpunkt des Beweises besteht darin, einen Kandidaten<br />
für einen schwachen Häufungspunkt der Familie F zu finden. Wir werden diesen<br />
zunächst als Inhalt auf einem abzählbaren Mengensystem konstruieren und dann<br />
ein äußeres Maß daraus ableiten. Schließlich zeigen wir, dass die abgeschlossenen<br />
Mengen messbar bezüglich dieses äußeren Maßes sind. Die Argumentation verläuft<br />
also in Teilen recht ähnlich wie beim Beweis des Satzes von Carathéodory.<br />
Sei (E,d) ein metrischer Raum und F⊂M≤1(E) straff. Dann existiert eine aufsteigende<br />
Folge K1 ⊂ K2 ⊂ K3 ⊂ ... von kompakten Mengen in E, sodass<br />
μ(Kc n) < 1<br />
n gilt für jedes μ ∈ F und jedes n ∈ N. Setze E′ := �∞ n=1 Kn.<br />
Dann ist E ′ ein σ-kompakter, metrischer Raum, also insbesondere separabel. Da<br />
nach Konstruktion μ(E \ E ′ ) = 0 für jedes μ ∈ F gilt, können wir jedes μ<br />
als Maß auf E ′ auffassen. Ohne Beschränkung der Allgemeinheit können wir al-<br />
so annehmen, dass Eσ-kompakt und damit separabel ist. Es existiert also eine<br />
abzählbare Basis U der Topologie τ � � auf E, das heißt eine abzählbare Menge E<br />
E<br />
von offenen Mengen, sodass A = �<br />
U∈U,U⊂A U für jedes offene A ⊂ E ist. Setze<br />
C ′ := � U ∩ Kn : U ∈U,n∈ N � und<br />
�<br />
�N<br />
C :=<br />
n=1<br />
Cn : N ∈ N und C1,...,CN ∈C ′<br />
�<br />
.<br />
Offenbar ist C eine abzählbare Menge kompakter Mengen in E, und C ist vereinigungsstabil.<br />
Jedes Kn hat eine endliche Überdeckung mit Mengen aus U, also ist<br />
Kn ∈C.<br />
Sei nun (μn)n∈N eine Folge in F. Mit Hilfe des Diagonalfolgenarguments (siehe<br />
Beweis des Auswahlsatzes von Helly, Satz 13.33) können wir eine Teilfolge<br />
(μnk )k∈N finden, für die der Grenzwert
254 13 Konvergenz von Maßen<br />
α(C) := lim μnk (C)<br />
k→∞<br />
(13.10)<br />
für jedes C ∈ C existiert. Angenommen es gibt ein Maß μ auf der Borel’schen<br />
σ-Algebra E von E, sodass<br />
μ(A) =sup � α(C) : C ∈C mit C ⊂ A �<br />
für A ⊂ E offen. (13.11)<br />
Dann ist<br />
μ(E) ≥ sup α(Kn) =suplim<br />
μnk (Kn)<br />
n∈N<br />
n∈N k→∞<br />
≥ sup lim sup<br />
n∈N k→∞<br />
�<br />
= lim sup μnk<br />
k→∞<br />
(E).<br />
Für offenes A und für C ∈Cmit C ⊂ A ist ferner<br />
α(C) = lim<br />
k→∞<br />
1<br />
μnk (E) −<br />
n<br />
μnk (C) ≤ lim inf μnk (A),<br />
k→∞<br />
also μ(A) ≤ lim infk→∞ μnk (A). Nach dem Portemanteau Theorem (Satz 13.16)<br />
ist μ =w-lim μnk , und damit ist F als schwach relativ folgenkompakt erkannt. Es<br />
k→∞<br />
bleibt zu zeigen, dass es ein Maß μ auf (E,E) gibt, das (13.11) erfüllt.<br />
Die Mengenfunktion α auf C ist offenbar monoton, additiv und subadditiv:<br />
Wir definieren<br />
und<br />
α(C1) ≤ α(C2), falls C1 ⊂ C2,<br />
α(C1 ∪ C2) =α(C1)+α(C2),<br />
α(C1 ∪ C2) ≤ α(C1)+α(C2).<br />
falls C1 ∩ C2 = ∅,<br />
β(A) :=sup � α(C) : C ∈C mit C ⊂ A �<br />
μ ∗ (G) :=inf � β(A) : A ⊃ G ist offen �<br />
�<br />
für A ⊂ E offen<br />
für G ∈ 2 E .<br />
(13.12)<br />
Offenbar ist β(A) =μ ∗ (A) für jedes offene A. Es reicht zu zeigen (Schritte 1-3<br />
unten), dass μ ∗ ein äußeres Maß ist (siehe Definition 1.46), und (4. Schritt) dass<br />
die σ-Algebra der μ ∗ -messbaren Mengen (siehe Definition 1.48 und Lemma 1.52)<br />
die abgeschlossenen Mengen und damit ganz E enthält. Nach Lemma 1.52 ist dann<br />
nämlich μ∗ ein Maß auf der σ-Algebra der μ∗-messbaren Mengen, und die Einschränkung<br />
μ := μ∗� �E erfüllt μ(A) =μ∗ (A) =β(A) für alle offenen A, also gilt<br />
Gleichung (13.11).<br />
Offenbar ist μ ∗ (∅) =0, und μ ∗ ist monoton. Um zu zeigen, dass μ ∗ ein äußeres<br />
Maß ist, müssen wir nur noch die σ-Subadditivität nachweisen.
13.3 Der Satz von Prohorov 255<br />
1. Schritt (endliche Subadditivität von β) Seien A1,A2 ⊂ E offen und C ∈C<br />
mit C ⊂ A1 ∪ A2. Sein ∈ N mit C ⊂ Kn.Wirdefinieren zwei Mengen<br />
B1 := � x ∈ C : d(x, A c 1) ≥ d(x, A c 2) � ,<br />
B2 := � x ∈ C : d(x, A c 1) ≤ d(x, A c 2) � .<br />
A<br />
1<br />
B1 B2 C<br />
Offenbar ist B1 ⊂ A1 und B2 ⊂ A2. Dax ↦→ d(x, Ac i ) stetig ist für i =1, 2, sind<br />
B1 und B2 als abgeschlossene Teilmengen von C kompakt. Also ist d(B1,Ac 1) > 0.<br />
Es existiert also eine offene Menge D1 mit B1 ⊂ D1 ⊂ D1 ⊂ A1.(Manwähle etwa<br />
D1 als Vereinigung einer endlichen Überdeckung von B1 mit Kugeln vom Radius<br />
d(B1,Ac 1)/2. Diese Kugeln liegen nebst ihren Abschlüssen in A1.) Sei UD1 :=<br />
{U ∈U: U ⊂ D1}. DannistB1⊂ D1 = �<br />
U. Wähle nun eine endliche<br />
U∈UD1 Teilüberdeckung {U1,...,UN }⊂UD1 von B1 und setze C1 := �N i=1 U i ∩ Kn.<br />
Dann ist B1 ⊂ C1 ⊂ A1 und C1 ∈C.Wähle analog ein C2 ∈Cmit B2 ⊂ C2 ⊂ A2.<br />
Es folgt<br />
α(C) ≤ α(C1 ∪ C2) ≤ α(C1)+α(C2) ≤ β(A1)+β(A2).<br />
Also gilt auch<br />
β(A1 ∪ A2) =sup � �<br />
α(C) : C ∈C mit C ⊂ A1 ∪ A2 ≤ β(A1)+β(A2).<br />
2. Schritt (σ-Subadditivität von β) Seien A1,A2,...offene Mengen und C ∈C<br />
mit C ⊂ �∞ i=1 Ai. DaC kompakt ist, existiert ein n ∈ N mit C ⊂ �n i=1 Ai. Die<br />
schon gezeigte endliche Subadditivität von β impliziert<br />
�<br />
�n<br />
α(C) ≤ α<br />
� �<br />
�n<br />
= β<br />
� ∞�<br />
≤ β(Ai).<br />
Ai<br />
i=1<br />
Ai<br />
i=1<br />
Indem wir das Supremum über solche C bilden, folgt<br />
�<br />
�∞<br />
� �<br />
∞�<br />
β =sup α(C) : C ∈C mit C ⊂<br />
Ai<br />
i=1<br />
i=1<br />
Ai<br />
i=1<br />
� ∞�<br />
≤ β(Ai).<br />
3. Schritt (σ-Subadditivität von μ∗ ) Seien G1,G2,... ∈ 2E .Seiε>0. Wähle<br />
für jedes n ∈ N eine offene Menge An ⊃ Gn mit β(An)
256 13 Konvergenz von Maßen<br />
Da ε>0 beliebig war, folgt μ∗� �∞ äußeres Maß.<br />
n=1 Gn<br />
� ≤ � ∞<br />
n=1 μ∗ (Gn). Mithin ist μ ∗ ein<br />
4. Schritt (Abgeschlossene Mengen sind in μ∗-messbar) eine Menge B ⊂ E genau dann μ<br />
Nach Lemma 1.49 ist<br />
∗-messbar, wenn<br />
μ ∗ (B ∩ G)+μ ∗ (B c ∩ G) ≤ μ ∗ (G) für alle G ∈ 2 E .<br />
Indem wir das Infimum über alle offenen Mengen A ⊃ G bilden, reicht es zu zeigen,<br />
dass für jedes abgeschlossene B und jedes offene A ⊂ E gilt, dass<br />
μ ∗ (B ∩ A)+μ ∗ (B c ∩ A) ≤ β(A). (13.13)<br />
Sei ε>0. Wähle C1 ∈Cmit C1 ⊂ A ∩ Bc und α(C1) >β(A∩ Bc ) − ε. Wähle<br />
ferner C2 ∈Cmit C2 ⊂ A ∩ Cc 1 und α(C2) >β(A∩ Cc 1) − ε.WegenC1∩C2 = ∅<br />
und C1 ∪ C2 ⊂ A folgt<br />
β(A) ≥ α(C1 ∪ C2) =α(C1)+α(C2) ≥ β(A ∩ B c )+β(A ∩ C c 1) − 2ε<br />
≥ μ ∗ (A ∩ B c )+μ ∗ (A ∩ B) − 2ε.<br />
Indem wir ε → 0 gehen lassen, folgt (13.13). Damit ist der Beweis des Satzes von<br />
Prohorov vollständig. ✷<br />
Übung 13.3.1. Man zeige: Eine Familie F⊂Mf (R) ist genau dann straff, wenn<br />
es eine messbare � Abbildung f : R → [0, ∞) gibt mit f(x) →∞für |x| →∞und<br />
supμ∈F fdμ
13.4 Anwendung: Satz von de Finetti – anders angeschaut 257<br />
13.4 Anwendung: Satz von de Finetti – anders angeschaut<br />
(Nach einer Idee von Götz Kersting.) Sei E ein polnischer Raum und X1,X2,...<br />
eine austauschbare Folge von Zufallsvariablen mit Werten in E. Wir wollen hier,<br />
alternativ zu dem Rückwärtsmartingalargument aus Kapitel 12.3, einen Beweis für<br />
den Satz von de Finetti (Satz 12.26) angeben, der besagt, dass es ein zufälliges W-<br />
Maß Ξ auf E gibt, sodass, gegeben Ξ, die Zufallsvariablen X1,X2,...unabhängig<br />
und Ξ-verteilt sind. Für x =(x1,x2,...) ∈ EN seien ξn(x) := 1 �n δxl n l=1 die<br />
empirische Verteilung von x1,...,xn,<br />
μn,k(x) :=ξn(x) ⊗k = n −k<br />
n�<br />
i1,...,ik=1<br />
δ (xi1 ,...,xi k )<br />
die Verteilung auf E k des k-fachen unabhängigen Ziehens (mit Beachtung der Reihenfolge)<br />
aus (x1,...,xn) mit Zurücklegen und<br />
νn,k(x) :=<br />
(n − k)!<br />
n!<br />
n�<br />
i 1 ,...,i k =1<br />
#{i 1 ,...,i k }=k<br />
δ (xi1 ,...,xi k )<br />
die Verteilung auf E k des k-fachen unabhängigen Ziehens (mit Beachtung der Reihenfolge)<br />
aus (x1,...,xn) ohne Zurücklegen. Für jedes x ∈ E N gilt<br />
�<br />
� μn,k(x) − νn,k(x) � � TV ≤ Rn,k :=<br />
k(k − 1)<br />
.<br />
n<br />
In der Tat ist die Wahrscheinlichkeit pn,k, beim k-maligen Ziehen (mit Zurücklegen)<br />
aus n unterscheidbaren Kugeln keine zwei gleichen Kugeln zu ziehen,<br />
k−1<br />
pn,k =<br />
�<br />
(1 − l/n)<br />
l=1<br />
und Rn,k ≥ 2(1 − pn,k). Wir erhalten also die, intuitiv klare, Aussage, dass sich<br />
für n →∞die Verteilungen des k-maligen Ziehens mit und ohne Zurücklegen<br />
annähern<br />
lim<br />
n→∞ sup<br />
x∈EN �<br />
�μn,k(x) − νn,k(x) � � =0.<br />
TV<br />
Seien nun f1,...,fk ∈ Cb(E) und F (x1,...,xk) :=f1(x1) ···fk(xk). Dann gilt<br />
wegen der Austauschbarkeit der Folge X1,X2,... für jede Wahl von paarweise<br />
unterschiedlichen Zahlen 1 ≤ i1,...,ik ≤ n<br />
E[F (X1,...,Xk)] = E[F (Xi1 ,...,Xik )].<br />
Indem wir über alle solchen Wahlen von i1,...,ik mitteln, erhalten wir
258 13 Konvergenz von Maßen<br />
E � f1(X1) ···fk(Xk) � = E � F (X1,...,Xk) � �<br />
= E<br />
�<br />
Also ist<br />
�<br />
�<br />
�E � f1(X1) ···fk(Xk) � �<br />
− E<br />
�<br />
� �<br />
�<br />
= �E<br />
�<br />
�<br />
f1 dξn(X) ···<br />
� �<br />
Fdνn,k(X) − E<br />
�<br />
�<br />
Fdνn,k(X) .<br />
��<br />
��<br />
fk dξn(X)<br />
��<br />
��<br />
Fdμn,k(X)<br />
n→∞<br />
≤�F�∞ Rn,k −→ 0.<br />
Wir machen uns jetzt das folgende Kriterium für die Straffheit von Teilmengen von<br />
M1(M1(E)) zu Nutze.<br />
Übung 13.4.1. Man zeige: Eine Teilmenge K ⊂ M1(M1(E)) ist genau dann<br />
straff, wenn für jedes ε>0 eine kompakte Menge K ⊂ E existiert mit der Eigenschaft<br />
�μ �� μ ∈M1(E) : μ(K c ) >ε �� 0 existiert also ein Kompaktum K ⊂ E<br />
mit P[X1 ∈ Kc ] ε] ≤ ε−1E[ξn(X)(Kc )] =<br />
ε−1P[X1 ∈ Kc ] ≤ ε. Also ist die Familie (Pξn(X))n∈N straff. Sei Ξ∞ eine Zufallsvariable<br />
(mit Werten in M1(E)), sodass PΞ∞ =w-lim<br />
l→∞ Pξn (X) für eine geeignete<br />
l<br />
Teilfolge (nl)l∈N. Die Abbildung ξ ↦→ � Fdξ= � f1 dξ ··· � fk dξ ist beschränkt<br />
und (als Produkt stetiger Abbildungen) stetig bezüglich der Topologie der schwachen<br />
Konvergenz auf M1(E), also aus Cb(M1(E)). Daher gilt<br />
�<br />
E<br />
�<br />
FdΞ ⊗k<br />
� �<br />
∞ = lim E<br />
l→∞ �<br />
�<br />
f1 dξnl (X) ··· fk dξnl (X)<br />
�<br />
= E � f1(X1) ···fk(Xk) � .<br />
Nun hängt der Grenzwert aber nicht mehr von der gewählten Teilfolge ab und ist<br />
damit eindeutig. Es folgt, noch einmal komplett ausgeschrieben, dass<br />
E � f1(X1) ···fk(Xk) � �<br />
= E<br />
�<br />
� �<br />
f1 dΞ∞ ···<br />
.<br />
fk dΞ∞<br />
Durch diese Integrale ist aber die Verteilung von (X1,...,Xk) vollständig bestimmt,<br />
und es folgt, dass P (X1,...,Xk) = P Ξ ⊗k<br />
∞ , oder als Zufallsvariablen ausgedrückt:<br />
(X1,...,Xk) D = (Y1,...,Yk), wo, gegeben Ξ∞, die Zufallsvariablen<br />
Y1,...,Yk unabhängig mit Verteilung Ξ∞.<br />
Übung 13.4.2. Man zeige: Eine Familie (Xn)n∈N von Zufallsvariablen ist genau<br />
dann austauschbar, wenn für jede Wahl von natürlichen Zahlen mit 1 ≤ n1
14 W-Maße auf Produkträumen<br />
Als Motivation betrachten wir das folgende Beispiel. Sei X eine uniform auf [0, 1]<br />
verteilte Zufallsvariable. Sobald wir den Wert von X kennen, wollen wir n mal<br />
eine Münze werfen, die Erfolgswahrscheinlichkeit X hat. Die Ergebnisse seien<br />
Y1,...,Yn.<br />
Wie konstruieren wir einen geeigneten Wahrscheinlichkeitsraum, auf dem alle Zufallsvariablen<br />
definiert sind?<br />
Eine Möglichkeit: Wir wissen schon, wie wir n +1unabhängige Zufallsvariablen<br />
Z0,...,Zn konstruieren, die uniform auf [0, 1] verteilt sind (siehe etwa Korollar<br />
2.23). Setze nun X = Z0 und<br />
�<br />
1, falls Zk
260 14 W-Maße auf Produkträumen<br />
14.1 Produkträume<br />
Definition 14.1 (Produktraum). Sei (Ωi, i∈ I) eine beliebige Familie von Mengen.<br />
Mit Ω = × Ωi bezeichnen wir die Menge der Abbildungen ω : I →<br />
i∈I<br />
�<br />
Ωi<br />
i∈I<br />
mit der Eigenschaft, dass ω(i) ∈ Ωi für jedes i ∈ I gilt. Ω heißt das Produkt der<br />
(Ωi, i∈ I), oder kurz Produktraum. Sind speziell alle Ωi gleich, etwa Ωi = Ω0,<br />
so schreiben wir Ω = × Ωi = Ω<br />
i∈I<br />
I 0.<br />
Beispiele 14.2. (i) Ist Ω1 = {1,...,6} und Ω2 = {1, 2, 3}, soist<br />
Ω1 × Ω2 = � ω =(ω1,ω2) : ω1 ∈{1,...,6}, ω2 ∈{1, 2, 3} � .<br />
(ii) Ist Ω0 = R und I = {1, 2, 3}, soistR {1,2,3} isomorph zum üblichen R3 .<br />
(iii) Ist Ω0 = R und I = N, soistRNder Raum der Folgen (ω(n), n∈ N) in R.<br />
(iv) Ist I = R und Ω0 = R,soistRRMenge der Abbildungen R → R. ✸<br />
Definition 14.3 (Koordinatenabbildung). Ist i ∈ I, so bezeichnet Xi : Ω → Ωi,<br />
ω ↦→ ω(i) die i-te Koordinatenabbildung. Allgemeiner nennen wir für J ⊂ J ′ ⊂ I<br />
die eingeschränkte Abbildung<br />
′<br />
J<br />
XJ : × Ωj −→ × j∈J ′<br />
j∈J<br />
Ωj, ω ′ ↦→ ω ′� �J<br />
die kanonische Projektion. Speziell schreiben wir XJ := X I J .<br />
(14.1)<br />
Definition 14.4 (Produkt-σ-Algebra). Seien (Ωi, Ai), i ∈ I, Messräume. Die<br />
Produkt-σ-Algebra<br />
A = �<br />
i∈I<br />
ist die kleinste σ- Algebra auf Ω, sodass für jedes i ∈ I die Abbildung Xi messbar<br />
bezüglich A – Ai ist:<br />
Ai<br />
A = σ � Xi, i∈ I � := σ � X −1<br />
i (Ai), i∈ I � .<br />
Ist (Ωi, Ai) =(Ω0, A0) für jedes i ∈ I, so schreiben wir auch A = A ⊗I<br />
0 .<br />
Für J ⊂ I schreiben wir ΩJ = × Ωj und AJ =<br />
j∈J<br />
�<br />
Aj.<br />
j∈J<br />
Bemerkung 14.5. Die Begriffsbildung der Produkt-σ-Algebra ist analog zu der der<br />
Produkttopologie: Sind((Ωi, τi),i ∈ I) topologische Räume, so ist die Produkttopologie<br />
τ auf Ω = × Ωi die gröbste Topologie, bezüglich der alle Koordinaten-<br />
i∈I<br />
abbildungen Xi : Ω −→ Ωi stetig sind. ✸
14.1 Produkträume 261<br />
Definition 14.6. Sei I �= ∅ eine beliebige Indexmenge, (E,E) ein Messraum,<br />
(Ω,A) =(E I , B(E) ⊗I ) und Xt : Ω → E die Koordinatenabbildung für jedes<br />
t ∈ I. Dann nennen wir die Familie (Xt)t∈I den kanonischen Prozess auf (Ω,A).<br />
Lemma 14.7. Sei ∅ �= J ⊂ I. Dann ist X I J messbar bezüglich AI – AJ.<br />
Beweis. Für jedes j ∈ J ist Xj = XJ j ◦ XI J messbar bezüglich A – Aj. Nach<br />
Korollar 1.82 ist daher XI J messbar. ✷<br />
Satz 14.8. Sei I höchstens abzählbar, und für jedes i ∈ I sei (Ωi, τi) polnisch mit<br />
Borel’scher σ-Algebra Bi = σ(τi). Esseiτdie Produkttopologie auf Ω = × Ωi<br />
i∈I<br />
und B = σ(τ).<br />
Dann ist (Ω, τ) polnisch und B = �<br />
Bi. Speziell ist B(Rd )=B(R) ⊗d für d ∈ N.<br />
i∈I<br />
Beweis. Ohne Einschränkung sei I = N.Für i ∈ N sei di eine vollständige Metrik,<br />
die τi erzeugt. Man prüft leicht nach, dass dann<br />
d(ω, ω ′ ):=<br />
∞�<br />
2 −i<br />
i=1<br />
di(ω(i),ω ′ (i))<br />
1+di(ω(i),ω ′ (i))<br />
(14.2)<br />
eine vollständige Metrik auf Ω ist, die τ erzeugt.<br />
Für jedes i ∈ N sei nun Di ⊂ Ωi eine abzählbare, dichte Teilmenge und yi ∈ Di<br />
ein beliebiger fester Punkt. Die Menge<br />
�<br />
�<br />
D = x ∈× Di : xi �= yi nur endlich oft<br />
i∈N<br />
ist, wie man leicht prüft, eine abzählbare, dichte Teilmenge von Ω.AlsoistΩsepa rabel und damit polnisch.<br />
Sei nun βi = {Bε(xi) : xi ∈ Di, ε∈ Q + } für jedes i ∈ I eine abzählbare Basis<br />
der Topologie von Ωi aus ε-Kugeln. Setze<br />
�<br />
N�<br />
�<br />
β :=<br />
∞�<br />
N=1<br />
i=1<br />
X −1<br />
i (Bi) : B1 ∈ β1,...,BN ∈ βN<br />
Dann ist β eine abzählbare Basis der Topologie τ, also ist jede offene Menge A ⊂ Ω<br />
(abzählbare) Vereinigung von Mengen in β ⊂ �<br />
i∈N Bi. Mithin ist τ ⊂ �<br />
i∈N Bi<br />
und damit B⊂ �<br />
i∈N Bi.<br />
Andererseits ist jedes Xi stetig, also messbar bezüglich B – Bi und damit B ⊃<br />
�<br />
i∈N Bi. ✷<br />
.
262 14 W-Maße auf Produkträumen<br />
Definition 14.9 (Zylindermengen). Für jedes i ∈ I sei Ei ⊂Ai ein Teilsystem der<br />
messbaren Mengen.<br />
Für jedes A ∈AJ heißt X −1<br />
(A) ⊂ Ω Zylindermenge mit Basis J. Die Menge<br />
J<br />
dieser Zylindermengen wird mit ZJ bezeichnet. Ist speziell A = ×j∈J Aj für ge-<br />
wisse Aj ∈Aj, so heißt X −1<br />
J (A) Rechteckzylinder mit Basis J. Die Menge dieser<br />
bezeichnet, die Menge aller Rechteckzylinder, für die<br />
Rechteckzylinder wird mit ZR J<br />
zusätzlich Aj ∈Ej für jedes j ∈ J gilt, mit Z E,R<br />
J .<br />
Wir schreiben<br />
Z =<br />
J⊂I endlich<br />
und definieren analog ZR und ZE,R . Ferner definieren wir<br />
und analog Z E,R<br />
∗ .<br />
Z R ∗ =<br />
∞�<br />
N=1<br />
� N�<br />
n=1<br />
�<br />
ZJ, (14.3)<br />
An : A1,...,An ∈Z R<br />
Bemerkung 14.10. Jedes ZJ ist eine σ-Algebra, und Z und Z R ∗ sind Algebren.<br />
Außerdem gilt �<br />
i∈I Ai = σ(Z). ✸<br />
Lemma 14.11. Ist jedes Ei schnittstabil, beziehungsweise ein Semiring, so ist Z E,R<br />
schnittstabil, beziehungsweise ein Semiring.<br />
Beweis. Übung! ✷<br />
Satz 14.12. Für jedes i ∈ I sei Ei ⊂Ai ein Erzeuger von Ai.<br />
(i) Für jedes endliche J ⊂ I gilt � �<br />
�<br />
Aj = σ × Ej : Ej ∈Ej .<br />
j∈J<br />
j∈J<br />
(ii) Es gilt �<br />
Ai = σ(Z R )=σ � ZE,R� .<br />
i∈I<br />
(iii) Sei μ ein σ-endliches Maß auf A, und sei jedes Ei zudem schnittstabil. Ferner<br />
gebe es eine Folge (En)n∈N in Z E,R mit En ↑ Ω und μ(En) < ∞ für jedes<br />
n ∈ N (speziell ist diese Bedingung natürlich erfüllt, wenn μ endlich ist und<br />
Ωi ∈Ei für jedes i ∈ I). Dann ist μ durch Angabe von μ(A) für jedes A ∈<br />
Z E,R eindeutig festgelegt.<br />
Beweis. (i) Sei A ′ J<br />
�<br />
= σ<br />
× j∈J<br />
× j∈J<br />
�<br />
�<br />
Ej : Ej ∈Ej für jedes j ∈ J .Esist<br />
Ej = �<br />
j∈J<br />
(X J j ) −1 (Ej) ∈AJ,
14.2 Endliche Produkte und Übergangskerne 263<br />
also A ′ J ⊂AJ. Umgekehrt gilt (X J j )−1 (Ej) ∈A ′ J für j ∈ J und Ej ∈Ej. Da<br />
Ei ein Erzeuger von Ai ist, ist (X J j )−1 (Aj) ∈A ′ J für jedes Aj ∈Aj, also gilt<br />
AJ ⊂A ′ J .<br />
(ii) Offenbar ist Z E,R ⊂Z R ⊂A, also auch σ(Z E,R ) ⊂ σ(Z R ) ⊂A. Nach<br />
Satz 1.81 gilt σ � Z E,R�<br />
{i} = σ(Xi) für jedes i ∈ I, also σ(Xi) ⊂ σ(Z E,R ) und damit<br />
AI ⊂ σ(Z E,R ).<br />
(iii) Nach (ii) und Lemma 14.11 ist Z E,R ein schnittstabiler Erzeuger von A. Die<br />
Aussage folgt daher aus Lemma 1.42. ✷<br />
Übung 14.1.1. Man zeige:<br />
�<br />
Ai =<br />
i∈I<br />
�<br />
J⊂I abzählbar<br />
ZJ. (14.4)<br />
Hinweis: Man zeige, dass die rechte Seite eine σ-Algebra ist. ♣<br />
14.2 Endliche Produkte und Übergangskerne<br />
Wir betrachten jetzt die Situation endlich vieler σ-endlicher Maßräume (Ωi, Ai,μi),<br />
i =1,...,n, wobei n ∈ N.<br />
Lemma 14.13. Sei A ∈A1 ⊗A2 und f : Ω1 × Ω2 → R eine A1 ⊗A2-messbare<br />
Abbildung. Dann gilt für jedes ˜ω1 ∈ Ω1 und ˜ω2 ∈ Ω2<br />
A˜ω1 := {ω2 ∈ Ω2 :(˜ω1,ω2) ∈ A} ∈A2,<br />
A˜ω2 := {ω1 ∈ Ω1 :(ω1, ˜ω2) ∈ A} ∈A1,<br />
f˜ω1 : Ω2 → R, ω2↦→ f(˜ω1,ω2) ist A2–messbar,<br />
f˜ω2 : Ω1 → R, ω1↦→ f(ω1, ˜ω2) ist A1–messbar.<br />
Beweis. Für ˜ω1 definiere die Einbettung i : Ω2 → Ω1×Ω2 durch i(ω2) =(˜ω1,ω2).<br />
Da X1 ◦ i konstant gleich ˜ω1 ist (also A1-messbar), und X2 ◦ i =idΩ2 (also A2messbar),<br />
ist nach Korollar 1.82 die Abbildung i messbar bezüglich A2 – (A1⊗A2).<br />
Mithin ist A˜ω1 = i−1 (A) ∈A2 und f˜ω1 = f ◦ i messbar bezüglich A2. ✷<br />
Der folgende Satz verallgemeinert Satz 1.61.
264 14 W-Maße auf Produkträumen<br />
Satz 14.14 (Endliche Produktmaße). Es existiert genau ein σ-endliches Maß μ<br />
auf A := �n i=1 Ai mit<br />
n�<br />
μ(A1 ×···×An) = μi(Ai) für Ai ∈Ai, i=1,...,n. (14.5)<br />
Wir nennen<br />
i=1<br />
n�<br />
μi := μ1 ⊗···⊗μn := μ das Produktmaß der μi.<br />
i=1<br />
Sind alle Räume gleich (Ω0, A0,μ0), so schreiben wir μ ⊗n<br />
0 := n�<br />
Beweis. Sei ˜μ auf Z R wie μ in (14.5) festgesetzt. Offenbar ist ˜μ(∅) = 0, und<br />
man überlegt sich leicht, dass ˜μ σ-endlich ist. Seien A 1 ,A 2 ,... ∈Z R paarweise<br />
disjunkt und A ∈Z R mit A ⊂ � ∞<br />
k=1 Ak . Dann ist nach dem Satz über monotone<br />
Konvergenz<br />
�<br />
˜μ(A) =<br />
�<br />
≤<br />
�<br />
μ1(dω1) ···<br />
�<br />
μ1(dω1) ···<br />
k=1<br />
i=1<br />
μ0.<br />
μn(dωn) A((ω1,...,ωn))<br />
∞�<br />
μn(dωn) Ak((ω1,...,ωn)) ∞�<br />
= ˜μ(A k ).<br />
Ist speziell A = A 1 � A 2 ,soerhält man analog ˜μ(A) =˜μ(A 1 )+˜μ(A 2 ). Mithin ist<br />
˜μ eine σ-endliche, additive, σ-subadditive Mengenfunktion auf dem Semiring Z R<br />
mit ˜μ(∅) =0. Nach dem Fortsetzungssatz (Satz 1.53) kann ˜μ in eindeutiger Weise<br />
zu einem σ-endlichen Maß fortgesetzt werden. ✷<br />
Beispiel 14.15. Für i =1,...,nsei (Ωi, Ai, Pi) ein Wahrscheinlichkeitsraum. Auf<br />
dem Raum (Ω,A, P) := � × n<br />
i=1 Ωi, �n i=1 Ai, �n i=1 Pi<br />
�<br />
sind die Koordinatenabbildungen<br />
Xi : Ω → Ωi unabhängig mit Verteilung PXi = Pi. ✸<br />
k=1
14.2 Endliche Produkte und Übergangskerne 265<br />
Satz 14.16 (Fubini). Seien (Ωi, Ai,μi) σ-endliche Maßräume, i = 1, 2, sowie<br />
f : Ω1 × Ω2 → R messbar bezüglich A1 ⊗A2.Istf≥ 0 oder f ∈L1 (μ1 ⊗ μ2),<br />
dann gelten<br />
�<br />
ω1 ↦→ f(ω1,ω2) μ2(dω2) ist A1-messbar,<br />
�<br />
(14.6)<br />
ω2 ↦→ f(ω1,ω2) μ1(dω1) ist A2-messbar,<br />
und<br />
�<br />
Ω1×Ω2<br />
�<br />
fd(μ1 ⊗ μ2) =<br />
�<br />
=<br />
Ω1<br />
Ω2<br />
��<br />
��<br />
Ω2<br />
Ω1<br />
�<br />
f(ω1,ω2) μ2(dω2) μ1(dω1)<br />
�<br />
f(ω1,ω2) μ1(dω1) μ2(dω2).<br />
(14.7)<br />
Beweis. Der Beweis folgt dem üblichen Schema der schrittweisen Approximation<br />
ausgehend von einfachen Funktionen.<br />
Sei zunächst f = A für A = A1 × A2 mit A1 ∈A1 und A2 ∈A2. Dann gelten<br />
(14.6) und (14.7) trivialerweise. Durch endliche Summenbildung gilt dies nun auch<br />
für A ∈Z R ∗ (Algebra der endlichen Vereinigungen von Rechtecken).<br />
Sei nun A ∈ A1 ⊗A2. Nach dem Approximationssatz (Satz 1.65) gibt es eine<br />
Folge von Mengen (A n )n∈N in Z R ∗ ,dieA dem Maße μ1 ⊗ μ2 nach approximieren.<br />
Da Limiten messbarer Funktionen wieder messbar sind, und nach Konstruktion die<br />
Integrale konvergieren, gelten (14.6) und (14.7) jetzt auch für f = A und A ∈<br />
A1 ⊗A2. Durch endliche Summenbildung gelten nun (14.6) und (14.7) auch für<br />
den Fall, wo f eine Elementarfunktion ist.<br />
Wir betrachten jetzt f ≥ 0. Dann existiert nach Satz 1.96 eine Folge von Elementarfunktionen<br />
(fn)n∈N mit fn ↑ f. Nach dem Satz von der monotonen Konvergenz<br />
(Satz 4.20) gelten (14.6) und (14.7) nun auch für dieses f.<br />
Ist f ∈L 1 (μ1⊗μ2),dannistf = f + −f − mit integrierbaren Funktionen f + ,f − ≥<br />
0, für die (14.6) und (14.7) gelten, also auch für f. ✷<br />
In Definition 2.32 hatten wir die Faltung zweier W-Maße μ und ν als die Verteilung<br />
der Summe zweier unabhängiger, wie μ und ν verteilter Zufallsvariablen definiert.<br />
Als eine einfache Anwendung des Satzes von Fubini wollen wir eine neue Definition<br />
geben (die natürlich mit der alten konsistent ist), die alle endlichen Maße auf dem<br />
R n umfasst. Haben diese Maße zusätzlich Dichten bezüglich des Lebesgue-Maßes,<br />
so können wir eine explizite Formel zur Berechnung der Faltung angeben.<br />
Seien also X und Y R n -wertige Zufallsvariablen mit Dichten fX und fY .Das<br />
heißt, fX,fY : R n → [0, ∞] sind messbar und integrierbar bezüglich des ndimensionalen<br />
Lebesgue-Maßes λ n , und es gilt für jedes x ∈ R n
266 14 W-Maße auf Produkträumen<br />
�<br />
P[X ≤ x] = fX(t) λ<br />
(−∞,x]<br />
n �<br />
(dt) und P[Y ≤ x] = fY (t) λ<br />
(−∞,x]<br />
n (dt).<br />
Hierbei ist (−∞,x]={y ∈ R n : yi ≤ xi für i =1,...,n} (vergleiche (1.5)).<br />
Definition 14.17. Sei n ∈ N. Für zwei Lebesgue-integrierbare Abbildungen f,g :<br />
Rn → [0, ∞] definieren wir die Faltung f ∗ g : Rn → [0, ∞] durch<br />
�<br />
(f ∗ g)(x) = f(y) g(x − y) λ n (dy).<br />
R n<br />
Für zwei endliche Maße μ, ν ∈ Mf (R n ) definieren wir die Faltung μ ∗ ν ∈<br />
Mf (R n ) durch<br />
� �<br />
(μ ∗ ν)((−∞,x]) =<br />
wobei Ax := {(u, v) ∈ R n × R n : u + v ≤ x} ist.<br />
Ax (u, v) μ(du) ν(dv),<br />
Lemma 14.18. Die Abbildung f ∗ g ist messbar, und es gelten f ∗ g = g ∗ f und<br />
�<br />
(f ∗ g) dλ n ��<br />
= fdλ n<br />
���<br />
gdλ n<br />
�<br />
.<br />
R n<br />
Ebenso gelten μ ∗ ν = ν ∗ μ und (μ ∗ ν)(R n )=μ(R n ) ν(R n ).<br />
R n<br />
Beweis. Die Aussagen folgen direkt aus dem Satz von Fubini. ✷<br />
Satz 14.19 (Faltung von n-dimensionalen Maßen).<br />
(i) Sind X und Y unabhängige R n -wertige Zufallsvariablen mit Dichten fX und<br />
fY ,sohatX + Y die Dichte fX ∗ fY .<br />
(ii) Sind μ = fλ n und ν = gλ n endliche Maße mit Dichten f und g bezüglich<br />
des Lebesgue-Maßes, so gilt μ ∗ ν =(f ∗ g)λ n .<br />
Beweis. (i) Sei x ∈ R n und A := {(u, v) ∈ R n × R n : u + v ≤ x}. Dann gilt<br />
nach mehrfacher Anwendung des Satzes von Fubini (sowie der Translationsinvarianz<br />
von λ n )<br />
R n
14.2 Endliche Produkte und Übergangskerne 267<br />
P[X + Y ≤ x] =P[(X, Y ) ∈ A]<br />
�<br />
=<br />
Rn ×Rn �<br />
=<br />
Rn ��<br />
Rn A(u, v) fX(u) λ n �<br />
(du)<br />
�<br />
=<br />
Rn �� fX(u) λ<br />
(−∞,x−v]<br />
n �<br />
(du)<br />
�<br />
=<br />
Rn �� fX(u − v) λ<br />
(−∞,x]<br />
n �<br />
(du)<br />
� ��<br />
=<br />
�<br />
=<br />
(−∞,x]<br />
A(u, v) fX(u) fY (v) (λ n ) ⊗2 (d(u, v))<br />
R n<br />
(fX ∗ fY ) dλ<br />
(−∞,x]<br />
n .<br />
fY (v) λ n (dv)<br />
fY (v) λ n (dv)<br />
fY (v) λ n (dv)<br />
fX(u − v) fY (v) λ n �<br />
(dv) λ n (du)<br />
(ii) Ersetze in (i) μ = PX und ν = PY . Die Aussage folgt unmittelbar. ✷<br />
Wir kommen zu einer Begriffsbildung, die diejenige der Produktmaße verallgemeinert<br />
und in Richtung unseres Eingangsbeispiels steuert.<br />
Wir erinnern an den Begriff des Übergangskerns aus Definition 8.24.<br />
Lemma 14.20. Sei κ ein endlicher Übergangskern von (Ω1, A1) nach (Ω2, A2),<br />
und sei f : Ω1 × Ω2 → [0, ∞] messbar bezüglich A1 ⊗A2 −B([0, ∞]). Dann ist<br />
die Abbildung<br />
If : Ω1 → [0, ∞]<br />
�<br />
ω1 ↦→ f(ω1,ω2) κ(ω1,dω2)<br />
wohldefiniert und A1–messbar.<br />
Beweis. Nach Lemma 14.13 ist für jedes ω1 ∈ Ω1 die Abbildung fω1 messbar<br />
bezüglich A2, also ist If (ω1) = � fω1 (ω2) κ(ω1,dω2) wohldefiniert. Wir müssen<br />
also nur noch die Messbarkeit von If zeigen.<br />
Ist g = A1×A2 für A1 ∈A1und A2 ∈A2, soistIg(ω1) = A1 (ω1)κ(ω1,A2)<br />
offenbar messbar. Sei nun D = � A ∈A1⊗A2 : I ist A1–messbar A � . Wir zeigen,<br />
dass D ein Dynkin-System ist:<br />
(i) Offenbar ist Ω1 × Ω2 ∈D.<br />
(ii) Sind A, B ∈Dmit A ⊂ B,soistI B\A = I B − I A messbar, wobei wir die<br />
Endlichkeit von κ ausgenutzt haben, also ist B \ A ∈D.
268 14 W-Maße auf Produkträumen<br />
(iii) Sind A1,A2,... ∈Dpaarweise disjunkt und A := �∞ n=1 An,<br />
�<br />
soistI = A<br />
∞<br />
n=1 I messbar, also A ∈D.<br />
An<br />
Nun ist D also ein Dynkin-System, das den schnittstabilen Erzeuger aller Rechteckmengen<br />
in A1 ⊗A2 enthält, also ist (nach Satz 1.19) D = A1 ⊗A2. Mithin<br />
ist I A messbar für jedes A ∈ A1 ⊗A2. Es folgt, dass Ig messbar ist für<br />
jede Elementarfunktion. Sei nun (fn)n∈N eine Folge von Elementarfunktion mit<br />
fn ↑ f.Für jedes feste ω1 ∈ Ω1 gilt nach dem Satz von der monotonen Konvergenz<br />
If (ω1) = limn→∞ Ifn (ω1), und If ist als Limes messbarer Funktionen messbar. ✷<br />
Bemerkung 14.21. Wir schreiben im Folgenden oft � κ(ω1,dω2) f(ω1,ω2) statt<br />
� f(ω1,ω2) κ(ω1,dω2), denn bei Mehrfachintegralen erlaubt diese Notation es, den<br />
Integrator näher an das betreffende Integralzeichen heran zu rücken. ✸<br />
Satz 14.22. Seien (Ωi, Ai), i = 0, 1, 2, Messräume und κ1 ein endlicher Übergangskern<br />
von (Ω0, A0) nach (Ω1, A1) sowie κ2 ein endlicher Übergangskern von<br />
(Ω0 × Ω1, A0 ⊗A1) nach (Ω2, A2). Dann ist die Abbildung<br />
κ1 ⊗ κ2 : Ω0 × (A1 ⊗A2) → [0, ∞)<br />
�<br />
�<br />
(ω0,A) ↦→ κ1(ω0,dω1)<br />
Ω1<br />
Ω2<br />
κ2((ω0,ω1),dω2) A((ω1,ω2))<br />
wohldefiniert und ist ein σ-endlicher (aber nicht notwendig endlicher) Übergangskern<br />
von (Ω0, A0) nach (Ω1 × Ω2, A1 ⊗A2). Sindκ1 und κ2 (sub-)stochastisch,<br />
so ist κ1 ⊗ κ2 (sub-)stochastisch. Wir nennen κ1 ⊗ κ2 das Produkt von κ1 und κ2.<br />
Ist κ2 ein Kern von (Ω1, A1) nach (Ω2, A2), sodefinieren wir das Produkt κ1 ⊗<br />
κ2 analog, indem wir κ2 einfach formal als Kern von (Ω0 × Ω1, A0 ⊗A1) nach<br />
(Ω2, A2) auffassen, der nicht von der Ω0-Koordinate abhängt.<br />
Beweis. Sei A ∈A1⊗A2. Die Abbildung<br />
�<br />
gA :(ω0,ω1) ↦→ κ2((ω0,ω1),dω2) A(ω1,ω2)<br />
ist nach Lemma 14.20 wohldefiniert und messbar bezüglich A0 ⊗A1. Daher ist,<br />
wiederum nach Lemma 14.20, die Abbildung<br />
�<br />
ω0 ↦→ κ1 ⊗ κ2(ω0,A)= κ1(ω0,dω1) gA(ω0,ω1)<br />
wohldefiniert und A0-messbar. Für festes ω0 ist nach dem Satz über monotone Konvergenz<br />
die Abbildung A ↦→ κ1 ⊗ κ2(ω0,A) σ-additiv, also ein Maß.<br />
Für ω0 ∈ Ω0 und n ∈ N sei Aω0,n := {ω1 ∈ Ω1 : κ2((ω0,ω1),Ω2) < n}.<br />
Da κ2 endlich ist, gilt �<br />
n≥1 Aω0,n = Ω1 für jedes ω0 ∈ Ω0, und es gilt κ1 ⊗<br />
κ2(ω0,An × Ω2) ≤ n · κ1(ω0,An) < ∞. Alsoistκ1 ⊗ κ(ω0, · ) σ-endlich und<br />
damit ein Übergangskern.<br />
Der Zusatz ist trivial. ✷
14.2 Endliche Produkte und Übergangskerne 269<br />
Korollar 14.23 (Produkte mit Kernen). Sei (Ω1, A1,μ) ein endlicher Maßraum,<br />
(Ω2, A2) ein Messraum und κ ein endlicher Übergangskern von Ω1 nach Ω2.<br />
Dann existiert ein eindeutig bestimmtes, σ-endliches Maß μ ⊗ κ auf (Ω1 ×<br />
Ω2, A1 ⊗A2) mit<br />
�<br />
μ ⊗ κ(A1 × A2) = κ(ω1,A2) μ(dω1) für alle A1 ∈A1, A2∈A2. A1<br />
Ist κ stochastisch und μ ein W-Maß, so ist μ ⊗ κ ein W-Maß.<br />
Beweis. Wende Satz 14.22 an mit κ2 = κ und κ1(ω0, · )=μ. ✷<br />
Korollar 14.24. Seien n ∈ N und (Ωi, Ai), i =0,...,n, Messräume. Für i =<br />
� �<br />
i−1 i−1 �<br />
1,...,nsei κi ein substochastischer Kern von × Ωk, Ak nach (Ωi, Ai)<br />
k=0 k=0<br />
oder von (Ωi−1, Ai−1) nach (Ωi, Ai). Dann definiert die Rekursion κ1 ⊗ ··· ⊗<br />
κi := (κ1 ⊗···⊗κi−1) ⊗ κi für jedes i =1,...,neinen substochastischen Kern<br />
i�<br />
� i<br />
i�<br />
�<br />
κk := κ1 ⊗ ··· ⊗ κi von (Ω0, A0) nach × Ωk, Ak . Sind alle κi<br />
k=1<br />
k=1 k=0<br />
i�<br />
stochastisch, so ist jedes κk stochastisch.<br />
k=1<br />
Ist μ ein endliches Maß auf (Ω0, A0), soistμi := μ ⊗ i�<br />
κk ein endliches Maß<br />
k=1<br />
� i i�<br />
�<br />
auf × Ωk, Ak .Istμein W-Maß und jedes κi stochastisch, so ist μi ein<br />
k=0 k=0<br />
Wahrscheinlichkeitsmaß.<br />
Beweis. Die Aussagen folgen per Induktion aus Satz 14.22. ✷<br />
Definition 14.25 (Verkettung von Kernen). Seien (Ωi, Ai) Messräume, i =0, 1, 2,<br />
und κi ein substochastischer Kern von (Ωi−1, Ai−1) nach (Ωi, Ai), i =1, 2. Wir<br />
definieren die Verkettung von κ1 und κ2 durch<br />
κ1 · κ2 : Ω0 ×A2 → [0, ∞)<br />
�<br />
(ω0,A2) ↦→ κ1(ω0,dω1) κ2(ω1,A2).<br />
Ω1<br />
Satz 14.26. Bezeichnen wir mit π2 : Ω1 × Ω2 → Ω2 die Projektion auf die zweite<br />
Koordinate, so ist<br />
(κ1 · κ2)(ω0,A2) =(κ1⊗ κ2) � ω0,π −1 �<br />
2 (A2) für jedes A2 ∈A2.<br />
Speziell ist die Verkettung κ1 · κ2 ein (sub-)stochastischer Kern von (Ω0, A0) nach<br />
(Ω2, A2).
270 14 W-Maße auf Produkträumen<br />
Beweis. Klar. ✷<br />
Lemma 14.27 (Kerne und Faltung). Seien μ und ν W-Maße auf R d und die Kerne<br />
κi :(R d , B(R d )) → (R d , B(R d )), i =1, 2, definiert durch κ1(x, dy) =μ(dy)<br />
sowie κ2(y, dz) =(δy ∗ ν)(dz). Dann ist κ1 · κ2 = μ ∗ ν.<br />
Beweis. Das ist trivial. ✷<br />
Satz 14.28 (Kerne und Faltung). Seien X1,X2,... unabhängige Rd-wertige Zufallsvariablen<br />
mit Verteilungen μi := Pi, i =1,...,n. Setze Sk := X1 + ...+<br />
Xk für k = 1,...,n und definiere stochastische Kerne von Rd nach Rd durch<br />
κk(x, · )=δx ∗ μk für k =1,...,n. Dann gilt<br />
�<br />
n�<br />
�<br />
(0, · )=P (S1,...,Sn). (14.8)<br />
k=1<br />
κk<br />
Beweis. Für k =1,...,n definiere die messbare Bijektion ϕk :(R d ) k → (R d ) k<br />
durch<br />
ϕk(x1,...,xk) =(x1,x1 + x2,...,x1 + ...+ xk).<br />
Offenbar ist B((Rd ) n �<br />
)=σ ϕn(A1 ×···×An) : A1,...,An ∈B(Rd ) � . Es reicht<br />
also (14.8) für Mengen von diesem Typ nachzuweisen, also zu zeigen, dass<br />
�<br />
�n<br />
�<br />
n�<br />
(0,ϕk(A1×···×An)) = P (S1,...,Sn)(ϕn(A1×···×An)) = μk(Ak).<br />
κk<br />
k=1<br />
Für n =1ist die Aussage klar. Per Definition ist κn(yn−1,yn−1 + An) =μn(An).<br />
Induktiv folgt<br />
�<br />
�n<br />
�<br />
(0,ϕn(A1 ×···×An))<br />
κk<br />
k=1<br />
�<br />
=<br />
=<br />
ϕn−1(A1×···×An−1)<br />
� n−1<br />
�<br />
k=1<br />
� n−1<br />
�<br />
k=1<br />
κk<br />
k=1<br />
�<br />
�0,d(y1,...,yk−1) � � �<br />
κn yn−1,yn−1 + An<br />
�<br />
μk(Ak) μn(An). ✷<br />
Satz 14.29 (Fubini für Übergangskerne). Seien (Ωi, Ai) Messräume, i =1, 2, μ<br />
ein endliches Maß auf (Ω1, A1), κ ein endlicher Übergangskern von Ω1 nach Ω2<br />
sowie f : Ω1×Ω2 → R messbar bezüglich A1⊗A2.Istf ≥ 0 oder f ∈L 1 (μ⊗κ),<br />
dann gilt<br />
�<br />
Ω1×Ω2<br />
�<br />
fd(μ⊗ κ) =<br />
Ω1<br />
��<br />
Ω2<br />
�<br />
f(ω1,ω2) κ(ω1,dω2) μ1(dω1). (14.9)
14.2 Endliche Produkte und Übergangskerne 271<br />
Beweis. Für f = A1×A2 mit A1 ∈ A1 und A2 ∈ A2 gilt die Aussage per<br />
Definition. Für allgemeine f verwenden wir die Approximationsargumente wie in<br />
Satz 14.16. ✷<br />
Beispiel 14.30. Wir kommen auf das Beispiel vom Anfang des Kapitels zurück. Sei<br />
n ∈ N und (Ω2, A2) = � {0, 1} n , (2 {0,1} ) ⊗n� der Raum des n-fachen Münzwurfs.<br />
Für jedes p ∈ [0, 1] definieren wir<br />
Pp =(Berp) ⊗n = � �⊗n. (1 − p)δ0 + pδ1<br />
Pp ist dasjenige W-Maß auf (Ω2, A2), mit dem die Koordinatenabbildungen Yi unabhängige<br />
Bernoulli-Zufallsvariablen mit Erfolgswahrscheinlichkeit p sind.<br />
Ferner sei Ω1 =[0, 1] und A1 = B([0, 1]) die Borel’sche σ-Algebra auf Ω1, sowie<br />
μ = U [0,1] die Gleichverteilung auf [0, 1]. Die identische Abbildung X : Ω1 →<br />
[0, 1], ist dann eine uniform auf [0, 1] verteilte Zufallsvariable auf (Ω1, A1,μ).<br />
Schließlich betrachten wir den stochastischen Kern von Ω1 nach Ω2<br />
κ(ω1, · )=Pω1 .<br />
Setzen wir Ω = Ω1 × Ω2, A = A1 ⊗A2 und P = μ ⊗ κ, dann beschreiben X und<br />
Y1,...,Yn genau die Zufallsvariablen auf (Ω,A, P) aus dem Beispiel am Anfang<br />
des Kapitels. ✸<br />
Bemerkung 14.31. Das Verfahren lässt sich natürlich für n-stufige Experimente<br />
erweitern. Sei (Ωi, Ai) der Messraum des i-ten Experiments, i = 0,...,n −<br />
1. SeiP0 ein W-Maß auf (Ω0, A0). Für i = 1,...,n − 1 sei die Verteilung<br />
auf (Ωi, Ai) abhängig von (ω1,...,ωi−1) und gegeben durch einen stochastischen<br />
Kern κi von Ω0 × ··· × Ωi−1 nach Ωi. Das gesamte n-stufige Experi-<br />
ment wird dann durch die Koordinatenabbildungen in dem Wahrscheinlichkeitsraum<br />
Ωi, n−1 �<br />
Ai, P0 ⊗ n−1<br />
�<br />
�<br />
beschrieben. ✸<br />
� n−1<br />
×<br />
i=0<br />
i=0<br />
κi<br />
i=1<br />
Übung 14.2.1. Man zeige die Faltungsformeln:<br />
(i) Normalverteilung: N μ1,σ 2 1 ∗N μ2,σ 2 2 = N μ1+μ2,σ 2 1 +σ 2 2 für alle μ1,μ2 ∈ R und<br />
σ 2 1,σ 2 2 > 0.<br />
(ii) Gamma-Verteilung: Γθ,r ∗ Γθ,s = Γθ,r+s für alle θ, r, s > 0.<br />
(iii) Cauchy-Verteilung: Caur ∗ Caus =Caur+sfür alle r, s > 0. ♣<br />
Übung 14.2.2 (Hilbert-Schmidt Operator). Seien (Ωi, Ai,μi), i = 1, 2, σendliche<br />
Maßräume und a : Ω1 × Ω2 → R messbar mit<br />
� �<br />
μ1(dt1) μ2(dt2) a(t1,t2) 2 < ∞.
272 14 W-Maße auf Produkträumen<br />
Für f ∈L2 (μ1) definiere<br />
�<br />
(Af)(t2) = a(t1,t2)f(t1) μ1(dt1).<br />
Zeige: A ist ein stetiger linearer Operator von L 2 (μ1) nach L 2 (μ2). ♣<br />
Übung 14.2.3 (Partielle Integration). Seien Fμ und Fν die Verteilungsfunktionen<br />
der lokal endlichen Maße μ und ν auf R.Für x ∈ R definieren wir den linksseitigen<br />
Grenzwert F (x−) =supy
14.3 Satz von Ionescu-Tulcea und Projektive Familien 273<br />
Satz 14.32 (Ionescu-Tulcea). Es gibt ein eindeutig bestimmtes W-Maß auf (Ω,A),<br />
sodass (14.11) gilt.<br />
Beweis. Die Eindeutigkeit ist klar, weil die endlichdimensionalen Rechteckzylinder<br />
einen schnittstabilen Erzeuger von A bilden. Es bleibt die Existenz zu zeigen.<br />
Wir definieren eine Mengenfunktion P auf den Zylindermengen Z durch (14.11).<br />
Offenbar ist P additiv, also ein Inhalt. Ist P nun aber ∅-stetig, so ist P nach Satz 1.36<br />
ein Prämaß und lässt sich nach dem Satz von Carathéodory (Satz 1.41) eindeutig zu<br />
einem Maß auf A fortsetzen.<br />
Sei also A0 ⊃ A1 ⊃ A2 ⊃ ...eine Folge in Z mit α := infn∈N0 P (An) > 0. Es<br />
reicht zu zeigen, dass �∞ n=0 An �= ∅. Ohne Einschränkung können wir annehmen,<br />
dass An = A ′ n × × ∞<br />
k=n+1 Ωk für gewisses A ′ n ∈An .Für n ≥ m setze<br />
hm,n(ω0,...,ωm) :=<br />
� n�<br />
k=m+1<br />
κk<br />
�<br />
�(ω0,...,ωm),A ′ �<br />
n<br />
und hm := infn≥m hm,n. Wir zeigen induktiv, dass es ϱi ∈ Ωi, i ∈ N0, gibt mit<br />
Wegen A ′ n+1 ⊂ A ′ n × Ωn+1 gilt<br />
hm,n+1(ω0,...,ωm) =<br />
≤<br />
=<br />
� n+1<br />
�<br />
hm(ϱ0,...,ϱm) ≥ α. (14.12)<br />
k=m+1<br />
� n+1<br />
�<br />
k=m+1<br />
� n�<br />
k=m+1<br />
κk<br />
κk<br />
κk<br />
�<br />
�(ω0,...,ωm),A ′ �<br />
n+1<br />
�<br />
�(ω0,...,ωm),A ′ �<br />
n × Ωn+1<br />
�<br />
�(ω0,...,ωm),A ′ �<br />
n = hm,n(ω0,...,ωm).<br />
Also gilt hm,n ↓ hm für n →∞und nach dem Satz von der monotonen Konvergenz<br />
�<br />
�<br />
hm dPm = inf<br />
n≥m<br />
hm,n dPm =inf<br />
n∈N Pn(A ′ n)=α.<br />
Daher gilt (14.12) für m =0. Gelte nun (14.12) für ein m ∈ N0. Dannist<br />
�<br />
� �<br />
hm+1(ϱ0,...,ϱm,ωm+1) κm+1 (ϱ0,...,ϱm),dωm+1<br />
�<br />
� �<br />
= inf hm+1,n(ϱ0,...,ϱm,ωm+1) κm+1 (ϱ0,...,ϱm),dωm+1<br />
n≥m+1<br />
= hm(ϱ0,...,ϱm) ≥ α.<br />
Es folgt (14.12) für m +1.<br />
Sei ϱ := (ϱ0,ϱ1,...) ∈ Ω. Nach Konstruktion ist α ≤ hm,m(ϱ0,...,ϱm) =<br />
A ′ m (ϱ0,...,ϱm), also ϱ ∈ Am für jedes m ∈ N und damit � ∞<br />
i=0 Ai �= ∅. ✷
274 14 W-Maße auf Produkträumen<br />
Korollar 14.33 (Produktmaß). Für jedes n ∈ N0 sei Pn ein W-Maß auf (Ωn, An).<br />
Dann existiert ein eindeutig bestimmtes W-Maß P auf (Ω,A) mit<br />
�<br />
�<br />
n�<br />
P A0 ×···×An × = Pk(Ak)<br />
∞<br />
× Ωi<br />
i=n+1<br />
für Ai ∈Ai, i =0,...,nund n ∈ N0.<br />
Wir nennen �∞ i=0 Pi := P das Produkt der Maße P0,P1,... Unter P sind die<br />
Koordinatenabbildungen (Xi)i∈N0 unabhängig.<br />
Beweis. Wende den Satz von Ionescu-Tulcea mit κi((ω0,...,ωi−1), · )=Pi an.✷<br />
Wir wollen nun eine dem Satz von Ionescu-Tulcea vergleichbare Aussage treffen,<br />
dabei jedoch auf die Annahme verzichten, dass die Maße Pk auf A k a priori durch<br />
Kerne definiert werden. Bevor wir den Satz formulieren, wollen wir die Konsistenzbedingung<br />
(14.10) verallgemeinern. (Erinnerung: für L ⊂ J ⊂ I bezeichnet<br />
X J L : ΩJ −→ ΩL die Projektion.)<br />
Definition 14.34. Eine Familie (PJ, J⊂ I endlich) von W -Maßen auf (ΩJ, AJ)<br />
heißt projektive Familie, falls für alle endlichen L ⊂ J ⊂ I gilt<br />
Ist P ein W-Maß auf (Ω,A), wobei<br />
Ω =× i∈I<br />
PL = PJ ◦ � X J�−1 L .<br />
k=0<br />
Ωi und A = �<br />
Ai,<br />
,J ⊂ I endlich) projektiv.<br />
Projektivität ist also eine notwendige Bedingung für die Existenz des Maßes<br />
P auf dem Produktraum. Sind alle beteiligten Messräume Borel’sche Räume (siehe<br />
Definition 8.34) – also beispielsweise Rd , Zd , C([0, 1]) oder allgemeiner polnische<br />
Räume –, so ist diese Bedingung auch ausreichend. Wir formulieren diese Aussage<br />
zunächst für abzählbare Indexmengen.<br />
so ist wegen XL = XJ L ◦ XJ, die Familie (PJ := P ◦ X −1<br />
J<br />
Satz 14.35. Sei I höchstens abzählbar, und seien (Ωi, Ai) Borel’sche Messräume,<br />
i ∈ I. Sei(PJ, J⊂ I endlich) eine projektive Familie von W-Maßen. Dann gibt<br />
es ein eindeutig bestimmtes W-Maß P auf (Ω,A) mit PJ = P ◦ X −1<br />
J für jedes<br />
endliche J ⊂ I.<br />
Beweis. Ohne Einschränkung sei I = N0 und Pn := P {0,...,n}. Manprüft leicht<br />
nach, dass endliche Produkte von Borel’schen Räumen wieder Borel’sche Räume<br />
sind, also ist (Ω {0,...,n}, A {0,...,n}) Borel’sch für jedes n ∈ N0.<br />
i∈I
14.3 Satz von Ionescu-Tulcea und Projektive Familien 275<br />
Sei Ãn := {A × Ωn+1 : A ∈A {0,...,n}} und das W-Maß ˜ Pn auf (Ω {0,...,n+1}, Ãn )<br />
definiert durch ˜ Pn(A×Ωn+1) =Pn(A) für A ∈A {0,...,n}. Die Projektivität liefert,<br />
�<br />
dass Pn+1�<br />
n<br />
à = ˜ Pn. Nach dem Satz über die Existenz regulärer bedingter Vertei-<br />
lungen (Satz 8.36) existiert ein stochastischer Kern κ ′ n+1 von (Ω {0,...,n+1}, Ãn )<br />
nach (Ωn+1, An+1) mit<br />
Pn+1(A)<br />
��<br />
= A(ω0,...,ωn, ˜ωn+1) κ ′ n+1((ω0,...,ωn+1),d˜ωn+1) ˜ Pn(d(ω0,...,ωn+1))<br />
für jedes A ∈A {0,...,n+1}. Daκ ′ n+1( · ,A) messbar ist bezüglich Ãn ,hängt κ ′ n+1<br />
nicht von ωn+1 ab. Durch<br />
κn+1((ω0,...,ωn), · ):=κ ′ n+1((ω0,...,ωn+1), · )<br />
wird also ein stochastischer Kern von (Ω {0,...,n}, A {0,...,n}) nach (Ωn+1, An+1)<br />
definiert mit<br />
��<br />
Pn+1(A)=<br />
A(ω0,...,ωn+1) κn+1((ω0,...,ωn),dωn+1) Pn(d(ω0,...,ωn)).<br />
Mithin gilt Pn+1 = Pn ⊗ κn+1, und wir können Satz 14.32 anwenden. ✷<br />
Als letzten Schritt in unserer Konstruktion wollen wir in Satz 14.35 die abzählbare<br />
Indexmenge durch eine beliebige Indexmenge ersetzen.<br />
Satz 14.36 (Kolmogorov’scher Erweiterungssatz). Sei I eine beliebige Indexmenge,<br />
und seien (Ωi, Ai) Borel’sche Messräume, i ∈ I.Sei(PJ, J⊂ I endlich)<br />
eine projektive Familie von W-Maßen. Dann gibt es ein eindeutig bestimmtes W-<br />
Maß P auf (Ω,A) mit PJ = P ◦ X −1<br />
J . Wir nennen P den projektiven Limes und<br />
PJ.<br />
bezeichnen ihn in Formeln mit P =: lim<br />
←−<br />
J↑I<br />
Beweis. Für abzählbares J ⊂ I gibt es nach Satz 14.35 ein eindeutig bestimmtes<br />
Maß PJ auf (ΩJ, AJ) mit PJ ◦ (X J K )−1 = PK für endliches K ⊂ J. Durch<br />
˜PJ(X −1<br />
J (AJ)) := PJ(AJ), AJ ∈AJ, wird hieraus ein Maß auf (Ω,σ(XJ)).<br />
Seien J, J ′ ⊂ I höchstens abzählbar und A ∈ σ(XJ) ∩ σ(XJ ′) ∩Zein σ(XJ) ∩<br />
σ(XJ ′)-messbarer Zylinder mit endlicher Basis. Dann existiert ein endliches K ⊂<br />
J ∩ J ′ und AK ∈AK mit A = X −1<br />
K (AK).Alsoist˜ PJ(A) =PK(AK) = ˜ PJ ′(A).<br />
Nach Satz 14.12 ist dann aber auch ˜ PJ(A) =PK(AK) = ˜ PJ ′(A) für alle A ∈<br />
σ(XJ) ∩ σ(XJ ′). Nun gibt es (nach Übung 14.1.1) für jedes A ∈Aein abzählbares<br />
J ⊂ I mit A ∈ σ(XJ), also können wir auf eindeutige Weise (und unabhängig von<br />
der Wahl von J) eine Mengenfunktion P auf A definieren durch P (A) = ˜ PJ(A).Es<br />
bleibt zu zeigen, dass P ein W-Maß ist. Offenbar ist P (Ω) =1.SindA1,A2,...∈
276 14 W-Maße auf Produkträumen<br />
A paarweise disjunkt und A := �∞ n=1 An, sogibtesabzählbare Jn ⊂ I mit An �<br />
∈<br />
σ(XJn ) für n ∈ N. Setze J = n∈N Jn. Dann ist jedes An in σ(XJ) und damit<br />
auch A ∈ σ(XJ), also<br />
P (A) = ˜ ∞�<br />
∞�<br />
PJ(A) = ˜PJ(An) = P (An).<br />
n=1<br />
Damit ist P als W-Maß erkannt. ✷<br />
Beispiel 14.37. Sei � (Ωi,τi), i∈ I � eine beliebige Familie von polnischen Räumen<br />
(Erinnerung: nach Satz 8.35 sind polnische Räume auch Borel’sche Räume),<br />
Ai = σ(τi) und Pi ein beliebiges W-Maß auf (Ωi, Ai). Für endliches J ⊂ I sei<br />
PJ = �<br />
j∈J Pj das Produktmaß der Pj, j ∈ J. Offenbar ist die Familie (PJ, J⊂ I<br />
endlich) projektiv. Wir nennen<br />
P = �<br />
i∈I<br />
Pi := lim PJ<br />
←−<br />
J↑I<br />
das Produktmaß auf (Ω,A). Unter P sind alle Projektionen Xj unabhängig. ✸<br />
Beispiel 14.38. (Pólya’sches Urnenmodell) (Vergleiche Beispiel 12.29.) Zunächst<br />
befinden sich k rote und n − k blaue Kugeln in einer Urne. Es wird in jedem Zeitschritt<br />
eine Kugel gezogen und zusammen mit einer weiteren Kugel der selben Farbe<br />
zurückgelegt. Zur Zeit i ∈ N0 befinden sich also n + i Kugeln in der Urne, wobei<br />
die Anzahl Xi der roten Kugeln zufällig ist.<br />
Formal definieren wir das Modell so: Sei n ∈ N und k ∈ {0,...,n}. Sei<br />
I = N0,Ωi = {0,...,n + i}, i ∈ N. Setze P0[{k}] = 1 und definiere die<br />
stochastischen Kerne κi von Ωi nach Ωi+1 durch<br />
n=1<br />
⎧<br />
⎪⎨<br />
xi<br />
n+i<br />
κi(xi, {xi+1}) =<br />
⎪⎩<br />
, falls xi+1 = xi +1,<br />
1 − xi<br />
n+i , falls xi+1<br />
0,<br />
= xi,<br />
sonst.<br />
Setze nun Pi+1 = Pi ⊗ κi. Unter dem Maß P = lim<br />
←−<br />
Pi beschreiben die Projek-<br />
i→∞<br />
tionen (Xi, i∈ N0) gerade das Pólya’sche Urnenmodell. ✸<br />
14.4 Markov’sche Halbgruppen<br />
Definition 14.39. Sei E ein polnischer Raum. Sei I ⊂ R eine nichtleere Indexmenge<br />
und (κs,t : s, t ∈ I,s
14.4 Markov’sche Halbgruppen 277<br />
Definition 14.40. Sei E ein polnischer Raum. Sei I ⊂ [0, ∞) eine Halbgruppe<br />
(zum Beispiel I = N0 oder I = [0, ∞)). Eine Familie (κt : t ∈ I) von stochastischen<br />
Kernen heißt eine Halbgruppe von stochastischen Kernen, oder Markov’sche<br />
Halbgruppe, falls sie die Chapman-Kolmogorov’sche Gleichung erfüllt:<br />
κs · κt = κs+t für alle s, t ∈ I. (14.13)<br />
Tatsächlich ist ({κt : t ∈ I}, · ) eine Halbgruppe im algebraischen Sinne, und die<br />
Abbildung t → κt ist ein Halbgruppenhomomorphismus. Insbesondere kommutieren<br />
die Kerne in dem Sinne, dass κs · κt = κt · κs für alle s, t ∈ I.<br />
Lemma 14.41. Ist (κt : t ∈ I) eine Markov’sche Halbgruppe, so ist die für t>s<br />
durch ˜κs,t := κt−s definierte Familie von Kernen konsistent.<br />
Beweis. Das ist trivial. ✷<br />
Satz 14.42 (Kern durch konsistente Familie von Kernen). Sei I ⊂ [0, ∞) mit<br />
0 ∈ I und (κs,t : s, t ∈ I,s
278 14 W-Maße auf Produkträumen<br />
�<br />
n�<br />
fi(ωi) =<br />
k=l<br />
κjk,jk+1<br />
�<br />
(ωi,Aji+1<br />
Nach Voraussetzung (und dem Satz von Fubini) ist<br />
�<br />
�<br />
fl−1(ωl−1) =<br />
�<br />
=<br />
κjl−1,jl<br />
E<br />
(ωl−1,dωl)<br />
Al+1<br />
Es folgt<br />
PJ◦(X J L) −1 �<br />
(A) =<br />
A ′<br />
�<br />
= P ′ �<br />
(d(ω0,...,ωl−1))<br />
A ′<br />
= PL(A).<br />
Al+1<br />
×···×Ajn ).<br />
κjl−1,jl+1 (ωl−1,dωl+1) fl+1(ωl+1).<br />
P ′ (d(ω0,...,ωl−1)) fl+1(ωl+1)<br />
Aj l+1<br />
κjl,jl+1 (ωl,dωl+1) fl+1(ωl+1)<br />
(κjl−1,jl+1 )(ωl−1,dωl+1) f(ωl+1)<br />
Wir müssen nun noch zeigen, dass κ ein stochastischer Kern ist, also dass x ↦→<br />
κ(x, A) messbar ist bezüglich B(E) – B(E) ⊗I . Nach Bemerkung 8.25 reicht es<br />
aus, dies für Rechteckmengen mit endlicher Basis A ∈Z R zu prüfen, denn Z R ist<br />
ein schnittstabiler Erzeuger von B(E) ⊗I . Seien also 0=t0
14.4 Markov’sche Halbgruppen 279<br />
Korollar 14.44 (Maße durch Markov’sche Halbgruppen). Sei (κt : t ∈ I) eine<br />
Markov’sche Halbgruppe auf dem polnischen Raum E. Dann existiert genau ein<br />
stochastischer Kern κ von (E,B(E)) nach (E I , B(E) ⊗I ) mit der Eigenschaft:<br />
Für jedes x ∈ E und je endlich viele Zahlen 0=t0
280 14 W-Maße auf Produkträumen<br />
Familie von Verteilungen (νt, t ≥ 0) mit der Eigenschaft νt+s = νt ∗ νs ersetzen.<br />
Dies gilt speziell für die Familie der Gammaverteilungen νt = Γθ,t (für festes<br />
θ>0), die Poissonverteilung νt =Poit, die negative Binomialverteilung νt = b − t,p<br />
(für festes p ∈ (0, 1]), die Cauchy-Verteilung νt =Caut und andere (vergleiche<br />
Satz 15.12 und Korollar 15.13). Wir halten dieses Ergebnis in einem Satz fest.<br />
Definition 14.46 (Faltungshalbgruppe). Sei I ⊂ [0, ∞) eine Halbgruppe. Eine<br />
Familie ν =(νt : t ∈ I) von Wahrscheinlichkeitsverteilungen auf Rd heißt Faltungshalbgruppe,<br />
falls νs+t = νs ∗ νt gilt für alle s, t ∈ I.<br />
t→0<br />
Ist I =[0, ∞) und gilt zudem νt −→ δ0, so heißt die Faltungshalbgruppe stetig<br />
(im Sinne der schwachen Konvergenz).<br />
Ist d = 1 und νt((−∞, 0)) = 0 für jedes t ∈ I, soheißtνeine nichtnegative<br />
Faltungshalbgruppe.<br />
Für den folgenden Satz vergleiche Definition 9.7.<br />
Satz 14.47. Zu jeder Faltungshalbgruppe (νt : t ∈ I) und jedem x ∈ R d existiert<br />
ein W-Maß Px auf dem Produktraum (Ω,A) = � (R d ) I , B(R d ) ⊗I� , sodass der<br />
kanonische Prozess (Xt)t∈I ein stochastischer Prozess mit Px[X0 = x] =1und<br />
stationären unabhängigen Zuwächsen ist mit Px ◦ (Xt − Xs) −1 = νt−s für t><br />
s. Umgekehrt definiert jeder stochastische Prozess (Xt)t∈I (auf einem beliebigen<br />
Wahrscheinlichkeitsraum (Ω,A, P)) mit stationären unabhängigen Zuwächsen eine<br />
Faltungshalbgruppe durch νt = P ◦ (Xt − X0) −1 für jedes t ∈ I.<br />
Übung 14.4.1. Sei (νt : t ≥ 0) eine stetige Faltungshalbgruppe. Man zeige: Für<br />
jedes t>0 gilt νt = lims→t νs. ♣<br />
Übung 14.4.2. Sei (νt : t ≥ 0) eine Faltungshalbgruppe. Man zeige: Für νt/n n→∞<br />
−→<br />
δ0. ♣<br />
Übung 14.4.3. Man zeige: Eine nichtnegative Faltungshalbgruppe ist stetig. ♣<br />
Übung 14.4.4. Man zeige: Eine stetige, reelle Faltungshalbgruppe (νt : t ≥ 0) mit<br />
νt((−∞, 0)) = 0 für ein t>0 ist nichtnegativ. ♣
15 Charakteristische Funktion und Zentraler<br />
Grenzwertsatz<br />
Hauptziel dieses Abschnitts ist der Zentrale Grenzwertsatz für Summen unabhängiger<br />
Zufallsvariablen (Satz 15.37) und für unabhängige Schemata (Satz von<br />
Lindeberg-Feller, Satz 15.43), wobei wir für den letzteren nur die eine Richtung<br />
beweisen (Satz von Lindeberg).<br />
Das Hilfsmittel der Wahl für die Behandlung von Zentralen Grenzwertsätzen sind<br />
charakteristische Funktionen, also Fouriertransformierte von W-Maßen. Wir beginnen<br />
mit einer sehr allgemeinen Betrachtung über Klassen von Testfunktionen, die<br />
schwache Konvergenz charakterisieren können, und betrachten dann Fouriertransformierte<br />
im Detail. Der nachfolgende Abschnitt beweist mit Hilfe von charakteristischen<br />
Funktionen den Zentralen Grenzwertsatz für reelle Zufallsvariablen. Im<br />
fünften Abschnitt zeigen wir den mehrdimensionalen Zentralen Grenzwertsatz.<br />
15.1 Trennende Funktionenklassen<br />
Sei (E,d) ein metrischer Raum mit Borel’scher σ-Algebra E = B(E).<br />
Mit C = {u + iv : u, v ∈ R} bezeichnen wir den Körper der komplexen Zahlen.<br />
Mit Re(u + iv) =u und Im(u + iv) =v bezeichnen wir den Realteil und den<br />
Imaginärteil von z = u + iv ∈ C, mit z = u − iv die zu z komplex konjugierte Zahl<br />
und mit |z| = √ u2 + v2 den Betrag von z. Von prominenter Bedeutung wird für<br />
uns die komplexe Exponentialfunktion exp : C → C sein, die wir durch exp(z) =<br />
exp(u) � cos(v)+i sin(v) � oder durch die Potenzreihe exp(z) = �∞ n=0 zn /n! definieren<br />
können. Bekanntlich gilt exp(z1 + z2) =exp(z1) · exp(z2). Man beachte,<br />
dass aus Re(z) =(z + z)/2 und Im(z) =(z− z)/2i folgt, dass<br />
cos(x) = eix + e −ix<br />
2<br />
und sin(x) = eix − e −ix<br />
2i<br />
für jedes x ∈ R.<br />
Eine Abbildung f : E → C ist genau dann messbar, wenn Re(f) und Im(f)<br />
messbar sind (siehe Satz 1.90 mit C ∼ = R2 ). Insbesondere ist jede stetige Funktion<br />
E → C messbar. Ist μ ∈M(E), sodefinieren wir<br />
� �<br />
�<br />
fdμ:= Re(f) dμ + i Im(f) dμ,
282 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
wenn beide Integrale existieren und endlich sind. Mit Cb(E; C) bezeichnen wir den<br />
Banachraum der stetigen, beschränkten, komplexwertigen Funktionen auf E, ausgestattet<br />
mit der Supremumsnorm �f�∞ =sup{|f(x)| : x ∈ E}. Wir nennen<br />
C⊂Cb(E; C) trennend für Mf (E), falls es für je zwei Maße μ, ν ∈Mf (E) mit<br />
μ �= ν ein f ∈Cgibt mit � fdμ �= � fdν. Satz 13.34 gilt für C ⊂ Cb(E; C)<br />
sinngemäß.<br />
Definition 15.1. Sei K = R oder K = C. Eine Teilmenge C ⊂ Cb(E; K) heißt<br />
Algebra, falls<br />
(i) 1 ∈C,<br />
(ii) für f,g ∈Csind f · g ∈Cund f + g ∈C,<br />
(iii) für f ∈Cund α ∈ K ist (αf) ∈C.<br />
C heißt Punkte trennend, falls es zu je zwei Punkten x, y ∈ E mit x �= y ein f ∈C<br />
gibt mit f(x) �= f(y).<br />
Satz 15.2 (Stone-Weierstraß). Sei E ein kompakter Hausdorffraum. Sei K = R<br />
oder K = C. SeiC⊂Cb(E; K) eine Punkte trennende Algebra. Ist K = C, sosei<br />
C zusätzlich abgeschlossen bezüglich komplexer Konjugation (das heißt, mit f ist<br />
stets auch die komplex konjugierte Funktion f in C).<br />
Dann liegt C dicht in Cb(E; K) bezüglich der Supremumsnorm.<br />
Beweis. Wir folgen der Darstellung in Dieudonné ([34, Kapitel VII.3]). Sei zunächst<br />
der Fall K = R betrachtet. Wir gehen in mehreren Schritten vor.<br />
1. Schritt Nach dem Weierstraß’schen Approximationssatz (Beispiel 5.15) gibt<br />
es eine Folge (pn)n∈N von Polynomen, die die Abbildung [0, 1] → [0, 1], t ↦→ √ t<br />
gleichmäßig approximiert. Ist f ∈C, so ist also |f| = �f�∞ limn→∞ pn(f 2 /�f�2 ∞)<br />
im Abschluss C von C in Cb(E; R).<br />
2. Schritt Indem wir den 1. Schritt auf die Algebra C anwenden, folgt, dass mit<br />
f,g ∈ C auch f ∨ g = 1<br />
1<br />
2 (f + g + |f − g|) und f ∧ g = 2 (f + g −|f − g|) in C<br />
liegen.<br />
3. Schritt Für jedes f ∈ Cb(E; R), jedes x ∈ E und jedes ε>0 existiert ein<br />
gx ∈ C mit gx(x) =f(x) und gx(y) ≤ f(y) +ε für jedes y ∈ E. DaC Punkte<br />
trennt, existiert für jedes z ∈ E \{x} ein Hz ∈Cmit Hz(z) �= H(x) =0.Für diese<br />
z definieren wir hz ∈Cdurch hz(y) =f(x) + f(z)−f(x)<br />
Hz(z) Hz(y) für jedes y ∈ E.<br />
Zudem setzen wir hx := f. Dannisthz(x) =f(x) und hz(z) =f(z) für jedes<br />
z ∈ E. Daf und hz stetig sind, existiert zu jedem z ∈ E eine offene Umgebung<br />
Uz ∋ z mit h(y) ≤ f(y)+ε für jedes y ∈ Uz. Wir bilden eine endliche Überdeckung<br />
Uz1 ,...,Uzn von E mit solchen Umgebungen und setzen gx =min(hz1 ,...,hzn ).<br />
Nach Schritt 2 ist gx ∈ C.
15.1 Trennende Funktionenklassen 283<br />
4. Schritt Sei f ∈ Cb(E; R), ε>0 und gx wie im 3. Schritt für jedes x ∈ E.<br />
Da f und gx stetig sind, existiert zu jedem x ∈ E eine offene Umgebung Vx ∋ x<br />
mit gx(y) ≥ f(y) − ε für jedes y ∈ Vx. Wir bilden eine endliche Überdeckung<br />
Vx1 ,...,Vxn von E und definieren g := max(gx1 ,...,gxn ).Dannistg∈ C nach<br />
Schritt 2 und �g − f�∞ 0 beliebig war, gilt also<br />
C = Cb(E; R).<br />
5. Schritt Sei nun K = C betrachtet. Nach Voraussetzung sind mit f auch der<br />
Realteil Re(f) =(f + ¯ f)/2 und der Imaginärteil Im(f) =(f − ¯ f)/2i in C. Speziell<br />
ist C0 := {Re(f) : f ∈C}⊂Ceine reelle Algebra, die nach Voraussetzung Punkte<br />
trennt und die konstanten Funktionen enthält. Also ist C0 dicht in Cb(E; R).Wegen<br />
C = C0 + iC0 folgt, dass C dicht in Cb(E; C) ist. ✷<br />
Korollar 15.3. Sei E ein kompakter, metrischer Raum. Sei K = R oder K = C.<br />
Sei C⊂Cb(E; K) eine Punkte trennende Familie, die stabil ist unter Multiplikation<br />
und 1 enthält. Ist K = C, soseiCzusätzlich abgeschlossen bezüglich komplexer<br />
Konjugation.<br />
Dann ist C eine trennende Familie für Mf (E).<br />
Beweis. Seien μ1,μ2 ∈Mf (E) mit � gdμ1 = � gdμ2für jedes g ∈C.SeiC ′ die<br />
Algebra der endlichen Linearkombinationen von Elementen aus C. Aufgrund der<br />
Linearität des Integrals gilt � gdμ1 = � gdμ2für jedes g ∈C ′ .<br />
Zu jedem f ∈ Cb(E,R) und jedem ε > 0 existiert nach dem Satz von Stone-<br />
Weierstraß ein g ∈C ′ mit � �<br />
�f − g�∞ 0 beliebig war, gilt Gleichheit und damit μ1 = μ2 (nach Satz 13.11). ✷<br />
Als einfache Schlussfolgerungen bekommen wir die folgenden Sätze.<br />
Satz 15.4. Die Verteilung einer beschränkten reellen Zufallsvariablen X ist durch<br />
die Angabe aller Momente eindeutig bestimmt.<br />
Beweis. Ohne Einschränkung können wir annehmen, dass X nur Werte in E :=<br />
[0, 1] annimmt. Für n ∈ N definiere die Abbildung fn : [0, 1] → [0, 1] durch<br />
fn : x ↦→ x n . Ferner sei f0 ≡ 1. Die Familie C = {fn, n ∈ N0} ist Punkte<br />
trennend und abgeschlossen unter Multiplikation, also trennend für Mf (E). PX<br />
ist also eindeutig festgelegt durch Angabe der Momente E[X n ]= � x n PX(dx),<br />
n ∈ N. ✷
284 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Beispiel 15.5 (nach [72]). Im vorangehenden Satz können wir nicht ohne Weiteres<br />
auf die Beschränktheit von X verzichten, selbst wenn alle Momente existieren<br />
(es gibt allerdings schwächere Bedingungen, siehe Korollar 15.32). Wir betrachten<br />
hierzu X := exp(Y ), wobei Y ∼N0,1. Die Verteilung von X heißt auch Log-<br />
Normalverteilung. Für jedes n ∈ N ist nY verteilt wie die Summe von n2 unabhängigen,<br />
standardnormalverteilten Zufallsvariablen nY D = Y1 + ...+ Yn2.Also ist für n ∈ N<br />
E[X n ]=E[e nY ]=E[e Y1+...+Yn2 n<br />
]=<br />
2<br />
�<br />
E[e Yi ]=E[e Y ] n2<br />
=<br />
i=1<br />
�� ∞<br />
(2π)<br />
−∞<br />
−1/2 e y e −y2 � 2<br />
n<br />
/2<br />
dy<br />
= e n2 /2 .<br />
(15.1)<br />
Wir wollen nun gleich eine ganze Familie von Verteilungen konstruieren, die die<br />
gleichen Momente wie X besitzen. Nach der Transformationsformel für Dichten<br />
(Satz 1.101) hat die Verteilung von X die Dichte<br />
f(x) = 1<br />
√ x<br />
2π −1 �<br />
exp − 1<br />
2 log(x)2<br />
�<br />
für x>0.<br />
Für α ∈ [−1, 1] definieren wir Wahrscheinlichkeitsdichten fα auf (0, ∞) durch<br />
fα(x) =f(x) � 1+α sin(2π log(x)) � .<br />
Um zu zeigen, dass fα eine Dichte ist und die selben Momente wie f besitzt, reicht<br />
es zu zeigen, dass für jedes n ∈ N0 gilt<br />
m(n) :=<br />
� ∞<br />
0<br />
x n f(x) sin(2π log(x)) dx =0.<br />
Mit der Substitution y = log(x) − n erhalten wir (wegen sin(2π(y + n)) =<br />
sin(2πy))<br />
m(n) =<br />
� ∞<br />
−∞<br />
e yn+n2<br />
(2π) −1/2 e −(y+n)2 /2<br />
sin(2π(y + n)) dy<br />
=(2π) −1/2 e n2 /2<br />
� ∞<br />
e<br />
−∞<br />
−y2 /2<br />
sin(2πy) dy =0,<br />
wobei die letzte Gleichheit folgt, weil der Integrand eine ungerade Funktion ist. ✸<br />
Satz 15.6 (Laplace-Transformation). Ein endliches Maß μ auf [0, ∞) ist eindeutig<br />
bestimmt durch Angabe der Laplace-Transformierten<br />
�<br />
Lμ(λ) := e −λx μ(dx) für λ ≥ 0.
15.1 Trennende Funktionenklassen 285<br />
Beweis. Dem Problem, dass der Raum [0, ∞) nicht kompakt ist, begegnen wir, indem<br />
wir zur (Einpunkt-) Kompaktifizierung E =[0, ∞] übergehen. Wir definieren<br />
für λ ≥ 0 die stetige Funktion fλ :[0, ∞] → [0, 1] durch fλ(x) =e −λx , falls<br />
x0. Wähle N ∈ N so groß, dass (1 + 2�f�∞) · (μ1 + μ2)(Rd \<br />
[−N,N] d )
286 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Da ε>0 beliebig war, stimmen die Integrale überein. Nach Satz 13.11 ist also<br />
μ1 = μ2. ✷<br />
Korollar 15.9. Ein endliches Maß μ auf Zd ist durch die Werte<br />
�<br />
ϕμ(t) =<br />
eindeutig festgelegt.<br />
e i〈t,x〉 μ(dx), t ∈ [−π, π) d ,<br />
Beweis. Dies ist klar, weil ϕμ(t +2πk) =ϕμ(t) für jedes k ∈ Z d . ✷<br />
Während das vorangehende Korollar nur eine abstrakte Eindeutigkeitsaussage liefert,<br />
wird uns manchmal eine explizite Inversionsformel von Nutzen sein.<br />
Satz 15.10 (Diskrete Fourier-Inversionsformel). Sei μ ∈Mf (Zd ) mit charakteristischer<br />
Funktion ϕμ. Dann gilt für jedes x ∈ Zd μ({x}) =(2π) −d<br />
�<br />
e −i〈t,x〉 ϕμ(t) dt.<br />
[−π,π) d<br />
[−π,π) d<br />
[−π,π) d<br />
Beweis. Nach dem Satz über majorisierte Konvergenz ist<br />
�<br />
e −i〈t,x〉 �<br />
ϕμ(t) dt = e −i〈t,x〉<br />
⎛<br />
⎝ lim<br />
�<br />
e i〈t,y〉 ⎞<br />
μ({y}) ⎠ dt<br />
�<br />
= lim<br />
n→∞<br />
[−π,π) d<br />
= �<br />
�<br />
μ({y})<br />
y∈Z d<br />
n→∞<br />
|y|≤n<br />
�<br />
−i〈t,x〉<br />
e<br />
[−π,π) d<br />
|y|≤n<br />
e i〈t,y−x〉 dt.<br />
e i〈t,y〉 μ({y}) dt<br />
Die Behauptung folgt, weil für y ∈ Zd gilt<br />
�<br />
[−π,π) d<br />
e i〈t,y−x〉 �<br />
d (2π) ,<br />
dt =<br />
0,<br />
falls x = y,<br />
sonst. ✷<br />
Ähnliche Inversionsformeln gelten für Maße μ auf Rd . Besonders einfach ist der<br />
Fall, wo μ eine integrierbare Dichte f := dμ<br />
dλ bezüglich des d-dimensionalen<br />
Lebesgue-Maßes λ hat. In diesem Fall gilt die Fourier-Inversionsformel<br />
f(x) =(2π) −d<br />
�<br />
e −i〈t,x〉 ϕμ(t) λ(dt). (15.2)<br />
R d<br />
Es gilt die Plancherel’sche Gleichung: Es ist genau dann f ∈L 2 (λ), wennϕμ ∈<br />
L 2 (λ). In diesem Fall ist �f�2 = �ϕ�2.<br />
Da wir diese Aussagen jedoch nicht weiter verwenden werden, verweisen wir lediglich<br />
auf die einschlägigen Lehrbücher (etwa [156, Kapitel V.2] oder [53, Theorem<br />
XV.3.3 und Gleichung (XV.3.8)]).
15.1 Trennende Funktionenklassen 287<br />
Übung 15.1.1. Man zeige, dass im Satz von Stone-Weierstraß auf die Kompaktheit<br />
von E nicht verzichtet werden kann. Hinweis: Man wähle etwa E = R, nutze aus,<br />
dass Cb(R) =Cb(R; R) nicht separabel ist und konstruiere eine abzählbare, Punkte<br />
trennende Algebra C⊂Cb(R). ♣<br />
Übung 15.1.2. Sei d ∈ N und μ ein endliches Maß auf [0, ∞) d . Man zeige: μ ist<br />
durch Angabe der Laplace-Transformierten Lμ(λ) = � e −〈λ,x〉 μ(dx), λ ∈ [0, ∞) d<br />
eindeutig bestimmt. ♣<br />
Übung 15.1.3. Man zeige, dass unter den Voraussetzungen von Satz 15.10 die<br />
Plancherel’sche Gleichung gilt:<br />
�<br />
μ({x}) 2 =(2π) −d<br />
�<br />
|ϕμ(t)| 2 dt. ♣<br />
x∈Z d<br />
[−π,π) d<br />
Übung 15.1.4 (Mellin-Transformierte). Sei X eine nichtnegative reelle Zufallsvariable.<br />
Für s ≥ 0 definieren wir die Mellin-Transformierte von PX<br />
mX(s) =E[X s ]<br />
mit Werten in [0, ∞].<br />
Man zeige: Gibt es ein ε0 > 0 mit mX(ε0) < ∞ (beziehungsweise mX(−ε0) <<br />
∞), so ist für jedes ε>0 die Verteilung PX eindeutig bestimmt durch die Werte<br />
mX(s) (beziehungsweise mX(−s)), s ∈ [0,ε].<br />
Anleitung: Für stetiges f :[0, ∞) → [0, ∞) sei<br />
φf (s) =<br />
� ∞<br />
0<br />
t z−1 f(z),<br />
für diejenigen z ∈ C, für die dies wohldefiniert ist. Aus der Funktionentheorie ist<br />
bekannt: Ist φf (s) < ∞ für ein s>1, soistφf holomorph in {z ∈ C : Re(z) ∈<br />
(1,s)} (und damit durch die Werte φf (r), r ∈ (1, 1+ε) eindeutig festgelegt für<br />
jedes ε>0), und es gilt für jedes r ∈ (1,s)<br />
f(t) = 1<br />
� ∞<br />
t<br />
2πi −∞<br />
−(r+iρ) φf (r + iρ) dρ.<br />
(i) Man folgere die Aussage für X mit stetiger Dichte.<br />
(ii) Für δ>0 sei Yδ ∼U [1−δ,1] und unabhängig von X. Man zeige, dass XYδ eine<br />
stetige Dichte hat.<br />
(iii) Man bestimme mXYδ und zeige, dass mXYδ → mX für δ ↓ 0.<br />
(iv) Man zeige, dass XYδ =⇒ X für δ ↓ 0. ♣
288 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Übung 15.1.5. Seien X, Y, Z unabhängige nichtnegative reelle Zufallsvariablen,<br />
sodass P[Z > 0] > 0, und sodass die Mellin-Transformierte mXZ(s) < ∞ ist<br />
für ein s>0.<br />
Zeige: Gilt XZ D = YZ,soistX D = Y . ♣<br />
Übung 15.1.6. Sei μ ein W-Maß auf R mit integrierbarer charakteristischer Funktion<br />
ϕμ, also ϕμ ∈L1 (λ), wobei λ das Lebesgue-Maß auf R ist. Man zeige, dass μ<br />
absolutstetig ist und die stetige und beschränkte Dichte f = dμ<br />
dλ gegeben ist durch<br />
f(x) = 1<br />
� ∞<br />
e<br />
2π −∞<br />
−itx ϕμ(t) dt für jedes x ∈ R.<br />
Anleitung: Man zeige dies zunächst für die Normalverteilung N0,ε, ε>0. Man<br />
zeige dann, dass μ ∗N0,ε absolutstetig ist mit Dichte fε, die punktweise gegen f<br />
konvergiert. ♣<br />
Übung 15.1.7. Sei (Ω,τ) ein separabler topologischer Raum, der das T 3 1<br />
2 -Trennungsaxiom<br />
erfüllt: Zu jeder abgeschlossenen Menge A ⊂ Ω und jedem Punkt<br />
x ∈ Ω \ A existiert eine stetige Funktion f : Ω → [0, 1] mit f(x) = 0 und<br />
f(y) =1für jedes y ∈ A. (Insbesondere ist jeder metrische Raum ein T 3 1<br />
2 -Raum.)<br />
Man zeige: σ(Cb(Ω)) = B(Ω), das heißt, die Borel’sche σ-Algebra wird durch die<br />
beschränkten, stetigen Funktionen Ω → R erzeugt. ♣<br />
15.2 Charakteristische Funktionen: Beispiele<br />
Lemma 15.11. Sei X eine Zufallsvariable mit Werten in R d und charakteristischer<br />
Funktion ϕX(t) =E � e i〈t,X〉� . Dann gelten<br />
(i) |ϕX(t)| ≤1 für jedes t ∈ Rd und ϕX(0) = 1,<br />
(ii) ϕaX+b(t) =ϕX(at) ei〈b,t〉 für jedes a ∈ R und b ∈ Rd ,<br />
(iii) PX = P−X genau dann, wenn ϕ reellwertig ist,<br />
(iv) Sind X und Y unabhängig, so ist ϕX+Y = ϕX · ϕY .<br />
(v) Für jedes t ∈ R gilt für den Realteil 0 ≤ 1−Re(ϕX(2t)) ≤ 4(1−Re(ϕX(t))).<br />
Beweis. (i) und (ii) sind trivial.<br />
(iii) ϕX(t) =ϕX(−t) =ϕ−X(t).<br />
(iv) Da e i〈t,X〉 und e i〈t,Y 〉 unabhängige Zufallsvariablen sind, gilt<br />
ϕX+Y (t) =E � e i〈t,X〉 · e i〈t,Y 〉� = E � e i〈t,X〉� E � e i〈t,Y 〉� = ϕX(t) ϕY (t).
15.2 Charakteristische Funktionen: Beispiele 289<br />
(v) Nach dem Additionstheorem für Winkelfunktionen ist<br />
1 − cos(2tX) =2 � 1 − (cos(tX)) 2� ≤ 4 � 1 − cos(tX) � .<br />
Bilde jetzt den Erwartungswert. ✷<br />
Satz 15.12 (Charakteristische Funktionen wichtiger Verteilungen). Wir geben<br />
für verschiedene Verteilungen P mit Dichte x ↦→ f(x) auf R oder Gewichten<br />
P ({k}), k ∈ N0, die charakteristische Funktion ϕ(t) an:<br />
Name<br />
Symbol<br />
Normal<br />
N μ,σ 2<br />
Gleichvert.<br />
U [0,a]<br />
Gleichvert.<br />
U [−a,a]<br />
Dreieck<br />
Tria<br />
Verteilung Char. Fkt.<br />
Parameter auf Dichte / Gewicht ϕ(t)<br />
μ ∈ R<br />
σ 2 > 0<br />
R<br />
√ 1<br />
2πσ2 exp<br />
�<br />
− (x−μ)2<br />
2σ2 a>0 [0,a] 1/a e iat −1<br />
iat<br />
a>0 [−a, a] 1/2a<br />
a>0 [−a, a]<br />
� �<br />
1<br />
+<br />
a 1 −|x|/a<br />
1 1−cos(ax)<br />
N.N. a>0 R π ax2 Gamma<br />
Γθ,r<br />
Exponential<br />
expθ zweiseitig<br />
Exponential<br />
exp2 θ<br />
Cauchy<br />
Caua<br />
Binomial<br />
bn,p<br />
Negativ<br />
Binomial<br />
b − r,p<br />
Poisson<br />
Poiλ<br />
θ>0<br />
r>0<br />
[0, ∞)<br />
�<br />
e iμt · e −σ2 t 2 /2<br />
sin(at)<br />
at<br />
2 1−cos(at)<br />
a 2 t 2<br />
(1 −|t|/a) +<br />
θ r<br />
Γ (r) xr−1 e−θx (1 − it/θ) −r<br />
θ>0 [0, ∞) θe −θx θ<br />
θ − it<br />
θ>0 R<br />
a>0 R<br />
n ∈ N<br />
p ∈ [0, 1] {0,...,n}<br />
r>0<br />
p ∈ (0, 1]<br />
N0<br />
θ<br />
2 e−θ|x|<br />
−λ λk<br />
λ>0 N0 e k!<br />
1 1<br />
aπ 1+(x/a) 2<br />
� �<br />
n<br />
p<br />
k<br />
k (1 − p) n−k<br />
� �<br />
−r<br />
(−1)<br />
k<br />
kpr (1 − p) k<br />
1<br />
1+(t/a) 2<br />
e −a|t|<br />
� (1 − p)+pe it � n<br />
�<br />
p<br />
1 − (1 − p)e it<br />
exp � λ(e it − 1) �<br />
� r
290 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Beweis. (i) (Normalverteilung) Nach Lemma 15.11 reicht es, den Fall μ =0<br />
und σ2 =1zu betrachten. Mit Hilfe des Differentiationslemmas (Satz 6.28) und<br />
durch partielle Integration erhalten wir<br />
� ∞<br />
d<br />
ϕ(t) = e<br />
dt −∞<br />
itx ix e −x2 /2<br />
dx = −tϕ(t).<br />
Diese lineare Differentialgleichung mit Anfangswert ϕ(0) = 1 hat die eindeutige<br />
Lösung ϕ(t) =e−t2 /2 .<br />
(ii) (Gleichverteilung) Dies ist unmittelbar.<br />
(iii) (Dreieck) Es gilt Tria = U [−a/2,a/2] ∗U [−a/2,a/2], also ist<br />
ϕTria(t) =ϕU (t) [−a/2,a/2] 2 =4 sin(at/2)2<br />
a2 t2 1 − cos(at)<br />
=2<br />
a2 t2 ,<br />
wobei wir ausgenutzt haben, dass nach dem Additionstheorem gilt<br />
1 − cos(x) =sin(x/2) 2 +cos(x/2) 2 − cos(x) =2sin(x/2) 2 .<br />
(iv) (N.N.) Dies lässt sich entweder direkt ausrechnen, oder mit Hilfe der Fourier-<br />
Inversionsformel (Gleichung (15.2)) aus (iii) folgern.<br />
(v) (Gammaverteilung) Es reicht wiederum, den Fall θ =1zu betrachten. Für<br />
0 ≤ b
15.2 Charakteristische Funktionen: Beispiele 291<br />
�<br />
�<br />
0, wennb→0. Analog ist � �<br />
ɛc,t zr−1 �<br />
�<br />
exp(−z) dz�<br />
≤ cr exp(−c)(1 + t2 ) r/2 → 0,<br />
wenn c →∞.<br />
(vi) (Exponentialverteilung) Wegen exp θ = Γθ,1 folgt dies aus (v).<br />
(vii) (Zweiseitige Exponentialverteilung) Sind X und Y unabhängige expθ verteilte<br />
Zufallsvariablen, so ist X − Y ∼ exp2 θ (Nachrechnen!). Also ist<br />
ϕ exp 2 θ (t) =ϕexp θ (t) ϕexp θ (−t) =<br />
1<br />
1 − it/θ<br />
1<br />
1+it/θ =<br />
1<br />
.<br />
1+(t/θ) 2<br />
(viii) (Cauchy Verteilung) Dies lässt sich entweder mit Hilfe des Residuenkalküls<br />
direkt ausrechnen, oder mit Hilfe der Fourier-Inversionsformel (Gleichung<br />
(15.2)) aus der Aussage für die zweiseitige Exponentialverteilung folgern.<br />
(ix) (Binomialverteilung) Nach dem binomischen Lehrsatz ist<br />
n�<br />
� �<br />
n<br />
ϕ(t) = (1 − p)<br />
k<br />
n−k (pe it ) k =(1−p + pe it ) n .<br />
k=0<br />
(x) (Negative Binomialverteilung) Nach dem verallgemeinerten binomischen<br />
Lehrsatz (Lemma 3.5) ist für jedes x ∈ C mit |x| < 1<br />
(1 − x) −r ∞�<br />
� �<br />
−r<br />
= (−x)<br />
k<br />
k .<br />
k=0<br />
Wenn wir x =(1− p) e it setzen, folgt die Behauptung.<br />
(xi) (Poissonverteilung) Es ist ϕPoiλ (t) =<br />
∞�<br />
n=0<br />
Korollar 15.13. Es gelten die folgenden Faltungsformeln:<br />
e −λ (λeit ) n<br />
n! = eλ(eit −1) . ✷<br />
(i) N μ1,σ 2 1 ∗N μ2,σ 2 2 = N μ1+μ2,σ 2 1 +σ 2 2 für μ1,μ2 ∈ R und σ 2 1,σ 2 2 > 0,<br />
(ii) Γθ,r ∗ Γθ,s = Γθ,r+s für θ, r, s > 0,<br />
(iii) Caua ∗ Caub =Caua+bfür a, b > 0,<br />
(iv) bm,p ∗ bn,p = bm+n,p für m, n ∈ N und p ∈ [0, 1],<br />
(v) b − r,p ∗ b − s,p = b − r+s,p für r, s > 0 und p ∈ (0, 1],<br />
(vi) Poiλ ∗ Poiμ =Poiλ+μ für λ, μ ≥ 0.<br />
Beweis. Die Aussagen folgen aus dem vorangehenden Satz zusammen mit ϕμ∗∗ν =<br />
ϕμ ϕν (Lemma 15.11). ✷<br />
Zwei einfache Verfahren, um charakteristische Funktionen von zusammengesetzten<br />
Verteilungen auszurechnen, liefert der folgende Satz:
292 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Satz 15.14. (i) Seien μ1,μ2,... ∈Mf (Rd ) und p1,p2,... nichtnegative Zahlen<br />
mit ∞�<br />
pnμn(R<br />
n=1<br />
d ) < ∞. Dann hat das Maß μ := ∞�<br />
pnμn ∈Mf (R<br />
n=1<br />
d ) die<br />
charakteristische Funktion<br />
∞�<br />
ϕμ = pn ϕμn . (15.3)<br />
n=1<br />
(ii) Es seien N,X1,X2,... unabhängige Zufallsvariablen. Die X1,X2,... seien<br />
identisch verteilt auf Rd mit charakteristischer Funktion ϕX. N habe Werte in<br />
N0 und die Erzeugendenfunktion fN. Dann hat Y := N�<br />
Xn die charakteris-<br />
n=1<br />
tische Funktion ϕY (t) =fN(ϕX(t)).<br />
(iii) Ist in (ii) speziell N ∼ Poiλ,soistϕY (t) =exp(λ(ϕX(t) − 1)).<br />
Beweis. (i) Setzen wir νn = n�<br />
n�<br />
pkμk, so gilt ϕνn = pkϕμk wegen der Li-<br />
k=1<br />
k=1<br />
nearität des Integrals. Nach Voraussetzung ist μ =w-lim<br />
n→∞ νn, also auch ϕμ(t) =<br />
lim ϕνn (t).<br />
n→∞<br />
(ii) Es ist<br />
ϕY (t) =<br />
=<br />
∞�<br />
P[N = n] E � e i〈t,X1+...+Xn〉�<br />
n=0<br />
∞�<br />
n=0<br />
P[N = n] ϕX(t) n = fN (ϕ(t)).<br />
(iii) Der Spezialfall folgt, weil hier fN(z) =e λ(z−1) für z ∈ C mit |z| ≤1. ✷<br />
Beispiel 15.15. Sei n ∈ N, und seien Punkte 0=a0 y1 > ... > yn =0gegeben. Sei ϕ : R → [0, ∞) diejenige gerade Funktion<br />
(also ϕ(x) =ϕ(−x)), die ϕ(ak) =yk für jedes k =0,...,nerfüllt und zwischen<br />
den Punkten ak linear interpoliert ist, sowie ferner ϕ(x) =0für |x| >anerfüllt. Wir wollen zusätzlich annehmen, dass die yk so gewählt sind, dass ϕ auf [0, ∞)<br />
konvex ist. Das ist äquivalent zu der Bedingung, dass m1 ≤ m2 ≤ ... ≤ mn ≤ 0,<br />
wo mk := yk−yk−1 die Steigung im k-ten Intervall ist. Wir wollen zeigen, dass ϕ<br />
ak−ak−1<br />
die charakteristische Funktion eines W-Maßes μ ∈M1(R) ist.<br />
Setze pk = ak(mk+1 − mk) für k =1,...,n.<br />
Sei μk ∈M1(Rd ) die Verteilung auf R mit Dichte 1 1−cos(akπ)<br />
π akx2 . Nach Satz 15.12<br />
�<br />
hat μk die charakteristische Funktion ϕμk (t) = 1 − |t|<br />
� +<br />
. Die charakteristische<br />
ak<br />
Funktion ϕμ von μ := �n k=1 pkμk ist dann
ϕμ(t) =<br />
15.2 Charakteristische Funktionen: Beispiele 293<br />
n�<br />
pk(1 −|t|/ak) + .<br />
k=1<br />
Dies ist eine stetige, symmetrische, reelle Funktion mit ϕμ(0) = 1, die auf den Intervallen<br />
[ak−1,ak] jeweils linear ist. Durch partielle Summation erhalten wir (wegen<br />
mn+1 =0)für jedes k =1,...,n<br />
ϕμ(al) =<br />
=<br />
n�<br />
k=1<br />
�<br />
ak(mk+1 − mk) 1 − al<br />
� +<br />
=<br />
ak<br />
�<br />
�<br />
(an − al)mn+1 − (al − al)ml −<br />
= −<br />
n�<br />
(yk − yk−1) =yl = ϕ(al).<br />
k=l+1<br />
n�<br />
(ak − al)(mk+1 − mk)<br />
k=l<br />
n�<br />
(ak − ak−1)mk<br />
k=l+1<br />
Also ist ϕμ = ϕ. ✸<br />
Beispiel 15.16. Wir betrachten die Funktion ϕ : R → [0, 1], die periodisch mit Periode<br />
2π ist, und die für t ∈ [−π, π) definiert ist durch ϕ(t) =1−2|t|/π.Durchdie<br />
diskrete Fourier-Inversionsformel (Satz 15.10) erhalten wir, dass ϕ die charakteristi-<br />
sche Funktion des W-Maßes μ ∈M1(Z) mit μ({x}) =(2π) −1 � π<br />
−π<br />
cos(tx) ϕ(t) dt<br />
ist, wenn wir zeigen können, dass alle diese Zahlen μ({x}) nichtnegativ sind. Für<br />
x =0ist offenbar μ({x}) =0.Für x ∈ Z \{0} berechnen wir das Integral mit<br />
Hilfe partieller Integration<br />
� π<br />
−π<br />
cos(tx) ϕ(t) dt =2<br />
Insgesamt erhalten wir<br />
= 4<br />
x<br />
� π<br />
�<br />
0<br />
cos(tx)(1− 2t/π) dt<br />
1 − 2<br />
�<br />
sin(πx) −<br />
π<br />
4 4<br />
sin(0) +<br />
x πx<br />
= 4<br />
(1 − cos(πx)).<br />
πx2 μ({x}) =<br />
� 4<br />
π 2 x 2 , falls x ungerade ist,<br />
0, sonst.<br />
� π<br />
0<br />
sin(tx) dt<br />
Wegen μ(Z) =ϕ(0) = 1 ist μ tatsächlich ein W-Maß. ✸<br />
Beispiel 15.17. Wir betrachten die Funktion ψ : R → [0, 1], die periodisch mit<br />
Periode π ist, und die für t ∈ [−π/2,π/2) definiert ist durch ψ(t) =1− 2|t|/π.<br />
Ist ϕ die charakteristische Funktion zum Maß μ aus dem vorangehenden Beispiel,<br />
so ist offenbar ψ(t) =|ϕ(t)|. Andererseits ist ψ(t) = 1 1<br />
2 + 2ϕ(2t). Nach Satz15.14
294 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
und Lemma 15.11(ii) ist daher ψ die charakteristische Funktion des Maßes ν mit<br />
ν(A) = 1<br />
1<br />
2δ0(A)+ 2μ(A/2) für A ⊂ R.Alsoist<br />
⎧<br />
⎪⎨<br />
1<br />
2 , falls x =0,<br />
8<br />
ν({x}) = π<br />
⎪⎩<br />
2x2 , falls x<br />
0,<br />
2 ∈ Z<br />
sonst.<br />
ungerade ist,<br />
✸<br />
Beispiel 15.18. Sei ϕ(t) =(1− 2|t|/π) + die charakteristische Funktion der Verteilung<br />
” N.N.“ aus Satz 15.12 (mit a = π/2) und ψ die charakteristische Funktion<br />
aus dem vorangehenden Beispiel. Man beachte, dass ϕ(t) =ψ(t) für |t| ≤π/2 und<br />
ϕ(t) =0für |t| >π/2, also ϕ 2 = ϕ · ψ. Seien nun X, Y, Z unabhängige, reelle<br />
Zufallsvariablen mit charakteristischen Funktionen ϕX = ϕY = ϕ und ϕZ = ψ.<br />
Dann ist ϕXϕY = ϕXϕZ, also X + Y D = X + Z, jedoch stimmen die Verteilungen<br />
von Y und Z nicht überein. ✸<br />
Übung 15.2.1. Sei ϕ die charakteristische Funktion der d-dimensionalen Zufallsvariablen<br />
X. Man zeige: Ist ϕ(t) =1für ein t �= 0,soistP[X ∈ Ht] =1,wo<br />
Ht = {x ∈ R d : 〈x, t〉 ∈2πZ}<br />
= � y + z · (2πt/�t� 2 2): z ∈ Z, y∈ R d mit 〈y, t〉 =0 � .<br />
Man folgere, dass ϕ(t + s) =ϕ(s) ist für jedes s ∈ R d . ♣<br />
Übung 15.2.2. Man zeige: Es gibt reelle Zufallsvariablen X, X ′ und Y,Y ′ mit X D =<br />
X ′ und Y D = Y ′ , sodass X ′ und Y ′ unabhängig sind und X + Y D = X ′ + Y ′ gilt,<br />
jedoch X und Y nicht unabhängig sind. ♣<br />
Übung 15.2.3. Sei X eine reelle Zufallsvariable mit charakteristischer Funktion ϕ.<br />
X heißt gitterverteilt, wennesa, d ∈ R gibt, sodass P[X ∈ a + dZ] =1. Zeige:<br />
X ist genau dann gitterverteilt, wenn es ein u �= 0gibt mit |ϕ(u)| =1. ♣<br />
15.3 Der Lévy’sche Stetigkeitssatz<br />
Die Hauptaussage dieses Abschnitts ist der Stetigkeitssatz von Lévy (Satz 15.23),<br />
der, grob gesprochen, besagt, dass eine Folge von charakteristischen Funktionen<br />
genau dann punktweise gegen eine stetige Funktion konvergiert, wenn der Grenzwert<br />
wieder eine charakteristische Funktion ist und die zugehörigen Wahrscheinlichkeitsmaße<br />
schwach konvergieren. Wir bereiten den Beweis des Satzes mit ein<br />
paar analytischen Aussagen vor.
15.3 Der Lévy’sche Stetigkeitssatz 295<br />
Lemma 15.19. Sei μ ∈M1(R d ) mit charakteristischer Funktion ϕ. Dann gilt<br />
|ϕ(t) − ϕ(s)| 2 ≤ 2 � 1 − Re(ϕ(t − s)) �<br />
für alle s, t ∈ R d .<br />
Beweis. Nach der Cauchy-Schwarz’schen Ungleichung gilt<br />
|ϕ(t) − ϕ(s)| 2 ��<br />
�<br />
= �<br />
�<br />
Rd e i〈t,x〉 − e i〈s,x〉 �2<br />
�<br />
μ(dx) �<br />
�<br />
��<br />
�<br />
= �<br />
�<br />
Rd �2<br />
� � �<br />
i〈t−s,x〉 i〈s,x〉<br />
e − 1 e μ(dx) �<br />
�<br />
�<br />
≤<br />
Rd �<br />
�<br />
�<br />
� i〈t−s,x〉 2<br />
e − 1� μ(dx) ·<br />
Rd �<br />
� i〈s,x〉<br />
e � �2 μ(dx)<br />
�<br />
� �� � i〈t−s,x〉 −i〈t−s,x〉<br />
= e − 1 e − 1 μ(dx)<br />
R d<br />
=2 � 1 − Re(ϕ(t − s)) � . ✷<br />
Definition 15.20. Sei (E,d) ein metrischer Raum. Eine Familie (fi, i ∈ I) von<br />
Abbildungen E → R heißt gleichgradig gleichmäßig stetig, falls für jedes ε>0<br />
ein δ>0 existiert, sodass |fi(t) − fi(s)| 0 existiert, sodass für jedes<br />
t ∈ Rd , jedes s ∈ Rd mit |t − s| 0, sodass für x ∈ [−N,N] d und u ∈ Rd mit |u|
296 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Beweis. Sei ε>0 vorgegeben und δ>0 so gewählt, dass |fn(t) − fn(s)|
15.3 Der Lévy’sche Stetigkeitssatz 297<br />
α := inf{h(x) : |x| ≥1} =1− sin(1) > 0. Jetzt berechnen wir (unter Benutzung<br />
der Markov’schen Ungleichung und des Satzes von Fubini) für K>0<br />
� c<br />
Pn [−K, K] � ≤ α −1<br />
�<br />
[−K,K] c<br />
h(x/K) Pn(dx)<br />
≤ α −1<br />
�<br />
h(x/K) Pn(dx)<br />
R<br />
= α −1<br />
� � � 1<br />
�<br />
� �<br />
1 − cos(tx/K) dt Pn(dx)<br />
R 0<br />
= α −1<br />
� 1 � �<br />
�<br />
� �<br />
1 − cos(tx/K) Pn(dx) dt<br />
= α −1<br />
0<br />
� 1<br />
0<br />
R<br />
� 1 − Re(ϕn(t/K)) � dt.<br />
Wir erhalten nun (mit dem Satz von der majorisierten Konvergenz)<br />
lim sup<br />
n→∞<br />
Pn([−K, K] c ) ≤ α −1 � 1<br />
lim sup<br />
n→∞ 0<br />
� 1<br />
= α −1<br />
= α −1<br />
0<br />
� 1<br />
0<br />
� 1 − Re(ϕn(t/K)) � dt<br />
� �<br />
lim 1 − Re(ϕn(t/K))<br />
n→∞<br />
��<br />
dt<br />
� �<br />
1 − Re(f(t/K)) dt.<br />
Da f stetig und f(0) = 1 ist, konvergiert das letzte Integral gegen 0,wennK →∞.<br />
Also ist (Pn)n∈N straff. ✷<br />
Eine einfache Anwendung des Lévy’schen Stetigkeitssatzes auf Beispiel 15.15 liefert<br />
den folgenden Satz von Pólya.<br />
Satz 15.24 (Pólya). Sei f : R → [0, 1] stetig und gerade mit f(0) = 1. Ferner sei<br />
f auf [0, ∞) konvex. Dann ist f die charakteristische Funktion eines W-Maßes.<br />
Beweis. Wir können f auf [0, ∞) durch konvexe Polygonzüge fn approximieren,<br />
indem wir fn(k/n) = f(k/n) setzen für k = 0,...,n2 und fn zwischen den<br />
Stützstellen linear interpolieren und rechts von n konstant fortsetzen. Für x0 ist ϕα,r(t) =e−|rt|α die charakteristische<br />
Funktion eines symmetrischen W-Maßes μα,r auf R.
298 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Bemerkung 15.26. Tatsächlich ist ϕα,r auch für α ∈ (0, 2] eine charakteristische<br />
Funktion (für α = 2 die der Normalverteilung), siehe Kapitel 16.2. Die Verteilungen<br />
μα,r haben die Eigenschaft α-stabil zu sein (siehe Definition 16.20): Sind<br />
X1,X2,...,Xn unabhängig und μα,a-verteilt, so ist ϕX1+...+Xn (t) =ϕX(t) n =<br />
ϕX(n1/α D<br />
t), also X1 + ...+ Xn = n1/αX1. ✸<br />
Wir haben mit dem Satz von Stone-Weierstraß gesehen, dass charakteristische Funktionen<br />
Verteilungen eindeutig bestimmen. Der Satz von Pólya bietet eine hinreichende<br />
Bedingung dafür, dass eine symmetrische reelle Funktion eine charakteristische<br />
Funktion ist. Dass diese Bedingung nicht notwendig ist, sieht man schon daran,<br />
dass die charakteristische Funktion der Normalverteilung sie nicht erfüllt. Wir geben<br />
nun, gewissermaßen zur Allgemeinbildung und ohne Beweis, den Satz von Bochner<br />
an, der eine notwendige und hinreichende Bedingung dafür formuliert, dass eine<br />
Funktion ϕ : R d → C die charakteristische Funktion eines W-Maßes ist.<br />
Definition 15.27. Eine Funktion f : R d → C heißt positiv semidefinit, falls für<br />
jedes n ∈ N und alle t1,...,tn ∈ R d sowie y1,...,yn ∈ C gilt<br />
n�<br />
yk ¯yl f(tk − tl) ≥ 0,<br />
k,l=1<br />
mit anderen Worten, falls die Matrix (f(tk − tl))k,l=1,...,n positiv semidefinit ist.<br />
Lemma 15.28. Ist μ ∈Mf (R d ) mit charakteristischer Funktion ϕ, soistϕ positiv<br />
semidefinit.<br />
Beweis. Es gilt<br />
n�<br />
yk ¯yl ϕ(tk − tl) =<br />
k,l=1<br />
n�<br />
k,l=1<br />
yk ¯yl<br />
�<br />
�n<br />
=<br />
k,l=1<br />
� �<br />
���<br />
n�<br />
=<br />
k=1<br />
�<br />
e ix(tk−tl) μ(dx)<br />
yk e ixtk yl e ixtl μ(dx)<br />
yk e ixtk<br />
Der folgende Satz geht im Falle d =1auf Bochner (1932) zurück.<br />
�2<br />
�<br />
�<br />
� μ(dx) ≥ 0. ✷<br />
Satz 15.29 (Bochner). Eine stetige Funktion f : R d → C ist genau dann die<br />
charakteristische Funktion einer Wahrscheinlichkeitsverteilung auf R d ,wennf<br />
positiv semidefinit ist und f(0) = 1 gilt.<br />
Die Aussage gilt ebenfalls, wenn wir R d durch eine lokalkompakte, abelsche Gruppe<br />
ersetzen.
15.4 Charakteristische Funktion und Momente 299<br />
Beweis. Für den Fall d =1siehe [20, §20, Satz 23] oder [53, Kapitel XIX.2, Seite<br />
622]. Für den ganz allgemeinen Fall siehe etwa [70, Seite 293, Theorem 33.3]. ✷<br />
Übung 15.3.1. (Vergleiche [49] und [3].) Man zeige: Es gibt zwei austauschbare<br />
Folgen X =(Xn)n∈N und Y =(Yn)n∈N reeller Zufallsvariablen mit PX �= PY ,<br />
jedoch mit<br />
Anleitung:<br />
n�<br />
Xk<br />
k=1<br />
D<br />
=<br />
n�<br />
Yk für jedes n ∈ N. (15.4)<br />
k=1<br />
(i) Definiere die charakteristischen Funktionen (siehe Satz 15.12) ϕ1(t) = 1<br />
1+t2 und ϕ2(t) =(1−t/2) + . Zeige mit dem Satz von Pólya, dass<br />
�<br />
ϕ1(t), falls |t| ≤1,<br />
ψ1(t) :=<br />
ϕ2(t), falls |t| > 1,<br />
und<br />
�<br />
ϕ2(t), falls |t| ≤1,<br />
ψ2(t) :=<br />
ϕ1(t), falls |t| > 1,<br />
charakteristische Funktionen von Wahrscheinlichkeitsverteilungen auf R sind.<br />
(ii) Definiere unabhängige Zufallsvariablen Xn,i, Yn,i, n ∈ N, i =1, 2, und Θn,<br />
n ∈ N mit: Xn,i hat charakteristische Funktion ϕi, Yn,i hat charakteristische<br />
Funktion ψi und P[Θn =1]=P[Θn = −1] = 1<br />
2 . Setze Xn = Xn,Θn und<br />
Yn = Yn,Θn . Zeige, dass (15.4) gilt.<br />
(iii) Bestimme E[eit1X1+it2X2 ] und E[eit1Y1+it2Y2 ] für t1 = 1<br />
2 und t2 =2und<br />
folgere, dass (X1,X2) � D =(Y1,Y2) und damit PX �= PY . ♣<br />
15.4 Charakteristische Funktion und Momente<br />
Wir wollen den Zusammenhang zwischen den Ableitungen der charakteristischen<br />
Funktion ϕX einer reellen Zufallsvariablen X und den Momenten von X untersuchen.<br />
Wir beginnen mit einem elementaren Lemma.<br />
Lemma 15.30. Für t ∈ R und n ∈ N gilt<br />
�<br />
�<br />
�<br />
�eit − 1 − it<br />
�<br />
(it)n−1 �<br />
− ...− �<br />
1! (n − 1)! �<br />
≤ |t|n<br />
n! .<br />
Beweis. Dies folgt direkt aus der Taylorformel, da die n-te Ableitung von e it dem<br />
Betrage nach 1 ist. ✷
300 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Satz 15.31 (Momente und Differenzierbarkeit). Sei X eine reelle Zufallsvariable<br />
mit charakteristischer Funktion ϕ.<br />
(i) Ist E[|X| n ] < ∞,soistϕn-mal stetig differenzierbar mit Ableitungen<br />
ϕ (k) (t) =E � (iX) k e itX�<br />
für jedes k =0,...,n.<br />
(ii) Ist speziell E[X 2 ] < ∞,soist<br />
ϕ(t) =1+it E[X] − 1<br />
2 t2 E[X 2 ]+ε(t) t 2<br />
mit ε(t) → 0 für t → 0.<br />
|h|<br />
(iii) Sei h ∈ R. Gilt lim<br />
n→∞<br />
n E[|X| n ]<br />
n! =0,soistfür jedes t ∈ R<br />
∞� (ih)<br />
ϕ(t + h) =<br />
k<br />
k! E � e itX X k� .<br />
k=0<br />
Speziell gilt dies, falls E � e |hX|� < ∞.<br />
Beweis. (i) Für t ∈ R, h ∈ R \{0} und k ∈{1,...,n} sei<br />
Yk(t, h, x) =k! h −k e itx<br />
�<br />
e ihx k−1 � (ihx)<br />
−<br />
l<br />
�<br />
.<br />
l!<br />
Dann ist<br />
E[Yk(t, h, X)] = k! h −k<br />
�<br />
k−1 �<br />
ϕ(t + h) − ϕ(t) − E � e itX (iX) l� hl �<br />
.<br />
l!<br />
Existiert nun der Limes ϕk(t) := limh→0 E[Yk(t, h, X)], soistϕk-mal differenzierbar<br />
in t mit ϕ (k) (t) =ϕk(t).<br />
Es gilt aber (nach Lemma 15.30 mit n = k +1) Yk(t, h, x) h→0<br />
−→ (ix) keitx für<br />
jedes x ∈ R und (nach Lemma 15.30 mit n = k) |Yk(t, h, x)| ≤|x| k . Da nach<br />
Voraussetzung E[|X| k ] < ∞ gilt, folgt mit dem Satz über majorisierte Konvergenz,<br />
dass E[Yk(t, h, X)] h→0<br />
−→ E[(iX) keitX ]=ϕ (k) (t). Eine einfache Anwendung des<br />
Stetigkeitslemmas (Satz 6.27) liefert die Stetigkeit von ϕ (k) .<br />
(ii) Dies folgt direkt aus (i).<br />
(iii) Nach Voraussetzung gilt<br />
l=0<br />
l=1
�<br />
�<br />
�<br />
�ϕ(t<br />
+ h) −<br />
�<br />
n−1 �<br />
k=0<br />
(ih) k<br />
15.4 Charakteristische Funktion und Momente 301<br />
k! E� e itX X k�� � ��� = hn<br />
n!<br />
�<br />
� E[Yn(t, h, X)] � �<br />
≤ hn E[|X| n ]<br />
n!<br />
n→∞<br />
−→ 0. ✷<br />
Korollar 15.32 (Momentenproblem). Sei X eine reelle Zufallsvariable mit<br />
α := lim sup<br />
n→∞<br />
1<br />
n E� |X| n� 1/n < ∞.<br />
Dann ist die charakteristische Funktion ϕ von X analytisch, und die Verteilung<br />
von X ist durch die Angabe der Momente E[X n ], n ∈ N, eindeutig bestimmt.<br />
Speziell gilt dies, falls E � e t|X|� < ∞ ist für ein t>0.<br />
Beweis. Nach der Stirling’schen Formel ist limn→∞ 1<br />
n! nn e −n√ 2πn = 1.Für<br />
|h| < 1/(3α) gilt daher<br />
lim sup<br />
n→∞<br />
E � |X| n� ·|h| n √<br />
/n! = lim sup 2πn<br />
n→∞<br />
�<br />
E � |X| n� �<br />
1/n<br />
n<br />
·|h|·e/n<br />
√<br />
n<br />
≤ lim sup 2πn(e/3) =0.<br />
n→∞<br />
Die charakteristische Funktion ist also um jeden Punkt t ∈ R in eine Potenzreihe<br />
entwickelbar mit Konvergenzradius mindestens 1/(3α), ist insbesondere also analytisch.<br />
Damit ist sie festgelegt durch die Koeffizienten der Potenzreihe um t =0,<br />
also durch die Momente von X. ✷<br />
Beispiele 15.33. (i) Sei X ∼N μ,σ 2.Dannistfür jedes t ∈ R<br />
E � e tX� = � 2πσ 2� −1/2<br />
� ∞<br />
−∞<br />
= e μt+t2 σ 2 /2 � 2πσ 2� −1/2<br />
= e μt+t2 σ 2 /2 < ∞.<br />
e tx e −(x−μ)2 /2σ 2<br />
dx<br />
� ∞<br />
e<br />
−∞<br />
−(x−μ−tσ2 ) 2 /2σ 2<br />
Also ist die Verteilung von X durch Angabe aller Momente komplett bestimmt. Die<br />
charakteristische Funktion ϕ(t) =e iμt e −σ2 t 2 /2 , die wir durch die obige Rechnung<br />
mit it statt t erhalten, ist in der Tat analytisch.<br />
(ii) Sei X exponentialverteilt mit Parameter θ>0. Dannistfür t ∈ (0,θ)<br />
E[e tX ]=θ<br />
� ∞<br />
0<br />
e tx e −θx dx = θ<br />
< ∞.<br />
θ − t<br />
Also ist die Verteilung von X durch Angabe aller Momente bestimmt. Die selbe<br />
Rechnung mit it statt t liefert ϕ(t) =θ/(θ − it), und diese Funktion ist in der Tat<br />
dx
302 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
analytisch. Der Umstand, dass ϕ im Komplexen eine Singularität bei t = −iθ hat,<br />
impliziert, dass die Potenzreihe von ϕ um 0 den Konvergenzradius θ hat. Insbesondere<br />
folgt hieraus, dass nicht alle exponentiellen Momente existieren können. Dies<br />
wird reflektiert durch die obige Rechnung, die zeigt, dass für t ≥ θ keine exponentiellen<br />
Momente existieren.<br />
(iii) Sei X log-normalverteilt (siehe Beispiel 15.5). Dann ist E[X n ] = e n2 /2 .<br />
Speziell ist in diesem Fall α = ∞. Tatsächlich hatten wir in Beispiel 15.5 gesehen,<br />
dass die Momente in diesem Fall nicht die Verteilung von X bestimmen.<br />
(iv) Hat X Werte in N0 und gilt β := lim supn→∞ E[Xn ] 1/n < 1, so gilt nach<br />
den Hadamard-Kriterium ψX(z) := �∞ k=1 P[X = k] zk < ∞ für |z| < 1/β.<br />
Speziell ist die Erzeugendenfunktion von X durch die Ableitungen ψ (n)<br />
X (1), n ∈ N,<br />
und damit durch die Momente von X eindeutig festgelegt. Vergleiche Satz 3.2(iii).<br />
✸<br />
Satz 15.34. Sei X eine reelle Zufallsvariable und ϕ die charakteristische Funktion<br />
von X. Sein ∈ N, und ϕ sei 2n-mal differenzierbar in 0 mit Ableitung ϕ (2n) (0).<br />
Dann gilt E[X 2n ]=ϕ (2n) (0) < ∞.<br />
Beweis. Wir führen den Beweis per Induktion nach n ∈ N0. Für n =0ist die<br />
Aussage trivialerweise richtig. Sei nun n ∈ N, und ϕ sei 2n-mal differenzierbar in<br />
0. Wir setzen u(t) =Re(ϕ(t)). Dannistuebenfalls 2n-mal differenzierbar in 0<br />
und u (2k−1) (0) = 0 für k =1,...,n, weil u gerade ist. Da ϕ (2n) (0) existiert, ist<br />
ϕ (2n−1) stetig in 0 und ϕ (2n−1) (t) existiert für t ∈ (−ε, ε) für gewisses ε>0.<br />
Ferner existiert dann ϕ (k) in (−ε, ε) und ist dort stetig für jedes k =0,...,2n − 2.<br />
Nach der Taylorformel gilt also für jedes t ∈ (−ε, ε)<br />
�<br />
� n−1<br />
�<br />
�<br />
�u(t)<br />
−<br />
�<br />
k=0<br />
�<br />
�<br />
�<br />
�<br />
(2k)! �<br />
u (2k) (0) t2k<br />
≤ |t|2n−1<br />
(2n − 1)!<br />
sup<br />
θ∈(0,1]<br />
�<br />
�<br />
�u (2n−1) �<br />
�<br />
(θt) � . (15.5)<br />
Wir definieren eine stetige Funktion fn : R → [0, ∞) durch fn(0) = 1 und für<br />
x �= 0<br />
fn(x) =(−1) n (2n)! x −2n<br />
�<br />
�<br />
n−1 �<br />
k x2k<br />
cos(x) − (−1) .<br />
(2k)!<br />
Nach Induktionsvoraussetzung ist E[X 2k ]=u (2k) (0) für jedes k =1,...,n− 1.<br />
Es folgt mit (15.5)<br />
E � fn(tX) X 2n� ≤ 2n<br />
|t|<br />
k=0<br />
sup |u<br />
θ∈(0,1]<br />
(2n−1) (θt)| ≤gn(t) :=2n sup<br />
θ∈(0,1]<br />
Mit dem Lemma von Fatou folgt<br />
E � X 2n� = E � fn(0)X 2n� ≤ lim inf<br />
t→0 E�fn(tX)X 2n�<br />
≤ lim inf<br />
t→0 gn(t) =2n � � u (2n) (0) � � < ∞.<br />
|u (2n−1) (θt)|<br />
.<br />
θ |t|
15.4 Charakteristische Funktion und Momente 303<br />
Hieraus folgt nach Satz 15.31 aber schon E[X 2n ]=u (2n) (0) = ϕ (2n) (0). ✷<br />
Bemerkung 15.35. Für ungerade Momente gilt die Aussage des Satzes nicht (siehe<br />
etwa Übung 15.4.4 für das erste Moment). In der Tat ist ϕ in 0 genau dann differenzierbar<br />
mit Ableitung im für ein m ∈ R, wennxP[|X| >x] x→∞<br />
−→ 0 und<br />
E[X {|X|≤x}] x→∞<br />
−→ m. (Siehe [53, Kapitel XVII.2a, Seite 565].) ✸<br />
Übung 15.4.1. Es seien X und Y nichtnegative Zufallsvariablen mit<br />
und<br />
lim sup<br />
n→∞<br />
1<br />
n E[|X|n ] 1/n 1<br />
< ∞, lim sup<br />
n→∞ n E[|Y |n ] 1/n < ∞,<br />
E[X m Y n ]=E[X m ] E[Y n ] für alle m, n ∈ N0.<br />
Man zeige: X und Y sind unabhängig.<br />
Hinweis: Verwende Korollar 15.32 für die Zufallsvariable Y bezüglich des Wahrscheinlichkeitsmaßes<br />
X m P[ · ]/E[X m ] um zu zeigen, dass<br />
E[X m A(Y )]/E[X m ]=P[Y ∈ A] für jedes A ∈B(R) und m ∈ N0.<br />
Verwende nun Korollar 15.32 für X bezüglich des W-Maßes P[ · |Y ∈ A]. ♣<br />
Übung 15.4.2. Seien r, s > 0 und Z ∼ Γ1,r+s, B ∼ βr,s (siehe Beispiel 1.107).<br />
Man zeige mit Hilfe von Übung 15.4.1: Die Zufallsvariablen X := BZ und Y :=<br />
(1 − B)Z sind unabhängig mit X ∼ Γ1,r und Y ∼ Γ1,s. ♣<br />
Übung 15.4.3. Man zeige, dass für α>2 die Funktion φα(t) =e−|t|α keine charakteristische<br />
Funktion ist.<br />
(Hinweis: Man nehme das Gegenteil an und zeige, dass dann die zugehörige Verteilung<br />
verschwindende Varianz hätte.) ♣<br />
Übung 15.4.4. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit charakteristischer<br />
Funktion ϕ. Man zeige:<br />
(i) Ist ϕ differenzierbar in 0, soistϕ ′ (0) = imfür ein m ∈ R.<br />
(ii) ϕ ist differenzierbar in 0 mit ϕ ′ (0) = im genau dann, wenn (X1 + ... +<br />
Xn)/n n→∞<br />
−→ m stochastisch.<br />
(iii) Die Verteilung von X1 kann so gewählt werden, dass ϕ differenzierbar in 0 ist,<br />
aber E[|X1|] =∞. ♣
304 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
15.5 Der Zentrale Grenzwertsatz<br />
Während wir im starken Gesetz der großen Zahl gesehen haben, dass Summen Sn =<br />
X1 + ...+ Xn u.i.v. integrierbarer Zufallsvariablen Werte in etwa von der Größe<br />
n·E[X1] annehmen, wollen wir jetzt anschauen, wie groß und von welcher Form die<br />
typischen Abweichungen von diesem Wert sind – jedenfalls unter der zusätzlichen<br />
Annahme, dass Var[X1] ∈ (0, ∞).<br />
Wir bereiten den Beweis des zentralen Grenzwertsatzes mit einem Lemma vor.<br />
Lemma 15.36. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =μ und<br />
Var[X1] =σ2 ∈ (0, ∞). Sei<br />
n�<br />
(Xk − μ)<br />
S ∗ n := 1<br />
√ nσ 2<br />
k=1<br />
die standardisierte n-te Partialsumme. Dann gilt<br />
lim<br />
n→∞ ϕS∗ n (t) =e−t2 /2<br />
für jedes t ∈ R.<br />
Beweis. Sei ϕ = ϕXk−μ. Dann ist nach Satz 15.31(ii)<br />
ϕ(t) =1− σ2<br />
2 t2 + ε(t) t 2 ,<br />
wobei ε(t) → 0, wennt→0. Nach Lemma 15.11(iv) und (ii) ist<br />
ϕS∗ (t) =ϕ<br />
n<br />
�<br />
Nun ist 1 − t2<br />
�n n→∞<br />
2n −→ e−t2 /2 und<br />
�<br />
�<br />
�<br />
�<br />
�<br />
1 − t2<br />
�n<br />
− ϕ<br />
2n<br />
� t<br />
√nσ 2<br />
� t<br />
√nσ 2<br />
≤ n t2<br />
nσ 2<br />
� n<br />
.<br />
�n � �<br />
� � �<br />
��� � t2<br />
≤ n �<br />
t ���<br />
�1 − − ϕ √nσ<br />
2n 2<br />
�<br />
�<br />
�<br />
�ε � ��<br />
t ��� n→∞<br />
√nσ −→ 0.<br />
2<br />
(Beachte: |u n − v n |≤|u − v|·n · max(|u|, |v|) n−1 für alle u, v ∈ C.) ✷<br />
Satz 15.37 (Zentraler Grenzwertsatz). Seien X1,X2,... u.i.v. reelle Zufallsvariablen<br />
mit μ := E[X1] ∈ R und σ2 := Var[X1] ∈ (0, ∞). Für n ∈ N sei<br />
S∗ n := 1 �n √<br />
σ2n i=1 (Xi − μ). Dann gilt<br />
PS ∗ n<br />
n→∞<br />
−→ N0,1 schwach.<br />
Für −∞ ≤ a
15.5 Der Zentrale Grenzwertsatz 305<br />
Beweis. Nach Lemma 15.36 und dem Lévy’schen Stetigkeitssatz (Satz 15.23) konvergiert<br />
PS ∗ n gegen die Verteilung mit charakteristischer Funktion ϕ(t) =e−t2 /2 .<br />
Nach Satz 15.12(i) ist dies N0,1. Der Zusatz folgt mit dem Portemanteau Theorem<br />
(Satz 13.16), weil N0,1 eine Dichte hat, also N0,1(∂[a, b]) = 0 gilt. ✷<br />
Bemerkung 15.38. Man kann ohne Benutzung des Stetigkeitssatzes auch so argumentieren:<br />
Für jedes K>0 und n ∈ N ist P[|S∗ n| >K] ≤ Var[S ∗ n]/K2 =1/K2 ,<br />
also ist die Folge PS∗ straff. Da die charakteristischen Funktionen verteilungsbe-<br />
n<br />
stimmend sind, folgt die Aussage mit Satz 13.34. ✸<br />
Wir wollen uns nun von der Annahme von Satz 15.37 lösen, dass die Zufallsvariablen<br />
identisch verteilt sind. Tatsächlich können wir sogar Partialsummen bilden, die<br />
jeweils ganz unterschiedliche zentrierte Zufallsvariablen aufsummieren. Entscheidend<br />
ist, dass die Varianz der normierten Summe 1 ist, und dass jeder einzelne<br />
Summanden nur einen kleinen Beitrag liefert.<br />
Definition 15.39. Für jedes n ∈ N sei kn ∈ N und seien Xn,1,...,Xn,kn reelle<br />
Zufallsvariablen. Wir nennen (Xn,l) = � Xn,l, l=1,...,kn, n∈ N � ein Schema<br />
von Zufallsvariablen. Wirdefinieren stets Sn = Xn,1 + ...+ Xn,kn als die<br />
Zeilensumme. Das Schema heißt<br />
– unabhängig, falls für jedes n ∈ N die Familie (Xn,l)l=1,...,kn unabhängig ist,<br />
– zentriert, falls Xn,l ∈L1 (P) und E[Xn,l] =0ist für jedes n und l,<br />
– normiert, falls Xn,l ∈L2 (P) und kn�<br />
Var[Xn,l] =1ist für jedes n ∈ N.<br />
l=1<br />
Ein zentriertes Schema heißt asymptotisch vernachlässigbar, falls für jedes ε>0<br />
lim<br />
n→∞ max P[|Xn,l| >ε]=0.<br />
1≤l≤kn<br />
Definition 15.40. Ein zentriertes Schema (Xn,l) mit Xn,l ∈L 2 (P) für jedes n ∈ N<br />
und l =1,...,kn erfüllt die Lindeberg-Bedingung, falls für jedes ε>0 gilt, dass<br />
Ln(ε) :=<br />
1<br />
Var[Sn]<br />
kn�<br />
l=1<br />
�<br />
E X 2 n,l {X2 n,l >ε2 �<br />
n→∞<br />
Var[Sn]}<br />
−→ 0. (15.6)<br />
Das Schema erfüllt die Lyapunov-Bedingung, falls für ein δ>0 gilt<br />
1<br />
lim<br />
n→∞ Var[Sn] 1+(δ/2)<br />
kn�<br />
E � |Xn,l| 2+δ� =0. (15.7)<br />
Lemma 15.41. Die Lyapunov-Bedingung impliziert die Lindeberg-Bedingung.<br />
l=1
306 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Beweis. Für x ∈ R ist x 2 {|x|>ε ′ } ≤ (ε ′ ) −δ |x| 2+δ {|x|>ε ′ } ≤ (ε ′ ) −δ |x| 2+δ . Mit<br />
ε ′ := ε � Var[Sn] folgt Ln(ε) ≤ ε −δ<br />
1<br />
Var[Sn] 1+(δ/2)<br />
l=1<br />
kn�<br />
E � |Xn,l| 2+δ� . ✷<br />
Beispiel 15.42. Seien (Yn)n∈N u.i.v. mit E[Yn] =0und Var[Yn] =1.Seikn = n<br />
und Xn,l = Yl √n .Dannist(Xn,l) unabhängig, zentriert und normiert. Es gilt<br />
P[|Xn,l| > ε] = P[|Y1| > ε √ n ] n→∞<br />
−→ 0, also ist (Xn,l) asymptotisch vernachlässigbar.<br />
Es gilt Ln(ε) = E � Y 2<br />
1 {|Y1|>ε √ � n→∞<br />
n} −→ 0, alsoerfüllt (Xn,l)<br />
die Lindeberg-Bedingung.<br />
Gilt Y1 ∈L2+δ (P) für ein δ>0, soist<br />
n�<br />
l=1<br />
E � |Xn,l| 2+δ� = n −(δ/2) E � |Y1| 2+δ� n→∞<br />
−→ 0.<br />
In diesem Fall erfüllt (Xn,l) auch die Lyapunov Bedingung. ✸<br />
Der folgende Satz geht auf Lindeberg (1922) für die Richtung (i) =⇒ (ii) und Feller<br />
(1935 und 1937) für die Richtung (ii) =⇒ (i) zurück. In den Anwendungen interessiert<br />
meist nur die Richtung von Lindeberg (i) =⇒ (ii), daher beweisen wir nur<br />
diesen Teil. Für die Richtung (ii) =⇒ (i) siehe etwa [145, Theorem III.4.3].<br />
Satz 15.43 (Zentraler Grenzwertsatz von Lindeberg-Feller). Sei (Xn,l) ein unabhängiges,<br />
zentriertes und normiertes Schema reeller Zufallsvariablen, sowie<br />
Sn = Xn,1 + ...+ Xn,kn für jedes n ∈ N. Dann sind äquivalent<br />
(i) Es gilt die Lindeberg-Bedingung.<br />
(ii) (Xn,l) ist asymptotisch vernachlässigbar, und es gilt PSn<br />
n→∞<br />
−→ N0,1.<br />
Wir bereiten den Beweis des Satzes von Lindeberg mit ein paar Lemmata vor.<br />
Lemma 15.44. Gilt (i) in Satz 15.43, so ist (Xn,l) asymptotisch vernachlässigbar.<br />
Beweis. Für ε>0 ist nach der Chebyshev’schen Ungleichung<br />
kn�<br />
P � |Xn,l| >ε � ≤ ε −2<br />
kn�<br />
E � X 2 n,l<br />
�<br />
{|Xn,l|>ε} = Ln(ε) n→∞<br />
−→ 0. ✷<br />
l=1<br />
l=1<br />
Seien im Folgenden stets ϕn,l und ϕn die charakteristischen Funktionen von Xn,l<br />
und Sn.<br />
Lemma 15.45. Für jedes n ∈ N und t ∈ R gilt<br />
kn� �<br />
�1 − ϕn,l(t) � �<br />
t<br />
≤ 2<br />
2 .<br />
l=1
15.5 Der Zentrale Grenzwertsatz 307<br />
Beweis. Für jedes x ∈ R ist |e itx − 1 − itx| ≤ t2 x 2<br />
2 .WegenE[Xn,l] =0ist<br />
kn�<br />
kn� �<br />
|ϕn,l(t) − 1| = �E[e itXn,l<br />
�<br />
− 1] �<br />
l=1<br />
≤<br />
≤<br />
l=1<br />
kn�<br />
E �� � itXn,l e − itXn,l − 1 � � � + � �E[itXn,l] � �<br />
l=1<br />
kn� t2 l=1<br />
2 E[X2 n,l] = t2<br />
2<br />
. ✷<br />
�<br />
kn�<br />
�<br />
Lemma 15.46. Gilt (i) in Satz 15.43, so ist lim � log ϕn(t)− E � e itXn,l<br />
�<br />
−1 � �<br />
� =0.<br />
n→∞<br />
Beweis. Setze mn := max |ϕn,l(t) − 1|. Beachte, dass für jedes ε>0 gilt:<br />
l=1,...,kn<br />
�<br />
�e itx − 1 � �<br />
2 2 2 x /ε , falls |x| >ε,<br />
� ≤<br />
εt, falls |x| ≤ε.<br />
Hieraus folgt<br />
���e |ϕn,l(t) − 1| ≤E<br />
itXn,l<br />
� � ���e − 1� {|Xn,l|≤ε} + E<br />
itXn,l<br />
� �<br />
− 1� {|Xn,l|>ε}<br />
Also ist für jedes ε>0<br />
≤ εt +2ε −2 �<br />
E X 2 �<br />
n,l {|Xn,l|>ε} .<br />
lim sup<br />
n→∞<br />
l=1<br />
� −2<br />
mn ≤ lim sup εt +2ε Ln(ε)<br />
n→∞<br />
� = εt,<br />
und damit lim<br />
n→∞ mn =0.Nunistfür x ∈ C mit |x| ≤ 1<br />
2 stets | log(1+x)−x| ≤x2 .<br />
Ist n groß genug, sodass mn < 1<br />
2 ,dannist
308 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
�<br />
�<br />
�<br />
�<br />
� log ϕn(t)<br />
kn�<br />
− E[e<br />
l=1<br />
itXn,l<br />
�<br />
�<br />
�<br />
− 1] �<br />
� =<br />
�<br />
� kn�<br />
�<br />
� log(ϕn,l(t)) − E[e<br />
�<br />
l=1<br />
itXn,l<br />
�<br />
�<br />
�<br />
− 1] �<br />
�<br />
≤<br />
kn� �<br />
ϕn,l(t) − 1 �2 l=1<br />
≤ mn<br />
kn�<br />
|ϕn,l(t) − 1|<br />
l=1<br />
≤ 1<br />
2 mn t 2<br />
(nach Lemma 15.45)<br />
−→ 0 für n →∞. ✷<br />
Der eigentliche Trick besteht in der Einführung der Funktion<br />
⎧<br />
1+x<br />
⎪⎨<br />
ft(x) :=<br />
⎪⎩<br />
2<br />
x2 �<br />
e itx − 1 − itx<br />
1+x2 �<br />
, falls x �= 0,<br />
− t2<br />
, falls x =0,<br />
2<br />
sowie der Maße μn,νn ∈Mf (R), n∈ N,<br />
l=1<br />
l=1<br />
(15.8)<br />
kn�<br />
νn(dx) := x 2 PXn,l (dx) und μn(dx)<br />
kn� x<br />
:=<br />
2<br />
PXn,l (dx).<br />
1+x2 Lemma 15.47. Für jedes t ∈ R gilt ft ∈ Cb(R).<br />
Beweis. Für jedes |x| ≥1 ist 1+x2<br />
x2 ≤ 2, also gilt<br />
�<br />
|ft(x)| ≤2 |e itx | +1+ tx<br />
1+x2 �<br />
≤ 4+2|t|.<br />
Wir müssen zeigen, dass ft stetig in 0 ist. Die Taylorformel (Lemma 15.30) liefert<br />
e itx =1+itx − t2 x 2<br />
mit |R(tx)| ≤ 1<br />
6 |tx|3 .Alsoistfür festes t<br />
lim<br />
0�=x→0 ft(x) = lim<br />
0�=x→0<br />
1<br />
x 2<br />
�<br />
itx<br />
2<br />
�<br />
1 − 1<br />
1+x 2<br />
Lemma 15.48. Gilt (i) in Satz 15.43, so gilt νn<br />
+ R(tx)<br />
�<br />
− t2x2 �<br />
+ R(tx)<br />
2<br />
n→∞<br />
−→ δ0 schwach.<br />
= − t2<br />
. ✷<br />
2
Beweis. Für jedes n ∈ N ist νn ∈M1(R), denn<br />
νn(R) =<br />
kn�<br />
�<br />
l=1<br />
x 2 PXn,l (dx) =<br />
15.5 Der Zentrale Grenzwertsatz 309<br />
kn�<br />
Var[Xn,l] =1,<br />
l=1<br />
Für ε>0 gilt aber νn((−ε, ε) c )=Ln(ε) n→∞<br />
−→ 0, also νn<br />
Lemma 15.49. Gilt (i) in Satz 15.43, so gilt<br />
�<br />
�<br />
1<br />
n→∞<br />
ft(x) μn(dx)+it μn(dx) −→ −<br />
x t2<br />
2 .<br />
n→∞<br />
−→ δ0. ✷<br />
Beweis. Wegen (x ↦→ ft(x)/(1 + x2 )) ∈ Cb(R) ist nach Lemma 15.48<br />
�<br />
�<br />
ft(x) μn(dx) = ft(x)<br />
1<br />
n→∞<br />
νn(dx) −→ ft(0) = −<br />
1+x2 t2<br />
2 .<br />
Nun ist (x ↦→ x/(1 + x2 )) ∈ Cb(R) und E[Xn,l] =0für jedes n und l, also<br />
�<br />
1<br />
x μn(dx)<br />
kn�<br />
�<br />
= E<br />
Xn,l<br />
�<br />
kn�<br />
�<br />
= E<br />
Xn,l<br />
�<br />
− Xn,l<br />
l=1<br />
kn�<br />
�<br />
= − E<br />
l=1<br />
�<br />
= −<br />
1+X 2 n,l<br />
l=1<br />
X 2 n,l · Xn,l<br />
1+X 2 n,l<br />
�<br />
1+X 2 n,l<br />
x<br />
n→∞<br />
νn(dx) −→ 0. ✷<br />
1+x2 Beweis von Satz 15.43<br />
” (i) =⇒ (ii)“ Wir müssen für jedes t ∈ R zeigen, dass lim<br />
n→∞ log ϕn(t) =− t2<br />
2 .<br />
Nach Lemma 15.46 ist dies äquivalent zu<br />
lim<br />
n→∞<br />
kn�<br />
l=1<br />
� ϕn,l(t) − 1 � = − t2<br />
2 .<br />
Nun ist ft(x) x2<br />
1+x 2 = e itx − 1 − itx<br />
1+x 2 . Also gilt<br />
kn� �<br />
ϕn,l(t) − 1<br />
l=1<br />
� kn�<br />
� �<br />
x<br />
= ft(x)<br />
l=1<br />
2 itx<br />
+<br />
1+x2 1+x2 �<br />
PXn,l (dx)<br />
�<br />
=<br />
�<br />
ft dμn + it<br />
1<br />
x μn(dx)<br />
n→∞<br />
−→ − t2<br />
2<br />
(nach Lemma 15.49) ✷
310 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
Als eine Anwendung des Satzes von Lindeberg-Feller bringen wir den so genannten<br />
Dreireihensatz, der auf Kolmogorov zurückgeht.<br />
Satz 15.50 (Kolmogorov’scher Dreireihensatz). Seien X1,X2,... unabhängige<br />
reelle Zufallsvariablen. Es sei K>0 und Yn := Xn {|Xn|≤K} für jedes n ∈ N.<br />
Die Reihe �∞ n=1 Xn konvergiert genau dann fast sicher, wenn die folgenden drei<br />
Bedingungen gelten:<br />
(i)<br />
(ii)<br />
(iii)<br />
∞�<br />
P[|Xn| >K] < ∞,<br />
n=1<br />
∞�<br />
E[Yn] konvergiert,<br />
n=1<br />
∞�<br />
Var[Yn] < ∞.<br />
n=1<br />
Beweis. ⇐= “ Es gelten (i), (ii) und (iii). Nach Übung 7.1.1 konvergiert wegen<br />
”<br />
(iii) die Reihe �∞ n=1 (Yn − E[Yn]) f.s. Wegen (ii) konvergiert also �∞ n=1 Yn f.s.<br />
Nach dem Lemma von Borel-Cantelli existiert ein N = N(ω), sodass |Xn| Kunendlich oft, was der<br />
Annahme widerspräche).<br />
Wir nehmen an, dass (iii) nicht gilt und führen dies zum Widerspruch. Wir setzen<br />
σ2 n = �n k=1 Var[Yk] und definieren ein Schema (Xn,l; l = 1,...,n, n ∈ N)<br />
durch Xn,l = (Yl− E[Yl])/σn. Das Schema ist zentriert und normiert. Wegen<br />
σ2 n→∞<br />
n −→ ∞, gilt für jedes ε > 0 und großes n ∈ N, dass2K < εσn, aber<br />
|Xn,l| ≤ ε für alle l = 1,...,n. Es folgt Ln(ε) n→∞<br />
−→ 0, wobei Ln(ε) =<br />
n�<br />
E � X2 �<br />
n,l {|Xn,l|≥ε} die Größe aus der Lindeberg-Bedingung ist (siehe (15.6)).<br />
l=1<br />
Nach dem Satz von Lindeberg-Feller gilt also Sn := Xn,1 +...+Xn,n<br />
n→∞<br />
=⇒ N0,1.<br />
Wie<br />
�<br />
im ersten Teil des Beweises gezeigt, folgt aus der fast sicheren Konvergenz von<br />
∞<br />
n=1 Xn und aus (i)<br />
∞�<br />
n=1<br />
Yn konvergiert fast sicher. (15.9)<br />
n→∞<br />
Insbesondere gilt Tn := (Y1 + ...+ Yn)/σn =⇒ 0. Nach dem Satz von Slutzky<br />
gilt also auch (Sn − Tn) n→∞<br />
=⇒ N0,1. Andererseits ist Sn − Tn deterministisch für<br />
jedes n ∈ N, womit die Annahme, dass (iii) nicht gilt ad absurdum geführt ist.
15.5 Der Zentrale Grenzwertsatz 311<br />
Nachdem wir (iii) schon gezeigt haben, folgt mit Übung 7.1.1, dass � ∞<br />
n=1 (Yn −<br />
E[Yn]) fast sicher konvergiert. Wegen (15.9) folgt (ii). ✷<br />
Als Ergänzung bringen wir ohne Beweis eine Abschätzung für die Konvergenzgeschwindigkeit<br />
im Zentralen Grenzwertsatz (siehe beispielsweise [145, Kapitel III,<br />
§11] für einen Beweis), die mit anderen Konstanten (statt 0.8) unabhängig von Berry<br />
[13] und Esseen [45] gefunden wurde.<br />
Satz 15.51 (Berry-Esseen). Seien X1,X2,... unabhängig und identisch verteilt<br />
mit E[X1] =0, E[X2 1 ]=σ2 ∈ (0, ∞) und γ := E[|X1| 3 ] < ∞. Seien S∗ n :=<br />
√ 1<br />
nσ2 (X1 + ···+ Xn) und Φ : x ↦→ 1<br />
� x<br />
√<br />
2π −∞ e−t2 /2dt die Verteilungsfunktion<br />
der Standardnormalverteilung. Dann gilt für jedes n ∈ N<br />
�<br />
sup �P [S<br />
x∈R<br />
∗ n ≤ x] − Φ(x) � �<br />
0.8 γ<br />
≤<br />
σ3√n .<br />
Übung 15.5.1. Die Argumentation aus Bemerkung 15.38 ist etwas direkter als die<br />
Argumentation mit dem Lévy’schen Stetigkeitssatz, allerdings etwas weniger robust:<br />
Man gebe eine Folge X1,X2,...von unabhängigen, reellen Zufallsvariablen<br />
an mit E[|Xn|] =∞ für jedes n ∈ N, aber mit<br />
X1 + ...+ Xn<br />
√ n<br />
n→∞<br />
=⇒ N0,1. ♣<br />
Übung 15.5.2. Seien Y1,Y2,... u.i.v. mit E[Yi] =0und E[Y 2<br />
i ]=1. Davon unabhängig<br />
seien Z1,Z2,...unabhängige Zufallsvariablen mit<br />
P[Zi = i] =P[Zi = −i] = 1�<br />
1 − P[Zi =0]<br />
2<br />
� = 1 1<br />
.<br />
2 i2 Setze Xi := Yi + Zi und Sn = X1 + ...+ Xn für i, n ∈ N.<br />
Man zeige: n −1/2 Sn<br />
n→∞<br />
=⇒ N0,1, aber (Xi)i∈N erfüllt keine Lindeberg-Bedingung.<br />
Hinweis: Möglichst nicht direkt ausrechnen! ♣<br />
Übung 15.5.3. Seien X1,X2,...u.i.v. Zufallsvariablen mit Dichte<br />
f(x) = 1<br />
|x| 3 R\[−1,1](x).<br />
Dann ist E[X 2 1 ]=∞, aber es gibt Zahlen A1,A2,..., sodass<br />
X1 + ...+ Xn<br />
An<br />
n→∞<br />
=⇒ N0,1.<br />
Man gebe die Folge (An)n∈N explizit an. ♣
312 15 Charakteristische Funktion und Zentraler Grenzwertsatz<br />
15.6 Mehrdimensionaler Zentraler Grenzwertsatz<br />
Wir kommen zu einer mehrdimensionalen Variante des zentralen Grenzwertsatzes.<br />
Definition 15.52. Sei C eine (strikt) positiv definite symmetrische reelle d×d Matrix<br />
und μ ∈ Rd . Ein Zufallsvektor X =(X1,...,Xd) T heißt d-dimensional normalverteilt<br />
mit Erwartungswert μ und Kovarianzmatrix C, falls X die Dichte<br />
fμ,C(x) =<br />
1<br />
� (2π) d det(C) exp<br />
für x ∈ R d hat. Wir schreiben X ∼Nμ,C.<br />
�<br />
− 1<br />
2<br />
� x − μ, C −1 (x − μ) � �<br />
(15.10)<br />
Satz 15.53. Sei μ ∈ R d und C eine reelle positiv definite symmetrische reelle d×d<br />
Matrix. Ist X ∼Nμ,C, dann gelten:<br />
(i) E[Xi] =μi für jedes i =1,...,d.<br />
(ii) Cov[Xi,Xj] =Ci,j für alle i, j =1,...,d.<br />
(iii) 〈λ, X〉 ∼N 〈λ,μ〉,〈λ,Cλ〉 für jedes λ ∈ Rd .<br />
(iv) ϕ(t) :=E[ei〈t,X〉 ]=ei〈t,μ〉 1 − e 2 〈t,Ct〉 für jedes t ∈ Rd .<br />
Es gilt sogar X ∼Nμ,C ⇐⇒ (iii) ⇐⇒ (iv).<br />
Beweis. (i) und (ii) sind einfache Rechnungen, ebenso (iii) und (iv). Die Implikation<br />
(iii) =⇒ (iv) ist simpel. Die Familie {ft : x ↦→ e i〈t,x〉 ,t∈ R d } ist trennend für<br />
M1(R d ) nach dem Satz von Stone–Weierstraß. Also legt ϕ die Verteilung von X<br />
eindeutig fest. ✷<br />
Bemerkung 15.54. Für eindimensionale Normalverteilungen liegt es nahe, Nμ,0 als<br />
δμ zu definieren. Einen so einfachen Begriff können wir bei mehrdimensionalen<br />
Normalverteilungen nicht mehr erwarten (außer für den Fall C =0), wenn eine<br />
Entartung nur in einigen Richtungen auftritt, also C nur noch positiv semidefinit<br />
und symmetrisch ist. In diesem Fall definieren wir Nμ,C als diejenige Verteilung<br />
auf Rn mit charakteristischer Funktion ϕ(t) =ei〈t,μ〉 1 − e 2 〈t,Ct〉 . ✸<br />
Satz 15.55 (Cramér-Wold Device). Sind Xn =(Xn,1,...,Xn,d) T ∈ R d , n ∈<br />
N ∪{∞}, Zufallsvektoren, so gilt genau dann<br />
PXn<br />
wenn für jedes λ ∈ R d gilt, dass<br />
P 〈λ,Xn〉<br />
n→∞<br />
−→ PX∞<br />
schwach, (15.11)<br />
n→∞<br />
−→ P 〈λ,X∞〉 schwach. (15.12)
15.6 Mehrdimensionaler Zentraler Grenzwertsatz 313<br />
Beweis. Gelte (15.11). Sei λ ∈ Rd und s ∈ R. Die Abbildung Rd → C, x ↦→<br />
eis〈λ,x〉 ist stetig und beschränkt, also gilt E[eis〈λ,Xn〉 ] n→∞<br />
−→ E[eis〈λ,X∞〉 ]. Damit<br />
gilt (15.12).<br />
Gelte nun (15.12). Dann ist (Xn,l)n∈N straff, l = 1,...,d.Alsoist(Xn)n∈N<br />
straff und damit relativ folgenkompakt (Satz von Prohorov). Für jeden schwachen<br />
Häufungspunkt Q von (PXn )n∈N ist für jedes λ ∈ Rd �<br />
Q(dx) e i〈λ,x〉 = E � e i〈λ,X∞〉� .<br />
Also gilt Q = PX∞ und damit (15.11). ✷<br />
Satz 15.56 (Zentraler Grenzwertsatz im R d ). Seien (Xn)n∈N u.i.v. Zufallsvek-<br />
toren mit E[Xn,i] = 0 und E[Xn,iXn,j] = Cij, i, j = 1,...,d.SeiS∗ n :=<br />
X1+...+Xn √ . Dann gilt<br />
n<br />
PS ∗ n<br />
n→∞<br />
−→ N0,C schwach.<br />
Beweis. Sei λ ∈ Rd . Setze Xλ n = 〈λ, Xn〉, Sλ n = 〈λ, S∗ n〉 und S∞ ∼N0,C. Dann<br />
ist E[Xλ n]=0und Var[X λ n]=〈λ, Cλ〉. Nach dem eindimensionalen Zentralen<br />
n→∞<br />
Grenzwertsatz gilt PSλ −→ N<br />
n<br />
0,〈λ,Cλ〉 = P 〈λ, S∞〉. Nach Satz 15.55 zeigt dies<br />
die Aussage. ✷<br />
Übung 15.6.1. Sei μ ∈ R d , C eine symmetrische positiv semidefinite reelle d × d<br />
Matrix und X ∼Nμ,C (im Sinne von Bemerkung 15.54). Man zeige: Für jedes<br />
m ∈ N und jede reelle m × d Matrix A gilt AX ∼N Aμ,ACA T . ♣<br />
Übung 15.6.2. (Cholesky-Faktorisierung) Sei C eine positiv definite symmetrische<br />
reelle d × d Matrix. Dann existiert eine reelle d × d Matrix A = (akl)<br />
mit A · A T = C. Man kann A sogar als untere Dreiecksmatrix wählen. Sei<br />
W := (W1,...,Wd) T ,woW1,...,Wd unabhängig und N0,1 verteilt sind. Wir<br />
setzen X := AW + μ. Man zeige: X ∼Nμ,C. ♣
16 Unbegrenzt teilbare Verteilungen<br />
Die Normalverteilung N μ,σ 2 lässt sich für jedes n ∈ N als n-te Faltungspotenz eines<br />
W-Maßes schreiben (nämlich von N μ/n,σ 2 /n). Die selbe Eigenschaft, die wir<br />
unbegrenzte Teilbarkeit nennen, hat die Poisson-Verteilung. Im ersten Abschnitt<br />
untersuchen wir, welche W-Maße auf R unbegrenzt teilbar sind und geben eine<br />
erschöpfende Beschreibung der Klasse dieser Maße durch die Lévy-Khinchin Formel.<br />
Die Normalverteilung hat (im Gegensatz zur Poisson-Verteilung) die Eigenschaft,<br />
dass sie als Grenzwert reskalierter Summen von u.i.v. Zufallsvariablen auftritt (Zentraler<br />
Grenzwertsatz). Im zweiten Abschnitt untersuchen wir knapp die Teilklasse<br />
unbegrenzt teilbarer Maße auf R, die diese Eigenschaft haben.<br />
16.1 Die Lévy-Khinchin Formel<br />
Zur Abkürzung verwenden wir in diesem Abschnitt die Bezeichnung CFW“ für<br />
”<br />
” charakteristische Funktion eines W-Maßes auf R“.<br />
Definition 16.1. Ein Maß μ ∈M1(R) heißt unbegrenzt teilbar, falls es für jedes<br />
n ∈ N ein μn ∈M1(R) mit der Eigenschaft μ∗n n = μ gibt. Analog nennen wir eine<br />
CFW ϕ unbegrenzt teilbar, falls es zu jedem n ∈ N eine CFW ϕn gibt mit ϕ = ϕn n.<br />
Eine reelle Zufallsvariable X heißt unbegrenzt teilbar, falls es zu jedem n ∈ N u.i.v.<br />
Zufallsvariablen Xn,1,...,Xn,n gibt mit X D = Xn,1 + ...+ Xn,n.<br />
Offenbar sind alle drei Begriffe der unendlichen Teilbarkeit äquivalent, und wir<br />
wollen sie synonym verwenden. Man beachte, dass die Eindeutigkeit von μn beziehungsweise<br />
ϕn keineswegs evident ist. Tatsächlich folgt aus der n-fachen Teilbarkeit<br />
noch nicht die Eindeutigkeit der n-ten Faltungswurzel μ ∗1/n := μn beziehungsweise<br />
von ϕn. Um dies für gerades n einzusehen, wähle man etwa eine reelle<br />
CFW ϕ, für die |ϕ| �= ϕ ebenfalls eine CFW ist (siehe Beispiel 15.16 und 15.17).<br />
Dann ist ϕ n = |ϕ| n n-fach teilbar, jedoch sind die Faktoren nicht eindeutig.<br />
Mit Hilfe des Lévy’schen Stetigkeitssatzes kann man zeigen (siehe Übung 16.1.1),<br />
dass ϕ(t) �= 0für alle t ∈ R gilt, falls ϕ unbegrenzt teilbar ist. Die probabilistische<br />
Bedeutung dieser Aussage liegt darin, dass log(ϕ(t)) als stetige Funktion eindeutig
316 16 Unbegrenzt teilbare Verteilungen<br />
definiert ist und damit auch nur genau eine stetige Funktion ϕ 1/n = exp(log(ϕ)/n)<br />
existiert. Die n-ten Faltungswurzeln sind also eindeutig definiert, falls die Verteilung<br />
unbegrenzt teilbar ist.<br />
Beispiele 16.2. (i) δx ist unbegrenzt teilbar mit δ ∗n<br />
x/n = δx für jedes n ∈ N.<br />
(ii) Die Normalverteilung ist unbegrenzt teilbar mit N m,σ 2 = N ∗n<br />
m/n,σ 2 /n .<br />
(iii) Die Cauchy-Verteilung Caua mit Dichte x ↦→ (aπ) −1 (1 + (x/a) 2 ) −1 ist<br />
unbegrenzt teilbar mit Caua =Cau ∗n<br />
a/n. In der Tat: Caua hat CFW ϕa(t) =e−a|t| ,<br />
also ist ϕn a/n = ϕa.<br />
(iv) Jede symmetrische stabile Verteilung mit Index α ∈ (0, 2] und Größenparameter<br />
γ>0, also mit CFW ϕα,γ(t) =e−|γt|α, ist unbegrenzt teilbar. In der Tat<br />
ist ϕn α,γ/n1/α = ϕα,γ. (Genau genommen haben wir bislang erst für α ∈ (0, 1] (in<br />
Korollar 15.25) und für α =2(Normalverteilung) gezeigt, dass ϕα,γ überhaupt<br />
eine CFW ist. In Abschnitt 16.2 zeigen wir, dass dies tatsächlich für alle α ∈ (0, 2]<br />
richtig ist. Für α>2 ist ϕα,γ hingegen keine CFW, siehe Übung 15.4.3.)<br />
(v) Die Gamma-Verteilung Γθ,r mit CFW ϕθ,r(t) =exp(rψθ(t)), woψθ(t) =<br />
log(1 − it/θ) ist, ist unbegrenzt teilbar mit Γθ,r = Γ ∗n<br />
θ,r/n .<br />
(vi) Die Poisson-Verteilung ist unbegrenzt teilbar mit Poiλ =Poi ∗n<br />
λ/n.<br />
(vii) Die negative Binomialverteilung b− � �<br />
−r<br />
r,p({k}) = (−1)<br />
k<br />
kpr (1 − p) k , k ∈<br />
N0, mit Parametern r > 0 und p ∈ (0, 1) ist unbegrenzt teilbar mit b− r,p<br />
(b<br />
=<br />
−<br />
r/n,p )∗n .InderTatistϕr,p(t) =erψp(t) ,wo<br />
ψp(t) =log(p) − log(1 − (1 − p)e it ).<br />
(viii) Seien X und Y unabhängig und X ∼ N 0,σ 2 sowie Y ∼ Γθ,r, wobei<br />
σ 2 ,θ,r > 0 sind. Man kann zeigen, dass die Zufallsvariable Z := X/ √ Y unbegrenzt<br />
teilbar ist (siehe [64] oder [123]). Insbesondere ist die Student’sche t-<br />
Verteilung mit k ∈ N Freiheitsgraden unbegrenzt teilbar (dieses ist der Fall σ 2 =1<br />
und θ −1 = r = k).<br />
(ix) Die Binomialverteilung bn,p ist für n ∈ N und p ∈ (0, 1) nicht unbegrenzt<br />
teilbar (warum?).<br />
(x) Etwas allgemeiner ist außer der trivialen Verteilung keine Verteilung unbegrenzt<br />
teilbar, die auf ein endliches Intervall konzentriert ist. ✸<br />
Ein Hauptziel dieses Abschnitts ist es zu zeigen, dass sich jede unbegrenzt teilbare<br />
Verteilung aus drei generischen zusammensetzt:
– den Punktverteilungen δx mit x ∈ R,<br />
– den Normalverteilungen Nμ,σ2 mit μ ∈ R und σ2 > 0,<br />
– (Grenzwerten von) Faltungen von Poisson-Verteilungen.<br />
16.1 Die Lévy-Khinchin Formel 317<br />
Da die Faltungen von Poisson-Verteilungen eine besondere Rolle spielen, wollen<br />
wir sie hier gesondert betrachten.<br />
Ist ν ∈ M1(R) mit CFW ϕν und ist λ > 0, so kann man leicht nachrechnen,<br />
dass ϕ(t) =exp(λ(ϕν(t) − 1)) die CFW von μλ = �∞ λk<br />
k=0<br />
e−λ<br />
k! ν∗k ist. Formal<br />
können wir also μλ = e∗λ(ν−δ0) schreiben. Tatsächlich ist μλ unbegrenzt teilbar<br />
. Wir wollen nun die Parameter λ und ν zu λν zusammenfassen.<br />
mit μλ = μ∗n λ/n<br />
Für ν ∈Mf (R) können wir ν∗n = ν(R) n (ν/ν(R)) ∗n setzen, beziehungsweise<br />
ν∗n =0, falls ν =0. Wir treffen daher die folgende Definition.<br />
Definition 16.3. Die zusammengesetzte Poissonverteilung (compound Poisson<br />
distribution) mit Intensitätsmaß ν ∈Mf (R) ist das folgende W-Maß auf R:<br />
CPoiν := e ∗(ν−ν(R)δ0) := e −ν(R)<br />
Die CFW von CPoiν ist gegeben durch<br />
��<br />
ϕν(t) =exp<br />
∞�<br />
n=0<br />
ν ∗n<br />
n! .<br />
(e itx �<br />
− 1) ν(dx) . (16.1)<br />
Speziell ist CPoiμ+ν =CPoiμ ∗ CPoiν, also ist CPoiν unbegrenzt teilbar.<br />
Beispiel 16.4. Für jede messbare Menge A ⊂ R \{0} und jedes r>0 ist<br />
r −1 CPoirν(A) =e −rν(R) ν(A)+e −rν(R)<br />
∞�<br />
k=2<br />
r k−1 ν ∗k (A)<br />
k!<br />
r↓0<br />
−→ ν(A).<br />
Wir wollen dies benutzen um zu zeigen, dass b − r,p =CPoirν für ein gewisses ν ∈<br />
Mf (N). Wir berechnen dazu für k ∈ N<br />
r −1 b − r,p({k}) =<br />
r(r +1)···(r + k − 1)<br />
rk!<br />
p r k r↓0<br />
(1 − p) −→<br />
(1 − p)k<br />
.<br />
k<br />
Wenn b − r,p =CPoirν für ein ν ∈Mf (N) ist, ist also ν({k}) =(1− p) k /k. Wir<br />
berechnen die CFW von CPoirν für dieses ν<br />
�<br />
∞�<br />
ϕrν(t) =exp r<br />
k<br />
k=1<br />
((1 − p)e it ) k<br />
�<br />
= � 1 − (1 − p)e it�−r .<br />
Dies ist aber die CFW von b − r,p, also ist tatsächlich b − r,p =CPoirν. ✸
318 16 Unbegrenzt teilbare Verteilungen<br />
Nicht jede unbegrenzt teilbare Verteilung ist vom Typ CPoiν, allerdings gilt:<br />
Satz 16.5. Ein W-Maß μ auf R ist genau dann unbegrenzt teilbar, wenn es eine<br />
n→∞<br />
Folge (νn)n∈N in Mf (R \{0}) gibt mit CPoiνn −→ μ.<br />
Da jedes CPoiνn unbegrenzt teilbar ist, müssen wir einerseits zeigen, dass diese<br />
Eigenschaft unter schwachen Limiten erhalten bleibt. Andererseits zeigen wir, dass<br />
für unbegrenzt teilbares μ die Folge νn = nμ∗1/n das Gewünschte leistet. Wir<br />
bereiten den Beweis mit einem weiteren Satz vor.<br />
Satz 16.6. Sei (ϕn)n∈N eine Folge von CFWs. Dann sind äquivalent:<br />
(i) Für jedes t ∈ R existiert ϕ(t) = lim<br />
n→∞ ϕnn(t), und ϕ ist stetig in 0.<br />
(ii) Für jedes t ∈ R existiert ψ(t) = lim<br />
n→∞ n(ϕn(t) − 1), und ψ ist stetig in 0.<br />
Gelten (i) und (ii), so ist ϕ = e ψ eine CFW.<br />
Beweis. Der Beweis beruht auf der Taylor-Entwicklung des Logarithmus’<br />
| log(z) − (z − 1)| ≤|z − 1| 2 /2 für z ∈ C mit |z − 1| < 1/2.<br />
Speziell gilt für (zn)n∈N in C<br />
lim sup<br />
n→∞<br />
n |zn − 1| < ∞ ⇐⇒ lim sup |n log(zn)| < ∞. (16.2)<br />
n→∞<br />
und limn→∞ n(zn − 1) = limn→∞ n log(zn), falls einer der Limiten existiert.<br />
Wenden wir dies auf zn = ϕn(t) an, so folgt (i) aus (ii). Andererseits folgt (ii) aus<br />
(i), wenn lim infn→∞ n log(|ϕn(t)|) > −∞, also wenn ϕ(t) �= 0für jedes t ∈ R.<br />
Da ϕ stetig in 0 ist und ϕ(0) = 1 gilt, gibt es ein ε>0 mit |ϕ(t)| > 1<br />
2 für jedes<br />
t ∈ [−ε, ε]. Daϕund ϕn CFWs sind, sind auch |ϕ| 2 und |ϕn| 2 CFWs. Aus der<br />
punktweisen Konvergenz von |ϕn(t)| 2n gegen |ϕ(t)| 2 folgt nach dem Lévy’schen<br />
Stetigkeitssatz also die gleichmäßige Konvergenz auf kompakten Mengen. Wende<br />
nun (16.2) mit zn = |ϕn(t)| 2 an. Für t ∈ [−ε, ε] ist daher (n(1 −|ϕn(t)| 2 ))n∈N<br />
beschränkt. Nach Lemma 15.11(v) ist dann aber auch n(1 −|ϕn(2t)| 2 ) ≤ 4n(1 −<br />
|ϕn(t)| 2 ) beschränkt, also<br />
|ϕ(2t)| 2 ≥ lim inf<br />
n→∞ exp(4n(|ϕn(t)| 2 − 1)) = (|ϕ(t)| 2 ) 4 .<br />
Iterativ erhalten wir |ϕ(t)| ≥2−(4k ) k für |t| ≤2 ε. Es gibt also ein γ>0, sodass<br />
|ϕ(t)| > 1 t2<br />
e−γ<br />
2<br />
Gelten (i) und (ii), so ist<br />
für jedes t ∈ R. (16.3)
16.1 Die Lévy-Khinchin Formel 319<br />
log ϕ(t) = lim<br />
n→∞ n log(ϕn(t)) = lim<br />
n→∞ n(ϕn(t) − 1) = ψ(t).<br />
Nach dem Lévy’schen Stetigkeitssatz ist ϕ als stetiger Limes von CFWs selbst eine<br />
CFW. ✷<br />
Korollar 16.7. Gelten die Bedingungen von Satz 16.6, so ist ϕ r eine CFW für jedes<br />
r>0. Insbesondere ist ϕ =(ϕ 1/n ) n unbegrenzt teilbar.<br />
Beweis. Ist ϕn die CFW von μn ∈ M1(R), soiste rn(ϕn−1) die CFW von<br />
CPoirnμn . Als in 0 stetiger Limes von CFWs ist ϕr = e rψ = limn→∞ e rn(ϕn−1)<br />
nach dem Lévy’schen Stetigkeitssatz eine CFW. Mit r = 1<br />
n folgt, dass ϕ =(ϕ1/n ) n<br />
unbegrenzt teilbar ist. ✷<br />
Korollar 16.8. Eine in 0 stetige Funktion ϕ : R → C ist genau dann eine unbegrenzt<br />
teilbare CFW, wenn es eine Folge (ϕn)n∈N von CFWs gibt mit ϕ n n(t) → ϕ(t)<br />
für jedes t ∈ R.<br />
Beweis. Die eine Richtung ist schon in Korollar 16.7 gezeigt worden. Sei also ϕ<br />
eine unbegrenzt teilbare CFW. Dann leistet ϕn = ϕ 1/n das Gewünschte. ✷<br />
Korollar 16.9. Ist (μn)n∈N eine (schwach) konvergente Folge unbegrenzt teilbarer<br />
W-Maße auf R, soistμ = limn→∞ μn unbegrenzt teilbar.<br />
Beweis. Wende Satz 16.6 an mit ϕn die CFW von μ ∗1/n<br />
n . ✷<br />
Korollar 16.10. Ist μ ∈ M1(R) unbegrenzt teilbar, so existiert eine stetige Faltungshalbgruppe<br />
(μt)t≥0 mit μ1 = μ und ein stochastischer Prozess (Xt)t≥0 mit<br />
unabhängigen, stationären Zuwächsen Xt − Xs ∼ μt−s für t>s.<br />
Beweis. Sei ϕ die CFW von μ. Die Existenz der Faltungshalbgruppe folgt aus Korollar<br />
16.8 und 16.7, indem wir μr durch ϕ r definieren. Die Stetigkeit der Halbgruppe<br />
folgt, da ϕ r → 1 für r → 0 (weil ϕ r (t) �= 0für alle t ∈ R). Schließlich folgt die<br />
Existenz des Prozesses X aus Satz 14.47. ✷<br />
Korollar 16.11. Ist ϕ eine unbegrenzt teilbare CFW, so existiert ein γ > 0 mit<br />
für jedes t ∈ R. Speziell ist t ↦→ e−|t|α für kein α>2 eine CFW.<br />
|ϕ(t)| ≥ 1 t2<br />
2e−γ Beweis. Dies folgt direkt aus (16.3). ✷<br />
Beweis (von Satz 16.5). Da CPoiνn unbegrenzt teilbar ist, ist nach Korollar 16.9<br />
auch der schwache Limes unbegrenzt teilbar.<br />
Sei nun μ unbegrenzt teilbar mit CFW ϕ. Wähle W-Maße μn mit CFW ϕn wie in<br />
n(ϕn−1) n→∞<br />
n→∞<br />
Korollar 16.8. Nach Satz 16.6 gilt e −→ ϕ, also auch CPoinμn −→ ν.<br />
✷
320 16 Unbegrenzt teilbare Verteilungen<br />
Ohne Beweis bringen wir die folgende Verschärfung von Korollar 16.8, die auf einer<br />
feineren Analyse mit den Argumenten aus Satz 16.6 beruht.<br />
Satz 16.12. Sei (ϕn,l; l =1,...,kn, n∈ N) ein Schema von CFWs mit der Eigenschaft<br />
sup lim sup sup sup |ϕn,l(t) − 1| =0. (16.4)<br />
L>0 n→∞ t∈[−L,L] l=1,...,kn<br />
�kn Existiert für jedes t ∈ R der Limes ϕ(t) := limn→∞ l=1 ϕn,l(t), und ist ϕ stetig<br />
in 0, soistϕeine unbegrenzt teilbare CFW.<br />
Beweis. Siehe etwa [53, Kapitel XV.7]. ✷<br />
n→∞<br />
In dem Fall, wo für jedes n die ϕn,l alle gleich sind und kn −→ ∞, gilt (16.4)<br />
automatisch, wenn das Produkt gegen eine stetige Funktion konvergiert. Der Satz<br />
liefert also tatsächlich eine Verbesserung von Korollar 16.8.<br />
Der Wert des Satzes liegt in der folgenden Beobachtung. Sei (Xn,l; l =1,...,kn,<br />
n ∈ N) ein Schema reeller Zufallsvariablen mit CFWs ϕn,l. Genau dann ist das<br />
Schema asymptotisch vernachlässigbar, wenn (16.4) gilt: Gilt P[|Xn,l| >ε]
16.1 Die Lévy-Khinchin Formel 321<br />
Satz 16.14 (Lévy-Khinchin Formel auf [0, ∞)). Sei μ ∈M1([0, ∞)) und u :<br />
[0, ∞) → [0, 1], t ↦→ −log � e −tx μ(dx) die log-Laplace Transformierte von μ.<br />
Genau dann ist μ unbegrenzt teilbar, wenn es ein α ≥ 0 und ein σ-endliches Maß<br />
ν ∈M((0, ∞)) mit �<br />
(1 ∧ x) ν(dx) < ∞ (16.5)<br />
gibt, sodass<br />
�<br />
�1 −tx<br />
u(t) =αt + − e � ν(dx) für t ≥ 0. (16.6)<br />
Das Paar (α, ν) ist dann eindeutig. Wir nennen ν das kanonische Maß oder Lévy-<br />
Maß von μ und α den deterministischen Anteil.<br />
Beweis. ” =⇒ “ Sei zunächst μ unbegrenzt teilbar. Der Fall μ = δ0 ist trivial.<br />
Sei nun μ �= δ0, also u(1) > 0.<br />
n→∞<br />
Nach Satz 16.5 existieren ν1,ν2,...∈Mf (R\{0}) mit CPoiνn −→ μ. Offenbar<br />
können wir νn((−∞, 0)) = 0 annehmen. Setzen wir un(t) := � (1 − e−tx ) νn(dx),<br />
so gilt (nach (16.1)) un(t) n→∞<br />
−→ u(t) für jedes t ≥ 0. Speziell ist un(1) > 0 für<br />
große n. Definiere ˜νn ∈M1([0, ∞)) durch ˜νn(dx) := 1−e−x<br />
un(1) νn(dx). Für jedes<br />
t ≥ 0 gilt dann<br />
�<br />
e −tx ˜νn(dx) = un(t +1)−un(t) n→∞ u(t +1)−u(t) −→ .<br />
un(1)<br />
u(1)<br />
Also existiert ˜ν := w-lim ˜νn (in M1([0, ∞)) und ist eindeutig durch u festgelegt.<br />
Wir setzen α := ˜ν({0}) u(1) und definieren ν ∈M((0, ∞)) durch<br />
ν(dx) =u(1)(1 − e −x ) −1 (0,∞)(x)˜ν(dx).<br />
Wegen 1 ∧ x ≤ 2(1 − e−x ) für alle x ≥ 0 ist dann offenbar<br />
�<br />
�<br />
(1 ∧ x) ν(dx) ≤ 2 (1 − e −x ) ν(dx) ≤ u(1) < ∞.<br />
Für jedes t ≥ 0 ist die Funktion (vergleiche (15.8))<br />
ft :[0, ∞) → [0, ∞), x ↦→<br />
� 1−e −tx<br />
1−e −x , falls x>0,<br />
t, falls x =0,<br />
stetig und beschränkt (durch t ∧ 1), also gilt<br />
u(t) = lim<br />
n→∞ un(t) = lim<br />
n→∞ un(1)<br />
�<br />
�<br />
ft d˜νn<br />
�<br />
= u(1) ft d˜ν = αt + (1 − e −tx ) ν(dx).
322 16 Unbegrenzt teilbare Verteilungen<br />
” ⇐= “ Seien nun α und ν gegeben. Sei I0 =[1, ∞) und Ik =[1/(k +1), 1/k)<br />
für k ∈ N. Seien X0,X1,...unabhängige Zufallsvariablen mit PXk =CPoi (ν| Ik )<br />
für k = 0, 1,..., und sei X := α + �∞ k=0 Xk. �<br />
Für jedes k ∈ N ist E[Xk] =<br />
Ik xν(dx), also ist �∞ k=1 E[Xk] = �<br />
xν(dx) < ∞. Mithin gilt X
16.1 Die Lévy-Khinchin Formel 323<br />
(16.9) äquivalent zu der Bedingung �<br />
(−1,1) x2 ν(dx) < ∞. Daν0 stets endlich ist,<br />
ist dies wiederum äquivalent zu � (x2 ∧ 1) ν(dx) < ∞.<br />
Definition 16.16. Ein σ-endliches Maß ν auf R mit ν({0}) =0und<br />
� �x 2 ∧ 1 � ν(dx) < ∞ (16.10)<br />
heißt kanonisches Maß.Sindσ 2 ≥ 0 und b ∈ R, so heißt (σ 2 ,b,ν) ein kanonisches<br />
Tripel.<br />
Zu jedem kanonischen Tripel gehört über die Konstruktion (16.8) eine unbegrenzt<br />
teilbare Zufallsvariable. Wir setzen<br />
ψ0(t) = log E � e itX0� �<br />
� � itx<br />
= e − 1 ν(dx)<br />
und für k ∈ N<br />
ψk(t) = log E � e it(Xk−αk) � �<br />
=<br />
Also genügt<br />
der Lévy-Khinchin Formel<br />
ψ(t) :=logE � e itX� = − σ2<br />
2 t2 + ibt +<br />
ψ(t) =− σ2<br />
2 t2 + ibt +<br />
I0<br />
Ik<br />
� e itx − 1 − itx � ν(dx).<br />
∞�<br />
ψk(t)<br />
k=0<br />
�<br />
�e � itx<br />
− 1 − itx {|x|
324 16 Unbegrenzt teilbare Verteilungen<br />
(i) Durch (16.11) wird das kanonische Tripel eindeutig bestimmt.<br />
(ii) Zu jeder unbegrenzt teilbaren Verteilung existiert ein kanonisches Tripel, sodass<br />
(16.11) gilt.<br />
(i) Eindeutigkeit Wir setzen gt(x) =e itx − 1 − itx {|x|
16.1 Die Lévy-Khinchin Formel 325<br />
Dann ist nach (16.1) und mit gt aus (i)<br />
�<br />
ψn(t) :=log e itx �<br />
CPoiνn (dx) = (e itx �<br />
− 1) νn(dx) = gt dνn + ibnt.<br />
Wie in (16.14) ist<br />
n→∞<br />
ψ n(t) :=ψn(t) − 1<br />
2<br />
� t+1<br />
t−1<br />
�<br />
ψn(s) ds = e itx h(x) νn(dx).<br />
Da ψn −→ ψ gleichmäßig auf kompakten Mengen konvergiert (Satz 15.23(i)),<br />
n→∞<br />
und weil ψ stetig und damit lokal beschränkt ist, gilt ψn −→ ψ punktweise, also<br />
�<br />
e itx h(x) νn(dx) n→∞<br />
−→ ψ(t). (16.15)<br />
Speziell ist ψn(0) < 0 für große n. Setzen wir ˜νn(dx) =−(h(x)/ψn(0))νn(dx) ∈<br />
M1(R), sogilt � eitx ˜νn(dx) n→∞<br />
−→ −ψ(t)/ψ(0), wobei die rechte Seite stetig ist.<br />
Nach dem Lévy’schen Stetigkeitssatz gibt es also ein ˜ν ∈M1(R) mit ˜νn<br />
n→∞<br />
−→ ˜ν<br />
und<br />
�<br />
ψ(t) =−ψ(0) e itx ˜ν(dx).<br />
Wir setzen σ 2 := −6 ψ(0) ˜ν({0}) und definieren ein kanonisches Maß ν durch<br />
Die Abbildung (vergleiche (15.8))<br />
ν(dx) =− ψ(0)<br />
h(x)<br />
ft : R → C, x ↦→<br />
{x�=0} ˜ν(dx).<br />
�<br />
gt(x)<br />
h(x) , falls x �= 0,<br />
−3t 2 , falls x =0,<br />
ist stetig und beschränkt. Nach Voraussetzung ist<br />
� �<br />
�<br />
ft(x)˜νn(dx)+ibnt .<br />
ψ(t) = lim<br />
n→∞ ψn(t) = lim<br />
n→∞<br />
Da die Integrale konvergieren, existiert auch b = limn→∞ bn, und es ist<br />
�<br />
ψ(t) = ft d˜ν + ibt = − σ2<br />
2 t2 �<br />
+ ibt + gt dν. ✷<br />
Bemerkung 16.18. Es gibt mehrere Varianten der Lévy-Khinchin Formel<br />
ψ(t) =− σ2<br />
2 t2 �<br />
�e � itx<br />
+ ibt + − 1 − it f(x) ν(dx),
326 16 Unbegrenzt teilbare Verteilungen<br />
die sich in der Funktion it f(x) unterscheiden, die als Zentrierung im Integral abgezogen<br />
wird. Wir haben f(x) =x {|x|0<br />
n Cau1/n(A) = 1<br />
�<br />
π<br />
A<br />
n2 n→∞<br />
dx −→<br />
1+(nx) 2 1<br />
π<br />
�<br />
A<br />
1<br />
dx.<br />
x2 Also hat Cau1 das kanonische Tripel � 0, 0, (πx 2 ) −1 dx � . ✸<br />
Übung 16.1.1. Man zeige mit einem Varianzargument, dass eine unbegrenzt teilbare<br />
Verteilung, die auf einem endlichen Intervall konzentriert liegt, schon in einem<br />
einzigen Punkt konzentriert ist. ♣<br />
Übung 16.1.2. Sei ϕ unbegrenzt teilbar, und für jedes n ∈ N sei ϕn eine CFW mit<br />
ϕn n = ϕ. Man zeige mit Hilfe des Lévy’schen Stetigkeitssatzes, dass gleichmäßig<br />
n→∞<br />
auf kompakten Mengen ϕn −→ 1 gilt und folgere hieraus, dass ϕ(t) �= 0für<br />
jedes t ∈ R. ♣<br />
Übung 16.1.3. Man zeige, dass unter den Bedingungen von Satz 16.14 gilt:<br />
α =sup � x ≥ 0: μ([0,x)) = 0 � . ♣
16.2 Stabile Verteilungen<br />
Symmetrische stabile Verteilungen<br />
Für α ∈ (0, 2) sei<br />
�<br />
θα := (1 − cos(x)) |x| −α−1 dx =<br />
R<br />
16.2 Stabile Verteilungen 327<br />
� −2Γ (−α)cos(απ/2), falls α �= 1,<br />
π, falls α =1.<br />
Dann ist να(dx) =θ −1<br />
α |x| −α−1 dx ein kanonisches Maß, denn<br />
�<br />
(1 ∧ x 2 ) να(dx) =2θ −1�<br />
−1 −1<br />
α α +(2−α) � < ∞.<br />
Sei ψα die logarithmierte charakteristische Funktion, die zum unbegrenzt teilbaren<br />
Maß μα mit kanonischem Tripel (0, 0,να) gehört. Nach der Lévy-Khinchin<br />
Formel ist<br />
� ∞ � � itx −1<br />
ψα(t) = e − 1 − itx {|x|2 ist, eine charakteristische Funktion hat, die zweimal stetig differenzierbar<br />
in 0 ist, und deren ersten beiden Ableitungen dort gleich 0 sind. Die Verteilung hat<br />
also Erwartungswert und Varianz Null und ist damit als δ0 erkannt. Ein ähnliches<br />
Argument zeigt, dass stabile Verteilungen im weiteren Sinne für α>2 notwendigerweise<br />
trivial sind. ✸
328 16 Unbegrenzt teilbare Verteilungen<br />
Asymmetrische stabile Verteilungen<br />
Sind μ1 und μ2 unbegrenzt teilbar mit den kanonischen Tripeln (σ2 1,b1,ν1) und<br />
(σ2 2,b2,ν2),soistμ1∗μ2 unbegrenzt teilbar mit kanonischem Tripel (σ2 1 + σ2 2,b1 +<br />
b2,ν1+ν2). Ist nun μ unbegrenzt teilbar mit kanonischem Tripel (σ2 ,b,ν), und sind<br />
X1,X2,...u.i.v. Zufallsvariablen mit Verteilung μ,soistX1 +...+Xn unbegrenzt<br />
teilbar mit kanonischem Tripel (nσ2 , nb, nν). Andererseits ist n1/αX1 unbegrenzt<br />
teilbar mit kanonischem Tripel (n2/ασ2 ,n1/αb, ν ◦ m −1<br />
n1/α), wobei mγ : R → R,<br />
x ↦→ γx die Multiplikation mit γ>0 ist.<br />
Ist nun μ stabil mit Index α, so folgt aus (16.17)<br />
nb = n 1/α b, nσ 2 = n 2/α σ 2<br />
und nν = ν ◦ m −1<br />
n1/α. Ist α �= 1, so folgt b =0.Für α ∈ (0, 2) ist hingegen σ2 =0. Außerdem ist<br />
� ∞<br />
n (1∧x<br />
−∞<br />
2 � ∞<br />
) ν(dx) = (1∧x<br />
−∞<br />
2 ) � ν ◦m −1<br />
n1/α Im Fall α =2folgt wegen 1 ≥ n−1 (1∧nx 2 )<br />
1∧x2 � (dx) =<br />
� ∞<br />
−∞<br />
(1∧n 2/α x 2 ) ν(dx).<br />
n→∞<br />
−→ 0 für alle x �= 0und wegen<br />
(16.10) mit dem Satz über majorisierte Konvergenz<br />
� ∞<br />
� ∞<br />
(1 ∧ x<br />
−∞<br />
2 n<br />
) ν(dx) =<br />
−∞<br />
−1 (1 ∧ nx2 )<br />
1 ∧ x2 Das heißt, es gilt ν =0, falls α =2 ist.<br />
(1 ∧ x 2 ) ν(dx) n→∞<br />
−→ 0.<br />
Hat ν eine auf R\{0} stetige Dichte f, so folgt aus (16.17) die Skalierungsrelation<br />
f(rx) =r −α−1 f(x) für jedes r>0, also mit c − := f(−1) und c + := f(1)<br />
ν(dx)<br />
dx =<br />
� c − (−x) −α−1 , falls x0.<br />
Wir haben also einen Freiheitsgrad mehr (in dem Sinne, dass wir jetzt die zwei<br />
Parameter c − und c + statt nur c haben), wenn wir auch asymmetrische stabile<br />
Verteilungen zulassen. Wir können nun ψ ausrechnen<br />
ψ(t) =<br />
� |t| α Γ (−α) � (c + + c − )cos � πα<br />
2<br />
� + i (c + − c − )sin � πα<br />
2<br />
�� , α �= 1,<br />
−|t|(c + + c − ) � π<br />
2 + i sign(t)(c+ − c − )log(|t|) � , α =1.<br />
(16.18)<br />
Im Fall α ∈ (0, 1) ∪ (1, 2) haben wir so eine stabile Verteilung hergestellt, denn es<br />
gilt (16.17). Im Fall α =1gilt hingegen nψ(t/n) =ψ(t)+it(c + − c − )logn, also<br />
X1 + ...+ Xn<br />
D<br />
= nX1 +(c + − c − ) n log(n).<br />
Man kann zeigen, dass die stabilen Verteilungen, die wir hier hergestellt haben,<br />
tatsächlich die gesamte Klasse der im weiteren Sinne stabilen Verteilungen ausschöpfen<br />
(siehe etwa [53, Kapitel XVII.5]).
Konvergenz gegen stabile Verteilungen<br />
16.2 Stabile Verteilungen 329<br />
Zur Abrundung des Bildes zitieren wir aus [53, Kapitel XVII.5] (siehe auch [61]<br />
und [120]) Sätze darüber, dass nur stabile Verteilungen als Grenzverteilungen reskalierter<br />
Summen von u.i.v. Zufallsvariablen X1,X2,...auftreten können, wie die<br />
genauen Skalierungen aussehen, und welche Verteilungen PX1 zu welchen Grenzverteilungen<br />
führen.<br />
Seien im Folgenden X, X1,X2,...u.i.v. Zufallsvariablen und Sn = X1 +...+Xn<br />
für n ∈ N.<br />
Definition 16.22 (Anziehungsbereich einer Verteilung). Sei μ ∈ M1(R)<br />
nicht auf einen Punkt konzentriert. Der Anziehungsbereich (domain of attraction)<br />
Dom(μ) ⊂M1(R) ist die Menge aller Verteilungen PX mit der Eigenschaft, dass<br />
es Folgen reeller Zahlen (an)n∈N und (bn)n∈N gibt mit<br />
Sn − bn<br />
an<br />
n→∞<br />
=⇒ μ.<br />
Ist μ stabil (im weiteren Sinne) mit Index α ∈ (0, 2], so liegt PX im normalen<br />
Anziehungsbereich (domain of normal attraction), falls an = n 1/α gewählt werden<br />
kann.<br />
Satz 16.23. Sei μ ∈M1(R) nicht auf einen Punkt konzentriert. Genau dann ist<br />
Dom(μ) �= ∅, wennμ stabil (im weiteren Sinne) ist. Es gilt dann μ ∈ Dom(μ).<br />
Eine wichtige Rolle spielt im Folgenden die Funktion<br />
U(x) :=E � X 2 �<br />
{|X|≤x} . (16.19)<br />
Eine Funktion H :(0, ∞) → (0, ∞) heißt langsam variierend bei ∞, falls<br />
H(γx)<br />
lim =1<br />
x→∞ H(x)<br />
für alle γ>0.<br />
Wir nehmen im Folgenden an, dass es ein α ∈ (0, 2] gibt, mit der Eigenschaft:<br />
U(x) x α−2 ist langsam variierend bei ∞. (16.20)<br />
Satz 16.24. (i) Liegt PX im Anziehungsbereich einer Verteilung, dann existiert<br />
ein α ∈ (0, 2], sodass (16.20) gilt.<br />
(ii) Im Falle α =2gilt: Ist PX nicht in einem Punkt konzentriert, so ist (16.20)<br />
hinreichend dafür, dass PX im Anziehungsbereich einer Verteilung liegt.<br />
(iii) Im Falle α ∈ (0, 2) gilt: Genau dann liegt PX im Anziehungsbereich einer<br />
Verteilung, wenn (16.20) gilt und<br />
P[X ≥ x]<br />
p := lim<br />
existiert. (16.21)<br />
x→∞ P[|X| ≥x]
330 16 Unbegrenzt teilbare Verteilungen<br />
Satz 16.25. Es sei PX im Anziehungsbereich einer α-stabilen Verteilung – es gelte<br />
also Bedingung (ii) oder (iii) aus Satz 16.24 – und es sei (an)n∈N so gewählt, dass<br />
nU(an)<br />
C := lim<br />
n→∞ a2 ∈ (0, ∞)<br />
n<br />
existiert. Es sei ferner μ diejenige stabile Verteilung mit Index α, deren charakteristische<br />
Funktion durch (16.18) gegeben ist mit c + = Cp und c − = C(1 − p).<br />
(i) Im Falle α ∈ (0, 1) sei bn ≡ 0.<br />
(ii) Im Falle α =2 und Var[X] < ∞ sei E[X] =0.<br />
(iii) Im Falle α ∈ (1, 2] sei bn = n E[X] für jedes n ∈ N.<br />
(iv) Im Falle α =1 sei bn = nan E[sin(X/an)] für jedes n ∈ N.<br />
Dann gilt<br />
Sn − bn<br />
an<br />
n→∞<br />
=⇒ μ.<br />
Korollar 16.26. Liegt PX im Anziehungsbereich einer stabilen Verteilung mit Index<br />
α, sogiltE � |X| β� < ∞ für alle β ∈ (0,α) und E � |X| β� = ∞, falls β>α<br />
und α0,<br />
0, sonst.<br />
Man zeige:<br />
(i) F ist die Verteilungsfunktion einer 1<br />
2-stabilen Verteilung.<br />
(ii) Sind X1,X2,... u.i.v. mit Verteilungsfunktion F , so divergiert 1<br />
n<br />
für n →∞fast sicher.<br />
� n<br />
k=0 Xk<br />
Hinweis: Man bestimme die Dichte von F und zeige, dass die Laplace Transformierte<br />
gegeben ist durch λ ↦→ e −√ 2λ . ♣<br />
Übung 16.2.4. Welche der folgenden Verteilungen liegen im Anziehungsbereich einer<br />
stabilen Verteilung und gegebenenfalls zu welchem Parameter?
(i) Die Verteilung auf R mit Dichte<br />
⎧<br />
⎪⎨<br />
ϱ<br />
f(x) =<br />
⎪⎩<br />
1<br />
1+α |x|α , falls x1,<br />
sonst.<br />
Dabei sind α, β < −1 und ϱ ∈ [0, 1].<br />
(ii) Die Exponentialverteilung expθ für θ>0.<br />
16.2 Stabile Verteilungen 331<br />
(iii) Die Verteilung auf N mit Gewichten cn α falls n gerade ist und cn β , falls n<br />
ungerade ist. Dabei sind α, β < −1, und c =(2 α ζ(−α)+(1− 2 β )ζ(−β)) −1<br />
(ζ ist die Riemann’sche Zetafunktion) ist die Normierungskonstante. ♣
17 Markovketten<br />
Markovprozesse mit abzählbarem Zustandsraum (und diskreter Zeit) sind trotz ihrer<br />
Simplizität interessante mathematische Objekte, mit denen sich eine Vielzahl von<br />
Phänomenen modellieren lässt. Wir bringen hier einen Einblick in die grundlegenden<br />
Begriffe und schauen dann Beispiele etwas detaillierter an. Der Zusammenhang<br />
mit der (diskreten) Potentialtheorie wird erst in Kapitel 19 untersucht. Beim ersten<br />
Lesen kann in Abschnitt 17.1 die (etwas abstrakte) Konstruktion von allgemeinen<br />
Markovprozessen übersprungen werden.<br />
17.1 Begriffsbildung und Konstruktion<br />
Im Folgenden sei E stets ein polnischer Raum mit Borel’scher σ-Algebra B(E),<br />
I ⊂ R und (Xt) t∈I ein stochastischer Prozess mit Werten in E. Wir nehmen an,<br />
dass (Ft)t∈I = F = σ(X) die von X erzeugte Filtration ist.<br />
Definition 17.1. Wir sagen, dass X die elementare Markoveigenschaft (ME) hat,<br />
falls für jedes A ∈B(E) und je zwei s, t ∈ I mit s ≤ t gilt<br />
P � Xt ∈ A � � �<br />
�Fs = P Xt ∈ A � �<br />
�Xs .<br />
Bemerkung 17.2. Ist E abzählbar, so hat X genau dann die elementare Markoveigenschaft,<br />
wenn für jedes n ∈ N und alle s1 < ... < sn 0 gilt<br />
P � Xt = i � � �<br />
�Xs1 = i1,...,Xsn = in = P Xt = i � �Xsn<br />
�<br />
= in . (17.1)<br />
In der Tat impliziert (17.1) natürlich sofort die elementare Markoveigenschaft. Habe<br />
nun X die elementare Markoveigenschaft. Wir bemerken (siehe (8.6)), dass für fast<br />
alle ω ∈{Xsn = in} gilt P[Xt = i � �Xsn ](ω) =P[Xt = i � �Xsn = in]. Also<br />
gilt mit A := {Xs1 = i1,...,Xsn = in} (unter Verwendung der elementaren<br />
Markoveigenschaft in der zweiten Gleichheit)<br />
P � �<br />
Xt = i,Xs1 = i1,...,Xsn = in<br />
= E � �<br />
E[ �<br />
{Xt=i} Fsn ] � � �<br />
A = E E[ �<br />
{Xt=i} Xsn ] �<br />
A<br />
= E � P[Xt = i � �Xsn = in]<br />
� �<br />
A = P Xt = i � �<br />
�Xsn = in P[A].
334 17 Markovketten<br />
Teilen wir jetzt auf beiden Seiten durch P[A], so folgt (17.1). ✸<br />
Definition 17.3. Sei I = N0 oder I =[0, ∞). X =(Xt) t∈I heißt Markovprozess<br />
mit Verteilungen (Px) x∈E auf dem Raum (Ω,A), falls gilt:<br />
(i) Für jedes x ∈ E ist X ist ein stochastischer Prozess auf dem Wahrscheinlichkeitsraum<br />
(Ω,A, Px) mit Px [X0 = x] =1.<br />
(ii) Die Abbildung κ : E ×B(E) ⊗I → [0, 1], (x, B) ↦→ Px[X ∈ B] ist ein<br />
stochastischer Kern.<br />
(iii) Es gilt die (schwache) Markoveigenschaft (ME): Für jedes A ∈B(E), jedes<br />
x ∈ E und je zwei s, t ∈ I gilt<br />
�<br />
Px Xt+s ∈ A � �<br />
�Fs = κt(Xs,A) Px − f.s.<br />
Hierbei definiert für jedes t ∈ I und x ∈ E sowie A ∈B(E)<br />
κt(x, A) :=κ � x, {y ∈ E I : y(t) ∈ A} � = Px [Xt ∈ A]<br />
den stochastischen Kern κt : E ×B(E) → [0, 1] der Übergangswahrscheinlichkeiten<br />
von X zur Zeitdifferenz t.<br />
Wir schreiben stets Ex für die Erwartungswerte bezüglich Px und Lx[X] =Px<br />
sowie Lx[X |F]=Px[X ∈ · |F] (für eine reguläre Version der bedingten Verteilungen<br />
von X gegeben F) und so fort.<br />
Ist E höchstens abzählbar, so heißt X diskreter Markovprozess.<br />
Im Spezialfall I = N0 heißt X Markovkette. Es heißt dann κn auch die Familie der<br />
n-Schritt-Übergangswahrscheinlichkeiten.<br />
Bemerkung 17.4. Die schwache Markoveigenschaft impliziert die elementare Markoveigenschaft.<br />
In der Tat ist ” schwache ME = elementare ME + zeitliche Homogenität“.<br />
✸<br />
Wir verwenden im Folgenden die etwas nachlässige Bezeichnung PXs [X ∈ · ]:=<br />
κ(Xs, · ). Wir verstehen also Xs als Startwert eines zweiten Markovprozesses mit<br />
denselben Verteilungen (Px)x∈E.<br />
Beispiel 17.5. Seien Y1,Y2,... u.i.v. R d -wertige Zufallsvariablen und<br />
S x n = x +<br />
n�<br />
Yi für x ∈ R d und n ∈ N0.<br />
i=1<br />
Definiere W-Maße Px auf � (R d ) N0 , (B(R d )) ⊗N0<br />
� durch Px = P ◦ (S x ) −1 .Dann<br />
ist der kanonische Prozess Xn :(R d ) N0 → R d eine Markovkette mit Verteilungen<br />
(Px) x∈R d. Der Prozess X heißt Irrfahrt auf R d mit Startwert x. ✸
17.1 Begriffsbildung und Konstruktion 335<br />
Beispiel 17.6. Wir können das vorangehende Beispiel leicht auf die Situation stetiger<br />
Zeit, also I =[0, ∞), übertragen. Sei hierzu (νt)t≥0 eine Faltungshalbgruppe<br />
auf R d und κt(x, dy) =δx ∗ νt(dy). Zu jedem x ∈ R d sei Px das in Satz 14.47<br />
konstruierte Maß auf � (R d ) [0,∞) , B(R d ) ⊗[0,∞)� mit<br />
�<br />
Px ◦ (X0,Xt1 ,...,Xtn )−1 n−1<br />
= δx ⊗ κtn+1−tn<br />
i=0<br />
für je endlich viele Punkte 0=t0 0 und ν θ t ({k}) =<br />
e −θt tk θ k<br />
k! , k ∈ N0, die Faltungshalbgruppe der Poisson-Verteilung. Der Markovprozess<br />
X auf N0 mit dieser Halbgruppe heißt Poissonprozess mit Rate θ. ✸<br />
Wir wollen, ähnlich wie in Beispiel 17.6, nun etwas allgemeiner zu einer Markov’schen<br />
Halbgruppe von stochastischen Kernen einen Markovprozess herstellen.<br />
Satz 17.8. Sei I ⊂ [0, ∞) abgeschlossen unter Addition, und sei (κt)t∈I eine Markov’sche<br />
Halbgruppe stochastischer Kerne von E nach E. Dann gibt es einen<br />
Messraum (Ω,A) und einen Markovprozess ((Xt)t∈I, (Px)x∈E) auf (Ω,A) mit<br />
Übergangswahrscheinlichkeiten<br />
Px [Xt ∈ A] =κt(x, A) für alle x ∈ E, A ∈B(E), t∈ I. (17.2)<br />
Umgekehrt definiert für jeden Markovprozess X die Gleichung (17.2) eine Halbgruppe<br />
stochastischer Kerne. Durch (17.2) sind die endlichdimensionalen Verteilungen<br />
von X eindeutig bestimmt.<br />
Beweis. ” =⇒ “ Wir konstruieren X als kanonischen Prozess. Sei Ω = E [0,∞)<br />
und A = B(E) ⊗[0,∞) . Ferner sei Xt die Projektion auf die t-te Koordinate. Für<br />
x ∈ E definieren wir (siehe Korollar 14.43) auf (Ω,A) das W-Maß Px, sodass für<br />
endlich viele Zeitpunkte 0=t0
336 17 Markovketten<br />
also Px[Xtn ∈ An |Ftn−1 ]=κtn−tn−1 (Xtn−1 ,An). Damit ist X als Markovprozess<br />
erkannt. Ferner ist Px[Xt ∈ A] =(δx · κt)(A) =κt(x, A).<br />
” ⇐= “ Sei nun (X, (Px)x∈E) ein Markovprozess. Dann definiert<br />
κt(x, A) :=Px [Xt ∈ A] für alle x ∈ E, A ∈B(E), t∈ I,<br />
einen stochastischen Kern κt. Nach der Markoveigenschaft ist<br />
κt+s(x, A) =Px [Xt+s ∈ A] = Ex [PXs [Xt ∈ A]]<br />
�<br />
=<br />
Px [Xs ∈ dy] Py [Xt ∈ A]<br />
�<br />
= κs(x, dy)κt(y, A) = (κs · κt)(x, A).<br />
Also ist (κt) t∈I eine Markov’sche Halbgruppe. ✷<br />
Satz 17.9. Ein stochastischer Prozess X =(Xt)t∈I ist genau dann ein Markovprozess,<br />
wenn es einen stochastischen Kern κ : E ×B(E) ⊗I → [0, 1] gibt, sodass für<br />
jede B(E) ⊗I −B(R) messbare, beschränkte Funktion f : EI → R und für jedes<br />
s ≥ 0 und x ∈ E gilt:<br />
�<br />
Ex f ((Xt+s)t∈I) � �<br />
�Fs = EXs [f(X)] :=<br />
�<br />
E I<br />
κ(Xs, dy) f(y). (17.3)<br />
Beweis. ” ⇐= “ Die schwache Markoveigenschaft folgt aus (17.3) mit der Funktion<br />
f(y) = A(y(t)), dennPXs [Xt ∈ A] =Px[Xt+s ∈ A|Fs] =κt(Xs,A).<br />
” =⇒ “ Nach den üblichen Approximationsargumenten reicht es, Funktionen f<br />
zu betrachten, die nur von endlich vielen Koordinaten 0 ≤ t1 ≤ t2 ≤ ... ≤ tn<br />
abhängen. Wir führen den Beweis per Induktion über n.<br />
Für n =1und f eine Indikatorfunktion ist dies die (schwache) Markoveigenschaft.<br />
Für allgemeines, messbares f folgt die Aussage nun aus den üblichen Approximationsargumenten.<br />
Sei nun die Aussage für n ∈ N bereits gezeigt. Es reicht wiederum, für f eine Indikatorfunktion<br />
der Art f(x) = B1×···×Bn+1 (xt1 ,...,xtn+1 ) (mit B1,...,Bn+1 ∈<br />
B(E)) zu betrachten. Zusammen mit der Markoveigenschaft (dritte und fünfte<br />
Gleichheit in der folgenden Gleichungskette) und der Induktionsvoraussetzung<br />
(vierte Gleichheit) erhalten wir
Ex<br />
17.1 Begriffsbildung und Konstruktion 337<br />
�<br />
f � �� �<br />
(Xt+s)t≥0 �Fs<br />
� � � �� �<br />
= Ex Ex f (Xt+s)t≥0<br />
�Ftn+s<br />
� �<br />
�<br />
�Fs<br />
= Ex<br />
= Ex<br />
�<br />
�<br />
= EXs<br />
= EXs<br />
= EXs<br />
�<br />
� �<br />
Ex<br />
�Ftn+s<br />
{Xtn+1 +s∈Bn+1}<br />
B1 (Xt1+s) ··· Bn (Xtn+s)<br />
� �<br />
PXtn+s<br />
Xtn+1−tn ∈ Bn+1 B1 (Xt1+s) ··· Bn (Xtn+s)<br />
�<br />
�<br />
�<br />
PXtn<br />
PX0<br />
PX0<br />
� Xtn+1−tn<br />
� Xtn+1<br />
� Xt1<br />
�<br />
∈ Bn+1 B1 (Xt1 ) ··· �<br />
Bn (Xtn )<br />
� �<br />
�Ftn<br />
∈ Bn+1 B1 (Xt1 ) ··· �<br />
Bn (Xtn )<br />
� �<br />
�Ftn<br />
∈ B1,...,Xtn+1 ∈ Bn+1<br />
�<br />
� �<br />
�<br />
�Fs<br />
� �<br />
�<br />
�Fs<br />
= EXs [f(X)] . ✷<br />
Korollar 17.10. Ein stochastischer Prozess (Xn)n∈N0 ist genau dann eine Markovkette,<br />
wenn<br />
� � � � �<br />
Lx (Xn+k) �Fk = LXk (Xn) n∈N0<br />
n∈N0 für jedes k ∈ N0. (17.4)<br />
Beweis. Wenn die bedingten Verteilungen existieren, ist nach Satz 17.9 die Gleichung<br />
(17.4) äquivalent dazu, dass X eine Markovkette ist. Zu zeigen ist also nur,<br />
dass die bedingten Verteilungen auch existieren.<br />
Da E polnisch ist, ist E N0 polnisch und B(E N0 )=B(E) ⊗N0 (siehe Satz 14.8).<br />
Nach Satz 8.36 existiert also eine reguläre Version der bedingten Verteilungen von<br />
(Xn+k)n∈N0 gegeben Fk. ✷<br />
Satz 17.11. Sei I = N0. Ist(Xn)n∈N0 ein stochastischer Prozess mit Verteilungen<br />
(Px, x∈ E), so folgt die schwache Markoveigenschaft in Definition 17.3(iii) schon<br />
aus der Existenz eines stochastischen Kerns κ1 : E ×B(E) → [0, 1] mit der Eigenschaft:<br />
Für jedes A ∈B(E), jedes x ∈ E und jedes s ∈ I gilt<br />
�<br />
Px Xs+1 ∈ A � �<br />
�Fs = κ1(Xs,A). (17.5)<br />
In diesem Fall erhält man die n–Schritt Übergangskerne κn induktiv durch<br />
�<br />
κn = κn−1 · κ1 = κn−1( · ,dx) κ1(x, · ).<br />
E<br />
Speziell ist die Familie (κn)n∈N eine Markov’sche Halbgruppe, und die Verteilung<br />
von X ist durch die Angabe von κ1 eindeutig festgelegt.<br />
Beweis. Setze in Satz 17.9 ti = i für i ∈ N0.Für den Beweis des Satzes wurde nur<br />
(17.5) ausgenutzt. ✷
338 17 Markovketten<br />
Die (schwache) Markoveigenschaft eines Prozesses besagt, dass zu fester Zeit t die<br />
Zukunft (nach t) von der Vergangenheit (bis t) nur durch die Gegenwart (also den<br />
Wert zur Zeit t) abhängt. Wir können diesen Begriff verallgemeinern, indem wir<br />
statt fester Zeiten auch Stoppzeiten zulassen.<br />
Definition 17.12. Sei I ⊂ [0, ∞) abgeschlossen unter Addition. Ein Markovprozess<br />
(Xt)t∈I mit Verteilungen (Px, x∈ E) hat die starke Markoveigenschaft,<br />
falls für jede f.s. endliche Stoppzeit τ und jede B(E) ⊗I −B(R) messbare, beschränkte<br />
Funktion f : EI → R, sowie jedes x ∈ E gilt:<br />
�<br />
Ex f ((Xτ+t)t∈I) � �<br />
�Fτ = EXτ [f(X)] :=<br />
�<br />
E I<br />
κ(Xτ ,dy) f(y). (17.6)<br />
Bemerkung 17.13. Ist I höchstens abzählbar, so ist die starke Markoveigenschaft<br />
äquivalent dazu, dass für jede fast sicher endliche Stoppzeit τ gilt<br />
� � � � �<br />
Lx (Xτ+t) �Fτ = LXτ (Xt) := κ(Xτ , · ). (17.7)<br />
t∈N0<br />
t∈N0<br />
Dies folgt genau wie in Korollar 17.10. ✸<br />
Die meisten relevanten Markovprozesse besitzen auch die starke Markoveigenschaft.<br />
Statt hier den Begriff der Relevanz zu diskutieren, was sich wohl kaum<br />
erschöpfend machen ließe, wollen wir lieber zeigen, dass für abzählbare Zeitmenge<br />
die starke Markoveigenschaft aus der schwachen folgt. In zeitstetigen Situationen<br />
hingegen muss man im Allgemeinen mehr arbeiten, um die starke Markoveigenschaft<br />
zu etablieren.<br />
Satz 17.14. Ist I ⊂ [0, ∞) höchstens abzählbar und abgeschlossen unter Addition,<br />
so hat jeder Markovprozess (Xn)n∈I mit Verteilungen (Px)x∈E die starke<br />
Markoveigenschaft.<br />
Beweis. Sei f : EI → R� messbar � und� beschränkt. � Dann ist für jedes s ∈ I die Zufallsvariable<br />
{τ=s} Ex f (Xs+t)<br />
t∈I |Fτ messbar bezüglich Fs. Mit der Turmeigenschaft<br />
der bedingten Erwartung und Satz 17.9 in der dritten Gleichheit erhalten<br />
wir daher<br />
� � � � � � � � � � �<br />
Ex f (Xτ+t) �Fτ<br />
t∈I = {τ=s} Ex f (Xs+t) �Fτ<br />
t∈I<br />
s∈I<br />
= �<br />
s∈I<br />
= �<br />
s∈I<br />
= EXτ<br />
Ex<br />
Ex<br />
�<br />
�<br />
� � �� �<br />
{τ=s} Ex f (Xs+t)t∈I<br />
�Fs<br />
� �<br />
�<br />
�Fτ<br />
{τ=s} EXs<br />
� � ��<br />
f (Xt)t∈I<br />
� �<br />
�<br />
�Fτ<br />
� � ��<br />
f (Xt)t∈I . ✷
17.1 Begriffsbildung und Konstruktion 339<br />
Wir bringen eine einfache Anwendung der starken Markoveigenschaft.<br />
Satz 17.15 (Reflexionsprinzip). Seien Y1,Y2,... u.i.v. reelle Zufallsvariablen mit<br />
symmetrischer Verteilung L[Y1] =L[−Y1]. Setze X0 =0und Xn := Y1 + ...+<br />
Yn für n ∈ N. Dann gilt für jedes n ∈ N0 und a>0<br />
�<br />
�<br />
P sup Xm ≥ a<br />
m≤n<br />
≤ 2 P[Xn ≥ a] − P[Xn = a]. (17.8)<br />
Gilt P[Y1 ∈{−1, 0, 1}] =1, so gilt für a ∈ N in (17.8) sogar Gleichheit.<br />
Beweis. Sei a>0 und n ∈ N. Definiere die bei (n +1)abgeschnittene Zeit des<br />
ersten Überschreitens von a<br />
τ := inf{m ≥ 0: Xm ≥ a}∧(n +1).<br />
Dann ist τ eine beschränkte Stoppzeit und<br />
sup Xm ≥ a ⇐⇒ τ ≤ n.<br />
m≤n<br />
�<br />
Setze f(m, X) = {m≤n} {Xn−m>a} + 1<br />
�<br />
2 {Xn−m=a} .Dannist<br />
f � τ,(Xτ+m) m∈N0<br />
� = {τ≤n}<br />
� {Xn>a} + 1<br />
2 {Xn=a}<br />
Die starke Markoveigenschaft von X liefert<br />
� �<br />
� ��Fτ<br />
�<br />
E0 f τ,(Xτ+m) m≥0 = ϕ (τ,Xτ ) ,<br />
wobei ϕ(m, x) =Ex[f(m, X)]. (Hierbei bezeichnet Ex die Erwartung für X, falls<br />
X0 = x.) Wegen der Symmetrie der Yi ist<br />
⎧<br />
⎪⎨<br />
≥<br />
ϕ(m, x)<br />
⎪⎩<br />
1<br />
2 , falls m ≤ n und x ≥ a,<br />
= 1<br />
2 , falls m ≤ n und x = a,<br />
=0, falls m>n.<br />
Also gilt<br />
�<br />
{τ ≤ n} = {τ ≤ n}∩{Xτ ≥ a} ⊂ ϕ(τ,Xτ ) ≥ 1<br />
�<br />
∩{τ ≤ n}<br />
2<br />
Nun folgt (17.8) aus<br />
P[Xn >a]+ 1<br />
2 P[Xn = a] =E � f � ��<br />
τ,(Xτ+m)m≥0<br />
� .<br />
= {ϕ(τ,Xτ ) > 0}∩{τ ≤ n}.<br />
� � 1<br />
= E0 ϕ(τ,Xτ ) {τ≤n} ≥<br />
2 P0 [τ ≤ n] .<br />
(17.9)
340 17 Markovketten<br />
Gilt P[Y1 ∈{−1, 0, 1}] =1, und ist a ∈ N,soistXτ = a, falls τ ≤ n. Alsoist<br />
�<br />
{ϕ(τ,Xτ ) > 0}∩{τ ≤ n} = ϕ(τ,Xτ )= 1<br />
�<br />
∩{τ ≤ n}.<br />
2<br />
Daher gilt Gleichheit im letzten Schritt von (17.9) und damit auch in (17.8). ✷<br />
Übung 17.1.1. Sei I ⊂ R X =(Xt)t∈I ein stochastischer Prozess. Definiere für<br />
t ∈ I die σ-Algebren, die die Vergangenheit bis und die Zukunft ab t kodieren:<br />
F≤t := σ(Xs : s ∈ I, s ≤ t) und F≥t := σ(Xs : s ∈ I, s ≥ t).<br />
Man zeige: X hat genau dann die elementare Markoveigenschaft, wenn für jedes<br />
t ∈ I die σ-Algebren F≤t und F≥t unabhängig sind gegeben σ(Xt) (vergleiche<br />
Definition 12.20).<br />
Mit anderen Worten: Ein Prozess hat die elementare Markoveigenschaft genau dann,<br />
wenn Vergangenheit und Zukunft unabhängig sind gegeben die Gegenwart. ♣<br />
17.2 Diskrete Markovketten, Beispiele<br />
Sei E höchstens abzählbar und I = N0. Ein Markovprozess X =(Xn)n∈N0 auf E<br />
ist nach Definition 17.3 eine diskrete Markovkette (oder Markovkette mit diskretem<br />
Zustandsraum).<br />
Ist X eine diskrete Markovkette, so ist (Px)x∈E festgelegt durch die Angabe von<br />
der Übergangsmatrix<br />
p =(p(x, y))x,y∈I := (Px[X1 = y])x,y∈E.<br />
Die n-Schrittübergangswahrscheinlichkeiten<br />
p (n) (x, y) :=Px [Xn = y]<br />
ergeben sich nämlich als n-faches Matrixprodukt<br />
wobei<br />
p (n) (x, y) =p n (x, y),<br />
p n (x, y) = �<br />
p n−1 (x, z)p(z,y)<br />
z∈E<br />
und p0 = I die Einheitsmatrix ist.<br />
Durch Iteration folgt die Chapman-Kolmogorov’sche Gleichung (siehe (14.13))<br />
für alle m, n ∈ N0 und x, y ∈ E<br />
p (m+n) (x, y) = �<br />
p (m) (x, z) p (n) (z,y). (17.10)<br />
z∈E
17.2 Diskrete Markovketten, Beispiele 341<br />
Definition 17.16. Eine Matrix (p(x, y)) x,y∈E mit nichtnegativen Einträgen und<br />
�<br />
p(x, y) =1 für jedes x ∈ E<br />
y∈E<br />
heißt stochastische Matrix auf E.<br />
Nun ist eine stochastische Matrix im Wesentlichen ein stochastischer Kern von<br />
E nach E. In Satz 17.8 hatten wir gesehen, dass zu der Halbgruppe von Kernen<br />
(p n )n∈N genau eine diskrete Markovkette existiert, deren Übergangswahrscheinlichkeiten<br />
durch p gegeben sind. Die dort angegeben Argumente waren eher abstrakter<br />
Natur. Wir wollen hier eine Konstruktion von X angeben, mit der man beispielsweise<br />
auch eine Computersimulation bauen kann.<br />
Sei (Rn)n∈N0 eine unabhängige Familie von Zufallsvariablen mit Werten in EE mit<br />
der Eigenschaft, dass<br />
P[Rn(x) =y] =p(x, y) für alle x, y ∈ E. (17.11)<br />
Beispielsweise wähle man (Rn(x), x ∈ E, n ∈ N) als eine unabhängige Familie<br />
von Zufallsvariablen mit Werten in E und Verteilungen<br />
P[Rn(x) =y] =p(x, y) für alle x, y ∈ E und n ∈ N0.<br />
Man beachte aber, dass wir in (17.11) weder die Unabhängigkeit der Zufallsvariablen<br />
(Rn(x), x ∈ E) gefordert haben, noch, dass alle Rn die selbe Verteilung<br />
haben (lediglich die eindimensionalen Randverteilungen sind festgelegt). In der Tat<br />
möchte man in vielen wichtigen Anwendungen wohldefinierte Abhängigkeitsstrukturen<br />
haben, um Markovketten mit unterschiedlichen Startzuständen miteinander zu<br />
koppeln. Diesen Faden verfolgen wir erst in Abschnitt 18.2 weiter.<br />
Für x ∈ E definiere<br />
X x 0 = x und X x n = Rn(X x n−1) für n ∈ N.<br />
Schließlich definieren wir Px := L[X x ] als die Verteilung von X x , also als ein<br />
W-Maß auf dem Folgenraum (E N0 , B(E) ⊗N0 ).<br />
Satz 17.17. (i) Der kanonische Prozess X auf (EN0 , B(E) ⊗N0 ) ist bezüglich<br />
der Verteilung (Px)x∈E eine Markovkette mit Übergangsmatrix p.<br />
(ii) Insbesondere gehört zu jeder stochastischen Matrix p genau eine diskrete<br />
Markovkette X mit Übergangswahrscheinlichkeiten p.<br />
Beweis. ” (ii)“ folgt aus (i), da Satz 17.11 die Eindeutigkeit von X liefert.<br />
” (i)“ Für n ∈ N0 und x, y, z ∈ E gilt nach Konstruktion
342 17 Markovketten<br />
Px[Xn+1 = z � � Fn, Xn = y] =P � X x n+1 = z � � σ � Rm, m≤ n � ,X x n = y �<br />
= P � Rn+1(X x n)=z � �σ � Rm, m≤ n � ,X x n = y �<br />
= P � Rn+1(y) =z]<br />
= p(y, z).<br />
Nach Satz 17.11 ist X also eine Markovkette mit Übergangsmatrix p. ✷<br />
Beispiel 17.18. (Irrfahrt auf Z)SeiE = Z, und gelte<br />
p(x, y) =p(0,y− x) für alle x, y ∈ Z.<br />
Wir sagen in diesem Fall, dass p translationsinvariant ist. Eine diskrete Mar-<br />
D<br />
kovkette X mit Übergangsmatrix p ist eine Irrfahrt auf Z. Esistnämlich Xn =<br />
X0 + Z1 + ...+ Zn, wo(Zn) n∈N u.i.v. sind mit P [Zn = x] =p(0,x).<br />
Die Rn aus der expliziten Konstruktion erhalten wir durch Rn(x) :=x + Zn. ✸<br />
Beispiel 17.19 (Simulation am Computer). Wir betrachten die Situation wo E =<br />
{1,...,k} sogar endlich ist und wollen eine Markovkette X mit Übergangsmatrix<br />
p am Computer simulieren. Wir nehmen an, dass der Computer einen Zufallszahlengenerator<br />
bereitstellt, der eine Folge (Un)n∈N unabhängiger uniform auf [0, 1]<br />
verteilter Zufallsvariablen erzeugt.<br />
Wir setzen r(i, 0) = 0, r(i, j) =p(i, 1) + ...+ p(i, j) für i, j ∈ E, und definieren<br />
Yn durch<br />
Rn(i) =j ⇐⇒ Un ∈ [r(i, j − 1),r(i, j)).<br />
Per Konstruktion ist dann P[Rn(i) =j] =r(i, j) − r(i, j − 1) = p(i, j). ✸<br />
Beispiel 17.20 (Verzweigungsprozess als Markovkette). Wir wollen den Galton-<br />
Watson Verzweigungsprozess (siehe Definition 3.9) als Markovkette auf E = N0<br />
auffassen.<br />
Sei hierzu (qk)k∈N0 ein Wahrscheinlichkeitsvektor, den wir als Verteilung der Nachkommenschaft<br />
eines Individuums auffassen. Definiere q∗0 k = {0}(k) und<br />
k�<br />
q ∗n<br />
k =<br />
l=0<br />
q ∗(n−1)<br />
k−l ql für n ∈ N<br />
als n-fache Faltung von q sowie die Matrix p durch p(x, y) =q∗x y für x, y ∈ N0.<br />
Seien nun (Yn,i,n ∈ N0,i ∈ N0) u.i.v. mit P[Yn,i = k] =qk. Für x ∈ N0 definieren<br />
wir den Verzweigungsprozess X mit x Urahnen und Nachkommenverteilung q<br />
durch X0 = x und Xn := �Xn−1 i=1 Yn−1,i. Um zu zeigen, dass X eine Markovkette<br />
ist, berechnen wir
17.2 Diskrete Markovketten, Beispiele 343<br />
�<br />
P[Xn = xn<br />
�X0 = x, X1 = x1,...,Xn−1 = xn−1]<br />
= P[Yn−1,1 + ...+ Yn−1,xn−1 = xn]<br />
= P ∗xn−1<br />
({xn}) =q Y1,1 ∗xn−1<br />
xn = p(xn−1,xn).<br />
Also ist X eine Markovkette auf N0 mit Übergangsmatrix p. ✸<br />
Beispiel 17.21 (Wright’sches Evolutionsmodell). In der Biologie beschreibt das<br />
Wright’sche Evolutionsmodell ([159]) die Vererbung eines genetischen Merkmales<br />
mit zwei möglichen Ausprägungen, etwa A und B, (zum Beispiel Resistenz/keine<br />
Resistenz gegen ein bestimmtes Antibiotikum) in einer Population konstanter Größe<br />
N ∈ N mit diskreter Generationenfolge. Die Individuen werden dabei als haploid<br />
angenommen, die Chromosomen liegen also einfach vor (wie etwa bei gewissen<br />
Einzellern) und nicht als Paare (wie etwa bei Säugetieren).<br />
Wir betrachten hier den Fall, wo keines der beiden Merkmale einen Selektionsvorteil<br />
bietet. Es wird also angenommen, dass sich jedes Individuum der neuen Generation<br />
zufällig (gleichverteilt) eines der Individuen der vorangehenden Generation<br />
als Ahn (oder Vorgänger) aussucht und dessen komplettes Erbgut übernimmt. Die<br />
Wahl wird für jedes Individuum unabhängig getroffen, wobei mehrere Individuen<br />
auf den selben Ahn zurückgehen können. Beträgt die Anzahl der Individuen vom<br />
Typ A in der Elterngeneration k ∈{0,...,N}, so ist dieselbe Anzahl in der Kindergeneration<br />
zufällig und binomialverteilt mit Parametern N und k/N.<br />
Wir können die Genfrequenzen (also die relativen Anteile k/N) in diesem Modell<br />
offenbar durch eine Markovkette X auf E = {0, 1/N,...,(N − 1)/N, 1} mit<br />
Übergangsmatrix p(x, y) = bN,x({Ny}) beschreiben. Man beachte, dass X ein<br />
(beschränktes) Martingal ist. Nach dem Martingalkonvergenzsatz konvergiert X also<br />
Px-fast sicher gegen eine Zufallsvariable X∞ mit Ex[X∞] =Ex[X0] =x.<br />
Ähnlich wie beim Wählermodell (siehe Beispiel 11.16), das in der Tat sehr eng verwandt<br />
mit diesem Modell ist, können wir argumentieren, dass X∞ nur die stabilen<br />
Randwerte 0 und 1 annehmen kann. Es gilt also Px[limn→∞ Xn = 1] = x =<br />
1 − Px[limn→∞ Xn =0]. ✸<br />
Beispiel 17.22 (Diskretes Moran-Modell). Wir wollen ein dem Wright’schen Evolutionsmodell<br />
verwandtes Modell mit Überlappung der Generationen betrachten.<br />
Die Situation ist wie beim Wright’schen Modell, jedoch soll jetzt pro Zeitschritt<br />
immer nur genau ein Individuum durch ein neues ersetzt werden, dessen Typ durch<br />
eine zufällige Wahl aus der Elterngeneration bestimmt wird.<br />
Da die Typen des zu ersetzenden und des neuen Individuums unabhängig sind,<br />
erhalten wir als Modell für die Genfrequenzen eine Markovkette X auf E =<br />
{0, 1<br />
N ,...,1} mit Übergangsmatrix<br />
⎧<br />
x(1 − x), falls y = x +1/N,<br />
⎪⎨ x<br />
p(x, y) =<br />
⎪⎩<br />
2 +(1−x) 2 , falls y = x,<br />
x(1 − x), falls y = x − 1/N,<br />
0, sonst.
344 17 Markovketten<br />
Auch hier ist X wieder ein beschränktes Martingal, und wir können den quadratischen<br />
Variationsprozess ausrechnen:<br />
n−1 �<br />
〈X〉n = E � (Xi − Xi−1) 2 � �<br />
�<br />
2<br />
Xi−1 =<br />
N 2<br />
n−1 �<br />
Xi(1 − Xi). (17.12)<br />
✸<br />
i=0<br />
Übung 17.2.1 (Diskretes Martingalproblem). Sei E ⊂ R höchstens abzählbar<br />
und X eine Markovkette auf E mit Übergangsmatrix p und der Eigenschaft, dass es<br />
für jedes x eine höchstens dreielementige Menge Ax ⊂ E gibt mit p(x, y) =0für<br />
jedes y ∈ E \ Ax.Seid(x) := �<br />
y∈E (y − x) p(x, y) für x ∈ E.<br />
(i) Man zeige: Durch Mn := Xn − �n−1 k=0 d(Xk) wird ein Martingal M definiert<br />
mit quadratischem Variationsprozess 〈M〉n = �n−1 i=0 f(Xi) für eine eindeutig<br />
bestimmte Funktion f : E → [0, ∞).<br />
(ii) Man zeige: Die Übergangsmatrix p ist durch Angabe von f und d eindeutig<br />
bestimmt.<br />
(iii) Man berechne für das Moran-Modell (Beispiel 17.22) die Übergangsmatrix<br />
aus der expliziten Form (17.12) des quadratischen Variationsprozesses. ♣<br />
i=0<br />
17.3 Diskrete Markovprozesse in stetiger Zeit<br />
Sei E abzählbar und (Xt) t∈[0,∞) ein Markovprozess auf E mit Übergangswahrscheinlichkeiten<br />
pt(x, y) =Px[Xt = y] (für x, y ∈ E). (Manche Autoren nennen<br />
solch einen Prozess auch Markovkette in stetiger Zeit.)<br />
Sind x, y ∈ E mit x �= y, sosagenwir,dassXmit Rate q(x, y) von x nach y<br />
springt, falls der folgende Limes existiert<br />
q(x, y) := lim<br />
t↓0<br />
1<br />
t Px[Xt = y].<br />
Wir nehmen nun an, dass q(x, y) für alle y �= x existiert, und dass<br />
�<br />
q(x, y) < ∞ für jedes x ∈ E (17.13)<br />
gilt. Wir setzen dann<br />
y�=x<br />
Mit dieser Festsetzung gilt<br />
lim<br />
t↓0<br />
q(x, x) =− �<br />
q(x, y). (17.14)<br />
y�=x<br />
1�<br />
�<br />
Px [Xt = y] − {x=y} = q(x, y) für alle x, y ∈ E. (17.15)<br />
t
17.3 Diskrete Markovprozesse in stetiger Zeit 345<br />
Definition 17.23. Gelten (17.13), (17.14) und (17.15), soheißtq die Q-Matrix von<br />
X. Manchmal wird q auch der Generator der Halbgruppe (pt)t≥0 genannt.<br />
Beispiel 17.24 (Poissonprozess). Der Poissonprozess mit Rate α>0 (vergleiche<br />
Kapitel 5.5) hat die Q-Matrix q(x, y) =α( {y=x+1} − {y=x}). ✸<br />
Satz 17.25. Gilt q(x, y) ≥ 0 für alle x, y ∈ E mit x �= y, gelten (17.13), (17.14),<br />
und ist<br />
λ := sup |q(x, x)| < ∞, (17.16)<br />
x∈E<br />
so ist q die Q-Matrix eines eindeutig bestimmten Markovprozesses X.<br />
Ganz naiv betrachtet legt (17.15) nahe, dass man pt = etq in einem geeigneten Sinne<br />
definiert. Dann wäre rein formal q = d<br />
dtpt �<br />
� . Der folgende Beweis zeigt, dass<br />
t=0<br />
diese formale Argumentation unter den angegebenen Bedingungen rigoros gemacht<br />
werden kann.<br />
Beweis. Sei I die Einheitsmatrix. Definiere<br />
p(x, y) = 1<br />
q(x, y)+I(x, y) für x, y ∈ E.<br />
λ<br />
Dann ist p eine stochastische Matrix und q = λ(p − I). Sei � (Yn)n∈N0 , � P Y � �<br />
x x∈E<br />
eine diskrete Markovkette mit Übergangsmatrix p, und sei � (Tt)t≥0, � P T � �<br />
n n∈N0<br />
ein Poissonprozess mit Rate λ. SeiXt := YTt und Px = P Y x ⊗ P T 0 .Dannist<br />
X := ((Xt)t≥0, (Px)x∈E) ein Markovprozess und<br />
pt(x, y) :=Px [Xt = y] =<br />
= e −λt<br />
∞�<br />
n=0<br />
λ n t n<br />
∞�<br />
P T 0 [Tt = n] P Y x [Yn = y]<br />
n=0<br />
n! pn (x, y).<br />
Diese Potenzreihe (in t) istüberall konvergent (da p als linearer Operator endliche<br />
Norm �p�2 ≤ 1 hat) gegen die Matrix-Exponentialfunktion e λtp (x, y), und es gilt<br />
pt(x, y) =e −λt e λtp (x, y) =e λt(p−I) (x, y) =e tq (x, y).<br />
Durch gliedweise Differentiation der Potenzreihe erhalten wir d<br />
dtpt(x, y) � �<br />
t=0<br />
q(x, y). Damit ist X der gewünschte Markovprozess.<br />
Wir nehmen nun an, dass (�pt)t≥0 die Übergangswahrscheinlichkeiten eines weiteren<br />
Markovprozesses � X sind, mit dem selben Generator q, also mit<br />
lim<br />
s↓0<br />
1�<br />
�ps(x, y) − I(x, y)<br />
s<br />
� = q(x, y).<br />
=
346 17 Markovketten<br />
Man prüft leicht nach, dass<br />
lim<br />
s↓0<br />
1�<br />
�pt+s(x, y) − pt(x, y)<br />
s<br />
� =(q · pt)(x, y)<br />
gilt, das heißt, es gilt (d/dt)pt(x, y) =qpt(x, y) und analog (d/dt)�pt = q �pt(x, y).<br />
Damit gilt ebenfalls<br />
pt(x, y) − �pt(x, y) =<br />
� t<br />
0<br />
� q(ps − �ps) � (x, y) ds.<br />
Setzen wir rs = ps − �ps,soist�rs�2 ≤ 2 und �q�2 ≤ 2λ, also<br />
sup �rs�2 ≤ sup<br />
s≤t<br />
s≤t<br />
� t<br />
0<br />
�qru�2 du ≤�q�2 sup<br />
s≤t<br />
� t<br />
0<br />
�ru�2 du ≤ 2λt sup �rs�2.<br />
s≤t<br />
Für tt]<br />
= P[Tn ≤ s + t − Sn |Sn ≤ t, Tn >t− Sn] =P[Tn ≤ s]<br />
=1− exp(−n 2 s).<br />
lim s<br />
s↓0 −1 P[Xt+s = n +1|Xt = n] =n 2<br />
lim s<br />
s↓0 −1� P[Xt+s = n|Xt = n] − 1 � = −n 2 ,<br />
lim<br />
s↓0 s −1 � P[Xt+s = m|Xt = n] − I(m, n) � = q(m, n) für alle m, n ∈ N.
Schreiben wir<br />
17.3 Diskrete Markovprozesse in stetiger Zeit 347<br />
τ n =inf{t ≥ 0:Xt = n} = Sn für n ∈ N,<br />
so gilt E1[τ n ]= �n−1 k=1 1<br />
k2 �<br />
. Speziell ist also E1 supn∈N τ n� < ∞, das heißt, X<br />
überschreitet in endlicher Zeit alle Schranken. Wir sagen, dass X explodiert. ✸<br />
Beispiel 17.27 (Eine Variante des Pólya’schen Urnenmodells). Wir betrachten eine<br />
Variante des Pólya’schen Urnenmodells mit schwarzen und roten Kugeln (vergleiche<br />
Beispiel 12.29), wo nicht jeweils einfach nur eine weitere Kugel der selben<br />
Farbe zurückgelegt wird, sondern für die k-te Kugel, die von einer Farbe gezogen<br />
wird, werden rk weitere Kugeln zurückgelegt. Dabei sind die Zahlen r1,r2,...∈ N<br />
die Parameter des Modells. Der Fall 1=r1 = r2 = ...entspricht dem klassischen<br />
Pólya’schen Urnenmodell. Sei<br />
�<br />
1, falls die n-te Kugel schwarz ist,<br />
Xn :=<br />
0, sonst.<br />
Beim klassischen Modell hatten wir gesehen (Beispiel 12.29), dass der Anteil der<br />
schwarzen Kugeln gegen eine betaverteilte Zufallsvariable Z konvergiert, und dass<br />
gegeben Z die Folge X1,X2,... unabhängig und BerZ verteilt ist. Ganz ähnliche<br />
Aussagen bekommen wir in dem Fall, wo r = r1 = r2 = ... ist für ein r ∈ N.<br />
In der Tat ändern sich hier nur die Parameter der Betaverteilung. Insbesondere (da<br />
die Betaverteilung keine Atome in 0 und 1 hat), werden von jeder Farbe fast sicher<br />
unendlich viele Kugeln gezogen. Es gilt also P[B] =0,woB das Ereignis ist, dass<br />
von einer der Farben nur endlich viele Kugeln gezogen werden.<br />
Wir werden jetzt sehen, dass dies nicht so sein muss, wenn die Zahlen rk nur rasch<br />
genug wachsen. Wir nehmen an, dass anfangs je eine rote und eine schwarze Kugel<br />
in der Urne liegen und schreiben wn =1+ �n k=1 rk für die Gesamtzahl von Kugeln<br />
einer Farbe, nachdem die Farbe bereits n-mal gezogen wurde (n ∈ N0).<br />
Wir betrachten zunächst eine extreme Situation wo wn =2nfür jedes n ∈ N. Die<br />
Größe<br />
Sn =2(X1 + ...+ Xn) − n<br />
zählt, wie viel mehr schwarze Kugeln als rote Kugeln bis zum n-ten Schritt gezogen<br />
wurden. Dann ist für jedes n ∈ N0<br />
P[Xn+1 =1|Sn] = 2Sn<br />
1+2 Sn<br />
und P[Xn+1 =0|Sn] = 2−Sn<br />
. −Sn 1+2<br />
Zusammen erhalten wir, dass (Zn)n∈N0 := (|Sn|)n∈N0 eine Markovkette auf N0 ist<br />
mit Übergangsmatrix<br />
p(z,z ′ ⎧<br />
⎪⎨<br />
)=<br />
⎪⎩<br />
2 z /(1 + 2 z ), falls z ′ = z +1> 1,<br />
1, falls z ′ = z +1=1,<br />
1/(1 + 2 z ), falls z ′ = z − 1,<br />
0, sonst.
348 17 Markovketten<br />
Das Ereignis B von oben können wir schreiben als<br />
B = � Zn+1 Zn für alle n ∈ N0 das Ereignis, dass Z auf direktem Weg<br />
nach ∞ flieht und τz =inf{n ∈ N0 : Zn ≥ z}. Offenbar ist<br />
Pz[A] =<br />
∞�<br />
z ′ =z<br />
p(z ′ ,z ′ +1)≥ 1 −<br />
∞�<br />
z ′ =z<br />
1<br />
1+2 z′ ≥ 1 − 2 1−z .<br />
Man kann leicht zeigen, dass P0[τz < ∞] =1ist für jedes z ∈ N0. Wir erhalten<br />
für jedes z ∈ N0 mit der starken Markoveigenschaft<br />
P0[B] ≥ P0[Zn+1 >Zn für alle n ≥ τz] =Pz[A] ≥ 1 − 2 1−z<br />
und damit P0[B] =1. Damit ist nachgewiesen, dass fast sicher irgendwann nur<br />
noch Kugeln einer Farbe gezogen werden.<br />
Wir wollen nun von diesem extremen Beispiel weg und mit (noch) subtileren Methoden,<br />
die an das obige Beispiel mit der Explosion des Markovprozesses anknüpfen,<br />
arbeiten.<br />
Wir wollen nun zeigen, dass P[B] =1, falls �∞ n=0 1 < ∞. Hierzu betrach-<br />
wn<br />
ten wir unabhängige Zufallsvariablen T s 1 ,T r 1 ,T s 2 ,T r 2 ,... mit PT r n = PT s n =<br />
expwn−1 . Ferner sei T r ∞ = �∞ n=1 T r n und T s ∞ = �∞ n=1 T s n. Offenbar ist E[T r ∞]=<br />
�∞ n=0 1/wn < ∞, also ist insbesondere P[T r ∞ < ∞] =1. Die analoge Aussage<br />
gilt für T s ∞. Man beachte, dass T r ∞ und T s ∞ unabhängig sind und Dichten haben<br />
(weil T r 1 und T s 1 Dichten haben), also gilt P[T r ∞ = T s ∞]=0.<br />
Seien nun<br />
Rt =sup � n ∈ N : T r 1 + ...+ T r n−1 ≤ t �<br />
und<br />
St =sup � n ∈ N : T s 1 + ...+ T s n−1 ≤ t � .<br />
Seien R := {T r 1 + ... + T r n,n ∈ N} und S := {T s 1 + ... + T s n,n ∈ N} die<br />
Sprungzeitpunkte von (Rt) und (St), sowieU := R ∪ S = {u1,u2,...}, wobei<br />
u1
17.4 Diskrete Markovketten, Rekurrenz und Transienz 349<br />
Also ist (Xn)n∈N0 das erweiterte Urnenmodell mit Gewichten (wn)n∈N0 . Wir betrachten<br />
nun das Ereignis B, dass von jeder Farbe unendlich viele Kugeln gezogen<br />
werden. Offenbar ist {Xn =1unendlich oft} = {sup S =supU} und {Xn =<br />
0 unendlich oft} = {sup R =supU}. Wegensup S = T s ∞ und sup R = T r ∞ ist<br />
also P[B] =P[T r ∞ = T s ∞]=0. ✸<br />
Übung 17.3.1. Seien r, s, R, S ∈ N. Man betrachte das Pólya’sche Urnenmodell<br />
(Xn)n∈N0 mit rk = r und sk = s für alle k ∈ N und anfänglich R roten Kugeln<br />
und S schwarzen Kugeln. Man zeige, dass der Anteil der schwarzen Kugeln fast<br />
sicher gegen eine Zufallsvariable Z mit Beta-Verteilung konvergiert und bestimme<br />
die Parameter. Man zeige, dass (Xn)n∈N0 u.i.v. ist gegeben Z und Xi ∼ BerZ für<br />
jedes i ∈ N0. ♣<br />
Übung 17.3.2. Man zeige, dass fast sicher unendlich viele Kugeln jeder Farbe ge-<br />
∞�<br />
zogen werden, falls<br />
1<br />
= ∞. ♣<br />
wn<br />
n=0<br />
17.4 Diskrete Markovketten, Rekurrenz und Transienz<br />
Sei im Folgenden X =(Xn)n∈N0 eine Markovkette auf dem abzählbaren Raum E<br />
mit Übergangsmatrix p.<br />
Definition 17.28. Für jedes x ∈ E sei τx := τ 1 x := inf{n >0: Xn = x} und<br />
τ k x =inf � n>τ k−1<br />
x : Xn = x �<br />
für k ∈ N, k≥ 2.<br />
τ k x heißt k-te Eintrittszeit von X in x. Für x, y ∈ E sei<br />
F (x, y) :=Px[τ 1 �<br />
y < ∞] =Px es gibt ein n ≥ 1 mit Xn = y �<br />
die Wahrscheinlichkeit jemals von x nach y zu gehen. Speziell ist F (x, x) die<br />
Rückkehrwahrscheinlichkeit (nach dem ersten Sprung) von x nach x.<br />
Man beachte, dass τ 1 x > 0 selbst bei Start in X0 = x gilt.<br />
�<br />
k Satz 17.29. Für alle x, y ∈ E und k ∈ N gilt Px τy < ∞ � = F (x, y) F (y, y) k−1 .<br />
Beweis. Wir führen den Beweis per Induktion über k.Für k =1ist die Aussage per<br />
Definition richtig. Sei nun k ≥ 2. Dann ist wegen der starken Markoveigenschaft<br />
von X (siehe Satz 17.14)
350 17 Markovketten<br />
1/2<br />
2<br />
1<br />
1<br />
1/3<br />
1/6<br />
1/2<br />
3<br />
1/2<br />
3/4<br />
1/2<br />
4 6<br />
Abb. 17.1. Markovkette mit acht Zuständen. Die Zahlen sind die Übergangswahrscheinlichkeiten<br />
für die entsprechenden Pfeile.<br />
Der Zustand 2 ist absorbierend, die Zustände 1, 3, 4 und 5 transient, die Zustände 6, 7 und 8<br />
(positiv) rekurrent.<br />
� k<br />
Px τy < ∞ � = Ex<br />
= Ex<br />
�<br />
�<br />
Px<br />
�<br />
1/2<br />
τ k y < ∞ � �F τ k−1<br />
y<br />
F (y, y) · k−1<br />
{τy
1<br />
17.4 Diskrete Markovketten, Rekurrenz und Transienz 351<br />
r r<br />
0 1 2 3<br />
1�r 1�r<br />
1�r 1�r<br />
Abb. 17.2. Markovkette auf N0 mit Parameter r ∈ (0, 1). Die Kette ist positiv rekurrent,<br />
wenn r ∈ (0, 1/2), nullrekurrent, wenn r =1/2 und transient für r ∈ (1/2, 1).<br />
(ii) In Abb. 17.2 hat die Kette eine Tendenz, nach rechts auszuwandern, falls r> 1<br />
2<br />
ist. Daher ist in diesem Fall jeder Zustand transient. Ist hingegen r ∈ (0, 1<br />
2 ),<br />
so hat die Kette einen Drall nach links (außer in 0) und besucht daher jeden<br />
Zustand immer wieder, ist also rekurrent. Mit etwas mehr Nachdenken kann<br />
man zeigen (siehe Übung 17.6.4), dass die Kette in diesem Fall sogar positiv<br />
rekurrent ist und im verbleibenden Fall r = 1<br />
2 nullrekurrent ✸<br />
Definition 17.33. Mit N(y) = �∞ n=0 {Xn=y} bezeichnen wir die Gesamtzahl der<br />
Besuche von X in y und mit<br />
∞�<br />
G(x, y) =Ex[N(y)] = p n (x, y)<br />
die Greenfunktion von X.<br />
Satz 17.34. (i) Für alle x, y ∈ E gilt (mit 1/0 :=∞)<br />
� F (x,y)<br />
1−F (y,y) ,<br />
G(x, y) =<br />
1<br />
1−F (y,y) ,<br />
�<br />
falls x �= y<br />
= F (x, y) G(y, y)+<br />
falls x = y<br />
{x=y}. (17.17)<br />
n=0<br />
(ii) Ein Punkt x ∈ E ist genau dann rekurrent, wenn G(x, x) =∞.<br />
Beweis. (ii) folgt aus (i). Wir müssen also noch (17.17) zeigen. Nach Satz 17.29 ist<br />
∞�<br />
G(x, y) =Ex[N(y)] = Px[N(y) ≥ k]<br />
= {x=y} +<br />
=<br />
∞�<br />
k=1<br />
k=1<br />
� F (x,y)<br />
1−F (y,y) , falls x �= y,<br />
1<br />
1−F (x,x) , falls x = y.<br />
� k<br />
Px τy < ∞ � = {x=y} +<br />
∞�<br />
F (x, y) F (y, y) k−1<br />
Die zweite Gleichheit in (17.17) folgt hieraus direkt. ✷<br />
k=1<br />
r
352 17 Markovketten<br />
Satz 17.35. Ist x rekurrent und F (x, y) > 0, dann ist auch y rekurrent, und es gilt<br />
F (x, y) =F (y, x) =1.<br />
Beweis. Sei F (x, y) > 0. Dann gibt es ein k ∈ N und Punkte x1,...,xk ∈ E mit<br />
xk = y und xi �= x für jedes i =1,...,ksowie<br />
Px [Xi = xi für jedes i =1,...,k] > 0.<br />
Speziell ist pk (x, y) > 0. Nach der Markoveigenschaft ist<br />
� 1<br />
1 − F (x, x) =Px τx = ∞ � �<br />
≥ Px X1 = x1,...,Xk = xk, τ 1 x = ∞ �<br />
� 1<br />
= Px [X1 = x1,...,Xk = xk] · Py τx = ∞ �<br />
= Px [X1 = x1,...,Xk = xk](1− F (y, x)) .<br />
Ist nun F (x, x) =1, dann ist auch F (y, x) =1.WegenF (y, x) > 0 existiert ein<br />
l ∈ N mit p l (y, x) > 0.Alsoistfür n ∈ N0<br />
Mithin ist, falls x rekurrent ist,<br />
G(y, y) ≥<br />
p l+n+k (y, y) ≥ p l (y, x) p n (x, x) p k (x, y).<br />
∞�<br />
n=0<br />
p l+n+k (y, y) ≥ p l (y, x)p k (x, y)G(x, x) =∞.<br />
Folglich ist auch y rekurrent. Wenn wir jetzt im Argument x und y vertauschen,<br />
dann erhalten wir noch F (x, y) =1. ✷<br />
Definition 17.36. Eine diskrete Markovkette heißt<br />
– irreduzibel, falls F (x, y) > 0 für alle x, y ∈ E gilt, oder äquivalent G(x, y) > 0.<br />
– schwach irreduzibel, falls F (x, y)+F (y, x) > 0 für alle x, y ∈ E gilt.<br />
Satz 17.37. Eine irreduzible diskrete Markovkette ist entweder rekurrent oder transient.<br />
Ist |E| ≥2, so gibt es keine absorbierenden Zustände.<br />
Beweis. Das folgt direkt aus Satz 17.35. ✷<br />
Satz 17.38. Ist E endlich und X irreduzibel, so ist X rekurrent.<br />
Beweis. Offenbar ist für jedes x ∈ E<br />
�<br />
∞� �<br />
G(x, y) = p n ∞�<br />
(x, y) = 1=∞.<br />
y∈E<br />
n=0 y∈E<br />
n=0
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 353<br />
Da E endlich ist, gibt es ein y ∈ E mit G(x, y) =∞. WegenF (y, x) > 0 existiert<br />
ein k ∈ N mit p k (y, x) > 0, also ist p n+k (x, x) ≥ p n (x, y) p k (y, x) und<br />
G(x, x) ≥<br />
∞�<br />
p n (x, y) p k (y, x) =p k (y, x) G(x, y) =∞. ✷<br />
n=0<br />
Übung 17.4.1. Sei x positiv rekurrent und F (x, y) > 0. Man zeige, dass auch y<br />
positiv rekurrent ist. ♣<br />
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten<br />
Wir wollen in diesem Abschnitt die Rekurrenz- und Transienzeigenschaften von<br />
Irrfahrten auf ZD , D =1, 2,...untersuchen. Eine ausführlichere Behandlung findet<br />
der Leser im Buch von Spitzer [147].<br />
Wir wollen untersuchen, ob die symmetrische einfache Irrfahrt X auf ZD , die in<br />
jedem Schritt mit gleicher Wahrscheinlichkeit zu einem der 2D nächsten Nachbarn<br />
springt, rekurrent oder transient ist. Sei also E = ZD und<br />
�<br />
1<br />
2D , falls |x − y| =1,<br />
p(x, y) =<br />
0, sonst.<br />
Der zentrale Grenzwertsatz legt nahe zu vermuten, dass<br />
p n (0, 0) ≈ CD n −D/2<br />
für n →∞<br />
für eine Konstante CD, die von der Dimension abhängt. Wir müssen hier jedoch<br />
zunächst einmal den Fall ausschließen, wo n ungerade ist, denn für ungerades n ist<br />
offenbar pn (0, 0) = 0. Seien also Y1,Y2,... unabhängige ZD-wertige Zufallsvariablen<br />
mit P[Yi = x] =p2 D<br />
(0,x).DannistX2n = Sn := Y1 + ...+ Yn für n ∈ N0,<br />
also G(0, 0) = �∞ n=0 P[Sn =0]. Offenbar hat Y1 =(Y1 1 ,...,YD 1 ) die Kovarianzmatrix<br />
Ci,j := E[Y i<br />
1 · Y j 2<br />
1 ]= D {i=j}. Nach dem lokalen zentralen Grenzwertsatz<br />
(siehe etwa [21, Seite 224ff] für eine eindimensionale Version dieses Satzes oder<br />
Übung 17.5.1 für eine analytische Herleitung) gilt<br />
n D/2 p 2n (0, 0) = n D/2 P[Sn =0] n→∞<br />
−→ 2(4π/D) −D/2 . (17.18)<br />
Nun ist genau dann � ∞<br />
n=1 n−α < ∞, wennα>1 ist, also ist G(0, 0) < ∞ genau<br />
dann, wenn D>2 ist. Wir haben damit einen Satz von Pólya gezeigt:<br />
Satz 17.39 (Pólya (1921)). Die symmetrische einfache Irrfahrt auf Z D ist genau<br />
dann rekurrent, wenn D ≤ 2.
354 17 Markovketten<br />
Das hier verwendete Vorgehen hat den Nachteil, dass wir den lokalen zentralen<br />
Grenzwertsatz bemüht haben, den wir nicht bewiesen haben. Wir wollen daher weitere<br />
Ansätze betrachten, die ohne dieses Hilfsmittel auskommen und auch an sich<br />
von Interesse sind.<br />
Betrachten wir zunächst die eindimensionale einfache Irrfahrt, die mit Wahrscheinlichkeit<br />
p einen Schritt nach rechts macht und mit Wahrscheinlichkeit 1 − p einen<br />
Schritt nach links. Dann ist<br />
∞�<br />
� �<br />
2n<br />
G(0, 0) = (p(1 − p))<br />
n<br />
n =<br />
n=0<br />
∞�<br />
� �<br />
−1/2<br />
(−p(1 − p))<br />
n<br />
n .<br />
Unter Benutzung des verallgemeinerten binomischen Lehrsatzes (Lemma 3.5) folgt<br />
⎧<br />
⎨ 1<br />
� , falls p �=<br />
G(0, 0) = (1 − 4p(1 − p))<br />
⎩<br />
1<br />
2 ,<br />
∞, falls p = 1<br />
2 .<br />
(17.19)<br />
Wir erhalten also, dass die einfache Irrfahrt auf Z genau dann rekurrent ist, wenn<br />
sie symmetrisch ist, also falls p = 1<br />
2 gilt.<br />
Die Transienz im Falle p �= 1<br />
2 folgt natürlich auch direkt aus dem starken Gesetz<br />
der großen Zahl, denn limn→∞ 1<br />
nXn = E0[X1] =2p− 1 fast sicher. Tatsächlich<br />
haben wir bei diesem Argument nur benutzt, dass die einzelnen Schritte von X<br />
einen Erwartungswert haben, der ungleich Null ist.<br />
Betrachten wir nun die allgemeinere Situation, wo X nicht notwendigerweise nur zu<br />
den nächsten Nachbarn springt, wo aber immer noch E0[|X1|] < ∞ und E0[X0] =<br />
0 gelten. Das starke Gesetz der großen Zahl liefert hier nicht direkt die gewünschte<br />
Aussage, sondern wir müssen etwas sorgfältiger argumentieren.<br />
Die Markoveigenschaft liefert für jedes N ∈ N und y �= x<br />
k=0<br />
k=0<br />
n=0<br />
N�<br />
N� � 1<br />
GN (x, y) := Px[Xk = y] = Px τy = k<br />
Hieraus folgt für jedes L ∈ N<br />
GN (0, 0) ≥<br />
=<br />
≥<br />
1<br />
2L +1<br />
1<br />
2L +1<br />
1<br />
2L +1<br />
�<br />
|y|≤L<br />
N�<br />
�<br />
Py[Xl = y] ≤ GN (y, y).<br />
� N−k<br />
l=0<br />
GN (0,y)<br />
�<br />
k=0 |y|≤L<br />
N�<br />
p k (0,y)<br />
�<br />
k=1 y: |y/k|≤L/N<br />
p k (0,y).<br />
Nach dem schwachen Gesetz der großen Zahl ist lim infk→∞<br />
für jedes ε>0, also folgt, wenn wir L = εN setzen<br />
�<br />
|y|≤εk pk (0,y)=1
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 355<br />
lim inf<br />
N→∞ GN (0, 0) ≥ 1<br />
2ε<br />
für jedes ε>0.<br />
Wir haben damit G(0, 0) = ∞ und folglich die Rekurrenz von X gezeigt.<br />
Zusammen mit der vorangehenden, einfachen Richtung haben wir gezeigt:<br />
Satz 17.40. Eine Irrfahrt auf Z mit �∞ kurrent, wenn �∞ x=−∞ xp(0,x)=0gilt.<br />
x=−∞<br />
|x| p(0,x) < ∞ ist genau dann re-<br />
Wie steht es nun für symmetrische einfache Irrfahrten in Dimension D =2und<br />
höheren Dimensionen? Damit die Irrfahrt nach 2n Schritten wieder im Ursprung<br />
ist, muss sie ki Schritte in die i-te Richtung machen und ki Schritte in die Gegenrichtung,<br />
wobei k1 + ...+ kD =2nist. Wir erhalten also<br />
p 2n (0, 0) = (2D) −2n<br />
�<br />
�<br />
�<br />
2n<br />
, (17.20)<br />
k1,k1,...,kD,kD<br />
k1+...+kD=n<br />
wobei � � N<br />
N! = l1,...,lr l1!···lr! der Multinomialkoeffizienten ist. Speziell ist für D =2<br />
p 2n (0, 0) = 4 −2n<br />
=4 −2n<br />
n�<br />
k=0<br />
� 2n<br />
n<br />
(2n)!<br />
(k!) 2 ((n − k)!) 2<br />
� n �<br />
k=0<br />
� �� � �<br />
n n<br />
= 2<br />
k n − k<br />
−2n<br />
� ��2 2n<br />
,<br />
n<br />
wobei wir im letzten Schritt eine einfache kombinatorische Identität benutzt haben,<br />
die beispielsweise direkt aus der Faltungsformel (bn,p ∗ bn,p)({n}) =b2n,p({n})<br />
folgt. Nach der Stirling’schen Formel gilt nun<br />
√ −2n<br />
lim n 2<br />
n→∞<br />
� 2n<br />
n<br />
�<br />
= 1<br />
√ π ,<br />
also limn→∞ np2n (0, 0) = 1<br />
π . Insbesondere ist also �∞ n=1 p2n (0, 0) = ∞, das<br />
heißt, die zweidimensionale, symmetrische einfache Irrfahrt ist rekurrent.<br />
Für D ≥ 3 lässt sich die Summe über die Multinomialkoeffizienten nicht mehr in<br />
befriedigender Weise ausrechnen. Man kann allerdings immer noch obere Abschätzungen<br />
angeben, die zeigen, dass es ein c = cD gibt, sodass p2n (0, 0) ≤ cn−D/2 gilt,<br />
woraus dann G(0, 0) ≤ c �∞ n=1 n−D/2 < ∞ folgt (siehe etwa [58, Beispiel 6.30]<br />
oder [52, Seite 361]). Wir wollen hier jedoch eine andere Argumentation verfolgen.<br />
Die Sache wäre ganz einfach, wenn die einzelnen Koordinaten der Kette unabhängig<br />
wären. Dann wäre ja die Wahrscheinlichkeit, dass zur Zeit 2n alle Koordinaten<br />
gleich Null sind, gleich der D-ten Potenz der Wahrscheinlichkeit, dass etwa die<br />
erste Koordinate gleich Null ist. Für eine Koordinate ist aber (weil sich eine einzelne<br />
Koordinate ja nur mit Wahrscheinlichkeit 1/D bewegt, also nur Varianz 1/D
356 17 Markovketten<br />
hat) die Wahrscheinlichkeit, von der 0 aus startend nach 2n Schritten wieder in 0 zu<br />
sein ungefähr (nπ/D) −1/2 . Bis auf einen Faktor erhielte man so (17.18), ohne dass<br />
man den mehrdimensionalen lokalen zentralen Grenzwertsatz direkt bemüht hätte.<br />
Eine Möglichkeit, die Koordinaten tatsächlich unabhängig zu machen, besteht darin,<br />
die zeitdiskrete Markovkette in einen zeitstetigen Markovprozess auf Z D zu verwandeln,<br />
der die gleiche Greenfunktion hat.<br />
Wir betrachten also D unabhängige Poissonprozesse (T i t )t≥0, i = 1,...,D mit<br />
Rate 1/D und D unabhängige, symmetrische einfache Irrfahrten Z1 ,...,ZD auf<br />
für i = 1,...,D und Yt =<br />
Z. Wir setzen T := T 1 + ... + T D , Y i<br />
t := Zi T i t<br />
(Y 1<br />
t ,...,YD t ).DannistY eine Markovkette in stetiger Zeit mit Q-Matrix q(x, y) =<br />
p(x, y) − {x=y}. DaT ein Poissonprozess mit Rate 1 ist, ist auch (XTt )t≥0 ein<br />
Markovprozess mit Q-Matrix q. Es folgt (XTt )t≥0<br />
D<br />
=(Yt)t≥0. Wir berechnen nun<br />
� ∞<br />
� ∞ ∞�<br />
GY := P0[Yt =0]dt =<br />
0<br />
=<br />
�<br />
P0 X2n =0,Tt =2n<br />
0 n=0<br />
� dt<br />
∞�<br />
p<br />
n=0<br />
2n � ∞<br />
−t t2n<br />
(0, 0) e dt = G(0, 0).<br />
0 (2n)!<br />
Die beiden Prozesse (Xn)n∈N0 und (Yt) t∈[0,∞) haben also die selbe Greenfunktion.<br />
Nun sind aber die Koordinaten von Y tatsächlich unabhängig, also ist<br />
� ∞<br />
GY =<br />
0<br />
P0[Y 1<br />
t =0] D dt.<br />
Wir müssen also nur noch P0[Y 1<br />
t =0]für große t berechnen. Wir können so argu-<br />
mentieren: nach dem Gesetz der großen Zahl ist T 1 t ≈ t/D für große t. Außerdem<br />
gilt P0[Y 1<br />
t ist gerade] ≈ 1<br />
2 . Es gilt also, mit nt = ⌊t/2D⌋ für t →∞(vergleiche<br />
Übung 17.5.2)<br />
P0[Y 1<br />
t =0]∼ 1<br />
2 P�Z 1 2nt =0� = 1<br />
2<br />
� 2nt<br />
nt<br />
�<br />
4 −nt ∼ � 2π/D � −1/2 t −1/2 . (17.21)<br />
Da genau dann � ∞<br />
t 1 −α dt < ∞ gilt, wenn α>1 ist, so gilt auch GY < ∞ genau<br />
dann, wenn D>2 ist. Dies ist aber gerade die Aussage des Satzes von Pólya.<br />
Schließlich stellen wir noch eine dritte Methode vor, um Rekurrenz und Transienz<br />
von Irrfahrten zu untersuchen, die unabhängig von den euklidischen Eigenschaften<br />
des D-dimensionalen Gitters ist und auf der Fourier-Inversionsformel beruht.<br />
Wir betrachten zunächst eine allgemeine (zeitdiskrete) irreduzible Irrfahrt mit Übergangsmatrix<br />
p auf ZD .Mitφ(t) = �<br />
x∈ZD ei〈t,x〉 p(0,x) bezeichnen wir die charakteristische<br />
Funktion eines einzelnen Übergangs. Die Faltung der Übergangswahrscheinlichkeiten<br />
überträgt sich in Potenzen der charakteristischen Funktion, also ist<br />
φ n (t) = �<br />
x∈ZD e i〈t,x〉 p n (0,x).
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 357<br />
Nach der Fourier-Inversionsformel (Satz 15.10) erhalten wir aus φn die n-Schritt<br />
Übergangswahrscheinlichkeiten zurück durch<br />
�<br />
Speziell ist für λ ∈ (0, 1)<br />
∞�<br />
p n (0,x)=(2π) −D<br />
Rλ := λ<br />
n=0<br />
n p n (0, 0) = (2π) −D<br />
n=0<br />
=(2π) −D<br />
�<br />
=(2π) −D<br />
�<br />
[−π,π) D<br />
[−π,π) D<br />
[−π,π) D<br />
e −i〈t,x〉 φ n (t) dt.<br />
∞�<br />
�<br />
1<br />
1 − λφ(t) dt.<br />
� �<br />
1<br />
Re<br />
1 − λφ(t)<br />
[−π,π) D<br />
λ n φ n (t) dt<br />
Nun ist G(0, 0) = limλ↑1 Rλ, also<br />
X ist rekurrent<br />
�<br />
⇐⇒ lim<br />
λ↑1 [−π,π) D<br />
� �<br />
1<br />
Re<br />
dt = ∞.<br />
1 − λφ(t)<br />
(17.22)<br />
Wäre φ(t) =1für ein t ∈ (−2π, 2π) D \{0},sowäre φ n (t) =1für jedes n ∈ N und<br />
damit nach Übung 15.2.1 P0[〈Xn,t/(2π)〉 ∈Z] =1, also wäre X nicht irreduzibel,<br />
im Widerspruch zur Annahme. Wegen der Stetigkeit von φ ist also für jedes ε>0<br />
Es gilt also der folgende Satz.<br />
dt.<br />
inf � |φ(t) − 1| : t ∈ [−π, π) D \ (−ε, ε) D� > 0.<br />
Satz 17.41 (Chung-Fuchs (1951)). Eine irreduzible Irrfahrt auf ZD mit charakteristischer<br />
Funktion φ ist genau dann rekurrent, wenn für jedes ε>0 gilt:<br />
� � �<br />
1<br />
lim Re<br />
dt = ∞. (17.23)<br />
λ↑1<br />
1 − λφ(t)<br />
(−ε,ε) D<br />
Betrachten wir nun die symmetrische einfache Irrfahrt, so ist φ(t) = 1 �D D i=1 cos(ti).<br />
Entwickeln wir die Kosinusfunktion in eine Taylorreihe um 0, so erhalten wir<br />
cos(ti) =1− 1<br />
2t2i + O(t4 ), also 1 − φ(t) = 1<br />
2D �t�22 + O(�t�4 2). Es folgt, dass<br />
X genau dann rekurrent ist, wenn �<br />
�t�2
358 17 Markovketten<br />
Wir werden in Kapitel 19.3 noch eine weitere, strukturell völlig andere Methode<br />
kennen lernen, um den Satz von Pólya zu beweisen, die auf dem Zusammenhang<br />
von Irrfahrten mit elektrischen Netzwerken beruht.<br />
Tatsächlich können wir mit Hilfe des Satzes von Chung-Fuchs die Greenfunktion<br />
GD(0, 0) der symmetrischen einfachen Irrfahrt auf ZD berechnen, indem wir das<br />
so genannte Watson Integral<br />
GD(0, 0) = (2π) −D<br />
�<br />
(−π,π] D<br />
D<br />
dx (17.24)<br />
D − (cos(x1)+...+cos(xD))<br />
numerisch berechnen. Hierzu folgen wir [81] (wo sich auch noch eine Verfeinerung<br />
des Verfahrens findet) und führen das D-fache Integral auf ein zweifaches zurück.<br />
Indem wir die Gleichung 1<br />
λ = � ∞<br />
0 e−λt dt für den Integranden benutzen und den<br />
Satz von Fubini verwenden, erhalten wir<br />
und damit<br />
GD(0, 0) = D<br />
(2π) D<br />
� ∞<br />
0<br />
e −Dt<br />
� �<br />
GD(0, 0) = D<br />
(−π,π] D<br />
e t(cos(x1)+...+cos(xD)) �<br />
dx dt<br />
� ∞<br />
e<br />
0<br />
−Dt I0(t) D dt, (17.25)<br />
wobei I0(t) := 1<br />
� π<br />
π 0 et cos(θ) dθ die modifizierte Bessel-Funktion erster Art bezeichnet.<br />
Die Darstellung (17.25) lässt sich vermittels numerischer Integration in<br />
guter Genauigkeit schnell berechnen (siehe Tabelle 17.1).<br />
Für den Fall D =3hat Watson [155] die Darstellung<br />
G3(0, 0) = 12 18 + 12√ 2 − 10 √ 3 − 7 √ 6<br />
π 2<br />
�<br />
K (2 − √ 3)( √ 3 − √ �2 2)<br />
angegeben, wobei K(m) = � 1 � �<br />
2 2 −1/2<br />
(1 − t )(1 − mt ) dt das vollständige ellip-<br />
0<br />
tische Integral erster Ordnung mit Modul m ∈ (−1, 1) ist und eine Darstellung als<br />
schnell konvergierende Reihe besitzt<br />
K(m) = π<br />
�<br />
∞�<br />
�<br />
(2n)!<br />
1+<br />
2<br />
4n (n!) 2<br />
�2 m 2<br />
�<br />
.<br />
n=1<br />
Glasser und Zucker [60] haben einen Ausdruck als Produkt von Gammafunktionen<br />
gefunden:<br />
√ � � � � � � � �<br />
6 1 5 7 11<br />
G3(0, 0) = Γ Γ Γ Γ =1.5163860591519780181 ...<br />
32π3 24 24 24 24
17.5 Anwendung: Rekurrenz und Transienz von Irrfahrten 359<br />
Tabelle 17.1. Greenfunktion GD(0, 0) und Rückkehrwahrscheinlichkeit FD(0, 0) der einfachen<br />
symmetrischen Irrfahrt auf Z D , numerisch berechnet mit Formel (17.25).<br />
D GD(0, 0) FD(0, 0)<br />
2 ∞ 1<br />
3 1.51638605915 0.34053732955<br />
4 1.23946712185 0.19320167322<br />
5 1.15630812484 0.13517860982<br />
6 1.11696337322 0.10471549562<br />
7 1.09390631559 0.08584493411<br />
8 1.07864701202 0.07291264996<br />
9 1.06774608638 0.06344774965<br />
10 1.05954374789 0.05619753597<br />
11 1.05313615291 0.05045515982<br />
12 1.04798637482 0.04578912090<br />
13 1.04375406289 0.04191989708<br />
14 1.04021240323 0.03865787709<br />
15 1.03720412092 0.03586962312<br />
16 1.03461657857 0.03345836447<br />
17 1.03236691238 0.03135214040<br />
18 1.03039276285 0.02949628913<br />
19 1.02864627888 0.02784852234<br />
20 1.02709011674 0.02637559869<br />
Übung 17.5.1. Für n ∈ N0 sei pn die Matrix der n-Schritt Übergangswahrscheinlichkeiten<br />
der einfachen symmetrischen Irrfahrt auf ZD . Man leite für n ∈ N die<br />
Formel<br />
p 2n (0, 0) = (2π) −D<br />
�<br />
D −2n� cos(t1)+...+cos(tD) �−2n dt<br />
[−π,π) D<br />
her (siehe Satz 15.10). Man schließe durch geeignete Abschätzung des Integrals die<br />
Konvergenz nD/2p2n (0, 0) n→∞<br />
−→ 2(4π/D) −D/2 (siehe (17.18)). ♣<br />
Übung 17.5.2. Man zeige (17.21) formal. ♣<br />
Übung 17.5.3. Man zeige mit Hilfe von Satz 17.41, dass eine Irrfahrt auf Z 2 mit<br />
�<br />
�<br />
x∈Z2 xp(0,x)=0rekurrent ist, falls x∈Z2 �x�22 p(0,x) < ∞. ♣<br />
Übung 17.5.4. Man zeige mit Hilfe von Satz 17.41, dass für D ≥ 3 jede irreduzible<br />
Irrfahrt auf Z D transient ist. ♣<br />
Übung 17.5.5. Man zeige (17.25) für GD(0, 0) direkt mit den p 2n (0, 0) aus (17.20)<br />
und mit der Reihendarstellung I0(t) = � ∞<br />
k=0 (k!)−2 (t/2) k . ♣
360 17 Markovketten<br />
17.6 Invariante Verteilungen<br />
Sei im Folgenden stets p eine stochastische Matrix auf dem diskreten Raum E sowie<br />
(Xn)n∈N0 eine zugehörige Markovkette.<br />
In diesem Abschnitt interessieren wir uns dafür, welche Wahrscheinlichkeitsverteilungen<br />
unter der Dynamik der Markovkette erhalten bleiben. Im Kapitel 18 werden<br />
wir unter einfachen Bedingungen zeigen, wann die Verteilung einer Markovkette<br />
für lange Zeiten gegen eine solche Verteilung konvergiert.<br />
Definition 17.42. Ist μ ein Maß auf E und f : E → R eine Abbildung, so schreiben<br />
wir μp({x}) = �<br />
y∈E μ({y})p(y, x) und pf(x) =�y∈E<br />
p(x, y)f(y), falls die<br />
Summen konvergieren.<br />
Definition 17.43. (i) Ein σ-endliches Maß μ auf E heißt invariantes Maß, falls<br />
μp = μ.<br />
μ heißt invariante Verteilung, falls zudem μ(E) =1gilt. Mit I bezeichnen<br />
wir die Menge der invarianten Verteilungen.<br />
(ii) Eine Funktion f : E → R heißt subharmonisch, falls pf existiert und f ≤ pf<br />
gilt. f heißt superharmonisch, falls f ≥ pf gilt und harmonisch, falls f = pf.<br />
Bemerkung 17.44. Im Sinne der linearen Algebra ist ein invariantes Maß ein Links-<br />
Eigenvektor von p und eine harmonische Funktion ein Rechts-Eigenvektor, jeweils<br />
zum Eigenwert 1. ✸<br />
Lemma 17.45. Ist f beschränkt und (sub-, super-) harmonisch, so ist (f(Xn)) n∈N0<br />
ein (Sub-, Super-) Martingal bezüglich der erzeugten Filtration F = σ(X).<br />
Beweis. Sei f beschränkt und subharmonisch. Dann ist<br />
Ex[f(Xn) � �Fn−1] =EXn−1 [f(X1)] = �<br />
p(Xn−1,y)f(y)<br />
y∈E<br />
= pf(Xn−1) ≥ f(Xn−1). ✷<br />
Satz 17.46. Ist X transient, so existiert keine invariante Verteilung.<br />
Beweis. Nach Voraussetzung ist G(x, y) = �∞ n=0 pn (x, y) < ∞ für alle x, y ∈ E,<br />
also pn (x, y) n→∞<br />
−→ 0. Für jedes W-Maß μ auf E ist daher μpn (x) n→∞<br />
−→ 0. Wäre<br />
μ invariant, so wäre aber μpn (x) =μ(x) für jedes n ∈ N. ✷
17.6 Invariante Verteilungen 361<br />
Satz 17.47. Sei x ein rekurrenter Zustand und τ 1 x =inf{n ≥ 1: Xn = x}. Dann<br />
wird ein invariantes Maß μx definiert durch<br />
⎡<br />
τ<br />
μx({y}) =Ex ⎣<br />
1<br />
x−1 ⎤<br />
�<br />
∞� �<br />
⎦ {Xn=y} = Px Xn = y; τ 1 x >n � .<br />
n=0<br />
Beweis. Zunächst müssen wir zeigen, dass μx({y}) < ∞ ist für jedes y ∈ E. Für<br />
y = x ist offenbar μx({x}) =1.Für y �= x und F (x, y) =0ist μx({y}) =0.Sei<br />
nun y �= x und F (x, y) > 0. Dax rekurrent ist, ist F (x, y) =F (y, x) =1, und y<br />
ist rekurrent (Satz 17.35). Sei<br />
�F (x, y) =Px<br />
n=0<br />
� 1<br />
τx >τ 1� y .<br />
Dann ist � F (x, y) > 0 (sonst würde y nicht getroffen) und nach Vertauschung der<br />
Rollen von x und y auch � F (y, x) > 0.<br />
Nach der starken Markoveigenschaft (Satz 17.14) ist<br />
Also ist<br />
Ey<br />
⎡<br />
�<br />
⎣<br />
τ 1<br />
x −1<br />
n=0<br />
Mithin ist<br />
⎡<br />
�<br />
μx({y}) =Ex⎣<br />
τ 1<br />
x −1<br />
n=0<br />
{Xn=y}<br />
Ey<br />
{Xn=y}<br />
⎤ ⎡<br />
�<br />
⎦ =1+Ey ⎣<br />
τ 1<br />
x −1<br />
n=τ 1 y<br />
�<br />
=1+ 1 − � �<br />
F (y, x)<br />
⎡<br />
�<br />
⎣<br />
τ 1<br />
x −1<br />
n=0<br />
{Xn=y}<br />
⎤ ⎡<br />
�<br />
⎦ = Ex⎣<br />
τ 1<br />
x −1<br />
n=τ 1 y<br />
⎤<br />
⎦ =<br />
{Xn=y}; τ 1 x >τ 1 y<br />
Ey<br />
1<br />
�F (y, x) .<br />
⎡<br />
�<br />
⎣<br />
τ 1<br />
x −1<br />
n=0<br />
{Xn=y}; τ 1 x >τ 1 y<br />
⎤<br />
⎦<br />
{Xn=y}<br />
�<br />
Definiere pn(x, y) =Px Xn = y; τ 1 x >n � .Dannistfür jedes z ∈ E<br />
μx p({z}) = �<br />
∞� �<br />
μx({y}) p(y, z) = pn(x, y) p(y, z).<br />
y∈E<br />
1. Fall: x �= z. Dann ist<br />
�<br />
pn(x, y)p(y, z) = �<br />
y∈E<br />
n=0 y∈E<br />
�<br />
Px Xn = y, τ<br />
y∈E<br />
1 x >n,Xn+1 = z �<br />
⎤<br />
⎦ .<br />
⎤<br />
⎦= � F (x, y)<br />
< ∞.<br />
�F (y, x)<br />
� 1<br />
= Px τx >n+1;Xn+1 = z � = pn+1(x, z).
362 17 Markovketten<br />
Also ist (wegen p 0(x, z) =0)<br />
∞�<br />
∞�<br />
∞�<br />
μx p({z}) = pn+1(x, z) = pn(x, z) = pn(x, z) =μx({z}).<br />
n=0<br />
2. Fall: x = z. Jetzt ist<br />
�<br />
pn(x, y)p(y, x) = �<br />
y∈E<br />
y∈E<br />
�<br />
1 Also ist (wegen Px τx =0 � =0)<br />
μx p({x}) =<br />
n=1<br />
n=0<br />
�<br />
Px Xn = y; τ 1 x >n; Xn+1 = x � � 1<br />
= Px τx = n +1 � .<br />
∞�<br />
n=0<br />
� 1<br />
Px τx = n +1 � =1=μx({x}). ✷<br />
Korollar 17.48. Ist x positiv rekurrent, so wird durch π({x}) := μx<br />
Ex [τ 1 für x ∈ E<br />
x]<br />
eine invariante Verteilung π definiert.<br />
Satz 17.49. Ist X irreduzibel, so hat X höchstens eine invariante Verteilung.<br />
Bemerkung 17.50. Man kann auch zeigen: Ein invariantes Maß von X ist bis auf<br />
einen Faktor eindeutig. Der Beweis ist allerdings aufwändiger als der für invariante<br />
Verteilungen. Weil die Aussage hier nicht benötigt wird, verweisen wir lediglich auf<br />
[38, Theorem 5.4.4]. ✸<br />
Beweis. Seien π und ν invariante Verteilungen. Wähle einen beliebigen Wahrscheinlichkeitsvektor<br />
(gn)n∈N mit gn > 0 für jedes n ∈ N. Definiere die stochastische<br />
Matrix �p(x, y) = �∞ n=1 gn pn (x, y). Dannist�p(x, y) > 0 für alle x, y ∈ E<br />
und π�p = π sowie ν�p = ν.<br />
Betrachte nun das signierte Maß μ = π − ν. Es gilt μ�p = μ. Wäre nun μ �= 0,so<br />
gäbe es (wegen μ(E) =0) Punkte x1,x2 ∈ E mit μ({x1}) > 0 und μ({x2}) < 0.<br />
Offensichtlich wäre für jedes y ∈ E dann � �μ({x1}) p(x1,y)+μ({x2}) p(x2,y) � �<br />
�<br />
<<br />
�μ({x1}) p(x1,y) � �<br />
� + �μ({x2}) p(x2,y) � � , also<br />
� �<br />
� μ�p �TV = �<br />
�<br />
� �<br />
�<br />
�<br />
�<br />
� μ({x})�p(x, y) �<br />
�<br />
y∈E x∈E<br />
< � �<br />
|μ({x})| �p(x, y) = �<br />
|μ({x})| = � μ �TV.<br />
y∈E x∈E<br />
Da dies widersprüchlich ist, gilt μ =0. ✷<br />
Es sei daran erinnert, dass I die Menge der invarianten Verteilungen von X ist.<br />
x∈E
17.6 Invariante Verteilungen 363<br />
Satz 17.51. Sei X irreduzibel. X ist genau dann positiv rekurrent, wenn I �= ∅<br />
ist. In diesem Fall ist I = {π} mit<br />
π({x}) =<br />
1<br />
Ex[τ 1 > 0 für jedes x ∈ E.<br />
x]<br />
Beweis. Ist X positiv rekurrent, so ist I �= ∅ nach Korollar 17.48. Sei nun I �= ∅<br />
und π ∈ I.DaX irreduzibel ist, ist π({x}) > 0 für jedes x ∈ E. SeiPπ =<br />
�<br />
x∈E π({x})Px.Seix ∈ E fest und für n ∈ N0<br />
σ n x =sup � m ≤ n : Xm = x � ∈ N0 ∪{−∞}<br />
die letzte Eintrittszeit in x bis zur Zeit n. (Man bemerke, dass dies keine Stoppzeit<br />
ist.) Nach der Markoveigenschaft gilt dann für k ≤ n<br />
�<br />
Xk = x, Xk+1 �= x,...,Xn �= x �<br />
Pπ [σ n x = k] =Pπ<br />
�<br />
= Pπ Xk+1 �= x,...,Xn �= x|Xk = x � Pπ[Xk = x]<br />
�<br />
= π({x}) Px X1,...,Xn−k �= x �<br />
� 1<br />
= π({x}) Px τx ≥ n − k +1 � .<br />
�<br />
1 Also ist für jedes n ∈ N0 (wegen Py τx < ∞ � =1für jedes y ∈ E)<br />
1=<br />
n�<br />
k=0<br />
= π({x})<br />
Pπ [σ n x = k]+Pπ [σ n x = −∞]<br />
n�<br />
k=0<br />
n→∞<br />
−→ π({x})<br />
� 1<br />
Px τx ≥ n − k +1 � � 1<br />
+ Pπ τx ≥ n +1 �<br />
∞�<br />
k=1<br />
� 1<br />
Px τx ≥ k � � � 1<br />
= π({x}) Ex τx .<br />
� �<br />
1 1<br />
Mithin ist Ex τx = π({x}) < ∞, und damit ist X positiv rekurrent. ✷<br />
Übung 17.6.1. Betrachte die Markovkette aus Abb. 17.1 (Seite 350). Man bestimme<br />
die Menge aller invarianten Verteilungen und zeige, dass die Zustände 6, 7 und 8<br />
positiv rekurrent sind mit erwarteten Eintrittszeiten<br />
E6[τ6] = 17<br />
4 , E7[τ7] = 17<br />
5<br />
und E8[τ8] = 17<br />
. ♣<br />
5
364 17 Markovketten<br />
Übung 17.6.2. Sei X =(Xt)t≥0 eine Markovkette auf E in stetiger Zeit mit Q-<br />
Matrix q. Man zeige: Ein Wahrscheinlichkeitsmaß π auf E ist genau dann eine invariante<br />
Verteilung für X,wenn �<br />
x∈E π({x})q(x, y) =0für alle y ∈ E. ♣<br />
Übung 17.6.3. Sei G eine abzählbare, abelsche Gruppe und p die Übergangsmatrix<br />
einer irreduziblen Irrfahrt X auf G, das heißt, es gilt p(hg, hf) =p(h, f) für alle<br />
h, g, f ∈ G. (Dies verallgemeinert den Begriff der Irrfahrt auf Z D .) Man zeige mit<br />
Hilfe von Satz 17.51: X ist genau dann positiv rekurrent, wenn G endlich ist. ♣<br />
Übung 17.6.4. Sei r ∈ [0, 1] und X die Markovkette auf N0 mit Übergangsmatrix<br />
(siehe Abb. 17.2 auf Seite 351)<br />
⎧<br />
1, falls x =0 und y =1,<br />
⎪⎨ r, falls y = x +1≥ 2,<br />
p(x, y) =<br />
1 − r, falls y = x − 1,<br />
⎪⎩<br />
0, sonst.<br />
Man bestimme das invariante Maß und zeige mit Hilfe von Satz 17.51:<br />
(i) Ist r ∈ � 0, 1<br />
�<br />
2 ,soistXpositiv rekurrent.<br />
(ii) Ist r = 1<br />
2 ,soistXnullrekurrent. (iii) Ist r ∈{0}∪ � 1<br />
2 , 1� ,soistXtransient. ♣
18 Konvergenz von Markovketten<br />
Wir betrachten eine Markovkette X mit invarianter Verteilung π und untersuchen<br />
unter welchen Bedingungen die Verteilung von Xn für n →∞gegen π konvergiert.<br />
Im Wesentlichen ist dafür notwendig und hinreichend, dass der Zustandsraum der<br />
Kette nicht in Unterräume zerfällt, die<br />
– von der Kette nicht verlassen werden,<br />
– oder von der Kette beispielsweise nur für ungerade n beziehungsweise gerade n<br />
besucht werden.<br />
Im ersten Fall wäre die Kette reduzibel, im zweiten hingegen periodisch.<br />
Wir untersuchen Periodizität von Ketten im ersten Abschnitt und zeigen im zweiten<br />
den Konvergenzsatz. Im dritten Abschnitt beschäftigen wir uns mit Anwendungen<br />
des Konvergenzsatzes für Computersimulationen mit der so genannten Markovketten<br />
Monte Carlo Methode. Im letzten Abschnitt beschreiben wir die Geschwindigkeit<br />
der Konvergenz gegen das Gleichgewicht mit Hilfe des Spektrums<br />
der Übergangsmatrix.<br />
18.1 Periodizität von Markovketten<br />
Wir untersuchen, unter welchen Bedingungen eine Markovkette X auf dem abzählbaren<br />
Raum E (und mit Übergangsmatrix p), die in einem beliebigen μ ∈M1(E)<br />
gestartet wird, in Verteilung gegen eine invariante Verteilung π konvergiert, also<br />
μp<br />
n n→∞<br />
−→ π gilt. Sicherlich ist hierzu notwendig, dass π die einzige invariante<br />
Verteilung ist, und damit bis auf Vielfache der einzige Links-Eigenvektor von p zum<br />
Eigenwert 1. Hierfür ist ausreichend, dass die Kette irreduzibel ist (Satz 17.49).<br />
n n→∞<br />
Es sind gewisse Kontraktionseigenschaften von p notwendig, damit μp −→ π<br />
für jedes μ ∈ M1(E) gelten kann. Offenbar ist 1 der betragsmäßig größte Eigenwert<br />
von p. Allerdings ist p nur dann (ausreichend) kontrahierend, wenn die<br />
Vielfachheit dieses Eigenwertes genau 1 ist und keine weiteren (komplexwertigen)<br />
Eigenwerte mit Betrag 1 existieren.<br />
Für die letztgenannte Bedingung ist die Irreduzibilität der Kette nicht hinreichend,<br />
wie wir sehen, wenn wir auf E = {0,...,N − 1} die Markovkette mit Übergangs-
366 18 Konvergenz von Markovketten<br />
matrix p(x, y) = {y=x+1(mod N)} betrachten. Der Eigenwert 1 hat die Vielfachheit<br />
1. Jedoch sind alle N-ten Einheitswurzeln eik/N , k =0,...,N − 1, ebenfalls Eigenwerte<br />
mit Betrag 1. Offenbar ist die Gleichverteilung auf E invariant, jedoch<br />
existiert lim<br />
n→∞ δxpn für kein x ∈ E, denn jeder Punkt wird periodisch immer nur<br />
nach jeweils genau N Schritten besucht. Um Konvergenz zu erzielen, müssen wir<br />
also zunächst Periodizität untersuchen (und ausschließen). Hernach können wir für<br />
irreduzible aperiodische Markovketten einen Konvergenzsatz angeben.<br />
Sind m, n ∈ N, so schreiben wir m � �n, falls m ein Teiler von n ist, also falls n<br />
m ∈ N.<br />
Ist M ⊂ N, so schreiben wir ggT(M) für den größten gemeinsamen Teiler aller<br />
n ∈ M. Sei im Folgenden stets X eine Markovkette auf dem abzählbaren Raum E<br />
mit Übergangsmatrix p.<br />
Definition 18.1. (i) Für x, y ∈ E schreiben wir<br />
N(x, y) := � n ∈ N0 : p n (x, y) > 0 � .<br />
Für jedes x ∈ E heißt dx := ggT(N(x, x)) die Periode des Punktes x.<br />
(ii) Ist dx = dy für alle x, y ∈ E,soheißtd := dx die Periode von X.<br />
(iii) Ist dx =1 für jedes x ∈ E, so heißt X aperiodisch.<br />
1<br />
1<br />
Abb. 18.1. Die linke Markovkette ist periodisch mit Periode 2, die rechte Markovkette ist<br />
aperiodisch.<br />
1/2<br />
1/2<br />
Lemma 18.2. Für jedes x ∈ E existiert ein nx ∈ N mit<br />
1/2<br />
1/2<br />
1/2<br />
1/2<br />
p ndx (x, x) > 0 für jedes n ≥ nx. (18.1)<br />
Beweis. Seien k1,...,kr ∈ N(x, x) mit ggT({k1,...,kr}) =dx.Dannistfür alle<br />
m1,...,mr ∈ N0 auch �r i=1 ki mi ∈ N(x, x). Elementare Zahlentheorie liefert<br />
uns nun, dass für jedes n ≥ nx := r · �r i=1 (ki/dx) Zahlen m1,...,mr ∈ N0<br />
existieren mit ndx = �r i=1 ki mi. Also gilt (18.1). ✷
3<br />
1/2 1/2<br />
2<br />
1<br />
1<br />
18.1 Periodizität von Markovketten 367<br />
1 1<br />
4 1<br />
8<br />
7<br />
Abb. 18.2. Es ist N(8, 8) = {6, 10, 12, 14, 16,...}, also d8 := ggT({6, 10, 12,...}) =2<br />
und n8 =5. Die Kette hat also Periode 2. Hingegen ist n1 =2und n4 =4.<br />
Das Problem, die kleinste Zahl N zu finden, sodass sich jedes ndx, n ≥ N als<br />
nichtnegative ganzzahlige Linearkombination von k1,...,kr darstellen lässt, wird<br />
Frobenius Problem genannt. Die allgemeine Lösung ist unbekannt, allerdings hat<br />
Sylvester [150] für den Fall r =2gezeigt, dass N =(k1/dx − 1)(k2/dx − 1)<br />
minimal ist. Im allgemeinen Fall ist als obere Schranken für N beispielsweise<br />
2max{ki : i =1,...,r} 2 /(rd 2 x) bekannt, siehe etwa [44].<br />
Lemma 18.3. Sei X irreduzibel. Dann gelten:<br />
(i) d := dx = dy für alle x, y ∈ E.<br />
(ii) Für alle x, y ∈ E existieren nx,y ∈ N und Lx,y ∈{0,...,d− 1} mit<br />
5<br />
nd + Lx,y ∈ N(x, y) für jedes n ≥ nx,y. (18.2)<br />
Lx,y ist eindeutig bestimmt, und es gilt<br />
Lx,y + Ly,z + Lz,x =0(modd) für alle x, y, z ∈ E. (18.3)<br />
Beweis. (i) Seien m, n ∈ N0 mit p m (x, y) > 0 und p n (y, z) > 0. Dannist<br />
Also gilt<br />
p m+n (x, z) ≥ p m (x, y) p n (y, z) > 0.<br />
N(x, y)+N(y, z) := � m + n : m ∈ N(x, y), n∈ N(y, z) � ⊂ N(x, z). (18.4)<br />
Sind speziell m ∈ N(x, y), n ∈ N(y, x) und k ≥ ny, soistkdy � ∈ N(y, y), also<br />
m + kdy ∈ N(x, y) und m + n + kdy ∈ N(x, x). Es folgt dx�(m<br />
�<br />
�<br />
+ n + kdy) für<br />
jedes k ≥ ny, also dx�dy.<br />
Analog erhalten wir dy�dx,<br />
also dx = dy.<br />
(ii) Sei m ∈ N(x, y). Dannistm + kd ∈ N(x, y) für jedes k ≥ nx. Also gilt<br />
(18.2) mit<br />
�<br />
m<br />
�<br />
nx,y := nx +<br />
d<br />
und<br />
�<br />
m<br />
�<br />
Lx,y := m − d .<br />
d<br />
Wegen (18.4) ist<br />
1<br />
1<br />
6
368 18 Konvergenz von Markovketten<br />
(nx,y + ny,z)d + Lx,y + Ly,z ∈ N(x, z).<br />
Mit z = x folgt: d � � (Lx,y + Ly,x), also ist Lx,y eindeutig in {0,...,d− 1} und<br />
Lx,y = −Ly,x (mod d). Für allgemeines z folgt: d � � (Lx,y + Ly,z + Lz,x), also gilt<br />
(18.3). ✷<br />
Satz 18.4. Sei X irreduzibel mit Periode d. Dann existiert eine disjunkte Zerlegung<br />
des Zustandsraums<br />
mit der Eigenschaft<br />
E =<br />
d−1 �<br />
i=0<br />
Ei<br />
(18.5)<br />
p(x, y) > 0 und x ∈ Ei =⇒ y ∈ E i+1 (mod d). (18.6)<br />
Bis auf zyklische Vertauschung ist diese Zerlegung eindeutig.<br />
E2<br />
E0<br />
Abb. 18.3. Markovkette mit Periode d =3.<br />
Die Eigenschaft (18.6) besagt gerade, dass X die Mengen Ei nacheinander besucht<br />
und zu jedem Zeitschritt in das nächste Ei wechselt (siehe Abb. 18.3 oder Abb. 18.2,<br />
wo d =2, E0 = {1, 3, 5, 7} und E1 = {2, 4, 6, 8} ist). � Etwas formaler können � wir<br />
dies schreiben als: Ist x ∈ Ei für gewisses i, soistPxXn<br />
∈ Ei+n (mod d) =1.<br />
Beweis. ” Existenz“ Wähle ein beliebiges x0 ∈ E und setze<br />
Ei := � y ∈ E : Lx0,y = i �<br />
für i =0,...,d− 1.<br />
Offenbar gilt (18.5). Sei i ∈{0,...,d− 1} und x ∈ Ei. Isty ∈ E mit p(x, y) > 0,<br />
so ist Lx,y =1, also ist Lx0,y = Lx0,x + Lx,y = i +1(modd).<br />
” Eindeutigkeit“ Sei ( � Ei, i =0,..., � d − 1) eine weitere Zerlegung, die (18.5)<br />
und (18.6) erfüllt. Ohne Einschränkung sei E0 ∩ � E0 �= ∅ (sonst vertausche die � Ei<br />
zyklisch bis dies gilt) und x0 ∈ E0 ∩ � E0 beliebig. Nach Voraussetzung impliziert<br />
E1
18.2 Kopplung und Konvergenzsatz 369<br />
p(x0,y) > 0 nun y ∈ E1 und y ∈ � E1, also y ∈ E1 ∩ � E1. Iterativ erhalten wir, dass<br />
pnd+i (x, y) > 0 impliziert, dass y ∈ Ei ∩ � Ei (für n ∈ N und i =0,...,d− 1).<br />
Da die Kette irreduzibel ist, existieren aber für jedes y ∈ E Zahlen n(y) und i(y),<br />
sodass pn(y) d+i(y) (x0,y) > 0, also y ∈ Ei(y) ∩ � Ei(y). Mithin gilt Ei = � Ei für jedes<br />
i =0,...,d− 1. ✷<br />
18.2 Kopplung und Konvergenzsatz<br />
Es ist oftmals nützlich, einen gemeinsamen Wahrscheinlichkeitsraum für zwei Verteilungen<br />
anzugeben, sodass die jeweiligen Verteilungen sich als die Randverteilungen<br />
ergeben. Wir stellen zunächst das Prinzip der Kopplung abstrakt vor und geben<br />
dann Beispiele an. Schließlich wenden wir die Begriffe auf Markovketten an.<br />
Definition 18.5. Sind (E1, E1,μ1) und (E2, E2,μ2) Wahrscheinlichkeitsräume, so<br />
heißt jedes W-Maß μ auf (E1×E2, E1⊗E2) mit μ( · ×E2) =μ1 und μ(E1× · )=μ2<br />
eine Kopplung von μ1 und μ2.<br />
Beispiel 18.6. Seien X eine reelle Zufallsvariable und f,g : R → R monoton wachsende<br />
Funktionen mit E[f(X) 2 ] < ∞ und E[g(X) 2 ] < ∞. Wir wollen zeigen, dass<br />
die Zufallsvariablen f(X) und g(X) nichtnegativ korreliert sind.<br />
Sei dazu Y eine unabhängige Kopie von X, also eine von X unabhängige Zufallsvariable<br />
mit PY = PX. Speziell ist E[f(X)] = E[f(Y )] und E[g(X)] = E[g(Y )].<br />
Für alle Zahlen x, y ∈ R ist (f(x) − f(y))(g(x) − g(y)) ≥ 0. Alsoist<br />
0 ≤ E �� f(X) − f(Y ) �� g(X) − g(Y ) ��<br />
= E[f(X)g(X)] − E[f(X)] E[g(Y )] + E[f(Y )g(Y )] − E[f(Y )] E[g(X)]<br />
=2Cov[f(X),g(X)]. ✷<br />
Beispiel 18.7. Sind μ, ν ∈M1(Rd ), so schreiben wir μ � ν, falls � fdμ≤ � fdν<br />
für jede monoton wachsende, beschränkte Funktion f : Rd → R. Wir sagen dann,<br />
dass ν stochastisch größer als μ ist. Offenbar ist � eine Halbordnung auf M1(Rd ).<br />
Sind F1 und F2 die Verteilungsfunktionen von μ1 und μ2, so ist offenbar μ1 �<br />
μ2 genau dann, wenn F1(x) ≥ F2(x) für jedes x ∈ Rd . (Einen Überblick über<br />
verschiedene stochastische Ordnungen findet man beispielsweise in [116].)<br />
Wir zeigen jetzt, dass genau dann μ � ν gilt, wenn es eine Kopplung ϕ von μ1 und<br />
μ2 gibt mit ϕ(L) =1,woL := {x =(x1,x2) ∈ Rd × Rd : x1 ≤ x2}.<br />
Sei ϕ eine solche Kopplung. Für monoton wachsendes, beschränktes f : Rd → R<br />
ist f(x1) − f(x2) ≤ 0 für jedes x =(x1,x2) ∈ L, also � fdμ1− � fdμ2 � � =<br />
f(x1) − f(x2) � ϕ(dx) ≤ 0 und damit μ1 � μ2.<br />
L<br />
Gilt andererseits μ1 � μ2, so wird durch F ((x1,x2)) := min(F1(x1),F2(x2)) eine<br />
Verteilungsfunktion auf R d × R d definiert, die zu einer Kopplung ϕ mit ϕ(L) =1<br />
gehört. ✸
370 18 Konvergenz von Markovketten<br />
Beispiel 18.8. Sei (E,ϱ) ein polnischer Raum. Für zwei W-Maße P und Q auf<br />
(E,B(E)) schreiben wir K(P, Q) ⊂M1(E × E) für die Menge der Kopplungen<br />
von P und Q. Wirkönnen dann einen Abstand, die so genannte Wasserstein<br />
Metrik, aufM1(E) definieren durch<br />
� �<br />
�<br />
dW (P, Q) :=inf ϱ(x, y) ϕ(d(x, y)) : ϕ ∈ K(P, Q) . (18.7)<br />
Man kann zeigen (Satz von Kantorovich-Rubinstein [85], siehe auch [37, Seite<br />
420ff]), dass<br />
� �<br />
�<br />
dW (P, Q) =sup fd(P − Q) : f ∈ Lip1(E; R) . (18.8)<br />
Man vergleiche diese Darstellung der Wasserstein Metrik mit derjenigen der Totalvariationsnorm:<br />
� �<br />
�P − Q�TV =sup fd(P − Q) : f ∈L ∞ �<br />
(E) mit �f�∞ ≤ 1 . (18.9)<br />
Tatsächlich können wir auch hier eine Definition durch eine Kopplung angeben: Sei<br />
D := {(x, x) : x ∈ E} die Diagonale in E × E.Dannist<br />
�P − Q�TV =inf � ϕ((E × E) \ D) : ϕ ∈ K(P, Q) � . (18.10)<br />
Siehe [59] für einen Vergleich verschiedener Metriken auf M1(E). ✸<br />
Ein weiteres Beispiel für eine komplexere Kopplung liefert der folgende Satz von<br />
Skorohod, den wir hier nur zitieren.<br />
Satz 18.9 (Skorohod Kopplung). Es seien μ, μ1,μ2,... W-Maße auf einem pol-<br />
n→∞<br />
nischen Raum E mit μn −→ μ. Dann existiert ein Wahrscheinlichkeitsraum<br />
(Ω,A, P) mit Zufallsvariablen X, X1,X2,... mit PX = μ und PXn = μn<br />
n→∞<br />
jedes n ∈ N sowie Xn −→ X fast sicher.<br />
für<br />
Beweis. Siehe etwa [84, Seite 79]. ✷<br />
Wir wollen die Kopplung diskreter Markovketten betrachten, die in unterschiedlichen<br />
Verteilungen μ und ν gestartet werden. Im Folgenden sei E stets ein abzählbarer<br />
Raum und p eine stochastische Matrix auf E.<br />
Definition 18.10. Eine bivariate Markovkette ((Xn,Yn))n∈N0 mit Werten in E × E<br />
heißt eine Kopplung, falls (Xn)n∈N0 und (Yn)n∈N0 Markovketten mit Übergangsmatrix<br />
p sind.<br />
Eine Kopplung heißt erfolgreich, falls P (x,y)[Xn �= Yn] n→∞<br />
−→ 0 für alle x, y ∈ E.
18.2 Kopplung und Konvergenzsatz 371<br />
Diese Definition der Kopplung von Markovketten ist in gewisser Weise sehr restriktiv,<br />
weil sie die Markoveigenschaft auch wieder für den gekoppelten Prozess fordert.<br />
Für die Anwendungen, die wir im Sinne haben, reicht dies aber völlig aus.<br />
Natürlich sind zwei unabhängig laufende Ketten eine Kopplung, allerdings vielleicht<br />
nicht die interessanteste.<br />
Beispiel 18.11 (Unabhängiges Verschmelzen). Die wichtigste Kopplung sind die<br />
verschmelzenden Markovketten: Wir lassen X und Y unabhängig voneinander mit<br />
Übergangsmatrix p laufen, so lange bis sie sich das erste Mal treffen. Danach laufen<br />
die Ketten gemeinsam weiter. Diese Kopplung nennen wir unabhängiges Verschmelzen,<br />
sie hat die Übergangsmatrix<br />
¯p � (x1,y1), (x2,y2) � ⎧<br />
⎪⎨ p(x1,x2) · p(y1,y2), falls x1 �= y1,<br />
=<br />
p(x1,x2), falls x1 = y1, x2 = y2,<br />
⎪⎩<br />
0, falls x1 = y1, x2�= y2.<br />
Mit τ := inf{n ∈ N0 : Xn = Yn} bezeichnen wir den Verschmelzungszeitpunkt.<br />
Wir können die Kopplung tatsächlich aus zwei unabhängigen Ketten ˜ X und ˜ Y herstellen,<br />
indem wir X := ˜ X setzen, ˜τ := inf{n ∈ N0 : ˜ Xn = ˜ Yn} und<br />
�<br />
˜Yn, falls n
372 18 Konvergenz von Markovketten<br />
einem Beispiel gezeigt, dass wir auf die räumliche Homogenität nicht leicht verzichten<br />
können, wenn wir eine erfolgreiche Kopplung haben möchten. Der Verzicht<br />
auf Rekurrenz fällt leichter, wie der folgende Satz zeigt.<br />
Satz 18.13. Sei X eine beliebige aperiodische und irreduzible Irrfahrt auf Z d mit<br />
Übergangsmatrix p. Dann existiert eine erfolgreiche Kopplung (X, Y ).<br />
Der Beweis ist etwas technisch und kann beim ersten Lesen ausgelassen werden.<br />
Beweis. Sei zunächst der Fall d =1betrachtet. Für jedes L ∈ N definieren wir die<br />
Übergangsmatrix ˇpL einer Irrfahrt auf Z durch<br />
�<br />
ˇpL(x, y) =<br />
p(x, z) p(y, z), falls x �= y,<br />
z∈Z: |z−y|≤L, |z−x|≤L<br />
und ˇpL(x, x) =1− �<br />
y�=x ˇpL(x, y).<br />
Offenbar ist ˇpL stets aperiodisch. Wähle nun L so groß, dass ˇpL irreduzibel ist.<br />
(Dass dies geht, zeigt die folgende Überlegung: Da p aperiodisch und irreduzibel<br />
ist, gibt es zu jedem x ∈ Z ein Nx ∈ N mit p (n) (0,x) > 0 für n ≥ Nx. Für<br />
n ≥ N0 ∨ Nx ist dann ˇp (n) (0,x) > 0, wobei ˇp =ˇp∞ die Symmetrisierung von p<br />
ist, denn<br />
Wegen ˇp (n)<br />
L<br />
p (n) (0,x)=((p (n) ) T p (n) )(0,x) ≥ (p (n) ) T (0, 0) p (n) (0,x) > 0.<br />
(0,x) L→∞<br />
−→ ˇp (n) (0,x), gilt für hinreichend großes L und n ≥ N0 ∨<br />
N−1 ∨ N1, dassˇp (n)<br />
L (0, −1) > 0, ˇp(n)<br />
L (0, 0) > 0, und ˇp(n)<br />
L (0, 1) > 0. Mithin ist ˇpL<br />
irreduzibel.)<br />
Wir konstruieren die Kopplung (X, Y ), indem wir X und Y alle Sprünge der Weite<br />
größer als L gemeinsam ausführen lassen, diejenigen von kürzerer Weite jedoch unabhängig,<br />
solange bis X und Y sich treffen und dann verschmelzen. Wir betrachten<br />
also als Übergangsmatrix für die nicht verschmelzende Kette ( ˜ X, ˜ Y )<br />
˜pL((x1,y1), (x2,y2))<br />
⎧<br />
⎪⎨<br />
p(x1,x2) p(y1,y2), falls |x1 − x2| ≤L, |y1 − y2| ≤L,<br />
=<br />
⎪⎩<br />
p(x1,x2),<br />
0,<br />
falls |x1 − x2| >Lund y1 − y2 = x1 − x2,<br />
sonst.<br />
Schließlich sei (X, Y ) die nach Zeit τ := inf{n ∈ N0 : ˜ Xn = ˜ Yn} verschmelzende<br />
Kette, also X = ˜ X und Yn = ˜ Yn für n ≤ τ und Yn = Xn für n ≥ τ. Offenbarist<br />
(X, Y ) eine Kopplung der Ketten mit Übergangsmatrix p.<br />
Nach Konstruktion ist die Differenz ( ˜ Xn − ˜ Yn)n∈N0 eine Irrfahrt mit Übergangsmatrix<br />
ˇpL, also eine symmetrische irreduzible, aperiodische Irrfahrt mit beschränkter<br />
Sprungweite und damit rekurrent. Für x, y ∈ Z gilt daher
18.2 Kopplung und Konvergenzsatz 373<br />
� � �<br />
P (x,y) Xn �= Yn = Px−y<br />
˜Xk �= ˜ Yk für alle k ≤ n � n→∞<br />
−→ 0.<br />
Wir behandeln jetzt den allgemeinen Fall d ∈ N, indem wir die einzelnen Koordinaten<br />
nacheinander koppeln. Um dies rigoros zu machen, müssen wir etwas<br />
Notationsaufwand treiben. Für x = (x 1 ,...,x d ) und k = 1,...,d − 1 sei<br />
ˆx k =(x 1 ,...,x k ) und ˇx k =(x k+1 ,...,x d ). Wir setzen pk(x, ˆy k )=pk(ˆx k , ˆy k )=<br />
�<br />
ˇy k ∈Z d−k p(x, y), sowiepk(x, (ˇy k | ˆy k )) = p(x, y)/p(x, ˆy k ). Diese Schreibweise<br />
soll suggerieren, dass es sich um die bedingte Wahrscheinlichkeit handelt, von x<br />
nach y zu springen, gegeben, dass wir schon wissen, dass die ersten k Koordinaten<br />
des Ziels durch ˆy k gegeben sind.<br />
Wir setzen noch formal ˆx 0 = ˇxd = 0, ˆx d = ˇx0 = x, p0(x, ˆy 0 ) = 1 und<br />
p0(x, (ˇy 0 | ˆy 0 )) = p(x, y) sowie l(x) :=max � k ∈{0,...,d} : ˆxk =0 � .Sei<br />
jetzt für L ∈ N die Matrix ˇpL,k definiert durch<br />
� k k<br />
ˇpL,k ˇx , ˇy � =<br />
� � � � � � k k k k k k k<br />
pk 0, (ˇz − ˇx | ˆz ) pk 0, (ˇz − ˇy | ˆz ) pk 0, ˆz � ,<br />
z∈Z d<br />
�ˇz k −ˇx k �∞≤L<br />
�ˇz k −ˇy k �∞≤L<br />
falls ˇx k �=ˇy k und ˇpL,k(ˇx k , ˇx k )=1− �<br />
ˇy k �=ˇx k<br />
ˇpL,k(ˇx k , ˇy k ).<br />
Wir nehmen an, dass L groß genug gewählt ist, dass alle ˇpL,k irreduzibel sind. Setze<br />
nun noch<br />
�<br />
(x1,y1), (x2,y2) � =<br />
˜pL,k<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
�<br />
k p(x1,x2) pk ˆy 1 , (ˇy k 2 | ˆy k 2 ) � , falls ˆy k 1 − ˆy k 2 =ˆx k 1 − ˆx k 2<br />
und �ˇy k 1 − ˇy k 2�∞ ≤ L, �ˇx k 1 − ˇx k 2�∞ ≤ L,<br />
p(x1,x2), falls y2 − y1 = x2 − x1<br />
und �ˇx k 1 − ˇx k ∞�2 >L,<br />
0, sonst.<br />
Schließlich definieren wir die Übergangsmatrix q von (X, Y ) durch<br />
q � (x1,y1), (x2,y2) � �<br />
=˜p L,l(y1−x1) (x1,y1), (x2,y2) � .<br />
Die Zahl l(Xn − Yn) gibt an, wie viele Koordinaten schon gekoppelt sind. Sind<br />
schon genau k Koordinaten gekoppelt, so wird ˜pL,k als Übergangsmatrix genommen.<br />
Unter dieser Matrix bleiben die ersten k Koordinaten gekoppelt. Sei τk :=<br />
inf{n ∈ N0 : l(Xn − Yn) =k}. Zwischen τk und τk+1 ist ( ˇ Y k n − ˇ X k n)n∈N eine<br />
Irrfahrt mit Übergangsmatrix ˇpL,k, also symmetrisch, irreduzibel und mit endlicher<br />
Sprungweite. Damit ist jede einzelne Koordinate eine rekurrente Irrfahrt und insbesondere<br />
τk+1 < ∞ fast sicher. Es folgt, dass für alle x, y ∈ Z d gilt<br />
P (x,y)[Xn �= Yn] =P (x,y)[τd >n] n→∞<br />
−→ 0. ✷
374 18 Konvergenz von Markovketten<br />
Satz 18.14. Sei X eine Markovkette auf E mit Übergangsmatrix p. Existiert eine<br />
erfolgreiche Kopplung, so ist jede beschränkte, harmonische Funktion konstant.<br />
Beweis. Sei f : E → R beschränkt und harmonisch, also pf = f. Seien x, y ∈ E,<br />
und sei (X, Y ) eine erfolgreiche Kopplung. Nach Lemma 17.45 sind (f(Xn))n∈N0<br />
und (f(Yn))n∈N0 Martingale, also gilt<br />
f(x) − f(y) =E (x,y)[f(Xn) − f(Yn)] ≤ 2�f�∞ P (x,y)[Xn �= Yn] n→∞<br />
−→ 0. ✷<br />
Korollar 18.15. Ist X eine irreduzible Irrfahrt auf Z d , so ist jede beschränkte, harmonische<br />
Funktion konstant.<br />
Diese Aussage gilt allgemeiner, wenn wir Z d durch eine lokalkompakte, abelsche<br />
Gruppe ersetzen und geht in dieser Form auf Choquet und Deny [26] zurück, siehe<br />
auch [136].<br />
Beweis. Ist p die Übergangsmatrix von X, sosei¯ X eine Markovkette mit Übergangsmatrix<br />
¯p(x, y) = 1<br />
1<br />
2p(x, y)+ 2 {x}(y). Offenbar haben X und ¯ X die selben<br />
harmonischen Funktionen. Nun ist aber ¯ X eine aperiodische, irreduzible Irrfahrt,<br />
besitzt also nach Satz 18.13 eine erfolgreiche Kopplung für alle Startpunkte. ✷<br />
Satz 18.16. Sei p die Übergangsmatrix einer irreduziblen, positiv rekurrenten, aperiodischen<br />
Kette auf E. Dann ist die verschmelzende Kette eine erfolgreiche Kopplung.<br />
Beweis. Seien ˜ X und ˜ Y zwei unabhängige Markovketten auf E mit Übergangsmatrix<br />
p. Dann hat die bivariate Markovkette Z := ((Xn,Yn))n∈N0 die Übergangsmatrix<br />
�p, die durch<br />
�p � (x1,y1), (x2,y2) � = p(x1,x2) · p(y1,y2)<br />
definiert wird. Wir zeigen zunächst, dass die Matrix �p irreduzibel ist. Nur an dieser<br />
Stelle benötigen wir die Aperiodizität von p. Seien also (x1,y1), (x2,y2) ∈ E × E<br />
gegeben. Dann existiert nach Lemma 18.2 ein m0 ∈ N mit<br />
p n (x1,x2) > 0 und p n (y1,y2) > 0 für jedes n ≥ m0.<br />
Für n ≥ m0 ist daher �p n� (x1,y1), (x2,y2) � > 0.Alsoist�p irreduzibel.<br />
Wir definieren nun die Stoppzeit τ des ersten Eintreffens von ( ˜ X, ˜ Y ) in der Diagonalen<br />
D := {(x, x) : x ∈ E} durch τ := inf � n ∈ N0 : ˜ Xn = ˜ �<br />
Yn .Seiπdie invariante<br />
Verteilung von ˜ X. Offenbar ist dann das Produktmaß π ⊗ π ∈M1(E × E)<br />
eine (und damit die) invariante Verteilung von ( ˜ X, ˜ Y ). Nach Satz 17.51 ist daher<br />
( ˜ X, ˜ Y ) positiv rekurrent, also insbesondere rekurrent. Mithin gilt P (x,y)[τ
18.2 Kopplung und Konvergenzsatz 375<br />
Satz 18.17. Sei X eine Markovkette mit Übergangsmatrix p, zu der eine erfolgreiche<br />
Kopplung existiert. Für alle μ, ν ∈M1(E) gilt dann � � n (μ − ν)p � � n→∞<br />
−→ 0.<br />
TV<br />
Ist � speziell X aperiodisch und positiv rekurrent mit invarianter Verteilung π, so gilt<br />
�Lμ[Xn] − π � � n→∞<br />
−→ 0 für jedes μ ∈M1(E).<br />
TV<br />
Beweis. Es reicht, den Fall μ = δx, ν = δy für gewisse x, y ∈ E zu betrachten.<br />
Summation über x und y liefert dann den allgemeinen Fall. Sei (Xn,Yn)n∈N0 eine<br />
erfolgreiche Kopplung. Dann ist<br />
�<br />
� (δx − δy)p n�� ≤ 2 P<br />
TV (x,y)[Xn �= Yn] n→∞<br />
−→ 0. ✷<br />
Wir fassen den Zusammenhang von Aperiodizität und Verteilungskonvergenz von<br />
X im folgenden Satz zusammen.<br />
Satz 18.18 (Konvergenzsatz für Markovketten). Sei X eine irreduzible, positiv<br />
rekurrente Markovkette auf E mit invarianter Verteilung π. Dann sind äquivalent:<br />
(i) X ist aperiodisch.<br />
(ii) Für jedes x ∈ E gilt<br />
�<br />
� Lx[Xn] − π � � TV<br />
(iii) Für ein x ∈ E gilt (18.11).<br />
(iv) Für jedes μ ∈M1(E) gilt � �<br />
� n μp − π�TV n→∞<br />
−→ 0. (18.11)<br />
n→∞<br />
−→ 0.<br />
Beweis. Die Implikationen (iv) ⇐⇒ (ii) =⇒ (iii) sind klar. Die Implikation<br />
(i) =⇒ (ii) wurde in Satz18.17 gezeigt. Wir zeigen also (iii) =⇒ (i).<br />
” (iii) =⇒ (i)“ Wir nehmen an, dass (i) nicht gilt. Hat X die Periode d ≥ 2, und<br />
ist n ∈ N kein Vielfaches von d, so ist nach Satz 17.51<br />
�<br />
�δxp n − π � � ≥|p<br />
TV n (x, x) − π({x})| = π({x}) > 0.<br />
�<br />
Für jedes x ∈ E gilt daher lim sup �δxp n→∞<br />
n − π � � > 0, folglich gilt (iii) nicht. ✷<br />
TV<br />
Übung 18.2.1. Sei dP die Prohorov-Metrik (siehe (13.3) und Übung 13.2.1). Man<br />
zeige: dP (P, Q) ≤ � dW (P, Q) für alle P, Q ∈M1(E). HatE endlichen Durchmesser<br />
diam(E), soistdW (P, Q) ≤ (diam(E) +1)dP (P, Q) für alle P, Q ∈<br />
M1(E). ♣<br />
Übung 18.2.2. Man zeige durch eine direkte Rechnung, dass der in Beispiel 18.11<br />
aus ˜ X und ˜ Y hergestellte Prozess (X, Y ) eine Kopplung mit Übergangsmatrix ¯p ist.<br />
♣
376 18 Konvergenz von Markovketten<br />
Übung 18.2.3. Sei X eine beliebige aperiodische, irreduzible, rekurrente Irrfahrt<br />
auf Z d . Man zeige, dass dann zu je zwei Startpunkten die unabhängige Verschmelzung<br />
eine erfolgreiche Kopplung ist.<br />
Hinweis: Man zeige, dass die Differenz zweier rekurrenter Irrfahrten stets wieder<br />
rekurrent ist. ♣<br />
Übung 18.2.4. Sei X eine Markovkette auf Z2 mit Übergangsmatrix<br />
⎧<br />
1<br />
4<br />
⎪⎨<br />
p((x1,x2), (y1,y2)) =<br />
⎪⎩<br />
, falls x1 =0, �y − x�2 =1,<br />
1<br />
4 , falls x1 �= 0und y1 = x1 ± 1, x2 = y2,<br />
1<br />
2 , falls x1 �= 0und y1 = x1, x2 = y2,<br />
0, sonst.<br />
Anschaulich ist dies die symmetrische einfache Irrfahrt, bei der alle senkrechten<br />
Übergänge außerhalb der senkrechten Koordinatenachse blockiert werden. Man zeige,<br />
dass X nullrekurrent, irreduzibel und aperiodisch ist, und dass die unabhängige<br />
Verschmelzung keine erfolgreiche Kopplung ist. ♣<br />
18.3 Markovketten Monte Carlo Methode<br />
Es sei E eine endliche Menge und π ∈M1(E) mit π(x) :=π({x}) > 0 für jedes<br />
x ∈ E. Wir betrachten das Problem, eine Zufallsvariable Y mit Verteilung π mit<br />
dem Computer zu generieren. Dies ist etwa dann relevant, wenn E eine sehr große<br />
Menge ist und Summen vom Typ �<br />
x∈E<br />
f(x)π(x) numerisch approximiert werden<br />
sollen durch Schätzer n−1 �n i=1 f(Yi) (siehe Beispiel 5.21).<br />
Wir nehmen an, dass unser Computer in der Lage ist, Realisierungen von u.i.v. Zufallsvariablen<br />
U1,U2,... zu generieren, die uniform auf [0, 1] verteilt sind. Die Verteilung<br />
π soll jedoch nicht leicht direkt herstellbar sein.<br />
Metropolis-Algorithmus<br />
Wir haben schon gesehen, wie man Markovketten mit dem Computer simulieren<br />
kann (Beispiel 17.19). Die Idee ist nun, eine Markovkette X zu erzeugen, deren<br />
Verteilung gegen π konvergiert. Wenn wir X lange genug laufen lassen, so wird<br />
Xn ungefähr wie π verteilt sein. Gleichzeitig sollte die Kette so gestaltet sein, dass<br />
in jedem Schritt immer nur wenige Übergänge wirklich möglich sind, sodass das<br />
in Beispiel 17.19 beschriebene Verfahren auch effizient umsetzbar ist. (Natürlich<br />
wäre eine Kette mit Übergangsmatrix p(x, y) =π(y) gegen π konvergent, aber das<br />
Problem ließe sich hiermit nicht vereinfachen.) Die so beschriebene Methode des<br />
Ziehens von π-verteilten Stichproben wird Markovketten Monte Carlo Methode<br />
oder MCMC (für Markov chain Monte Carlo) genannt (siehe [18, 110, 115]).
18.3 Markovketten Monte Carlo Methode 377<br />
Sei q die Übergangsmatrix einer beliebigen irreduziblen Markovkette auf E (mit<br />
q(x, y) =0für möglichst viele y ∈ E). Wir erstellen hieraus die Metropolis-Matrix<br />
(siehe [69, 112]).<br />
Definition 18.19. Wir definieren eine stochastische Matrix p auf E durch<br />
⎧ �<br />
⎪⎨ q(x, y)min 1,<br />
p(x, y) =<br />
⎪⎩<br />
π(y)q(y,x)<br />
�<br />
π(x)q(x,y) , falls x �= y, q(x, y) > 0,<br />
0, falls x �= y, q(x, y) =0,<br />
1 − �<br />
z�=x p(x, z), falls x = y.<br />
p heißt Metropolis-Matrix zu q und π.<br />
Man sieht direkt, dass p reversibel ist, dass also für alle x, y ∈ E gilt<br />
π(x) p(x, y) =π(y) p(y, x). (18.12)<br />
Speziell ist π invariant (Nachrechnen!). Wir erhalten sofort den folgenden Satz.<br />
Satz 18.20. Ist q irreduzibel, so ist die Metropolis-Matrix p zu q und π irreduzibel<br />
mit eindeutiger Gleichgewichtsverteilung π. Ist zudem q aperiodisch, oder π nicht<br />
die Gleichverteilung auf E,soistp aperiodisch.<br />
Zur Simulation einer Kette X, die gegen π konvergiert, können wir nun, ausgehend<br />
von einer Referenzkette, die Übergänge nach q macht, den Metropolis-<br />
Algorithmus verwenden: Schlägt die Kette mit Übergangsmatrix q einen Übergang<br />
vom aktuellen Zustand x nach y vor, so akzeptieren wir diesen Vorschlag mit Wahrscheinlichkeit<br />
π(y)q(y, x)<br />
∧ 1.<br />
π(x)q(x, y)<br />
Ansonsten bleiben wir in x stehen.<br />
In der Definition von p taucht π nur in der Form des Quotienten π(y)/π(x) auf. In<br />
vielen Fällen von Interesse ist dieser Quotient relativ leicht berechenbar, auch wenn<br />
π(x) und π(y) selber nicht leicht zu bestimmen sind. Wir wollen dies an einem<br />
Beispiel erläutern.<br />
Beispiel 18.21 (Ising Modell). Das Ising Modell ist ein thermodynamisches (und<br />
quantenmechanisches) Modell für Ferromagnetismus in Kristallen, das von folgenden<br />
Annahmen ausgeht:<br />
– Atome sitzen auf den Punkten des Gitters Λ (zum Beispiel Λ = {0,...,N−1} 2 ),<br />
– jedes Atom i ∈ Λ hat ein magnetisches Moment (Spin): x(i) ∈{−1, 1}, das<br />
entweder nach oben zeigt (x(i) =+1) oder nach unten (x(i) =−1),<br />
– benachbarte Atome wechselwirken miteinander,
378 18 Konvergenz von Markovketten<br />
– auf Grund thermischer Schwankungen ist der Zustand des Systems zufällig und<br />
verteilt nach der so genannten Boltzmann-Verteilung π auf dem Zustandsraum<br />
≥ 0.<br />
E := {−1, 1} Λ ,abhängig von der inversen Temperatur β = 1<br />
T<br />
Wir definieren die lokale Energiefunktion, die das Energieniveau eines Atoms in<br />
i ∈ Λ als Funktion des Zustands x des Gesamtsystems angibt<br />
H i (x) = 1<br />
2<br />
�<br />
j∈Λ: i∼j<br />
{x(i)�=x(j)}.<br />
Hierbei bedeutet i ∼ j, dassi und j Nachbarn sind in Λ (damit meinen wir koordinatenweise<br />
mod N, wir sprechen auch von periodischen Randbedingungen). Die<br />
Gesamtenergie (oder Hamiltonfunktion) des Systems im Zustand x ist die Summe<br />
der Einzelenergien,<br />
H(x) = �<br />
H i (x) = �<br />
i∈Λ<br />
i∼j<br />
{x(i)�=x(j)}.<br />
Die Boltzmann-Verteilung π auf E := {−1, 1} Λ zur inversen Temperatur β ≥ 0<br />
wird definiert durch<br />
π(x) =Z −1<br />
β exp(−βH(x)),<br />
wobei die Zustandssumme Zβ = �<br />
exp(−βH(x)) (oder Partitionsfunktion)<br />
x∈E<br />
die Normierungskonstante ist, die π zu einem W-Maß macht.<br />
Makroskopisch beobachtbar ist nicht jeder einzelne Spin, sondern nur die mittlere<br />
Magnetisierung, die sich als Betrag des Mittelwerts der einzelnen Spins ergibt<br />
mΛ(β) = �<br />
�<br />
�<br />
�<br />
� 1 � �<br />
�<br />
π(x) � x(i) �<br />
�#Λ<br />
� .<br />
x∈E<br />
Wenn wir sehr große Systeme betrachten, sind wir nahe am so genannten thermodynamischen<br />
Limes<br />
m(β) := lim mΛ(β).<br />
Λ↑Zd Man kann mit einem Konturargument, ähnlich wie bei der Perkolation, zeigen (siehe<br />
[119]), dass (für d ≥ 2) eine Zahl βc = βc(d) ∈ (0, ∞) existiert, mit<br />
�<br />
> 0, falls β>βc,<br />
m(β)<br />
(18.13)<br />
=0, falls β
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
Magnetisierung<br />
18.3 Markovketten Monte Carlo Methode 379<br />
0<br />
0.84 0.85 0.86 0.87 0.88<br />
Inverse Temperatur<br />
0.89 0.9 0.91 0.92<br />
Abb. 18.4. Magnetisierungskurve im Ising-Modell auf einem 1000 × 1000-Gitter, per Computersimulation<br />
berechnet. Die senkrechte Linie markiert die kritische Temperatur.<br />
sind die Stoffe magnetisch, oberhalb sind sie es nicht. Dabei nimmt der Magnetisierungsgrad<br />
bei fallender Temperatur noch zu. Das Ising-Modell, das wir jetzt untersuchen,<br />
soll (zumindest in Computer-Simulationen) diesen Effekt einer kritischen<br />
Temperatur nachbilden.<br />
Wir definieren den Zustand xi,σ , bei dem an der Stelle i der Spin σ ∈{−1, +1}<br />
eingesetzt wird<br />
x i,σ �<br />
σ, falls j = i,<br />
(j) =<br />
x(j), falls j �= i.<br />
Außerdem definieren wir den Zustand x i , bei dem der Spin in i umgedreht wird<br />
x i := x i,−x(i) . Als vorschlagende Kette, oder Referenzkette, wählen wir nun eine<br />
Kette mit Übergangswahrscheinlichkeiten<br />
q(x, y) =<br />
�<br />
1<br />
#Λ , falls y = xi für ein i ∈ Λ,<br />
0, sonst.<br />
In Worten: Wir suchen einen Punkt i ∈ Λ zufällig (uniform verteilt) aus und drehen<br />
den Spin an dieser Stelle um. Offenbar ist q irreduzibel.<br />
Der Metropolis-Algorithmus zu dieser Kette akzeptiert den Vorschlag der Referenzkette<br />
sicher, falls π(x i ) ≥ π(x). Andernfalls wird der Vorschlag mit Wahrscheinlichkeit<br />
π(x i )/π(x) akzeptiert. Nun ist aber
380 18 Konvergenz von Markovketten<br />
Abb. 18.5. Gleichgewichte des Ising-Modells für ein 800 × 800 Gitter. (schwarzer Punkt =<br />
spin +1) Links: kälter als die kritische Temperatur (β >βc), rechts: wärmer.<br />
Abb. 18.6. Ising-Modell (150 × 150 Gitter) unterhalb der kritischen Temperatur. Die Computersimulation<br />
zeigt auch nach langer Laufzeit noch nicht das Gleichgewicht, sondern metastabile<br />
Zustände, in denen man die Weiss’schen Bezirke gut sehen kann.<br />
H(x i ) − H(x) = �<br />
j: j∼i<br />
j: j∼i<br />
{x(j)�=−x(i)} − �<br />
j: j∼i<br />
= −2 �<br />
�<br />
{x(j)�=x(i)} − 1<br />
�<br />
.<br />
2<br />
{x(j)�=x(i)}<br />
Also ist π(xi )/π(x) =exp � − 2β � �<br />
j∼i {x(j)=x(i)} − 1<br />
��<br />
2 , und dieser Ausdruck<br />
ist leicht zu berechnen, da er nur von den 2d Nachbarspins abhängt und zudem die<br />
Kenntnis von Zβ nicht benötigt. Wir erhalten also als Metropolis-Übergangsmatrix
18.3 Markovketten Monte Carlo Methode 381<br />
⎧ � �<br />
1<br />
⎪⎨ #Λ 1 ∧ exp 2β<br />
p(x, y)=<br />
⎪⎩<br />
�<br />
( {x(j)�=x(i)}−<br />
j: j∼i<br />
1<br />
2 )<br />
��<br />
, falls y = xi für ein i ∈ Λ,<br />
1 − �<br />
i∈Λ p(x, xi ), falls x = y,<br />
0, sonst.<br />
Praktisch wird man diese Kette simulieren, indem man sich unabhängige Zufallsvariablen<br />
I1,I2,... und U1,U2,... verschafft mit In ∼UΛ und Un ∼U [0,1]. Man<br />
setzt nun<br />
Fn(x) =<br />
� �<br />
In x , falls Un ≤ exp 2β �<br />
j: j∼i ( {x(j)�=x(i)} − 1<br />
2 )<br />
�<br />
,<br />
x, sonst,<br />
und definiert die Markovkette (Xn)n∈N durch Xn = Fn(Xn−1) für n ∈ N. ✸<br />
Gibbs-Sampler<br />
Wir betrachten eine Situation, in der, wie im obigen Beispiel, ein Zustand aus vielen<br />
Komponenten x =(xi)i∈Λ ∈ E besteht, wobei Λ eine endliche Menge ist. Alternativ<br />
zur Metropolis-Kette betrachten wir ein weiteres Verfahren, um eine Markovkette<br />
mit gegebener invarianter Verteilung herzustellen. Beim so genannten Gibbs-<br />
Sampler oder heat bath algorithm ist die Idee, den Zustand lokal an die stationäre<br />
Verteilung anzupassen. Ist x der momentane Zustand, dann verfährt man wie folgt.<br />
Für i ∈ Λ setze<br />
x−i := {y ∈ E : y(j) =x(j) für j �= i}.<br />
Definition 18.22 (Gibbs-Sampler). Sei q ∈M1(Λ) mit q(i) > 0 für jedes i ∈ Λ.<br />
Die Übergangsmatrix p auf E mit<br />
�<br />
qi<br />
p(x, y) =<br />
π(xi,σ )<br />
π(x−i) , falls y = xi,σ für ein i ∈ Λ,<br />
0, sonst.<br />
heißt Gibbs-Sampler zur invarianten Verteilung π.<br />
In Worten verfährt eine nach p konstruierte Kette in jedem Schritt wie folgt:<br />
(1) Wähle eine Komponente I gemäß einer Verteilung (qi)i∈Λ.<br />
(2) Ersetze in x durch x I,σ mit Wahrscheinlichkeit π(x I,σ )/π(x−I).<br />
Falls I = i ist, dann hat der neue Zustand also die Verteilung L(X|X−i = x−i),<br />
wobei X eine Zufallsvariable mit Verteilung π bezeichnet. Man beachte, dass man<br />
auch beim Gibbs-Sampler die Verteilung π nur bis auf die Normierungskonstante<br />
zu kennen braucht (in einem etwas allgemeineren Rahmen lassen sich der Gibbs-<br />
Sampler und der Metropolis Algorithmus als Spezialfälle ein und desselben Verfahren<br />
auffassen). Für Zustände x und y, die sich nur in der i-ten Komponente unterscheiden,<br />
gilt (wegen x−i = y−i)
382 18 Konvergenz von Markovketten<br />
π(x) p(x, y) =π(x) qi<br />
π(y)<br />
π(x)<br />
= π(y) qi = π(y) p(y, x).<br />
π(x−i) π(y−i)<br />
Der Gibbs-Sampler beschreibt also eine reversible Markovkette mit Gleichgewicht<br />
π. Die Irreduzibilität des Gibbs-Samplers ist von Fall zu Fall zu klären.<br />
Beispiel 18.23 (Ising Modell). Im oben beschriebenen Ising-Modell ist x−i =<br />
{x i,−1 ,x i,+1 }. Daher ist für i ∈ Λ und σ ∈{−1, +1}<br />
π(x i,σ� � x−i) =<br />
π(x i,σ )<br />
π({x i,−1 ,x i,+1 })<br />
e −βH(xi,σ )<br />
=<br />
e−βH(xi,−1 ) + e−βH(xi,+1 )<br />
� �<br />
= 1+expβ<br />
� H(x i,σ ) − H(x i,−σ ) ���−1 � �<br />
= 1+exp2β<br />
�<br />
j: j∼i ( {x(j)�=σ} − 1<br />
2 )<br />
�� −1<br />
Der Gibbs-Sampler des Ising-Modells ist also die Markovkette (Xn)n∈N0 mit Werten<br />
in E = {−1, 1} Λ und mit Übergangsmatrix<br />
⎧ � �<br />
⎨ 1<br />
#Λ 1+exp 2β<br />
p(x, y)=<br />
⎩<br />
�<br />
( {x(j)�=x(i)}−<br />
j: j∼i<br />
1<br />
2 )<br />
��−1 , falls y = xi für ein i ∈ Λ,<br />
0, sonst.<br />
✸<br />
Perfekte Simulation<br />
Die bislang betrachtete MCMC Methode baut auf dem Prinzip Hoffnung: Wir lassen<br />
die Kette lange laufen und hoffen, dass sie sich in einem Zustand nahe dem<br />
Gleichgewicht befindet. Selbst wenn wir die Konvergenzgeschwindigkeit bestimmen<br />
können (und das ist oft nicht ganz leicht – wir kommen dazu in Abschnitt 18.4),<br />
werden wir doch nie einen Zustand bekommen, der exakt wie das Gleichgewicht<br />
verteilt ist.<br />
Tatsächlich ist es, zumindest theoretisch, möglich, ein der MCMC Methode verwandtes<br />
Verfahren anzugeben, das perfektes Ziehen von Stichproben nach der Verteilung<br />
π ermöglicht, sogar, wenn wir über die Konvergenzgeschwindigkeit gar<br />
nichts wissen. Hierzu nehmen wir an, dass F1,F2,... u.i.v. zufällige Abbildungen<br />
E → E sind mit P[F (x) =y] =p(x, y) für alle x, y ∈ E. Wir hatten gesehen,<br />
dass wir die Markovkette X mit Start in x durch Xn = Fn ◦ Fn−1 ◦···◦F1(x)<br />
konstruieren können.<br />
Nun gilt F n 1 (x) :=F1◦ ...◦ Fn(x) D = Fn ◦ ...◦ F1(x). Also gilt P[F n 1 (x) =<br />
y] n→∞<br />
−→ π(y) für jedes y. Ist nun aber F n 1 die konstante Abbildung, etwa F n 1 ≡ x∗ .
18.4 Konvergenzgeschwindigkeit 383<br />
(für ein zufälliges x ∗ ), so ist auch F m 1 ≡ x ∗ für jedes m ≥ n. Wenn man also<br />
durch geschickte Wahl der Verteilung der Fn erreichen kann, dass die Stoppzeit<br />
T := inf{n ∈ N : F n 1 ist konstant} fast sicher endlich ist (und das geht immer), so<br />
ist P[F T 1 (x) =y] =π(y) für alle x, y ∈ E. Ein einfacher Algorithmus für dieses<br />
Verfahren sieht so aus:<br />
(1) Setze F ← idE und n ← 0.<br />
(2) Setze n ← n +1. Erzeuge Fn und setze F ← F ◦ Fn.<br />
(3) Falls F nicht die konstante Abbildung ist, gehe zu (2).<br />
(4) Ausgabe F (∗).<br />
Dieses Verfahren wird Kopplung aus der Vergangenheit (coupling from the past)<br />
genannt und geht auf Propp und Wilson [130] zurück (siehe auch [54, 55, 158, 129,<br />
131, 91]). Interessante Simulationen sowie ein Forschungsüberblick finden sich im<br />
Internet unter http://www.dbwilson.com/.<br />
Praktisch ergeben sich zwei Probleme: Es muss die komplette Abbildung Fn erzeugt<br />
und mit F verknüpft werden. Die Rechenzeit dafür ist mindestens von der<br />
Ordnung der Größe des Raums E. Außerdem erfordert das Prüfen von F auf Konstanz<br />
einen Rechenaufwand von gleicher Größenordnung. Das Verfahren lässt sich<br />
effektiv nur durchführen, wenn man mehr Struktur zur Verfügung hat, etwa, wenn<br />
E eine Halbordnung mit einem kleinsten Element 0 und einem größten Element 1<br />
besitzt (wie beim Ising-Modell) und man die Abbildungen Fn so wählen kann, dass<br />
sie fast sicher monoton wachsend sind. In diesem Fall braucht man immer nur F (0)<br />
und F (1) zu berechnen, und F ist konstant, falls F (0) =F (1).<br />
18.4 Konvergenzgeschwindigkeit<br />
Bei den bisherigen Betrachtungen ist die Frage nach der Geschwindigkeit der Konvergenz<br />
der Verteilung PXn gegen π ignoriert worden. Für praktische Anwendungen<br />
ist aber dies genau die wichtigste Frage. Wir wollen hier nicht auf die Details<br />
eingehen, sondern das Thema nur kurz anreißen. Ohne Einschränkung sei<br />
E = {1,...,N}. Istpreversibel (Gleichung (18.12)), so wird durch f ↦→ pf ein<br />
symmetrischer linearer Operator auf L2 (E,π) definiert (Übung!). Alle Eigenwerte<br />
λ1,...,λN (mit Mehrfachnennung je nach Vielfachheit) sind reell und dem Betrage<br />
nach nicht größer als 1, dapstochastisch ist. Wir können also die Eigenwerte dem<br />
Betrage nach ordnen: λ1 =1≥|λ2| ≥... ≥|λN |. Istpirreduzibel und aperiodisch,<br />
so ist |λ2| < 1. Seiμ1 = π, μ2,...,μN eine Orthonormalbasis aus Links-<br />
Eigenvektoren zu den Eigenwerten λ1,...,λN .Für jedes μ = α1μ1 + ...+ αN μN<br />
ist dann μpn = �N i=1 λni αi μi, also<br />
�μp n − π�TV ≤ C|λ2| n<br />
(18.14)
384 18 Konvergenz von Markovketten<br />
für eine Konstante C (die nicht einmal von μ abhängt). Eine ähnliche Formel gilt<br />
für den Fall, wo p nicht reversibel ist, wobei Korrekturterme der Ordnung maximal<br />
n V −1 auftreten. Dabei ist V die Größe des größten Jordan-Kästchens zum Eigenwert<br />
λ2 in der Jordan’schen Normalform von p, speziell also höchstens die Vielfachheit<br />
des betragsmäßig zweitgrößten Eigenwertes.<br />
Die Konvergenzgeschwindkeit ist also exponentiell mit einer Rate, die durch die<br />
Spektrallücke 1 −|λ2| zum zweitgrößten Eigenwert von p bestimmt ist. Die analytische<br />
Bestimmung der Spektrallücke ist für große Räume E häufig extrem schwer.<br />
Beispiel 18.24. Sei r ∈ (0, 1) und N ∈ N, N ≥ 2,sowieE = {0,...,N− 1}.Wir<br />
betrachten die Übergangsmatrix<br />
⎧<br />
⎨ r, falls j = i +1(modN),<br />
p(i, j) = 1 − r,<br />
⎩<br />
0,<br />
falls j = i − 1(modN),<br />
sonst.<br />
p ist die Übergangsmatrix der einfachen (asymmetrischen) Irrfahrt auf dem diskreten<br />
Torus Z/(N), die mit Wahrscheinlichkeit r einen Schritt nach rechts springt, mit<br />
Wahrscheinlichkeit 1 − r hingegen einen Schritt nach links springt. Offenbar ist p<br />
irreduzibel, und p ist genau dann aperiodisch, wenn N ungerade ist. Offensichtlich<br />
ist die Gleichverteilung UE die eindeutige invariante Verteilung.<br />
Fall 1: N ungerade. Man prüft leicht nach, dass p die Eigenwerte<br />
λk := rθk +(1− r) θk =cos � 2πk<br />
N<br />
� +(2r − 1) i sin � 2πk<br />
N<br />
� , k =0,...,N − 1,<br />
hat, wobei θk = e2πi k/N , k =0,...,N − 1, dieN-ten Einheitswurzeln sind, und<br />
die zugehörigen (Rechts-) Eigenvektoren<br />
x k := � θ 0 k,θ 1 k,...,θ N−1�<br />
k .<br />
Die Beträge der Eigenwerte bekommen wir durch |λk| = f(2πk/N), wobei<br />
f(ϑ) = � 1 − 4r(1 − r)sin(ϑ) 2 für ϑ ∈ R.<br />
Da N ungerade ist, ist |λk| maximal (außer für k =0)für k = N−1<br />
2 und k = N+1<br />
2<br />
mit dem Wert γ := � 1 − 4r(1 − r)sin(π/N) 2 . Da die Eigenwerte alle unterschiedlich<br />
sind, hat jeder Eigenwert die Vielfachheit 1, und es gibt ein C < ∞<br />
mit<br />
für alle n ∈ N, μ∈M1(E).<br />
�μp n −UE�TV ≤ Cγ n<br />
Fall 2: N gerade. In diesem Fall ist p nicht aperiodisch, nichtsdestoweniger haben<br />
die Eigenwerte und Eigenvektoren die selbe Gestalt wie im ersten Fall. Um eine<br />
aperiodische Kette zu erhalten, bilden wir für ε>0 die Übergangsmatrix<br />
pε := (1 − ε)p + εI,
18.4 Konvergenzgeschwindigkeit 385<br />
wo I die Einheitsmatrix auf E ist. pε beschreibt die Irrfahrt auf E, die mit Wahrscheinlichkeit<br />
ε am Ort stehen bleibt und mit Wahrscheinlichkeit 1−ε einen Sprung<br />
gemäß p macht. Offenbar ist pε irreduzibel und aperiodisch. Die Eigenwerte sind<br />
λε,k =(1− ε)λk + ε, k =0,...,N − 1,<br />
mit zugehörigen Eigenvektoren x k wie oben. Offenbar ist λε,0 =1, und λ ε,N/2 =<br />
2ε − 1 ist der betragsmäßig zweitgrößte Eigenwerte, falls ε>0 sehr klein ist. Für<br />
größere ε ist |λε,1| > |λ ε,N/2|. Genauer gilt: Setzen wir<br />
ε0 :=<br />
(1 − (2r − 1) 2 )sin(2π/N) 2<br />
(1 − (2r − 1) 2 )sin(2π/N) 2 + 2 cos(2π/N) ,<br />
so ist der Betrag γε des betragsmäßig zweitgrößten Eigenwertes<br />
und<br />
γε = |λε,1|<br />
=<br />
� �(1 − ε)cos � 2π<br />
N<br />
γε = |λ ε,N/2| =1− 2ε, falls ε ≤ ε0,<br />
� �2 � � ��<br />
2π 2<br />
+ ε + (1 − ε)(2r − 1) sin N<br />
falls ε ≥ ε0.<br />
Es ist nicht schwer zu zeigen, dass ε ↦→ |λε,N/2| monoton fallend ist und ε ↦→ |λε,1|<br />
monoton wachsend. Daher ist γε minimal für ε = ε0.<br />
Es gibt also ein C
386 18 Konvergenz von Markovketten<br />
wobei m(μ) = � pN(x) μ(dx) ist, und die Wahrscheinlichkeit pN (x), dass die in x<br />
gestartete Kette N trifft, gegeben ist durch<br />
⎧<br />
⎪⎨<br />
1 −<br />
pN (x) =<br />
⎪⎩<br />
� �<br />
1−r x<br />
r<br />
1 − � � , falls r �=<br />
1−r N<br />
r<br />
1<br />
2 ,<br />
x<br />
1<br />
, falls r =<br />
N 2 .<br />
Wie schnell geht nun die Konvergenz in (18.15)? Auch hier ist die Konvergenz<br />
exponentiell schnell, und die Rate wird wieder durch den zweitgrößten Eigenwert<br />
von p bestimmt.<br />
Wir wollen nun also das Spektrum von p bestimmen. Klar sind x0 =(1, 0,...,0)<br />
und xN =(0,...,0, 1) Links-Eigenvektoren zum Eigenwert 1. Damit nun x =<br />
(x0,...,xN ) ein Links-Eigenvektor zum Eigenwert λ ist, müssen die folgenden<br />
Gleichungen erfüllt sein:<br />
und<br />
λxk = rxk−1 +(1− r)xk+1 für k =2,...,N − 2, (18.16)<br />
λxN−1 = rxN−2. (18.17)<br />
Gelten (18.16) und (18.17) für x1,...,xN−1, so setzen wir x0 := 1−p<br />
λ−1 x1 und<br />
xN := p<br />
λ−1 xN−1 und erhalten dadurch tatsächlich xp = λx. Wir machen den<br />
Ansatz<br />
wobei<br />
λ =(1− r)ρ(θ + θ) und xk = ϱ k (θ k − θ k ) für k =1,...,N − 1,<br />
ρ = � r/(1 − r) und θ ∈ C \{−1, +1} mit |θ| =1.<br />
Es gilt also θθ =1und (1 − r)ρ k+1 = rρ k−1 . Daher ist für jedes k =2,...,N− 1<br />
λxk =(1− r) ρ k+1 (θ k − θ k )(θ + θ)<br />
=(1− r) ρ k+1� (θ k+1 − θ k+1 )+θθ (θ k−1 − θ k−1 ) �<br />
= rρ k−1 (θ k−1 − θ k−1 )+(1− r) ρ k+1 (θ k+1 − θ k+1 )<br />
= rxk−1 +(1− r) xk+1,<br />
das heißt, es gilt (18.16). Die selbe Rechnung mit k = N − 1 zeigt, dass (18.17)<br />
genau dann gilt, wenn θ N −θ N =0ist, also wenn θ 2N =1gilt. Wir erhalten also für<br />
θ die N − 1 unterschiedlichen Werte (man beachte, dass die komplex konjugierten<br />
der hier angegeben Werte zu den selben λn führen)<br />
θn = e (n/N)πi<br />
Die zugehörigen Eigenwerte sind<br />
�<br />
nπ<br />
�<br />
λn = σ cos<br />
N<br />
für n =1,...,N − 1.<br />
für n =1,...,N − 1.
Dabei ist die Varianz des einzelnen Irrfahrt-Schrittes:<br />
18.4 Konvergenzgeschwindigkeit 387<br />
σ 2 := 4r(1 − r). (18.18)<br />
Da alle Eigenwerte reell sind, sind die zugehörigen Eigenvektoren gegeben durch<br />
x n � �n/2 r<br />
�<br />
nπ<br />
�<br />
k =2<br />
sin , k =1,...,N − 1.<br />
1 − r N<br />
Für n =1und n = N − 1 ist |λn| = σ cos � �<br />
π<br />
N der betragsmäßig zweitgrößte<br />
Eigenwert. Es folgt, dass es ein C>0 gibt, sodass für jedes μ ∈M1(E) gilt<br />
μp n � �<br />
π<br />
��n ({1,...,N − 1}) ≤ C σ cos<br />
für jedes n ∈ N.<br />
N<br />
Mit anderen Worten: Die Wahrscheinlichkeit, dass das Spiel bis zur n-ten Runde<br />
noch nicht entschieden ist, ist maximal C � σ cos(π/N) �n .<br />
Ein alternativer Zugang zu den Eigenwerten geht über die Nullstellen des charakteristischen<br />
Polynoms<br />
χN(x) =det(p − xI), x ∈ R.<br />
Man sieht sofort, dass χ1(x) = (1 − x) 2 und χ2(x) = −x(1 − x) 2 gilt. Über<br />
die Entwicklungsformel der Determinante durch Streichen von Zeilen und Spalten<br />
erhalten wir die Rekursionsformel<br />
χN(x) =−xχN−1(x) − r(1 − r) χN−2(x). (18.19)<br />
Wir erhalten als Lösung (Nachrechnen!)<br />
wobei<br />
χN(x) =(−1) N−1 (σ/2) N−1 (1 − x) 2 UN−1<br />
Um(x) :=<br />
k=1<br />
�<br />
(−1) k<br />
� �<br />
m − k<br />
(2x)<br />
k<br />
m−2k<br />
⌊m/2⌋<br />
k=0<br />
� x/σ � , (18.20)<br />
das m-te Chebyshev Polynom zweiter Art bezeichnet.<br />
Für x ∈ (−σ, σ) kann man mit Hilfe der de Moivre’schen Formel zeigen, dass<br />
χN(x) =(−1) N−1 (σ/2) N−1 (1 − x) 2 sin � N arccos � x/σ ��<br />
�<br />
1 − (x/σ) 2<br />
=(1−x) 2<br />
N−1 � � �<br />
πk<br />
� �<br />
(18.21)<br />
σ cos − x .<br />
N<br />
Neben der doppelten Nullstelle 1 erhalten wir als Nullstellen<br />
σ cos � πk/N), k =1,...,N − 1. ✸
388 18 Konvergenz von Markovketten<br />
Übung 18.4.1. Man zeige (18.20). ♣<br />
Übung 18.4.2. Man zeige (18.21). ♣<br />
Übung 18.4.3. Sei ν(dx) = 2<br />
√<br />
π 1 − x2 [−1,1](x) dx. Man zeige, dass die Chebyshev<br />
Polynome zweiter Art bezüglich ν orthogonal sind:<br />
�<br />
UmUn dν = m=n. ♣<br />
⎛<br />
⎞<br />
1/2 1/3 1/6<br />
⎜<br />
⎟<br />
Übung 18.4.4. Sei E = {1, 2, 3} und p = ⎝ 1/3 1/3 1/3⎠.<br />
Man bestimme die<br />
0 3/4 1/4<br />
invariante Verteilung und die exponentielle Konvergenzrate. ♣<br />
Übung 18.4.5. Sei E = {0,...,N − 1}, r ∈ (0, 1) und<br />
⎧<br />
⎨ r, falls j = i +1(modN),<br />
p(i, j) = 1 − r,<br />
⎩<br />
0,<br />
falls j = i (mod N),<br />
sonst.<br />
Man zeige, dass p die Übergangsmatrix einer irreduziblen, aperiodischen Irrfahrt ist,<br />
bestimme die invariante Verteilung und bestimme die exponentielle Konvergenzgeschwindigkeit.<br />
♣<br />
Übung 18.4.6. Sei N ∈ N und E = {0, 1} N der N-dimensionale Hyperkubus, das<br />
heißt, zwei Punkte x, y ∈ E sind genau dann durch eine Kante verbunden, wenn sie<br />
sich in genau einer Koordinate unterscheiden. Sei p die Übergangsmatrix der Irrfahrt<br />
auf E, die mit Wahrscheinlichkeit ε>0 am Ort bleibt, mit Wahrscheinlichkeit 1−ε<br />
hingegen zu einem (uniform gewählten) zufälligen Nachbarpunkt springt.<br />
Man beschreibe p formal, zeige dass p aperiodisch und irreduzibel ist, und bestimme<br />
die invariante Verteilung sowie die exponentielle Konvergenzgeschwindigkeit. ♣
19 Markovketten und elektrische Netzwerke<br />
Wir betrachten eine symmetrische einfache Irrfahrt auf Z2 . Nach dem Satz von<br />
Pólya (Satz 17.39) ist diese Irrfahrt rekurrent. Was passiert aber, wenn wir eine<br />
einzelne Kante aus dem Gitter L2 von Z2 entfernen? Intuitiv sollte dies nichts an<br />
der Rekurrenz ändern. Die in Kapitel 17.5 verwendeten Rechnungen sind allerdings<br />
in dieser Hinsicht nicht sehr robust und können hier nicht mehr zum Beweis der<br />
Rekurrenz benutzt werden. Noch unübersichtlicher wird die Situation, wenn wir die<br />
Irrfahrt auf die obere Halbebene {(x, y) : x ∈ Z,y ∈ N0} von Z2 beschränken. Wie<br />
sieht es hier mit der Rekurrenz aus? Oder wir betrachten die Situation von Kantenperkolation<br />
auf Z2 .Wirfixieren einen Parameter p ∈ [0, 1] und definieren jede<br />
Kante von L2 mit Wahrscheinlichkeit p als offen und mit Wahrscheinlichkeit 1 − p<br />
als geschlossen. Nachdem dies im ersten Schritt geschehen ist, wird die Irrfahrt auf<br />
dem zufälligen Teilgraphen der offenen Kanten betrachtet. Der Irrfahrer wählt in jedem<br />
Schritt mit gleicher Wahrscheinlichkeit eine der benachbarten offenen Kanten<br />
aus. Für p> 1<br />
2 existiert genau eine unendlich große Zusammenhangskomponente<br />
offener Kanten (Satz 2.47). Ist die Irrfahrt auf dieser (zufälligen) Komponente<br />
rekurrent oder transient?<br />
Ziel dieses Kapitels ist es, einen Zusammenhang zwischen gewissen Markovketten<br />
und elektrischen Netzwerken herzustellen, der<br />
– es in manchen Fällen erlaubt, zwischen Rekurrenz und Transienz anhand von<br />
leicht berechenbaren Größen zu entscheiden,<br />
– in anderen Fällen ein Vergleichskriterium bietet, das besagt, dass eine Irrfahrt auf<br />
einem Teilgraphen rekurrent ist, wenn die Irrfahrt auf dem ursprünglichen Graphen<br />
rekurrent ist. Damit lässt sich für alle oben betrachteten Irrfahrten Rekurrenz<br />
nachweisen.<br />
Dieses Kapitel lehnt sich an [109] und [36] an.<br />
19.1 Harmonische Funktionen<br />
Sei in diesem Kapitel stets E eine abzählbare Menge und X eine diskrete Markovkette<br />
auf E mit Übergangsmatrix p und Greenfunktion G.
390 19 Markovketten und elektrische Netzwerke<br />
Definition 19.1. Sei A ⊂ E. Eine Funktion f : E → R heißt harmonisch auf<br />
E \ A, falls pf(x) = �<br />
y∈E p(x, y)f(y) existiert und pf(x) =f(x) für jedes<br />
x ∈ E \ A gilt.<br />
Satz 19.2 (Superpositionsprinzip). Sind f und g harmonisch auf E \A und α, β ∈<br />
R, soistauchαf + βg harmonisch auf E \ A.<br />
Beweis. Trivial. ✷<br />
Beispiel 19.3. Sei X transient und a ∈ E ein transienter Zustand (also ein nicht<br />
absorbierender). Dann ist f(x) :=G(x, a) harmonisch auf E \{a}: Für x �= a ist<br />
∞�<br />
pf(x) =p p n ∞�<br />
(x, a) = p n (x, a) =G(x, a) − {a}(x) =G(x, a). ✸<br />
n=0<br />
n=1<br />
Beispiel 19.4. Für jedes x ∈ E sei τx := inf{n >0: Xn = x}. Für A ⊂ E sei<br />
τ := τA := inf<br />
x∈A τx<br />
die Zeit des ersten Eintritts in A. Wir nehmen an, dass A so gewählt ist, dass<br />
Px[τA < ∞] =1für jedes x ∈ E. Seig : A → R eine beschränkte Funktion.<br />
Wir definieren<br />
�<br />
g(x), falls x ∈ A,<br />
f(x) :=<br />
(19.1)<br />
Ex[g(Xτ )], falls x ∈ E \ A.<br />
Dann ist f harmonisch in E \ A. Wir geben hierfür zwei Beweise an.<br />
1. Beweis Nach der Markoveigenschaft ist für x �∈ A und y ∈ E<br />
�<br />
Ex g(Xτ ) � �X1 = y � �<br />
g(y),<br />
=<br />
Ey[g(Xτ )],<br />
�<br />
falls y ∈ A<br />
= f(y).<br />
falls y ∈ E \ A<br />
Also ist für x ∈ E \ A<br />
f(x) =Ex[g(Xτ )] = �<br />
y∈E<br />
�<br />
Ex g(Xτ ); X1 = y �<br />
= � �<br />
p(x, y) Ex g(Xτ ) � �X1 = y � = �<br />
p(x, y) f(y) =pf(x).<br />
y∈E<br />
2. Beweis Wir verändern die Markovkette, indem wir einen Zustand Δ als Falle<br />
hinzufügen. Es gelte also ˜ E = E ∪{Δ} und<br />
⎧<br />
⎪⎨<br />
p(x, y), falls x ∈ E \ A, y �= Δ,<br />
˜p(x, y) =<br />
⎪⎩<br />
0,<br />
1,<br />
falls x ∈ E \ A, y = Δ,<br />
falls x ∈ A ∪{Δ}, y= Δ.<br />
(19.2)<br />
y∈E
19.1 Harmonische Funktionen 391<br />
Die so erzeugte Markovkette ˜ X ist transient mit Δ als einzigem absorbierenden<br />
Zustand. Weiterhin ist genau dann pf = f auf E \ A, wenn˜pf = f auf E \ A ist.<br />
Wegen ˜ G(y, y) =1für y ∈ A ist (vergleiche Satz 17.34)<br />
Px[Xτ = y] =Px[˜τy < ∞] = ˜ F (x, y) = ˜ G(x, y) für alle x ∈ E \ A, y ∈ A.<br />
Nun ist x ↦→ ˜ G(x, y) harmonisch auf E \ A. Nach dem Superpositionsprinzip ist<br />
auch<br />
f(x) = �<br />
˜G(x, y) g(y) (19.3)<br />
y∈A<br />
harmonisch auf E \ A. Wegen dieser Darstellung heißt, in Analogie zur kontinuierlichen<br />
Potentialtheorie, ˜ G die Greenfunktion für die Gleichung (p − I)f =0auf<br />
E \ A. ✸<br />
Definition 19.5. Wir nennen das Gleichungssystem<br />
(p − I)f(x) =0, für x ∈ E \ A,<br />
f(x) =g(x), für x ∈ A,<br />
das zu p − I gehörige Dirichlet-Problem auf E \ A mit Randwerten g auf A.<br />
(19.4)<br />
Im Folgenden wollen wir stets annehmen, dass F (x, y) > 0 ist für jedes x ∈ E \ A<br />
und jedes y ∈ A. Speziell ist dies natürlich erfüllt, wenn X irreduzibel ist.<br />
Satz 19.6 (Maximumprinzip). Sei f eine harmonische Funktion auf E \ A. Gibt<br />
es ein x0 ∈ E \ A mit f(x0) =sup x∈E f(x), soistf konstant.<br />
Beweis. Für n ∈ N sei Gn := � x ∈ E : pn (x0,x) > 0 � . Nach Voraussetzung ist<br />
f(x0) =p n f(x0) = �<br />
p n (x0,x)f(x) ≤ f(x0),<br />
x∈Gn<br />
also f(x) =f(x0) für jedes x ∈ Gn. WegenF (x0,x) > 0 für jedes x ∈ E, ist<br />
� ∞<br />
n=1 Gn = E, also f(x) =f(x0) für jedes x ∈ E. ✷<br />
Satz 19.7 (Eindeutigkeitssatz für harmonische Funktionen). Ist E \ A endlich<br />
und sind f1 und f2 harmonisch auf E \ A und f1 = f2 auf A, dann ist f1 = f2.<br />
Mit anderen Worten: Das Dirichlet-Problem (19.4) besitzt eine eindeutige Lösung,<br />
die durch (19.3) (oder äquivalent (19.1)) gegeben ist.<br />
Beweis. Nach dem Superpositionsprinzip ist f := f1−f2 harmonisch auf E\A mit<br />
f � � ≡ 0.Istsupx∈E f(x) > 0, so gibt es ein x0 ∈ E\A mit f(x0) =supx∈E f(x).<br />
A<br />
Nach dem Maximumprinzip ist dann aber f konstant und damit f ≡ 0. ✷
392 19 Markovketten und elektrische Netzwerke<br />
Übung 19.1.1. Sei p die substochastische E × E Matrix, die durch p(x, y) =<br />
˜p(x, y), x, y ∈ E, (mit ˜p aus (19.2)) definiert wird, also p(x, y) =p(x, y) x∈E\A,<br />
und sei I die Einheitsmatrix auf E. Man zeige:<br />
(i) I − p ist invertierbar.<br />
(ii) Setzen wir G := (I − p) −1 ,soistG(x, y) = ˜ G(x, y) für alle x, y ∈ E \ A und<br />
G(x, y) = {x=y}, falls x ∈ A. Speziell ist<br />
G(x, y) =Px[XτA = y] für x ∈ E \ A und y ∈ A. ♣<br />
19.2 Reversible Markovketten<br />
Definition 19.8. Die Markovkette X heißt reversibel bezüglich des Maßes π, falls<br />
π({x}) p(x, y) =π({y}) p(y, x) für alle x, y ∈ E. (19.5)<br />
Die Gleichung (19.5) heißt auch die Gleichung der detaillierten Balance (detailed<br />
balance).<br />
X heißt reversibel, falls es ein π gibt, bezüglich dessen X reversibel ist.<br />
Bemerkung 19.9. Ist X reversibel bezüglich π, dannistπ ein invariantes Maß für<br />
X,denn<br />
πp({x}) = �<br />
π({y}) p(y, x) = �<br />
π({x}) p(x, y) =π({x}).<br />
y∈E<br />
Nach Bemerkung 17.50 ist π daher bis auf konstante Vielfache eindeutig. ✸<br />
Beispiel 19.10. Sei (E,K) ein Graph mit Eckenmenge (oder Menge der Knoten) E<br />
und Kantenmenge K (siehe Seite 64). Mit 〈x, y〉 = 〈y, x〉 ∈K bezeichnen wir eine<br />
(ungerichtete) Kante, die x und y verbindet. Sei C := (C(x, y), x,y∈ E) eine<br />
Familie von Gewichten mit C(x, y) =C(y, x) ≥ 0 für alle x, y ∈ E und<br />
C(x) := �<br />
C(x, y) < ∞ für jedes x ∈ E.<br />
y∈E<br />
Setzen wir p(x, y) := C(x,y)<br />
C(x) für alle x, y ∈ E, soistX reversibel bezüglich<br />
π({x}) =C(x). Es gilt nämlich<br />
π({x}) p(x, y) =C(x)<br />
C(x, y)<br />
C(x)<br />
= C(y, x) =C(y)<br />
y∈E<br />
= C(x, y)<br />
C(y, x)<br />
C(y)<br />
= π({y}) p(y, x). ✸
19.3 Elektrische Netzwerke 393<br />
Definition 19.11. Seien (E,K), C und X wie in Beispiel 19.10. Dann heißt X Irrfahrt<br />
auf E mit Gewichten C. Ist speziell C(x, y) = {〈x,y〉∈K}, dann heißt X<br />
einfache Irrfahrt auf (E,K).<br />
Die Irrfahrt mit Gewichten C ist also reversibel. Es gilt aber auch die Umkehrung.<br />
Satz 19.12. Ist X eine reversible Markovkette, so ist X eine Irrfahrt auf E mit<br />
Gewichten C(x, y) =p(x, y) π({x}), falls π ein invariantes Maß ist. Da π bis auf<br />
Vielfache eindeutig ist, sind die Gewichte bis auf konstante Vielfache festgelegt.<br />
Beweis. Klar. ✷<br />
Übung 19.2.1. Man zeige: p ist genau dann reversibel bezüglich π, wenn die lineare<br />
Abbildung f ↦→ pf in L 2 (π) selbstadjungiert ist. ♣<br />
Übung 19.2.2. Sei K ∈ N und Zahlen W1,...,WK ∈ R und β>0 gegeben. Wir<br />
definieren<br />
p(i, j) := 1<br />
Z exp(−βWj) für alle i, j =1,...,K,<br />
wobei Z := �K j=1 exp(−βWj) die Normalisierungskonstante ist.<br />
In K (nummerierten) Urnen befinden sich insgesamt N ununterscheidbare Kugeln.<br />
In jedem Zeitschritt wird (uniform) eine der N Kugeln zufällig ausgesucht. Ist i<br />
die Nummer der Urne, aus der die Kugel gezogen wurde, so wird die Kugel mit<br />
Wahrscheinlichkeit p(i, j) in die Urne mit der Nummer j gelegt.<br />
(i) Man gebe eine formale Beschreibung als Markovkette an.<br />
(ii) Man bestimme den invarianten Zustand π und zeige, dass die Kette reversibel<br />
bezüglich π ist. ♣<br />
19.3 Elektrische Netzwerke<br />
Ein (endliches) elektrisches Netzwerk (E,C) ist ein (endliches) System E von<br />
Punkten, die paarweise mit Drähten der Leitfähigkeit (conductivity) C(x, y) ∈<br />
[0, ∞), x, y ∈ E verbunden sind. Wir interpretieren C(x, y) =0so, dass es ” keinen<br />
Draht zwischen x und y“ gibt. Symmetrie erfordert C(x, y) =C(y, x). Mit<br />
R(x, y) =<br />
1<br />
∈ (0, ∞]<br />
C(x, y)<br />
bezeichnen wir den Widerstand der Verbindung 〈x, y〉. Ist(E,K) ein Graph und<br />
C(x, y) = {〈x,y〉∈K}, so bezeichnen wir (E,C) als Einheitsnetzwerk auf (E,K).
394 19 Markovketten und elektrische Netzwerke<br />
Sei nun A ⊂ E. Wir legen an den Punkten x0 ∈ A jeweils elektrische Spannungen<br />
u(x0) an (zum Beispiel durch Anschluss einer oder mehrerer Batterien). Wie groß<br />
ist dann die Spannung u(x) in x ∈ E \ A?<br />
Definition 19.13. Eine Abbildung I : E × E → R heißt ein Fluss auf E \ A, falls<br />
sie antisymmetrisch ist (I(x, y) =−I(y, x)) und das Kirchhoff’sche Gesetz erfüllt:<br />
wobei<br />
I(x) =0, für x ∈ E \ A,<br />
I(A) =0,<br />
I(x) := �<br />
I(x, y) und I(A) := �<br />
I(x).<br />
y∈E<br />
x∈A<br />
(19.6)<br />
Definition 19.14. Ein Fluss I : E × E → R auf E \ A heißt elektrischer Fluss,<br />
falls es eine Funktion u : E → R gibt, bezüglich der das Ohm’sche Gesetz gilt:<br />
I(x, y) =<br />
u(x) − u(y)<br />
R(x, y)<br />
für alle x, y ∈ E, x �= y.<br />
Wir nennen dann I(x, y) die Stromstärke von x nach y und u(x) die elektrische<br />
Spannung in x.<br />
Satz 19.15. Eine elektrische Spannung u in (E,C) ist harmonisch auf E \ A:<br />
u(x) = � 1<br />
C(x, y) u(y) für jedes x ∈ E \ A.<br />
C(x)<br />
y∈E<br />
Speziell ist die elektrische Spannung durch Angabe der Werte auf A festgelegt,<br />
wenn das Netzwerk irreduzibel ist.<br />
Beweis. Nach dem Ohm’schen und dem Kirchhoff’schen Gesetz ist<br />
u(x) − � C(x, y)<br />
C(x, y)<br />
1 �<br />
u(y) =� (u(x) − u(y)) = I(x, y) =0.<br />
C(x) C(x) C(x)<br />
y∈E<br />
y∈E<br />
y∈E<br />
Nach dem Eindeutigkeitssatz für harmonische Funktionen (Satz 19.7) ist u hierdurch<br />
und durch die Werte auf A eindeutig festgelegt. ✷<br />
Korollar 19.16. Sei X eine Markovkette auf E mit Kantengewichten C. Dann ist<br />
u(x) =Ex[u(XτA )].<br />
Betrachte A = {x0,x1}, x0 �= x1, und u(x0) =0, u(x1) =1.DannistI(x1) der<br />
gesamte Stromfluss in das Netzwerk und −I(x0) der gesamte Stromfluss aus dem<br />
Netzwerk. Das Kirchhoff’sche Gesetz besagt, dass der Stromfluss divergenzfrei ist,
19.3 Elektrische Netzwerke 395<br />
und dass in Summe genauso viel Strom rein- wie rausfließt. Mit anderen Worten<br />
eben I(x0)+I(x1) =0.<br />
In Anlehnung an das Ohm’sche Gesetz definieren wir den effektiven Widerstand<br />
zwischen x0 und x1 durch<br />
Reff(x0 ↔ x1) = u(x1) − u(x0)<br />
I(x1)<br />
= 1 1<br />
= −<br />
I(x1) I(x0)<br />
1<br />
und die effektive Leitfähigkeit durch Ceff(x0 ↔ x1) = Reff (x0↔x1) .DaI und u<br />
eindeutig durch die Angabe von x0, x1 und C festgelegt sind, sind Ceff(x0 ↔ x1)<br />
und Reff(x0 ↔ x1) Größen, die sich aus C berechnen lassen.<br />
Wir betrachten nun zwei Mengen A0,A1 ⊂ E mit A0 ∩ A1 = ∅, A0,A1 �= ∅,<br />
und setzen u(x) =0für jedes x ∈ A0 sowie u(x) =1für jedes x ∈ A1. Sei<br />
I der zugehörige elektrische Fluss. In Analogie zu oben treffen wir die folgende<br />
Definition.<br />
Definition 19.17. Wir nennen Ceff(A0 ↔ A1) :=I(A1) die effektive Leitfähigkeit<br />
zwischen A0 und A1 und Reff(A0 ↔ A1) := 1<br />
zwischen A0 und A1.<br />
I(A1) den effektiven Widerstand<br />
Beispiel 19.18. (i) Sei E = {0, 1, 2} mit C(0, 2) = 0, und A0 = {x0} = {0},<br />
A1 = {x1} = {2}. Wir setzen u(0) = 0 und u(2) = 1. Dann ist (mit p(x, y) =<br />
C(x, y)/C(x))<br />
u(1) = 1 · p(1, 2) + 0 · p(1, 0) =<br />
Der gesamte Fluss ist<br />
I({2}) =u(1) C(0, 1) =<br />
=<br />
C(1, 2)<br />
C(1, 2) + C(1, 0) =<br />
R(1, 0)<br />
R(1, 0) + R(1, 2)<br />
Reff(1 ↔ 0)<br />
Reff(1 ↔ 0) + Reff(1 ↔ 2) .<br />
1<br />
R(0, 1) + R(1, 2) =<br />
1<br />
1 1<br />
C(0,1) + C(1,2)<br />
Entsprechend ist Reff(0 ↔ 2) = 1<br />
I({2}) = R(0, 1) + R(1, 2) und Ceff(0 ↔ 2) =<br />
�<br />
1<br />
C(0,1)<br />
+ 1<br />
C(1,2)<br />
� −1.<br />
(ii) (Reihenschaltung) Sei n ∈ N, n ≥ 2 und E = {0,...,n} mit Leitfähigkeiten<br />
C(k − 1,k) > 0 und C(k, l) =0, falls |k − l| > 1. Wie in (i) bekommen wir für<br />
k ∈{1,...,n− 1}<br />
Reff(0 ↔ k)<br />
u(k) =<br />
Reff(0 ↔ k)+Reff(k ↔ n) .<br />
Induktiv (in n) erhalten wir also<br />
.
396 19 Markovketten und elektrische Netzwerke<br />
n−1 �<br />
Reff(0 ↔ n) = R(k, k +1).<br />
k=0<br />
Wir erhalten so eine Aussage über die Ruinwahrscheinlichkeit der korrespondierenden<br />
Markovkette X auf {0,...,n} durch<br />
Pk[τn
x =0<br />
0<br />
u(0)=0<br />
R<br />
R<br />
R<br />
R<br />
R<br />
R<br />
1<br />
2<br />
3<br />
4<br />
5<br />
6<br />
19.3 Elektrische Netzwerke 397<br />
x =1<br />
1<br />
u(6)=1<br />
Abb. 19.2. Parallelschaltung von sechs Widerständen. Der effektive Gesamtwiderstand be-<br />
trägt Reff(0 ↔ 1) = (R −1<br />
1<br />
+ ...+ R−1<br />
6 )−1 .<br />
Satz 19.20 (Energieerhaltungssatz). Sei A = A0 ∪ A1, und sei I ein Fluss (das<br />
heißt eine antisymmetrische Funktion, die dem Kirchhoff’schen Gesetz genügt, nicht<br />
aber notwendigerweise dem Ohm’schen Gesetz) auf E \ A. Ferner sei w : E → R<br />
eine Funktion, die auf A0 und A1 jeweils konstant ist: w � � ≡: w0 und w<br />
A0<br />
� � ≡:<br />
A1<br />
w1. Dann gilt<br />
(w1 − w0)I(A1) = 1 �<br />
(w(x) − w(y)) I(x, y).<br />
2<br />
x,y∈E<br />
Dies ist die diskrete Version des Satzes von Gauß für (wI), wobei man beachte,<br />
dass das Kirchhoff’sche Gesetz besagt, dass I auf E \ A divergenzfrei ist.<br />
Beweis. Wir berechnen<br />
�<br />
(w(x) − w(y))I(x, y) = � �<br />
w(x) �<br />
x,y∈E<br />
x∈E<br />
y∈E<br />
= � �<br />
w(x) �<br />
x∈A<br />
y∈E<br />
Definition 19.21. Sei I ein Fluss auf E \ A.Mit<br />
�<br />
I(x, y)<br />
�<br />
I(x, y)<br />
− �<br />
y∈E<br />
− �<br />
y∈A<br />
�<br />
w(y) �<br />
x∈E<br />
�<br />
w(y) �<br />
x∈E<br />
�<br />
I(x, y)<br />
�<br />
I(x, y)<br />
= w0I(A0)+w1I(A1)−w0(−I(A0))−w1(−I(A1))<br />
=2(w1−w0)I(A1). ✷<br />
LI := L C I := 1<br />
2<br />
�<br />
x,y∈E<br />
I(x, y) 2 R(x, y)<br />
bezeichnen wir die Leistung von I im Netzwerk (E,C).
398 19 Markovketten und elektrische Netzwerke<br />
Satz 19.22 (Thomson’sches oder Dirichlet’sches Prinzip der Leistungsminimierung).<br />
Seien I,J Einheitsflüsse von A1 nach A0 (das heißt I(A1) =J(A1) =1). I<br />
sei zudem ein elektrischer Fluss (erfülle also das Ohm’sche Gesetz mit einer Spannungsfunktion<br />
u, die auf A0 und A1 jeweils konstant ist). Dann gilt<br />
LI ≤ LJ<br />
mit Gleichheit genau dann, wenn I = J ist. Speziell ist der elektrische Einheitsfluss<br />
eindeutig festgelegt.<br />
Beweis. Sei D = J − I �≡ 0 der Differenzfluss. Dann ist offenbar D(A0) =<br />
D(A1) =0. Wir erhalten<br />
�<br />
J(x, y)<br />
x,y∈E<br />
2 R(x, y)<br />
= � � �2R(x, I(x, y)+D(x, y) y)<br />
x,y∈E<br />
= � � 2 2<br />
I(x, y) + D(x, y)<br />
x,y∈E<br />
� R(x, y)+2 �<br />
I(x, y) D(x, y) R(x, y)<br />
x,y∈E<br />
= � � 2 2<br />
I(x, y) + D(x, y) � R(x, y)+2 � � �<br />
u(y) − u(x) D(x, y).<br />
x,y∈E<br />
x,y∈E<br />
Nach dem Energieerhaltungssatz ist der letzte Term<br />
2 � � �<br />
u(y) − u(x) D(x, y) =2D(A1)(u1 − u0) =0.<br />
x,y∈E<br />
Es folgt (wegen D �≡ 0)<br />
LJ = LI + 1<br />
2<br />
�<br />
x,y∈E<br />
D(x, y) 2 R(x, y) >LI. ✷<br />
Beweis (Rayleigh’sches Monotonieprinzip, Satz 19.19) Seien I und I ′ die elektrischen<br />
Einheitsflüsse von A1 nach A0 bezüglich C beziehungsweise C ′ . Nach<br />
dem Thomson’schen Prinzip, dem Energieerhaltungssatz und der Voraussetzung<br />
R(x, y) ≤ R ′ (x, y) für alle x, y ∈ E ist<br />
u(1) − u(0)<br />
Reff(A0 ↔ A1) = = u(1) − u(0)<br />
I(A1)<br />
= 1 �<br />
I(x, y)<br />
2<br />
2 R(x, y)<br />
≤ 1<br />
2<br />
x,y∈E<br />
�<br />
x,y∈E<br />
I ′ (x, y) 2 R(x, y) ≤ 1<br />
2<br />
�<br />
x,y∈E<br />
I ′ (x, y) 2 R ′ (x, y)<br />
= u ′ (1) − u ′ (0) = R ′ eff(A0 ↔ A1). ✷
19.4 Rekurrenz und Transienz<br />
19.4 Rekurrenz und Transienz 399<br />
Wir betrachten die Situation, wo E abzählbar ist und A1 = {x1} für ein x1 ∈ E.<br />
Sei X eine Irrfahrt auf E mit Gewichten C =(C(x, y), x,y∈ E), also mit Übergangswahrscheinlichkeiten<br />
p(x, y) =C(x, y)/C(x) (vergleiche Definition 19.11).<br />
Um die Ergebnisse über endliche elektrische Netzwerke aus dem letzten Abschnitt<br />
anwenden zu können, nehmen wir zudem immer an, dass A0 ⊂ E so gewählt ist,<br />
dass E \ A0 endlich ist. Es sei dann stets u = ux1,A0 die eindeutig bestimmte<br />
Spannungsfunktion auf E mit u(x1) =1und u(x) =0für jedes x ∈ A0. Nach<br />
Satz 19.7 ist u harmonisch und hat die Darstellung<br />
�<br />
ux1,A0 (x) =Ex {Xτ A0∪{x1 } =x1}<br />
�<br />
= Px [τx1
400 19 Markovketten und elektrische Netzwerke<br />
Beweis. Klar, weil<br />
Ceff(x1 ↔∞)=C(x1)inf � �<br />
pF (x1,A0) : |E \ A0| < ∞, x1�∈ A0 , (19.9)<br />
und weil pF (x1,A0) monoton fallend in A0 ist. ✷<br />
Satz 19.25. Es gilt<br />
Speziell gilt<br />
pF (x1) = 1<br />
C(x1) Ceff(x1 ↔∞). (19.10)<br />
x1 ist rekurrent ⇐⇒ Ceff(x1 ↔∞)=0 ⇐⇒ Reff(x1 ↔∞)=∞.<br />
Beweis. Sei An 0 ↓∅eine absteigende Folge mit |E \ An 0 | < ∞ und x1 �∈ An 0 für<br />
jedes n ∈ N. Setze Fn := � τAn 0 1. Der effektive Widerstand von 0 nach ∞ ist nach<br />
dem Monotonieprinzip<br />
Reff(0 ↔∞) = lim<br />
n→∞ Reff(0 ↔{−n, n})<br />
≤ lim<br />
n→∞ Reff(0 ↔ n)<br />
=<br />
∞�<br />
�<br />
1 − p<br />
n=0<br />
p<br />
� n<br />
=<br />
p<br />
< ∞. ✸<br />
2p − 1
19.4 Rekurrenz und Transienz 401<br />
Beispiel 19.28. Die symmetrische einfache Irrfahrt auf E = Z2 ist rekurrent.<br />
Hier ist wieder C(x, y) = {|x−y|=1}. SeiBn = {−n,...,n} 2 und ∂Bn =<br />
Bn \ Bn−1. Wir stellen ein Netzwerk C ′ mit größeren Leitfähigkeiten her, indem<br />
wir ringförmige Supraleiter entlang ∂B einfügen Wir ersetzen also C(x, y) durch<br />
C ′ �<br />
∞,<br />
(x, y) =<br />
C(x, y),<br />
falls x, y ∈ ∂Bn<br />
sonst.<br />
für ein n ∈ N,<br />
Abb. 19.3. Elektrisches Netzwerk auf Z 2 . Die fetten Linien stellen Supraleiter dar. Zwischen<br />
dem n-ten und dem (n +1)-ten Supraleiter sind genau 4(2n +1)Kanten.<br />
Dann ist R ′ eff (Bn ↔ B c n)=<br />
die Bn mit B c n verbinden), und daher ist<br />
1<br />
4(2n+1) (merke: 4(2n +1)ist die Anzahl der Kanten,<br />
R ′ eff(0 ↔∞)=<br />
∞�<br />
n=0<br />
1<br />
= ∞.<br />
4(2n +1)<br />
Nach dem Monotonieprinzip ist daher Reff(0 ↔∞) ≥ R ′ eff (0 ↔∞)=∞. ✸<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0
402 19 Markovketten und elektrische Netzwerke<br />
0<br />
1<br />
2 3<br />
n n+1<br />
4 Kanten 12 Kanten 20 Kanten 4*(2n+1) Kanten<br />
Abb. 19.4. Effektives Netzwerk, das aus Z 2 durch Einfügen der Supraleiter entsteht. Die<br />
Ringe der Supraleiter sind hier zu einzelnen Punkten verschmolzen.<br />
Beispiel 19.29. Sei (E,K) ein beliebiger zusammenhängender Teilgraph des quadratischen<br />
Gitters (Z 2 , L 2 ). Dann ist die einfache Irrfahrt auf (E,K) (siehe Definition<br />
19.11) rekurrent. Nach dem Monotonieprinzip ist nämlich<br />
R (E,K)<br />
eff (0 ↔∞) ≥ R (Z2 ,L 2 )<br />
eff (0 ↔∞)=∞. ✸<br />
Wir formulieren das Vorgehen in den letzten Beispielen als Satz.<br />
Satz 19.30. Seien C und C ′ Kantengewichte auf E mit C ′ (x, y) ≤ C(x, y) für<br />
alle x, y ∈ E. Ist die Markovkette X zu den Gewichten C rekurrent, so ist es auch<br />
die Markovkette X ′ zu den Gewichten C ′ .<br />
Sei speziell (E,K) ein Graph und (E ′ ,K ′ ) ein Teilgraph. Ist die einfache Irrfahrt<br />
auf (E,K) rekurrent, so ist auch die einfache Irrfahrt auf (E ′ ,K ′ ) rekurrent.<br />
Beweis. Das folgt direkt aus Satz 19.25 zusammen mit dem Rayleigh’schen Monotonieprinzip<br />
(Satz 19.19). ✷<br />
Beispiel 19.31. Die symmetrische einfache Irrfahrt auf Z3 ist transient. Zum Beweis<br />
konstruieren wir einen Teilgraphen, für den wir R ′ eff (0 ↔∞) < ∞ ausrechnen<br />
können.<br />
Skizze Wir betrachten die Menge aller unendlichen Pfade, die in 0 starten und<br />
– einen Schritt in x-Richtung, y-Richtung oder z-Richtung gehen (rechts, oben oder<br />
hinten, nicht links, unten oder vorne),<br />
– eine eventuell andere Richtung x, y oder z wählen und dann zwei Schritte in diese<br />
Richtung gehen,
19.4 Rekurrenz und Transienz 403<br />
– in der n-ten Stufe eine der Richtungen x, y oder z wählen und 2 n+1 Schritte in<br />
diese Richtung gehen.<br />
Wir bezeichnen etwa mit xyyxxxxzzzzzzzz ... den Pfad, der zunächst die x-<br />
Richtung, dann y, dannx, dannz und so fort gewählt hat. Zwei Pfade benutzen<br />
offenbar nach dem Zeitpunkt, wo sich ihre Wege trennen, keine gemeinsamen Kanten<br />
mehr. Allerdings werden manche Knoten von mehreren Pfaden getroffen.<br />
x<br />
y<br />
z<br />
zx<br />
xx<br />
xy<br />
xz<br />
zy<br />
yx<br />
yy<br />
yz<br />
zz<br />
zzz<br />
xxx<br />
xzz<br />
xyy<br />
yxx<br />
yyy<br />
yzz<br />
zyy<br />
zxx<br />
Abb. 19.5. Schema der ersten drei Schritte des Graphen von Beispiel 19.31. Links sind die<br />
tatsächlichen Kanten eingezeichnet, wobei beispielsweise xyy bedeutet, dass zunächst in<br />
Schritt in x-Richtung gemacht wurde, dann einer in y-Richtung und jetzt die weiterführende<br />
Kante in y-Richtung betrachtet wird. Rechts sind die Knoten an den Enden von xz/zx,<br />
xy/yx und yz/zy jeweils in zwei Knoten aufgelöst und mit einem ” Supraleiter“ (fette<br />
Linien) verbunden. Wenn wir die Supraleiter entfernen, so erhalten wir das Netzwerk aus<br />
Abb. 19.6, dessen effektiver Widerstand R ′ eff(0 ↔∞) nicht kleiner ist als derjenige in Z 3 .<br />
(Wird an die Wurzel die Spannung 1 und an den rechten Punkten jeweils die Spannung 0<br />
angelegt, so fließt aus Symmetriegründen durch die Supraleiter kein Strom. Das Netzwerk<br />
hier ist also sogar äquivalent zu dem in Abb. 19.6.)<br />
Wenn wir das elektrische Netzwerk mit Einheitswiderständen und Spannung 1 im<br />
Ursprung sowie Spannung 0 an allen Punkten von Pfaden nach der n-ten Stufe betrachten,<br />
so hängt aus Symmetriegründen die Spannung an jedem Knoten des Netzwerks<br />
nur vom Abstand (kürzester Weg entlang Pfaden) zum Ursprung ab. Wir erhalten<br />
also ein äquivalentes Netzwerk, wenn wir mehrfach benutzte Knoten durch<br />
entsprechend mehrere Knoten ersetzen (siehe Abb. 19.5). So erhalten wir ein Netzwerk,<br />
das eine Baumstruktur hat: jeweils nach 2 n Schritten verzweigt jeder Pfad in<br />
x<br />
y<br />
z<br />
xx<br />
xy<br />
zy<br />
zx<br />
yx<br />
yz<br />
xz<br />
yy<br />
zz<br />
xxx<br />
xzz<br />
xyy<br />
yxx<br />
yyy<br />
yzz<br />
zyy<br />
zzz<br />
zxx
404 19 Markovketten und elektrische Netzwerke<br />
drei Pfade (siehe Abb. 19.6). Die 3 n Pfade von der n-ten Generation zur (n +1)ten<br />
Generation sind disjunkte Pfade der Länge 2 n−1 .SindB(n) alle Punkte bis zur<br />
n-ten Generation, so ist<br />
�<br />
R ′ eff(0 ↔ B(n +1) c n−1<br />
)= R ′ eff(B(k) ↔ B(k) c n−1<br />
)= 2 k 3 −k .<br />
R eff (02)=5/9<br />
k=0<br />
�<br />
k=0<br />
0 1 2 3<br />
R(01)=1/3 R(12)=2/9 R(23)=4/27<br />
R (03)=19/27<br />
eff<br />
Abb. 19.6. Ein Baum als Teilgraph von Z 3 , auf dem die Irrfahrt immer noch transient ist.
Also ist R ′ eff(0 ↔∞)= 1<br />
3<br />
∞�<br />
k=0<br />
19.5 Netzwerkreduktion 405<br />
� �k 2<br />
=1< ∞. Für diesen Baum ist die Irrfahrt<br />
3<br />
transient, nach Satz 19.30 also auch für Z 3 . ✸<br />
Beispiel 19.32. Die symmetrische einfache Irrfahrt auf Z d , d ≥ 3, ist transient. Dies<br />
gilt nach Satz 19.30, weil wir Z 3 als Teilgraphen von Z d auffassen können und hier<br />
die Irrfahrt transient ist. ✸<br />
19.5 Netzwerkreduktion<br />
Beispiel 19.33. Wir betrachten die Irrfahrt auf dem Graphen aus Abb. 19.7, die in x<br />
startet und an jedem Punkt mit gleicher Wahrscheinlichkeit zu einem der Nachbarpunkte<br />
springt. Mit welcher Wahrscheinlichkeit P trifft die Kette den Punkt 1 bevor<br />
sie den Punkt 0 trifft? Wir können den Graphen als elektrisches Netzwerk auffassen<br />
0<br />
x<br />
1<br />
Abb. 19.7. Ausgangssituation<br />
mit gleichem Widerstand (etwa 1) an jeder Kante, Spannung 0 in 0 und Spannung<br />
1 in 1. Wenn wir die beiden effektiven Widerstände Reff(0 ↔ x) und Reff(x ↔ 1)<br />
kennen, erhalten wir als Spannung<br />
P = u(x) =<br />
Reff(0 ↔ x)<br />
. (19.11)<br />
Reff(0 ↔ x)+Reff(x ↔ 1)<br />
Um die effektiven Widerstände auszurechnen, wollen wir das Netzwerk schrittweise<br />
vereinfachen, bis nur noch zwei Kanten übrig sind: von 0 nach x und von x nach 1.<br />
Die erforderlichen Schritte werden im Folgenden vorgestellt und dann im Beispiel<br />
angewandt. ✸
406 19 Markovketten und elektrische Netzwerke<br />
Um ein elektrisches Netzwerk zu reduzieren, kann man vier elementare Transformationen<br />
anwenden:<br />
1. Entfernen von Schleifen Die drei Punkte ganz rechts im Graphen bilden eine<br />
Schleife, die ohne Veränderungen im Rest des Netzwerks entfernt werden kann.<br />
Insbesondere kann jede Kante entfernt werden, die 0 und 1 direkt verbindet.<br />
2. Zusammenfassen von seriellen Kannten Zwei (oder mehr) Kanten, die seriell<br />
liegen, und deren dazwischen liegende Knoten keine weiteren Verbindungen haben,<br />
können durch ein Kante ersetzt werden, deren Widerstand die Summe der einzelnen<br />
Widerstände ist (siehe Abb. 19.1).<br />
3. Zusammenfassen von parallelen Kannten Zwei (oder mehr) Kanten mit Widerständen<br />
R1,...,Rn, die die selben Knoten verbinden, können durch eine Kante<br />
mit Widerstand R =(R −1<br />
1 + ...+ R−1 n ) −1 ersetzt werden (siehe Abb. 19.2).<br />
4. Stern-Dreieck-Transformation (Siehe Übung 17.5.1) Der sternförmige Ausschnitt<br />
eines Netzwerk links in Abb. 19.8 ist äquivalent zum dreieckigen Ausschnitt<br />
rechts, wenn die Widerstände R1,R2,R3, � R1, � R2, � R3 die folgende Bedingung<br />
erfüllen<br />
wobei<br />
x1<br />
Ri ˜ Ri = δ für jedes i =1, 2, 3, (19.12)<br />
� −1<br />
δ = R1R2R3 R1 + R−1 2<br />
R1<br />
R3<br />
x3<br />
x2<br />
�<br />
+ R−1 3 =<br />
z R2<br />
x1<br />
Abb. 19.8. Stern-Dreieck-Transformation<br />
�R1 � R2 � R3<br />
�R1 + � R2 + � .<br />
R3<br />
Wir lösen nun die Aufgabe aus Beispiel 19.33 konkret. Wir nehmen an, dass anfangs<br />
jede Kante den Widerstand 1 hat. Kanten, die im Verlauf der Reduktion andere<br />
Widerstände als 1 haben, werden mit dem entsprechenden Widerstand beschriftet.<br />
�R2<br />
�R3<br />
x3<br />
�R1<br />
x2
Schritt 1. Die Schleife am rechten Rand wird entfernt.<br />
19.5 Netzwerkreduktion 407<br />
Schritt 2. Die Serien an der oberen, rechten und unteren Ecke werden durch je<br />
einen Widerstand der Größe 2 ersetzt.<br />
0<br />
x<br />
1<br />
0<br />
Abb. 19.9. Schritt 1 und 2<br />
Schritt 3. Der linke untere Knoten wird mit der Stern-Dreieck-Transformation<br />
entfernt. Hier ist R1 =1, R2 =2, R3 =1, δ =5, � R1 = δ/R1 =5, � R2 = δ/R2 =<br />
5/2 und � R3 = δ/R3 =5.<br />
Schritt 4. Die parallelen Kanten mit Widerständen R1 =5und R2 =1werden<br />
ersetzt durch eine Kante mit R =( 1<br />
5 +1)−1 = 5<br />
6 .<br />
0<br />
2<br />
x 1<br />
5/2<br />
5<br />
5<br />
2<br />
0<br />
x<br />
Abb. 19.10. Schritt 3 und 4<br />
x<br />
5/2<br />
5<br />
2<br />
2<br />
2<br />
5/6<br />
1<br />
2<br />
1<br />
2
408 19 Markovketten und elektrische Netzwerke<br />
Schritt 5. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation<br />
entfernt. Hier ist R1 =5, R2 =2, R3 = 5<br />
6 , δ =95/6, � R1 = δ/R1 =19/6,<br />
�R2 = δ/R2 =95/12 und � R3 = δ/R3 =19.<br />
Schritt 6. Die parallelen Kanten werden durch je eine Kante ersetzt mit Widerstand<br />
( 12 2<br />
95 + 5 )−1 = 19<br />
6<br />
10 beziehungsweise ( 19 +1)−1 = 19<br />
25 . Zudem wird die direkte<br />
Kante zwischen Punkt 0 und Punkt 1 entfernt.<br />
0<br />
x<br />
5/2<br />
95/12<br />
2<br />
19/6<br />
19<br />
0<br />
1<br />
x<br />
Abb. 19.11. Schritt 5 und 6<br />
19/10<br />
2<br />
19/25<br />
Schritt 7. Der rechte untere Knoten wird mit der Stern-Dreieck-Transformation<br />
entfernt. Hier ist R1 = 19<br />
10 , R2 = 19<br />
25 , R3 = 1, δ = 513<br />
125 , � R1 = δ/R1 = 54<br />
25 ,<br />
�R2 = δ/R2 = 27<br />
5 und � R3 = δ/R3 = 513<br />
125 .<br />
Schritt 8. Die parallelen Kanten werden durch je eine Kante ersetzt mit Widerstand<br />
( 5<br />
27 +1)−1 = 27<br />
25 1<br />
32 beziehungsweise ( 54 + 2 )−1 = 27<br />
26 . Zudem wird die direkte<br />
Kante zwischen Punkt 0 und Punkt 1 entfernt.<br />
0<br />
x<br />
27/5<br />
2<br />
54/25<br />
513/125<br />
0<br />
1<br />
x<br />
27/32<br />
Abb. 19.12. Schritt 7 und 8<br />
27/26<br />
Wir haben jetzt also die effektiven Widerstände Reff(0 ↔ x) = 27<br />
32 und Reff(x ↔<br />
1) = 27<br />
26 . Mit Gleichung (19.11) erhalten wir als Wahrscheinlichkeit, dass die Irrfahrt<br />
1 erreicht, bevor sie 0 erreicht:<br />
P =<br />
27<br />
32<br />
27<br />
32<br />
+ 27<br />
26<br />
= 13<br />
. ✸<br />
29<br />
1<br />
1
Alternative Lösung<br />
19.5 Netzwerkreduktion 409<br />
Wir können die Lösung des Problems aus Beispiel 19.33 auch ohne Netzwerke,<br />
alleine mit linearer Algebra angeben. Welche Lösung eleganter ist, ist wohl Geschmackssache.<br />
Zunächst stellen wir die Übergangsmatrix p der Markovkette auf<br />
(hierfür werden die Knoten des Graphen von 1 bis 12 durchnummeriert wie in<br />
Abb. 19.13). Der Startpunkt ist die 2, das ” Gewinnfeld“ ist die 3 und das ” Verlustfeld“<br />
die 5. Nun wird die Matrix p der in 3 und 5 getöteten Kette gebildet und<br />
5<br />
2<br />
9<br />
1<br />
6<br />
12<br />
3<br />
10<br />
7<br />
4<br />
11<br />
Abb. 19.13. Graph mit nummerierten Knoten<br />
G =(I − p) −1 berechnet. Nach Übung 19.1.1 (mit A = {3, 5}, x =2und y =3)<br />
ist die Wahrscheinlichkeit 3 vor 5 zu treffen P = G(2, 3) = 13<br />
29 .<br />
⎛<br />
1 1 0 2 2 0 0 0 0 0 0 0 0<br />
⎜ 1<br />
1 1<br />
⎜ 3 0 0 0 3 3 0 0 0 0 0<br />
⎜ 0 0 0 0 0 0 0 0 0 0 0<br />
⎜<br />
1 1<br />
⎜ 0 0 0 0 0 0 2 2 0 0 0<br />
⎜ 0 0 0 0 0 0 0 0 0 0 0<br />
⎜ 1 1<br />
1 1<br />
⎜ 0 4 4 0 0 0 0 0 4 4 0<br />
p := ⎜<br />
1 1<br />
1 1<br />
⎜<br />
0 0 4 4 0 0 0 0 0 4 4<br />
⎜<br />
1<br />
1<br />
⎜ 0 0 0<br />
⎜<br />
2 0 0 0 0 0 0 2<br />
⎜<br />
1 1<br />
⎜ 0 0 0 0 3 3 0 0 0 0 0<br />
⎜<br />
1 1<br />
0 0 0 0 0<br />
⎜<br />
3 3 0 0 0 0<br />
⎜<br />
1 1<br />
⎝ 0 0 0 0 0 0 2 2 0 0 0<br />
0<br />
0<br />
0<br />
0<br />
0<br />
0<br />
0<br />
0<br />
1<br />
3<br />
1<br />
3<br />
0<br />
⎞<br />
⎟<br />
⎠<br />
0 0 0 0 0 0 0 0 1<br />
2<br />
1<br />
2 0 0<br />
8
410 19 Markovketten und elektrische Netzwerke<br />
G := (I − p) −1 ⎛<br />
143<br />
⎜ 116<br />
⎜ 27<br />
⎜ 58<br />
⎜ 0<br />
⎜ 3<br />
⎜ 58<br />
⎜ 0<br />
⎜ 19<br />
= ⎜ 116<br />
⎜ 3<br />
⎜ 58<br />
⎜ 3<br />
⎜ 58<br />
⎜ 5<br />
⎜ 58<br />
⎜ 3<br />
⎜ 29<br />
⎜ 3<br />
⎝ 58<br />
81<br />
116<br />
81<br />
58<br />
0<br />
9<br />
58<br />
0<br />
57<br />
116<br />
9<br />
58<br />
9<br />
58<br />
15<br />
58<br />
9<br />
29<br />
9<br />
58<br />
21<br />
29<br />
13<br />
29<br />
1<br />
24<br />
29<br />
0<br />
18<br />
29<br />
24<br />
29<br />
24<br />
29<br />
11<br />
29<br />
19<br />
29<br />
24<br />
29<br />
3<br />
58<br />
3<br />
29<br />
0<br />
165<br />
58<br />
0<br />
15<br />
58<br />
39<br />
29<br />
68<br />
29<br />
7<br />
29<br />
20<br />
29<br />
107<br />
58<br />
8<br />
29<br />
16<br />
29<br />
0<br />
5<br />
29<br />
1<br />
11<br />
29<br />
5<br />
29<br />
5<br />
29<br />
18<br />
29<br />
10<br />
29<br />
5<br />
29<br />
19<br />
58<br />
19<br />
29<br />
0<br />
15<br />
29<br />
0<br />
95<br />
58<br />
15<br />
29<br />
15<br />
29<br />
25<br />
29<br />
30<br />
29<br />
15<br />
29<br />
3<br />
29<br />
6<br />
29<br />
0<br />
78<br />
29<br />
0<br />
15<br />
29<br />
78<br />
29<br />
78<br />
29<br />
14<br />
29<br />
40<br />
29<br />
78<br />
29<br />
3<br />
58<br />
3<br />
29<br />
0<br />
68<br />
29<br />
0<br />
15<br />
58<br />
39<br />
29<br />
97<br />
29<br />
7<br />
29<br />
20<br />
29<br />
68<br />
29<br />
15<br />
116<br />
15<br />
58<br />
0<br />
21<br />
58<br />
0<br />
75<br />
116<br />
21<br />
58<br />
21<br />
58<br />
93<br />
58<br />
21<br />
29<br />
21<br />
58<br />
9<br />
58<br />
9<br />
29<br />
0<br />
30<br />
29<br />
0<br />
45<br />
58<br />
30<br />
29<br />
30<br />
29<br />
21<br />
29<br />
60<br />
29<br />
30<br />
29<br />
3<br />
58<br />
3<br />
29<br />
0<br />
107<br />
58<br />
0<br />
15<br />
58<br />
39<br />
29<br />
68<br />
29<br />
7<br />
29<br />
20<br />
29<br />
165<br />
58<br />
11<br />
116<br />
11<br />
58<br />
0<br />
27<br />
58<br />
0<br />
55<br />
116<br />
27<br />
58<br />
27<br />
58<br />
45<br />
58<br />
27<br />
29<br />
27<br />
58<br />
11<br />
116<br />
33<br />
116<br />
15<br />
29<br />
27<br />
58<br />
Übung 19.5.1. Man zeige die Gültigkeit der Stern-Dreieck-Transformation. ♣<br />
Übung 19.5.2. Man zeige für den unten stehenden hexagonalen Graphen, dass die<br />
Wahrscheinlichkeit, von x aus startend die 1 vor der 0 zu treffen, gleich 8<br />
17 ist<br />
(i) mit der Methode der Netzwerkreduktion,<br />
(ii) mit der Methode der Matrixinversion. ♣<br />
1<br />
14<br />
29<br />
x<br />
55<br />
58<br />
27<br />
29<br />
27<br />
58<br />
135<br />
116<br />
81<br />
58<br />
0<br />
27<br />
58<br />
215<br />
116<br />
⎞<br />
⎟<br />
⎠
Übung 19.5.3. Man betrachte den Graphen aus Abb. 19.14.<br />
19.5 Netzwerkreduktion 411<br />
(i) Zeige für die effektive Leitfähigkeit zwischen den Punkten a und z, dass<br />
Ceff(a ←→ z) = √ 3.<br />
(ii) Zeige, dass die Wahrscheinlichkeit Pa[τz
412 19 Markovketten und elektrische Netzwerke<br />
19.6 Irrfahrt in zufälliger Umgebung<br />
(Vergleiche [163], [135] und [76, 77].) Wir betrachten eine Markovkette X auf<br />
Z, die in jedem Schritt entweder einen Punkt nach links oder einen Punkt nach<br />
rechts springt, jeweils mit Wahrscheinlichkeit w −<br />
i beziehungsweise w+ i , falls X<br />
in i ∈ Z ist. Es seien also w −<br />
i ∈ (0, 1) und w+ i := 1 − w −<br />
i für i ∈ Z. DannistX<br />
die Markovkette mit Übergangsmatrix<br />
⎧<br />
⎪⎨ w<br />
pw(i, j) =<br />
⎪⎩<br />
−<br />
i , falls j = i − 1,<br />
w +<br />
i , falls j = i +1,<br />
0, sonst.<br />
Um X durch die Leitfähigkeiten eines elektrischen Netzwerks zu beschreiben, setzen<br />
wir ϱi := w −<br />
i /w+ i für i ∈ Z sowie Cw(i, j) :=0 falls |i − j| �= 1 und<br />
� �i k=0<br />
Cw(i +1,i):=Cw(i, i +1) :=<br />
ϱ−1<br />
k , falls i ≥ 0,<br />
�−1 k=i ϱk, falls i
19.6 Irrfahrt in zufälliger Umgebung 413<br />
Satz 19.34. (i) Gilt R − w < ∞ oder R + w < ∞, so gilt (mit ∞<br />
∞ =1)<br />
�<br />
P0 Xn<br />
n→∞<br />
−→ −∞ � =<br />
R + w<br />
R − w + R + w<br />
�<br />
und P0 Xn<br />
(ii) Gilt R − w = ∞ und R + w = ∞, so gilt lim inf<br />
fast sicher.<br />
n→∞<br />
−→ +∞ � =<br />
R − w<br />
R − w + R + w<br />
n→∞ Xn = −∞ und lim sup Xn = ∞<br />
n→∞<br />
Beweis. (i) Ohne Einschränkung sei R − w < ∞. Der andere Fall folgt aus Symmetriegründen.<br />
Sei τN := inf � n ∈ N0 : Xn ∈{−N,N} � .DaX transient ist, ist<br />
P0[τN < ∞] =1und (wie in (19.7))<br />
�<br />
P0 XτN = −N� = Rw,eff(0 ↔ N)<br />
Rw,eff(−N ↔ N) =<br />
Es folgt, wiederum, weil X transient ist,<br />
�<br />
P0 Xn<br />
Rw,eff(0 ↔ N)<br />
Rw,eff(0 ↔−N)+Rw,eff(0 ↔ N) .<br />
n→∞<br />
−→ −∞ � = P � sup{Xn : n ∈ N0} < ∞ �<br />
= lim<br />
N→∞ P� sup{Xn : n ∈ N0}
414 19 Markovketten und elektrische Netzwerke<br />
Definition 19.35. Der Prozess X heißt heißt Irrfahrt in der zufälligen Umgebung<br />
W (random walk in random environment).<br />
Seien ϱi := W − +<br />
i /W i für i ∈ Z und R −<br />
W<br />
und R+<br />
W<br />
wie oben definiert.<br />
Satz 19.36. (i) Gilt E[log(ϱ0)] < 0,sogiltXn n→∞<br />
−→ ∞ f.s.<br />
(ii) Gilt E[log(ϱ0)] > 0,sogiltXn n→∞<br />
−→ −∞ f.s.<br />
(iii) Gilt E[log(ϱ0)] = 0,sogiltlim inf<br />
n→∞ Xn = −∞ und lim sup Xn = ∞ f.s.<br />
n→∞<br />
Beweis. (i) und (ii) Aus Symmetriegründen reicht es, (ii) zu zeigen. Sei also c :=<br />
E[log(ϱ0)] > 0. Nach dem starken Gesetz der großen Zahl gibt es ein n − 0 = n− 0 (ω)<br />
mit<br />
Es folgt<br />
1�<br />
k=−n<br />
R −<br />
W =<br />
n=1<br />
ϱ −1<br />
k =exp<br />
�<br />
−<br />
∞�<br />
1�<br />
k=−n<br />
ϱ −1<br />
k ≤<br />
1�<br />
k=−n<br />
n −<br />
0 −1<br />
�<br />
n=1<br />
Analog gibt es ein n + 0 = n+ 0 (ω) mit<br />
Es folgt<br />
R +<br />
W =<br />
∞�<br />
n�<br />
k=0<br />
n�<br />
ϱk ≥<br />
n=0 k=0<br />
ϱk >e cn/2<br />
�<br />
log(ϱi) −∞ und lim supn→∞ k=−n log(ϱ−1 k ) > −∞<br />
fast sicher, wenn E[log(ϱ0)] = 0 gilt. Wenn log(ϱ0) von endlicher Varianz ist,<br />
folgt dies aus dem Zentralen Grenzwertsatz. Im allgemeinen Fall folgt dies aus<br />
Satz 20.21. ✷
20 Ergodentheorie<br />
Gesetze der großen Zahl, zum Beispiel für u.i.v. Zufallsvariablen X1,X2,... besagen,<br />
dass n−1 �n i=1 Xi<br />
n→∞<br />
−→ E[X1] fast sicher konvergiert. Wir können also die<br />
Mittelung über die tatsächliche Realisierung vieler Zufallsvariablen mit der Mittelung<br />
über die möglichen Realisierungen eines Xi vertauschen. In der statistischen<br />
Physik spricht man von der Äquivalenz von Zeitmittel und Scharmittel, oder der Mittelung<br />
entlang einer Trajektorie (griechisch odos) des Systems gegenüber der Mittelung<br />
aller möglichen Zustände mit gleicher Energie (griechisch ergon). Hieraus<br />
leitet sich der Begriff der Ergodentheorie ab, die Gesetze der großen Zahl für Zufallsvariablen<br />
mit Abhängigkeiten, aber zeitlicher Stationarität liefert.<br />
20.1 Begriffsbildung<br />
Definition 20.1. Sei I eine unter Addition abgeschlossene Menge (die wichtigsten<br />
Beispiele für uns sind I = N0, I = N, I = Z, I = R, I =[0, ∞), I = Z d usw.).<br />
Ein stochastischer Prozess X =(Xt)t∈I heißt stationär, falls<br />
L [(Xt+s)t∈I] =L [(Xt)t∈I] für jedes s ∈ I. (20.1)<br />
Bemerkung 20.2. Ist I = N0, I = N oder I = Z, so ist (20.1) äquivalent zu<br />
L [(Xn+1)n∈I] =L [(Xn)n∈I] . ✸<br />
Beispiel 20.3. (i) Ist X =(Xt)t∈I u.i.v., so ist X stationär. Ist lediglich PXt =<br />
PX0 für jedes t ∈ I (ohne die Unabhängigkeit), so ist X im Allgemeinen nicht<br />
stationär. Beispielsweise sei I = N0 und X1 = X2 = X3 = ..., jedoch X0 �=<br />
X1 .DannistX nicht stationär.<br />
(ii) Ist X eine Markovkette mit invarianter Verteilung π ,sowie L[X0] =π,dann<br />
ist X stationär.<br />
(iii) Sind (Yn)n∈Z u.i.v. und reell, sowie c1,...,ck ∈ R, danndefiniert<br />
k�<br />
Xn := cl Yn−l<br />
l=1
416 20 Ergodentheorie<br />
einen stationären Prozess X. X heißt manchmal auch moving average oder gleitendes<br />
Mittel mit Gewichten (c1,...,ck). Eine genauere Betrachtung ergibt, dass<br />
X sogar dann stationär ist, wenn Y nur als stationär vorausgesetzt wird. ✸<br />
Lemma 20.4. Ist (Xn)n∈N0 stationär,solässt sich X zu einem stationären Prozess<br />
� �<br />
Xn<br />
�<br />
n∈Z fortsetzen.<br />
Beweis. Sei � X der kanonische Prozess auf Ω = EZ .Sei� P {−n,−n+1,...} � ∈<br />
{−n,−n+1,...} E � definiert durch<br />
M1<br />
�P {−n,−n+1,...}� � X−n ∈ A−n, � X−n+1 ∈ A−n+1,... �<br />
= P � X0 ∈ A−n,X1 ∈ A−n+1,... � .<br />
Dann ist � �<br />
P � {−n,−n+1,...} ,n ∈ N projektiv und {−n, −n +1,...} ↑ Z. Nach<br />
dem Satz von Ionescu-Tulcea (Satz 14.32) existiert der projektive Limes � P :=<br />
�P {−n,−n+1,...} . Per Konstruktion ist � X stationär bezüglich � P und<br />
lim<br />
←−<br />
n→∞<br />
�P ◦ � ( � Xn)n∈N0<br />
� −1 = P ◦ � (Xn)n∈N0<br />
� −1. ✷<br />
Im Folgenden sei stets (Ω,A, P) ein W-Raum und τ : Ω → Ω eine messbare<br />
Abbildung.<br />
Definition 20.5. Ein Ereignis A ∈ A heißt invariant, falls τ −1 (A) = A und<br />
quasi-invariant, falls τ −1 (A) = A P–f.s. Die σ-Algebra der invarianten Ereignisse<br />
bezeichnen wir mit<br />
I = � A ∈A: τ −1 (A) =A �<br />
Lemma 20.6. Eine messbare Abbildung f :(Ω,A) → (R, B(R)) ist genau dann<br />
I-messbar, wenn f ◦ τ = f ist.<br />
Beweis. Für Indikatorfunktionen f = A ist dies klar. Der allgemeine Fall folgt<br />
mit den üblichen Approximationsargumenten (siehe Satz 1.96(i)). ✷<br />
Zur Erinnerung: Eine σ-Algebra I heißt P-trivial, falls P[A] ∈{0, 1} für jedes<br />
A ∈I gilt.<br />
Definition 20.7. (i) τ heißt maßtreu, falls<br />
P � τ −1 (A) � = P[A] für jedes A ∈A.<br />
In diesem Falle heißt (Ω,A, P,τ) ein maßerhaltendes dynamisches System.<br />
(ii) Ist τ maßtreu und I P-trivial, so heißt (Ω,A, P,τ) ergodisch.
20.1 Begriffsbildung 417<br />
Beispiel 20.8. Sei n ∈ N \{1}, Ω = Z/(n), A =2 Ω und P die Gleichverteilung<br />
auf Ω.Seir ∈{1,...,n} und<br />
τ : Ω → Ω, x ↦→ x + r (mod n).<br />
Dann ist τ maßtreu. Ist d = ggT(n, r) und für i =0,...,d− 1<br />
Ai = � i, τ(i),τ 2 (i),...,τ n−1 (i) � = i + 〈r〉,<br />
so sind A0,...,Ad−1 die disjunkten Nebenklassen des Normalteilers 〈r〉 ✂ Ω.Also<br />
ist Ai ∈Ifür i =0,...,d− 1, und jedes A ∈Iist Vereinigung von gewissen Ai.<br />
Mithin gilt:<br />
(Ω,A, P,τ) ist ergodisch ⇐⇒ ggT(r, n) =1. ✸<br />
Beispiel 20.9 (Rotation). Sei Ω =[0, 1), A = B(Ω), P = λ das Lebesgue-Maß,<br />
r ∈ (0, 1) und τr(x) =x + r (mod 1).Offenbarist(Ω,A, P,τr) ein maßerhaltendes<br />
dynamisches System.<br />
Sei zunächst r rational, also r = p<br />
q für gewisse teilerfremde Zahlen p, q ∈ N. Setze<br />
A0 = � 0, 1<br />
� �q−1 2q und A = n=0 τ n r (A0). Wegenτq =idΩ, istA∈Iund P[A] = 1<br />
2 ,<br />
also ist (Ω,A, P,τr) nicht ergodisch.<br />
Sei nun r ∈ (0, 1) irrational. Offenbar gilt für jedes x ∈ [0, 1) und ε>0, dass<br />
�∞ k=1<br />
τ −k<br />
r (Bε(x)) = [0, 1), weil {x, τ −1<br />
r (x),τ −2<br />
r (x),...}⊂[0, 1) dicht ist. Also<br />
gilt für jede offene Menge V ∈ I entweder V = ∅ oder V = [0, 1). Sei nun<br />
A ∈Ibeliebig mit P[A] > 0. Nach dem Approximationssatz für Maße (Satz 1.65)<br />
existiert ein offene Menge U ⊂ A mit P[U] > 0. Setzen wir<br />
V =<br />
∞�<br />
k=−∞<br />
τ k r (U) ⊂<br />
∞�<br />
k=−∞<br />
τ k r (A) =A,<br />
so ist V offen und V ∈I, also V =[0, 1) und damit A =[0, 1).<br />
Wir haben also gezeigt:<br />
(Ω,A, P,τr) ist ergodisch ⇐⇒ r ist irrational. ✸<br />
Beispiel 20.10. Sei X =(Xn)n∈N0 ein stochastischer Prozess mit Werten in einem<br />
polnischen Raum E. Ohne Einschränkung können wir annehmen, dass X der kanonische<br />
Prozess auf dem W-Raum (Ω,A, P) = � EN0 , B(E) ⊗N0 , P � ist. Definiere<br />
den Shift<br />
τ : Ω → Ω, (ωn)n∈N0 ↦→ (ωn+1)n∈N0 .<br />
Dann ist Xn(ω) =X0(τ n (ω)).AlsoistXgenau dann stationär, wenn (Ω,A, P,τ)<br />
ein maßerhaltendes dynamisches System ist. ✸<br />
Definition 20.11. Der stochastische Prozess X (aus Beispiel 20.10) heißt ergodisch,<br />
falls (Ω,A, P,τ) ergodisch ist.
418 20 Ergodentheorie<br />
Beispiel 20.12. Seien (Xn)n∈N0 u.i.v. und Xn(ω) =X0(τ n (ω)). IstA ∈I,soist<br />
für n ∈ N<br />
A = τ −n (A) ={ω : τ n (ω) ∈ A} ∈σ(Xn,Xn+1,...).<br />
Also ist (mit T die terminale σ-Algebra von (Xn)n∈N, siehe Definition 2.34)<br />
I⊂T =<br />
∞�<br />
σ(Xn,Xn+1,...).<br />
n=1<br />
Nach dem Kolmogorov’schen 0 − 1 Gesetz (Satz 2.37) ist T P-trivial, also ist auch<br />
I P-trivial und damit (Xn)n∈N0 ergodisch. ✸<br />
Übung 20.1.1. Sei G eine endliche Gruppe von maßtreuen messbaren Abbildungen<br />
auf (Ω,A, P) und A0 := {A ∈A: g(A) =A für alle g ∈ G}.<br />
Man zeige: Für jedes X ∈L 1 (P) gilt<br />
20.2 Ergodensätze<br />
E[X |A0] = 1<br />
#G<br />
�<br />
X ◦ g. ♣<br />
In diesem Abschnitt ist stets (Ω,A, P,τ) ein maßerhaltendes dynamisches System.<br />
Ferner sei f : Ω → R messbar und<br />
g∈G<br />
Xn(ω) =f ◦ τ n (ω) für jedes n ∈ N0.<br />
Also ist X =(Xn)n∈N0 ein stationärer, reeller stochastischer Prozess. Sei<br />
�<br />
n−1<br />
Sn = Xk<br />
k=0<br />
die n-te Partialsumme. Die Ergodensätze beschäftigen sich mit Gesetzen der großen<br />
Zahl für die (Sn). Als Vorbereitung bringen wir ein Lemma.<br />
Lemma 20.13 (Hopf’sches Maximal-Ergodenlemma). Sei X0 ∈ L1 Mn =max{0,S1,...,Sn}, n∈ N. Dann gilt<br />
(P). Setze<br />
E � X0<br />
�<br />
{Mn>0} ≥ 0 für jedes n ∈ N.<br />
Beweis. Für k ≤ n ist Mn(τ(ω)) ≥ Sk(τ(ω)). Alsoist<br />
X0 + Mn ◦ τ ≥ X0 + Sk ◦ τ = Sk+1.
20.2 Ergodensätze 419<br />
Daher ist X0 ≥ Sk+1 − Mn ◦ τ für k =1,...,n. Offensichtlich ist S1 = X0 und<br />
Mn ◦ τ ≥ 0, also auch (für k =0) X0 ≥ S1 − Mn ◦ τ und damit auch<br />
Außerdem ist offenbar<br />
X0 ≥ max{S1,...,Sn}−Mn ◦ τ. (20.2)<br />
{Mn > 0} c ⊂{Mn =0}∩{Mn ◦ τ ≥ 0} ⊂{Mn − Mn ◦ τ ≤ 0}. (20.3)<br />
Aus (20.2) und (20.3) und der Maßtreue von τ folgt<br />
E � � � �<br />
X0 {Mn>0} ≥ E (max{S1,...,Sn}−Mn ◦ τ) {Mn>0}<br />
= E � �<br />
(Mn − Mn ◦ τ) {Mn>0}<br />
≥ E � Mn − Mn ◦ τ � = E[Mn] − E[Mn] = 0. ✷<br />
Satz 20.14 (Individueller Ergodensatz, Birkhoff 1931). Sei f = X0 ∈L 1 (P).<br />
Dann gilt<br />
n−1<br />
1 �<br />
n<br />
k=0<br />
�<br />
Xk = 1<br />
n−1<br />
n<br />
k=0<br />
Ist speziell τ ergodisch, so gilt 1<br />
n<br />
f ◦ τ k n→∞<br />
n−1 �<br />
Xk<br />
k=0<br />
�<br />
−→ E[X0<br />
�I] P-f.s.<br />
n→∞<br />
−→ E[X0] P-f.s.<br />
Beweis. Ist τ ergodisch, so ist E[X0 |I] = E[X0] und der Zusatz folgt aus der<br />
ersten Aussage.<br />
Wir betrachten nun den allgemeinen Fall. Nach Lemma 20.6 ist E[X0 |I] ◦ τ =<br />
E[X0 |I] P–f.s. Wir können also � Xn := Xn − E[X0 |I] betrachten und daher<br />
ohne Beschränkung der Allgemeinheit E[X0 |I]=0annehmen. Setze<br />
Z := lim sup<br />
n→∞<br />
1<br />
n Sn.<br />
Sei ε>0 und F := {Z > ε}. Zu zeigen ist, dass P[F ]=0gilt. Hieraus folgt<br />
1<br />
dann P[Z >0]=0und analog mit −X auch lim inf<br />
n→∞ nSn ≥ 0 fast sicher, also<br />
1<br />
nSn n→∞<br />
−→ 0 f.s.<br />
Offenbar ist Z ◦ τ = Z, also F ∈I. Setze<br />
X ε n := (Xn − ε) F , S ε n := X ε 0 + ...+ X ε n−1,<br />
M ε n := max{0,S ε 1,...,S ε n}, Fn := {M ε n > 0}.
420 20 Ergodentheorie<br />
Dann ist F1 ⊂ F2 ⊂ ... und<br />
∞�<br />
n=1<br />
Fn =<br />
�<br />
1<br />
sup<br />
k∈N k Sε k > 0<br />
�<br />
=<br />
�<br />
1<br />
sup<br />
k∈N k Sk<br />
�<br />
>ε ∩ F = F,<br />
also Fn ↑ F . Majorisierte Konvergenz liefert E [Xε n→∞<br />
0 Fn ] −→ E [Xε 0].<br />
Nach dem Maximal-Ergodenlemma (angewandt auf Xε )istE [Xε 0 Fn ] ≥ 0, also<br />
0 ≤ E [X ε 0]=E [(X0 − ε) F ]=E [E [X0 |I] F ] − εP[F ]=−εP[F ].<br />
Mithin ist P[F ]=0. ✷<br />
Als Folgerung erhält man den statistischen Ergodensatz oder L p -Ergodensatz, den<br />
von Neumann 1931 vor Birkhoff gefunden hat. Zur Vorbereitung bringen wir ein<br />
elementares Lemma.<br />
Lemma 20.15. Sei p ≥ 1, und seien X0,X1,... identisch verteilte, reelle Zufallsvariablen<br />
mit E[|X0| p � n−1<br />
� � �<br />
�<br />
] < ∞. Setzen wir Yn :=<br />
für n ∈ N, soist<br />
(Yn)n∈N gleichgradig integrierbar.<br />
� 1<br />
n<br />
Xk�<br />
k=0<br />
p<br />
Beweis. Offenbar ist die einelementige Familie {|X0| p } gleichgradig integrierbar.<br />
Nach Satz 6.19 existiert also eine monoton wachsende, konvexe Abbildung<br />
f :[0, ∞) → [0, ∞) mit f(x)<br />
x →∞für x →∞und C := E[f(|X0| p )] < ∞. Nach<br />
Satz 6.19 reicht es wiederum zu zeigen, dass E[f(Yn)] ≤ C für jedes n ∈ N. Nach<br />
der Jensen’schen Ungleichung (für x ↦→ |x| p )ist<br />
Yn ≤ 1<br />
n−1<br />
n<br />
k=0<br />
�<br />
|Xk| p .<br />
Die Jensen’sche Ungleichung (diesmal auf f angewandt) liefert dann<br />
�<br />
n−1<br />
1 �<br />
f(Yn) ≤ f |Xk|<br />
n<br />
p<br />
�<br />
≤ 1<br />
n−1 �<br />
f(|Xk|<br />
n<br />
p ),<br />
k=0<br />
also E[f(Yn)] ≤ 1<br />
n−1 �<br />
n E[f(|Xk| p )] = C. ✷<br />
k=0<br />
Satz 20.16 (L p -Ergodensatz, von Neumann 1931). Sei (Ω,A, P,τ) ein maßerhaltendes<br />
dynamisches System, p ≥ 1, X0 ∈L p (P) und Xn = X0 ◦ τ n . Dann<br />
gilt<br />
n−1<br />
1 �<br />
n<br />
Xk<br />
k=0<br />
Ist speziell τ ergodisch, so gilt 1<br />
n<br />
k=0<br />
n→∞<br />
−→ E[X0 |I] in L p (P).<br />
n−1 �<br />
Xk<br />
k=0<br />
n→∞<br />
−→ E[X0] in L p (P).
Beweis. Setze<br />
Yn :=<br />
�<br />
�<br />
� n−1<br />
� 1 �<br />
�<br />
�<br />
� Xk − E[X0 |I] �<br />
�n<br />
�<br />
k=0<br />
p<br />
für jedes n ∈ N.<br />
20.3 Beispiele 421<br />
Nach Lemma 20.15 ist (Yn)n∈N gleichgradig integrierbar, und nach dem Birkhoff’schen<br />
Ergodensatz gilt Yn<br />
lim<br />
n→∞<br />
n→∞<br />
−→ 0 fast sicher. Nach Satz 6.25 gilt daher<br />
E[Yn] =0.<br />
Ist τ ergodisch, so ist E[X0 |I]=E[X0]. ✷<br />
20.3 Beispiele<br />
Beispiel 20.17. Sei (X, (Px)x∈E) eine positiv rekurrente, irreduzible Markovkette<br />
auf dem abzählbaren Raum E mit invarianter Verteilung π.Dannistπ({x}) > 0 für<br />
jedes x ∈ E. Setze Pπ = �<br />
x∈E π({x})Px. DannistXstationär auf (Ω,A, Pπ).<br />
Wir schreiben τ für den Shift, also Xn = X0 ◦ τ n .<br />
∞�<br />
Sei nun A ∈ I invariant. Dann ist A ∈ T = σ(Xn,Xn+1,...). Nach der<br />
starken Markoveigenschaft ist daher für jede endliche Stoppzeit σ (mit Fσ die σ-<br />
Algebra der σ-Vergangenheit)<br />
n=1<br />
Pπ[X ∈ A � �Fσ] =PXσ [X ∈ A]. (20.4)<br />
In der Tat ist {X ∈ A} = {X ∈ τ −n (A)} = {(Xn,Xn+1,...) ∈ A}. Für B ∈Fσ<br />
erhalten wir mit der Markoveigenschaft (in der dritten Zeile)<br />
� �<br />
Eπ {X∈B} {X∈A} =<br />
=<br />
=<br />
∞� �<br />
n=0 x∈E<br />
∞� �<br />
n=0 x∈E<br />
∞� �<br />
n=0 x∈E<br />
�<br />
Pπ X ∈ B, σ = n, Xn = x, X ∈ A �<br />
�<br />
Pπ X ∈ B, σ = n, Xn = x, X ◦ τ n ∈ A �<br />
�<br />
Pπ X ∈ B, σ = n, Xn = x � Px[X ∈ A]<br />
�<br />
= Eπ {X∈B} PXσ [X ∈ A]� .<br />
Ist speziell x ∈ E und σx =inf{n ∈ N0 : Xn = x}, soistσx < ∞, weil X<br />
rekurrent und irreduzibel ist. Es folgt aus (20.4) für jedes x ∈ E<br />
Pπ[X ∈ A] =Eπ [Px[X ∈ A]] = Px[X ∈ A].<br />
Also ist PXn [X ∈ A] =Pπ[X ∈ A] fast sicher und daher (mit σ = n in (20.4))
422 20 Ergodentheorie<br />
Pπ[X ∈ A � �X0,...,Xn] =PXn [X ∈ A] =Pπ[X ∈ A].<br />
Nun ist A ∈I⊂σ(X1,X2,...), also<br />
Pπ[X ∈ A � �X0,...,Xn] n→∞<br />
−→ Pπ[X ∈ A � �σ(X0,X1,...)] = {X∈A}.<br />
Damit folgt Pπ[X ∈ A] ∈{0, 1}. Mithin ist X ergodisch.<br />
Der Birkhoff’sche Ergodensatz liefert also für jedes x ∈ E<br />
n−1<br />
1 �<br />
n<br />
k=0<br />
{Xk=x}<br />
n→∞<br />
−→ π({x}) Pπ − f.s.<br />
In diesem Sinne ist π({x}) die mittlere Aufenthaltsdauer von X in x. ✸<br />
Beispiel 20.18. Es seien P und Q W-Maße auf dem Messraum (Ω,A), und es seien<br />
(Ω,A,P,τ) und (Ω,A,Q,τ) ergodisch. dann ist P = Q oder P ⊥ Q. Ist<br />
nämlich P �= Q, dann existiert f mit |f| ≤1 und � fdP �= � fdQ. Nach dem<br />
Birkhoff’schen Ergodensatz gilt aber<br />
⎧ �<br />
n−1<br />
1 �<br />
n<br />
k=0<br />
� n−1<br />
f ◦ τ k n→∞<br />
−→<br />
⎪⎨ fdP P–f.s.,<br />
�<br />
⎪⎩ fdQ Q–f.s.<br />
Setzen wir A := � 1<br />
k n→∞<br />
n k=0 f ◦ τ −→ � fdP � ,soistP (A) =1und Q(A) =0.<br />
Also ist P ⊥ Q. ✸<br />
Übung 20.3.1. Sei (Ω,A) ein Messraum und τ : Ω → Ω eine messbare Abbildung.<br />
(i) Man zeige, dass die Menge M := {μ ∈M1(Ω) : μ ◦ τ −1 = μ} der unter τ<br />
invarianten Maße eine konvexe Menge ist.<br />
(ii) Ein Element μ aus M heißt extremal, wenn aus μ = λμ1 +(1− λ)μ2 für<br />
gewisse μ1,μ2 ∈Mund λ ∈ (0, 1) schon μ = μ1 = μ2 folgt. Man zeige,<br />
dass μ ∈Mgenau dann extremal ist, wenn τ bezüglich μ ergodisch ist. ♣<br />
Übung 20.3.2. Sei p =2, 3, 5, 6, 7, 10,...quadratfrei (das heißt, es gibt keine Zahl<br />
r =2, 3, 4,..., deren Quadrat ein Teiler von p ist) und q ∈{2, 3,...,p− 1}. Für<br />
jedes n ∈ N sei an die führende Ziffer der p-adischen Entwicklung von q n .<br />
Man zeige die folgende Variante des Benford’schen Gesetzes: Für jedes d ∈<br />
{1,...,p− 1} gilt<br />
1<br />
n #�i ≤ n : ai = d � n→∞<br />
−→<br />
log(d +1)−log(d) . ♣<br />
log(p)
20.4 Anwendung: Rekurrenz von Irrfahrten<br />
20.4 Anwendung: Rekurrenz von Irrfahrten 423<br />
Sei (Xn)n∈N ein stationärer Prozess mit Werten in R d . Setze Sn := � n<br />
k=1 Xk für<br />
jedes n ∈ N0. Ferner sei<br />
Rn = � �{S1,...,Sn} � �<br />
die Anzahl der von S bis zur Zeit n besuchten Punkte (der so genannte Range).<br />
Außerdem sei A := {Sn �= 0für jedes n ∈ N} das ” Fluchtereignis“.<br />
Satz 20.19. Es gilt lim<br />
n→∞<br />
1<br />
n Rn = P[A|I] fast sicher.<br />
Beweis. Wir nehmen an, dass X der kanonische Prozess ist auf (Ω,A, P) =<br />
� (R d ) N , B(R d ) ⊗N , P � , und dass τ : Ω → Ω der Shift ist, also Xn = X0 ◦ τ n .<br />
Offenbar ist<br />
Rn =# � k ≤ n : Sl �= Sk für jedes l ∈{k +1,...,n} �<br />
≥ # � k ≤ n : Sl �= Sk für jedes l>k �<br />
=<br />
n�<br />
k=1<br />
A ◦ τ k .<br />
Der Birkhoff’sche Ergodensatz liefert nun<br />
lim inf<br />
n→∞<br />
1<br />
n Rn ≥ P[A|I] f.s. (20.5)<br />
Für die andere Ungleichung betrachte Am = {Sl �= 0für jedes l =1,...,m}.<br />
Dann ist für n ≥ m<br />
Rn ≤ m +# � k ≤ n − m : Sl �= Sk für jedes l ∈{k +1,...,n} �<br />
≤ m +# � k ≤ n − m : Sl �= Sk für jedes l ∈{k +1,...,k+ m} �<br />
n−m �<br />
= m +<br />
k=1<br />
Am ◦ τ k .<br />
Der Ergodensatz liefert wieder<br />
lim sup<br />
n→∞<br />
1<br />
n Rn<br />
�<br />
≤ P[Am<br />
�I] f.s. (20.6)<br />
Wegen Am ↓ A und P[Am<br />
�<br />
�I] n→∞<br />
−→ P[A|I] fast sicher (nach Satz 8.14(viii)) folgt<br />
aus (20.5) und (20.6) die Aussage. ✷
424 20 Ergodentheorie<br />
Satz 20.20. Sei X = (Xn)n∈N � ein stationärer Prozess mit Werten in Z und<br />
E[|X1|] < ∞ sowie E[X1<br />
�I]=0f.s. Sei Sn = X1 + ...+ Xn, n ∈ N. Dann<br />
gilt<br />
P � Sn =0 für unendlich viele n ∈ N � =1.<br />
Speziell ist jede Irrfahrt auf Z mit zentrierten Zuwächsen rekurrent (Satz von<br />
Chung-Fuchs [28]).<br />
Beweis. Setze A = {Sn �= 0für jedes n ∈ N}.<br />
1. Schritt Wir zeigen P[A] =0. (Ist X u.i.v., so ist S eine Markovkette, und<br />
es folgt hieraus direkt die Rekurrenz von 0. Nur für den allgemeinen Fall stationärer<br />
Prozesse X brauchen wir einen weiteren Schritt.) Nach dem Ergodensatz<br />
gilt 1<br />
nSn n→∞ �<br />
−→ E[X1 �I] =0f.s. Es folgt für jedes m ∈ N<br />
�<br />
1<br />
lim sup<br />
n→∞ n max<br />
� �<br />
� �<br />
�Sk�<br />
1<br />
= lim sup<br />
k=1,...,n<br />
n→∞ n max<br />
�<br />
� �<br />
�Sk�<br />
k=m,...,n<br />
Also ist<br />
|Sk|<br />
≤ max<br />
k≥m k<br />
m→∞<br />
−→ 0.<br />
�<br />
1<br />
lim<br />
n→∞ n max<br />
k=1,...,n Sk<br />
� �<br />
1<br />
= lim<br />
n→∞ n min<br />
k=1,...,n Sk<br />
�<br />
=0.<br />
�<br />
Nun ist Rn ≤ 1+<br />
Satz 20.19 ist dann P[A] =0<br />
max<br />
k=1,...,n Sk<br />
� �<br />
−<br />
min<br />
k=1,...,n Sk<br />
�<br />
,also 1<br />
n Rn<br />
n→∞<br />
−→ 0. Nach<br />
2. Schritt Setze σn := inf{m ∈ N : Sm+n = Sn} und Bn := {σn < ∞} für<br />
∞�<br />
n ∈ N0 und B := Bn.<br />
n=0<br />
Wegen {σ0 = ∞} = A ist P[σ0 < ∞] =1. Stationarität impliziert P[σn < ∞] =<br />
1 für jedes n ∈ N0, also P[B] =1.<br />
Setze τ0 =0und iterativ τn+1 = τn + στn für n ∈ N0. Dannistτnder Zeitpunkt<br />
der n-ten Rückkehr von S nach 0.AufBist τn < ∞ für jedes n ∈ N0, also<br />
P � Sn =0 unendlich oft � = P � τn < ∞ für alle n ∈ N � ≥ P[B] =1. ✷<br />
Wenn in Satz 20.20 die Zufallsvariablen Xn nicht ganzzahlig sind, kann man nicht<br />
hoffen, dass Sn =0für irgendein n ∈ N mit positiver Wahrscheinlichkeit gilt. Andererseits<br />
gilt auch hier eine Art Rekurrenzeigenschaft, nämlich Sn/n n→∞<br />
−→ 0 fast<br />
sicher nach dem Ergodensatz. Damit ist allerdings noch nicht ausgeschlossen, dass<br />
n→∞<br />
vielleicht Sn −→ ∞ mit positiver Wahrscheinlichkeit gelten könnte, etwa, wenn
20.4 Anwendung: Rekurrenz von Irrfahrten 425<br />
Sn von der Größenordnung √ n wächst. Der nächste Satz zeigt uns, dass der Partialsummenprozess<br />
nur linear schnell nach ∞ gehen kann, wenn die Xn integrierbar<br />
sind.<br />
Satz 20.21. Sei (Xn)n∈N ein reeller ergodischer Prozess und jedes Xn integrierbar.<br />
Sei Sn = X1 +...+Xn für n ∈ N0. Dann sind die folgenden Aussagen äquivalent.<br />
n→∞<br />
(i) Sn −→ ∞ fast sicher.<br />
�<br />
�<br />
n→∞<br />
(ii) P −→ ∞ > 0.<br />
Sn<br />
Sn<br />
(iii) lim<br />
n→∞ n = E[X1] > 0 fast sicher.<br />
Sind die Zufallsvariablen X1,X2,...u.i.v. mit E[X1] =0und P[X1 =0]< 1, so<br />
gilt lim infn→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher.<br />
Beweis. (i) ⇐⇒ (ii)“ Offenbar ist {Sn<br />
”<br />
also Wahrscheinlichkeit 0 oder 1.<br />
n→∞<br />
−→ ∞} ein invariantes Ereignis, hat<br />
” (iii) =⇒ (i)“ Dies ist trivial.<br />
” (i) =⇒ (iii)“ Die Gleichheit folgt aus dem individuellen Ergodensatz. Es reicht<br />
also zu zeigen, dass lim infn→∞ Sn/n > 0 fast sicher gilt.<br />
Für n ∈ N0 und ε>0 sei<br />
A ε n := � Sm >Sn + ε für alle m ≥ n +1 � .<br />
Sei S− := inf{Sn : n ∈ N0}. Nach Voraussetzung (i) ist S− > −∞ fast sicher<br />
und τ := sup{n ∈ N0 : Sn = S− } fast sicher endlich. Es gibt also ein N ∈ N mit<br />
P[τ 0.<br />
ergodisch. Nach dem individuellen<br />
Da (Xn)n∈N ergodisch ist, ist auch � Aε n n∈N0<br />
Ergodensatz gilt daher 1 �n−1 n i=0 Aε n→∞<br />
n<br />
−→ p fast sicher. Also existiert ein n0 =<br />
n0(ω) mit �n−1 i=0 Aε pn<br />
≥ n 2 für alle n ≥ n0. Es folgt Sn ≥ pnε<br />
2 für n ≥ n0, also<br />
lim infn→∞ Sn/n ≥ pnε<br />
2 > 0.<br />
Der Zusatz folgt, weil lim inf Sn und lim sup Sn keinen endlichen Wert annehmen<br />
können und damit terminal messbar sind, also fast sicher konstant gleich −∞ oder<br />
+∞. Nach dem schon Gezeigten ist aber Sn<br />
n→∞<br />
−→ ∞ ausgeschlossen, also gilt<br />
lim infn→∞ Sn = −∞. Analog folgt lim supn→∞ Sn = ∞. ✷<br />
Bemerkung 20.22. Satz 20.21 gilt auch ohne die Integrierbarkeitsbedingung für die<br />
Xn. Siehe [92]. ✸
426 20 Ergodentheorie<br />
20.5 Mischung<br />
Ergodizität stellt einen relativ schwachen Begriff für Unabhängigkeit“ oder Durch-<br />
” ”<br />
mischung“ dar. Auf dem anderen Ende der Skala steht als stärkster Begriff u.i.v.“.<br />
”<br />
Hier wollen wir dazwischen liegende Mischungsbegriffe betrachten.<br />
Sei im Folgenden stets (Ω,A, P,τ) ein maßerhaltendes dynamisches System und<br />
Xn := X0 ◦ τ n . Wir beginnen mit einer einfachen Betrachtung.<br />
Satz 20.23. (Ω,A, P,τ) ist genau dann ergodisch, wenn für alle A, B ∈Agilt<br />
lim<br />
n→∞<br />
n−1<br />
1 �<br />
n<br />
k=0<br />
Beweis. ” =⇒ “ Sei (Ω,A, P,τ) ergodisch. Setze<br />
Yn := 1<br />
n−1 �<br />
n<br />
k=0<br />
P � A ∩ τ −k (B) � = P[A] P[B]. (20.7)<br />
τ −k (B) = 1<br />
n−1 �<br />
n<br />
k=0<br />
n→∞<br />
B ◦ τ k .<br />
Nach dem Birkhoff’schen Ergodensatz gilt Yn −→ P[B] fast sicher. Also gilt<br />
n→∞<br />
−→ A P[B] fast sicher. Majorisierte Konvergenz liefert<br />
Yn A<br />
n−1<br />
1 �<br />
P<br />
n<br />
� A ∩ τ −k (B) � = E [Yn A] n→∞<br />
−→ E [ A P[B]] = P[A] P[B].<br />
k=0<br />
” ⇐= “ Gelte nun (20.7). Sei A ∈I(invariante σ-Algebra) und B = A. Offenbar<br />
ist A ∩ τ −k (A) =A für jedes k ∈ N0. Also ist nach (20.7)<br />
P[A] = 1<br />
n−1 �<br />
P<br />
n<br />
� A ∩ τ −k (A) � n→∞<br />
−→ P[A] 2 .<br />
k=0<br />
Mithin ist P[A] ∈{0, 1}, also I trivial und damit τ ergodisch. ✷<br />
Wir betrachten jetzt folgende Verschärfung von (20.7).<br />
Definition 20.24. Ein maßerhaltendes dynamisches System (Ω,A, P,τ) heißt mischend,<br />
falls<br />
lim<br />
n→∞ P � A ∩ τ −n (B) � = P[A] P[B] für alle A, B ∈A. (20.8)<br />
Bemerkung 20.25. Gelegentlich wird die Mischungseigenschaft (20.8) auch als<br />
stark mischend bezeichnet. Im Gegensatz dazu heißt (Ω,A, P,τ) schwach mischend,<br />
falls
1<br />
lim<br />
n→∞ n<br />
20.5 Mischung 427<br />
n−1 � � � � �<br />
� −n<br />
P A ∩ τ (B) − P[A] P[B] � =0 für alle A, B ∈A. ✸<br />
i=0<br />
” Stark mischend“ impliziert schwach mischend“ (siehe Übung 20.5.1). Anderer-<br />
”<br />
seits gibt es schwach mischende Systeme, die nicht stark mischend sind (siehe [82]).<br />
Beispiel 20.26. Sei I = N0 oder I = Z und (Xn)n∈I eine u.i.v. Folge mit Werten<br />
im Messraum (E,E), also τ der Shift auf dem Produktraum Ω = EI , P =<br />
(PX0 )⊗I . Seien A, B ∈E⊗I . Zu jedem ε>0 gibt es Ereignisse Aε und Bε , die nur<br />
von endlich vielen Koordinaten abhängen und mit P[A△Aε ]
428 20 Ergodentheorie<br />
Beweis. (i) Dies haben wir schon in Beispiel 20.17 gezeigt.<br />
(ii) Da X irreduzibel ist, ist π({x}) > 0 für jedes x ∈ E nach Satz 17.51.<br />
” =⇒ “ Sei X periodisch mit Periode d ≥ 2. Istn∈ N kein Vielfaches von d, so<br />
ist pn (x, x) =0. Mithin gilt für A = B = {X0 = x}<br />
lim inf<br />
n→∞ Pπ[X0 = x, Xn = x] = lim inf<br />
n→∞ π({x}) pn (x, x)<br />
Also ist X nicht mischend.<br />
=0�= π({x}) 2 = Pπ[X0 = x] 2 .<br />
” ⇐= “ Sei X aperiodisch. Zur Vereinfachung der Notation können wir annehmen,<br />
dass X der kanonische Prozess auf EN0 ist. Seien A, B ⊂ Ω = EN0 messbar.<br />
Zu jedem ε > 0 existiert ein N ∈ N und Ãε ∈ E {0,...,N} , sodass, mit<br />
Aε = Ãε × E {N+1,N+2,...} gilt, dass P[A △ Aε ]
21 Die Brown’sche Bewegung<br />
In Beispiel 14.45 hatten wir einen (kanonischen) Prozess (Xt) t∈[0,∞) hergestellt mit<br />
unabhängigen, stationären, normalverteilten Zuwächsen. Ein solcher Prozess kann<br />
beispielsweise als Modell eines Flimmerteilchens in einer Suspension dienen oder<br />
als Grundlage für Aktienkursmodelle. Jetzt sind wir nicht nur an den Eigenschaften<br />
von X zu einem oder mehreren festen Zeitpunkten interessiert, sondern auch an Eigenschaften,<br />
die den ganzen Pfad t ↦→ Xt betreffen, beispielsweise am Funktional<br />
F (X) :=sup t∈[0,1] Xt. Ist aber F überhaupt eine Zufallsvariable?<br />
Wir werden in diesem Kapitel Stetigkeitseigenschaften von Pfaden stochastischer<br />
Prozesse untersuchen, die die Messbarkeit von interessanten Funktionalen sichern.<br />
Danach konstruieren wir eine Version von X, die stetige Pfade hat, die so genannte<br />
Brown’sche Bewegung. Ohne Übertreibung kann man sagen, dass dies das zentrale<br />
Objekt der <strong>Wahrscheinlichkeitstheorie</strong> ist.<br />
21.1 Stetige Modifikationen<br />
Die Pfade eines kanonischen Prozesses sind natürlich nicht per se stetig, da ja jede<br />
Abbildung als Pfad auftaucht. Es wird also wichtig sein zu entscheiden, welche<br />
Pfade zumindest P-fast sicher keine Rolle spielen.<br />
Definition 21.1 (Modifikation / ununterscheidbare Prozesse). Seien X und Y<br />
stochastische Prozesse auf (Ω,A, P) mit Zeitbereich I und Zustandsraum E.<br />
(i) X und Y heißen Modifikationen oder Versionen voneinander, falls für jedes<br />
t ∈ I gilt<br />
P-fast sicher.<br />
Xt = Yt<br />
(ii) X und Y heißen ununterscheidbar, falls es ein N ∈Agibt mit P[N] =0und<br />
{Xt �= Yt} ⊂N für jedes t ∈ I.<br />
Offenbar ist ” ununterscheidbar“ stärker als ” Modifikation“. Unter gewissen Stetigkeitsannahmen<br />
an die Prozesse fallen die Begriffe allerdings zusammen.
430 21 Die Brown’sche Bewegung<br />
Definition 21.2. Seien (E,d) und (E ′ ,d ′ ) metrische Räume und γ ∈ (0, 1]. Eine<br />
Abbildung ϕ : E → E ′ heißt im Punkte r ∈ E Hölder-stetig der Ordnung γ (kurz:<br />
Hölder-γ-stetig), falls es ein ε>0 und ein C 0 gibt, sodass für alle s, r ∈ E mit d(s, t) 0, und gilt für ein ε>0 und<br />
ein C(ε) < ∞, sowie für alle s, t ∈ I mit |t − s| ≤ε<br />
|f(t) − f(s)| ≤C(ε) |t − s| γ ,<br />
so ist f Hölder-stetig der Ordnung γ mit Konstante C := C(ε) ⌈T/ε⌉ 1−γ .<br />
Beweis. (i) Klar, weil |t − s| γ ≤|t− s| γ′ für alle s, t ∈ I mit |t − s| ≤1.<br />
(ii) Für t ∈ I und ε>0 sei Uε(t) :={s ∈ I : |s − t| 0 und C(t) < ∞ so gewählt, dass<br />
|f(r) − f(s)| ≤C(t) ·|r − s| γ<br />
für alle r, s ∈ Ut := U ε(t)(t).<br />
Zu der offenen Überdeckung U := {Ut, t ∈ I} von I gibt es eine endliche<br />
Teilüberdeckung U ′ = {Ut1 ,...,Utn }.Seiϱ > 0 eine Lebesgue’sche Zahl der<br />
Überdeckung U ′ , das heißt, ϱ>0 ist so gewählt, dass für jedes t ∈ I ein U ∈ U<br />
existiert mit Uϱ(t) ⊂ U. Setze<br />
C := max � C(t1),...,C(tn), 2�f�∞ϱ γ� .
21.1 Stetige Modifikationen 431<br />
Für s, t ∈ I mit |t − s| < ϱ gibt es ein i ∈ {1,...,n} mit s, t ∈ Uti . Nach<br />
Voraussetzung ist |f(t) − f(s)| ≤C(ti) |t − s| γ ≤ C |t − s| γ . Seien nun s, t ∈ I<br />
mit |s − t| ≥ϱ. Dannist<br />
�γ �<br />
|t − s|<br />
|f(t) − f(s)| ≤2�f�∞<br />
ϱ<br />
≤ C |t − s| γ .<br />
Also ist f Hölder-stetig von der Ordnung γ mit Konstante C.<br />
(iii) Sei n = � T<br />
ε<br />
� .Für s, t ∈ I gilt nach Voraussetzung |t−s|<br />
n<br />
≤ ε und daher<br />
|f(t) − f(s)| ≤<br />
n�<br />
�<br />
�<br />
�<br />
�<br />
k=1<br />
f<br />
�<br />
s +(t− s) k<br />
� �<br />
��<br />
k − 1 ���<br />
− f s +(t− s)<br />
n<br />
n<br />
≤ C(ε) n 1−γ |t − s| γ = C |t − s| γ . ✷<br />
Definition 21.4 (Pfadeigenschaften). Sei I ⊂ R und X =(Xt,t ∈ I) ein reellwertiger<br />
stochastischer Prozess auf einem W-Raum (Ω,A, P) mit Werten in einem<br />
metrischen Raum (E,d) sowie γ ∈ (0, 1]. Für jedes ω ∈ Ω nennen wir die Abbildung<br />
I → E, t ↦→ Xt(ω) einen Pfad von X.<br />
Wir sagen, dass X fast sicher stetige Pfade hat, oder kurz, dass X f.s. stetig ist, falls<br />
für fast jedes ω ∈ Ω der Pfad t ↦→ Xt(ω) stetig ist. Analog definieren wir lokal<br />
Hölder-γ-stetige Pfade und so weiter.<br />
Lemma 21.5. Seien X und Y Modifikationen voneinander. Es gelte eine der Bedingungen<br />
(i) I ist abzählbar.<br />
(ii) I ⊂ R ist ein Intervall und X und Y sind fast sicher rechtsstetig.<br />
Dann sind X und Y ununterscheidbar.<br />
Beweis. Setze Nt := {Xt �= Yt} für t ∈ I und ¯ N = �<br />
t∈I Nt. Nach Voraussetzung<br />
gilt P[Nt] =0für jedes t ∈ I. Zu zeigen ist jeweils: Es existiert N ∈Amit ¯ N ⊂ N<br />
und P[N] =0.<br />
(i) Ist I abzählbar, so ist N := ¯ N messbar und P[N] ≤ �<br />
t∈I P[Nt] =0.<br />
(ii) Sei nun I ⊂ R ein Intervall, und seien X und Y fast sicher rechtsstetig. Setze<br />
¯R := {X und Y sind rechtsstetig}<br />
und wähle R ∈Amit R ⊂ ¯ R und P[R] =1. Setze<br />
�<br />
�I<br />
Q ∩ I, falls I rechtsseitig offen ist,<br />
:=<br />
(Q ∩ I) ∪ max I, falls I rechtsseitig abgeschlossen ist,
432 21 Die Brown’sche Bewegung<br />
und � N := �<br />
r∈� I Nr. Nach (i) gilt P[ � N]=0. Weiter gilt für jedes t ∈ I<br />
Nt ∩ R ⊂ �<br />
(Nr ∩ R) ⊂ � N.<br />
Also gilt<br />
¯N ⊂ R c ∪ �<br />
r≥t, r∈ � I<br />
t∈I<br />
Nt ⊂ R c ∪ � N =: N,<br />
und damit P[N] ≤ P[R c ]+P[ � N]=0. ✷<br />
Wir kommen zum Hauptsatz dieses Abschnitts.<br />
Satz 21.6 (Kolmogorov-Chentsov). Sei X =(Xt, t∈ [0, ∞)) ein reellwertiger<br />
Prozess. Für jedes T>0 gebe es Zahlen α, β, C > 0 mit<br />
Dann gelten:<br />
E [|Xt − Xs| α ] ≤ C|t − s| 1+β<br />
für alle s, t ∈ [0,T]. (21.2)<br />
(i) Es existiert eine Modifikation � X =( � Xt, t∈ � [0, ∞)) von X, die lokal Hölderstetige<br />
Pfade hat von jeder Ordnung γ ∈ 0, β<br />
�<br />
α .<br />
�<br />
(ii) Sei γ ∈ 0, β<br />
�<br />
α . Zu jedem ε>0 und T 0 sind dann nach Lemma 21.5 die Prozesse X S und<br />
X T ununterscheidbar auf [0,S∧ T ], also ist<br />
ΩS,T :=<br />
�<br />
es gibt ein t ∈ [0,S∧ T ] mit X T t �= X S t<br />
eine Nullmenge, und damit ist auch Ω∞ := �<br />
S,T ∈N<br />
˜Xt(ω) :=Xt t (ω) für ω ∈ Ω \ Ω∞, und ˜ X ist eine stetige Modifikation von X.<br />
�<br />
ΩS,T eine Nullmenge. Mithin ist<br />
Ohne Beschränkung der Allgemeinheit sei T =1. Wir zeigen, dass X eine auf [0, 1]<br />
stetige Modifikation besitzt. Die Chebyshev’sche Ungleichung liefert für ε>0<br />
also<br />
P [|Xt − Xs| ≥ε] ≤ Cε −α |t − s| 1+β<br />
(21.4)
21.1 Stetige Modifikationen 433<br />
s→t<br />
Xs −→ Xt stochastisch. (21.5)<br />
Die Idee ist, zunächst � X auf den binär rationalen Zahlen zu konstruieren und dann<br />
stetig auf [0, 1] fortzusetzen. Dafür wird (21.5) gebraucht. Speziell ist für γ > 0<br />
sowie n ∈ N und k ∈{1,...,2n }<br />
P �� �<br />
�Xk2−n − X (k−1)2−n� −γn<br />
≥ 2 � ≤ C 2 −n(1+β−αγ) .<br />
Wir setzen<br />
An = An(γ) := � max � |X k2 −n − X (k−1)2 −n|, k∈{1,...,2 n } � ≥ 2 −γn� ,<br />
sowie<br />
∞�<br />
Bn := Am,<br />
m=n<br />
und N := lim sup An =<br />
n→∞<br />
Es folgt dann für jedes n ∈ N<br />
∞�<br />
Bn.<br />
n=1<br />
�<br />
P[An] ≤ P � |Xk2−n − X (k−1)2−n| ≥2 −γn� ≤ C 2 −n(β−αγ) .<br />
2 n<br />
k=1<br />
Wir wählen jetzt ein γ ∈ (0,β/α) und erhalten<br />
P[Bn] ≤<br />
∞�<br />
m=n<br />
P[Am] ≤ C 2−(β−αγ)n<br />
1 − 2 αγ−β<br />
n→∞<br />
−→ 0, (21.6)<br />
also P[N] =0. Sei nun ω ∈ Ω \ N fest und n0 = n0(ω) so, dass ω �∈ ∞�<br />
Also gilt<br />
�<br />
� Xk2 −n(ω) − X (k−1)2 −n(ω) � � < 2 −γn<br />
n=n0<br />
An.<br />
für k ∈{1,...,2 n },n≥ n0. (21.7)<br />
Wir definieren die Mengen endlicher dyadischer Zahlen Dm = {k2 −m ,k =<br />
0,...,2 m } und D = �<br />
Dm. Jedes t ∈ Dm besitzt eine eindeutige Binärdar-<br />
stellung<br />
t =<br />
m∈N<br />
m�<br />
bi(t)2 −i<br />
i=1<br />
für gewisse bi(t) ∈{0, 1}, i=1,...,m.<br />
Seien m ≥ n ≥ n0 sowie s, t ∈ Dm,s≤ t mit |s−t| ≤2−n .Dannistbi(t−s) =0<br />
für i
434 21 Die Brown’sche Bewegung<br />
rn−1 = s, rm = t und rl+1 − rl ≤ 2 −(l+1) für l = n − 1,...,m.<br />
Also ist nach (21.7)<br />
|Xt(ω) − Xs(ω)| ≤<br />
m−1 �<br />
l=n−1<br />
�<br />
� Xrl+1 (ω) − Xrl (ω)� � ≤<br />
m�<br />
l=n<br />
2 −γl ≤ 2−γn<br />
. (21.8)<br />
1 − 2−γ Setze nun C0 =2 γ (1 − 2 −γ ) −1 < ∞. Seien s, t ∈ D mit |s − t| ≤2 −n0 . Indem<br />
wir n ≥ n0 minimal wählen mit |t − s| ≥2 −n , erhalten wir aus (21.8)<br />
|Xt(ω) − Xs(ω)| ≤C0 |t − s| γ . (21.9)<br />
Wie im Beweis von Lemma 21.3(iii) folgt hieraus, dass (mit K := C02 (n+1)(1−γ) )<br />
|Xt(ω) − Xs(ω)| ≤K |t − s| γ<br />
für alle s, t ∈ D. (21.10)<br />
Mit anderen Worten: Auf den binärrationalen Zahlen D ist X(ω) (global) Hölderγ-stetig.<br />
Speziell ist X auf D gleichmäßig stetig, lässt sich also eindeutig stetig auf<br />
[0, 1] fortsetzen: Für t ∈ D setze � Xt := Xt.Für t ∈ [0, 1]\D und {sn, n∈ N} ⊂D<br />
mit sn −→ t ist (Xsn (ω)) n∈N eine Cauchy-Folge. Also existiert der Limes<br />
�Xt(ω) := lim<br />
D∋s→t Xs(ω), (21.11)<br />
und es gilt dann die zu (21.10) analoge Aussage auch für beliebige s, t ∈ [0, 1]<br />
�<br />
�<br />
� � Xt(ω) − � �<br />
�<br />
Xs(ω) � ≤ K |t − s| γ<br />
für alle s, t ∈ [0, 1]. (21.12)<br />
Also ist � X lokal Hölder-stetig von der Ordnung γ. Nach (21.5) und (21.11) gilt<br />
P � Xt �= � �<br />
Xt =0für jedes t ∈ [0, 1]. AlsoistX� eine Modifikation von X.<br />
Um (ii) zu zeigen, sei ε>0, und sei n ∈ N so groß gewählt, dass (siehe (21.6))<br />
P[Bn] ≤ C 2−(β−αγ)n<br />
0 sowie jedes T>0 und gewisses C
21.1 Stetige Modifikationen 435<br />
Übung 21.1.1. Man zeige die Aussage von Bemerkung 21.7. ♣<br />
Übung 21.1.2. Sei X =(Xt)t≥0 ein reellwertiger Prozess mit stetigen Pfaden. Man<br />
zeige, dass für alle 0 ≤ a
436 21 Die Brown’sche Bewegung<br />
21.2 Konstruktion und Pfadeigenschaften<br />
Definition 21.8. Ein reellwertiger stochastischer Prozess B =(Bt, t ∈ [0, ∞))<br />
heißt Brown’sche Bewegung, falls<br />
(i) B0 =0,<br />
(ii) B hat unabhängige, stationäre Zuwächse (vergleiche Definition 9.7),<br />
(iii) Bt ∼N0,t für t>0,<br />
(iv) P-fast sicher gilt: t ↦→ Bt ist stetig.<br />
3<br />
2.5<br />
2<br />
1.5<br />
1<br />
0.5<br />
0<br />
0.5 1 1.5 2<br />
Abb. 21.1. Computersimulation einer Brown’schen Bewegung.<br />
Satz 21.9. Es existiert ein W-Raum (Ω,A, P) und eine Brown’sche Bewegung B<br />
auf (Ω,A, P). Die Pfade von B sind f.s. lokal Hölder-γ-stetig für jedes γ< 1<br />
2 .<br />
Beweis. Wie in Beispiel 14.45 oder Korollar 16.10 gibt es einen stochastischen<br />
D<br />
Prozess X, der (i), (ii) und (iii) erfüllt. Offenbar ist Xt−Xs = √ t − sX1 ∼N0,t−s<br />
für alle t>s≥ 0. Es gilt daher für jedes n ∈ N und Cn := E[X2n n ]= (2n)!<br />
2nn! < ∞<br />
�<br />
E (Xt − Xs) 2n�<br />
��√t �2n<br />
= E − sX1<br />
�<br />
= Cn |t − s| n .<br />
Sei nun n ≥ 2 und γ ∈ (0, n−1<br />
2n ). Satz 21.6 liefert die Existenz einer Version B<br />
von X mit Hölder-γ-stetigen Pfaden. Da alle stetigen Versionen eines Prozesses<br />
äquivalent sind, ist B lokal Hölder-γ-stetig für jedes γ ∈ (0, n−1<br />
2n ) und jedes n ≥ 2,<br />
also für jedes γ ∈ (0, 1<br />
2 ). ✷
21.2 Konstruktion und Pfadeigenschaften 437<br />
Erinnerung: Ein stochastischer Prozess (Xt)t∈I heißt Gauß’scher Prozess, falls für<br />
jedes n ∈ N und alle t1,...,tn ∈ I gilt<br />
(Xt1 ,...,Xtn ) ist n–dimensional normalverteilt.<br />
Wir nennen X zentriert, falls E[Xt] =0für jedes t ∈ I. Die Funktion<br />
heißt Kovarianzfunktion von X.<br />
Γ (s, t) :=Cov[Xs,Xt] für s, t ∈ I,<br />
Bemerkung 21.10. Durch die Kovarianzfunktion sind die endlichdimensionalen<br />
Verteilungen eines zentrierten, Gauß’schen Prozesses eindeutig festgelegt, denn eine<br />
mehrdimensionale Normalverteilung ist durch den Erwartungswertvektor und<br />
Kovarianzmatrix vollständig beschrieben. ✸<br />
Satz 21.11. Für einen stochastischen Prozess X =(Xt) t∈[0,∞) sind äquivalent:<br />
(i) X ist eine Brown’sche Bewegung.<br />
(ii) X ist ein stetiger, zentrierter, Gauß’scher Prozess mit Cov[Xs,Xt] =s ∧ t für<br />
alle s, t ≥ 0.<br />
Beweis. Nach Bemerkung 21.10 ist X durch (ii) eindeutig bestimmt. Es reicht also<br />
zu zeigen, dass Cov[Xs,Xt] =min(s, t) für die Brown’sche Bewegung X gilt.<br />
Dies ist aber richtig, denn für t>ssind Xs und Xt − Xs unabhängig, also ist<br />
Cov[Xs,Xt] =Cov[Xs,Xt − Xs]+ Cov[Xs,Xs] =Var[Xs] =s. ✷<br />
Korollar 21.12 (Skalierungseigenschaft der Brown’schen Bewegung). Ist B eine<br />
Brown’sche Bewegung und K �= 0, dann ist auch (KB K 2 t)t≥0 eine Brown’sche<br />
Bewegung.<br />
Beispiel 21.13. Ein weiteres Beispiel für einen stetigen, Gauß’schen Prozess ist die<br />
Brown’sche Brücke X, die die Kovarianzfunktion Γ (s, t) =s ∧ t − st hat. Wir<br />
konstruieren die Brown’sche Brücke wie folgt: Sei B = (Bt, t ∈ [0, 1]) eine<br />
Brown’sche Bewegung und<br />
Xt := Bt − tB1.<br />
Offenbar ist X ein zentrierter, Gauß’scher Prozess mit stetigen Pfaden. Die Kovarianzfunktion<br />
Γ von X errechnet sich zu<br />
Γ (s, t) =Cov[Xs,Xt] =Cov[Bs − sB1,Bt − tB1]<br />
= Cov[Bs,Bt] − s Cov[B1,Bt] − t Cov[Bs,B1]+st Cov[B1,B1]<br />
=min(s, t) − st − st + st =min(s, t) − st. ✸
438 21 Die Brown’sche Bewegung<br />
Satz 21.14. Sei (Bt)t≥0 eine Brown’sche Bewegung und<br />
�<br />
tB1/t, falls t>0,<br />
Xt =<br />
0, falls t =0.<br />
Dann ist X eine Brown’sche Bewegung.<br />
Beweis. Offenbar ist X ein Gauß’scher Prozess. Für s, t > 0 ist<br />
Cov[Xs,Xt] =ts · Cov[B 1/s,B 1/t] =ts min � s −1 ,t −1� =min(s, t).<br />
Offenbar ist t ↦→ Xt stetig in allen t>0. Für die Stetigkeit in t =0betrachte<br />
lim sup Xt = lim sup<br />
t↓0<br />
t→∞<br />
≤ lim sup<br />
n→∞<br />
1<br />
t Bt<br />
1<br />
n Bn + lim sup<br />
n→∞<br />
1<br />
n sup � Bt − Bn, t∈ [n, n +1] � .<br />
Nach dem Starken Gesetz der großen Zahl ist limn→∞ 1<br />
n Bn =0f.s. Nach einer<br />
Verallgemeinerung des Spiegelungsprinzips (Satz 17.15, siehe auch Satz 21.19) ist<br />
für x>0 (mit der Abkürzung B [a,b] := {Bt : t ∈ [a, b]})<br />
P � sup B [n,n+1] − Bn >x � = P � sup B [0,1] >x � =2P[B1 >x]<br />
= 2<br />
� ∞<br />
√ e<br />
2π x<br />
−u2 /2 1<br />
du ≤<br />
x e−x2 /2<br />
.<br />
∞�<br />
Speziell ist P � sup B [n,n+1] − Bn >n ε� < ∞ für jedes ε>0. Nach dem<br />
n=1<br />
Lemma von Borel-Cantelli (Satz 2.7) ist daher<br />
lim sup<br />
n→∞<br />
1<br />
n sup � Bt − Bn, t∈ [n, n +1] � =0 fast sicher.<br />
Mithin ist X auch in 0 stetig. ✷<br />
Satz 21.15 (Blumenthal’sches 0-1 Gesetz). Sei B eine Brown’sche Bewegung<br />
und F =(Ft)t≥0 = σ(B) die erzeugte Filtration, sowie F + �<br />
0 = t>0 Ft. Dann<br />
ist F + 0 eine P-triviale σ-Algebra.<br />
Beweis. Setze Y n =(B 2 −n +t − B 2 −n) t∈[0,2 −n ], n ∈ N. Dannist(Y n )n∈N eine<br />
unabhängige Familie von Zufallsvariablen (mit Werten in C([0, 2 −n ])). Die termi-<br />
nale σ-Algebra T = �<br />
n∈N σ(Y m ,m≥ n) ist nach dem Kolmogorov’schen 0-1<br />
Gesetz (Satz 2.37) P–trivial. Andererseits ist σ(Y m ,m≥ n) =F 2 −n+1, also ist<br />
F + 0<br />
�<br />
= Ft = �<br />
t>0<br />
n∈N<br />
F 2 −n+1 = T<br />
P–trivial. ✷
21.2 Konstruktion und Pfadeigenschaften 439<br />
Beispiel 21.16. Sei B eine Brown’sche Bewegung. Für jedes K>0 ist<br />
P � inf � t>0: Bt ≥ K √ t � =0 � =1. (21.14)<br />
Um dies einzusehen, setze As := � inf{t >0: Bt ≥ K √ t } 0: Bt ≥ K √ t � �<br />
= 0 = �<br />
As ∈ F + 0 .<br />
Dann ist P[A] ∈{0, 1}. Wegen der Skalierungseigenschaft der Brown’schen Bewegung<br />
ist P[A] =inf<br />
s>0 P[As] ≥ P[B1 ≥ K] > 0 und deshalb P[A] =1. ✸<br />
Das eben untersuchte Beispiel zeigt insbesondere für jedes t ≥ 0, dassBin t fast<br />
sicher nicht Hölder- 1<br />
2-stetig ist. Hier ist Vorsicht mit der Reihenfolge der Quantoren<br />
angebracht: Wir haben nicht gezeigt, dass B fast sicher in keinem t ≥ 0 Hölder-<br />
1<br />
2-stetig wäre (siehe aber Bemerkung 22.4). Wir können allerdings ohne großen<br />
Aufwand den folgenden Satz zeigen, der für den Fall γ =1auf Paley, Wiener und<br />
Zygmund [118] zurückgeht. Der hier vorgestellte Beweis beruht auf einer Idee von<br />
Dvoretzky, Erdös und Kakutani (siehe [39]).<br />
Satz 21.17 (Paley-Wiener-Zygmund (1933)). Für jedes γ> 1<br />
2 sind die Pfade der<br />
Brown’schen Bewegung (Bt)t≥0 fast sicher in keinem Punkte Hölder-stetig der<br />
Ordnung γ. Insbesondere sind die Pfade fast sicher nirgends differenzierbar.<br />
Beweis. Sei γ> 1<br />
2 . Es reicht, B =(Bt) t∈[0,1] zu betrachten. Wir bezeichnen mit<br />
Hγ,t die Menge der in t Hölder-γ-stetigen Abbildungen [0, 1] → R und setzen<br />
Hγ := �<br />
t∈[0,1] Hγ,t. Das Ziel ist zu zeigen, dass fast sicher B �∈ Hγ gilt.<br />
Ist t ∈ [0, 1) und w ∈ Hγ,t, so existiert zu jedem δ>0 ein c = c(δ, w) mit der<br />
Eigenschaft, dass |ws − wt| ≤c |s − t| γ ist für jedes s ∈ [0, 1] mit |s − t| 2<br />
2γ−1 ,soistfür n ∈ N mit n ≥ n0 := ⌈(k +1)/δ⌉,<br />
i = ⌊tn⌋ +1und l ∈{0,...,k− 1} speziell<br />
�<br />
� � � � �<br />
�w(i+l+1)/n − w �<br />
(i+l)/n ≤ �w(i+l+1)/n − wt<br />
� + �w(i+l)/n − wt<br />
� γ −γ<br />
≤ 2c (k +1) n .<br />
Für N ≥ 2c (k +1) γ ist also w ∈ AN,n,i, wobei<br />
AN,n,i :=<br />
k−1 �<br />
l=0<br />
s>0<br />
�<br />
w : � �<br />
�w (i+l+1)/n − w �<br />
(i+l)/n ≤ Nn −γ�<br />
.<br />
Setzen wir AN,n = �n n≥n0 AN,n und A = �∞ N=1 AN ,soist<br />
offenbar Hγ ⊂ A. Nun ist wegen der Unabhängigkeit der Zuwächse, und weil die<br />
Dichte der Standardnormalverteilung nirgends größer als 1 ist<br />
i=1 AN,n,i, AN = �<br />
P[B ∈ AN,n,i] =P � |B 1/n| ≤Nn −γ� k = P � |B1| ≤Nn −γ+1/2� k<br />
≤ N k n k(−γ+1/2) .
440 21 Die Brown’sche Bewegung<br />
Nach Wahl von k und wegen der Stationarität der Zuwächse von B gilt<br />
P � �<br />
B ∈ AN ≤ lim<br />
n→∞ P<br />
�<br />
�<br />
≤ lim sup<br />
n→∞<br />
m≥n<br />
AN,m<br />
�<br />
≤ lim sup<br />
n→∞<br />
n P[B ∈ AN,n,1] ≤ N k lim sup<br />
n→∞<br />
P[AN,n] ≤ lim sup<br />
n→∞<br />
n�<br />
i=1<br />
n 1+k(−γ+1/2) =0<br />
P[AN,n,i]<br />
und damit P[B ∈ A] =0. Mithin ist fast sicher B �∈ Hγ. ✷<br />
Übung 21.2.1. Sei B eine Brown’sche Bewegung und λ das Lebesgue-Maß auf<br />
[0, ∞).<br />
(i) Bestimme Erwartungswert und Varianz von � 1<br />
0 Bs ds.(Für die Messbarkeit des<br />
Integrals siehe Übung 21.1.2.)<br />
(ii) Zeige, dass λ � {t : Bt =0} � =0fast sicher gilt.<br />
(iii) Bestimme Erwartungswert und Varianz von<br />
� 1<br />
0<br />
� � 1<br />
0<br />
� 1<br />
Bt −<br />
0<br />
�2 Bs ds dt. ♣<br />
Übung 21.2.2. Sei B eine Brown’sche Bewegung. Zeige, dass auch (B 2 t −t)t≥0 ein<br />
Martingal ist. ♣<br />
Übung 21.2.3. Sei B eine Brown’sche Bewegung und σ > 0. Zeige, dass auch<br />
� �<br />
exp σBt − σ2<br />
2 t�� ein Martingal ist. ♣<br />
t≥0<br />
Übung 21.2.4. Sei B eine Brown’sche Bewegung und a0} dx.<br />
(iii) Die Verteilung von τb hat die Dichte fb(x) = b<br />
√ 2π e −b2 /(2x) x −3/2 . ♣
21.3 Starke Markoveigenschaft 441<br />
Übung 21.2.6. Sei B eine Brown’sche Bewegung, a ∈ R und b>0 sowie τ =<br />
inf{t ≥ 0: Bt = at + b}. Man zeige für λ ≥ 0<br />
E � e −λτ � �<br />
=exp − ba − b � a2 + λ2 �<br />
und folgere P[τ
442 21 Die Brown’sche Bewegung<br />
Weiter gilt<br />
Fτn ↓Fτ+ :=<br />
= lim<br />
n→∞ Ex<br />
�<br />
σ>τ ist Stoppzeit<br />
Fσ ⊃ Fτ .<br />
Nach (21.16) und (21.17) sowie dem Konvergenzsatz für Rückwärtsmartingale<br />
(Satz 12.14) gilt also im Sinne von L1-Limiten EBτ [F (B)] = lim<br />
n→∞ Ex<br />
� �<br />
F (Bτ n ��<br />
�Fτ<br />
+t)t≥0 n<br />
�<br />
� � ��<br />
F (Bτ+t)t≥0 �Fτ n<br />
� � � �� �<br />
= Ex F (Bτ+t)t≥0<br />
�Fτ+ .<br />
Die linke Seite ist Fτ -messbar. Die Turmeigenschaft der bedingten Erwartung liefert<br />
also (21.15). ✷<br />
Mit Hilfe der starken Markoveigenschaft zeigen wir das Reflexionsprinzip für die<br />
Brown’sche Bewegung.<br />
Satz 21.19 (Reflexionsprinzip für die Brown’sche Bewegung). Für jedes a>0<br />
und T>0 gilt<br />
P � sup � Bt : t ∈ [0,T] � >a � =2P[BT >a] ≤ 2√ T<br />
√ 2π<br />
1<br />
a e−a2 /2T .<br />
Beweis. Wegen der Skalierungseigenschaft der Brown’schen Bewegung (Korollar<br />
21.12) können wir ohne Einschränkung T =1annehmen. Sei τ := inf{t ≥<br />
0: Bt ≥ a}∧1. Aus Symmetriegründen ist Pa[B1−τ >a]= 1<br />
2 , falls τa]=P[B1 >a � �τ
21.3 Starke Markoveigenschaft 443<br />
Beweis. Ohne Einschränkung sei T = 1 und ζ = ζ1. Sei� B eine weitere, unabhängige<br />
Brown’sche Bewegung. Nach dem Reflexionsprinzip gilt<br />
P[ζ ≤ t] =P � Bs �= 0für jedes s ∈ [t, 1] �<br />
=<br />
=<br />
=<br />
� ∞<br />
−∞<br />
� ∞<br />
−∞<br />
� ∞<br />
P0<br />
−∞<br />
P � Bs �= 0für jedes s ∈ [t, 1] � �Bt = a � P[Bt ∈ da]<br />
�<br />
P �Bs<br />
|a| > 0 für jedes s ∈ [0, 1 − t] � P[Bt ∈ da]<br />
� | � B1−t| ≤|a| � P[Bt ∈ da] = P � | � B1−t| ≤|Bt| � .<br />
Sind X, Y unabhängig und N0,1-verteilt, so ist � Bt, � � D= �√ √ �<br />
B1−t tX, 1 − tY .<br />
Es folgt<br />
P[ζ ≤ t] =P �√ 1 − t |Y |≤ √ t |X| �<br />
= P � Y 2 ≤ t(X 2 + Y 2 ) �<br />
= 1<br />
2π<br />
� ∞<br />
−∞<br />
dx<br />
Durch Polarkoordinatentransformation erhalten wir<br />
P[ζ ≤ t] = 1<br />
2π<br />
� ∞<br />
rdre<br />
0<br />
−r2 � 2π<br />
/2<br />
0<br />
� ∞<br />
dy e<br />
−∞<br />
−(x2 +y 2 )/2<br />
{y2≤t(x2 +y2 )}.<br />
dϕ {sin(ϕ) 2≤t} = 2<br />
π arcsin<br />
�√ �<br />
t . ✷<br />
Übung 21.3.1. (Schwierig!) Sei Px die Verteilung der Brown’schen Bewegung mit<br />
Start in x ∈ R. Seia>0 und τ =inf � t ≥ 0:Bt ∈{0,a} � . Man zeige mit Hilfe<br />
des Spiegelungsprinzips, dass für jedes x ∈ (0,a) gilt<br />
P x [τ
444 21 Die Brown’sche Bewegung<br />
21.4 Ergänzung: Feller Prozesse<br />
In vielen Situationen kann man keine stetige Version eines Prozesses erwarten, etwa<br />
beim Poissonprozess, der ja gewissermaßen von seinen Sprüngen lebt. Oft kann<br />
jedoch eine Version mit rechtsstetigen Pfaden, die einen endlichen linksseitigen<br />
Grenzwert besitzen, etabliert werden. Wir wollen hier knapp den Existenzsatz für<br />
solche Prozesse für Feller’sche Halbgruppen plausibel machen.<br />
Definition 21.21. Sei E ein polnischer Raum. Eine Abbildung f :[0, ∞) → E heißt<br />
RCLL (right continuous with left limits) oder càdlàg (continue à droit, limites à<br />
gauche), falls f(t) =f(t+) := lims↓t f(s) für jedes t ≥ 0 und falls der linksseitige<br />
Grenzwert f(t−) := lims↑t f(s) für jedes t>0 existiert und endlich ist.<br />
Bemerkung 21.22. Ist F eine beliebige Filtration und F +,∗<br />
t die Vervollständigung<br />
von F + t ,soerfüllt F +,∗ die üblichen Bedingungen. ✸<br />
Definition 21.23. Eine Filtration F =(Ft)t≥0heißt rechtsstetig, falls F = F + ,<br />
wo F + t = �<br />
s>t Fs. Wir sagen, dass eine Filtration F die üblichen Bedingungen<br />
erfüllt, falls F rechtsstetig ist und F0 jede P-Nullmenge enthält.<br />
Satz 21.24 (Doob’sche Regularisierung). Sei F eine Filtration, die die üblichen<br />
Bedingungen erfüllt, und X =(Xt)t≥0 ein F-Supermartingal mit der Eigenschaft,<br />
dass t ↦→ E[Xt] rechtsstetig ist. Dann gibt es eine Modifikation � X von X mit RCLL<br />
Pfaden.<br />
Beweis. Für a, b ∈ Q + , a < b und I ⊂ [0, ∞) sei U a,b<br />
I die Anzahl der Aufkreuzungen<br />
von (Xt)t∈I über [a, b]. Nach der Aufkreuzungsungleichung (Lemma<br />
11.3) folgt für jedes N > 0 und jede endliche Menge I ⊂ [0,N], dass<br />
E[U a,b<br />
I ] ≤ (E[|XN |] +|a|)/(b − a). Setzen wir U a,b a,b<br />
N = UQ + ∩[0,N] , so folgt<br />
E[U a,b<br />
N ] ≤ (E[|XN |]+|a|)/(b − a). Für λ>0 ist nach Übung 11.1.1<br />
λ P � sup{|Xt| : t ∈ Q + ∩ [0,N]} >λ �<br />
�<br />
= λ sup P � sup{|Xt| : t ∈ I} >λ � : I ⊂ Q + �<br />
∩ [0,N] endlich<br />
≤ 12 E[|X0|]+9E[|XN |].<br />
Betrachte das Ereignis<br />
A := � � �<br />
N∈N<br />
a,b∈Q +<br />
0≤a
21.4 Ergänzung: Feller Prozesse 445<br />
�Xt(ω) := lim<br />
Q + Xs(ω)<br />
∋s↓t, s>t<br />
und ist RCLL. Für ω ∈ Ac setzen wir Xt(ω) =0.DaF die üblichen Bedingungen<br />
erfüllt, ist � X an F adaptiert. Da X ein Supermartingal ist, ist (Xs)s≤N für jedes N<br />
gleichgradig integrierbar. Also gilt (nach Voraussetzung), dass<br />
E[ � Xt] = lim<br />
Q + E[Xs] =E[Xt].<br />
∋s↓t, s>t<br />
Da X ein Supermartingal ist, ist aber für s>t<br />
Xt ≥ E[Xs |Ft] Q+ ∋s↓t, s>t<br />
−→ E[ � Xt |Ft] = � Xt in L 1 .<br />
Folglich ist Xt = � Xt fast sicher, also � X eine Modifikation von X. ✷<br />
Korollar 21.25. Sei (νt)t≥0 eine stetige Faltungshalbgruppe mit � |x|ν1(dx) < ∞.<br />
Dann existiert ein Markov-Prozess X mit unabhängigen, stationären Zuwächsen<br />
PXt−Xs = νt−s für alle t>sund mit RCLL Pfaden.<br />
Sei E ein lokalkompakter, polnischer Raum und C0(E) die Menge der (beschränkten)<br />
stetigen Funktionen, die im Unendlichen verschwinden. Ist κ ein stochastischer<br />
Kern von E nach E und ist f messbar und beschränkt, so schreiben wir κf(x) =<br />
� κ(x, dy) f(y).<br />
Definition 21.26. Eine Markov’sche Halbgruppe (κt)t≥0 auf E heißt Feller’sche<br />
Halbgruppe, falls<br />
f(x) = lim κtf(x) für jedes x ∈ E, f ∈ C0(E)<br />
t→0<br />
und κtf ∈ C0(E) für jedes f ∈ C0(E).<br />
Sei X ein zu (κt)t≥0 gehöriger Markovprozess bezüglich einer Filtration F, die die<br />
üblichen Bedingungen erfüllt.<br />
Sei g ∈ C0(E), g ≥ 0. Setze h = � ∞<br />
e −s κsh = e −s<br />
� ∞<br />
0<br />
0 e−tκtgdt.Dannist � ∞<br />
e −t κsκtgdt=<br />
s<br />
e −t κtgdt≤ h.<br />
Also ist Xg := (e−th(Xt))t≥0 ein F-Supermartingal.<br />
Die Fellereigenschaft und Satz 21.24 sichern nun die Existenz einer RCLL Version<br />
�X g von Xg . Mit etwas mehr Arbeit kann man zeigen, dass mit einer abzählbaren<br />
Menge G ⊂ C0(E) ein Prozess � X durch alle � Xg , g ∈ G, eindeutig festgelegt ist<br />
und eine RCLL Version von X ist. Siehe etwa [139, Kapitel III.7ff].<br />
Wir wollen nun rückblicken, wie wir die starke Markoveigenschaft der Brown’schen<br />
Bewegung in Abschnitt 21.3 hergeleitet hatten. Tatsächlich wurde dort lediglich<br />
die Rechtsstetigkeit der Pfade sowie eine Stetigkeit im Anfangspunkt benötigt, die<br />
genau die Fellereigenschaft ist. Mit etwas Arbeit kann man daher den folgenden<br />
Satz zeigen (siehe etwa [139, Kapitel III.8ff] oder [137, Kapitel III, Theorem 2.7]).
446 21 Die Brown’sche Bewegung<br />
Satz 21.27. Sei (κt)t≥0 eine Feller’sche Halbgruppe auf dem lokalkompakten, polnischen<br />
Raum E. Dann existiert ein starker Markovprozess (Xt)t≥0 mit RCLL Pfaden<br />
und Übergangskernen (κt)t≥0.<br />
Einen solchen Prozess X nennen wir auch einen Feller-Prozess.<br />
Übung 21.4.1 (Doob’sche Ungleichung). Sei X = (Xt)t≥0ein Martingal oder<br />
|Xt|.<br />
nichtnegatives Submartingal mit RCLL Pfaden. Für T ≥ 0 sei |X| ∗ T<br />
Man zeige die Doob’schen Ungleichungen:<br />
(i) Für jedes p ≥ 1 und λ>0 gilt λ p P � |X| ∗ T ≥ λ � ≤ E � |XT | p� .<br />
(ii) Für jedes p>1 gilt E � |XT | p� ≤ E � (|X| ∗ T )p� ≤<br />
� p<br />
p−1<br />
= sup<br />
t∈[0,T ]<br />
� p<br />
E � |XT | p� .<br />
Man zeige durch ein Gegenbeispiel, dass auf die Rechtsstetigkeit von X nicht ohne<br />
Weiteres verzichtet werden kann. ♣<br />
Übung 21.4.2 (Martingalkonvergenzsätze). Sei X ein stochastischer Prozess mit<br />
RCLL Pfaden. Man zeige mit Hilfe der Doob’schen Ungleichung (Übung 21.4.1),<br />
dass die Martingalkonvergenzsätze (f.s. Konvergenz (Satz 11.4), f.s. und L 1 -Konvergenz<br />
für gleichgradig integrierbare Martingale (Satz 11.7) und der L p -Martingalkonvergenzsatz<br />
(Satz 11.10)) sinngemäß für X gelten. ♣<br />
Übung 21.4.3. Sei p ≥ 1 und X1 ,X2 ,X3 ,...p-fach integrierbare Martingale. Für<br />
jedes t ≥ 0 gebe es ein � Xt ∈Lp (P) mit Xn n→∞<br />
t −→ � Xt in Lp .<br />
(i) Zeige: ( � Xt)t≥0 ist ein Martingal.<br />
(ii) Zeige mit Hilfe der Doob’schen Ungleichung: Ist p>1 und sind X 1 ,X 2 ,...<br />
f.s. stetig, so gibt es ein stetiges Martingal X mit den Eigenschaften: X ist eine<br />
Modifikation von � X und Xn t<br />
n→∞<br />
−→ Xt in Lp für jedes t ≥ 0. ♣<br />
Übung 21.4.4. Sei X ein stochastischer Prozess mit Werten in einem polnischen<br />
Raum E mit RCLL Pfaden, und sei F = σ(X) die von X erzeugte Filtration, sowie<br />
F + := (F + t )t≥0 definiert durch F + t = �<br />
s>t Fs. SeiU⊂ E offen und C ⊂ E<br />
abgeschlossen. Für jede Menge A ⊂ E sei τA := inf{t >0: Xt ∈ A}. Man zeige:<br />
(i) τC ist eine F-Stoppzeit (und eine F + -Stoppzeit).<br />
(ii) τU ist eine F + -Stoppzeit, jedoch im Allgemeinen (selbst für stetiges X) keine<br />
F-Stoppzeit. ♣<br />
Übung 21.4.5. Man zeige die Aussage von Bemerkung 21.22 und folgere: Ist F<br />
eine Filtration und B eine Brown’sche Bewegung, die ein F-Martingal ist. Dann ist<br />
B auch ein F +,∗ -Martingal. ♣
21.5 Konstruktion durch L 2 -Approximation<br />
21.5 Konstruktion durch L 2 -Approximation 447<br />
Wir geben eine funktionalanalytische Konstruktion der Brown’schen Bewegung<br />
durch eine L 2 –Approximation an. Der Einfachheit halber betrachten wir als Zeitintervall<br />
[0, 1] statt [0, ∞).<br />
Es sei also H = L2 ([0, 1]) der Hilbertraum der quadratintegrierbaren (bezüglich<br />
des Lebesgue-Maßes λ) Funktionen [0, 1] → R mit Skalarprodukt<br />
�<br />
〈f,g〉 = f(x)g(x) λ(dx)<br />
[0,1]<br />
und Norm �f� = � 〈f,f〉 (vergleiche Kapitel 7.3). Zwei Funktionen f,g ∈ H<br />
werden als gleich angesehen, wenn f = gλ-f.ü. Sei (bn)n∈N eine Orthonormalbasis<br />
(ONB) von H, also 〈bm,bn〉 = {m=n} und<br />
lim<br />
n→∞<br />
�<br />
�<br />
�f −<br />
n� �<br />
�<br />
〈f,bm〉bm�<br />
=0 für jedes f ∈ H.<br />
m=1<br />
Speziell gilt für jedes f ∈ H die Parseval’sche Gleichung<br />
und für f,g ∈ H<br />
�f� 2 =<br />
〈f,g〉 =<br />
∞�<br />
m=1<br />
〈f,bm〉 2<br />
(21.21)<br />
∞�<br />
〈f,bm〉〈g, bm〉. (21.22)<br />
m=1<br />
Betrachte jetzt eine u.i.v. Folge (ξn) n∈N von N0,1-Zufallsvariablen auf einem Wahrscheinlichkeitsraum<br />
(Ω,A, P). Für n ∈ N und t ∈ [0, 1] setze<br />
� �<br />
n�<br />
�<br />
ξmbm(s) λ(ds) =<br />
n�<br />
ξm〈 [0,t],bm〉.<br />
X n t =<br />
[0,t](s)<br />
Offenbar ist für n ≥ m<br />
E � (X m t − X n t ) 2� = E<br />
=<br />
m=1<br />
�� n�<br />
n�<br />
k=m+1<br />
k=m+1<br />
m=1<br />
� �<br />
ξk [0,t],bk<br />
�� �n<br />
� �2 [0,t],bk ≤<br />
∞�<br />
k=m+1<br />
l=m+1<br />
� �2. [0,t],bk<br />
Wegen � ∞<br />
k=1 〈 [0,t],bk〉 2 = � [0,t]� 2 = t
448 21 Die Brown’sche Bewegung<br />
Also ist (X n t ) n∈N eine Cauchy-Folge in L 2 (P) und hat wegen der Vollständigkeit<br />
von L 2 (P) (siehe Satz 7.3) einen L 2 -Grenzwert Xt. Offenbar gilt dann auch für<br />
N ∈ N und 0 ≤ t1,...,tN ≤ 1<br />
lim<br />
n→∞ E<br />
� N�<br />
i=1<br />
� n→∞<br />
k=1<br />
� X n ti − Xti<br />
�<br />
�2 =0.<br />
Speziell gilt also � Xn t1 ,...,Xn tN −→ (Xt1 ,...,XtN ) P-stochastisch.<br />
Offenbar ist � Xn t1 ,...,Xn �<br />
tN Gauß-verteilt und zentriert. Für s, t ∈ [0, 1] gilt<br />
Cov [X n s ,X n ��<br />
n�<br />
� �<br />
t ]=E ξk [0,s],bk<br />
�� �n<br />
� �<br />
ξl [0,t],bl<br />
��<br />
=<br />
=<br />
n�<br />
k,l=1<br />
n�<br />
l=1<br />
E[ξkξl] � �� �<br />
[0,s],bk [0,t],bl<br />
� �� �<br />
[0,s],bk [0,t],bk<br />
k=1<br />
n→∞<br />
−→ � [0,s], [0,t]<br />
� =min(s, t).<br />
Also ist (Xt) t∈[0,1] ein zentrierter, Gauß’scher Prozess mit<br />
Cov[Xs,Xt] =min(s, t). (21.23)<br />
Bis auf die Stetigkeit der Pfade ist X also eine Brown’sche Bewegung. Eine stetige<br />
Version von X liefert jetzt der Satz von Kolmogorov-Chentsov (Satz 21.6). Wir<br />
können X aber auch direkt als stetigen Prozess konstruieren, indem wir die ONB<br />
(bn)n∈N geschickt wählen, beispielsweise die Haar-Funktionen bn,k: Seib0,1 ≡ 1<br />
und für n ∈ N und k =1,...,2 n sei<br />
⎧<br />
2<br />
⎪⎨<br />
bn,k(t) =<br />
⎪⎩<br />
n/2 2k − 2 − 1<br />
, falls ≤ t
X n :=<br />
21.5 Konstruktion durch L 2 -Approximation 449<br />
n� 2 m<br />
�<br />
m=0 k=1<br />
ξm,k Bm,k<br />
und definieren Xt als den L 2 (P)-Limes Xt = L 2 − lim<br />
n→∞ Xn .<br />
Satz 21.28 (Brown’sche Bewegung, L2 –Approximation).<br />
X ist eine Brown’sche Bewegung, und es gilt<br />
�<br />
lim �X n − X � � =0 P–fast sicher. (21.24)<br />
∞<br />
n→∞<br />
Beweis. Da gleichmäßige Limiten stetiger Funktionen wieder stetig sind, folgt aus<br />
(21.24) die Stetigkeit von X und aus (21.23) (zusammen mit Satz 21.11), dass X<br />
eine Brown’sche Bewegung ist. Es reicht also, (21.24) zu zeigen.<br />
Da (C([0, 1]), � · �∞) vollständig ist, reicht es zu zeigen, dass P-fast sicher Xn eine Cauchy-Folge in (C([0, 1]), � · �∞) ist. Man beachte, dass �Bn,k�∞ ≤ 2−n/2 und Bn,kBn,l =0, falls k �= l.Alsoist<br />
�<br />
� n n−1<br />
X − X � � ≤ 2<br />
∞ −n/2 max � |ξn,k|, k=1,...,2 n� .<br />
Mithin ist<br />
�<br />
P �X n − X n−1 �∞ > 2 −n/4�<br />
≤<br />
�<br />
2 n<br />
k=1<br />
n 2<br />
=2 √<br />
2π<br />
≤ 2 n+1 exp<br />
�<br />
P |ξn,k| > 2 n/4�<br />
� ∞<br />
2n/4 e −x2 /2<br />
dx<br />
�<br />
−2 (n/2)−1�<br />
.<br />
Offenbar ist ∞�<br />
P[�Xn − Xn−1�∞ > 2−n/4 ] < ∞, also nach dem Lemma von<br />
n=1<br />
Borel-Cantelli<br />
���X n n−1<br />
P − X � � > 2<br />
∞ −n/4<br />
�<br />
höchstens endlich oft =1.<br />
Es folgt lim<br />
n→∞ sup �X<br />
m≥n<br />
m − Xn�∞ =0 P–fast sicher. ✷<br />
Beispiel 21.29 (Stochastisches Integral). Wir nehmen an, dass (ξn)n∈N eine u.i.v.<br />
Folge von N0,1 verteilten Zufallsvariablen ist, sowie (bn)n∈N eine Orthonormal-<br />
basis von L2 �n ([0, 1]), sodass Wt := limn→∞ k=1 〈 [0,t],bk〉, t ∈ [0, 1], eine<br />
Brown’sche Bewegung ist. Für f ∈ L2 ([0, 1]) definieren wir<br />
∞�<br />
I(f) := ξn〈f,bn〉.<br />
n=1
450 21 Die Brown’sche Bewegung<br />
Nach der Parseval’schen Gleichung und der Bienaymé Formel ist<br />
also gilt:<br />
Wir nennen<br />
�f� 2 2 =<br />
∞�<br />
〈f,bn〉 2 = Var � I(f) � = E � I 2� ,<br />
n=1<br />
I : L 2 ([0, 1]) → L 2 (P), f ↦→ I(f) ist eine Isometrie. (21.25)<br />
� t<br />
0<br />
f(s) dWs := I � � 2<br />
f [0,t] , t ∈ [0, 1], f∈ L ([0, 1]),<br />
das stochastische Integral von f bezüglich W . Durch Xt := � t<br />
0 f(s) dWs wird ein<br />
stetiger, zentrierter, Gauß’scher Prozess definiert mit Kovarianzfunktion<br />
Cov[Xs,Xt] =<br />
� s∧t<br />
0<br />
f 2 (u) du.<br />
In der Tat ist klar, dass X zentriert und Gauß’sch ist (als Limes von Gauß’schen<br />
Partialsummenprozessen) mit der angegebenen Kovarianzfunktion. Ferner folgt<br />
die Stetigkeit wie für die Brown’sche Bewegung mit den vierten Momenten der<br />
Zuwächse, die wir bei normalverteilten Zufallsvariablen aus den Varianzen berechnen<br />
können (vergleiche Satz 21.9).<br />
In dem Spezialfall f = �n i=1 αi (ti−1,ti] für gewisses n ∈ N und 0=t0
21.6 Der Raum C([0, ∞)) 451<br />
Übung 21.5.3. Sei d ∈ N. Man zeige mit Hilfe einer geeigneten Orthonormalbasis<br />
auf [0, 1] d :<br />
(i) Es gibt einen Gauß’schen Prozess (Wt) t∈[0,1] d mit Kovarianzfunktion<br />
Cov[Wt,Ws] =<br />
d�<br />
i=1<br />
� �<br />
ti ∧ si .<br />
(ii) Es existiert eine Modifikation von W , sodass t ↦→ W fast sicher stetig ist (siehe<br />
Bemerkung 21.7).<br />
Ein Prozess W mit den Eigenschaften (i) und (ii) heißt Brown’sches Blatt. ♣<br />
21.6 Der Raum C([0, ∞))<br />
Sind Funktionale, die vom ganzen Pfad der Brown’schen Bewegung abhängen,<br />
messbar? Ist beispielsweise sup{Xt, t∈ [0, 1])} messbar? Für allgemeine stochastische<br />
Prozesse ist dies sicherlich falsch, weil das Supremum von mehr als abzählbar<br />
vielen Koordinaten abhängt. Für Prozesse mit stetigen Pfaden ist dies jedoch richtig,<br />
wie wir in diesem Abschnitt in allgemeinem Rahmen zeigen werden.<br />
Es liegt nahe, dass man die Brown’sche Bewegung als kanonischen Prozess auf dem<br />
Raum Ω := C([0, ∞)) der stetigen Pfade begreift.<br />
Wir sammeln zunächst ein paar Eigenschaften von Ω = C([0, ∞)) ⊂ R [0,∞) .Wir<br />
definieren die Auswertungsabbildung<br />
Xt : Ω → R, ω ↦→ ω(t), (21.26)<br />
also die Einschränkung der kanonischen Projektion R [0,∞) → R auf Ω.<br />
Für f,g ∈ C � [0, ∞) � �<br />
�<br />
und n ∈ N sei dn(f,g) := �(f − g) � �<br />
�<br />
� ∧ 1 und<br />
[0,n]<br />
d(f,g) =<br />
� ∞<br />
∞�<br />
2 −n dn(f,g). (21.27)<br />
n=1<br />
Satz 21.30. d ist eine vollständige Metrik auf Ω := C � [0, ∞) � , die die Topologie<br />
der gleichmäßigen Konvergenz auf kompakten Mengen erzeugt. Der Raum (Ω,d)<br />
ist separabel, also polnisch.<br />
Beweis. Offenbar ist jedes dn eine vollständige Metrik auf (C([0,n]), � · �∞)).Zu<br />
jeder Cauchy-Folge (fN ) in (Ω,d) und jedem n ∈ N existiert daher ein gn ∈ Ω<br />
mit dn(fN ,gn) N→∞<br />
−→ 0. Offenbar ist gn(x) =gm(x) für jedes x ≤ m ∧ n, also
452 21 Die Brown’sche Bewegung<br />
existiert ein g ∈ Ω mit g(x) =gn(x) für jedes x ≤ n für jedes n ∈ N. Offenbar gilt<br />
dann d(fN ,g) N→∞<br />
−→ 0, also ist d vollständig.<br />
Die Menge der Polynome mit rationalen Koeffizienten ist abzählbar und nach dem<br />
Satz von Weierstraß dicht in jedem (C([0,n]), � · �∞)) also dicht in (Ω,d). ✷<br />
Satz 21.31. Bezüglich der Borel’schen σ-Algebra B(Ω,d) sind die kanonischen<br />
Projektionen Xt, t ∈ [0, ∞) messbar. Andererseits erzeugen die Xt schon B(Ω,d).<br />
Es gilt also<br />
(B(R)) ⊗[0,∞)� �Ω<br />
= σ � Xt, t∈ [0, ∞) � = B(Ω,d).<br />
Beweis. Die erste Gleichung gilt per definitionem. Für die zweite betrachten wir<br />
die gegenseitigen Inklusionen.<br />
” ⊂“ Offenbar ist jedes Xt : Ω −→ R stetig, also (B(Ω,d)–B(R)) messbar.<br />
Mithin ist σ � Xt, t∈ [0, ∞) � ⊂B(Ω,d).<br />
” ⊃“ Wir zeigen, dass für jedes ω ∈ Ω und für jedes ε ∈ (0, 1) die ε-Umgebung<br />
Uε(ω) = � ω ′ ∈ Ω : d(ω, ω ′ )
21.7 Konvergenz von W-Maßen auf C([0, ∞)) 453<br />
Definition 21.33. Sei P das W-Maß auf Ω = C([0, ∞)), bezüglich dessen der<br />
kanonische Prozess X eine Brown’sche Bewegung ist. Dann heißt P Wiener-Maß.<br />
Das Tripel (Ω,A, P) heißt Wiener-Raum, und X heißt kanonische Brown’sche<br />
Bewegung oder Wiener-Prozess.<br />
Bemerkung 21.34. Manchmal soll eine Brown’sche Bewegung nicht in X0 =0<br />
starten, sondern in einem beliebigen Punkt x.MitPx bezeichnen wir dann dasjenige<br />
Maß auf C([0, ∞)),für das � X =(Xt − x, t ∈ [0, ∞)) eine Brown’sche Bewegung<br />
(mit � X0 =0)ist. ✸<br />
Übung 21.6.1. Man zeige: Die Abbildung F∞ : Ω → [0, ∞], ω ↦→ sup{ω(t) :t ∈<br />
[0, ∞)} ist A-messbar. ♣<br />
21.7 Konvergenz von W-Maßen auf C([0, ∞))<br />
Seien X und (X n )n∈N Zufallsvariablen mit Werten in C([0, ∞)), also stetige stochastische<br />
Prozesse, mit Verteilungen PX und (PX n)n∈N.<br />
Definition 21.35. Wir sagen, dass die endlichdimensionalen Verteilungen (finite dimensional<br />
distributions) von (X n ) gegen die von X konvergieren, falls für jedes<br />
k ∈ N und t1,...,tk ∈ [0, ∞) gilt<br />
n n→∞<br />
Wir schreiben dann X =⇒<br />
fdd<br />
Lemma 21.36. Aus Pn n→∞<br />
−→<br />
fdd<br />
(X n t1 ,...,Xn n→∞<br />
tk ) =⇒ (Xt1 ,...,Xtk ).<br />
n→∞<br />
X oder PXn −→<br />
fdd<br />
P und Pn n→∞<br />
−→<br />
fdd<br />
PX.<br />
Q folgt P = Q.<br />
Beweis. Nach Satz 14.12(iii) legen die endlichdimensionalen Verteilungen P eindeutig<br />
fest. ✷<br />
Satz 21.37. Schwache Konvergenz in M1(Ω,d) impliziert fdd-Konvergenz:<br />
Pn<br />
n→∞<br />
−→ P =⇒ Pn n→∞<br />
−→<br />
fdd<br />
Beweis. Sei k ∈ N und t1,...,tk ∈ [0, ∞). Die Abbildung<br />
ϕ : C([0, ∞)) → R k , ω ↦→ (ω(t1),...,ω(tk))<br />
ist stetig. Nach dem Continuous Mapping Theorem (Satz 13.25 auf Seite 245) gilt<br />
−1 n→∞<br />
Pn ◦ ϕ −→ P ◦ ϕ−1 , also Pn n→∞<br />
−→ P . ✷<br />
fdd<br />
P.
454 21 Die Brown’sche Bewegung<br />
Die Umkehrung des Satzes ist nicht richtig. Es gilt aber Folgendes.<br />
Satz 21.38. Seien (Pn)n∈N und P W-Maße auf C([0, ∞)). Dann sind äquivalent:<br />
(i) Pn n→∞<br />
−→<br />
fdd<br />
P und (Pn)n∈N ist straff.<br />
(ii) Pn<br />
n→∞<br />
−→ P schwach.<br />
Beweis. ” (ii) =⇒ (i)“ Dies folgt direkt aus dem Satz von Prohorov (Satz 13.29<br />
mit E = C([0, ∞))).<br />
” (i) =⇒ (ii)“ Nach dem Satz von Prohorov ist (Pn)n∈N relativ folgenkompakt.<br />
Sei Q ein Limespunkt von (Pnk )k∈N entlang einer Teilfolge (nk). Dann gilt<br />
fdd<br />
−→ Q, k →∞. Nach Lemma 21.36 ist P = Q. ✷<br />
Pnk<br />
Als nächstes wollen wir uns ein nützliches Kriterium für Straffheit von Mengen<br />
{Pn} ⊂M1(C([0, ∞))) verschaffen. Wir beginnen mit einer Wiederholung der<br />
Charakterisierung von Relativkompaktheit in C([0, ∞)) von Arzelà und Ascoli (siehe<br />
etwa [156, Satz II.3.4]).<br />
Für N,δ > 0 und ω ∈ C([0, ∞)) setze<br />
V N (ω, δ) :=sup � |ω(t) − ω(s)| : |t − s| ≤δ, s, t ≤ N � .<br />
Satz 21.39 (Arzelà-Ascoli). Eine Menge A ⊂ C([0, ∞)) ist genau dann relativ<br />
kompakt, wenn die beiden folgenden Bedingungen gelten.<br />
(i) {ω(0), ω∈ A} ⊂R ist beschränkt.<br />
(ii) Für jedes N gilt lim sup V<br />
δ↓0 N (ω, δ) =0.<br />
ω∈A<br />
Satz 21.40. Eine Familie (Pi, i∈ I) von W-Maßen auf C([0, ∞)) ist genau dann<br />
schwach relativkompakt, wenn die beiden folgenden Bedingungen gelten.<br />
(i) (Pi ◦ X −1<br />
0 ,i∈ I) ist straff, das heißt, für jedes ε>0 gibt es ein K > 0,<br />
sodass<br />
Pi({ω : |ω(0)| >K}) ≤ ε für jedes i ∈ I. (21.28)<br />
(ii) Für alle η, ε > 0 und N ∈ N gibt es ein δ>0, sodass<br />
Pi({ω : V N (ω, δ) >η}) ≤ ε für jedes i ∈ I. (21.29)<br />
Beweis. ” =⇒ “ Nach dem Satz von Prohorov (Satz 13.29) folgt aus der schwachen<br />
Relativkompaktheit von (Pi, i∈ I) die Straffheit dieser Familie. Zu jedem<br />
ε>0 gibt es daher eine kompakte Menge A ⊂ C([0, ∞)) mit Pi(A) > 1 − ε
21.7 Konvergenz von W-Maßen auf C([0, ∞)) 455<br />
für jedes i ∈ I. Aus der Charakterisierung der Kompaktheit von A im Satz von<br />
Arzelà-Ascoli folgen nun (i) und (ii).<br />
” ⇐= “ Wir nehmen jetzt an, dass (i) und (ii) gelten. Seien also für ε>0 und<br />
k, N ∈ N die Zahlen Kε und δN,k,ε so gewählt, dass<br />
�<br />
sup Pi {ω : |ω(0)| >Kε}<br />
i∈I<br />
� ≤ ε<br />
2<br />
und<br />
Setze<br />
CN,ε =<br />
��<br />
sup Pi ω : V<br />
i∈I<br />
N (ω, δN,k,ε) > 1<br />
��<br />
≤ 2<br />
k<br />
−N−k−1 ε.<br />
�<br />
ω : |ω(0)| ≤Kε, V N (ω, δN,k,ε) ≤ 1<br />
k<br />
�<br />
für jedes k ∈ N .<br />
Nach dem Satz von Arzelà-Ascoli ist Cε := �<br />
N∈N CN,ε in C([0, ∞)) relativ kompakt,<br />
und wir haben<br />
Pi(C c ε) ≤ ε<br />
2 +<br />
∞�<br />
k,N=1<br />
�� N<br />
Pi ω : V (ω, δN,k,ε) > 1/k �� ≤ ε für jedes i ∈ I.<br />
Es folgt die Aussage. ✷<br />
Korollar 21.41. Sind (Xi, i ∈ I) und (Yi, i ∈ I) Familien von Zufallsvariablen<br />
in C([0, ∞)), und sind (PXi ,i ∈ I) und (PYi ,i ∈ I) straff, dann ist auch<br />
,i∈ I) straff.<br />
(PXi+Yi<br />
Beweis. Wende die Dreiecksungleichung an, um im vorigen Satz (i) und (ii) nachzuweisen.<br />
✷<br />
Ein wichtiges Hilfsmittel, um schwache Relativkompaktheit nachzuweisen, ist das<br />
folgende.<br />
Satz 21.42 (Kolmogorov’sches Kriterium für schwache Relativkompaktheit).<br />
Sei (X i ,i∈ I) eine Folge von stetigen stochastischen Prozessen. Es gelte:<br />
(i) Die Familie (P[Xi 0 ∈ · ], i∈ I) der Startverteilungen ist straff.<br />
(ii) Es gibt Zahlen C, α, β > 0, sodass für alle s, t ∈ [0, ∞) und jedes i ∈ I gilt<br />
E � |X i s − X i t| α� ≤ C |s − t| β+1 .<br />
Dann ist die Familie (P X i,i∈ I) =(L[X i ],i∈ I) von Verteilungen der X i<br />
schwach relativkompakt in M1(C([0, ∞))).
456 21 Die Brown’sche Bewegung<br />
Beweis. Wir prüfen die Bedingungen von Satz 21.40. Die erste Bedingung aus<br />
Satz 21.40 ist genau (i).<br />
Nach dem Satz von Kolmogorov-Chentsov (Satz 21.6(ii)) gibt es zu γ ∈ (0,β/α)<br />
und ε>0 sowie N>0 eine Konstante K, sodass für jedes i ∈ I gilt<br />
P � |X i t − X i s|≤K |t − s| γ für alle s, t ∈ [0,N] � ≥ 1 − ε.<br />
Offenbar impliziert dies (21.29) mit δ =(η/K) 1/γ . ✷<br />
21.8 Satz von Donsker<br />
Seien Y1,Y2,... u.i.v. Zufallsvariablen mit E[Y1] =0und Var[Y1] =σ2 > 0. Für<br />
t>0 sei Sn t = �⌊nt⌋ i=1 Yi und � Sn t = 1 √ S<br />
σ2n n t . Nach dem zentralen Grenzwertsatz<br />
gilt L[ � Sn t ] n→∞<br />
−→ N0,t. Bezeichnet B =(Bt, t≥ 0) eine Brown’sche Bewegung,<br />
so gilt also<br />
L[ � S n t ] n→∞<br />
−→ L[Bt] für jedes t>0.<br />
Nach dem mehrdimensionalen Zentralen Grenzwertsatz (Satz 15.56) gilt nun auch<br />
(für N ∈ N und t1,...,tN ∈ [0, ∞))<br />
L[( � S n t1 ,..., � S n n→∞<br />
tN )] −→ L[(Bt1 ,...,BtN )] (21.30)<br />
Wir definieren jetzt ¯ S n wie � S n , aber linear interpoliert<br />
Dann gilt für ε>0<br />
P �� � � S n t − ¯ S n t<br />
¯S n t = 1<br />
√ σ 2 n<br />
⌊nt⌋<br />
�<br />
i=1<br />
Yi +<br />
�<br />
� >ε � ≤ ε −2 E � ( � S n t − ¯ S n t ) 2� ≤ 1<br />
ε 2 n<br />
(tn −⌊tn⌋)<br />
√ Y⌊nt⌋+1. (21.31)<br />
σ2n 1 2<br />
E[Y<br />
σ2 1 ]= 1<br />
ε2n n→∞<br />
−→ 0.<br />
Nach dem Satz von Slutzky (Satz 13.18) gilt daher die Konvergenz der endlichdimensionalen<br />
Verteilungen gegen das Wiener-Maß PW :<br />
P ¯ S n<br />
n→∞<br />
=⇒<br />
fdd<br />
PW . (21.32)<br />
Wir wollen diese Konvergenzaussage verstärken zur schwachen Konvergenz der W-<br />
Maße auf C([0, ∞)). Dazu formulieren wir als Hauptsatz dieses Abschnitts den<br />
Funktionalen Zentralen Grenzwertsatz, der in dieser Allgemeinheit auf Donsker<br />
[35] zurückgeht. Sätze von diesem Typ werden auch Invarianzprinzipien genannt,<br />
weil die Grenzverteilung die selbe ist für alle Verteilungen von Yi mit Erwartungswert<br />
0 und selber Varianz.
21.8 Satz von Donsker 457<br />
Satz 21.43 (Donsker’sches Invarianzprinzip). Im Sinne der schwachen Konvergenz<br />
auf C([0, ∞)) konvergieren die Verteilungen von ¯ S n gegen das Wiener-Maß<br />
L[ ¯ S n ] n→∞<br />
−→ PW . (21.33)<br />
Beweis. Wegen (21.32) und Satz 21.38 reicht es zu zeigen, dass (L[ ¯ Sn], n∈ N)<br />
straff ist. Dafür möchten wir das Kolmogorov’sche Momentenkriterium anwenden.<br />
Wie wir schon beim Beweis der Existenz der Brown’schen Bewegung gesehen haben,<br />
reichen hierfür aber zweite Momente nicht aus, sondern wir benötigen vierte<br />
Momente, damit wir β>0 wählen können. Die Strategie ist also, zunächst die Yi<br />
abzuschneiden, um vierte Momente zu erhalten, und dann für den abgeschnittenen<br />
Teil und den Hauptteil separat Straffheit zu zeigen.<br />
Für K>0 definieren wir<br />
Y K<br />
i := Yi {|Yi|≤K/2} −E[Yi {|Yi|≤K/2}] und Z K i := Yi −Y K<br />
i<br />
für i ∈ N.<br />
Dann gilt E[Y K<br />
i ]=E[ZK i ]=0sowie Var[ZK K→∞<br />
i ] −→ 0 und Var[Y K<br />
i ] ≤ σ2 ,<br />
i ∈ N. Außerdem ist offenbar |Y K<br />
i |≤K für jedes i. Setze<br />
Es seien ¯ T K,n<br />
t<br />
n�<br />
T K n :=<br />
i=1<br />
n�<br />
Y K<br />
i und U K n :=<br />
i=1<br />
Z K i<br />
K,n<br />
und Ūt die linearen Interpolationen von<br />
�T K,n<br />
t := 1<br />
√ σ 2 n T K,n<br />
⌊nt⌋ und � U K,n<br />
t := 1<br />
√ σ 2 n U K,n<br />
⌊nt⌋<br />
für n ∈ N.<br />
für t ≥ 0.<br />
Offenbar ist ¯ Sn = ¯ T K,n + Ū K,n . Nach Korollar 21.41 reicht es zu zeigen,<br />
dass für eine noch zu wählende Folge (Kn)n∈N gilt: (L[ Ū Kn,n ],n ∈ N) und<br />
(L[ ¯ T Kn,n ],n∈ N) sind straff.<br />
Wir betrachten zunächst den Restterm. U K ist ein Martingal. Die Doob’sche Ungleichung<br />
(Satz 11.2) liefert<br />
�<br />
�<br />
P<br />
sup |U<br />
l=1,...,n<br />
K l | >ε √ n<br />
≤ ε −2 Var � Z K� 1<br />
für jedes ε>0.<br />
Gilt jetzt Kn ↑∞, n →∞, so haben wir für jedes N>0<br />
�<br />
�<br />
P sup �Ū<br />
t∈[0,N]<br />
Kn,n<br />
�<br />
�<br />
�<br />
t >ε ≤ N<br />
ε2 Var�Z Kn�<br />
n→∞<br />
1 −→ 0,<br />
Kn,n n→∞<br />
also Ū =⇒ 0 in C([0, ∞)). Speziell ist (L[ Ū Kn,n ],n∈ N) straff.
458 21 Die Brown’sche Bewegung<br />
Wir berechnen nun für N>0 und s, t ∈ [0,N] die vierten Momente der Differenzen<br />
¯ T Kn,n<br />
t+s − ¯ T Kn,n<br />
s des Hauptteils. Im Folgenden setzen wir Kn = n1/4 . Sei nun<br />
n ∈ N fest gewählt. Wir unterscheiden zwei Fälle.<br />
Fall 1: t
E � ( ¯ T Kn,n<br />
t+s − ¯ T Kn,n<br />
s<br />
) 4� ≤ n −2 σ −4 E � (T Kn<br />
Kn<br />
⌈(t+s)n⌉ − T⌊sn⌋ )4�<br />
= n −2 σ −4 E � (T Kn<br />
⌈(t+s)n⌉−⌊sn⌋ )4�<br />
≤ 3tnK2 n<br />
n 2 σ 2 +3t2 = 3<br />
≤ 3<br />
σ 2 t3/2 +3t 2 ≤<br />
21.8 Satz von Donsker 459<br />
σ 2 tn−1/2 +3t 2<br />
�<br />
3<br />
σ2 +3√ �<br />
N t 3/2 .<br />
(21.36)<br />
Nach (21.34) und (21.36) gibt es also zu jedem N > 0 eine Konstante C =<br />
C(N,σ 2 ), sodass für jedes n ∈ N und alle s, t ∈ [0,N] gilt<br />
E � ( ¯ T Kn,n<br />
t+s − ¯ T Kn,n<br />
s<br />
) 4� ≤ Ct 3/2 .<br />
Nach dem Kolmogorov’schen Momentenkriterium (Satz 21.42 mit α =4und β =<br />
1/2) ist also (L[ ¯ T Kn,n ],n∈ N) straff in M1(C([0, ∞))). ✷<br />
Übung 21.8.1. Seien X1,X2,... u.i.v. Zufallsvariablen mit stetiger Verteilungsfunktion<br />
F .EsseiGn :[0, 1] → [−1, 1], t ↦→ n−1/2 �n �<br />
i=1 [0,t](F (Xi)) − t � und<br />
Mn := �Gn�∞. Ferner sei M =supt∈[0,1] |Bt|,woB eine Brown’sche Brücke ist.<br />
(i) Man zeige E[Gn(t)] = 0 und Cov[Gn(s),Gn(t)] = s∧t−st für s, t ∈ [0, 1].<br />
(ii) Man zeige E[(Gn(t) − Gn(s)) 4 ] ≤ C � (t − s) 2 + |t − s|/n � für ein C>0.<br />
(iii) Man folgere, dass eine geeignete stetige Version von Gn schwach gegen B<br />
konvergiert. Beispielsweise kann Hn(t) =n−1/2 �n �<br />
i=1 hn(F (Xi) − t) − t �<br />
genommen werden, wo hn(s) =1− (s/εn ∨ 0) ∧ 1 für eine geeignete Folge<br />
εn ↓ 0.<br />
n→∞<br />
(iv) Man zeige schließlich Mn =⇒ M.<br />
Bemerkung: Die Verteilung von M lässt sich durch die Formel von Kolmogorov-<br />
Smirnov ([97] und [146]) ausdrücken (siehe etwa [125]):<br />
∞�<br />
P[M >x]=2 (−1) n−1 e −2n2x 2<br />
. (21.37)<br />
n=1<br />
Vergleiche hierzu auch (21.20). Mit Hilfe der Statistik Mn können Zufallsvariablen<br />
bei bekannter Verteilung auf Unabhängigkeit getestet werden. Seien X1,X2,...<br />
und ˜ X1, ˜ X2,... unabhängige Zufallsvariablen mit unbekannten, stetigen Verteilungsfunktionen<br />
F und ˜ F und empirischen Verteilungsfunktionen Fn und ˜ F . Ferner<br />
sei<br />
Dn := sup |Fn(t) −<br />
t∈R<br />
˜ Fn(t)|.<br />
Unter der Annahme, dass F = ˜ F gilt, konvergiert � n/2 Dn in Verteilung gegen<br />
M. Diese Tatsache ist Grundlage von nichtparametrischen Tests auf Verteilungsgleichheit.<br />
♣
460 21 Die Brown’sche Bewegung<br />
21.9 Pfadweise Konvergenz von Verzweigungsprozessen ∗<br />
In diesem Abschnitt untersuchen wir die Konvergenz reskalierter Galton-Watson-<br />
Prozesse (Verzweigungsprozesse). Ähnlich wie für Summen unabhängiger Zufallsvariablen<br />
zeigen wir zunächst die Konvergenz zu einem festen Zeitpunkt gegen die<br />
Verteilungen eines Grenzprozesses. Hernach zeigen wir Konvergenz der endlichdimensionalen<br />
Verteilungen und schließlich mit Hilfe des Kolmogorov’schen Straffheitskriteriums<br />
die Konvergenz im Pfadraum C([0, ∞)).<br />
Wir betrachten einen Galton-Watson-Prozess (Zn)n∈N0 mit geometrischer Nachkommenverteilung<br />
p(k) =2 −k−1<br />
für k ∈ N0.<br />
Das heißt, wir betrachten u.i.v. Zufallsvariablen Xn,i, n, i ∈ N0 auf N0 mit<br />
P[Xn,i = k] =p(k), k ∈ N0 und definieren, ausgehend vom Startzustand Z0,<br />
rekursiv<br />
Zn �<br />
Zn+1 = Xn,i.<br />
i=1<br />
Z ist also eine Markovkette mit Übergangswahrscheinlichkeiten p(i, j) =p∗i (j),<br />
wobei p∗i die i-te Faltungspotenz von p ist. Mit anderen Worten: Sind Z, Z1 ,...,Zi unabhängige Kopien des Galton-Watson-Prozesses, mit Z0 = i und Z1 0 = ... =<br />
Zi 0 =1,soist<br />
Z D = Z 1 + ...+ Z i . (21.38)<br />
Wir betrachten nun die Erzeugendenfunktion ψ (1) (s) := ψ(s) := E[sX1,1 ] von<br />
X1,1, s ∈ [0, 1], und deren Iterierte ψ (n) := ψ (n−1) ◦ ψ für n ∈ N. Dann ist nach<br />
Lemma 3.10 Ei[sZn ]=E1[sZn ] i = � ψ (n) (s) �i<br />
.Für die geometrische Verteilung<br />
können wir ψ (n) leicht ausrechnen.<br />
Lemma 21.44. Für den Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung<br />
ist die n-te Iterierte der Erzeugendenfunktion<br />
Beweis. Wir berechnen<br />
ψ(s) =<br />
ψ (n) (s) =<br />
∞�<br />
k=0<br />
n − (n − 1)s<br />
n +1− ns .<br />
2 −k−1 s k =<br />
1<br />
−s +2 .<br />
Um die Iterierten auszurechnen, betrachten wir zunächst allgemeine linear rationale<br />
Funktionen der Form f(x) = ax+b<br />
cx+d .Für f von dieser Form definieren wir die Matrix<br />
� �<br />
ab<br />
Mf = .Für zwei linear rationale Funktionen f und g ist Mf◦g = Mf · Mg.<br />
cd<br />
Wir berechnen leicht
und induktiv<br />
21.9 Pfadweise Konvergenz von Verzweigungsprozessen ∗<br />
� �<br />
0 1<br />
Mψ = ,<br />
−1 2<br />
M 2 � �<br />
−12<br />
ψ = ,<br />
−2 3<br />
M 3 � �<br />
−23<br />
ψ =<br />
−3 4<br />
M n ψ =<br />
461<br />
� �<br />
−(n − 1) n<br />
. ✷<br />
−n n+1<br />
Setzen wir s = e −λ , so erhalten wir die Laplace-Transformierten von Zn<br />
Ei[e −λZn ]=ψ (n) (e −λ ) i .<br />
Nach Beispiel 6.29 ergeben sich die Momente von Zn durch Differenzieren. Es gilt<br />
also:<br />
Lemma 21.45. Die Momente von Zn sind<br />
Ei[Z k k dk<br />
n]=(−1)<br />
dλk �<br />
ψ (n) (e −λ ) i�� . (21.39)<br />
�λ=0<br />
Speziell sind die ersten sechs Momente<br />
Ei[Zn] =i<br />
Ei[Z 2 n]=2in+ i 2<br />
Ei[Z 3 n]=6in 2 +6i 2 n + i 3<br />
Ei[Z 4 n]=24in 3 +36i 2 n 2 +(12i 3 +2i) n + i 4<br />
(21.40)<br />
Ei[Z 5 n] = 120in 4 + 240i 2 n 3 + (120i 3 +30i) n 2 +(20i 4 +10i 2 ) n + i 5<br />
Ei[Z 6 n] = 720in 5 + 1800i 2 n 4 + (1200i 3 + 360i) n 3<br />
+ (300i 4 + 240i 2 )n 2 +(30i 5 +30i 3 +2i)n + i 6 .<br />
Insbesondere ist Z ein Martingal, und die ersten sechs zentrierten Momente sind<br />
Ei[(Zn − i) 2 ]=2in<br />
Ei[(Zn − i) 3 ]=6in 2<br />
Ei[(Zn − i) 4 ]=24in 3 +12i 2 n 2 +2in<br />
Ei[(Zn − i) 5 ] = 120in 4 + 120i 2 n 3 +30in 2<br />
(21.41)<br />
Ei[(Zn − i) 6 ] = 720in 5 + 1080i 2 n 4 + (120i 3 + 360i) n 3 +60i 2 n 2 +2in.<br />
Beweis. Die genauen Formeln für die ersten sechs Momente erhält man durch stures<br />
Ausrechnen von (21.39). ✷<br />
Wir betrachten jetzt die folgende Reskalierung: Wir fixieren x ≥ 0 und starten mit<br />
Z0 = ⌊nx⌋ Individuen und betrachten ˜ Zn t := Z⌊tn⌋ n für t ≥ 0. Wir schreiben kurz
462 21 Die Brown’sche Bewegung<br />
Lx[ ˜ Z n ]:=L ⌊nx⌋[(n −1 Z ⌊nt⌋)t≥0]. (21.42)<br />
Offenbar ist Ex[ ˜ Zn t ]= ⌊nx⌋<br />
n ≤ x für jedes n, also ist (Lx[ ˜ Zn t ], n∈ N) straff. Indem<br />
wir Laplace-Transformierte betrachten, sehen wir sogar, dass für jedes λ ≥ 0 die<br />
Folge der Verteilungen konvergiert:<br />
lim<br />
n→∞ Ex[e −λ ˜ Z n<br />
t ] = lim<br />
n→∞<br />
�<br />
ψ (⌊tn⌋) (e −λ/n �nx )<br />
� −λ/n<br />
nt − (nt − 1)e<br />
= lim<br />
n→∞ nt +1− nt e−λ/n �<br />
= lim 1 −<br />
n→∞<br />
�nx<br />
1 − e −λ/n<br />
n(1 − e −λ/n )t +1<br />
�nx<br />
�<br />
xn(1 − e<br />
=exp − lim<br />
n→∞<br />
−λ/n )<br />
n(1 − e−λ/n �<br />
)t +1<br />
�<br />
=exp − λ<br />
λ +1/t (x/t)<br />
�<br />
:= ψt(λ) x .<br />
(21.43)<br />
Die Funktion ψ x t ist aber die Laplace-Transformierte der zusammengesetzten Poisson-Verteilung<br />
CPoi (x/t) exp1/t (siehe Definition 16.3).<br />
Wir betrachten jetzt den stochastischen Kern κt(x, dy) := CPoi (x/t) exp1/t (dy).<br />
Dies ist genau derjenige Kern auf [0, ∞), dessen Laplace-Transformierte gegeben<br />
ist durch � ∞<br />
0<br />
κt(x, dy) e −λy = ψt(λ) x . (21.44)<br />
Lemma 21.46. (κt)t≥0 ist eine Markov’sche Halbgruppe, und es existiert ein Markovprozess<br />
(Yt)t≥0 mit Übergangskernen Px[Yt ∈ dy] =κt(x, dy).<br />
Beweis. Es reicht, die Chapman-Kolmogorov Gleichung κt · κs = κs+t zu zeigen.<br />
Wir berechnen die Laplace-Transformierten dieser Kerne: Für λ ≥ 0 erhalten wir<br />
durch zweimaliges Anwenden von (21.44)<br />
� �<br />
κt(x, dy)κs(y, dz) e −λz �<br />
=<br />
�<br />
κt(x, dy)exp − λy<br />
λs +1<br />
�<br />
λ<br />
�<br />
λs+1<br />
=exp − λ<br />
λs+1t +1x<br />
�<br />
�<br />
λx<br />
=exp −<br />
λ(t + s)+1<br />
�<br />
= κt+s(x, dz) e −λz . ✷<br />
Als nächstes zeigen wir, dass Y eine stetige Version besitzt. Dafür berechnen wir<br />
Momente und ziehen den Satz von Kolmogorov-Chentsov (Satz 21.6) heran.<br />
�
21.9 Pfadweise Konvergenz von Verzweigungsprozessen ∗<br />
Lemma 21.47. Wir erhalten die k-ten Momente von Yt durch Ableiten der Laplace-<br />
Transformierten<br />
Ex[Y k<br />
k dk<br />
t ]=(−1)<br />
dλ k (ψ(λ)x ) � � λ=0<br />
�<br />
wobei ψt(λ) =exp−<br />
λ<br />
�<br />
λt+1 . Speziell sind die ersten Momente<br />
Ex[Yt ]=x<br />
Ex[Y 2<br />
t ]=2xt+ x 2<br />
Ex[Y 3<br />
t ]=6xt 2 +6x 2 t + x 3<br />
Ex[Y 4<br />
t ]=24xt 3 +36x 2 t 2 +12x 3 t + x 4<br />
Ex[Y 5<br />
t ] = 120xt 4 + 240x 2 t 3 + 120x 3 t 2 +20x 4 t + x 5<br />
Ex[Y 6<br />
t ] = 720xt 5 + 1800x 2 t 4 + 1200x 3 t 3 + 300x 4 t 2 +30x 5 t + x 6 (21.45)<br />
.<br />
Es ist also Y ein Martingal, und die ersten zentrierten Momente sind<br />
Ex[(Yt − x) 2 ]=2xt<br />
Ex[(Yt − x) 3 ]=6xt 2<br />
Ex[(Yt − x) 4 ]=24xt 3 +12x 2 t 2<br />
Ex[(Yt − x) 5 ] = 120xt 4 + 120x 2 t 3<br />
Ex[(Yt − x) 6 ] = 720xt 5 + 1080x 2 t 4 + 120x 3 t 3 .<br />
,<br />
463<br />
(21.46)<br />
Satz 21.48. Es existiert eine stetige Version des Markovprozesses Y mit Übergangskernen<br />
(κt)t≥0 gegeben durch (21.44). Diese Version nennen wir Feller’sche<br />
Verzweigungsdiffusion oder den Feller’schen stetigen Verzweigungsprozess.<br />
Beweis. Für festes N>0 und s, t ∈ [0,N] gilt<br />
�<br />
Ex (Yt+s − Ys) 4� �<br />
= Ex EYs [(Yt − Y0) 4 ] � �<br />
= Ex 24Ys t 3 +12Y 2<br />
s t 2�<br />
=24xt 3 + 12(2sx + x 2 ) t 2 ≤ � 48Nx+12x 2� t 2 .<br />
Mithin erfüllt Y die Bedingung aus Satz 21.6 (Kolmogorov-Chentsov) mit α =4<br />
und β =1. ✷<br />
Bemerkung 21.49. (i) Indem man alle höheren Momente heranzieht, kann man<br />
zeigen, dass die Pfade von Y Hölder-stetig sind von jeder Ordnung γ ∈ (0, 1<br />
2 ).<br />
(ii) Man kann zeigen, dass Y die (eindeutige, starke) Lösung der stochastischen<br />
(Itô’schen) Differentialgleichung (siehe Beispiele 26.11 und 26.31)<br />
dYt = � 2Yt dWt<br />
(21.47)<br />
ist, wobei W eine Brown’sche Bewegung ist. ✸
464 21 Die Brown’sche Bewegung<br />
Satz 21.50. Es gilt Lx[ ˜ Z n ] n→∞<br />
−→<br />
fdd<br />
Lx[Y ].<br />
Beweis. Wie in (21.43) erhalten wir für 0 ≤ t1 ≤ t2 und λ1,λ2 ≥ 0, sowiex≥0 lim<br />
n→∞ Ex<br />
�<br />
e −(λ1 ˜ Z n<br />
t +λ2 1 ˜ Z n<br />
t ) 2 �<br />
= lim<br />
n→∞ Ex<br />
� �<br />
Ex e −λ2 ˜ Z n �<br />
� t2 � ˜ Z n �<br />
t1 e −λ1 ˜ Z n �<br />
t1 = lim<br />
n→∞ Ex<br />
� �<br />
λ2<br />
exp −<br />
λ2(t2 − t1)+1 ˜ Z n t1<br />
⎛ �<br />
� ⎞<br />
λ2<br />
λ2(t2−t1)+1 + λ1 x<br />
=exp⎝−�<br />
� ⎠<br />
λ2<br />
λ2(t2−t1)+1 + λ1<br />
�<br />
= Ex exp(−(λ1Yt1 + λ2Yt2 ))� .<br />
t1 +1<br />
�<br />
e −λ1 ˜ Z n<br />
�<br />
t1 Wir erhalten also<br />
�<br />
Lx λ1 ˜ Z n t1 + λ2 ˜ Z n � n→∞ � �<br />
t2 −→ Lx λ1Yt1 + λ2Yt2 .<br />
Nach der Cramér-Wold Device (Satz 15.55) folgt hieraus<br />
��<br />
Lx<br />
˜Z n<br />
t1 , ˜ Z n �� n→∞ ��<br />
t2 −→ Lx Yt1 ,Yt2<br />
��<br />
.<br />
Wir können dieses Vorgehen jetzt iterieren und erhalten so für jedes k ∈ N und<br />
0 ≤ t1 ≤ t2 ≤ ...≤ tk<br />
�� � �<br />
Lx<br />
˜Z n n→∞ �� � �<br />
ti −→ Lx Yti .<br />
i=1,...,k<br />
i=1,...,k<br />
Dies ist aber die Behauptung. ✷<br />
Wir zeigen nun, dass die Konvergenz sogar im Pfadraum gilt. Hierzu müssen wir<br />
den reskalierten Prozess noch stetig machen. Wir nehmen an, dass (Zn)i∈N0 i , n ∈ N<br />
eine Folge von Galton-Watson-Prozessen ist, mit Zn 0 = ⌊nx⌋. Wirdefinieren die<br />
linearen Interpolationen<br />
¯Z n t := � t − n −1 � �<br />
⌊tn⌋ Z n ⌊tn⌋+1 − Zn �<br />
⌊tn⌋ + 1<br />
n Zn ⌊tn⌋ .<br />
Satz 21.51 (Lindvall (1972)). Die reskalierten Galton-Watson-Prozesse ¯ Z n konvergieren<br />
für n →∞gegen die Feller’sche Diffusion Y im Sinne der schwachen<br />
Konvergenz in M1(C([0, ∞))):<br />
Lx[ ¯ Z n ] n→∞<br />
−→ Lx[Y ].<br />
Beweis. Die Konvergenz der endlichdimensionalen Verteilungen ist schon gezeigt.<br />
Nach Satz 21.38 reicht es, die Straffheit von (Lx[ ¯ Z n ],n∈ N) in M1(C([0, ∞)))
21.10 Quadratische Variation und lokale Martingale 465<br />
zu zeigen. Hierzu verwenden wir das Kriterium von Kolmogorov � (Satz 21.42 mit<br />
α =4und β =1). Wir berechnen also die vierten Momente Ex ( Z¯ n<br />
t+s − ¯ Zn s ) 4� für<br />
s, t ∈ [0,N] und für festes N>0. Wir unterscheiden zwei Fälle.<br />
Fall 1: t< 1<br />
n . Sei k = ⌊(t + s)n⌋. Wir nehmen zunächst an, dass ⌊sn⌋ = k.<br />
Dann ist (nach Lemma 21.45)<br />
�<br />
Ex ( Z¯ n<br />
t+s − ¯ Z n s ) 4� = n −4 (tn) 4 � n<br />
E⌊nx⌋ (Zk+1 − Z n k ) 4�<br />
= t 4 � n<br />
E⌊nx⌋ 24Zk + 12(Z n k ) 2 +2Z n� k<br />
= t 4 � 26⌊nx⌋ +24⌊nx⌋k + ⌊nx⌋ 2�<br />
≤ 26xt 3 +24xs t 2 + x 2 t 2<br />
≤ (50Nx+ x 2 ) t 2 .<br />
Der Fall ⌊sn⌋ = k − 1 liefert eine ähnliche Abschätzung. Insgesamt erhalten wir<br />
eine Konstante C = C(N,x) mit<br />
�<br />
Ex ( Z¯ n<br />
s+t − ¯ Z n s ) 4� ≤ Ct 2<br />
für alle s, t ∈ [0,N] mit t< 1<br />
. (21.48)<br />
n<br />
Fall 2: t ≥ 1<br />
n . Wir setzen jetzt k := ⌈(t + s)n⌉−⌊sn⌋ ≤tn +1≤ 2tn.Dannist<br />
(nach Lemma 21.45)<br />
�<br />
Ex ( Z¯ n<br />
t+s − ¯ Z n s ) 4�<br />
≤ n −4 � n<br />
E⌊nx⌋ (Z⌊(t+s)n⌋ − Z n ⌊sn⌋ )4�<br />
= n −4 �<br />
E⌊nx⌋ EZn ⌊sn⌋ [(Zn k − Z n 0 ) 4 ] �<br />
= n −4 �<br />
E⌊nx⌋ 24Z n ⌊sn⌋k3 + 12(Z n ⌊sn⌋ )2k 2 +2Z n ⌊sn⌋k �<br />
≤ n −4 � 24xn(2tn) 3 +(24xn sn +12x 2 n 2 )(2tn) 2 +4xtn 2�<br />
≤ 192xt 3 +(96xs +48x 2 )t 2 +4xn −1 t 2<br />
(21.49)<br />
≤ (292Nx+48x 2 ) t 2 .<br />
Die Abschätzungen aus (21.48) und (21.49) ergeben zusammen, dass die Voraussetzungen<br />
des Kolmogorov’schen Straffheitskriteriums (Satz 21.42) erfüllt sind mit<br />
α =4und β =1. Also ist die Folge (Lx[ ¯ Z n ],n∈ N) straff. ✷<br />
21.10 Quadratische Variation und lokale Martingale<br />
Nach dem Satz von Paley-Wiener-Zygmund (Satz 21.17) sind die Pfade t ↦→ Wt<br />
der Brown’schen Bewegung fast sicher nirgends differenzierbar, sind also von lokal<br />
unendlicher Variation. Insbesondere lässt sich das in Beispiel 21.29 betrachtete<br />
stochastische Integral � 1<br />
0 f(s) dWs nicht als Lebesgue-Stieltjes Integral verstehen.
466 21 Die Brown’sche Bewegung<br />
Um jedoch Integrale von diesem Typ auch für eine größere Klasse von Integranden<br />
und Integratoren zu definieren, wollen wir hier vorbereitend die Pfadeigenschaften<br />
der Brown’schen Bewegung, und allgemeiner von stetigen lokalen Martingalen, genauer<br />
untersuchen.<br />
Definition 21.52. Sei G :[0, ∞) → R stetig. Wir definieren für jedes t ≥ 0 die<br />
Variation bis t durch<br />
V 1<br />
t (G) :=sup<br />
� n−1 � �<br />
�Gti+1 − Gti<br />
i=0<br />
�<br />
�<br />
� :0=t0 ≤ t1 ≤ ...≤ tn = t, n ∈ N .<br />
Wir sagen, dass G von lokal endlicher Variation ist, falls V 1<br />
t (G) < ∞ für alle<br />
t ≥ 0 und schreiben CV für den Vektorraum der stetigen Funktionen G mit stetiger<br />
Variation t ↦→ V 1<br />
t (G).<br />
Bemerkung 21.53. Offenbar gilt V 1 (F + G) ≤ V 1 (F )+V 1 (G) und V 1 (αG) =<br />
|α| V 1 (G) für alle stetigen F, G :[0, ∞) → R und für alle α ∈ R. AlsoistCV<br />
tatsächlich ein Vektorraum. ✸<br />
Bemerkung 21.54. (i) Ist G von der Form Gt = � t<br />
f(s) ds für eine lokal inte-<br />
0<br />
grierbare Funktion f,soistG∈CV mit V 1<br />
t (G) = � t<br />
|f(s)| ds.<br />
(ii) Ist G = G + − G − die Differenz zweier stetiger, monoton wachsender Funktionen<br />
G + und G − ,soist<br />
V 1<br />
t (G) − V 1<br />
s (G) ≤ (G + t − G + s )+(G − t − G − s ) für alle t>s, (21.50)<br />
also ist G ∈CV. Gleichheit gilt in (21.50), wenn G − und G +<br />
0<br />
” nicht auf den selben<br />
Mengen wachsen“, also formal gesprochen die Verteilungsfunktionen gegenseitig<br />
singulärer Maße μ − und μ + sind. Diese Maße μ − und μ + sind dann die Jordan-<br />
Zerlegung des signierten Maßes μ = μ + − μ − , dessen Verteilungsfunktion G ist.<br />
Das Lebesgue-Stieltjes Integral wird dann definiert durch<br />
� t<br />
0<br />
�<br />
F (s) dGs :=<br />
(iii) Ist G ∈CV,sosindoffenbar<br />
G + t := 1�<br />
�<br />
1<br />
Vt (G)+Gt<br />
2<br />
[0,t]<br />
Fdμ + �<br />
− Fdμ<br />
[0,t]<br />
− . (21.51)<br />
und G − t := 1�<br />
�<br />
1<br />
Vt (G) − Gt<br />
2<br />
eine Zerlegung von G wie in (ii) beschrieben. ✸<br />
Dass die Pfade der Brown’schen Bewegung unendliche Variation haben, folgt schon<br />
aus ihrer Nichtdifferenzierbarkeit. Wir können dies aber auch leicht direkt einsehen.
21.10 Quadratische Variation und lokale Martingale 467<br />
Satz 21.55. Sei W eine Brown’sche Bewegung. Dann gilt V 1<br />
t (W )=∞ fast sicher<br />
für jedes t>0.<br />
Beweis. Es reicht, t =1zu betrachten und zu zeigen, dass<br />
Yn :=<br />
2 n<br />
� �<br />
�<br />
i=1<br />
�Wi2−n − W (i−1)2−n� n→∞<br />
�<br />
−→ ∞ f.s. (21.52)<br />
Es ist E[Yn] =2 n/2 E[|W1|] =2 n/2� 2/π und Var[Yn] =1− 2/π. Nach der<br />
Chebyshev’schen Ungleichung ist<br />
∞�<br />
n=1<br />
�<br />
P Yn ≤ 1<br />
2 2n/2� �<br />
2/π ≤<br />
∞�<br />
n=1<br />
2π − 4<br />
2 n<br />
=2π− 4 < ∞.<br />
Nach dem Lemma von Borel-Cantelli folgt (21.52). ✷<br />
Offenbar ist die Variation ein zu grobes Maß, um wesentliche Pfadeigenschaften<br />
der Brown’schen Bewegung zu messen. Wir wollen daher statt der Zuwächse (in<br />
der Definition der Variation) die (kleineren) quadratischen Zuwächse summieren.<br />
Für die Definition dieser quadratischen Variation ist etwas mehr Vorsicht nötig als<br />
in Definition 21.52 für die Variation.<br />
Definition 21.56. Eine Folge P = (P n )n∈N von abzählbaren Teilmengen von<br />
[0, ∞)<br />
P n := {t0,t1,t2,...} mit 0=t0
468 21 Die Brown’sche Bewegung<br />
Definition 21.58. Für stetige F, G : [0, ∞) → R und p ≥ 1 definieren wir die<br />
p-Variation von G (entlang P) durch<br />
� � �<br />
P,p<br />
(G) :=V (G) := lim �Gt ′ − Gt<br />
�p für T ≥ 0,<br />
V p<br />
T<br />
T<br />
n→∞<br />
t∈Pn T<br />
falls der Grenzwert existiert. Speziell heißt 〈G〉 := V 2 (G) die quadratische Variation<br />
von G. IstT ↦→ V 2 T (G) stetig, so schreiben wir G ∈CqV := C P qV .<br />
Existiert für jedes T ≥ 0 der Grenzwert<br />
�<br />
V P,2<br />
T (F, G) := lim<br />
n→∞<br />
t∈Pn T<br />
� �� �<br />
Ft ′ − Ft Gt ′ − Gt ,<br />
so nennen wir 〈F, G〉 := V 2 (F, G) :=V P,2 (F, G) die quadratische Kovariation<br />
von F und G (entlang P).<br />
p′<br />
(G) < ∞, soistVT (G) =0. Speziell ist<br />
〈G〉 ≡0, falls G von lokal endlicher Variation ist. ✸<br />
Bemerkung 21.59. Ist p ′ >pund V p<br />
T<br />
Bemerkung 21.60. Aufgrund der Dreiecksungleichung ist<br />
� � � � � �<br />
�Gt ′ − Gt<br />
� ≥ �Gt ′ − Gt<br />
� für alle n ∈ N, T≥ 0.<br />
t∈P n+1<br />
T<br />
t∈P n T<br />
Daher existiert der Limes im Fall p =1stets und stimmt, unabhängig von der Zerlegungsfolge<br />
P, mit V 1 (G) aus Definition 21.52 überein. Ähnliche Ungleichungen<br />
gelten für V 2 nicht, daher braucht der Limes nicht zu existieren oder kann von der<br />
Wahl von P abhängen. Wir werden im Folgenden jedoch für die Pfade einer großen<br />
Klasse von stetigen stochastischen Prozessen zeigen, dass V 2 zumindest für eine<br />
geeignete Zerlegungsfolge fast sicher existiert und (unabhängig von der gewählten<br />
Zerlegungsfolge) fast sicher eindeutig ist. ✸<br />
Bemerkung 21.61. (i) Existieren 〈F + G〉T und 〈F − G〉T , so existiert die Kovarianz<br />
〈F, G〉T , und es gilt die Polarisationsformel<br />
〈F, G〉T = 1�<br />
�<br />
〈F + G〉T −〈F − G〉T .<br />
4<br />
(ii) Existieren 〈F 〉T , 〈G〉T und 〈F, G〉T , so folgt aus der Cauchy-Schwarz’schen<br />
Ungleichung für die approximierenden Summen<br />
� � �<br />
〈F, G〉T ≤ 〈F 〉T 〈G〉T . ✸<br />
V 1 T<br />
Bemerkung 21.62. Ist f ∈ C1 (R) und G ∈CqV, soist(Übung!) im Sinne des<br />
Lebesgue-Stieltjes Integrals<br />
〈f(G)〉T =<br />
� T<br />
0<br />
(f ′ (Gs)) 2 d〈G〉s. ✸
21.10 Quadratische Variation und lokale Martingale 469<br />
Korollar 21.63. Ist F von lokal endlicher quadratischer Variation und gilt 〈G〉 ≡0<br />
(speziell also, falls G von lokal endlicher Variation ist), so ist 〈F, G〉 ≡ 0 und<br />
〈F + G〉 = 〈F 〉.<br />
Satz 21.64. Für die Brown’sche Bewegung W und jede zulässige Zerlegungsfolge<br />
gilt<br />
〈W 〉T = T für alle T ≥ 0 f.s.<br />
Beweis. Wir beweisen dies nur für den Fall, wo<br />
∞�<br />
|P n | < ∞ (21.53)<br />
n=1<br />
gilt. Für den allgemeinen Fall skizzieren wir das Vorgehen.<br />
Gelte also (21.53). Falls 〈W 〉 existiert, ist T ↦→ 〈W 〉T monoton wachsend. Daher<br />
reicht es zeigen, dass 〈W 〉T für jedes T ∈ Q + = Q ∩ [0, ∞) existiert und 〈W 〉T =<br />
T fast sicher gilt. Da ( � Wt)t≥0 = � T −1/2 �<br />
WtT eine Brown’sche Bewegung ist<br />
t≥0<br />
und 〈 � W 〉1 = T −1 〈W 〉T gilt, reicht es, den Fall T =1zu betrachten.<br />
Setze<br />
Yn := �<br />
t∈Pn 2<br />
(Wt ′ − Wt) für alle n ∈ N.<br />
1<br />
Dann ist E[Yn] = �<br />
t∈Pn (t<br />
1<br />
′ − t) =1 und<br />
Var[Yn] = �<br />
Var � (Wt ′ − Wt) 2� = �<br />
(t ′ − t) 2 ≤ 2 |P n |.<br />
t∈P n 1<br />
t∈P n 1<br />
Nach Voraussetzung (21.53) gilt also �∞ n=1 Var[Yn] ≤ 2 �∞ n=1 |Pn | < ∞, also<br />
n→∞<br />
gilt Yn −→ 1 fast sicher.<br />
Verzichten wir auf die Bedingung (21.53), so gilt immer noch Var[Yn] n→∞<br />
−→ 0,<br />
also Vn<br />
n→∞<br />
−→ 1 stochastisch. Es ist allerdings nicht zu schwer zu zeigen, dass<br />
(Yn)n∈N ein Rückwärtsmartingal ist (siehe etwa [132, Theorem I.28]) und daher<br />
fast sicher gegen 1 konvergiert. ✷<br />
Korollar 21.65. Sind W und � W unabhängige Brown’sche Bewegungen, so gilt<br />
〈W, � W 〉T =0.<br />
Beweis. Die stetigen Prozesse ((W + � W )/ √ 2) und (W − � W )/ √ 2) haben unabhängige,<br />
normalverteilte Zuwächse, sind also Brown’sche Bewegungen. Nach<br />
Bemerkung 21.61(i) gilt<br />
4 � W, � W �<br />
T = � W + � W �<br />
T − � W − � W �<br />
T<br />
2 � (W + � W )/ √ 2 �<br />
T − 2� (W − � W )/ √ 2 �<br />
=2T − 2T =0. ✷<br />
T
470 21 Die Brown’sche Bewegung<br />
Nach Übung 21.4.2 ist (W 2 t − t)t≥0 ein stetiges Martingal. Offenbar ist auch<br />
(Wt � Wt )t≥0 ein stetiges Martingal. Nach dem Gezeigten sind also die Prozesse<br />
W 2 −〈W 〉 und W � W −〈W, � W 〉 Martingale. Wir werden sehen (Satz 21.70), dass<br />
die quadratische Variation 〈M(ω)〉 eines quadratintegrierbaren, stetigen Martingals<br />
M stets existiert (für fast alle ω), und dass der Prozess 〈M〉 eindeutig charakterisiert<br />
ist durch die Eigenschaft, dass M 2 −〈M〉 ein Martingal ist.<br />
Um eine ähnliche Aussage auch für stetige Martingale zu erhalten, die nicht quadratisch<br />
integrierbar sind, treffen wir die folgende Definition.<br />
Definition 21.66 (Lokales Martingal). Sei F eine Filtration auf (Ω,F, P) und τ<br />
ein F-Stoppzeit. Ein adaptierter, reeller stochastischer Prozess M =(Mt)t≥0 heißt<br />
lokales Martingal bis τ, falls es eine Folge (τn)n∈N von Stoppzeiten gibt mit τn ↑ τ<br />
fast sicher, und so, dass für jedes n ∈ N der gestoppte Prozess M τn =(Mτn∧t)t≥0<br />
ein gleichgradig integrierbares Martingal ist. Eine solche Folge (τn)n∈N heißt lokalisierende<br />
Folge für M. M heißt lokales Martingal schlechthin, falls M ein lokales<br />
Martingal bis τ ≡∞ist. Mit Mloc,c bezeichnen wir den Raum der stetigen lokalen<br />
Martingale.<br />
Bemerkung 21.67. Sei M ein stetiger, adaptierter Prozess und τ eine Stoppzeit.<br />
Dann sind äquivalent:<br />
(i) M ist ein lokales Martingal bis τ.<br />
(ii) Es gibt eine Folge (τn)n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass<br />
jedes M τn ein Martingal ist.<br />
(iii) Es gibt eine Folge (τn)n∈N von Stoppzeiten mit τn ↑ τ fast sicher, sodass<br />
jedes M τn ein beschränktes Martingal ist.<br />
In der Tat: (iii) =⇒ (i) =⇒ (ii) ist trivial. Gelte also (ii), und sei τ ′ n definiert durch<br />
τ ′ n := inf{t ≥ 0: |Mt| ≥n} für jedes n ∈ N.<br />
Da M stetig ist, gilt τ ′ n ↑∞.Alsoist (σn)n∈N := (τn ∧ τ ′ n) eine lokalisierende<br />
Folge für M, sodass jedes M σn ein beschränktes Martingal ist. ✸<br />
Bemerkung 21.68. Ein beschränktes lokales Martingal M ist stets auch ein Martingal.<br />
In der Tat: Ist |Mt| ≤C
21.10 Quadratische Variation und lokale Martingale 471<br />
Beispiel 21.69. (i) Ein Martingal ist offenbar stets ein lokales Martingal.<br />
(ii) In Bemerkung 21.68 hatten wir gesehen, dass beschränkte lokale Martingale<br />
auch Martingale sind. Andererseits ist selbst ein gleichgradig integrierbares lokales<br />
Martingal nicht notwendigerweise ein Martingal: Sei W =(W 1 ,W 2 ,W 3 )<br />
eine dreidimensionale Brown’sche Bewegung (das heißt, W 1 , W 2 und W 3 sind<br />
unabhängige Brown’sche Bewegungen) mit Start in W0 = x ∈ R 3 \{0}. Sei<br />
u(y) =�y� −1<br />
für y ∈ R d \{0}.<br />
Man prüft leicht nach, dass u harmonisch ist, dass also △ u(y) =0ist für alle<br />
y �= 0. Wir werden später sehen (Korollar 25.33 zur Itô-Formel), dass hieraus folgt,<br />
dass M := (u(Wt))t≥0 ein lokales Martingal ist. Durch<br />
τn := inf � t>0: Mt ≥ n � =inf � t>0: �Wt� ≤1/n � , n ∈ N,<br />
wird eine lokalisierende Folge für M definiert. Andererseits liefert eine explizite<br />
−1/2 Rechnung mit der dreidimensionalen Normalverteilung E[Mt] ≤ t<br />
t→∞<br />
−→ 0,<br />
also ist M integrierbar aber kein Martingal. Wegen Mt<br />
t→∞<br />
−→ 0 in L1 ist M sogar<br />
gleichgradig integrierbar. ✸<br />
Satz 21.70. Sei M ein stetiges lokales Martingal.<br />
(i) Es existiert ein eindeutig bestimmter, stetiger, monoton wachsender, adaptierter<br />
Prozess 〈M〉 =(〈M〉t)t≥0 mit 〈M〉0 =0, sodass gilt:<br />
� �<br />
2<br />
Mt −〈M〉t ist ein stetiges lokales Martingal.<br />
t≥0<br />
(ii) Ist M ein stetiges, quadratisch integrierbares Martingal, so ist M 2 −〈M〉<br />
ein Martingal.<br />
(iii) Für jede zulässige Zerlegungsfolge P =(Pn )n∈N gilt<br />
U n T := �<br />
t∈P n T<br />
� �2 n→∞<br />
Mt ′ − Mt −→ 〈M〉T stochastisch für alle T ≥ 0.<br />
Der Prozess 〈M〉 heißt quadratischer Variationsprozess von M.<br />
Bemerkung 21.71. Indem wir in (iii) gegebenenfalls zu einer (von T abhängigen)<br />
Teilfolge P ′ übergehen, können wir annehmen, dass U n T<br />
n→∞<br />
−→ 〈M〉T fast sicher<br />
gilt. Durch ein Diagonalfolgenargument erhalten wir (wie im Beweis des Satzes von<br />
n→∞<br />
−→ 〈M〉T fast sicher für alle T ∈ Q +<br />
und T ↦→ 〈M〉T<br />
−→ 〈M〉T für alle T ≥ 0 fast sicher. Also ist für diese Zerlegungsfolge<br />
Helly) eine Zerlegungsfolge, sodass U n T<br />
gilt. Aufgrund der Monotonie und der Stetigkeit von T ↦→ U n T<br />
folgt U n n→∞<br />
T
472 21 Die Brown’sche Bewegung<br />
die pfadweise definierte quadratische Variation fast sicher gleich dem quadratischen<br />
Variationsprozess:<br />
〈M(ω)〉 = V 2 (M(ω)) = 〈M〉(ω). ✸<br />
Beweis (von Satz 21.70). Schritt 1. Sei zunächst |Mt| ≤C fast sicher für<br />
alle t ≥ 0 für ein C
21.10 Quadratische Variation und lokale Martingale 473<br />
Da M ein Martingal ist, ist für s1,s2 ∈Pm T und t1 ∈Pn s1,s ′ , t2<br />
1<br />
∈Pn s2,s ′ t1
474 21 Die Brown’sche Bewegung<br />
Damit ist (21.55) gezeigt.<br />
Schritt 2. Sei nun M ∈Mloc,c und (τN )N∈N eine lokalisierende Folge, sodass<br />
jedes M τN ein beschränktes Martingal ist (siehe Bemerkung 21.67). Nach Schritt 1<br />
gilt für T ≥ 0 und N ∈ N<br />
U N,n<br />
T<br />
:= �<br />
t∈P n T<br />
� M τN<br />
t ′<br />
τN<br />
− M<br />
t<br />
� 2 n→∞<br />
−→ 〈M τN 〉T in L 2 .<br />
Wegen U N,n<br />
T = U N+1,n<br />
T , falls T ≤ τN , gibt es einen stetigen Prozess U mit<br />
U N,n n→∞<br />
T −→ UT stochastisch, falls T ≤ τN . Also gilt 〈M τN 〉T = 〈M〉T := UT ,<br />
falls T ≤ τN .WegenτN↑∞fast sicher, gilt für alle T ≥ 0<br />
U n T<br />
n→∞<br />
−→ 〈M〉T stochastisch.<br />
Da � (M τN<br />
T )2 −〈MτN �<br />
〉T T ≥0 ein stetiges Martingal ist und 〈M τN 〉 = 〈M〉 τN gilt,<br />
folgt M 2 −〈M〉 ∈Mloc,c.<br />
Schritt 3. Wir müssen noch (ii) zeigen. Sei also M ein stetiges, quadratintegrierbares<br />
Martingal und (τn)n∈N eine lokalisierende Folge für das lokale Martingal<br />
M 2 −〈M〉. SeiT > 0 und τ ≤ T eine Stoppzeit. Da M 2 ein nichtnegatives<br />
Submartingal ist, ist M 2 τn∧τ ≤ E[MT |Fτn∧τ ], also ist (M 2 τn∧τ )n∈N gleichgradig<br />
integrierbar und damit<br />
E � M 2� τ = lim<br />
n→∞ E�M 2 �<br />
τn∧τ = lim<br />
n→∞ E� � � � � � � � 2 2<br />
〈M〉τn∧τ +E M0 = E 〈M〉τ +E M0 ,<br />
wobei wir im letzten Schritt den Satz über monotone Konvergenz ausgenutzt haben.<br />
Nach dem Optional Sampling Theorem ist also M 2 −〈M〉 ein Martingal.<br />
Schritt 4. (Eindeutigkeit) Seien A und A ′ stetige, monoton wachsende, adaptierte<br />
Prozesse mit A0 = A ′ 0, sodass M 2 − A und M 2 − A ′ lokale Martingale sind.<br />
Dann ist auch N = A − A ′ ein lokales Martingal, und für fast alle ω hat der Pfad<br />
N(ω) endliche Variation. Daher ist 〈N〉 ≡0 und damit N 2 −〈N〉 = N 2 ein stetiges<br />
lokales Martingal mit N0 =0.Sei(τn)n∈Neine lokalisierende Folge für N 2 .Dann<br />
ist E � N 2 �<br />
2<br />
τn∧t =0für jedes n ∈ N und t ≥ 0, also ist Nτn∧t =0fast sicher und<br />
damit N 2 t = limn→∞ N 2 τn∧t =0fast sicher. Es folgt A = A ′ . ✷<br />
Korollar 21.72. Sei M ein stetiges lokales Martingal mit 〈M〉 ≡0. Dann ist Mt =<br />
M0 für alle t ≥ 0 fast sicher. Speziell gilt dies, falls die Pfade von M von lokal<br />
endlicher Variation sind.<br />
Korollar 21.73. Seien M,N ∈ Mloc,c. Dann existiert ein eindeutig bestimmter<br />
stetiger, adaptierter Prozess 〈M,N〉 von fast sicher lokal endlicher Variation mit<br />
〈M,N〉0 =0, sodass gilt:<br />
MN −〈M,N〉 ist ein stetiges lokales Martingal.
21.10 Quadratische Variation und lokale Martingale 475<br />
〈M,N〉 heißt quadratischer Kovariationsprozess von M und N. Es gilt für jede<br />
zulässige Zerlegungsfolge P und jedes T ≥ 0<br />
�<br />
〈M,N〉T = lim<br />
n→∞<br />
t∈Pn T<br />
� �� �<br />
Mt ′ − Mt Nt ′ − Nt stochastisch. (21.60)<br />
Beweis. Existenz. Offenbar gilt M + N,M − N ∈Mloc,c.Wirdefinieren<br />
〈M,N〉 := 1�<br />
�<br />
〈M + N〉−〈M − N〉 .<br />
4<br />
Als Differenz monoton wachsender Funktionen ist 〈M,N〉 von lokal endlicher Variation.<br />
Wegen Satz 21.70(iii) folgt (21.60). Weiter ist<br />
MN −〈M,N〉 = 1�<br />
� 2 1�<br />
�<br />
2<br />
(M + N) −〈M + N〉 − (M − N) −〈M − N〉<br />
4<br />
4<br />
ein lokales Martingal.<br />
Eindeutigkeit. Seien A und A ′ mit A0 = A ′ 0 = 0 stetig, adaptiert und von<br />
lokal endlicher Variation, sodass MN − A und MN − A ′ in Mloc,c sind. Dann ist<br />
A − A ′ ∈Mloc,c von lokal endlicher Variation, also A − A ′ =0. ✷<br />
Korollar 21.74. Ist M ∈Mloc,c und A stetig und adaptiert mit 〈A〉 ≡0, soist<br />
〈M + A〉 = 〈M〉.<br />
Ist M ein stetiges lokales Martingal bis zur Stoppzeit τ, soistM τ ∈Mloc,c, und<br />
wir schreiben 〈M〉t := 〈M τ 〉t für t
476 21 Die Brown’sche Bewegung<br />
E � M τ0<br />
� �<br />
�Fs t = E<br />
�<br />
lim<br />
n→∞<br />
M τ0∧τn<br />
t<br />
= lim<br />
n→∞ E�M τ0∧τn<br />
t<br />
= lim<br />
n→∞<br />
M τ0∧τn<br />
s<br />
� �<br />
�Fs<br />
�<br />
� Fs<br />
�<br />
= M τ0<br />
s .<br />
Also ist M τ0 ein Martingal. ✷<br />
Korollar 21.76. Ist M ∈Mloc,c und E � �<br />
〈M〉t < ∞ für jedes t ≥ 0, soistMein quadratintegrierbares Martingal.<br />
Übung 21.10.1. Zeige, dass die Zufallsvariablen (Yn)n∈N aus dem Beweis von<br />
Satz 21.64 ein Rückwärtsmartingal bilden. ♣<br />
Übung 21.10.2. Sei f :[0, ∞) → R stetig und X ∈CP qV für die zulässige Zerlegungsfolge<br />
P. Man zeige:<br />
� T<br />
0<br />
f(s) d〈X〉s = lim<br />
�<br />
n→∞<br />
t∈Pn T<br />
f(t) � 2<br />
Xt ′ − Xt)<br />
für alle T ≥ 0. ♣<br />
Übung 21.10.3. Man zeige durch ein Gegenbeispiel: Ist M ein stetiges lokales Martingal<br />
mit M0 =0und τ ein Stoppzeit mit E � �<br />
〈M〉τ = ∞, so folgt hieraus nicht<br />
notwendigerweise E � M 2 �<br />
τ = ∞. ♣
22 Gesetz vom iterierten Logarithmus<br />
Für Summen unabhängiger Zufallsvariablen kennen wir bislang zwei Grenzwertsätze:<br />
das Gesetz der großen Zahl und den Zentralen Grenzwertsatz. Das Gesetz der<br />
großen Zahl beschreibt für großes n ∈ N das typische oder Mittelwertverhalten von<br />
Summen von n Zufallsvariablen, während der Zentrale Grenzwertsatz die typischen<br />
Fluktuationen um diesen Mittelwert quantitativ erfasst.<br />
In Kapitel 23 werden wir die untypisch großen Fluktuationen (große Abweichungen)<br />
quantitativ erfassen. Dagegen ist das Thema dieses Kapitels die genauere quantitative<br />
Erfassung der typischen Fluktuationen, aber nun im gesamten zeitlichen Verlauf<br />
n →∞. Die Botschaft lautet in etwa: Während zu fester Zeit die Partialsumme<br />
Sn um etwa √ n von ihrem Erwartungswert abweicht (Zentraler Grenzwertsatz), ist<br />
die maximale Fluktuation von der Ordnung √ n log log n (Satz von Hartman und<br />
Wintner, Satz 22.9).<br />
Wir beginnen mit der etwas leichteren Aufgabe, diese Fluktuationen zunächst für<br />
die Brown’sche Bewegung auszurechnen (Satz 22.1). Danach werden wir sehen,<br />
wie man Summen unabhängiger Zufallsvariablen (mit endlicher Varianz) in eine<br />
Brown’sche Bewegung einbetten kann (Satz von Skorohod, Satz 22.5), um damit<br />
die Aussage des Satzes von Hartman und Wintner zu zeigen.<br />
Wir folgen in diesem Kapitel in Teilen der Darstellung in [38, Kapitel 7.9].<br />
22.1 Iterierter Logarithmus für die Brown’sche Bewegung<br />
Sei (Bt)t≥0 eine Brown’sche Bewegung. In Beispiel 21.16 haben wir als Anwendung<br />
des Blumenthal’schen 0-1 Gesetzes gesehen, dass lim sup t↓0 Bt/ √ t = ∞ f.s.<br />
Da nach Satz 21.14 auch (tB 1/t)t≥0 eine Brown’sche Bewegung ist, folgt<br />
lim sup<br />
t→∞<br />
Bt<br />
√ t = ∞ f.s.<br />
Unser Ziel in diesem Abschnitt ist es, √ t durch eine Funktion zu ersetzen, sodass<br />
der Limes superior endlich und nichttrivial wird.
478 22 Gesetz vom iterierten Logarithmus<br />
Satz 22.1 (Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung).<br />
Es gilt<br />
Bt<br />
lim sup � =1 f.s. (22.1)<br />
t→∞ 2t log log(t)<br />
Bevor wir den Satz beweisen, bringen wir ein elementares Lemma.<br />
Lemma 22.2. Sei X ∼N0,1 standardnormalverteilt. Dann ist für jedes x>0<br />
1<br />
√ 2π<br />
1<br />
x + 1 e<br />
x<br />
−x2 /2 1<br />
≤ P[X ≥ x] ≤ √2π<br />
1<br />
x e−x2 /2 . (22.2)<br />
Beweis. Sei ϕ(t) = 1<br />
√ 2π e −t2 /2 die Dichte der Standardnormalverteilung. Partielle<br />
Integration liefert die zweite Ungleichung in (22.2):<br />
� ∞<br />
1<br />
P[X ≥ x] = (tϕ(t)) dt = −1<br />
x t t ϕ(t)<br />
�<br />
�<br />
� ∞<br />
� ∞<br />
1 1<br />
− ϕ(t) dt ≤<br />
x x t2 x ϕ(x).<br />
Analog ist<br />
P[X ≥ x] ≥ 1 1<br />
ϕ(x) −<br />
x x2 � ∞<br />
ϕ(t) dt =<br />
x<br />
1 1<br />
ϕ(x) − P[X ≥ x].<br />
x x2 Hieraus folgt die erste Ungleichung in (22.2). ✷<br />
Beweis von Satz 22.1<br />
1. Schritt: ≤“ Betrachte zunächst die Folge tn = α<br />
” n für ein α>1. Später<br />
wollen wir α ↓ 1 gehen lassen. Setze f(t) = 2α2log log t. Dann ist nach dem<br />
Spiegelungsprinzip (Satz 21.19) und mit der Abkürzung B [a,b] := {Bt : t ∈ [a, b]}<br />
�<br />
P sup B [tn,tn+1] > � � �<br />
tnf(tn) ≤ P t −1/2<br />
n+1 sup B [0,tn+1] > � �<br />
f(tn)/α<br />
�<br />
= P sup B [0,1] > � �<br />
f(tn)/α<br />
�<br />
α<br />
≤<br />
f(tn) e−f(tn)/2α<br />
= (log α) −α<br />
�<br />
α<br />
f(tn) n−α<br />
(22.3)<br />
≤ n −α<br />
wobei wir im vorletzten Schritt benutzt haben, dass<br />
für hinreichend großes n,<br />
f(tn)<br />
2α = α� log(n log α) � = α log n + α log log α.
22.1 Iterierter Logarithmus für die Brown’sche Bewegung 479<br />
Wegen α>1 ist die rechte Seite von (22.3) summierbar in n<br />
∞� �<br />
P sup B [tn,tn+1] > � �<br />
tnf(tn) < ∞.<br />
n=1<br />
Das Lemma von Borel-Cantelli (Satz 2.7) liefert jetzt (merke: t ↦→ � tf(t) ist monoton<br />
wachsend)<br />
Bt<br />
lim sup � ≤ 1 f.s.<br />
t→∞ tf(t)<br />
Wir lassen α ↓ 1 gehen und erhalten<br />
lim sup<br />
t→∞<br />
Bt<br />
√ 2t log log t ≤ 1 f.s. (22.4)<br />
2. Schritt: ” ≥“ Wir zeigen nun die andere Ungleichung in (22.1). Hierfür lassen<br />
wir α →∞gehen. Setze β := α<br />
α−1<br />
> 1 und g(t) = 2<br />
β 2 log log t.Wähle n0 so groß,<br />
dass βg(tn) ≥ 1 ist für n ≥ n0. Dann ist nach der Brown’schen Skalierung (merke:<br />
tn − tn−1 = 1<br />
β tn) und (22.2) (wegen (x + 1<br />
x )−1 ≥ 1 1<br />
2 x für x =(βg(tn)) 1/2 ≥ 1)<br />
�<br />
P Btn − Btn−1 > � � �<br />
tng(tn) = P B1 > � �<br />
βg(tn)<br />
≥ 1 1 1<br />
√ �<br />
2π 2 βg(tn) e−βg(tn)/2<br />
= 1 1<br />
1<br />
√ (log α)−1/β �<br />
2π 2 βg(tn) n−1/β .<br />
Ist ε ∈ (0, 1 − 1/β), soistfür hinreichend großes n ∈ N die rechte Seite der<br />
vorangehenden Gleichung ≥ n−ε n−1/β ≥ n−1 .Alsoist<br />
∞� �<br />
P Btn − Btn−1 > � �<br />
tng(tn) = ∞.<br />
n=2<br />
Die Ereignisse sind unabhängig, daher liefert das Lemma von Borel-Cantelli<br />
�<br />
P Btn − Btn−1 > � tng(tn)<br />
�<br />
für unendlich viele n =1. (22.5)<br />
tn log log tn n→∞<br />
Wegen<br />
−→ α folgt aus (22.4) zusammen mit der Symmetrie<br />
tn−1 log log tn−1<br />
der Brown’schen Bewegung für ε>0<br />
Btn−1 > −(1 + ε)α−1/2� 2tn log log tn für fast jedes n ∈ N f.s. (22.6)<br />
Aus (22.5) und (22.6) folgt<br />
lim sup<br />
n→∞<br />
Btn √ ≥<br />
2tn log log tn<br />
1<br />
β − (1 + ε)α−1/2 α − 1<br />
= − (1 + ε)α−1/2<br />
α<br />
Bt<br />
Lassen wir nun α →∞, so erhalten wir lim sup √ ≥ 1 f.s. Zusammen<br />
t→∞ 2t log log t<br />
mit (22.4) folgt die Aussage des Satzes. ✷<br />
f.s.
480 22 Gesetz vom iterierten Logarithmus<br />
Korollar 22.3. Es gilt fast sicher lim sup<br />
t↓0<br />
Bt<br />
� 2t log log(1/t) =1.<br />
Beweis. Nach Satz 21.14 ist (tB 1/t) eine Brown’sche Bewegung. Wende hierauf<br />
Satz 22.1 an. ✷<br />
Bemerkung 22.4. Die Aussage von Korollar 22.3 betrifft die typischen Punkte der<br />
Brown’schen Bewegung B. Wie sieht es aber aus, wenn wir nach der Existenz von<br />
Punkten t fragen, in denen sich B schneller als � 2t log log(1/t) bewegt? Auskunft<br />
gibt hier ein Satz von Paul Lévy [103]: Bezeichnen wir mit h(δ) := � 2δ log(1/δ)<br />
den Lévy’schen Stetigkeitsmodul,soist<br />
�<br />
P lim<br />
δ↓0<br />
sup |Bt − Bs|/h(δ) =1<br />
s,t∈[0,1]<br />
0≤t−s≤δ<br />
�<br />
=1. (22.7)<br />
(Siehe etwa [137, Theorem I.2.5] für einen Beweis.) Hieraus folgt insbesondere,<br />
-stetig ist. ✸<br />
dass B fast sicher nicht lokal Hölder- 1<br />
2<br />
22.2 Skorohod’scher Einbettungssatz<br />
Um das Ergebnis des vorigen Abschnitts auf Summen von quadratintegrierbaren,<br />
zentrierten Zufallsvariablen zu übertragen, brauchen wir eine Einbettung von solchen<br />
Zufallsvariablen in eine Brown’sche Bewegung. Die gewünschte Darstellung<br />
liefert der Satz von Skorohod. Mit dieser Technik lässt sich auch ein alternativer<br />
Beweis des Satzes von Donsker (Invarianzprinzip, Satz 21.43) angeben.<br />
Satz 22.5 (Skorohod’scher Einbettungssatz). Sei X eine reelle Zufallsvariable<br />
mit E[X] =0und Var[X] < ∞. Dann existiert auf einem geeigneten Wahrscheinlichkeitsraum<br />
eine Filtration F und eine Brown’sche Bewegung B, die ein<br />
F-Martingal ist, sowie eine F–Stoppzeit τ mit<br />
Bτ<br />
D<br />
= X und E[τ] =Var[X].<br />
Bemerkung 22.6. Man kann auch zeigen, dass F = σ(B) gewählt werden kann.<br />
Das ist allerdings aufwändiger und wird hier nicht benötigt. ✸<br />
Korollar 22.7. Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =0und<br />
Var[X1] < 1. Ferner sei Sn = X1 + ...+ Xn, n ∈ N. Dann gibt es auf einem<br />
geeigneten Wahrscheinlichkeitsraum eine Filtration F und eine Brown’sche Bewe-<br />
gung B, die ein F-Martingal ist, sowie F–Stoppzeiten 0=τ0 ≤ τ1 ≤ τ2 ≤ ...mit:<br />
(τn − τn−1)n∈N ist u.i.v., E[τ1] =Var[X1] und (Bτn )n∈N<br />
D<br />
=(Sn)n∈N.
22.2 Skorohod’scher Einbettungssatz 481<br />
Zur Vorbereitung des Beweises bringen wir ein Lemma. Wir wollen dabei als Integranden<br />
Maße zulassen. Wir verwenden deshalb folgende Notation: Ist μ ∈M(E)<br />
ein Maß und f ∈L 1 (μ) nichtnegativ, so wird � μ(dx)f(x)δx := fμ definiert, wobei<br />
fμdas Maß mit Dichte f bezüglich μ ist. Dies ist konsistent, denn für messbares<br />
A ⊂ E ist dann<br />
��<br />
μ(dx)f(x)δx<br />
� �<br />
(A) =<br />
�<br />
μ(dx)f(x)δx(A) = μ(dx)f(x) A(x) =fμ(A).<br />
Lemma 22.8. Sei μ ∈M1(R) mit � xμ(dx) =0und σ2 := � x2 μ(dx) < ∞.<br />
Dann existiert ein W-Maß θ ∈M1((−∞, 0) × [0, ∞)) mit<br />
� �<br />
v<br />
μ = θ(d(u, v))<br />
v − u δu + −u<br />
v − u δv<br />
�<br />
. (22.8)<br />
Es ist σ 2 = − � uv θ(d(u, v)).<br />
Beweis. Wir setzen m := �<br />
Dann ist<br />
[0,∞)<br />
vμ(dv) =− �<br />
(−∞,0)<br />
uμ(du) und<br />
θ(d(u, v)) := m −1 (v − u) μ(du)μ(dv) für u
482 22 Gesetz vom iterierten Logarithmus<br />
Beweis (Satz 22.5). Wir nehmen zunächst an, dass X nur die zwei Werte u0: Bt ∈{u, v} � .<br />
D<br />
Nach Übung 21.2.4 ist E[Bτu,v ]=0also Bτu,v = X,sowieE[τu,v] =−uv.<br />
Sei nun X beliebig mit E[X] =0und σ2 := E[X2 ] < ∞. Setze μ = PX und<br />
θ = θμ wie in Lemma 22.8. Ferner sei Ξ =(Ξu,Ξv) eine Zufallsvariable mit<br />
Werten in (−∞, 0) × [0, ∞) und Verteilung θ.<br />
Sei F =(Ft)t≥0, wobei Ft := σ(Ξ, Bs : s ∈ [0,t]) ist. Setze τ := τΞu,Ξv .Auf<br />
Grund der Stetigkeit von B und wegen τ ≤ τu,v, falls uΞv, istfür<br />
jedes t ≥ 0<br />
{τ ≤ t} = �<br />
u,v∈Q<br />
u
Für n ∈ N und σ ∈{−, +} n setzen wir<br />
22.2 Skorohod’scher Einbettungssatz 483<br />
(σ, +) := (σ1,...,σn, +) ∈{−, +} n+1 .<br />
Für σ ∈{−, +} 0 := {∅} setzen wir (∅, +) = (+). Analog verfahren wir für (σ, −).<br />
Wir definieren sukzessive Mengen A σ und Punkte μ σ für σ ∈{−, +} n , n ∈ N0<br />
durch<br />
A ∅ := R, μ ∅ := E[X],<br />
A (σ,−) := A σ ∩ (−∞,μ σ ), A (σ,+) := A σ ∩ [μ σ , ∞),<br />
μ (σ,+) := E � X � � (σ,+)<br />
X ∈ A � ,<br />
� � �<br />
E X �X ∈ A (σ,−)� , falls P � X ∈ A (σ,−)� > 0,<br />
μ (σ,−) :=<br />
μ σ , sonst.<br />
Man beachte, dass die Abbildung σ ↦→ μσ monoton ist in der lexikographischen<br />
Ordnung ((σ, −) ≤ σ ≤ (σ, +) für jedes σ).<br />
Setze<br />
Gn := σ � {X ∈ A σ },σ∈{−, +} m ,m≤ n �<br />
für n ∈ N0,<br />
und G∞ := σ( �<br />
n∈N Gn). Dannist<br />
Xn := E[X � � Gn] für n ∈ N0,<br />
ein Martingal bezüglich der Filtration (Gn)n∈N0 . Nach der Jensen’schen Ungleichung<br />
ist E[X2 n] ≤ E[X2 ] < ∞ für jedes n ∈ N0. Nach dem L2-Martingalkonver genzsatz (Satz 11.10) gilt daher<br />
Xn<br />
n→∞<br />
−→ X∞ := E[X � �G∞] f.s. und in L 2 . (22.9)<br />
Für x ∈ R und n ∈ N sei σ(n, x) =(σ1(n, x),...,σn(n, x)) ∈{−, +} n (eindeutig)sogewählt,<br />
dass x ∈ A σ(n,x) . Offenbar ist dann σm(n, x) =σm(n ′ ,x)<br />
für alle n, n ′ ≥ m, also existiert ein (eindeutiges) σ(x) ∈{−, +} N mit σ(n, x) =<br />
(σ1(x),...,σn(x)) (der projektive Limes der σ(n, x), n ∈ N). Es ist dann<br />
Ferner ist<br />
μ σ(x)<br />
n<br />
x ∈ A σ(x)<br />
n<br />
:= μ (σ1(x),...,σn(x)) ⎧<br />
⎨<br />
=<br />
⎩<br />
:= A (σ1(x),...,σn(x)) .<br />
Setze fn(x) :=μ σ(x)<br />
n , f∞ = lim inf<br />
n→∞ fn(x). Dannist<br />
sup A σ(x)<br />
n+1 , falls σn+1 = −<br />
inf A σ(x)<br />
n+1 , falls σn+1 =+.<br />
fn(X) =E[X � � Gn] fast sicher für jedes n ∈ N ∪{∞}.<br />
(22.10)
484 22 Gesetz vom iterierten Logarithmus<br />
Wir nehmen daher im Folgenden an, dass wir die Version Xn := fn(X), n ∈<br />
N ∪{∞}fest gewählt haben. Offenbar sind fn, n ∈ N, und f∞ monoton wachsend.<br />
Schließlich setzen wir noch Aσ(x) := �∞ .<br />
n=1 Aσ(x) n<br />
1. Schritt Wir zeigen, dass X∞ = X f.s. Sei zunächst |X| ≤ C f.s. für ein<br />
C>0. Wir berechnen<br />
E[(Xn − Xn−1) 2 �<br />
]=E E � (Xn − Xn−1) 2 � �<br />
�Gn−1 �<br />
�<br />
≥ E E � |Xn − Xn−1| � � �<br />
2 �Gn−1 �<br />
= E E � |X − Xn−1| � � �<br />
2 �Gn−1 Auf Grund der Martingaleigenschaft ist<br />
≥ E � |X − Xn−1|] 2 ≥ (2C) −2 E � (X − Xn−1) 2� 2<br />
E � (X − Xn) 2� = E � (X − Xn−1) 2� − E � (Xn − Xn−1) 2� .<br />
Setzen wir an := E � (X − Xn) 2� /(4C 2 ), so folgt a0 ≤ 1 und<br />
an ≤ an−1 − a 2 n−1<br />
für jedes n ∈ N.<br />
1<br />
Induktiv erhalten wir an ≤ 1/(n +1),dennesista1≤ max x(1 − x) =<br />
x∈[0,1]<br />
4 , und<br />
für n ≥ 2 ist wegen an−1 ≤ 1/2<br />
an ≤ max<br />
x∈[0,an−1] x(1 − x) =an−1(1<br />
n − 1<br />
− an−1) ≤<br />
n2 n − 1<br />
≤<br />
n2 1<br />
=<br />
− 1 n +1 .<br />
Es folgt Xn<br />
n→∞<br />
−→ X in L2 und damit X∞ = X fs.<br />
Sei nun X nicht mehr notwendigerweise beschränkt. Für K>0 setzen wir<br />
X K ⎧<br />
⎨<br />
X, falls |X| ≤K,<br />
:= E[X |X >K],<br />
⎩<br />
E[X |X K,<br />
falls X
22.2 Skorohod’scher Einbettungssatz 485<br />
2. Schritt Wir zeigen: die Folge (Xn)n∈N0 ist ein Markovprozess mit (inhomogenen)<br />
Übergangswahrscheinlichkeiten<br />
P � Xn+1 = μ (σ,±) � �<br />
� (σ,∓) σ<br />
�<br />
μ − μ<br />
Gn] =<br />
� �<br />
μ (σ,+) − μ (σ,−) , falls Xn = μ σ . (22.11)<br />
Hierdurch ist die Verteilung von (Xn)n∈N0 natürlich eindeutig festgelegt.<br />
Offenbar ist (Xn)n∈N0 ein Markovprozess, weil σ(Xn) =Gn per Konstruktion gilt.<br />
Aus der Martingaleigenschaft E[Xn+1|Xn = μ σ ]=μ σ ergeben sich die Übergangswahrscheinlichkeiten.<br />
3. Schritt Wir definieren Stoppzeiten τ0 =0und<br />
�<br />
τn+1 := inf t ≥ τn : Bt ∈ � μ σ : σ ∈{−, +} n+1��<br />
,<br />
sowie τ := sup n∈N τn. Wegen der Monotonie von σ ↦→ μ σ liegt für σ ∈{−, +} n<br />
in (μ (σ,−) ,μ σ ) und (μ σ ,μ (σ,+) ) kein weiteres μ ϱ , ϱ ∈ {−, +} n+1 .Alsoist<br />
P[Bτn+1 ∈{μ(σ,−) ,μ (σ,+) } � �Bτn = μσ �<br />
]=1. Nach dem Optional Sampling Theorem<br />
(Übung 21.1.3) ist � E[Bτn+1<br />
Fτn ]=Bτn und damit<br />
P � Bτn+1 = μ(σ,±) � �Fτn ]=<br />
�<br />
� (σ,∓) σ μ − μ � �<br />
μ (σ,+) − μ (σ,−) , falls Bτn = μσ .<br />
Also ist (Bτn )n∈N0 ein Markovprozess mit den selben Übergangswahrscheinlichkeiten<br />
wie (Xn)n∈N0 , und damit gilt<br />
Also gilt auch Bτn<br />
Sukzessive erhält man<br />
(Bτn )n∈N0<br />
D<br />
=(Xn)n∈N0 .<br />
n→∞<br />
−→ Bτ fast sicher und Bτ<br />
E[τ1] =−μ − μ + = Var[X1].<br />
E[τn] =<br />
D<br />
= X. Ferner ist<br />
n�<br />
Var[Xm − Xm−1].<br />
m=1<br />
Da (Xn)n∈N ein Martingal ist, sind die Differenzen unkorreliert, also<br />
E[τ] =<br />
∞�<br />
n=1<br />
Var[Xn+1 − Xn] = lim<br />
n→∞ Var[Xn] =Var[X],<br />
nach (22.9) und wegen X = X∞. Damit ist der Beweis von Bemerkung 22.6 erbracht.<br />
✷
486 22 Gesetz vom iterierten Logarithmus<br />
22.3 Satz von Hartman-Wintner<br />
Ziel dieses Abschnitts ist der Beweis des Gesetzes vom iterierten Logarithmus für<br />
u.i.v. Zufallsvariablen Xn, n ∈ N mit zweiten Momenten, der auf Hartman und<br />
Wintner (1941) (siehe [68]) zurückgeht. (In der einfacheren Situation, wo die Xn<br />
Bernoulli Zufallsvariablen sind, hat bereits Khinchin (1923) die obere Abschätzung<br />
im Gesetz vom iterierten Logarithmus gefunden.)<br />
Satz 22.9 (Hartman-Wintner, Gesetz vom iterierten Logarithmus).<br />
Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit E[X1] =0und Var[X1] =1.<br />
Sei Sn = X1 + ...+ Xn, n ∈ N. Dann gilt<br />
lim sup<br />
n→∞<br />
Sn<br />
√ 2n log log n =1 f.s. (22.12)<br />
Wir beweisen den Satz, indem wir ihn auf das Gesetz vom iterierten Logarithmus<br />
für die Brown’sche Bewegung zurückführen. Zu diesem Zweck fassen wir die Partialsummen<br />
Sn als Werte der Brown’schen Bewegung B zu gewissen Stoppzeiten<br />
τ1 ≤ τ2 ≤ ... auf. Dass dies funktioniert, sichert der Skorohod’sche Einbettungssatz.<br />
Beweis. Nach Korollar 22.7 gibt es auf einem geeigneten Wahrscheinlichkeitsraum<br />
ein Filtration F und eine Brown’sche Bewegung B, die ein F-Martingal ist,<br />
D<br />
sowie Stoppzeiten τ1 ≤ τ2 ≤ ..., sodass (Sn)n∈N = (Bτn )n∈N. Ferner sind<br />
(τn − τn−1)n∈N u.i.v. mit E[τn − τn−1] =Var[X1] =1.<br />
Nach dem Gesetz vom iterierten Logarithmus für die Brown’sche Bewegung (siehe<br />
Satz 22.1) ist<br />
Bt<br />
lim sup √ =1 f.s.<br />
t→∞ 2t log log t<br />
Es reicht also zu zeigen, dass<br />
lim sup<br />
t→∞<br />
Bt − Bτ ⌊t⌋<br />
√ 2t log log t =0 f.s.<br />
Nach dem starken Gesetz der großen Zahl (Satz 5.17) gilt 1<br />
nτn ε>0 und t0 = t0(ω) so groß, dass<br />
1<br />
1+ε ≤ τ⌊t⌋ ≤ 1+ε für jedes t ≥ t0.<br />
t<br />
Setze<br />
Es reicht zu zeigen, dass lim sup<br />
t→∞<br />
ε) n , n ∈ N, und setze<br />
Mt := sup<br />
s∈[t/(1+ε),t(1+ε)]<br />
|Bs − Bt|.<br />
n→∞<br />
−→ 1 f.s. Sei also<br />
Mt<br />
√ 2t log log t =0. Betrachte die Folge tn =(1+
M ′ n := sup |Bs − Btn−1<br />
s∈[tn−1,tn+2]<br />
|.<br />
Dann ist (nach der Dreiecksungleichung) für t ∈ [tn,tn+1]<br />
Mt ≤ 2M ′ n.<br />
22.3 Satz von Hartman-Wintner 487<br />
Setze δ := (1 + ε) 3 − 1. Dannisttn+2 − tn−1 = δtn−1. Brown’sche Skalierung<br />
und das Spiegelungsprinzip (Satz 21.19) ergeben nun<br />
�<br />
P M ′ n > � �<br />
3δtn−1 log log tn−1<br />
�<br />
= P sup |Bs| ><br />
s∈[0,1]<br />
� �<br />
3loglogtn−1<br />
�<br />
≤ 2 P sup Bs > � �<br />
3loglogtn−1<br />
s∈[0,1]<br />
�<br />
=4P B1 > � �<br />
3loglogtn−1<br />
�<br />
2<br />
≤ � exp −<br />
3loglogtn−1<br />
3<br />
�<br />
log log tn−1<br />
2<br />
≤ n −3/2<br />
für n hinreichend groß.<br />
(Lemma 22.2)<br />
Die Wahrscheinlichkeiten lassen sich also über n summieren, und das Lemma von<br />
Borel-Cantelli liefert<br />
lim sup<br />
t→∞<br />
Mt<br />
√ t log log t ≤ lim sup<br />
n→∞<br />
2M ′ n<br />
� tn−1 log log tn−1<br />
≤ 2 √ 3δ.<br />
Lassen wir nun ε → 0 gehen, so geht δ =(1+ε) 3 − 1 → 0, und der Beweis ist<br />
vollständig. ✷
23 Große Abweichungen<br />
Wir haben (bis auf das Gesetz vom iterierten Logarithmus) bislang zwei Typen von<br />
Grenzwertsätzen für Partialsummen Sn = X1 + ...+ Xn, n ∈ N, von identisch<br />
verteilten, reellen Zufallsvariablen (Xi)i∈N mit Verteilungsfunktion F gesehen:<br />
(1) (Schwache) Gesetze der großen Zahl besagen (unter gewissen Annahmen an die<br />
Familie (Xi)i∈N), dass für jedes x>0<br />
P �� � Sn − n E[X1] � � ≥ xn � n→∞<br />
−→ 0. (23.1)<br />
Hieraus abgeleitet erhalten wir für die empirischen Verteilungsfunktionen Fn :<br />
x ↦→ 1 �n n→∞<br />
n i=1 (−∞,x](Xi) die stochastische Konvergenz �Fn − F �∞ −→ 0.<br />
Wir wollen dies umformulieren zu: Für jede Verteilungsfunktion G �= F und<br />
jedes ε>0 mit ε
490 23 Große Abweichungen<br />
23.1 Satz von Cramér<br />
Seien X1,X2,... u.i.v. mit PXi = N0,1. Dannistfür jedes x>0<br />
P[Sn >xn]=P � X1 >x √ n � =1− Φ � x √ n � =(1+εn)<br />
wobei (nach Lemma 22.2) εn<br />
n→∞<br />
−→ 0 gilt. Es gilt also<br />
1<br />
lim<br />
n→∞ n log P�Sn >xn � = − x2<br />
2<br />
1<br />
√ 2πn e −nx2 /2 ,<br />
für jedes x>0. (23.4)<br />
Man könnte versucht sein zu glauben, dass ein Zentraler Grenzwertsatz die Aussage<br />
(23.4) auch für alle zentrierten u.i.v. Folgen (Xi) mit endlicher Varianz liefert. Dies<br />
ist allerdings falsch, wie der folgende Satz zeigt. Die großen Abweichungen werden<br />
eben stärker durch die Schwänze der Verteilung von Xi beeinflusst, als dies bei<br />
den mittleren Fluktuationen der Fall ist, die durch die Varianz komplett determiniert<br />
werden. Der folgende Satz zeigt dies exemplarisch anhand der Bernoulli-Verteilung.<br />
Satz 23.1. Seien X1,X2,...u.i.v. mit P[X1 = −1] = P[X1 =1]= 1<br />
2 . Dann gilt<br />
für jedes x ≥ 0<br />
1<br />
lim<br />
n→∞ n log P[Sn >xn]=−I(x), (23.5)<br />
wobei die Ratenfunktion I gegeben ist durch<br />
�<br />
1+z<br />
2 log(1 + z)+<br />
I(z) =<br />
1−z<br />
2 log(1 − z), falls z ∈ [−1, 1],<br />
(23.6)<br />
∞, falls |z| > 1.<br />
Bemerkung 23.2. Wir verstehen hierbei 0log0 = 0, wodurch I stetig wird in<br />
[−1, 1] mit I(−1) = I(1) = log 2. Man bemerke: I ist strikt konvex auf [−1, 1]<br />
mit I(0) = 0; I ist monoton wachsend auf [0, 1] und monoton fallend auf [−1, 0].✸<br />
Beweis. Für x = 0 und x > 1 ist die Aussage trivial. Für x = 1 ist P[Sn ≥<br />
n] =2−n , daher gilt auch hier (23.5) trivialerweise. Es reicht also, x ∈ (0, 1) zu<br />
∼ bn,1/2 binomialverteilt, also<br />
betrachten. Es ist Sn+n<br />
2<br />
P � Sn ≥ xn � =2 −n<br />
�<br />
k≥(1+x)n/2<br />
� �<br />
n<br />
.<br />
k<br />
Wir setzen an(x) =⌈n(1 + x)/2⌉ für n ∈ N und erhalten, weil k ↦→ � � n<br />
k monoton<br />
fallend ist für k ≥ n<br />
2 :<br />
�� �<br />
� � �<br />
n<br />
n<br />
Qn(x) :=max : an(x) ≤ k ≤ n = . (23.7)<br />
k<br />
an(x)
Wir machen die Abschätzung<br />
Die Stirling’sche Formel<br />
liefert nun<br />
1<br />
lim log Qn(x)<br />
n→∞ n<br />
= lim<br />
n→∞<br />
23.1 Satz von Cramér 491<br />
2 −n Qn(x) ≤ P � Sn ≥ xn � ≤ (n +1)2 −n Qn(x). (23.8)<br />
1<br />
n log<br />
1<br />
= lim<br />
n→∞ n log<br />
lim<br />
n→∞<br />
1<br />
n! nn e −n√ 2πn =1<br />
n!<br />
an(x)! · (n − an(x))!<br />
n n<br />
an(x) an(x) · (n − an(x)) n−an(x)<br />
�<br />
= lim log(n) −<br />
n→∞<br />
an(x)<br />
n log � an(x) � n − an(x)<br />
− log<br />
n<br />
� n − an(x) ��<br />
�<br />
= lim log(n) −<br />
n→∞<br />
1+x<br />
2<br />
= − 1+x<br />
2<br />
−<br />
log 1+x<br />
2<br />
1 − x<br />
2<br />
− 1 − x<br />
2<br />
�<br />
log 1+x<br />
2 +log(n)<br />
�<br />
�<br />
1 − x<br />
log<br />
2 +log(n)<br />
��<br />
log<br />
1 − x<br />
2<br />
= −I(x)+log2.<br />
Wegen (23.8) folgt hieraus (23.5). ✷<br />
Ein allgemeines Verfahren zur Bestimmung der Ratenfunktion I (unter gewissen<br />
restriktiven Annahmen an die Verteilung von (Xi)) liefert der Satz von Cramér [30].<br />
Satz 23.3 (Cramér (1938)). Seien X1,X2,... u.i.v. reelle Zufallsvariablen mit<br />
logarithmischer momentenerzeugender Funktion<br />
Λ(t) :=logE � e tX1� < ∞ für jedes t ∈ R. (23.9)<br />
Sei<br />
Λ ∗ � �<br />
(x) :=suptx<br />
− Λ(t)<br />
t∈R<br />
für x ∈ R,<br />
die Legendre-Transformierte von Λ. Dann gilt für jedes x>E[X1]<br />
lim<br />
n→∞<br />
1<br />
n log P� Sn ≥ xn � = −I(x) :=−Λ ∗ (x). (23.10)
492 23 Große Abweichungen<br />
Beweis. Indem wir gegebenenfalls Xi − x betrachten, können wir E[Xi] < 0 und<br />
x = 0 annehmen. (Ist nämlich ˜ Xi := Xi − x und ˜ Λ und ˜ Λ∗ wie oben für ˜ Xi<br />
definiert, so ist ˜ Λ(t) =Λ(t) − t · x und daher ˜ Λ∗ (0) = supt∈R(− ˜ Λ(t)) = Λ∗ (x).)<br />
Setze ϕ(t) :=eΛ(t) und<br />
ϱ := e −Λ∗ (0) =inf<br />
t∈R ϕ(t).<br />
Nach (23.9) und dem Differentiationslemma (Satz 6.28) ist ϕ unendlich oft differenzierbar,<br />
und die ersten beiden Ableitungen sind<br />
ϕ ′ (t) =E � X1 e tX1�<br />
und ϕ ′′ (t) =E � X 2 1 e tX1� .<br />
Also ist ϕ strikt konvex und ϕ ′ (0) = E[X1] < 0.<br />
Sei zunächst der Fall P[X1 ≤ 0] = 1 betrachtet. Dann ist ϕ ′ (t) < 0 für jedes t ∈ R<br />
und ϱ = lim ϕ(t) =P[X1 =0]. Es folgt<br />
t→∞<br />
und damit die Behauptung.<br />
P[Sn ≥ 0] = P[X1 = ...= Xn =0]=ϱ n<br />
Sei nun P[X1 < 0] > 0 und P[X1 > 0] > 0. Dannistlim ϕ(t) = ∞ =<br />
t→∞<br />
lim ϕ(t).Daϕ strikt konvex ist, besitzt ϕ eine eindeutige Minimalstelle τ ∈ R,<br />
t→−∞<br />
also<br />
ϕ(τ) =ϱ und ϕ ′ (τ) =0.<br />
Wegen ϕ ′ (0) < 0 ist τ>0. Mit Hilfe der Markov’schen Ungleichung (Satz 5.11)<br />
erhalten wir die Abschätzung<br />
P[Sn ≥ 0] = P � e τSn ≥ 1 � ≤ E � e τSn� = ϕ(τ) n = ϱ n .<br />
Wir erhalten so die obere Schranke:<br />
lim sup<br />
n→∞<br />
1<br />
n log P[Sn ≥ 0] ≤ log ϱ = −Λ ∗ (0).<br />
Im Rest des Beweises müssen wir also die umgekehrte Ungleichung zeigen:<br />
lim inf<br />
n→∞<br />
1<br />
n log P[Sn ≥ 0] ≥ log ϱ. (23.11)<br />
Wir verwenden eine Methode der exponentiellen Größenverzerrung der Verteilung<br />
μ := PX1 von X1, die untypische Werte typisch macht, damit man sie besser untersuchen<br />
kann. Wir definieren also die Cramér-Transformierte ˆμ ∈M1(R) von<br />
μ durch<br />
ˆμ(dx) =ϱ −1 e τx μ(dx) für x ∈ R.<br />
Seien ˆ X1, ˆ X2,...unabhängig und identisch verteilt mit PXi ˆ =ˆμ. Dannist
Also ist<br />
23.1 Satz von Cramér 493<br />
ˆϕ(t) :=E � e t ˆ X1 � = 1<br />
�<br />
e<br />
ϱ R<br />
tx e τx μ(dx) = 1<br />
ϕ(t + τ).<br />
ϱ<br />
E � ˆ X1] = ˆϕ ′ (0) = 1<br />
ϱ ϕ′ (τ) =0,<br />
Var � ˆ X1] = ˆϕ ′′ (0) = 1<br />
ϱ ϕ′′ (τ) ∈ (0, ∞).<br />
Setzen wir ˆ Sn = ˆ X1 + ...+ ˆ Xn,soist<br />
�<br />
P[Sn ≥ 0] =<br />
μ(dx1) ···μ(dxn)<br />
�<br />
=<br />
= ϱ n E<br />
{x1+...+xn≥0}<br />
{x1+...+xn≥0}<br />
�<br />
e −τ ˆ Sn<br />
� ϱe −τx1 � ˆμ(dx1) ··· � ϱe −τxn� ˆμ(dxn)<br />
{ ˆ Sn≥0}<br />
Wir erhalten also (23.11), wenn wir zeigen können, dass<br />
lim inf<br />
n→∞<br />
�<br />
.<br />
1<br />
�<br />
log E e<br />
n −τ ˆ Sn<br />
{ ˆ Sn≥0}<br />
Nach dem Zentralen Grenzwertsatz (Satz 15.37) ist für c>0<br />
1<br />
�<br />
log E e<br />
n −τ ˆ Sn<br />
{ ˆ Sn≥0}<br />
�<br />
≥ 1<br />
n<br />
≥ 1<br />
n log<br />
�<br />
log E<br />
e −τ ˆ Sn<br />
{0≤ ˆ Sn≤c √ �<br />
n }<br />
�<br />
e −τc√ � ˆ �<br />
n Sn<br />
P √n ∈ [0,c]<br />
�<br />
�<br />
≥ 0. (23.12)<br />
n→∞ −τc<br />
−→ lim<br />
n→∞<br />
√ n 1<br />
+ lim<br />
n n→∞ n log � N0,Var[X1]([0,c]) �<br />
=0. ✷<br />
Beispiel 23.4. Ist PX1 = N0,1, soist<br />
Λ(t) = log � E � e tX1�� � � ∞<br />
1<br />
=log √2π e<br />
−∞<br />
tx e −x2 �<br />
/2<br />
dx = t2<br />
2 .<br />
Weiter ist<br />
Λ ∗ (z) =sup<br />
t∈R<br />
�<br />
� �<br />
tz − Λ(t) =sup tz −<br />
t∈R<br />
t2<br />
�<br />
=<br />
2<br />
z2<br />
2 .<br />
Die Ratenfunktion stimmt also mit der aus (23.4) überein. ✸<br />
1<br />
Beispiel 23.5. Ist PX1 = 2δ−1 + 1<br />
2δ1, soistΛ(t) =logcosh(t). Der Maximierer<br />
t∗ = t∗ (z) aus dem Variationsproblem für Λ∗ erfüllt die Gleichung z = Λ ′ (t∗ )=<br />
tanh(t∗ ).Alsoist
494 23 Große Abweichungen<br />
Λ ∗ (z) =zt ∗ − Λ(t ∗ )=z arc tanh(z) − log � cosh(arc tanh(z)) � .<br />
Nun ist arc tanh(z) = 1 1+z<br />
log<br />
2 1 − z<br />
Es folgt<br />
cosh � arc tanh(z) � =<br />
für z ∈ (−1, 1) und<br />
Λ ∗ (z) = z<br />
z<br />
log(1 + z) − log(1 − z)+1<br />
2 2 2<br />
= 1+z<br />
2<br />
log(1 + z)+<br />
1<br />
√<br />
1 − z2 =<br />
1<br />
� .<br />
(1 − z)(1 + z)<br />
1 − z<br />
2<br />
log(1 − z).<br />
log(1 − z)+1 log(1 + z)<br />
2<br />
Dies ist aber gerade die Ratenfunktion aus Satz 23.1. ✸<br />
−1 e−|x|<br />
Übung 23.1.1. Sei X eine reelle Zufallsvariable mit Dichte f(x) =c ,<br />
1+|x| 3<br />
� ∞<br />
e<br />
wobei c =<br />
−∞<br />
−|x|<br />
dx. Man untersuche die logarithmische momentenerzeu-<br />
1+|x| 3<br />
gende Funktion Λ auf Unstetigkeitsstellen und skizziere den Graphen von Λ. ♣<br />
23.2 Prinzip der großen Abweichungen<br />
Wir wollen in diesem Abschnitt die Idee des Satzes von Cramér, die Wahrscheinlichkeiten<br />
seltener, oder untypischer, Ereignisse vermittels einer exponentiellen Rate<br />
und einer Ratenfunktion zu quantifizieren, in einen formalen Rahmen stellen. In diesem<br />
Rahmen kann die gesamte Theorie großer Abweichungen entwickelt werden;<br />
der Leser sei etwa auf die Bücher [32], [33] oder [74] verwiesen.<br />
Sei E ein polnischer Raum mit vollständiger Metrik d. Wir schreiben Bε(x) ={y ∈<br />
E : d(x, y) 0.<br />
Eine Abbildung f : E → R =[−∞, ∞] heißt halbstetig von unten, falls für<br />
jedes a ∈ R die Niveaumenge f −1 ([−∞,a]) ⊂ E abgeschlossen ist. (Speziell sind<br />
also stetige Abbildungen stets halbstetig von unten. Allerdings ist (0,1) : R → R<br />
halbstetig von unten, jedoch nicht stetig.) Äquivalent hierzu ist die Bedingung, dass<br />
limε↓0 inf f(Bε(x)) = f(x) ist für jedes x ∈ E. (Man beachte, dass inf f(A) =<br />
inf{f(x) : x ∈ A}.) Ist K ⊂ E kompakt und nichtleer, so nimmt f auf K das<br />
Infimum an. In der Tat: Für den Fall, wo f(x) =∞ für jedes x ∈ K ist, ist die<br />
Aussage trivial. Sei nun inf f(K) < ∞. Istan ↓ inf f(K) streng monoton fallend,<br />
so ist K∩f −1 ([−∞,an]) �= ∅ kompakt für jedes n ∈ N, also ist auch der unendliche<br />
Schnitt nichtleer<br />
f −1 ∞�<br />
(inf f(K)) = K ∩ f −1 ([−∞,an]) �= ∅.<br />
n=1
23.2 Prinzip der großen Abweichungen 495<br />
Definition 23.6 (Ratenfunktion). Eine von unten halbstetige Funktion I : E →<br />
[0, ∞] heißt Ratenfunktion. Sind alle Niveaumengen I −1 ([−∞,a]), a ∈ [0, ∞),<br />
kompakt, so nennen wir I eine gute Ratenfunktion.<br />
Definition 23.7 (Prinzip großer Abweichungen). Sei I eine Ratenfunktion und<br />
(με)ε>0 eine Familie von W-Maßen auf E. Wir sagen, dass (με)ε>0 ein Prinzip<br />
großer Abweichungen (kurz: LDP für Large Deviations Principle) mit Ratenfunktion<br />
I erfüllt, falls<br />
(LDP 1) lim inf ε log(με(U)) ≥−inf I(U)<br />
ε→0<br />
für jedes offene U ⊂ E,<br />
(LDP 2) lim sup ε log(με(C)) ≤−inf I(C)<br />
ε→0<br />
für jedes abgeschlossene C ⊂ E.<br />
Wir sagen, dass eine Familie (Pn)n∈N von W-Maßen auf E ein LDP mit Rate rn ↑<br />
∞ und Ratenfunktion I erfüllt, falls (LDP 1) und (LDP 2) für die Folge εn =1/rn<br />
und für μ 1/rn = Pn gelten.<br />
Oftmals werden die Bedingungen (LDP 1) und (LDP 2) kurz untere Schranke und<br />
obere Schranke genannt. In vielen Fällen ist die untere Schranke leichter zu zeigen<br />
als die obere.<br />
Bevor wir zeigen, dass der Satz von Cramér im Wesentlichen schon ein LDP ist,<br />
bringen wir noch zwei mehr technische Aussagen.<br />
Satz 23.8. Die Ratenfunktion in einem LDP ist eindeutig.<br />
Beweis. Es erfülle (με)ε>0 das LDP mit Ratenfunktionen I und J. Dannistfür<br />
jedes x ∈ E und δ>0<br />
I(x) ≥ inf I(Bδ(x))<br />
≥−lim inf<br />
ε→0 ε log � με(Bδ(x)) �<br />
�<br />
Bδ(x) ��<br />
≥−lim sup ε log<br />
ε→0<br />
� με<br />
≥ inf I � Bδ(x) � δ→0<br />
−→ J(x).<br />
Es folgt I(x) ≥ J(x) und analog J(x) ≥ I(x). ✷<br />
Lemma 23.9. Sei N ∈ N, und seien ai ε, i =1,...,N, ε>0, nichtnegative Zahlen.<br />
Dann gilt<br />
N�<br />
lim sup ε log a<br />
ε→0<br />
i ε = max lim sup ε log(a<br />
i=1,...,N ε→0<br />
i ε).<br />
i=1
496 23 Große Abweichungen<br />
Beweis. Summe und Maximum unterscheiden sich höchstens um den Faktor N:<br />
max<br />
i=1,...,N ε log(ai ε) ≤ ε log<br />
N�<br />
i=1<br />
Maximum und Limes (superior) vertauschen, also ist<br />
max lim sup ε log(a<br />
i=1,...,N ε→0<br />
i �<br />
ε) = lim sup ε log<br />
ε→0<br />
� �N<br />
�<br />
ε log<br />
≤ lim sup<br />
ε→0<br />
≤ lim sup<br />
ε→0<br />
a i ε ≤ ε log(N) + max<br />
i=1,...,N ε log(ai ε).<br />
max<br />
i=1,...,N ai ε<br />
i=1<br />
a i ε<br />
�<br />
ε log(N)+ max lim sup ε log(a<br />
i=1,...,N ε→0<br />
i ε)<br />
= max lim sup ε log(a<br />
i=1,...,N ε→0<br />
i ε). ✷<br />
Beispiel 23.10. Wir nehmen an, dass die Bedingungen aus dem Satz von Cramér<br />
(Satz 23.3) gelten. Es seien also X1,X2,... u.i.v. reelle Zufallsvariablen mit<br />
Λ(t) =log(E[etX1 ]) < ∞ für jedes t ∈ R. Ferner sei Sn = X1 + ...+ Xn für<br />
jedes n. Wir wollen zeigen, dass aus dem Satz von Cramér folgt, dass Pn := PSn/n ein LDP mit Rate n und guter Ratenfunktion I(x) =Λ∗ (x) :=supt∈R(tx − Λ(t))<br />
erfüllt. Ohne Einschränkung können wir annehmen, dass E[X1] =0ist. Die Funktion<br />
I ist überall endlich, stetig, strikt konvex und hat die eindeutige Minimalstelle bei<br />
I(0) = 0. Der Satz von Cramér besagt, dass limn→∞ 1<br />
n log(Pn([x, ∞))) = −I(x)<br />
für x>0 und (aus Symmetriegründen) limn→∞ 1<br />
n log(Pn((−∞,x])) = −I(x) für<br />
x0<br />
1<br />
−I(x) ≥ lim<br />
n→∞<br />
≥ sup lim<br />
ε>0 n→∞<br />
n log Pn((x, ∞))<br />
1<br />
n log Pn([x + ε, ∞)) = − inf I(x + ε) =−I(x)<br />
ε>0<br />
1<br />
und für x
lim sup<br />
n→∞<br />
1<br />
n<br />
log Pn(C)<br />
≤ lim sup<br />
n→∞<br />
=max<br />
23.2 Prinzip der großen Abweichungen 497<br />
1<br />
n log � � � � ��<br />
− +<br />
Pn (−∞,x ] + Pn [x , ∞)<br />
�<br />
lim sup<br />
n→∞<br />
1 � � −<br />
log Pn (−∞,x ] , lim sup<br />
n n→∞<br />
=max � − I(x − ), −I(x + ) � = − inf I(C).<br />
1<br />
n<br />
� � +<br />
log Pn [x , ∞) �<br />
Damit ist (LDP 2) gezeigt.<br />
Sei nun U ⊂ R offen. Sei x ∈ U, x>0, (falls es solch ein x gibt). Dann existiert<br />
ein ε>0 mit (x − ε, x + ε) ⊂ U ∩ (0, ∞). Nun ist<br />
lim<br />
n→∞<br />
1 � �<br />
log Pn (x − ε, ∞) = −I(x − ε) > −I(x + ε)<br />
n<br />
= lim<br />
n→∞<br />
1 � �<br />
log Pn [x + ε, ∞) .<br />
n<br />
Es folgt<br />
lim inf<br />
n→∞<br />
1<br />
n log Pn(U) ≥ lim<br />
n→∞<br />
1<br />
n log Pn((x<br />
= lim<br />
n→∞<br />
− ε, x + ε))<br />
1<br />
n log � = lim<br />
n→∞<br />
� � � ��<br />
Pn (x − ε, ∞) − Pn [x + ε, ∞)<br />
1<br />
n log � � ��<br />
Pn (x − ε, ∞) = −I(x − ε) ≥ −I(x).<br />
Analog folgt dies auch für x ∈ U ∩ (−∞, 0), also ist<br />
lim inf<br />
n→∞<br />
1<br />
n log Pn(U) ≥ inf I(U \{0}) = inf I(U),<br />
wobei wir im letzten Schritt ausgenutzt haben, dass U offen und I stetig ist. Damit<br />
ist die untere Schranke (LDP 1) gezeigt. ✸<br />
Tatsächlich kann man auf die Bedingung, dass Λ(t) < ∞ für alle t ∈ R gilt, verzichten.<br />
Da offenbar Λ(0) = 0 ist, ist Λ ∗ (x) ≥ 0 für jedes x ∈ R. Die Abbildung Λ ∗<br />
ist eine konvexe Ratenfunktion, jedoch im Allgemeinen keine gute Ratenfunktion.<br />
Wir zitieren die folgende Verstärkung des Satzes von Cramér (siehe [32, Theorem<br />
2.2.3]).<br />
Satz 23.11 (Cramér). Sind X1,X2,...u.i.v. reelle Zufallsvariablen, dann erfüllt<br />
(P Sn/n)n∈N ein LDP mit Ratenfunktion Λ ∗ .<br />
Übung 23.2.1. Sei E = R. Man zeige, dass με := N0,ε ein LDP mit guter Ratenfunktion<br />
I(x) =x 2 /2 erfüllt. Man zeige ferner, dass in der oberen Schranke<br />
(LDP 2) strikte Ungleichheit auftreten kann. ♣
498 23 Große Abweichungen<br />
Übung 23.2.2. Sei E = R. Man zeige, dass με := N 0,ε 2 ein LDP mit guter Ratenfunktion<br />
I(x) =∞· R\{0}(x) erfüllt. Man zeige ferner, dass in der unteren<br />
Schranke (LDP 1) strikte Ungleichheit auftreten kann. ♣<br />
Übung 23.2.3. Sei E = R. Man zeige, dass με := 1<br />
2N−1,ε + 1<br />
2N1,ε ein LDP mit<br />
guter Ratenfunktion I(x) =min( 1<br />
2 (x +1)2 , 1<br />
2 (x − 1)2 ) erfüllt. ♣<br />
Übung 23.2.4. Man berechne Λ und Λ ∗ für den Fall, wo X1 ∼ exp θ für θ>0<br />
und interpretiere die Aussage von Satz 23.11 für diesen Fall. Man prüfe, dass Λ ∗<br />
die eindeutige Nullstelle bei E[X1] hat. (Ergebnis: Λ ∗ (x) =θx − log(θx) − 1 falls<br />
x>0 und = ∞ sonst.) ♣<br />
Übung 23.2.5. Man berechne Λ und Λ ∗ für den Fall, wo X1 Cauchy verteilt ist und<br />
interpretiere die Aussage von Satz 23.11 für diesen Fall. ♣<br />
Übung 23.2.6. Sei Xλ ∼ Poiλ für jedes λ>0. Man zeige, dass με := PεX λ/ε ein<br />
LDP mit guter Ratenfunktion I(x) =x log(x/λ) +λ − x für x ≥ 0 (und = ∞<br />
sonst) erfüllt. ♣<br />
Übung 23.2.7. Sei (Xt)t≥0 die Irrfahrt auf Z in stetiger Zeit, die mit Rate 1<br />
2 einen<br />
Schritt nach rechts springt und mit Rate 1<br />
2 einen Schritt nach links springt. Man<br />
zeige, dass (PεX )ε>0 ein LDP erfüllt mit der konvexen guten Ratenfunktion<br />
1/ε<br />
I(x) =1+xarcsinh(x) − √ 1+x2 . ♣<br />
23.3 Satz von Sanov<br />
Dieser Abschnitt ist an die Darstellung in [32] angelehnt.<br />
Wir wollen hier ein Prinzip der großen Abweichungen vorstellen, das nicht auf einem<br />
linearen Raum basiert, wie der Satz von Cramér, sondern für empirische Verteilungen<br />
unabhängiger Zufallsvariablen mit Werten in einer endlichen Menge Σ,<br />
die meist Alphabet genannt wird, annehmen.<br />
Sei μ ein W-Maß auf Σ mit μ({x}) > 0 für jedes x ∈ Σ. Seien ferner X1,X2,...<br />
u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ. Wir wollen ein<br />
Prinzip großer Abweichungen für die empirischen Maße<br />
ξn(X) := 1<br />
n<br />
n�<br />
δXi<br />
i=1<br />
herleiten. Man beachte, dass nach dem Gesetz der großen Zahl P-fast sicher gilt,<br />
dass ξn(X) n→∞<br />
−→ μ. Als Zustandsraum ergibt sich also E = M1(Σ), ausgestattet<br />
mit der Metrik d(μ, ν) =�μ − ν�TV der Totalvariation. (Da Σ nur endlich viele
23.3 Satz von Sanov 499<br />
Punkte enthält, sind in E die vage Konvergenz, die schwache Konvergenz und die<br />
Konvergenz in Totalvariation identisch.) Es sei weiterhin<br />
�<br />
�<br />
En := μ ∈M1(Σ) : nμ({x}) ∈ N0 für jedes x ∈ Σ<br />
der mögliche Wertebereich der Zufallsvariablen ξn(X).<br />
Wir erinnern an den Begriff der Entropie von μ<br />
�<br />
H(μ) :=− log � μ({x}) � μ(dx).<br />
Ist ν ∈M1(Σ), sodefinieren wir die relative Entropie (oder Kullback-Leibler<br />
Information nach [101]) von ν gegeben μ durch<br />
� � �<br />
ν({x})<br />
H(ν |μ) := log<br />
ν(dx). (23.13)<br />
μ({x})<br />
Da μ({x}) > 0 ist für alle x ∈ Σ, ist der Integrand ν-f.s. endlich und damit ist<br />
auch das Integral endlich. Eine einfache Anwendung der Jensen’schen Ungleichung<br />
liefert, dass H(μ) ≥ 0 und H(ν |μ) ≥ 0 ist (siehe Lemma 5.26 und Übung 5.3.3),<br />
sowie H(ν |μ) =0genau dann, wenn ν = μ ist. Außerdem ist offenbar<br />
�<br />
H(ν |μ)+H(ν) =− log � μ({x}) � ν(dx). (23.14)<br />
Da die Abbildung ν ↦→ Iμ(ν) :=H(ν |μ) stetig ist, ist Iμ eine Ratenfunktion.<br />
Lemma 23.12. Für jedes n ∈ N und ν ∈ En gilt<br />
(n +1) −#Σ e −nH(ν |μ) ≤ P[ξn(X) =ν] ≤ e −nH(ν |μ) . (23.15)<br />
Beweis. Wir betrachten die Menge möglicher Werte für das n-Tupel (X1,...,Xn),<br />
sodass ξn(X) =ν ist:<br />
An(ν) :=<br />
�<br />
k =(k1,...,kn) ∈ Σ n : 1<br />
n<br />
Für jedes k ∈ An(ν) ist (vergleiche (23.14))<br />
n�<br />
i=1<br />
δki<br />
�<br />
= ν .<br />
P[ξn(X) =ν] =#An(ν) P[X1 = k1,...,Xn = kn]<br />
=#An(ν) �<br />
μ({x}) nν({x})<br />
x∈Σ<br />
=#An(ν) exp<br />
� �<br />
n<br />
�<br />
ν(dx) logμ({x})<br />
=#An(ν) exp � − n[H(ν)+H(ν |μ)] � .
500 23 Große Abweichungen<br />
Seien nun Y1,Y2,... u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PY1 =<br />
ν. Dann ist wie in der Rechnung für X (wegen H(ν |ν) =0)<br />
1 ≥ P[ξn(Y )=ν] = #An(ν) e −nH(ν) ,<br />
also #An(ν) ≤ enH(ν) . Hieraus folgt die zweite Ungleichung in (23.15).<br />
Die Zufallsvariable nξn(Y ) ist multinomialverteilt mit Parametern (nν({x}))x∈Σ,<br />
also ist die Abbildung En → [0, 1], ν ′ ↦→ P[ξn(Y )=ν ′ ] maximal in ν ′ = ν. Es<br />
folgt<br />
#An(ν) = e nH(ν) P[ξn(Y )=ν] ≥ enH(ν)<br />
≥ (n +1) −#Σ e nH(ν) .<br />
#En<br />
Hieraus folgt die erste Ungleichung in (23.15). ✷<br />
Wir kommen jetzt zum Hauptsatz dieses Abschnitts, dem Satz von Sanov (siehe<br />
[142] und [143]).<br />
Satz 23.13 (Sanov (1957)). Seien X1,X2,... u.i.v. Zufallsvariablen mit Werten<br />
in der endlichen Menge Σ und mit Verteilung μ. Dann erfüllt die Familie<br />
(P ξn(X))n∈N der Verteilungen der empirischen Maße ein LDP mit Rate n und<br />
Ratenfunktion Iμ = H( · |μ).<br />
Beweis. Für jedes A ⊂ E ist nach Lemma 23.12<br />
P � ξn(X) ∈ A � = �<br />
P[ξn(X) =ν]<br />
ν∈A∩En<br />
≤ �<br />
Es folgt<br />
lim sup<br />
n→∞<br />
ν∈A∩En<br />
−nH(ν |μ)<br />
e<br />
≤ #(A ∩ En)exp � − n inf Iμ(A ∩ En) �<br />
≤ (n +1) #Σ exp � − n inf Iμ(A) � .<br />
1<br />
n log P[ξn(X) ∈ A] ≤−inf Iμ(A),<br />
also die obere Schranke im LDP (sogar für allgemeines A).<br />
Analog erhalten wir mit der ersten Ungleichung aus Lemma 23.12<br />
P � ξn(X) ∈ A � ≥ (n +1) −#Σ exp � − n inf Iμ(A ∩ En) �<br />
und damit<br />
lim inf<br />
n→∞<br />
1<br />
n log P�ξn(X) ∈ A � ≥−lim sup inf Iμ(A ∩ En). (23.16)<br />
n→∞
23.3 Satz von Sanov 501<br />
Man beachte, dass wir für diese Ungleichung im Infimum nicht einfach A ∩ En<br />
durch A ersetzen können. Wir zeigen vielmehr, dass dies für offenes A zumindest<br />
asymptotisch geht. Sei also A ⊂ E offen. Für ν ∈ A gibt es ein ε>0 mit Bε(ν) ⊂<br />
n→∞<br />
A.Für n ≥ (2 #Σ)/ε ist En ∩ Bε(ν) �= ∅, also existiert eine Folge νn −→ ν mit<br />
νn ∈ En ∩ A für hinreichend großes n ∈ N. DaIμ stetig ist, gilt<br />
lim sup<br />
n→∞<br />
inf Iμ(A ∩ En) ≤ lim<br />
n→∞ Iμ(νn) =Iμ(ν).<br />
Da ν ∈ A beliebig war, folgt lim sup n→∞ inf Iμ(A ∩ En) =infIμ(A). ✷<br />
Beispiel 23.14. Sei Σ = {−1, 1} und μ = 1<br />
2δ−1 + 1<br />
2δ1 die Gleichverteilung auf Σ.<br />
Schreiben wir m = m(ν) =ν({1}) − ν({−1}), dann ist die relative Entropie von<br />
ν ∈M1(Σ)<br />
H(ν |μ) = 1+m<br />
2<br />
log(1 + m) +<br />
1 − m<br />
2<br />
log(1 − m).<br />
Dies ist genau die Ratenfunktion, die wir bereits aus Satz 23.1 kennen. ✸<br />
Wir wollen den Zusammenhang zwischen den LDPs von Sanov und von Cramér,<br />
der im letzten Beispiel angedeutet wurde, nun formal herstellen, indem wir eine<br />
Variante des Satzes von Cramér für R d -wertige Zufallsvariablen, die nur endlich<br />
viele Werte annehmen, aus dem Satz von Sanov herleiten.<br />
Beispiel 23.15. Sei Σ ⊂ Rd endlich und μ ein W-Maß auf Σ. Seien ferner<br />
X1,X2,... u.i.v. Zufallsvariablen mit Werten in Σ und Verteilung PX1 = μ sowie<br />
Sn = X1 + ...+ Xn für jedes n ∈ N. Wir setzen Λ(t) = log E � e 〈t,X1〉� für t ∈ Rd und Λ∗ � �<br />
d (x) =supt∈Rd 〈t, x〉−Λ(t) für x ∈ R .<br />
Wir zeigen, dass � �<br />
PSn/n n∈N ein LDP mit Rate n und Ratenfunktion Λ∗ erfüllt.<br />
Es sei ξn(X) das empirische Maß von X1,...,Xn. SeiE := M1(Σ). Definiere<br />
die Abbildung<br />
m : E → R d ,<br />
�<br />
ν ↦→ xν(dx) = �<br />
xν({x}),<br />
die ν das erste Moment zuordnet. Offenbar ist dann 1<br />
n Sn = m(ξn(X)). Für<br />
x ∈ R d und A ⊂ R d seien Ex := m −1 ({x}) ={ν ∈ E : m(ν) =x} und<br />
EA = m −1 (A) ={ν ∈ E : m(ν) ∈ A}. Die Abbildung ν ↦→ m(ν) ist stetig,<br />
also ist EA offen (beziehungsweise abgeschlossen), falls A offen (beziehungsweise<br />
abgeschlossen) ist. Mit Ĩ(x) :=infIμ(Ex) (wobei Iμ(ν) =H(ν |μ) die relative<br />
Entropie ist) gilt nach dem Satz von Sanov für offenes U ⊂ R d<br />
lim inf<br />
n→∞<br />
1<br />
n log PSn/n(U) = lim inf<br />
n→∞<br />
x∈Σ<br />
1<br />
n log P � � −1<br />
ξn(X) m (U)<br />
≥−inf<br />
μ I � m −1 (U) � = − inf Ĩ(U).
502 23 Große Abweichungen<br />
Analog ist für abgeschlossenes C ⊂ R d<br />
lim sup<br />
n→∞<br />
1<br />
n log P Sn/n(C) ≥−inf Ĩ(C).<br />
Mit anderen Worten: (P Sn/n)n∈N erfüllt ein LDP mit Rate n und Ratenfunktion Ĩ.<br />
Es ist also nur noch zu zeigen, dass Ĩ = Λ∗ gilt.<br />
Man beachte, dass t ↦→ Λ(t) differenzierbar (mit Ableitung Λ ′ ) und strikt konvex<br />
ist. Daher besitzt das Variationsproblem für Λ∗ (x) einen eindeutigen Maximierer<br />
t∗ (x). Genauer gilt<br />
Λ ∗ (x) =〈t ∗ (x),x〉−Λ(t ∗ (x))<br />
und Λ∗ (x) > 〈t, x〉−Λ(t) für alle t �= t∗ (x),sowieΛ ′ (t∗ (x)) = x.<br />
Nach der Jensenschen Ungleichung ist für jedes ν ∈M1(Σ)<br />
�<br />
Λ(t) = log e 〈t,y〉 μ(dy)<br />
� �<br />
�<br />
〈t,y〉 μ({y})<br />
=log e ν(dy)<br />
ν({y})<br />
� �<br />
�<br />
〈t,y〉 μ({y})<br />
≥ log e ν(dy)<br />
ν({y})<br />
= 〈t, m(ν)〉−H(ν |μ)<br />
mit Gleichheit genau dann, wenn ν = νt,woνt({y}) =μ({y})e 〈t,y〉−Λ(t) .Alsoist<br />
〈t, x〉−Λ(t) ≤ inf H(ν |μ)<br />
ν∈Ex<br />
mit Gleichheit, falls νt ∈ Ex. Nun ist aber m(νt) =Λ ′ (t), also ist νt∗ (x) ∈ Ex und<br />
damit<br />
Λ ∗ (x) =〈t ∗ (x),x〉−Λ(t ∗ (x)) = inf H(ν |μ) = Ĩ(x). ✸<br />
ν∈Ex<br />
Das Beweisprinzip, das wir im letzten Beispiel verwandt haben, um das LDP mit<br />
Ratenfunktion Ĩ herzuleiten, wird Kontraktionsprinzip genannt. Wir formulieren<br />
es als Satz.<br />
Satz 23.16 (Kontraktionsprinzip). Die Familie (με)ε>0 von W-Maßen auf E erfülle<br />
ein LDP mit Ratenfunktion I. IstFein topologischer Raum und m : E → F<br />
stetig, so erfüllen die Bildmaße (με ◦ m−1 )ε>0 ein LDP mit Ratenfunktion Ĩ(x) =<br />
inf I(m−1 ({x})).<br />
23.4 Varadhan’sches Lemma und Freie Energie<br />
Wir nehmen an, dass (με)ε>0 eine Familie von W-Maßen ist, die ein LDP mit Ratenfunktion<br />
I erfüllt. Wir wissen also, dass die Masse von με für kleine ε>0 mehr und
23.4 Varadhan’sches Lemma und Freie Energie 503<br />
mehr um die Nullstellen von I herum konzentriert liegt. In der statistischen Physik<br />
ist es oftmals von Interesse, Funktionen bezüglich με (wobei 1/ε als ” Systemgröße“<br />
verstanden wird) zu integrieren, die ihren größten Wert nicht in den Nullstellen von<br />
I annehmen, und die zudem noch exponentiell mit 1/ε skalieren. Es soll also die<br />
Asymptotik von Z φ ε := � e φ(x)/ε με(dx) für ε → 0 untersucht werden. Unter harmlosen<br />
Stetigkeitsannahmen tragen zu dem Integral hauptsächlich diejenigen Punkte<br />
x bei, für die φ(x) groß ist, die aber gleichzeitig nicht zu unwahrscheinlich sind,<br />
also diejenigen x, für die φ(x) − I(x) die größten Werte annimmt. Die Beiträge<br />
messen wir durch die gekippten W-Maße μ φ ε (dx) =(Z φ ε ) −1 e φ(x)/ε με(dx), für die<br />
wir ein LDP herleiten. Als Anwendung folgern wir das Prinzip der Minimierung der<br />
freien Energie in der statistischen Physik und analysieren speziell den Weiss’schen<br />
Ferromagneten.<br />
Satz 23.17 (Varadhan’sches Lemma (1966)). Sei I eine gute Ratenfunktion und<br />
(με)ε>0 eine Familie von W-Maßen, die ein LDP mit Ratenfunktion I erfüllt. Sei<br />
ferner φ : E → R stetig und erfülle die Bedingung<br />
�<br />
Dann gilt<br />
inf lim sup ε log<br />
M>0 ε→0<br />
�<br />
lim ε log<br />
ε→0<br />
e φ(x)/ε {φ(x)≥M} με(dx) =−∞. (23.17)<br />
e φ(x)/ε � �<br />
με(dx) =supφ(x)<br />
− I(x) . (23.18)<br />
x∈E<br />
Bemerkung 23.18. Die Bedingung (23.17) folgt aus der etwas griffigeren Bedingung,<br />
dass es ein α>1 gibt mit<br />
�<br />
lim sup ε log e<br />
ε→0<br />
αφ/ε dμε < ∞. (23.19)<br />
In der Tat: Für jedes M ∈ R ist<br />
�<br />
ε log<br />
e φ(x)/ε {φ(x)≥M} με(dx) =M + ε log<br />
�<br />
e (φ(x)−M)/ε {φ(x)≥M} με(dx)<br />
�<br />
≤ M + ε log e α(φ(x)−M)/ε με(dx)<br />
�<br />
= −(α − 1)M + ε log e αφ(x)/ε με(dx).<br />
Hieraus und aus (23.19) folgt sofort (23.17). ✸<br />
Beweis. Wir zeigen mit unterschiedlichen Argumenten, dass die rechte Seite in<br />
(23.18) eine untere Schranke und eine obere Schranke für die linke Seite ist.
504 23 Große Abweichungen<br />
Untere Schranke Für jedes x ∈ E und r>0 ist<br />
�<br />
lim inf ε log<br />
ε→0<br />
e φ/ε �<br />
dμε ≥ lim inf ε log<br />
ε→0<br />
Br(x)<br />
e φ/ε dμε<br />
≥ inf φ(Br(x)) − I(x) r→0<br />
−→ φ(x) − I(x).<br />
Obere Schranke Für M>0 und ε>0 definieren wir<br />
�<br />
�<br />
F ε M :=<br />
Wir setzen<br />
e<br />
{φ≥M}<br />
φ(x)/ε με(dx) und G ε M :=<br />
FM := lim sup<br />
ε→0<br />
{φ0<br />
�<br />
lim ε log e<br />
ε→0 φ(x)/ε με(dx) =FM ∨ GM .<br />
Da nach Voraussetzung infM>0 FM = −∞ gilt, reicht es zu zeigen, dass<br />
� �<br />
sup GM ≤ sup φ(x) − I(x) . (23.20)<br />
M>0<br />
x∈E<br />
Sei δ>0. Für jedes x ∈ I gibt es ein r(x) > 0 mit<br />
inf I � B 2r(x)(x) � ≥ I(x) − δ und sup φ � B 2r(x)(x) � ≤ φ(x) − δ.<br />
Sei a ≥ 0. DaI eine gute Ratenfunktion ist, ist die Niveaumenge K := I −1 ([0,a])<br />
kompakt. Wir finden also endlich viele Punkte x1,...,xN ∈ I −1 ([0,a]), sodass<br />
� N<br />
i=1 B r(xi)(xi) ⊃ K. Es gilt daher<br />
G ε M ≤<br />
�<br />
{φ
23.4 Varadhan’sches Lemma und Freie Energie 505<br />
Satz 23.19 (Gekipptes LDP). Es erfülle (με)ε>0 ein LDP mit der guten Ratenfunktion<br />
I. Ferner sei φ : E → R stetig und erfülle die Bedingung (23.17). Wir<br />
definieren Z φ ε := � e φ/ε dμε und μ φ ε ∈M1(E) durch<br />
μ φ ε (dx) =(Z φ ε ) −1 e φ(x)/ε με(dx).<br />
Ferner definieren wir Iφ : E → [0, ∞] durch<br />
� � � �<br />
φ(z) − I(z) − φ(x) − I(x) . (23.21)<br />
I φ (x) =sup<br />
z∈E<br />
Dann erfüllt (μ φ ε )ε>0 ein LDP mit der Ratenfunktion I φ .<br />
Beweis. Dies bleibt dem Leser zur Übung überlassen. (Vergleiche [33, Aufgabe<br />
2.1.24], siehe auch [42, Abschnitt II.7].) ✷<br />
Wir wollen das Varadhan’sche Lemma im Kontext der statistischen Physik betrachten.<br />
Sei hierzu Σ ein polnischer Raum, den wir als Raum der möglichen Zustände<br />
eines einzelnen Teilchens auffassen wollen. Ferner sei λ ∈M1(Σ) eine Verteilung,<br />
die wir als a priori Verteilung eines Teilchens ohne Berücksichtigung der Energie<br />
auffassen wollen. Ist Σ endlich oder eine beschränkte Menge eines Rd ,soistλty pischerweise die Gleichverteilung auf Σ. Wenn wir n ununterscheidbare Teilchen<br />
unabhängig nach λ auf Positionen z1,...,zn ∈ Σ setzen, so können wir den Zustand<br />
dieses Ensembles als x := 1 �n n i=1 δzi beschreiben. Mit μ0n ∈M1(M1(Σ))<br />
bezeichnen wir die so gewonnene a priori Verteilung von x.<br />
Wir machen nun die Annahme, dass sich die Energie Un(x) eines Zustandes schreiben<br />
lässt als Un(x) =nU(x), woU(x) als die mittlere Energie eines Teilchens bei<br />
Gesamtzustand x interpretiert wird.<br />
Es sei T ≥ 0 die Temperatur des Systems und β := 1/T die so genannte inverse<br />
Temperatur. Eine wichtige Rolle in der statistischen Physik spielt die Zustandssumme<br />
oder Partitionsfunktion<br />
�<br />
e −βUn dμ 0 n.<br />
Z β n :=<br />
Ein Postulat der statistischen Physik besagt, dass der Zustand x nach der Boltzmann-Verteilung<br />
verteilt ist:<br />
μ β n(dx) =(Z β n) −1 e −βUn(x) μ 0 n(dx) (23.22)<br />
Das Varadhan’sche Lemma (genauer: das gekippte LDP) und der Satz von Sanov<br />
erlauben uns, die Brücke zum Variationsprinzip für die freie Energie zu schlagen.<br />
Wir nehmen nun an, dass Σ eine endliche Menge ist und λ = UΣ die Gleichverteilung<br />
auf Σ. Nach dem Satz von Sanov erfüllt (μ 0 n)n∈N ein LDP mit Rate n und
506 23 Große Abweichungen<br />
0.01<br />
0.008<br />
0.006<br />
0.004<br />
0.002<br />
–0.8 –0.6 –0.4 –0.2 0 0.2 0.4 0.6 0.8<br />
–0.002<br />
m<br />
–0.004<br />
–0.006<br />
–0.008<br />
beta=0.9<br />
beta=1.0<br />
beta=1.1<br />
Abb. 23.1. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten<br />
ohne äußeres Feld (h =0).<br />
Ratenfunktion I(x) =H(x|λ), woH(x|λ) die relative Entropie von x bezüglich λ<br />
ist. Nach (23.14) ist H(x|λ) = log(#Σ) − H(x), woH(x) die Entropie von x ist.<br />
Wir definieren die freie Energie (oder das Helmholtz-Potential) pro Teilchen als<br />
F β (x) :=U(x) − β −1 H(x).<br />
Der Satz über das gekippte LDP liefert nun, dass die Folge der Boltzmann-Verteilungen<br />
(μ β n)n∈N ein LDP erfüllt mit Rate n und Ratenfunktion<br />
I β (x) =F β (x) − inf<br />
y∈M1(Σ) F β (y).<br />
Für großes n ist die Boltzmann Verteilung auf diejenigen x konzentriert, die die freie<br />
Energie minimieren. Dies können für unterschiedliche Temperaturen (also Werte<br />
von β) sehr unterschiedliche Zustände sein. Daher treten bei kritischen Temperaturen<br />
Phasenübergänge auf, und chemische Reaktionen laufen bei unterschiedlichen<br />
Temperaturen in unterschiedlichen Richtungen ab.<br />
Beispiel 23.20. Wir betrachten den Weiss’schen Ferromagneten. Dies ist ein mikroskopisches<br />
Modell für Magnetismus, das davon ausgeht, dass jedes von n ma-<br />
gnetischen Teilchen eine von den zwei Ausrichtungen σi ∈ Σ = {−1, +1} hat.<br />
Die mittlere Magnetisierung m = 1 �n i=1 σi beschreibt den Zustand des Systems<br />
n<br />
vollständig (da die Teilchen ununterscheidbar sind) und ist die relevante makroskopische<br />
Messgröße. Die Grundidee ist, dass es energetisch günstiger ist, wenn Teilchen<br />
magnetisch parallel ausgerichtet sind, als wenn sie antiparallel ausgerichtet
23.4 Varadhan’sches Lemma und Freie Energie 507<br />
0.1<br />
0.05<br />
m<br />
–1 –0.8 –0.6 –0.4 –0.2 0.2 0.4 0.6 0.8 1<br />
–0.05<br />
–0.1<br />
beta=0.9<br />
beta=1.0<br />
beta=1.1<br />
beta=1.5<br />
Abb. 23.2. Die verschobene freie Energie F β (m) − F β (0) des Weiss’schen Ferromagneten<br />
mit äußerem Feld h =0.04.<br />
sind. Wir wollen die räumliche Struktur der Wechselwirkung ignorieren und annehmen,<br />
dass jedes Teilchen mit jedem anderen in gleicher Weise wechselwirkt (mean<br />
field Annahme). Außerdem wollen wir annehmen, dass es ein äußeres Magnetfeld<br />
der Stärke h gibt. Bis auf Konstanten ist die Energie pro Teilchen daher<br />
U(m) =− 1<br />
2 m2 − hm.<br />
Die Entropie des Zustands m ist<br />
H(m) =− 1+m<br />
log<br />
2<br />
Die freie Energie pro Teilchen ist also<br />
� 1+m<br />
2<br />
�<br />
1 − m<br />
− log<br />
2<br />
� 1 − m<br />
F β (m) =− 1<br />
2 m2 − hm + β −1� 1+m<br />
�<br />
1+m<br />
�<br />
log +<br />
2 2<br />
1 − m<br />
�<br />
1 − m<br />
��<br />
log .<br />
2 2<br />
Um die Minimalstellen von F β zu bestimmen, berechnen wir die Ableitung<br />
0 ! = d<br />
dm F β (m) =−m − h + β −1 arctanh(m).<br />
Wir erhalten so für m die Gleichung<br />
m = tanh(β(m + h)). (23.23)<br />
2<br />
�<br />
.
508 23 Große Abweichungen<br />
Im Fall h =0hat (23.23) stets die Lösung m =0.Istβ≤ 1, soistdieseLösung<br />
eindeutig, und F β hat das globale Minimum in m =0.Istβ>1, so besitzt (23.23)<br />
zwei weitere Lösungen m β,0<br />
− ∈ (−1, 0) und m β,0<br />
+ = −m β,0<br />
bestimmt werden können.<br />
− , die nur numerisch<br />
In diesem Fall besitzt F β in 0 ein lokales Maximum und in m β,0<br />
± globale Minima.<br />
Da für große n nur noch solche Werte angenommen werden, für die F β minimal ist,<br />
liegt die Verteilung konzentriert um 0, falls β ≤ 1 und konzentriert um m β,0<br />
± , falls<br />
β>1. Im letzterem Fall ist die betragsmäßige Magnetisierung � �m β,0�<br />
�<br />
± = m β,0<br />
+ > 0.<br />
Wir haben also einen Phasenübergang zwischen einer Phase bei hoher Temperatur<br />
(β ≤ 1), wo keine Magnetisierung auftritt, und niedriger Temperatur (β > 1),<br />
wo so genannte spontane Magnetisierung auftritt (das heißt ohne Einwirkung eines<br />
äußeren Feldes).<br />
Ist h �= 0, so besitzt F β in m =0keine Minimalstelle. Vielmehr ist F β asymmetrisch<br />
und besitzt ein globales Minimum m β,h mit selbem Vorzeichen wie h, sowie<br />
für großes β noch eine weiteres lokales Minimum mit dem entgegengesetzten Vorzeichen.<br />
Die exakten Werte für die Magnetisierung können wieder nur numerisch<br />
bestimmt werden. Wir können m β,h jedoch für hohe Temperaturen (β klein) approximativ<br />
bestimmen, indem wir die Näherung tanh(β(m + h)) ≈ β(m + h)<br />
verwenden. Wir erhalten so<br />
m β,h h<br />
≈<br />
β−1 − 1 =<br />
h<br />
T − Tc<br />
für T →∞, (23.24)<br />
wo die Curie-Temperatur Tc =1die kritische Temperatur für das Auftreten von<br />
spontaner Magnetisierung ist. Die Beziehung (23.23) heißt Curie-Weiss’sches Gesetz.<br />
✸<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
m<br />
h=0.2<br />
h=0.04<br />
h=0.001<br />
0.5 1 1.5 2 2.5 3 3.5<br />
Abb. 23.3. Weiss’scher Ferromagnet: Magnetisierung m β,h<br />
+ als Funktion von β.<br />
beta
24 Der Poisson’sche Punktprozess<br />
Poisson’sche Punktprozesse können als ein Grundbaustein zur Konstruktion sehr<br />
unterschiedlicher stochastischer Objekte verwendet werden, wie etwa unbegrenzt<br />
teilbare Verteilungen, Markovprozesse mit komplexer Dynamik, Objekte der stochastischen<br />
Geometrie und so fort.<br />
Wir geben in diesem Kapitel kurz den allgemeinen Rahmen zufälliger Maße an,<br />
konstruieren den Poisson’schen Punktprozess und charakterisieren ihn durch seine<br />
Laplace-Transformierte. Als Anwendungen konstruieren wir einen Subordinator<br />
und zeigen, dass der Poisson’sche Punktprozess das invariante Maß von Systemen<br />
unabhängiger Irrfahrten ist. Über den Zusammenhang zu Subordinatoren schlagen<br />
wir im dritten Abschnitt die Brücke zu den in der Populationsgenetik wichtigen<br />
Poisson-Dirichlet und GEM Verteilungen.<br />
24.1 Zufällige Maße<br />
Sei E im Folgenden ein lokalkompakter, polnischer Raum (etwa E = R d oder<br />
E = Z d ) mit Borel’scher σ-Algebra B(E). Sei<br />
Bb(E) = � B ∈B(E) : B ist relativ kompakt �<br />
das System der beschränkten Borel’schen Mengen und M(E) der Raum der Radon-<br />
Maße auf E (siehe Definition 13.3).<br />
Definition 24.1. Wir bezeichnen mit M = σ(IA : A ∈ Bb(E)) die kleinste σ-<br />
Algebra auf M(E), bezüglich der alle Abbildungen<br />
messbar sind.<br />
IA : μ ↦→ μ(A), A ∈Bb(E),<br />
Wir schreiben B + (E) für die Menge der messbaren Abbildungen E → [0, ∞] und<br />
BR b (E) für die Menge der beschränkten, messbaren Abbildungen E → R mit kompaktem<br />
Träger. Das Integral If (μ) := � fdμist für jedes f ∈B + (E) wohldefiniert<br />
und für jedes f ∈BR b (E) wohldefiniert und endlich.
510 24 Der Poisson’sche Punktprozess<br />
Satz 24.2. Sei τv die vage Topologie auf M(E). Dann ist<br />
M = B(τv) =σ(If : f ∈ Cc(E)) = σ(If : f ∈ C + c (E)).<br />
Beweis. Übung! (Siehe [83, Lemma 4.1].) ✷<br />
Sei � M(E) der Raum aller Maße auf E mit σ-Algebra � M = σ(IA : A ∈Bb(E)).<br />
Offenbar ist M = � M � � die Spur-σ-Algebra von<br />
M(E)<br />
� M auf M(E). Wir brauchen<br />
diesen etwas größeren Raum, um zufällige Maße so zu definieren, dass fast sicher<br />
wohldefinierte Operationen wieder zufällige Maße ergeben.<br />
Definition 24.3. Ein zufälliges Maß auf E ist eine Zufallsvariable X auf einem<br />
Wahrscheinlichkeitsraum (Ω,A, P) mit Werten in ( � M(E), � M) und mit P[X ∈<br />
M(E)]=1.<br />
Satz 24.4. Sei X ein zufälliges Maß auf E. Dann ist die Mengenfunktion E[X] :<br />
B(E) → [0, ∞], A ↦→ E[X(A)] ein Maß. Wir nennen E[X] das Intensitätsmaß<br />
von X. X heißt integrierbar, falls E[X] ∈M(E).<br />
Beweis. Offenbar ist E[X] endlich additiv. Seien A, A1,A2,... ∈B(E) mit An ↑<br />
A. Betrachte die Zufallsvariablen Yn := X(An) und Y = X(A). Dann gilt Yn ↑ Y ,<br />
also nach dem Satz über monotone Konvergenz E[X](An) =E[Yn] n→∞<br />
−→ E[Y ]=<br />
E[X](A). Mithin ist E[X] stetig von unten und damit ein Maß (nach Satz 1.36). ✷<br />
Satz 24.5. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl<br />
durch die Verteilungen von<br />
� (If1 ,...,Ifn ): n ∈ N; f1,...,fn ∈ C + c (E) �<br />
(24.1)<br />
als auch von<br />
� (IA1 ,...,IAn ): n ∈ N; A1,...,An ∈Bb(E) paarweise disjunkt � . (24.2)<br />
Beweis. Das Mengensystem<br />
I = � (If1 ,...,Ifn )−1 (A) : n ∈ N; f1,...,fn ∈ C + c (E), A∈B([0, ∞) n ) �<br />
ist schnittstabil und nach Satz 24.2 ein Erzeuger von M. AlsoistdasMaßPX<br />
eindeutig durch die Werte auf I festgelegt.<br />
Die Aussage folgt analog für<br />
�<br />
(IA1 ,...,IAn ): n ∈ N; A1,...,An ∈Bb(E) � .<br />
Sind A1,...,An ∈Bb(E) beliebig, so existieren 2n − 1 paarweise disjunkte Mengen<br />
B1,...,B2n−1 mit Ai = �<br />
k: Bk⊂Ai Bk für jedes i =1,...,n. Die Verteilung<br />
von (IA1 ,...,IAn ) lässt sich aus der von (IB1 ,...,IB2n ) berechnen. ✷<br />
−1
Im Folgenden sei i = √ −1.<br />
Definition 24.6. Wir bezeichnen mit<br />
� � �<br />
LX(f) =E exp −<br />
��<br />
fdX , f ∈B + (E),<br />
die Laplace-Transformierte von X und mit<br />
� � �<br />
ϕX(f) =E exp i<br />
��<br />
fdX , f ∈B R b (E),<br />
die charakteristische Funktion von X.<br />
24.1 Zufällige Maße 511<br />
Satz 24.7. Die Verteilung PX eines zufälligen Maßes X ist eindeutig bestimmt sowohl<br />
durch die Werte der Laplace-Transformierten LX(f), f ∈ C + c (E), als auch<br />
durch die Werte der charakteristischen Funktion ϕX(f), f ∈ Cc(E).<br />
Beweis. Dies folgt aus Satz 24.5 und dem Eindeutigkeitssatz für charakteristische<br />
Funktionen (Satz 15.8) beziehungsweise Laplace-Transformierte (Übung 15.1.2)<br />
von Zufallsvariablen auf [0, ∞) n . ✷<br />
Definition 24.8. Wir sagen, dass ein zufälliges Maß X auf E unabhängige Zuwächse<br />
hat, falls für je endlich viele paarweise disjunkte Mengen A1,...,An die<br />
Zufallsvariablen X(A1),...,X(An) unabhängig sind.<br />
Korollar 24.9. Die Verteilung eines zufälligen Maßes X auf E mit unabhängigen<br />
Zuwächsen ist durch (P X(A), A∈Bb(E)) eindeutig bestimmt.<br />
Beweis. Dies folgt direkt aus Satz 24.5. ✷<br />
Definition 24.10. Sei μ ∈ M(E). Ein zufälliges Maß X mit unabhängigen Zuwächsen<br />
heißt Poisson’scher Punktprozess (PPP) mit Intensitätsmaß μ, falls für<br />
jedes A ∈ Bb(E) gilt, dass P X(A) = Poi μ(A). Wir schreiben dann PPPμ :=<br />
PX ∈M1(M(E)) und sagen kurz, dass X ein PPPμ ist.<br />
Bemerkung 24.11. Die Definition des PPP (und die Konstruktion im folgenden<br />
Satz) funktioniert auch, wenn (E,E,μ) lediglich ein σ-endlicher Maßraum ist. Die<br />
Charakterisierung mit Hilfe von Laplace-Transformierten und charakteristischen<br />
Funktionen ist allerdings etwas einfacher im hier betrachteten Fall lokalkompakter,<br />
polnischer Räume. ✸<br />
Satz 24.12. Zu jedem μ ∈M(E) existiert ein Poisson’scher Punktprozess X mit<br />
Intensitätsmaß μ.
512 24 Der Poisson’sche Punktprozess<br />
Beweis. Da μ ∈M(E) ist, ist μσ-endlich. Sei also En ↑ E mit μ(En) < ∞<br />
für jedes n ∈ N. Setze μ1 = μ(E1 ∩ · ) und μn = μ((En \ En−1) ∩ · )<br />
für n ≥ 2. SindX1,X2,... unabhängige Poisson’sche Punktprozesse mit Intensitätsmaßen<br />
μ1,μ2,...,sohatX = �∞ n=1 Xn das Intensitätsmaß E[X] =μ, also<br />
ist X ein zufälliges Maß (siehe Übung 24.1.1). Außerdem sieht man leicht, dass X<br />
unabhängige Zuwächse hat und<br />
P X(A) = P X1(A) ∗ P X2(A) ∗ ...=Poi μ1(A) ∗ Poi μ2(A) ∗ ...=Poi μ(A).<br />
Also ist X ∼ PPPμ.<br />
Es reicht also, den Fall μ(E) ∈ (0, ∞) zu betrachten, den wir im Folgenden annehmen<br />
wollen. Setze ν = μ( · )/μ(E) ∈M1(E). Seien N,Y1,Y2,... unabhängige<br />
Zufallsvariablen mit N ∼ Poiμ(E) und PYi = ν für jedes i ∈ N. Wirdefinieren<br />
X(A) =<br />
N�<br />
n=1<br />
A(Yn) für A ∈B(E).<br />
Die Zufallsvariablen A(Y1), A(Y2),...sind unabhängig und Ber ν(A)-verteilt, also<br />
ist X(A) ∼ Poi μ(A) (siehe Satz 15.14(iii)). Seien A1,A2,...∈B(E) paarweise<br />
disjunkt und<br />
� �<br />
ψ(t) =E exp i<br />
n�<br />
l=1<br />
tl Al (Y1)<br />
��<br />
=1+<br />
l=1<br />
n�<br />
ν(Al) � e itl<br />
� n<br />
− 1 , t ∈ R ,<br />
die charakteristische Funktion von ( A1 (Y1),..., An (Y1)). Sei ferner ϕ die charakteristische<br />
Funktion von (X(A1),...,X(An)) und ϕl die von X(Al) für l =<br />
1,...,n, also ϕl(tl) =exp(μ(Al)(e itl − 1)). Nach Satz 15.14(iii) ist<br />
� �<br />
ϕ(t) =E exp i<br />
n�<br />
l=1<br />
��<br />
tl X(Al)<br />
=exp � μ(E)(ψ(t) − 1) �<br />
� �n<br />
=exp μ(Al) � e itl<br />
�<br />
− 1 �<br />
=<br />
l=1<br />
n�<br />
ϕl(tl).<br />
Also sind X(A1),...,X(An) unabhängig. Es folgt X ∼ PPPμ. ✷<br />
Übung 24.1.1. Seien X1,X2,... zufällige Maße und λ1,λ2,... ∈ [0, ∞) sowie<br />
X := �∞ n=1 λnXn. Man zeige, dass X genau dann ein zufälliges Maß ist, wenn<br />
P[X(B) < ∞] =1für jedes B ∈Bb(E). Man folgere: Ist X eine Zufallsvariable<br />
mit Werten in � �<br />
M(E), � M(E) � und E[X] ∈M(E), soistXein zufälliges Maß. ♣<br />
Übung 24.1.2. Sei τw die Topologie der schwachen Konvergenz auf M1(E) und<br />
σ(τw) die Borel’sche σ-Algebra auf M1(E). Man zeige: M � � = σ(τw). ♣<br />
M1(E)<br />
l=1
24.2 Eigenschaften des Poisson’schen Punktprozesses 513<br />
24.2 Eigenschaften des Poisson’schen Punktprozesses<br />
Satz 24.13. Sei μ ∈M(E) atomlos, also μ({x}) =0für jedes x ∈ E, und sei X<br />
ein zufälliges Maß auf E mit P[X(A) ∈ N0 ∪{∞}]=1für jedes A ∈B(E). Dann<br />
sind äquivalent:<br />
(i) X ∼ PPPμ<br />
(ii) X ist fast sicher doppelpunktfrei, also P[X({x}) ≥ 2 für ein x ∈ E] =0, und<br />
P[X(A) =0]=e −μ(A)<br />
Beweis. (i) =⇒ (ii) Das ist klar.<br />
für jedes A ∈Bb(E). (24.3)<br />
(ii) =⇒ (i) Sind A1,...,An ∈Bb(E) paarweise disjunkt, so ist<br />
P � X(A1) =0,...,X(An) =0 � = P � X � � �<br />
A1 ∪ ...∪ An =0<br />
= e −μ(A1∪...∪An)<br />
=<br />
n�<br />
e −μ(Al)<br />
=<br />
l=1<br />
n�<br />
P[X(Al) =0].<br />
Also sind die Zufallsvariablen � X(A) :=X(A)∧1 unabhängig für disjunkte Mengen<br />
A. Der Rest des Beweises geht wie im Beweis von Satz 5.34. Sei A ∈ Bb(E).<br />
Wähle A0 ⊂ A mit μ(A0) =μ(A)/2 (das geht nach Übung 8.3.1, weil μ atomlos<br />
ist) und setze A1 = A \ A0. Wähle nun in gleicher Weise Ai,0,Ai,1 ⊂ Ai für<br />
i =0, 1 und sukzessive disjunkte Mengen Ai,0,Ai,1 ⊂ Ai für i ∈{0, 1} n−1 mit<br />
μ(Ai) =2−nμ(A) für jedes i ∈{0, 1} n . Setze<br />
Nn(A) := �<br />
�X(Ai).<br />
i∈{0,1} n<br />
Da X doppelpunktfrei ist, gilt Nn(A) ↑ X(A) fast sicher. Andererseits ist nach Voraussetzung<br />
Nn(A) ∼ b 2 n ,2 −n μ(A) für n ∈ N, also konvergiert die charakteristische<br />
Funktion<br />
ϕ Nn(A)(t) = � 1+2 −n μ(A)(e it −1) � 2 n n→∞<br />
−→ exp � μ(A)(e it −1) � = ϕPoi μ(A) (t).<br />
Mithin gilt P Nn(A)<br />
n→∞<br />
−→ Poi μ(A), also X(A) ∼ Poi μ(A).<br />
Sind nun A1,...,Ak ∈ Bb(E) paarweise disjunkt, so sind die analog konstruierten<br />
Nn(A1),...,Nn(Ak) unabhängig, also sind auch die Limiten X(Al) =<br />
limn→∞ Nn(Al), l =1,...,kunabhängig. ✷<br />
l=1
514 24 Der Poisson’sche Punktprozess<br />
Satz 24.14. Sei μ ∈ M(E) und X ein Poisson’scher Punktprozess mit Intensitätsmaß<br />
μ. Dann hat X die Laplace-Transformierte<br />
��<br />
LX(f) =exp μ(dx) � e −f(x) − 1 ��<br />
, f ∈B + (E),<br />
und die charakteristische Funktion<br />
��<br />
ϕX(f) =exp μ(dx) � e if(x) − 1 ��<br />
, f ∈B R b (E).<br />
Beweis. Es reicht, die Aussage für Elementarfunktion f = �n l=1 αl Al mit komplexen<br />
Zahlen α1,...,αn und paarweise disjunkten Mengen A1,...,An ∈Bb(E)<br />
zu zeigen. (Die Aussagen für allgemeines f folgen dann mit den üblichen Approximationsargumenten.)<br />
Für solches f ist aber<br />
E � exp � − If (X) �� �<br />
�n<br />
= E e −αlX(Al)<br />
�<br />
=<br />
=<br />
l=1<br />
l=1<br />
n�<br />
l=1<br />
n� �<br />
exp μ(Al) � e −αl<br />
�<br />
− 1 �<br />
�<br />
�n<br />
=exp μ(Al) � e −αl<br />
�<br />
− 1 �<br />
l=1<br />
� �<br />
=exp<br />
� �<br />
−αlX(Al)<br />
E e<br />
μ(dx) � e −f(x) − 1 ��<br />
. ✷<br />
Korollar 24.15 (Momente des PPP). Sei μ ∈M(E) und X ∼ PPPμ.<br />
(i) Ist f ∈L 1 (μ), soistE[ � fdX]= � fdμ.<br />
(ii) Ist f ∈L 2 (μ) ∩L 1 (μ), soistVar[ � fdX]= � f 2 dμ.<br />
Beweis. Ist f ∈ L1 (μ), so vertauschen für die charakteristische Funktion Integral<br />
und Differentiation d<br />
dtϕX(tf) =iϕX(tf) � f(x) eitf(x) μ(dx), also ist (nach<br />
Satz 15.31)<br />
E � If (X) � = 1 d<br />
i dt ϕX(tf) � �<br />
� = fdμ.<br />
t=0<br />
Ist f ∈L 1 (μ) ∩L 2 (μ), solässt sich das Argument iterieren<br />
d2 dt2 ϕX(tf)<br />
� �<br />
=−ϕX(tf)<br />
f 2 (x) e itf(x) � �<br />
μ(dx)+<br />
f(x) e itf(x) �2 �<br />
μ(dx) ,<br />
also gilt E � If (X) 2� = − d2<br />
dt2 ϕX(tf) � � = If 2(μ)+If (μ)<br />
t=0<br />
2 . ✷
24.2 Eigenschaften des Poisson’schen Punktprozesses 515<br />
Satz 24.16 (Abbildungssatz). Seien E und F lokalkompakte, polnische Räume und<br />
φ : E → F eine messbare Abbildung. Sei μ ∈M(E) mit μ ◦ φ −1 ∈M(F ) und<br />
X ein PPP auf E mit Intensitätsmaß μ. Dann ist X ◦ φ −1 ein PPP auf F mit<br />
Intensitätsmaß μ ◦ φ −1 .<br />
Beweis. Für f ∈B + (F ) ist<br />
� � �<br />
LX◦φ−1(f) =LX(f ◦ φ) =exp e −f(φ(x)) � �<br />
− 1 μ(dx)<br />
� �<br />
�e �� −f(y) −1<br />
=exp<br />
− 1 μ ◦ φ � �<br />
(dy) .<br />
Die Aussage folgt nun aus Satz 24.16 und Satz 24.7. ✷<br />
Satz 24.17. Sei ν ∈ M((0, ∞)) und X ∼ PPPν auf (0, ∞). Setze Y :=<br />
� xX(dx). Dann sind äquivalent<br />
(i) P[Y < ∞] > 0,<br />
(ii) P[Y < ∞] =1,<br />
(iii) � ν(dx) � 1 ∧ x � < ∞.<br />
Gelten (i)–(iii), so ist Y eine unbegrenzt teilbare, nichtnegative Zufallsvariable mit<br />
Lévy-Maß ν.<br />
Beweis. Sei Y∞ = �<br />
[1,∞) xX(dx) und Yt := �<br />
xX(dx) für t ∈ [0, 1). Offen-<br />
(t,1)<br />
bar ist Y = Y0 + Y∞. Außerdem ist offenbar<br />
P[Y∞ < ∞] > 0 ⇐⇒ P[Y∞ < ∞] =1 ⇐⇒ ν([1, ∞)) < ∞. (24.4)<br />
Gilt (iii), so ist E[Y0] = �<br />
(0,1) xν(dx) < ∞, also Y0 < ∞ f.s. (und wegen (24.4)<br />
auch Y < ∞ f.s.). Gilt andererseits (iii) nicht, so ist Y∞ = ∞ f.s. oder E[Y0] =∞.<br />
Während für Y∞ die Erwartung unendlich sein kann, auch wenn Y∞ f.s. endlich<br />
ist, ist dies für Y0 nicht möglich, denn Y0 setzt sich im Gegensatz zu Y∞ nicht aus<br />
wenigen großen, sondern aus vielen kleinen Beiträgen zusammen, sodass ein Gesetz<br />
der großen Zahl gilt. Konkret ist nach Korollar 24.15<br />
�<br />
Var[Yt] = x 2 �<br />
ν(dx) ≤ xν(dx) =E[Yt] < ∞<br />
(t,1)<br />
(t,1)<br />
für jedes t ∈ (0, 1), also nach der Chebyshev’schen Ungleichung<br />
�<br />
P Yt < E[Yt]<br />
�<br />
4 Var[Yt]<br />
≤<br />
2 E[Yt] 2<br />
t→0<br />
−→ 0.<br />
Also ist Y0 =sup t∈(0,1) Yt ≥ E[Y0]/2 =∞ fast sicher.
516 24 Der Poisson’sche Punktprozess<br />
Es gelten nun (i) – (iii). Nach Satz 24.14 hat Y die Laplace-Transformierte<br />
E[e −tY ��<br />
]=exp ν(dx) � e −tx − 1 ��<br />
.<br />
Nach der Lévy-Khinchin Formel (Satz 16.14) ist Y unbegrenzt teilbar mit Lévy-<br />
Maß ν. ✷<br />
Beispiel 24.18. Nach Korollar 16.10 existiert zu jeder nichtnegativen unbegrenzt<br />
teilbaren Verteilung μ mit Lévy-Maß ν ein stochastischer Prozess (Yt)t≥0 mit unabhängigen<br />
stationären Zuwächsen und Yt ∼ μ∗t (also mit Lévy-Maß tν). Diesen<br />
Prozess können wir hier direkt konstruieren: Sei X ein PPP auf (0, ∞) × [0, ∞) mit<br />
Intensitätsmaß ν ⊗ λ (wo λ das Lebesgue-Maß ist). Setze Y0 =0und<br />
�<br />
Yt :=<br />
xX(d(x, s)).<br />
(0,∞)×(0,t]<br />
Nach dem Abbildungssatz ist X( · × (s, t]) ∼ PPP (t−s)ν, also ist Yt − Ys unbegrenzt<br />
teilbar mit Lévy-Maß (t−s)ν. Die Unabhängigkeit der Zuwächse ist evident.<br />
Man beachte, dass t ↦→ Yt rechtsstetig und monoton wachsend ist.<br />
Der so konstruierte Prozess Y heißt Subordinator mit Lévy-Maß ν. ✸<br />
Wir können das Vorgehen des letzten Beispiels verallgemeinern, indem wir als Zeitmenge<br />
allgemeinere Mengen als [0, ∞) zulassen.<br />
Definition 24.19. Ein zufälliges Maß Y heißt unbegrenzt teilbar, wenn für jedes n ∈<br />
N u.i.v. zufällige Maße Y1,...,Yn existieren mit Y = Y1 + ...+ Yn.<br />
Satz 24.20. Sei ν ∈M((0, ∞) × E) mit<br />
�<br />
A(t)(1∧ x) ν(d(x, t)) < ∞ für jedes A ∈Bb(E),<br />
und sei α ∈M(E).SeiXein PPPν und<br />
�<br />
Y (A) :=α(A)+ x A(t) X(d(x, t)) für A ∈B(E).<br />
Dann ist Y ein unbegrenzt teilbares zufälliges Maß mit unabhängigen Zuwächsen.<br />
Für A ∈B(E) hat Y (A) das Lévy-Maß ν( · × A).<br />
Wir nennen ν das kanonische Maß und α den deterministischen Anteil von Y .<br />
Beweis. Das folgt direkt aus Satz 24.16 und Satz 24.17. ✷
24.2 Eigenschaften des Poisson’schen Punktprozesses 517<br />
Bemerkung 24.21. Wir können Y schreiben als Y = α + � xδt X(d(x, t)), woδt<br />
die Einheitsmasse in t ∈ E ist. Wenn wir nun statt xδt allgemeinere Maße χ ∈<br />
M(E) zulassen, so erhalten wir eine Darstellung<br />
�<br />
Y = α + χX(dχ),<br />
M(E)<br />
wo X ∼ PPPν auf M(E) und ν ∈M(M(E)) mit � ν(dχ)(χ(A)∧1) < ∞ für jedes<br />
A ∈Bb(E). Man kann zeigen, dass dies die allgemeinste Form eines unbegrenzt<br />
teilbaren Maßes auf E ist. Wir nennen ν das kanonische Maß von Y und α den deterministischen<br />
Anteil. Y ist charakterisiert durch die Laplace-Transformierte, die<br />
der Lévy-Khinchin Formel genügt:<br />
LY (f) =exp<br />
� �<br />
−<br />
�<br />
fdα+<br />
ν(dχ) � e − � fdχ − 1 � �<br />
. ✸<br />
Satz 24.22 (Färbungssatz). Sei F ein weiterer lokalkompakter, polnischer Raum<br />
und μ ∈M(E) atomlos sowie (Yx)x∈E u.i.v. Zufallsvariablen mit Werten in F und<br />
Verteilung ν ∈M1(F ). Dann ist<br />
�<br />
Z(A) := A(x, Yx) X(dx), A ∈B(E × F ),<br />
ein PPPμ⊗ν auf E × F .<br />
Beweis. Übung! ✷<br />
Wir wollen die Aussage des Färbungssatzes in nahe liegender Weise verallgemeinern:<br />
Die Annahme, dass das Maß μ atomlos ist, sorgt schließlich nur dafür, dass X<br />
keine Doppelpunkte hat, also für jede Einheitsmasse, die X produziert, eine andere<br />
Zufallsvariable Yx zur Verfügung steht. Außerdem wollen wir für jeden Punkt x<br />
eine eigene Verteilung von Yx erlauben.<br />
Seien also E,F lokalkompakte, polnische Räume, μ ∈ M(E) und κ ein stochastischer<br />
Kern von E nach F mit μκ := � μ(dx)κ(x, · ) ∈ M(F ). Seien<br />
(Yx,t) x∈E, t∈[0,1] unabhängige Zufallsvariablen mit Verteilungen PYx,t = κ(x, · )<br />
für x ∈ E und t ∈ [0, 1].<br />
Wir definieren zu X ∼ PPPμ das Lifting ˜ X als den PPP auf E × [0, 1] mit<br />
Intensitätsmaß μ ⊗ λ � � [0,1] ,woλ das Lebesgue-Maß ist. Offenbar ist dann X D =<br />
˜X( · × [0, 1]). Das zufällige Maß ˜ X können wir also als Realisierung von X auffassen,<br />
wobei wir den einzelnen Punkten von X willkürlich eine Markierung mit<br />
Werten aus [0, 1] gegeben haben, um sie zu unterscheiden. Wir setzen nun<br />
X κ �<br />
(A) := ˜X(d(x, t)) A(Yx,t) für A ∈B(F ).
518 24 Der Poisson’sche Punktprozess<br />
Satz 24.23. Xκ ist ein zufälliges Maß mit PXκ = PPPμκ.<br />
Beweis. Offenbar ist Xκ (A) fast sicher ein Maß. Für A ∈Bb(F ) ist<br />
E[X κ ��<br />
�<br />
(A)] = E ˜X(d(x, t)) κ(x, A) =(μκ)(A) < ∞<br />
nach Voraussetzung, also ist X κ (A) < ∞ fast sicher, und damit ist X κ ein<br />
zufälliges Maß. Wir berechnen die Laplace-Transformierte von X κ .Seig(x) :=<br />
− log E[e−f(Yx,t) ]. Dann ist (weil ˜ X doppelpunktfrei ist)<br />
� � �<br />
��<br />
LXκ(f) =E exp − ˜X(d(x, t)) f(Yx,t)<br />
⎡<br />
= E ⎣<br />
�<br />
e −f(Yx,t)<br />
⎤ ⎡<br />
⎦ = E ⎣<br />
�<br />
⎡<br />
= E ⎣<br />
(x,t): ˜ X({(x,t)})=1<br />
�<br />
(x,t): ˜ X({(x,t)})=1<br />
⎤<br />
e −g(x) ⎦ = LX(g)<br />
(x,t): ˜ X({(x,t)})=1<br />
E[e −f(Yx,t) ⎤<br />
] ⎦<br />
��<br />
=exp μ(dx) � E[e −f(Yx,t) ] − 1 ��<br />
��<br />
=exp<br />
�<br />
μ(dx) κ(x, dy) � e −f(y) − 1 ��<br />
��<br />
=exp μκ(dy) � e −f(y) − 1 ��<br />
. ✷<br />
Beispiel 24.24 (PPP als invariante Verteilung). Als Anwendung des letzten Satzes<br />
betrachten wir einen stochastischen Prozess auf E = Zd oder E = Rd ,deraus<br />
unabhängigen Irrfahrten besteht. Wir nehmen also an, dass wir u.i.v. Zufallsvariablen<br />
Zi n, i, n ∈ N mit Verteilung ν ∈ E haben. Wir nehmen zudem an, dass das i-te<br />
Teilchen unseres Irrfahrtenprozesses zur Zeit n die Position Si n := Si 0 + �n l=1 Zi l<br />
hat, wobei Si 0 ein willkürlicher, eventuell zufälliger, Startpunkt ist. Wenn wir die<br />
Teilchen als ununterscheidbar annehmen, reicht es, die Teilchen an jedem Ort zusammenzuzählen.<br />
Wir betrachten also<br />
∞�<br />
Xn(A) := A(S i n) für A ⊂ E.<br />
i=1<br />
Jedes Xn ist ein Maß auf E und, wenn wir die Teilchen anfangs nicht zu sehr konzentrieren,<br />
lokal endlich, also ein zufälliges Maß. Nehmen wir an, dass X0 ∼ PPPμ<br />
für ein μ ∈M(E) ist. Wir setzen κ(x, · )=δx ∗ν und schreiben κn für die n-fache<br />
Anwendung von κ, also κn (x, · )=δx ∗ ν∗n . Wir erhalten so Xκ D<br />
0 = X1. Inder<br />
Tat: Das unabhängige Bewegen der einzelnen Teilchen in der Definition von X κ 0
24.3 Die Poisson-Dirichlet-Verteilung ∗<br />
ist genau die Dynamik der unabhängigen Irrfahrten. Da nun auch X1 ein PPP ist,<br />
erhalten wir iterativ X κ n<br />
ist X0<br />
519<br />
D<br />
= Xn+1 und damit Xn ∼ PPPμκn = PPPμ∗ν∗n. Speziell<br />
D<br />
= Xn genau dann, wenn μ ∗ ν = μ gilt. Offenbar ist dies richtig, wenn<br />
E = Z d und μ das Zählmaß oder E = R d und μ das Lebesgue-Maß. Ist beispielsweise<br />
E = Z d , so kann man unter relativ schwachen Annahmen an ν zeigen, dass<br />
das Zählmaß μ = λ die einzige Lösung von μ ∗ ν = μ ist. In dem Fall ist jedes invariante<br />
Maß eine Konvexkombination von PPPs mit verschiedenen Intensitätsmaßen<br />
θλ. ✸<br />
Übung 24.2.1. Man zeige die Aussage von Korollar 24.15 ohne charakteristische<br />
Funktionen direkt über die Approximation mit Elementarfunktionen. ♣<br />
Übung 24.2.2. Man zeige den Färbungssatz (Satz 24.22). ♣<br />
24.3 Die Poisson-Dirichlet-Verteilung ∗<br />
Ziel dieses Abschnitts ist die Lösung des folgenden Problems: Wir brechen einen<br />
Stock der Länge 1 an einer zufälligen (uniform verteilten) Stelle in zwei Stücke<br />
und legen das linke Stück (mit der Länge W1) beiseite. Mit dem restlichen Stock<br />
verfahren wir in gleicher Weise und legen das linke Stück der Länge W2 beiseite.<br />
Sukzessive sammeln wir die Bruchstücke mit Längen W1,W2,W3,... Wie sieht<br />
die gemeinsame Verteilung von (W1,W2,...) aus? Ferner wollen wir die Zahlen<br />
W1,W2,... der Größe nach umsortieren und W (1) ≥ W (2) ≥ ... nennen. Wie<br />
sieht die Verteilung von (W (1),W (2),...) aus? Und schließlich: was hat dies mit<br />
Poisson’schen Punktprozessen zu tun?<br />
Zur Beantwortung der Fragen müssen wir etwas weiter ausholen. Wir hatten gesehen,<br />
wie die Beta-Verteilung in natürlicher Weise bei dem Pólya’schen Urnenmodell<br />
als Grenzverteilung der Frequenzen der beiden Kugelfarben auftritt. Offenbar kann<br />
man das Pólya’sche Modell auch mit n ≥ 2 Farben betrachten. Die Grenzverteilung<br />
ist dann die n-dimensionale Verallgemeinerung der Beta-Verteilung, nämlich die so<br />
genannte Dirichlet-Verteilung.<br />
Definition 24.25. Sei n ∈{2, 3,...} und θ1,...,θn > 0.DieDirichlet-Verteilung Dirθ1,...,θn ist die Verteilung auf dem (n − 1)-dimensionalen Simplex<br />
Δn := {(x1,...,xn) ∈ [0, 1] : x1 + ...+ xn =1},<br />
die für messbares A ⊂ Δn definiert ist durch<br />
�<br />
Dirθ1,...,θn (A) = A(x1,...,xn) fθ1,...,θn (x1,...,xn) dx1 ···dxn−1,<br />
wobei<br />
fθ1,...,θn (x1,...,xn) = Γ (θ1 + ...+ θn)<br />
Γ (θ1) ···Γ (θn) xθ1−1 1<br />
···x θn−1<br />
n .
520 24 Der Poisson’sche Punktprozess<br />
Die Parameter θ1,...,θn entsprechen (falls ganzzahlig) den Anzahlen der Kugeln<br />
der einzelnen Farben, die ursprünglich in der Urne liegen. Wenn wir nun nicht ganz<br />
so genau hinschauen und Kugeln zweier Farben, etwa n−1 und n zusammenfassen,<br />
so sollten wir als Grenzverteilung für die Frequenzen Dirθ1,...,θn−2,θn−1+θn erhalten.<br />
Sei (Mt)t≥0 der Moran-Gamma-Subordinator, also ein stochastischer Prozess<br />
mit rechtsstetigen, monoton wachsenden Pfaden t ↦→ Mt und unabhängigen,<br />
stationären, Gamma-verteilten Zuwächsen: Mt − Ms ∼ Γ1,t−s für t>s≥ 0.<br />
Einen wichtigen Zusammenhang zwischen der Dirichlet-Verteilung und M liefert<br />
der folgende Satz.<br />
Satz 24.26. Seien n ∈ N und θ1,...,θn > 0 sowie Θ := θ1 + ... + θn. Seien<br />
X ∼ Dirθ1,...,θn und Z ∼ Γ1,Θ unabhängige Zufallsvariablen. Dann sind die<br />
Zufallsvariablen Si := Z · Xi, i =1,...,nunabhängig und Si ∼ Γ1,θi .<br />
Beweis. Sei im Folgenden stets xn := 1 − � n−1<br />
i=1 xi und s = � n<br />
j=1 sj. SeiΔ ′ n :=<br />
{x1,...,xn−1 > 0: � n−1<br />
i=1 xi < 1}. Die Verteilung von (X1,...,Xn−1,Z) hat<br />
(für x ∈ Δ ′ n und z ≥ 0) die Dichte<br />
f(x1,...,xn−1,z)=<br />
n� �<br />
j=1<br />
x θj−1<br />
j<br />
�<br />
/Γ (θj)<br />
z Θ−1 e −z .<br />
Betrachte die Abbildung F : Δ ′ n−1 × (0, ∞) → (0, ∞) n , (x1,...,xn−1,z) ↦→<br />
(zx1,...,zxn). Die Abbildung ist invertierbar mit Umkehrabbildung<br />
F −1 :(s1,...,sn) ↦→ (s1/s,...,sn−1/s, s).<br />
Die Ableitung von F hat die Determinante det(F ′ (x1,...,xn−1,z)) = z n−1 . Nach<br />
der Transformationsformel für Dichten (Satz 1.101) hat (S1,...,Sn) die Dichte<br />
g(s1,...,sn) =<br />
=<br />
=<br />
f(F −1 (s1,...,sn))<br />
| det(F ′ (F −1 (s1,...,sn)))|<br />
n� �<br />
(sj/s) θj−1 /Γ (θj) � sΘ−1e−s j=1<br />
s n−1<br />
n� �<br />
(sj/s) θj−1 e −sj /Γ (θj) � .<br />
j=1<br />
Dies ist aber die Dichte von unabhängigen Gamma-Verteilungen. ✷<br />
Korollar 24.27. Ist ti := �i j=1 θj für i =0,...,n, so sind die Zufallsvariablen<br />
X =((Mti−Mti−1 )/Mtn , i =1,...,n) und S := Mtn unabhängig und X ∼<br />
sowie S ∼ Γ1,tn .<br />
Dirθ1,...,θn<br />
Korollar 24.28. Sei (X1,...,Xn) ∼ Dirθ1,...,θn . Dann sind X1 ∼ β θ1, � n<br />
i=2 θi und<br />
(X2/(1 − X1),...,Xn/(1 − X1)) ∼ Dirθ2,...,θn unabhängig.
24.3 Die Poisson-Dirichlet-Verteilung ∗<br />
Beweis. Sei M wie in Korollar 24.27. Dann ist X1 = Mt1 /Mtn ∼ βθ1,tn−θ1 und<br />
�<br />
Mtn −Mt1 X1 = Mt1 �<br />
X2<br />
+1<br />
� −1<br />
,...,<br />
1 − X1<br />
Xn<br />
�<br />
1 − X1<br />
521<br />
nur von Mt1 und Mtn − Mt1 abhängig. Andererseits ist<br />
=<br />
�<br />
Mt2 − Mt1<br />
Mtn − Mt1<br />
,...,<br />
Mtn − Mtn−1<br />
Mtn − Mt1<br />
unabhängig von Mt1 und nach Korollar 24.27 auch unabhängig von Mtn − Mt1<br />
sowie Dirθ2,...,θn-verteilt. ✷<br />
Korollar 24.29. Seien V1,V2,... unabhängig und Vi ∼ βθi,θi+1+...+θn sowie Vn =<br />
1. Dann ist<br />
�<br />
� n−2 � � �<br />
V1, (1 − V1)V2, (1 − V1)(1 − V2)V3,..., (1 − Vi) ∼ Dirθ1,...,θn .<br />
Beweis. Das folgt durch Iteration der Aussage von Korollar 24.28. ✷<br />
Eine natürliche Fragestellung ist, was passiert, wenn wir immer mehr Farben differenzieren<br />
(statt zusammenzufassen). Wir wollen der Einfachheit halber eine symmetrische<br />
Situation annehmen, bei der θ1 = ... = θn = θ/n für ein θ>0 ist. Wir<br />
betrachten also<br />
Dirθ;n := Dirθ,...,θ für θ>0.<br />
Ist Xn =(Xn 1 ,...,Xn n ) ∼ Dirθ/n;n, so ist aus Symmetriegründen E[Xn i ]=1/n<br />
für jedes n ∈ N und i =1,...,n. Offenbar gilt also (Xn 1 ,...,Xn n→∞<br />
k ) =⇒ 0 für<br />
jedes k ∈ N. Eine Möglichkeit, einen nicht-trivialen Grenzwert zu erhalten ist, die<br />
Werte der Größe nach zu ordnen Xn (1) ≥ Xn (2) ≥ ...<br />
Definition 24.30. Sei θ>0 und (Mt) t∈[0,θ] ein Moran-Gamma-Subordinator. Seien<br />
m1 ≥ m2 ≥ ... ≥ 0 die der Größe nach sortierten Sprunghöhen von M und<br />
˜mi = mi/Mθ, i =1, 2,... Die Verteilung der Zufallsvariablen (˜m1, ˜m2,...) auf<br />
S := {(x1 ≥ x2 ≥ ... ≥ 0) : x1 + x2 + ... =1} heißt Poisson-Dirichlet-<br />
Verteilung PDθ mit Parameter θ>0.<br />
Genau genommen müssen wir noch nachweisen, dass �∞ i=1 ˜mi =1ist. Sei hierzu<br />
Y ein PPP auf (0, ∞) × (0,θ] mit Intensitätsmaß ν ⊗ λ, woλ das Lebesgue-Maß<br />
ist und ν(dx) = e−xx−1 dx das Lévy-Maß der Γ1,1-Verteilung. Wir können M<br />
definieren durch Mt := �<br />
(x,s): Y ({x,s})=1,s≤t x. Nun ist m1 =sup{x ∈ (0, ∞) :<br />
Y ({x}×(0,θ]) = 1} und sukzessive mn =sup{x
522 24 Der Poisson’sche Punktprozess<br />
Beweis. Die Idee ist, die Zufallsvariablen Xn , n ∈ N, so durch die Zuwächse<br />
des Moran-Gamma-Subordinators (Mt) t∈[0,θ] darzustellen, dass aus der Verteilungskonvergenz<br />
eine fast sichere Konvergenz wird. Es sei also Xn i =(Mθi/n −<br />
Mθ(i−1)/n)/Mθ. Nach Korollar 24.27 ist Xn ∼ Dirθ/n;n. Seien t1,t2,... ∈ (0,θ]<br />
die Positionen der Sprünge m1 ≥ m2 ≥ ... Offenbar ist Xn (1) ≥ ˜m1 für jedes n.<br />
Ist n so groß, dass |t1 − t2| >θ/nist, so ist Xn (2) ≥ ˜m2. Sukzessive erhalten wir<br />
lim infn→∞ Xn (i) ≥ ˜mi fast sicher. Nun ist aber (mit der Festsetzung Xn (i) =0für<br />
i>n) �∞ i=1 Xn (i) =1für jedes n ∈ N. Nach dem Lemma von Fatou ist daher<br />
1=<br />
∞�<br />
˜mi ≤<br />
i=1<br />
∞�<br />
i=1<br />
lim inf<br />
n→∞ Xn (i)<br />
≤ lim inf<br />
n→∞<br />
∞�<br />
X n (i) =1.<br />
Es folgt limn→∞ X n (i) =˜mi fast sicher. ✷<br />
Anstatt die Werte von X n strikt der Größe nach zu ordnen, können wir ein anderes<br />
Verfahren anwenden, das Konvergenz der Verteilungen sichert. Stellen wir uns vor,<br />
dass wir in einer Population ein genetisches Merkmal haben, das wir unterschiedlich<br />
fein messen können. Wenn wir n unterschiedliche Werte unterscheiden wollen, so<br />
soll Xn i den Anteil der Bevölkerung mit dem Merkmal i bezeichnen.<br />
Wir greifen nun sukzessive zufällig Individuen aus der Population heraus. Das erste<br />
Individuum habe den Typ In 1 .MitIn 2 bezeichnen wir den Typ des ersten Individuums,<br />
das nicht vom Typ In 1 ist. Sukzessive sei In k der Typ des ersten Individuums,<br />
das nicht von einem der Typen In 1 ,...,In k−1 ist. Wir betrachten nun den Vektor<br />
ˆX n =( ˆ Xn 1 ,..., ˆ Xn n ), wo ˆ Xn k = Xn In . Da die Wahrscheinlichkeit für I1 = i pro-<br />
k<br />
portional zur Größe der Sub-Population mit Merkmal i ist, nennen wir ˆ Xn den<br />
sukzessive größenverzerrt gezogenen Vektor.<br />
Die Verteilung von ˆ Xn ändert sich nicht, wenn wir die Reihenfolge der Xn 1 ,...,Xn n<br />
verändern. Speziell können wir statt Xn die Ordnungsstatistik (Xn (1) ,...,Xn (n) )<br />
wählen und erhalten ebenfalls ˆ Xn als sukzessive größenverzerrt gezogenen Vektor.<br />
Insbesondere können wir für X ∼ PDθ den sukzessiv größenverzerrten Vektor ˆ X<br />
definieren. Gilt Xn ∼ Dirθ/n;n, so folgt aus Satz 24.31 sofort, dass ˆ n n→∞<br />
X =⇒ ˆ X.<br />
Hiermit können wir die Verteilung von ˆ X ausrechnen.<br />
Satz 24.32. Sei θ>0 und seien X n ∼ Dir θ/n;n, n ∈ N, sowie X ∼ PDθ. Seien<br />
ferner V1,V2,... u.i.v. Zufallsvariablen auf [0, 1] mit Dichte x ↦→ θ(1 − x) θ−1 .Wir<br />
setzen Z1 = V1 und Zk = � � k−1<br />
i=1 (1 − Vi) � Vk für k ≥ 2. Dann gilt:<br />
(i) ˆ n n→∞<br />
X =⇒ ˆ X.<br />
(ii) ˆ X D = Z.<br />
Die Verteilung von Z heißt GEMθ-Verteilung (für Griffiths-Engen-McCloskey).<br />
i=1
24.3 Die Poisson-Dirichlet-Verteilung ∗<br />
Beweis. Die Aussage (i) wurde bereits in der Diskussion vor dem Satz gezeigt. Um<br />
(ii) zu zeigen, berechnen wir die Verteilung von ˆ X n und zeigen, dass sie gegen die<br />
von Z konvergiert.<br />
Sei ˆ X n,1 der Vektor X n,1 =(X n I n 1 ,X2,...,X n I n 1 −1,Xn I n 1 +1,...,Xn n ), bei dem nur<br />
die erste Koordinate größenverzerrt gezogen wurde. Wir zeigen:<br />
Sei f(x) = � Γ (θ)/Γ (θ/n) n� · � n<br />
523<br />
ˆX n,1 ∼ Dir (θ/n)+1,θ/n,...,θ/n. (24.5)<br />
die Dichte von Dir θ/n;n. Die Dichte<br />
k=1 x(θ/n)−1<br />
k<br />
f n,1 von Xn,1 berechnen wir durch Zerlegung nach dem Wert i von In 1 :<br />
f n,1 (x) =<br />
= nΓ (θ)<br />
=<br />
n�<br />
x1 f(x2,...,xi,x1,xi+1,...,xn) =nx1 f(x)<br />
i=1<br />
Γ (θ/n)<br />
n�<br />
xθ/n<br />
n 1 x<br />
i=2<br />
(θ/n)−1<br />
i<br />
Γ (θ +1)<br />
Γ ((θ/n)+1)Γ (θ/n)<br />
n�<br />
xθ/n<br />
n−1 1 x<br />
i=2<br />
(θ/n)−1<br />
i .<br />
Dies ist aber die Dichte von Dir (θ/n)+1,θ/n,...,θ/n. Nach Korollar 24.28 ist ˆ Xn,1 D =<br />
(V n<br />
1 , (1 − V n<br />
1 )Y1,...,(1 − V n<br />
1 )Yn−1), wobei V n<br />
1 ∼ β (θ/n)+1,θ(n−1)/n und Y =<br />
(Y1,...,Yn−1) ∼ Dirθ/n;n−1 unabhängig sind. Indem wir das Gezeigte nun auf Y<br />
anwenden, erhalten wir sukzessive<br />
wobei<br />
Z n 1 = V n<br />
1 und Z n � k−1 �<br />
k =<br />
i=1<br />
und wobei V n<br />
1 ,...,Vn n−1 unabhängig sind und V n<br />
ˆX n D = Z n , (24.6)<br />
(1 − V n<br />
i )<br />
�<br />
V n<br />
k<br />
für k ≥ 2,<br />
i ∼ β (θ/n)+1,θ(n−i)/n. Nun prüft<br />
n→∞<br />
man aber leicht nach, dass β (θ/n)+1,θ(n−i)/n −→ β1,θ für jedes i ∈ N, und β1,θ<br />
hat die Dichte x ↦→ θ(1 − x) θ−1 . Es gilt also V n n→∞<br />
i =⇒ Vi für jedes i und damit<br />
n n→∞<br />
Z =⇒ Z und ˆ n n→∞<br />
X =⇒ Z. Zusammen mit (i) folgt hieraus die Aussage (ii). ✷<br />
Unsere eingangs gestellte Frage nach den Größen W1,W2,... der Bruchstücke<br />
von sukzessiv uniform verteilt zerbrochenen Stöcken ist damit geklärt: Der Vektor<br />
(W (1),W (2),...) ist PD1-verteilt, und (W1,W2,...) ist GEM1-verteilt.<br />
Der China-Restaurant Prozess<br />
Wir wollen eine weitere Situation kennen lernen, in der die Poisson-Dirichlet-<br />
Verteilung in natürlicher Weise auftaucht. Da die technischen Details etwas knifflig
524 24 Der Poisson’sche Punktprozess<br />
werden, begnügen wir uns damit, die Situation zu beschreiben und zwei wichtige<br />
Sätze anzugeben. Eine exzellente und vollständige Beschreibung findet sich in<br />
[121].<br />
Wir betrachten ein China-Restaurant mit abzählbar vielen (natürlich runden) nummerierten<br />
Tischen, an denen jeweils beliebig viele Gäste Platz finden. Anfangs sei<br />
das Restaurant leer. Nacheinander treffen (abzählbar viele) Gäste ein. Der erste Gast<br />
setzt sich an den (natürlich freien) Tisch mit der Nummer Eins. Sitzen bereits n<br />
Gäste an k Tischen, so hat der (n +1)-teGastdieMöglichkeit, sich entweder an<br />
einen der k besetzten Tische zu setzen, oder sich an den freien Tisch mit der kleinsten<br />
Nummer zu setzen. Wir wollen annehmen, dass die Wahl zufällig erfolgt und<br />
dass sich der Gast an den l-ten besetzten Tisch (mit N n l Gästen) mit Wahrscheinlichkeit<br />
(N n l − α)/(n + θ) setzt, mit Wahrscheinlichkeit (θ + kα)/(n + θ) jedoch<br />
den ersten noch freien Tisch besetzt. Hierbei sind α ∈ [0, 1] und θ > −α. Be-<br />
zeichnet N n l<br />
die Anzahl der Gäste zur Zeit n am l-ten besetzten Tisch, so nennen<br />
wir (N n )n∈N =(Nn 1 ,Nn 2 ,...)n∈N den China-Restaurant Prozess mit Parametern<br />
(θ, α).<br />
Ist speziell α = 0,sokönnen wir den China-Restaurant Prozess auch so interpretieren:<br />
Die Wahrscheinlichkeit, sich links neben einen der Gäste zu setzen (also<br />
an dessen Tisch) beträgt 1/(n + θ), die Wahrscheinlichkeit, einen neuen Tisch<br />
zu besetzen dagegen θ/(n + θ). Um das asymptotische Verhalten von N n /n =<br />
(N n 1 /n, N n 2 /n,...) zu beschreiben, müssen wir die Poisson-Dirichlet-Verteilung<br />
und die GEM Verteilung um einen Parameter erweitern.<br />
Definition 24.33. Sei α ∈ [0, 1) und θ > −α. Seien V1,V2,... unabhängig<br />
und Vi ∼ β1−α,θ+iα. Wirdefinieren Z = (Z1,Z2,...) durch Z1 = V1 und<br />
Zk = � � k−1<br />
i=1 (1 − Vi) � Vk für k ≥ 2. Dann heißt GEMα,θ := PZ die GEM-<br />
Verteilung mit Parametern (α, θ). Die Verteilung des nach Größe sortierten Vektors<br />
(Z (1),Z (2),...) heißt Poisson-Dirichlet-Verteilung mit Parametern (α, θ), oder<br />
kurz PDα,θ.<br />
Explizite Formeln für die Dichte der endlichdimensionalen Verteilungen von PDα,θ<br />
finden sich etwa in [124]. Man bemerke, dass wir im Falle α =0die bisherigen einparametrigen<br />
Verteilungen GEMθ =GEM0,θ und PDθ =PD0,θ zurückgewinnen.<br />
Satz 24.34. Seien α ∈ [0, 1), θ>−α und (N n )n∈N der China-Restaurant Prozess<br />
n→∞<br />
mit Parametern (α, θ). Dann gilt PN n /n −→ PDα,θ.<br />
Beweis. Siehe [122] oder [121, Theorem 25]. ✷<br />
Ähnlich wie für die einparametrige Poisson-Dirichlet-Verteilung gibt es eine Darstellung<br />
von PDα,θ durch die nach Größe geordneten Sprünge eines geeigneten<br />
Subordinators. Sei im Folgenden α ∈ (0, 1) und (Mt) t∈[0,1] ein α-stabiler Subordinator,<br />
also ein Subordinator mit Lévy-Maß ν(dx) =x −α−1 dx. Seien ferner
24.3 Die Poisson-Dirichlet-Verteilung ∗<br />
m1 ≥ m2 ≥ ... ≥ 0 die Sprünge von M und ˜mi = mi/M1 für i ∈ N, und<br />
˜m =(˜m1, ˜m2,...). Wir zitieren den folgenden Satz aus [121, Section 4.2].<br />
Satz 24.35. Sei α ∈ (0, 1).<br />
(i) Es gilt ˜m ∼ PDα,0<br />
(ii) Ist θ>−α, soistPDα,θ ≪ PDα,0 = P[˜m ∈ · ] mit<br />
PDα,θ(dx) =<br />
−θ<br />
M1 E[M −θ<br />
1<br />
] P[˜m ∈ dx].<br />
Übung 24.3.1. Sei (X, 1 − X) ∼ Dirθ1,θ2 . Man zeige, dass dann X ∼ βθ1,θ2 Betaverteilt<br />
ist. ♣<br />
Übung 24.3.2. Sei X =(X1,...,Xn) ∼ Dirθ1,...,θn . Man zeige:<br />
(i) Für jede Permutation σ auf {1,...,n} ist<br />
(X σ(1),...,X σ(n)) ∼ Dirθ σ(1),...,θ σ(n) .<br />
(ii) Es gilt (X1,...,Xn−2,Xn−1 + Xn) ∼ Dirθ1,...,θn−2,θn−1+θn . ♣<br />
Übung 24.3.3. Sei (N n )n∈N der China-Restaurant Prozess mit Parametern (0,θ).<br />
(i) Man zeige für θ =1:<br />
(a) P[N n 1 = k] =1/n für jedes k =1,...,n.<br />
(b) P[N n l = kl |N n 1 = k1,...,Nn l−1 = kl−1] =1/(n − (k1 + ...+ kl−1)) für<br />
kl =1,...,n− (k1 + ...+ kl−1).<br />
(c) Man folgere die Aussage von Satz 24.34 für den Fall α =0und θ =1.<br />
(ii) Man zeige für θ>0:<br />
(a) n P[N n 1 = ⌊nx⌋] n→∞<br />
−→ θ(1 − x) θ−1 für x ∈ (0, 1).<br />
(b) n P � N n l = ⌊nxl⌋|N n 1 = ⌊nx1⌋,...,Nn l−1 = ⌊nxl−1⌋ � n→∞<br />
−→ (θ/yl)(1 −<br />
xl/yl) θ−1 für x1,...,xl ∈ (0, 1) mit yl =1− (x1 + ...+ xl−1) >xl.<br />
(c) Man folgere wie in (i) die Aussage von Satz 24.34 für α =0und θ>0. ♣<br />
525
25 Das Itô-Integral<br />
Das Itô-Integral erlaubt es, stochastische Prozesse bezüglich der Zuwächse einer<br />
Brown’schen Bewegung oder etwas allgemeinerer Prozesse zu integrieren. Wir entwickeln<br />
das Itô-Integral zunächst für die Brown’sche Bewegung und dann für für<br />
verallgemeinerte Diffusionsprozesse. Im dritten Abschnitt leiten wir die Itô-Formel<br />
her. Diese Substitutionsformel für das Itô-Integral erlaubt es, in konkreten Fällen,<br />
mit dem Itô-Integral wirklich zu rechnen. Wir wenden die Itô-Formel im vierten<br />
Abschnitt an, um eine stochastische Lösung des Dirichlet-Problems zu formulieren.<br />
Hiermit zeigen wir im fünften Abschnitt, dass die Brown’sche Bewegung (wie die<br />
symmetrische einfache Irrfahrt) in niedrigen Dimensionen rekurrent ist, in hohen<br />
Dimensionen hingegen transient.<br />
25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung<br />
Sei W =(Wt)t≥0 eine Brown’sche Bewegung auf dem Raum (Ω,F, P) bezüglich<br />
der Filtration F, die die üblichen Bedingungen erfüllt (siehe Definition 21.23).<br />
Das heißt, W ist eine Brown’sche Bewegung und ist ein F-Martingal. Das Ziel dieses<br />
Abschnittes ist es, für eine möglichst große Klasse von sinnvollen Integranden<br />
H : Ω × [0, ∞) → R, (ω, t) ↦→ Ht(ω) ein Integral<br />
I W � t<br />
t (H) = Hs dWs<br />
0<br />
zu definieren, sodass (I W t (H))t≥0 ein stetiges F-Martingal ist. Da fast alle Pfade<br />
s ↦→ Ws(ω) der Brown’schen Bewegung lokal unendliche Variation haben,<br />
ist W (ω) nicht die Verteilungsfunktion eines signierten Lebesgue-Stieltjes-Maßes<br />
auf [0, ∞). Daher können wir I W t (H) nicht im klassischen Rahmen der Integrationstheorie<br />
definieren. Die grundlegende Idee, um dieses Integral zu konstruieren,<br />
besteht darin, es im Sinne eines L 2 -Grenzwertes zu etablieren. Hierzu betrachten<br />
wir zunächst ein elementares Beispiel.<br />
Beispiel 25.1. Es seien X1,X2,... u.i.v. Zufallsvariablen mit P[Xn = 1] =<br />
P[Xn = −1] = 1<br />
2 .Sei (hn)n∈N eine Folge reeller Zahlen. Unter welchen Bedingungen<br />
an (hn)n∈N ist die Reihe
528 25 Das Itô-Integral<br />
R := �<br />
n∈N<br />
hn Xn<br />
(25.1)<br />
wohldefiniert? Ist �<br />
n∈N |hn| < ∞, so konvergiert die Reihe für jedes ω absolut.<br />
In diesem Falle tritt kein Problem auf. Wie steht es aber, wenn nur die schwächere<br />
Summierbarkeitsbedingung �<br />
n∈N h2n < ∞ gilt? In diesem Falle konvergiert die<br />
Reihe in (25.1) nicht mehr für jedes ω, allerdings gilt E[hn Xn] =0für jedes<br />
n ∈ N und �∞ n=1 Var[hn Xn] = �∞ n=1 h2n < ∞. AlsoistRN := �N k=1 hk Xk,<br />
n ∈ N, konvergent im L2-Sinne (für N →∞). Wir können daher die Reihe R in<br />
(25.1) als L2-Limes der Partialsummen RN definieren. Dabei ist zu beachten, dass<br />
(zumindest formal) bei den approximierenden Summen die Reihenfolge der Summanden<br />
eine Rolle spielt. Wir haben also gewissermaßen �∞ �<br />
n=1 anstatt n∈N<br />
konstruiert.<br />
Eine äquivalente Betrachtung, die allerdings einen leicht anderen Geschmack hat<br />
und von der formalen Beschreibung her auf das Kommende hinweist, ist die folgende.<br />
Mit ℓ2 bezeichnen wir den Hilbertraum der quadratsummierbaren Folgen reeller<br />
Zahlen mit Skalarprodukt 〈h, g〉 = �∞ n=1 hn gn und Norm �g� = 〈g, g〉 1/2 .Sei<br />
ℓf der Unterraum der Folgen, die nur endlich viele Glieder ungleich Null haben.<br />
Dann ist R(h) = �<br />
n∈N hn Xn für h ∈ ℓf wohldefiniert (als endliche Summe).<br />
Wegen<br />
E � R(h) 2� = Var[R(h)] = �<br />
Var � � �<br />
hn Xn = h 2 n = �h� 2<br />
n∈N<br />
ist die Abbildung R : ℓf →L2 (P) eine Isometrie. Da ℓf ⊂ ℓ2 dicht liegt, können<br />
wir R stetig auf ℓ2 fortsetzen. Ist also h ∈ ℓ2 und (hN )N∈N eine Folge in ℓf mit �hN − h� N→∞<br />
−→ 0, soistR(hN ) N→∞<br />
−→ R(h) im L2-Sinne. Speziell ist<br />
h N n := hn {n≤N}, n ∈ N, N ∈ N, eine approximierende Folge für h, und es gilt<br />
R(h N )= � N<br />
n=1 hn Xn. Daher ist die oben beschriebene Approximation von R<br />
mit den Partialsummen RN als Spezialfall in dieser Konstruktion enthalten. ✸<br />
Das Programm für die Konstruktion des Itô-Integrals I W t (H) sieht nun so aus:<br />
Zunächst betrachten wir elementare Integranden H, für die die Abbildung t ↦→<br />
Ht(ω) eine Treppenfunktion ist, sodass das Integral als endliche Summe definiert<br />
werden kann. Danach erweitern wir das Integral wie in Beispiel 25.1 auf Integranden,<br />
die sich in einem gewissen L 2 -Sinne durch elementare Integranden approximieren<br />
lassen.<br />
Definition 25.2. Wir bezeichnen mit E den Vektorraum der Abbildungen H : Ω ×<br />
[0, ∞) → R von der Form<br />
n�<br />
Ht(ω) = hi−1(ω) (ti−1,ti],<br />
i=1<br />
wobei n ∈ N, 0=t0
25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 529<br />
Wir nennen E den Vektorraum der elementaren vorhersagbaren Prozesse und versehen<br />
E mit einer (Pseudo-)Norm � · �E durch<br />
�H� 2 E =<br />
n�<br />
i=1<br />
E � h 2 ��<br />
� ∞<br />
i−1 (ti − ti−1) =E H<br />
0<br />
2 �<br />
s ds .<br />
Definition 25.3. Für H ∈E und t ≥ 0 definieren wir<br />
und<br />
I W t (H) =<br />
I W ∞ (H) =<br />
n�<br />
i=1<br />
� �<br />
hi−1 Wti∧t − Wti−1∧t<br />
n�<br />
i=1<br />
Offenbar ist für jede beschränkte Stoppzeit τ<br />
E � I W τ (H) � =<br />
=<br />
� �<br />
hi−1 Wti − Wti−1 .<br />
n�<br />
E � hi−1 (W τ ti − W τ ti−1 )�<br />
i=1<br />
n�<br />
E � hi−1 E � W τ ti − W τ �<br />
ti−1<br />
i=1<br />
� Fti−1<br />
�� = 0,<br />
da die gestoppte Brown’sche Bewegung W τ nach den Optional Stopping Theorem<br />
ein F-Martingal ist. Also ist (wieder nach dem OST) (I W t (H))t≥0 ein F-<br />
Martingal. Speziell ist E �� I W ti+1 (H) − IW ti (H)�� I W tj+1 (H) − IW tj (H)�� = 0 für<br />
i �= j, also gilt<br />
E � I W ∞ (H) 2� =<br />
=<br />
=<br />
n�<br />
i=1<br />
n�<br />
i=1<br />
n�<br />
i=1<br />
Aus diesen Betrachtungen folgt sofort:<br />
��IW E ti (H) − I W ti−1 (H)� 2 �<br />
�<br />
E h 2 � � �<br />
2<br />
i−1 Wti − Wti−1<br />
E � h 2 �<br />
i−1 (ti − ti−1) = �H� 2 E.<br />
(25.2)<br />
Satz 25.4. (i) Die Abbildung I W ∞ : E→L 2 (Ω,F, P) ist eine isometrische lineare<br />
Abbildung (bezüglich � · �E und � · �2).<br />
(ii) Der Prozess � I W t (H) �<br />
t≥0 ist ein L2 -beschränktes, stetiges F-Martingal.<br />
Beweis. Lediglich die Linearität ist noch zu zeigen. Dies ist aber trivial. ✷
530 25 Das Itô-Integral<br />
Die Idee ist nun, die Abbildung I W ∞ von E auf einen geeigneten Abschluss E<br />
von E stetig fortzusetzen. Als Unterraum von welchem Raum sollen wir aber E<br />
abschließen? Eine minimale Forderung ist die Messbarkeit von (ω, t) ↦→ Ht(ω)<br />
(bezüglich F⊗B([0, ∞)) sowie die Adaptiertheit von H.<br />
Definition 25.5. Ein stochastischer Prozess X = (Xt)t≥0 mit Werten in einem<br />
polnischen Raum E heißt<br />
(i) produktmessbar, falls (ω, t) ↦→ Xt(ω) messbar ist bezüglich F⊗B([0, ∞))–<br />
B(E),<br />
(ii) progressiv messbar, falls für jedes t ≥ 0 die Abbildung Ω × [0,t], (ω, s) ↦→<br />
Xs(ω) messbar ist bezüglich Ft ⊗B([0,t])–B(E),<br />
(iii) vorhersagbar (oder previsibel), falls (ω, t) ↦→ Ht(ω) messbar ist bezüglich<br />
der vorhersagbaren σ-Algebra P auf Ω × [0, ∞):<br />
P := σ � X : X ist linksstetiger, adaptierter Prozess � .<br />
Bemerkung 25.6. Jedes H ∈E ist vorhersagbar. Diese Eigenschaft sichert, dass<br />
I M (H) für jedes (auch unstetiges) Martingal M ein Martingal ist. Da wir jedoch<br />
hier nicht die Integrationstheorie für unstetige Martingale entwickeln wollen, ist der<br />
Begriff der Vorhersagbarkeit für uns im Folgenden nicht so wichtig. ✸<br />
Bemerkung 25.7. Ist H progressiv messbar, so ist H offenbar auch produktmessbar<br />
und adaptiert. Mit etwas mehr Aufwand kann man die partielle Umkehrung<br />
zeigen: Ist H adaptiert und produktmessbar, so gibt es eine progressiv messbare<br />
Modifikation von H. (Siehe etwa [113, Seite 68ff].) ✸<br />
Satz 25.8. Ist H adaptiert und f.s. rechtsstetig oder linksstetig, so ist H progressiv<br />
messbar. Insbesondere ist jeder vorhersagbare Prozess progressiv messbar.<br />
Beweis. Siehe Übung 21.1.4. ✷<br />
Wir betrachten E als Unterraum von<br />
�<br />
E0 := H : produktmessbar, adaptiert und �H� 2 �<br />
:= E<br />
� ∞<br />
Sei E der Abschluss von E in E0.<br />
0<br />
H 2 � �<br />
t dt < ∞ .<br />
Satz 25.9. Ist � H progressiv messbar (etwa linksstetig oder rechtsstetig und adap-<br />
� �<br />
∞<br />
tiert) und E<br />
< ∞,soistH ∈ E.<br />
0 H2 t dt<br />
Beweis. Sei H progressiv messbar und E<br />
� � ∞<br />
0 H2 t dt<br />
�<br />
< ∞. Es reicht zu zeigen,<br />
dass für jedes T>0 eine Folge (H n )n∈N in E existiert mit
25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 531<br />
� � T<br />
E (Hs − H<br />
0<br />
n s ) 2 �<br />
n→∞<br />
ds −→ 0. (25.3)<br />
Schritt 1. Sei zunächst H stetig und beschränkt. Setze H n 0 =0 und<br />
H n t = H i2 −n T falls i2 −n TT.DannistH n ∈E, und es gilt H n t (ω) n→∞<br />
−→ Ht(ω) für alle<br />
t>0 und ω ∈ Ω. Nach dem Satz von der majorisierten Konvergenz gilt (25.3).<br />
Schritt 2. Sei nun H progressiv messbar und beschränkt. Es reicht zu zeigen,<br />
dass es stetige, adaptierte Prozesse Hn , n ∈ N, gibt, für die (25.3) gilt. Sei<br />
H n � t∧T<br />
t := n<br />
Hs ds für t ≥ 0, n∈ N.<br />
(t−1/n)∨0<br />
Dann ist H n stetig und adaptiert und durch �H�∞ beschränkt. Nach dem Hauptsatz<br />
der Differential- und Integralrechnung (siehe Übung 13.1.7) gilt<br />
H n t (ω) n→∞<br />
−→ Ht(ω) für λ − fast alle t ∈ [0,T] und für jedes ω ∈ Ω. (25.4)<br />
Nach dem Satz von Fubini und dem Satz über majorisierte Konvergenz gilt daher<br />
� � T<br />
E (Hs − H n s ) 2 �<br />
ds =<br />
�<br />
�<br />
Hs(ω) − H n s (ω) �2 n→∞<br />
(P ⊗ λ)(d(ω, s)) −→ 0.<br />
0<br />
Ω×[0,T ]<br />
Schritt 3. Sei nun H progressiv messbar und E � � ∞<br />
0 H2 t dt � < ∞. Es reicht<br />
zu zeigen, dass es eine Folge (H n )n∈N von beschränkten, progressiv messbaren<br />
Prozessen gibt, sodass (25.3) gilt. Offenbar kann hierzu aber H n t = Ht {|Ht|
532 25 Das Itô-Integral<br />
Satz 25.11. (i) Die Abbildung IW ∞ : E→L2 (Ω,F, P) ist linear und<br />
E � I W ∞ (H) 2� � � ∞<br />
= E H 2 �<br />
s ds .<br />
(ii) Für jedes H ∈ E wird durch ĨW t (H) :=I W (H (t) ) ein L 2 -beschränktes<br />
F-Martingal ĨW (H) definiert, das eine stetige Modifikation I W (H) besitzt.<br />
Definition 25.12 (Itô-Integral als Prozess). Sei IW (H) die stetige Modifikation<br />
des Martingals (IW (H (t) ))t≥0 aus Satz 25.11(ii). Wir bezeichnen mit<br />
� t<br />
Hr dWs := I<br />
s<br />
W t (H) − I W s (H) für 0 ≤ s ≤ t ≤∞<br />
das Itô-Integral von s bis t von H bezüglich der Brown’schen Bewegung W .<br />
Beweis (von Satz 25.11). (i) Dies folgt direkt aus der Definition von I W ∞ (H).<br />
(ii) Sei (H n )n∈N eine Folge in E mit �H n − H� n→∞<br />
I W � n (t)<br />
∞ (H ) � = I W t (H n )=E � I W ∞ (H) � �<br />
�Ft 0<br />
−→ 0. Nach Satz 25.4(ii) ist<br />
für alle t ≥ 0, n∈ N.<br />
Wegen � � n (t) (t) (H ) − H � � �<br />
� ≤ �Hn − H� n→∞<br />
−→ 0 folgt (zusammen mit Korollar<br />
8.20)<br />
Ĩ W t (H) = lim<br />
n→∞ IW t (H n ) = lim<br />
n→∞ E�I W ∞ (H n ) � � �<br />
�Ft<br />
W<br />
= E I∞ (H) � �<br />
�Ft .<br />
Mithin ist ĨW (H) ein L 2 -beschränktes Martingal und I W t (H n ) n→∞<br />
−→ ĨW t (H) in<br />
L 2 für jedes t ≥ 0. Nach Satz 25.4(ii) ist I W (H n ) stetig für jedes n ∈ N, und<br />
nach Übung 21.4.3 existiert eine stetige Modifikation I W (H) von ĨW (H). ✷<br />
Als letzten Schritt bei der Konstruktion des Itô-Integrals wollen wir uns von der<br />
strengen Integrierbarkeitsbedingung E � � ∞<br />
0 H2 s ds � < ∞ lösen. Hierzu machen<br />
wir zunächst die folgende einfache Feststellung.<br />
Lemma 25.13. Sei τ eine Stoppzeit und H, G ∈ E mit Hs = Gs für jedes s ≤ τ.<br />
Dann gilt für die Itô-Integrale<br />
� τ<br />
� ∞<br />
0<br />
Hs dWs :=<br />
0<br />
H (τ)<br />
� ∞<br />
s dWs =<br />
0<br />
G (τ)<br />
� τ<br />
s dWs =:<br />
0<br />
Gs dWs f.s.<br />
Speziell gilt für jedes t ≥ 0 auf {τ ≥ t}<br />
� τ∧t<br />
0<br />
Hs dWs =<br />
� t<br />
Hs dWs.<br />
0
25.1 Das Itô-Integral bezüglich der Brown’schen Bewegung 533<br />
Beweis. Klar. ✷<br />
Definition 25.14. Sei Eloc der Raum der progressiv messbaren stochastischen Prozesse<br />
H mit<br />
� T<br />
H 2 s ds < ∞ f.s. für jedes T>0.<br />
0<br />
Lemma 25.15. Für jedes H ∈Eloc existiert eine Folge (τn)n∈N von Stoppzeiten<br />
mit τn ↑∞fast sicher und E � � τn<br />
0 H2 s ds � < ∞, also mit H (τn) ∈ E für jedes<br />
n ∈ N.<br />
Beweis. Setze<br />
�<br />
τn := inf t ≥ 0:<br />
� t<br />
0<br />
H 2 �<br />
s ds ≥ n .<br />
Nach der Definition von Eloc gilt τn ↑∞fast sicher und nach Konstruktion ist<br />
�<br />
�H (τn)�� 2 = E � � τn<br />
0 H2 s ds � ≤ n. ✷<br />
Definition 25.16. Sei H ∈Eloc und (τn)n∈N wie in Lemma 25.15. Wir definieren<br />
für t ≥ 0 das Itô-Integral als den fast sicheren Grenzwert<br />
Satz 25.17. Sei H ∈Eloc.<br />
� t<br />
� t<br />
0<br />
Hs dWs := lim<br />
n→∞<br />
0<br />
H (τn)<br />
s dWs. (25.5)<br />
(i) Der Grenzwert in (25.5) ist wohldefiniert, stetig in t und (f.s.) unabhängig von<br />
der Wahl der Folge (τn)n∈N.<br />
(ii) Ist τ ein Stoppzeit mit E � � τ<br />
0 H2 s ds � �<br />
< ∞, so ist das gestoppte Itô-Integral<br />
� �<br />
τ∧t<br />
ein L2-beschränktes, stetiges Martingal.<br />
0<br />
Hs dWs<br />
t≥0<br />
(iii) Ist speziell E � � T<br />
0 H2 s ds � < ∞ für jedes T>0,soist<br />
quadratintegrierbares, stetiges Martingal.<br />
Beweis. (i) Nach Lemma 25.13 ist auf dem Ereignis {τn ≥ t}<br />
� t<br />
0<br />
Hs dWs =<br />
� t<br />
0<br />
H (τn)<br />
s dWs.<br />
� � t<br />
0 Hs<br />
�<br />
dWs<br />
t≥0 ein<br />
Also existiert der Limes, ist stetig und unabhängig von der Wahl der Folge (τn)n∈N.<br />
(ii) Dies folgt direkt aus Satz 25.11.<br />
(iii) Da wir τn = n wählen können, folgt dies aus (ii). ✷
534 25 Das Itô-Integral<br />
Satz 25.18. Sei H progressiv messbar und E � � T<br />
0 H2 s ds � < ∞ für alle T > 0.<br />
Dann definiert<br />
� t<br />
Mt := Hs dWs, t ≥ 0,<br />
ein quadratintegrierbares, stetiges Martingal, und<br />
�<br />
(Nt)t≥0 := M 2 � t<br />
t −<br />
ist ein stetiges Martingal mit N0 =0.<br />
0<br />
0<br />
H 2 s ds<br />
Beweis. Es reicht zu zeigen, dass N ein Martingal ist. Offenbar ist N adaptiert.<br />
Sei τ ein beschränkte Stoppzeit. Dann ist<br />
E � �<br />
�<br />
Nτ = E M 2 � τ<br />
τ − H 2 �<br />
s ds<br />
0<br />
�� � ∞<br />
= E<br />
0<br />
H (τ)<br />
�2� s dWs − E<br />
�<br />
� � ∞<br />
0<br />
t≥0<br />
�<br />
� � (τ) 2<br />
H s ds =0.<br />
Nach dem Optional Stopping Theorem (siehe Übung 21.1.3(iii)) ist N damit als<br />
Martingal erkannt. ✷<br />
Wir erinnern an den Begriff des lokales Martingals und der quadratischen Variation<br />
aus Kapitel 21.10.<br />
Korollar 25.19. Ist H ∈Eloc, so ist das Itô-Integral Mt = � t<br />
0 Hs dWs ein stetiges<br />
lokales Martingal mit quadratischem Variationsprozess 〈M〉t = � t<br />
0 H2 s ds.<br />
Beispiel 25.20. (i) Wt = � t<br />
0 1 dWs ist ein quadratintegrierbares Martingal, und<br />
(W 2 t − t)t≥0 ist ein stetiges Martingal.<br />
(ii) Wegen E � � T<br />
0 W 2 s ds � 2<br />
T = 2 < ∞ für alle T ≥ 0 ist Mt := � t<br />
0 Ws dWs �<br />
ein<br />
stetiges, quadratintegrierbares Martingal, und M 2 t − � t<br />
0 W 2 �<br />
s ds ist ein<br />
t≥0<br />
stetiges Martingal.<br />
(iii) Sei H progressiv messbar und beschränkt sowie Mt := � t<br />
0 Hs dWs.Dannist<br />
M progressiv messbar (weil stetig und adaptiert) und<br />
� � T<br />
E M<br />
0<br />
2 � � T � � s<br />
s ds = E<br />
0 0<br />
� H 2 �2 �<br />
r dr<br />
ds ≤ T 2 �H�2 ∞<br />
.<br />
2<br />
Also ist � Mt := � t<br />
0 Ms dWs �<br />
ein quadratisch integrierbares, stetiges Martingal<br />
und �M 2<br />
t − � t<br />
0 M 2 �<br />
s dWs ist ein stetiges Martingal. ✸<br />
t≥0
25.2 Itô-Integral bezüglich Diffusionen<br />
Ist<br />
so ist das elementare Integral<br />
H =<br />
I M t (H) =<br />
25.2 Itô-Integral bezüglich Diffusionen 535<br />
n�<br />
hi−1 (ti−1,ti] ∈E, (25.6)<br />
i=1<br />
n�<br />
i=1<br />
� �<br />
hi−1 Mti∧t − Mti−1∧t<br />
ein Martingal (beziehungsweise lokales Martingal), wenn M ein Martingal (beziehungsweise<br />
lokales Martingal) ist, und es gilt<br />
E � (I M ∞ (H)) 2� =<br />
n�<br />
E � h 2 i−1(Mti − Mti−1 )2� n�<br />
= E � h 2 i−1(〈M〉ti −〈M〉ti−1 )�<br />
i=1<br />
� � ∞<br />
= E<br />
0<br />
H 2 t d〈M〉t<br />
�<br />
,<br />
falls der Ausdruck auf der rechten Seite endlich ist. Grob gesprochen können wir<br />
die Prozedur, mit der wir das Itô-Integral für die Brown’sche Bewegung in Abschnitt<br />
25.1 für Integranden H ∈ E definiert hatten, wiederholen, um ein Integral<br />
bezüglich M für eine große Klasse von Integranden zu definieren. Für die Definition<br />
der Norm auf E müssen wir im Prinzip nur dt (die quadratische Variation der<br />
Brown’schen Bewegung) durch d〈M〉t ersetzen:<br />
� � ∞ �<br />
.<br />
�H� 2 M := E<br />
0<br />
i=1<br />
H 2 t d〈M〉t<br />
Das Problem besteht nicht darin, das elementare Integral auf E fortzusetzen, sondern<br />
darin zu prüfen, welche Prozesse in E liegen. Für unstetige Martingale etwa<br />
müssen die Integranden vorhersagbar sein, damit das Integral ein Martingal wird<br />
(abgesehen von der Schwierigkeit, dass wir die Existenz einer quadratischen Variation<br />
für solche Martingale nicht etabliert haben und dies in diesem Rahmen auch<br />
nicht tun werden). Dies hatten wir in Kapitel 9.3 schon für den Fall diskreter Zeit<br />
gesehen. Haben wir nun ein stetiges Martingal M mit stetiger quadratischer Variation<br />
〈M〉 vorliegen, so tritt immer noch folgendes Problem auf: Im Beweis von<br />
Satz 25.9 wurde in Schritt 2 benutzt, dass Hn t (ω) n→∞<br />
−→ Ht(ω) für Lebesgue-fast<br />
alle t und alle ω gilt, um zu zeigen, dass progressiv messbare H in E liegen. Ist<br />
d〈M〉t nun nicht absolutstetig bezüglich des Lebesgue-Maßes, so reicht dies aber<br />
nicht aus, um die Konvergenz der Integrale bezüglich d〈M〉t zu folgern. Im Fall<br />
absolutstetiger quadratischer Variation hingegen geht der Beweis glatt durch. Wie<br />
in Abschnitt 25.1 erhalten wir:
536 25 Das Itô-Integral<br />
Satz 25.21. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer<br />
Variation 〈M〉 und H progressiv messbar mit � T<br />
0 H2 s d〈M〉s < ∞ f.s. für jedes<br />
T ≥ 0. Dann ist das Itô-Integral Nt := � t<br />
0 Hs dMs wohldefiniert und ist<br />
ein stetiges lokales Martingal mit quadratischer Variation 〈N〉t = � t<br />
0 H2 s d〈M〉s.<br />
Für jede Folge (τn)n∈N mit τn ↑ ∞ und � �H (τn)�� < ∞ und jede Familie<br />
M<br />
(Hn,m ,n,m∈N) ⊂Emit � �Hn,m − H (τn)�� m→∞<br />
−→ 0 gilt<br />
M<br />
� t<br />
0<br />
Hs dMs = lim<br />
n→∞ lim<br />
m→∞ IM t (H m,n ) für alle t ≥ 0 stochastisch.<br />
Als gewisse Verallgemeinerung erhalten wir den folgenden Satz.<br />
Satz 25.22. Seien M 1 und M 2 stetige lokale Martingal mit absolutstetiger quadratischer<br />
Variation. Sei Hi progressiv messbar mit � T<br />
0 (Hi s) 2 d〈M i 〉s < ∞ für<br />
alle i = 1, 2 und T < ∞. SeiNi t := � t<br />
0 Hi s dM i s für i = 1, 2. Dann sind<br />
N 1 und N 2 stetige lokale Martingale mit quadratischer Kovariation 〈N i ,Nj 〉t =<br />
� t<br />
0 Hi sH j s d〈M i ,Mj 〉s.SindM1und M 2 unabhängig, so ist 〈N 1 ,N2 〉≡0.<br />
Beweis. Seien zunächst H1 ,H2 ∈E. Dann gibt es Zahlen 0=t0
25.2 Itô-Integral bezüglich Diffusionen 537<br />
Wir betrachten im Folgenden Prozesse, die sich als Itô-Integral bezüglich einer<br />
Brown’schen Bewegung schreiben lassen, und geben für diese Prozesse einen detaillierteren<br />
Beweis von Satz 25.21 an.<br />
Definition 25.23. Sei W eine Brown’sche Bewegung und σ und b progressiv<br />
messbare stochastische Prozesse mit � t<br />
0 σ2 s +|bs| ds < ∞ fast sicher für alle t ≥ 0.<br />
Dann nennen wir den Prozess X mit<br />
� t<br />
Xt =<br />
0<br />
σs dWs +<br />
� t<br />
0<br />
bs ds für t ≥ 0<br />
einen verallgemeinerten Diffusionsprozess (oder kurz: verallgemeinerte Diffusion)<br />
mit Diffusionskoeffiezenten σ und Drift b.<br />
Haben σ und b speziell die Gestalt σs =˜σ(Xs) und bs = ˜b(Xs) für gewisse<br />
Abbildungen ˜σ : R → [0, ∞) und ˜b : R → R,sonennenwirX eine Diffusion (im<br />
engeren Sinne).<br />
Im Gegensatz zu verallgemeinerten Diffusionen sind Diffusionen im engeren Sinne<br />
unter gewissen Regularitätsannahmen an die Koeffizienten stets Markovprozesse,<br />
wie wir noch sehen werden (vergleiche Satz 26.8, 26.10 und 26.26).<br />
Eine Diffusion X hat stets die Gestalt X = M + A, wobei Mt = � t<br />
0 σs dWs<br />
ein stetiges lokales Martingal mit quadratischer Variation 〈M〉t = � t<br />
0 σ2 s ds ist<br />
(nach Korollar 25.19) und At = � t<br />
0 bs ds ein stetiger Prozess von lokal endlicher<br />
Variation.<br />
Offenbar ist für H aus (25.6)<br />
� t<br />
0<br />
Hs dMs =<br />
=<br />
n�<br />
� �<br />
hi−1 Mti∧t − Mti−1∧t<br />
i=1<br />
n�<br />
� ti∧t<br />
hi−1<br />
� t<br />
σs dWs =<br />
i=1 ti−1∧t<br />
0<br />
Für progressiv messbares H mit � T<br />
T ≥ 0 definieren wir daher das Itô-Integral<br />
� t<br />
0<br />
Hs dMs :=<br />
0 H2 s d〈M〉s = � T<br />
� t<br />
0<br />
(Hsσs) dWs.<br />
(Hs σs) dWs.<br />
0 (Hsσs) 2 ds < ∞ für alle<br />
Wir erhalten ohne Weiteres, speziell ohne auf Satz 25.21 zurückzugreifen, den folgenden<br />
Satz.<br />
Satz 25.24. Sei X = M + A eine verallgemeinerte Diffusion mit σ und b wie in<br />
Definition 25.23 und H progressiv messbar mit
538 25 Das Itô-Integral<br />
� T<br />
H<br />
0<br />
2 s σ 2 s ds < ∞ f.s. für alle T ≥ 0 (25.7)<br />
und � T<br />
|Hsbs| ds < ∞ f.s. für alle T ≥ 0, (25.8)<br />
so ist der durch<br />
� t<br />
Yt :=<br />
0<br />
0<br />
Hs dXs :=<br />
� t<br />
0<br />
Hs dMs +<br />
� t<br />
0<br />
Hs dAs :=<br />
� t<br />
0<br />
Hsσs dWs +<br />
� t<br />
Hsbs ds<br />
0<br />
definierte Prozess Y eine verallgemeinerte Diffusion mit Diffusionskoeffizienten<br />
(Hsσs)s≥0 und Drift (Hsbs)s≥0. Speziell ist Nt := � t<br />
0 Hs dMs ein stetiges lokales<br />
Martingal mit Variationsprozess 〈N〉t = � t<br />
0 H2 s d〈M〉s = � t<br />
0 H2 s σ2 s ds.<br />
Übung 25.2.1. Sei M ein stetiges lokales Martingal mit absolutstetiger quadratischer<br />
Variation 〈M〉 (etwa eine verallgemeinerte Diffusion), und sei H progressiv<br />
messbar und stetig mit � T<br />
0 H2 s d〈M〉s < ∞ für jedes T ≥ 0. Sei ferner<br />
P =(P (n) )n∈N eine zulässige Zerlegungsfolge (siehe Definition 21.56). Zeige:<br />
� T<br />
0<br />
Hs dMs = lim<br />
25.3 Die Itô-Formel<br />
n→∞<br />
t∈Pn T<br />
�<br />
Ht(Mt ′ − Mt) stochastisch für alle T ≥ 0. ♣<br />
Dieser und die beiden folgenden Abschnitte sind inhaltlich an ein Vorlesungsskript<br />
von Hans Föllmer angelehnt.<br />
Ist t ↦→ Xt eine differenzierbare Abbildung mit Ableitung X ′ und F ∈ C1 (R)<br />
mit Ableitung F ′ , so gilt die klassische Substitutionsformel<br />
� t<br />
F (Xt) − F (X0) =<br />
0<br />
F ′ � t<br />
(Xs) dXs =<br />
0<br />
F ′ (Xs)X ′ s ds. (25.9)<br />
Diese Formel bleibt richtig, wenn X stetig und von lokal endlicher Variation ist<br />
(siehe Kapitel 21.10), also die Verteilungsfunktion eines absolutstetigen signierten<br />
Maßes auf [0, ∞) ist. Dann existiert die Ableitung X ′ als Radon-Nikodym Ableitung<br />
fast überall, und man kann leicht zeigen, dass (25.9) auch in diesem Fall<br />
gilt.<br />
Die Pfade der Brown’schen Bewegung W sind nirgends differenzierbar (Satz 21.17<br />
von Paley-Wiener-Zygmund) und haben (folglich) überall lokal unendliche Variation.<br />
Wir können also eine einfache Substitutionsformel wie in (25.9) nicht erwarten,<br />
und in der Tat sieht man leicht ein, dass sie falsch sein muss: Wählen wir
25.3 Die Itô-Formel 539<br />
F (x) =x 2 , so ist die rechte Seite in (25.9) (mit X durch W ersetzt) � t<br />
0 2Ws dWs,<br />
also ein Martingal. Die linke Seite hingegen ist W 2 t , also ein Submartingal, das erst<br />
durch Subtraktion von t zu einem Martingal wird. In der Tat ist dieses fehlende<br />
t der zusätzliche Term, den wir in der Substitutionsformel für Itô-Integrale, der<br />
so genannten Itô-Formel, bekommen. Eine (etwas haarsträubende) Heuristik führt<br />
uns erstaunlicherweise auf die richtige Spur: Für kleine t ist Wt ungefähr von der<br />
Größe √ t. Wenn wir nun formal dWt = √ dt schreiben und für F ∈ C 2 (R) eine<br />
Taylor-Entwicklung bis zur zweiten Ordnung durchführen, so erhalten wir<br />
dF (Wt) =F ′ (Wt) dWt + 1<br />
2 F ′′ (Wt)(dWt) 2 = F ′ (Wt) dWt + 1<br />
2 F ′′ (Wt) dt,<br />
oder als Integral geschrieben<br />
� t<br />
F (Wt) − F (W0) = F<br />
0<br />
′ � t<br />
1<br />
(Ws) dWs +<br />
0 2 F ′′ (Ws) ds. (25.10)<br />
(Für gewisse diskrete Martingale haben wir eine analoge Formel schon in Beispiel<br />
10.9 hergeleitet.) Hauptanliegen dieses Abschnittes ist es zu zeigen, dass diese<br />
Formel, die Itô-Formel für die Brown’sche Bewegung genannt wird, in der Tat korrekt<br />
ist.<br />
Die weitere Diskussion in diesem Abschnitt hängt nicht explizit davon ab, dass<br />
wir bezüglich der Brown’schen Bewegung integrieren, sondern benutzt lediglich,<br />
dass die Funktion, bezüglich der wir integrieren, stetige quadratische Variation hat<br />
(entlang einer geeigneten zulässigen Zerlegungsfolge P = (Pn )n∈N)), für die<br />
Brown’sche Bewegung nämlich 〈W 〉t = t.<br />
Sei im Folgenden also P =(P n )n∈N eine zulässige Zerlegungsfolge (siehe Definition<br />
21.56 für die Definition und die Notation CqV = C P qV , Pn T , Pn S,T , t′ und so<br />
weiter) und X ∈ C([0, ∞)) mit stetiger quadratischer Variation (entlang P)<br />
T ↦→ 〈X〉T = V 2 �<br />
T (X) = lim (Xt ′ − Xt) 2 .<br />
n→∞<br />
t∈PT<br />
Für die Brown’sche Bewegung ist W ∈CP qV fast sicher für jede zulässige Zerlegungsfolge<br />
(Satz 21.64) und 〈W 〉T = T .Für stetige lokale Martingale M kann<br />
man immerhin durch Übergang zu einer geeigneten Teilfolge P ′ von P sicherstellen,<br />
dass M ∈CP′ qV fast sicher gilt (Satz 21.70).<br />
Sei also P fest gewählt und X ∈CqV eine (deterministische) Funktion.<br />
Satz 25.25 (Pfadweise Itô-Formel). Sei X ∈CqV und F ∈ C 2 (R). Dann existiert<br />
für alle T ≥ 0 der Limes<br />
� T<br />
und es gilt die Itô-Formel<br />
0<br />
F ′ (Xs) dXs := lim<br />
n→∞<br />
t∈Pn T<br />
�<br />
F ′ (Xt)(Xt ′ − Xt), (25.11)
540 25 Das Itô-Integral<br />
� T<br />
F (XT )=F (X0) = F<br />
0<br />
′ (Xs) dXs + 1<br />
� T<br />
F<br />
2 0<br />
′′ (Xs) d〈X〉s. (25.12)<br />
Dabei ist das rechte Integral in (25.12) als klassisches (Lebesgue-Stieltjes-) Integral<br />
zu verstehen.<br />
Bemerkung 25.26. Ist M ein stetiges lokales Martingal, so ist nach Übung 25.2.1<br />
das Itô-Integral � T<br />
0 F (Ms) dMs der stochastische Limes von �<br />
t∈P n T<br />
F ′ (Mt)(Mt ′ −<br />
Mt) für n →∞. Tatsächlich stimmt also für X = M(ω) das pfadweise Integral<br />
in (25.11) mit dem Itô-Integral (f.s.) überein. Speziell gilt für das Itô-Integral der<br />
Brown’schen Bewegung die Itô-Formel (25.10). ✸<br />
Beweis (von Satz 25.25).<br />
und dass (25.12) gilt.<br />
Wir müssen zeigen, dass der Limes in (25.11) existiert<br />
Für n ∈ N und t ∈Pn T (mit Nachfolger t′ ∈Pn T ) liefert die Taylor-Formel<br />
F (Xt ′) − F (Xt) =F ′ 1<br />
(Xt)(Xt ′ − Xt)+ 2F ′′ (Xt) · (Xt ′ − Xt) 2 + Rn t , (25.13)<br />
wobei wir das Restglied<br />
R n t = � F ′′ (ξ) − F ′′ (Xt) � · 1<br />
2<br />
2 (Xt ′ − Xt)<br />
(für eine geeignete Zwischenstelle ξ zwischen Xt und Xt ′) wie folgt abschätzen.<br />
Da X stetig ist, ist C := {Xt : t ∈ [0,T]} kompakt und F ′′�<br />
�C gleichmäßig<br />
stetig. Zu jedem ε>0 gibt es also ein δ>0 mit<br />
|F ′′ (Xr) − F ′′ (Xs)|
25.3 Die Itô-Formel 541<br />
Da ε>0 beliebig war, gilt also �<br />
t∈Pn |R<br />
T<br />
n t | n→∞<br />
−→ 0. Es gilt (siehe Übung 21.10.2)<br />
�<br />
t∈P n T<br />
1<br />
2 F ′′ (Xt)(Xt ′ − Xt) 2 n→∞<br />
−→ 1<br />
� T<br />
F<br />
2 0<br />
′′ (Xs) d〈X〉s.<br />
Daher muss auch die Summe des verbleibenden Terms in (25.13) konvergieren, das<br />
heißt, es existiert der Limes in (25.11). ✷<br />
Als direkte Folgerung erhalten wir die Itô-Formel für das Itô-Integral bezüglich Diffusionen.<br />
Satz 25.27 (Itô-Formel für Diffusionen). Sei Y = M + A, wobei Mt � =<br />
t<br />
0 σs dWs und At = � t<br />
0 bs ds, eine (verallgemeinerte) Diffusion ist (siehe Definition<br />
25.23). Sei F ∈ C2 (R). Dann gilt die Itô-Formel<br />
F (Yt) − F (Y0) =<br />
=<br />
� t<br />
0<br />
� t<br />
0<br />
F ′ (Ys) dMs +<br />
� t<br />
F ′ (Ys)σs dWs +<br />
Speziell gilt für die Brown’sche Bewegung<br />
F (Wt) − F (W0) =<br />
� t<br />
0<br />
0<br />
� t<br />
F ′ (Ws) dWs + 1<br />
2<br />
� t<br />
F ′ (Ys) dAs + 1<br />
F<br />
2 0<br />
′′ (Ys) d〈M〉s<br />
�<br />
F<br />
0<br />
′ (Ys)bs + 1<br />
2 F ′′ (Ys)σ 2 �<br />
s ds.<br />
(25.14)<br />
� t<br />
0<br />
F ′′ (Ws) ds. (25.15)<br />
Als Anwendung der Itô-Formel bringen wir eine Charakterisierung der Brown’schen<br />
Bewegung als stetiges lokales Martingal mit einer bestimmten quadratischen Variation.<br />
Satz 25.28 (Lévy’sche Charakterisierung der Brown’schen Bewegung).<br />
Sei X ∈Mloc,c mit X0 =0. Dann sind äquivalent<br />
(i) (X2 t − t)t≥0 ist ein lokales Martingal,<br />
(ii) 〈X〉t = t für alle t ≥ 0,<br />
(iii) X ist eine Brown’sche Bewegung.<br />
Beweis (iii) =⇒ (i) Das ist klar.<br />
(i) ⇐⇒ (ii) Das ist klar, weil der quadratische Variationsprozess eindeutig ist.<br />
(ii) =⇒ (iii) Es reicht zu zeigen, dass Xt − Xs ∼N0,t−s gegeben Fs für t><br />
s ≥ 0. Wegen des Eindeutigkeitssatzes für charakteristische Funktionen reicht es zu<br />
zeigen, dass (mit i = √ −1)für A ∈Fs und λ ∈ R gilt:<br />
ϕA,λ(t) :=E � e iλ(Xt−Xs) � −λ<br />
A = P[A] e 2 (t−s)/2<br />
.
542 25 Das Itô-Integral<br />
Wir wenden die Itô-Formel separat auf Real- und Imaginärteil an und erhalten<br />
e iλXt − e iλXs � t<br />
=<br />
s<br />
Es folgt<br />
E � e iλ(Xt−Xs) � �<br />
�Fs − 1<br />
�� t<br />
= E iλe iλ(Xr−Xs) �<br />
�<br />
dXr �<br />
s<br />
iλe iλXr dXr − 1<br />
2<br />
� Fs<br />
�<br />
− 1<br />
2 λ2 �� t<br />
E<br />
s<br />
� t<br />
λ<br />
s<br />
2 e iλXr dr.<br />
e iλ(Xr−Xs) �<br />
�<br />
dr �<br />
Nun sind Mt := Re � t<br />
s iλeiλ(Xr−Xs) dXr und Nt := Im � t<br />
s iλeiλ(Xr−Xs) dXr,<br />
t ≥ s, stetige lokales Martingale mit 〈M〉t = � t<br />
s λ2 sin(λ(Xr − Xs)) 2 dr ≤ λ2 (t −<br />
s) und 〈N〉t = � t<br />
s λ2 cos(λ(Xr − Xs)) 2 dr ≤ λ2 (t − s). Nach Korollar 21.76 sind<br />
M und N daher Martingale, also gilt<br />
�� t<br />
E iλe iλ(Xr−Xs) � �<br />
�<br />
dXr � =0.<br />
s<br />
s<br />
� Fs<br />
Der Satz von Fubini liefert (wegen A ∈Fs)<br />
ϕA,λ(t) − ϕA,λ(s) =E � e iλ(Xt−Xs) �<br />
A − P[A]<br />
= − 1<br />
2 λ2<br />
� t<br />
E � e iλ(Xr−Xs) � 1<br />
A dr = −<br />
2 λ2<br />
Das heißt, ϕA,λ ist die Lösung des linearen Anfangswertproblems<br />
ϕA,λ(s) =P[A] und<br />
� t<br />
d<br />
dt ϕA,λ(t) =− 1<br />
2 λ2 ϕA,λ(t).<br />
s<br />
� Fs<br />
�<br />
.<br />
ϕA,λ(r) dr.<br />
Die eindeutige Lösung hiervon ist ϕA,λ(t) =P[A] e −λ2 (t−s)/2 . ✷<br />
Als Folgerung aus dem Satz erhalten wir, dass wir jedes lokale Martingal, dessen<br />
quadratischer Variationsprozess absolutstetig (als Funktion der Zeit) ist, als Itô-<br />
Integral bezüglich einer Brown’schen Bewegung schreiben können.<br />
Satz 25.29 (Itô’scher Martingal-Darstellungssatz). Sei M ein stetiges lokales<br />
Martingal mit absolutstetiger quadratischer Variation t ↦→ 〈M〉. Dann gibt es,<br />
eventuell auf einer Erweiterung des Wahrscheinlichkeitsraums, eine Brown’sche Bewegung<br />
W mit<br />
� �<br />
t<br />
d〈M〉s<br />
Mt =<br />
dWs für alle t ≥ 0.<br />
ds<br />
0<br />
Beweis. Wir nehmen an, dass auf dem Wahrscheinlichkeitsraum eine Brown’sche<br />
Bewegung � W definiert ist, die unabhängig von M ist. (Gegebenenfalls muss der<br />
Wahrscheinlichkeitsraum hierzu erweitert werden.) Sei
ft := lim<br />
n→∞ n� �<br />
〈M〉t −〈M〉 t−1/n<br />
25.3 Die Itô-Formel 543<br />
für t>0.<br />
Dann ist f eine progressiv messbare Version der Radon-Nikodym Ableitung d〈M〉t<br />
dt .<br />
Klar ist � T<br />
0 {ft>0} f −1<br />
t d〈M〉t = T0, also sind die folgenden<br />
Integrale wohldefiniert, und<br />
� t<br />
Wt :=<br />
0<br />
{fs>0} f −1/2<br />
� t<br />
s dMs +<br />
0<br />
{fs=0} d � Ws<br />
ist als Summe stetiger lokaler Martingale selber eines. Nach Satz 25.22 ist<br />
〈W 〉t =<br />
=<br />
= t.<br />
� t<br />
0<br />
� t<br />
0<br />
{fs>0} f −1<br />
� t<br />
s d〈M〉s +<br />
0<br />
{fs>0} f −1<br />
� t<br />
s fs ds +<br />
0<br />
{fs=0} ds<br />
{fs=0} ds<br />
Nach Satz 25.28 ist W damit als Brown’sche Bewegung erkannt. Andererseits ist<br />
� t<br />
0<br />
f 1/2<br />
s dWs =<br />
=<br />
� t<br />
0<br />
� t<br />
0<br />
{fs>0} f 1/2<br />
s<br />
{fs>0} dMs.<br />
f −1/2<br />
s dMs +<br />
� t<br />
0<br />
{fs=0} f 1/2<br />
s<br />
d � Ws<br />
Nun ist aber Mt − � t<br />
0 {fs>0} dMs = � t<br />
0 {fs=0} dMs ein stetiges lokales Martingal<br />
mit quadratischer Variation � t<br />
0 {fs=0} d〈M〉s =0, also fast sicher gleich Null.<br />
Also ist Mt = � t 1/2<br />
f 0 s dWs, wie gewünscht. ✷<br />
Wir kommen nun zu einer mehrdimensionalen Verallgemeinerung der (pfadweisen)<br />
Itô-Formel. Sei hierzu Cd qV der Raum der stetigen Abbildungen X :[0, ∞) → Rd ,<br />
t ↦→ Xt =(X1 t ,...,Xd t ), sodass für k, l =1,...,d die quadratische Kovariation<br />
(siehe Definition 21.58) 〈Xk ,Xl 〉 existiert und stetig ist. Ferner sei C2 (Rd )<br />
der Raum der zweimal stetig differenzierbaren Funktionen F auf Rd mit partiellen<br />
Ableitungen ∂kF und ∂k∂lF , k, l =1,...,d.Mit∇F bezeichnen wir den<br />
Gradienten und mit △ =(∂2 1 + ...+ ∂2 d ) den Laplace-Operator.<br />
Satz 25.30 (Mehrdimensionale pfadweise Itô-Formel). Sei X ∈Cd qV<br />
C<br />
und F ∈<br />
2 (Rd ). Dann gilt<br />
� T<br />
F (XT ) − F (X0) = ∇F dXs +<br />
0<br />
1<br />
� T<br />
2 0<br />
d�<br />
∂k∂lF (Xs) d〈X k ,X l 〉s.<br />
Dabei ist<br />
� T<br />
0<br />
∇F (Xs) dXs :=<br />
k,l=1<br />
d�<br />
� T<br />
∂kF (Xs) dX<br />
k=1<br />
0<br />
k s .
544 25 Das Itô-Integral<br />
Beweis. Das geht wie im eindimensionalen Fall. Die Details verbleiben zur Übung.<br />
✷<br />
Korollar 25.31 (Produktregel). Sind X, Y, X − Y,X + Y ∈CqV, so gilt<br />
XT YT = X0Y0 +<br />
� T<br />
0<br />
Ys dXs +<br />
� T<br />
0<br />
Xs dYs + 〈X, Y 〉T für alle T ≥ 0.<br />
Beweis. Nach Voraussetzung (und der Polarisationsformel) existiert 〈X, Y 〉. Nach<br />
Satz 25.30 mit F (x, y) =xy folgt die Aussage. ✷<br />
Sei nun Y = M + A eine d-dimensionale verallgemeinerte Diffusion, also<br />
M k t =<br />
d�<br />
l=1<br />
� t<br />
0<br />
σ k,l<br />
s dW l s und A k t =<br />
� t<br />
b<br />
0<br />
k s ds für t ≥ 0, k=1,...,d.<br />
Dabei ist W =(W 1 ,...,W d ) eine d-dimensionale Brown’sche Bewegung und<br />
σ k,l (beziehungsweise b k ) sind progressiv messbare, lokal quadratisch integrierbare<br />
(beziehungsweise lokal integrierbare) stochastische Prozesse für k, l =1,...,d.<br />
Wegen 〈W k ,W l 〉t = t · {k=l} ist 〈Y k ,Y l 〉t = 〈M k ,M l 〉t = � t<br />
0 ak,l<br />
s ds, wobei<br />
a k,l<br />
s :=<br />
d�<br />
i=1<br />
σ k,i<br />
s σ i,l<br />
s<br />
die Kovarianzmatrix der Diffusion M ist. Speziell ist M ∈Cd qV fast sicher. Wir<br />
erhalten als Korollar zur mehrdimensionalen pfadweisen Itô-Formel:<br />
Satz 25.32 (Mehrdimensionale Itô-Formel). Sei Y wie oben und F ∈ C 2 (R d ).<br />
Dann gilt<br />
F (YT ) − F (Y0) =<br />
=<br />
� T<br />
0<br />
d�<br />
k,l=1<br />
+ 1<br />
2<br />
∇F (Ys) dYs + 1<br />
2<br />
� t<br />
0<br />
d�<br />
k,l=1<br />
σ k,l<br />
s ∂kF (Ys) dW l s +<br />
� t<br />
Speziell gilt für die Brown’sche Bewegung<br />
F (Wt) − F (W0) =<br />
d�<br />
k=1<br />
0<br />
� t<br />
0<br />
d�<br />
� T<br />
∂k∂lF (Ys) d〈M<br />
k,l=1<br />
0<br />
k ,M l 〉s<br />
a k,l<br />
s ∂k∂lF (Ys) ds.<br />
∂kF (Ws) dW k s + 1<br />
2<br />
d�<br />
� t<br />
b<br />
k=1<br />
0<br />
k s ∂kF (Ys) ds<br />
� t<br />
0<br />
(25.16)<br />
△ F (Ws) ds. (25.17)
25.3 Die Itô-Formel 545<br />
Korollar 25.33. Der Prozess (F (Wt))t≥0 ist genau dann ein lokales Martingal,<br />
wenn F harmonisch ist (also △ F ≡ 0 gilt).<br />
Beweis. Ist F harmonisch, so ist F (Wt) =F (W0) + �d � t<br />
k=1 0 ∂kF (Ws) dW k s<br />
als Summe von Itô-Integralen ein stetiges lokales Martingal.<br />
Ist andererseits F ein lokales Martingal, so ist auch � t<br />
0 △ F (Ws) ds als Differenz<br />
�<br />
von stetigen lokalen Martingalen ein stetiges lokales Martingal. Da t ↦→<br />
t<br />
0 △ F (Ws) ds von endlicher Variation ist, ist � t<br />
0 △ F (Ws) ds =0für alle t ≥ 0<br />
fast sicher (nach Korollar 21.72). Also ist △ F ≡ 0. ✷<br />
Korollar 25.34 (Zeitabhängige Itô-Formel). Ist F ∈ C 2,1 (R d × R), sogilt<br />
F (WT ,T) − F (W0, 0)<br />
d�<br />
� T<br />
=<br />
k=1<br />
0<br />
∂kF (Ws,s) dW k � T<br />
s +<br />
0<br />
�<br />
∂d+1 + 1<br />
2 (∂2 1 + ...+ ∂ 2 �<br />
d) F (Ws,s) ds.<br />
Beweis. Wende Satz 25.32 an auf Y =(W 1 t ,...,W d t ,t)t≥0. ✷<br />
Übung 25.3.1 (Satz von Fubini für Itô-Integrale). Sei X ∈ CqV und sei g :<br />
[0, ∞) 2 → R stetig und im Inneren nach der zweiten Koordinate stetig differenzierbar<br />
mit Ableitung ∂2g. Man zeige mit Hilfe der Produktregel (Korollar 25.31)<br />
� s �� t � � t �� s<br />
�<br />
g(u, v) du dXv = g(u, v) dXv du.<br />
0<br />
und � s<br />
0<br />
0<br />
�� v<br />
0<br />
�<br />
g(u, v) du dXv =<br />
0<br />
0<br />
� s �� s<br />
0<br />
u<br />
�<br />
g(u, v) dXv du. ♣<br />
Übung 25.3.2 (Stratonovich-Integral). Sei P eine zulässige Zerlegungsfolge, X ∈<br />
C P qV und f ∈ C1 (R) mit Stammfunktion F . Man zeige: Für jedes t ≥ 0 ist das<br />
Stratonovich-Integral<br />
� T<br />
0<br />
f(Xt) ◦ dXt := lim<br />
�<br />
f<br />
n→∞<br />
t∈Pn T<br />
� Xt<br />
′ + Xt<br />
2<br />
wohldefiniert, und es gilt die klassische Substitutionsregel<br />
F (XT ) − F (X0) =<br />
� T<br />
0<br />
F ′ (Xt) ◦ dXt.<br />
�<br />
�Xt �<br />
′ − Xt<br />
Man zeige, dass im Gegensatz zum Itô-Integral das Stratonovich-Integral bezüglich<br />
eines stetigen lokalen Martingals im Allgemeinen kein lokales Martingal ist. ♣
546 25 Das Itô-Integral<br />
25.4 Dirichlet-Problem und Brown’sche Bewegung<br />
Ähnlich wie für diskrete Markovketten (vergleiche Kapitel 19.1) lässt sich die<br />
Lösung des Dirichlet-Problems in einem Gebiet G ⊂ Rd durch eine am Rande<br />
von G gestoppte d-dimensionale Brown’sche Bewegung beschreiben.<br />
Sei im Folgenden G ⊂ Rd eine offene, beschränkte Menge.<br />
Definition 25.35 (Dirichlet-Problem). Sei f : ∂G → R stetig. Eine Funktion<br />
u : G → R heißt Lösung des Dirichlet-Problems auf G mit Randwert f, falls u<br />
stetig ist und in G zweimal stetig differenzierbar, sowie<br />
△ u(x) =0 für x ∈ G,<br />
u(x) =f(x) für x ∈ ∂G.<br />
(25.18)<br />
Für hinreichend glatte Gebiete existiert stets eine Lösung des Dirichlet-Problems<br />
(siehe etwa [80, Korollar 4.3.3]). Gibt es eine Lösung, so ist sie stets eindeutig (wie<br />
aus Satz 25.37 folgt).<br />
Sei im Folgenden W =(W1 ,...,Wd ) eine d-dimensionale Brown’sche Bewegung<br />
bezüglich der Filtration F, die den üblichen Bedingungen genügt. Wir schreiben<br />
Px und Ex für Wahrscheinlichkeiten und Erwartungswerte, wenn W in<br />
W0 = x =(x1 ,...,xd ) ∈ Rd gestartet wird. Ist A ⊂ Rd offen, so ist<br />
τAc := inf � t>0: Wt ∈ A c�<br />
eine F-Stoppzeit (siehe Übung 21.4.4). Da G beschränkt ist, ist G ⊂ (−a, a) ×<br />
Rd−1 für gewisses a>0. AlsoistτGc ≤ τ ((−a,a)×Rd−1 (angewandt auf W<br />
) c. Nach Übung 21.2.4<br />
1 )istfür x ∈ G<br />
�<br />
Ex τGc � �<br />
≤ Ex τGc ≤ τ ((−a,a)×Rd−1 ) c<br />
� 1 1<br />
=(a− x )(a + x ) < ∞. (25.19)<br />
Speziell ist τG c < ∞ Px-fast sicher, also ist WτG c eine Px-fast sicher wohldefinierte<br />
Zufallsvariable mit Werten in ∂G.<br />
Definition 25.36. Für x ∈ G bezeichnen wir mit<br />
das harmonische Maß auf ∂G.<br />
μx,G = Px ◦ W −1<br />
τG c<br />
Satz 25.37. Ist u eine Lösung des Dirichlet-Problems auf G mit Randwert f, so<br />
ist<br />
�<br />
u(x) =Ex f(WτGc ) � �<br />
= f(y) μx,G(dy) für x ∈ G. (25.20)<br />
∂G<br />
Insbesondere ist die Lösung des Dirichlet-Problems stets eindeutig.
25.4 Dirichlet-Problem und Brown’sche Bewegung 547<br />
Beweis. Sei G1 ⊂ G2 ⊂ ... eine Folge offener Mengen mit x ∈ G1, Gn ↑ G<br />
und Gn ⊂ G für jedes n ∈ N. Speziell ist also jedes Gn kompakt und damit ∇u<br />
auf Gn beschränkt. Wir schreiben kurz τ := τG c und τn := τG c n .<br />
Da u harmonisch ist (das heißt, △ u =0), ist nach der Itô-Formel<br />
u(Wt) =u(W0)+<br />
� t<br />
0<br />
∇u(Ws) dWs =<br />
d�<br />
k=1<br />
∂ku(Ws) dW k s<br />
für t
548 25 Das Itô-Integral<br />
25.5 Rekurrenz und Transienz der Brown’schen Bewegung<br />
Die symmetrische einfache Irrfahrt (Xn)n∈N auf Z d ist nach dem Satz von Pólya<br />
(Satz 17.39) genau dann rekurrent (besucht also jeden Punkt unendlich oft), wenn<br />
d ≤ 2 ist. Ist d>2, so ist die Irrfahrt transient und verlässt jede endliche Menge<br />
A ⊂ Z d schließlich. Wir können dieses Verhalten beschreiben durch<br />
lim inf<br />
n→∞ �Xn� =0 f.s. ⇐⇒ d ≤ 2<br />
und<br />
lim<br />
n→∞ �Xn� = ∞ f.s. ⇐⇒ d>2.<br />
Hauptergebnis dieses Abschnitts ist es, dass eine ähnliche Dichotomie auch für die<br />
Brown’sche Bewegung gilt.<br />
Satz 25.38. Sei W = (W 1 ,...,W d ) eine d-dimensionale Brown’sche Bewegung.<br />
(i) Ist d ≤ 2, soist W rekurrent in dem Sinne, dass<br />
lim inf<br />
t→∞ �Wt − y� =0 f.s. für jedes y ∈ R d .<br />
Insbesondere liegt der Pfad {Wt : t ≥ 0} dicht in Rd fast sicher.<br />
(ii) Ist d>2, soistW transient in dem Sinne, dass<br />
lim<br />
t→∞ �Wt� = ∞ f.s.,<br />
und für jedes y ∈ R d \{0} ist inf{�Wt − y� : t ≥ 0} > 0 fast sicher.<br />
Die Grundidee für den Beweis des Satzes besteht darin, mit Hilfe von geeigneten<br />
Dirichletproblemen und dem Ergebnis von Abschnitt 25.4 die Wahrscheinlichkeiten<br />
dafür auszurechnen, dass W gewisse Kugeln<br />
BR(x) := � y ∈ R d : �x − y�
25.5 Rekurrenz und Transienz der Brown’schen Bewegung 549<br />
�<br />
1,<br />
f(x) =<br />
0,<br />
falls �x� = r,<br />
falls �x� = R.<br />
(25.24)<br />
Sei ur,R : Gr,R → R definiert durch<br />
V (�x�) − V (R)<br />
ur,R(x) =<br />
V (r) − V (R) ,<br />
wobei V :(0, ∞) → R die Newton’sche Potentialfunktion ist<br />
⎧<br />
⎪⎨<br />
s, falls d =1,<br />
V (s) =Vd(s) = log(s),<br />
⎪⎩<br />
−s<br />
falls d =2,<br />
2−d , falls d>2.<br />
(25.25)<br />
Man prüft leicht nach, dass ϕ : Rd \{0} →R, x ↦→ Vd(�x�) harmonisch ist (also<br />
△ ϕ ≡ 0 erfüllt). Also ist ur,R die Lösung des Dirichlet-Problems auf Gr,R mit<br />
Randwert f. Nach Satz 25.37 ist für x ∈ Gr,R<br />
� � �<br />
Px τr,R = τr = Px �Wτr,R� = r� �<br />
= Ex f(Wτr,R )� = ur,R(x). (25.26)<br />
Satz 25.39. Für r>0 und x, y ∈ Rd mit �x − y� >r gilt<br />
�<br />
Px Wt ∈ Br(y) für ein t>0 � ⎧<br />
⎨<br />
1, falls d ≤ 2,<br />
= � �2−d ⎩ �x−y�<br />
r , falls d>2.<br />
Beweis. Ohne Einschränkung sei y =0.Dannist<br />
Px[τr < ∞] = lim<br />
R→∞ Px[τr,R<br />
V (�x�) − V (R)<br />
= τr] = lim<br />
R→∞ V (r) − V (R)<br />
�<br />
1, falls d =2,<br />
=<br />
Vd(�x�)<br />
Vd(r) , falls d>2,<br />
denn limR→∞ Vd(R) =∞, falls d ≤ 2 und =0, falls d>2. ✷<br />
Beweis (von Satz 25.38). Unter Verwendung der starken Markoveigenschaft der<br />
Brown’schen Bewegung erhalten wir für r>0<br />
�<br />
Px lim inf<br />
t→∞ �Wt�<br />
� �<br />
�x�<br />
inf<br />
R>�x� Px<br />
� �<br />
�Wt� ≤s für ein t>τR<br />
inf<br />
R>�x� Px<br />
�<br />
PWτ [τs < ∞]<br />
R � .
550 25 Das Itô-Integral<br />
Nach Satz 25.39 ist aber (wegen �WτR� = R für R>�x�)<br />
�<br />
1, falls d ≤ 2,<br />
PWτ [τs < ∞] =<br />
R<br />
(s/R) d−2 , falls d>2.<br />
Also ist<br />
�<br />
P lim inf<br />
t→∞ �Wt�<br />
�<br />
� 1,<br />
2.<br />
Hieraus folgt aber die Aussage des Satzes. ✷<br />
Definition 25.40 (Polare Menge). Eine Menge A ⊂ Rd heißt polar, falls<br />
�<br />
Wt �∈ A für alle t>0 � =1 für alle x ∈ R d .<br />
Px<br />
Satz 25.41. Ist d =1, so ist nur die leere Menge polar. Ist d ≥ 2, soist {y} polar<br />
für jedes y ∈ R d .<br />
Beweis. Für d =1ist die Aussage klar, wegen<br />
lim sup Wt = ∞ und lim inf<br />
t→∞<br />
t→∞ Wt = −∞ f.s.<br />
Aufgrund der Stetigkeit von W wird also jeder Punkt y ∈ R immer wieder getroffen.<br />
Sei nun d ≥ 2. Ohne Einschränkung sei y =0.Istx�= 0,soist<br />
�<br />
Px τ{0} < ∞ � � �<br />
= lim τ{0} 0 Px<br />
= lim<br />
R→∞ inf<br />
r>0 ur,R(x) =0,<br />
(25.27)<br />
weil Vd(r) r→0<br />
−→ −∞, falls d ≥ 2.<br />
Ist hingegen x =0, so gilt wegen der starken Markoveigenschaft der Brown’schen<br />
Bewegung (und weil P0[Wt =0]=0 ist für alle t>0)<br />
P0<br />
�<br />
τ{0} < ∞ � =supP0<br />
t>0<br />
=supP0<br />
t>0<br />
� Ws =0 für ein s ≥ t �<br />
� PWt [τ {0} < ∞] � =0,<br />
wobei wir im letzten Schritt (25.27) ausgenutzt haben. ✷
26 Stochastische Differentialgleichungen<br />
Stochastische Differentialgleichungen beschreiben die zeitliche Entwicklung von<br />
gewissen stetigen Markovprozessen mit Werten in Rn . Im Gegensatz zu klassischen<br />
Differentialgleichungen ist nicht nur die Ableitung einer Funktion angegeben, sondern<br />
zudem ein Term, der zufällige Fluktuationen beschreibt, die als Itô-Integral<br />
bezüglich einer Brown’schen Bewegung kodiert werden. Je nach dem, ob man die<br />
konkrete Brown’sche Bewegung als treibende Kraft des Rauschens ernst nimmt oder<br />
nicht, spricht man von starken oder schwachen Lösungen. Wir entwickeln im ersten<br />
Abschnitt die Theorie der starken Lösungen unter Lipschitz-Bedingungen an die<br />
Koeffizienten. Im zweiten Abschnitt lernen wir das (lokale) Martingalproblem als<br />
Methode zur Etablierung schwacher Lösungen kennen. Im dritten Abschnitt stellen<br />
wir die Methode der Dualität zur Sicherung der Eindeutigkeit von Lösungen an<br />
Beispielen vor.<br />
Da die Theorie der stochastischen Differentialgleichungen ein sehr weites Feld ist<br />
und die Dinge sehr schnell sehr technisch werden, bringen wir nur kursorisch ein<br />
paar der wichtigsten Ergebnisse, zum Teil ohne Beweis, um sie dann an Beispielen<br />
zu illustrieren.<br />
26.1 Starke Lösungen<br />
Wir betrachten eine stochastische Differentialgleichung (SDGL) von dem Typ<br />
X0 = ξ,<br />
dXt = σ(t, Xt) dWt + b(t, Xt) dt.<br />
(26.1)<br />
Dabei ist W = (W1 ,...,Wm ) eine m-dimensionale Brown’sche Bewegung, ξ<br />
eine von W unabhängige Rn � -wertige Zufallsvariable mit Verteilung μ, σ(t, x) =<br />
σij(t, x) � i=1,...,n eine reelle n × m Matrix sowie b(t, x) =<br />
j=1,...,m<br />
� bi(t, x) �<br />
i=1,...,n ein<br />
n-dimensionaler Vektor. Die Abbildungen (t, x) ↦→ σij(t, x) und (t, x) ↦→ bi(t, x)<br />
seien messbar.<br />
Unter einer Lösung X von (26.1) wollen wir natürlich einen stetigen, adaptierten<br />
stochastischen Prozess X mit Werten in R n verstehen, der die folgende Integralgleichung<br />
erfüllt
552 26 Stochastische Differentialgleichungen<br />
� t<br />
� t<br />
Xt = ξ + σ(s, Xs) dWs + b(s, Xs) ds P − f.s. für alle t ≥ 0. (26.2)<br />
0<br />
0<br />
Koordinatenweise ausgeschrieben heißt dies<br />
X i t = ξ i m�<br />
� t<br />
+ σij(s, Xs) dW<br />
j=1 0<br />
j � t<br />
s +<br />
0<br />
bi(s, Xs) ds für alle i =1,...,n.<br />
Nun ergibt sich folgendes Problem: An welche Filtration F soll X adaptiert sein?<br />
Soll F die Filtration sein, die von ξ und W erzeugt ist, oder darf F eine größere Filtration<br />
sein? Aus der Theorie der gewöhnlichen Differentialgleichungen ist bekannt,<br />
dass es, je nach Differentialgleichung, Lösungen geben kann, die aber nicht eindeutig<br />
sind (beispielsweise für f ′ = |f| 1/3 ). Wenn F größer als die von W erzeugte<br />
Filtration ist, können wir weitere Zufallsvariablen definieren, die unter mehreren<br />
Lösungen eine aussuchen. Wir haben also mehr Möglichkeiten, eine Lösung anzugeben<br />
als wenn F = σ(W ) ist. In der Tat wird sich herausstellen, dass man in<br />
manchen Fällen überhaupt erst eine Lösung einer SDGL angeben kann, wenn man<br />
eine größere Filtration zulässt. Grob gesprochen nennen wir X eine starke Lösung<br />
von (26.1), wenn (26.2) gilt und X an F = σ(W ) adaptiert ist, hingegen eine schwache<br />
Lösung, wenn X an eine größere Filtration F adaptiert ist, bezüglich der W aber<br />
immer noch ein Martingal ist. Schwache Lösungen behandeln wir in Abschnitt 26.2.<br />
Definition 26.1 (Starke Lösung). Wir sagen, dass die stochastische Differentialgleichung<br />
(SDGL) (26.1) eine starke Lösung X hat, falls es eine Abbildung<br />
F : R n × C([0, ∞); R m ) → C([0, ∞); R n ) gibt mit den Eigenschaften<br />
(i) (x, w) ↦→ F (x, w) ist für jedes t ≥ 0 messbar bezüglich B(Rn ) ⊗Gm t –<br />
Gn t , wobei (für k = m oder k = n) Gk t := σ(πs : s ∈ [0,t]) die von<br />
den Koordinatenabbildungen πs : C([0, ∞); Rk ) → R, w ↦→ w(s) erzeugte<br />
σ-Algebra ist.<br />
(ii) Der Prozess X = F (ξ,W) erfüllt (26.2).<br />
Bedingung (i) besagt, dass der Pfad (Xs) s∈[0,t] nur von ξ und (Ws) s∈[0,t] abhängt<br />
und sonst von keinen Informationen. Insbesondere ist X an Ft = σ(ξ, Ws : s ∈<br />
[0,t]) adaptiert und progressiv messbar, sodass das Itô-Integral in (26.2) wohldefiniert<br />
ist, falls σ und b nicht zu stark wachsen für große x.<br />
Bemerkung 26.2. Offenbar ist eine starke Lösung einer SDGL stets eine verallgemeinerte<br />
n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig von<br />
t,soistdieLösung eine n-dimensionale Diffusion. ✸<br />
Bemerkung 26.3. Sei X eine starke Lösung und F wie in Definition 26.1. ist W ′<br />
eine m-dimensionale Brown’sche Bewegung auf einem Raum (Ω ′ , F ′ , P ′ ) mit Filtration<br />
F ′ , und ist ξ ′ unabhängig von W ′ und F ′ 0-messbar, so erfüllt X ′ = F (ξ ′ ,W ′ )<br />
die Integralgleichung (26.2), ist also eine starke Lösung von (26.1) mit W ′ statt W .
26.1 Starke Lösungen 553<br />
Die Existenz einer starken Lösung hängt also nicht von der konkreten Realisierung<br />
der Brown’schen Bewegung oder der Filtration F ab. ✸<br />
Definition 26.4. Wir sagen, dass die SDGL (26.1) eine eindeutige starke Lösung<br />
hat, falls es ein F wie in Definition 26.1 gibt, sodass gilt:<br />
(i) Ist W eine m-dimensionale Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum<br />
(Ω,F, P) mit Filtration F und ξ eine F0-messbare von W unabhängige<br />
Zufallsvariable mit P ◦ ξ−1 = μ, dann ist X := F (ξ,W) eine<br />
Lösung von (26.2).<br />
(ii) Für jede Lösung (X, W) von (26.2) gilt X = F (ξ,W).<br />
Beispiel 26.5. Seien m = n =1und b ∈ R sowie σ>0.DerOrnstein-Uhlenbeck<br />
Prozess<br />
Xt := e bt � t<br />
ξ + σ e (t−s)b dWs, t ≥ 0, (26.3)<br />
ist eine starke Lösung der SDGL X0 = ξ und<br />
0<br />
dXt = σdWt + bXt dt.<br />
In der Terminologie von Definition 26.1 ist (im Sinne des pfadweisen Itô-Integrals<br />
bezüglich w)<br />
�<br />
F (x, w) = t ↦→ e bt � t<br />
x + e (t−s)b �<br />
dw(s)<br />
für alle w ∈CqV (also mit stetiger quadratischer Variation). Wegen P[W ∈CqV] =<br />
1, können wir F (x, w) =0setzen für w ∈ C([0, ∞); R) \CqV.<br />
In der Tat gilt nach dem Satz von Fubini für Itô-Integrale (Übung 25.3.1)<br />
ξ +<br />
� t<br />
0<br />
� t<br />
σdWs + bXs ds<br />
0<br />
� t<br />
= ξ + σWt + be<br />
0<br />
bs � t �� s<br />
ξds+ σb e<br />
0 0<br />
b(s−r) �<br />
dWr ds<br />
= ξ + σWt + � e bt − 1 � � t �� t<br />
ξ + σ be<br />
0 r<br />
b(s−r) �<br />
ds dWr<br />
= e bt � t �<br />
ξ + σ + � e b(t−r) − 1 � �<br />
σ dWr<br />
= Xt.<br />
0<br />
Man kann zeigen (siehe Satz 26.8), dass diese Lösung auch (stark) eindeutig ist. ✸<br />
Beispiel 26.6. Seien α, β ∈ R. Die eindimensionale SDGL X0 = ξ und<br />
0<br />
dXt = αXt dWt + βXt dt (26.4)
554 26 Stochastische Differentialgleichungen<br />
hat die starke Lösung<br />
� �<br />
Xt = ξ exp αWt + β − α2<br />
� �<br />
t .<br />
2<br />
In der Terminologie von Definition 26.1 ist σ(t, x) =αx, b(t, x) =βx und<br />
� � �<br />
F (x, w) = t ↦→ x exp αw(t)+ β − α2<br />
� ��<br />
t<br />
2<br />
für alle w ∈ C([0, ∞); R) und x ∈ R. In der Tat ist nach der zeitabhängigen Itô-<br />
Formel (Korollar 25.34)<br />
� t<br />
� t ��<br />
Xt = ξ + αXs dWs + β − α2<br />
�<br />
+<br />
2<br />
1<br />
2 α2<br />
�<br />
Xs ds.<br />
0<br />
0<br />
Auch in diesem Fall gilt starke Eindeutigkeit der Lösung (siehe Satz 26.8). Der<br />
Prozess X heißt geometrische Brown’sche Bewegung und dient beispielsweise<br />
zur Modellierung von Aktienkursen im so genannten Black-Scholes Modell. ✸<br />
Wir geben nun ein einfaches Kriterium für die Existenz und Eindeutigkeit starker<br />
Lösungen an. Für eine n × m Matrix A definieren wir die Hilbert-Schmidt Norm<br />
�<br />
�A� = Spur � AAT � �<br />
�<br />
�<br />
n� n�<br />
= �<br />
. (26.5)<br />
i=1 j=1<br />
Für b ∈ R n verwenden wir die euklidische Norm �b�. Da alle Normen auf endlichdimensionalen<br />
Vektorräumen äquivalent sind, spielt es keine wesentliche Rolle,<br />
welche Norm wir genau benutzen. Allerdings vereinfacht die hier eingeführte Norm<br />
die Rechnungen, wie das folgende Lemma zeigt.<br />
Lemma 26.7. Sei t ↦→ H(t) =(Hij(t))i=1,...,n, j=1,...,m progressiv messbar und<br />
E � � T<br />
0 H2 ij (t) dt� < ∞ für alle i, j. Dann gilt<br />
�� �<br />
��� T<br />
E<br />
0<br />
�<br />
�2�<br />
H(t) dWt<br />
�<br />
�<br />
wobei �H� die Hilbert-Schmidt Norm aus (26.5) bezeichnet.<br />
Beweis. Für i =1,...,nist Ii(t) := � m<br />
mit Variationsprozess 〈Ii〉t = � t<br />
0<br />
A 2 i,j<br />
� � T<br />
= E �H(t)�<br />
0<br />
2 �<br />
dt , (26.6)<br />
j=1<br />
� m<br />
j=1 H2 ij<br />
E � (Ii(T )) 2� � � T<br />
= E<br />
0<br />
� t<br />
0 Hij(s) dW j s ein stetiges Martingal<br />
(s) ds. Daher ist<br />
m�<br />
j=1<br />
H 2 �<br />
ij(s) ds.
Die linke Seite in (26.6) ist aber gleich<br />
n�<br />
E � (Ii(T )) 2� � � T<br />
= E<br />
i=1<br />
0<br />
n�<br />
m�<br />
i=1 j=1<br />
26.1 Starke Lösungen 555<br />
H 2 �<br />
ij(s) ds.<br />
Die Behauptung folgt nun aus der Definition von �H(s)� 2 . ✷<br />
Satz 26.8. Seien b und σ Lipschitz-stetig in der ersten Koordinate. Das heißt, es<br />
existiere eine Konstante K>0, sodass für alle x, x ′ ∈ R n und t ≥ 0 gilt, dass<br />
�σ(x, t) − σ(x ′ ,t)� + �b(x, t) − b(x ′ ,t)� ≤K �x − x ′ �. (26.7)<br />
Ferner gelte die Wachstumsbedingung<br />
�σ(t, x)� 2 + �b(t, x)� 2 ≤ K 2 (1 + �x� 2 ) für alle x ∈ R n ,t≥ 0. (26.8)<br />
Dann existiert für jeden Anfangswert X0 = x ∈ R n eine eindeutige starke<br />
Lösung X der SDGL (26.1). Diese Lösung ist ein Markovprozess und im Falle,<br />
wo σ und b nicht von t abhängen, ein starker Markovprozess.<br />
Als Hilfsmittel brauchen wir ein Lemma.<br />
Lemma 26.9 (Gronwall). Seien f,g :[0,T] → R integrierbar und C > 0 so,<br />
dass<br />
� t<br />
f(t) ≤ g(t)+C f(s) ds für alle t ∈ [0,T]. (26.9)<br />
Dann ist<br />
f(t) ≤ g(t)+C<br />
� t<br />
0<br />
0<br />
e C(t−s) g(s) ds für alle t ∈ [0,T].<br />
Ist speziell g(t) ≡ G konstant, so ist f(t) ≤ Ge Ct für alle t ∈ [0,T].<br />
Beweis. Seien F (t) = � t<br />
0 f(s) ds und h(t) =F (t) e−Ct . Dann ist nach (26.9)<br />
Integration liefert<br />
Einsetzen in (26.9) liefert<br />
d<br />
dt h(t) =f(t) e−Ct − CF(t) e −Ct ≤ g(t) e −Ct .<br />
F (t) =e Ct h(t) ≤<br />
� t<br />
f(t) ≤ g(t)+CF(t) ≤ g(t)+C<br />
0<br />
e C(t−s) g(s) ds.<br />
� t<br />
0<br />
g(s) e C(t−s) ds. ✷
556 26 Stochastische Differentialgleichungen<br />
Beweis (von Satz 26.8). Es reicht zu zeigen, dass eine eindeutige starke Lösung<br />
bis T für jedes T
und<br />
� t<br />
Jt :=<br />
0<br />
� N<br />
b(s, Xs ) − b(s, X N−1<br />
s ) � ds.<br />
26.1 Starke Lösungen 557<br />
Indem wir die Doob’sche L2 –Ungleichung auf das nichtnegative Submartingal<br />
(�It�2 )t≥0 , Lemma 26.7 sowie (26.7) anwenden, erhalten wir<br />
� �<br />
E<br />
≤ 4 E � �It� 2�<br />
sup �Is�<br />
s≤t<br />
2<br />
=4E<br />
≤ 4K 2<br />
�� t<br />
0<br />
� t<br />
0<br />
�<br />
� σ(s, X N s ) − σ(s, X N−1<br />
s<br />
E<br />
���X N<br />
s − X N−1<br />
�<br />
�<br />
s<br />
2�<br />
ds<br />
) � �2 �<br />
ds<br />
Für Jt bekommen wir mit der Cauchy-Schwarz’schen Ungleichung<br />
�Jt� 2 � t �<br />
≤ t � N<br />
b(s, Xs ) − b(s, X N−1<br />
s ) � �2 ds.<br />
Also ist<br />
�<br />
E<br />
sup �Js�<br />
s≤t<br />
2<br />
�<br />
≤ t E<br />
0<br />
≤ tK 2<br />
�� t<br />
0<br />
� t<br />
0<br />
�<br />
� b(s, X N s ) − b(s, X N−1<br />
s<br />
���X N<br />
E s − X N−1<br />
�<br />
�2� ds.<br />
s<br />
) � �2 �<br />
ds<br />
Setzen wir<br />
Δ N �<br />
�<br />
(t) :=E sup � N<br />
Xs − X<br />
s≤t<br />
N−1<br />
�<br />
�<br />
s<br />
2<br />
�<br />
,<br />
so erhalten wir mit C := 2K2 (4 + T ) ∨ 2(T +1)K2 (1 + �x�2 )<br />
und<br />
Δ N+1 (t) ≤ C<br />
Δ 1 (t) ≤ 2t<br />
� t<br />
0<br />
� t<br />
0<br />
Δ N (s) ds für N ≥ 1<br />
�b(s, x)� 2 ds + 2<br />
� t<br />
≤ 2(T +1)K 2� 1+�x� 2� · t ≤ Ct<br />
0<br />
�σ(s, x)� 2 ds<br />
(26.12)<br />
(26.13)<br />
nach der Wachstumsvoraussetzung (26.8). Per Induktion folgt Δ N (t) ≤ (Ct)N<br />
N! .Es<br />
folgt mit der Markov’schen Ungleichung<br />
∞�<br />
�<br />
�<br />
P sup �X<br />
s≤t<br />
N s − X N−1<br />
�<br />
�<br />
s<br />
2 > 2 −N<br />
�<br />
≤<br />
N=1<br />
≤<br />
∞�<br />
2<br />
N=1<br />
N Δ N (t)<br />
∞� (2Ct) N<br />
N! ≤ e2Ct < ∞.<br />
N=1
558 26 Stochastische Differentialgleichungen<br />
Nach dem Lemma von Borel-Cantelli folgt sups≤t �XN s − XN−1 2<br />
s �<br />
N→∞<br />
−→ 0 fast<br />
sicher. Mithin ist fast sicher (XN )N∈N eine Cauchy-Folge in dem Banachraum<br />
(C([0,T]), �·�∞). Also konvergiert XN fast sicher gleichmäßig gegen ein X.<br />
Gleichmäßige Konvergenz impliziert Konvergenz der Integrale, also ist X eine starke<br />
Lösung von (26.2).<br />
Markoveigenschaft Die starke Markoveigenschaft folgt direkt aus der starken<br />
Markoveigenschaft der Brown’schen Bewegung, die die SDGL antreibt. ✷<br />
Wichtige Beispiele für diesen Satz haben wir oben schon kennen gelernt. Viele interessante<br />
Probleme führen jedoch auf stochastische Differentialgleichungen, bei<br />
denen die Koeffizienten nicht Lipschitz-stetig sind. Im eindimensionalen Fall kann<br />
man mit speziellen Vergleichsmethoden zeigen, dass es ausreicht, dass σ Hölder-<br />
in der Ortsvariablen ist.<br />
stetig von der Ordnung 1<br />
2<br />
Satz 26.10 (Yamada-Watanabe). Wir betrachten die eindimensionale Situation<br />
m = n =1.EsgebeK0 und a, b ≥ 0 Parameter sind. Die Bedingungen<br />
von Satz 26.10 sind mit α = 1<br />
2 und K = √ γ + a erfüllt. Die eindeutige<br />
starke Lösung X hat offenbar die Eigenschaft, nichtnegativ zu bleiben, wenn<br />
X0 ≥ 0 ist. (Tatsächlich kann man sogar zeigen dass Xt > 0 für alle t>0 gilt,<br />
falls 2ab/γ ≥ 1, und dass Xt die Null mit Wahrscheinlichkeit 1 beliebig häufig<br />
trifft, falls 2ab/γ < 1. Siehe etwa [78, Beispiel IV.8.2, Seite 237]. Vergleiche Beispiel<br />
26.16.)<br />
Dieser Prozess wird je nach Kontext gelegentlich als Feller’sche Verzweigungsdiffusion<br />
mit Immigration oder als Cox-Ingersoll-Ross Modell für die zeitliche<br />
Entwicklung von Zinsraten bezeichnet.<br />
Wir berechnen für den Fall a = b =0mit der Itô-Formel, dass<br />
e −λXt − e −λx − γ λ2<br />
2<br />
� t<br />
e<br />
0<br />
−λXs � t<br />
Xs ds = λ<br />
0<br />
e −λXs<br />
�<br />
γXs dWs
1.5<br />
1<br />
0.5<br />
0<br />
26.1 Starke Lösungen 559<br />
5 10 15 20 25 30<br />
Abb. 26.1. Cox-Ingersoll-Ross Diffusion mit Parametern γ =1, b =1und a =0.3. Der<br />
Pfad trifft die Null immer wieder, da 2ab/γ =0.6 < 1 ist.<br />
2.5<br />
2<br />
1.5<br />
1<br />
0.5<br />
0<br />
5 10 15 20 25 30<br />
Abb. 26.2. Cox-Ingersoll-Ross Diffusion mit Parametern γ =1, b =1und a =2.DerPfad<br />
trifft die Null nie, da 2ab/γ =4≥ 1 ist.<br />
ein Martingal ist. Indem wir Erwartungswerte bilden, erhalten wir für die Laplace-<br />
Transformierte ϕ(t, λ, x) =Ex[e −λXt ] die Differentialgleichung<br />
d<br />
λ2<br />
ϕ(t, λ, x) =γ<br />
dt 2 E�Xt e −λXt� = − γλ2<br />
2<br />
d<br />
ϕ(t, λ, x).<br />
dλ<br />
Diese partielle Differentialgleichung hat mit dem Anfangswert ϕ(0,λ,x)=e −λx<br />
die eindeutige Lösung
560 26 Stochastische Differentialgleichungen<br />
�<br />
λ<br />
ϕ(t, λ, x) =exp −<br />
(γ/2)λt +1 x<br />
�<br />
.<br />
Dies ist aber (für γ =2) genau die Laplace-Transformierte der Übergangswahrscheinlichkeiten<br />
des Markov-Prozesses, den wir in Satz 21.48 definiert hatten und<br />
den wir im Satz von Lindvall (Satz 21.51) als Grenzwert von reskalierten Galton-<br />
Watson Verzweigungsprozessen kennen gelernt haben. ✸<br />
26.2 Schwache Lösungen und Martingalproblem<br />
Im letzten Abschnitt haben wir starke Lösungen der stochastischen Differentialgleichung<br />
dXt = σ(t, Xt) dWt + b(t, Xt) dt (26.15)<br />
kennen gelernt. Diese zeichnen sich dadurch aus, dass jedem Pfad der Brown’schen<br />
Bewegung W genau ein Pfad der Lösung X zugeordnet wird. Wir wollen nun zum<br />
Begriff der schwachen Lösung kommen, bei der zusätzliche Information (das heißt<br />
zusätzlicher Zufall) in die Lösung mit eingehen kann.<br />
Definition 26.12 (Schwache Lösung einer SDGL). Eine schwache Lösung von<br />
(26.15) mit Startverteilung μ ∈M1(R n ) ist ein Tripel<br />
wobei gilt:<br />
L = � (X, W), (Ω,F, P), F � ,<br />
– (Ω,F, P) ist ein Wahrscheinlichkeitsraum,<br />
– F = (Ft)t≥0ist eine Filtration auf (Ω,F, P), die die üblichen Bedingungen<br />
erfüllt,<br />
– W ist eine Brown’sche Bewegung auf (Ω,F, P) und bezüglich F ein Martingal.<br />
– X ist stetig und adaptiert (also progressiv messbar),<br />
– P ◦ (X0) −1 = μ,<br />
– sowie<br />
Xt = X0 +<br />
� t<br />
0<br />
σ(s, Xs) dWs +<br />
� t<br />
0<br />
b(s, Xs) ds P-f.s. (26.16)<br />
Eine schwache Lösung L heißt (schwach) eindeutig, falls für jede weitere Lösung<br />
L ′ mit Startverteilung μ gilt: P ′ ◦ (X ′ ) −1 = P ◦ X −1 .<br />
Bemerkung 26.13. Offenbar ist eine schwache Lösung einer SDGL stets eine verallgemeinerte<br />
n-dimensionale Diffusion. Sind die Koeffizienten σ und b unabhängig<br />
von t,soistdieLösung eine n-dimensionale Diffusion. ✸
26.2 Schwache Lösungen und Martingalproblem 561<br />
Bemerkung 26.14. Offenbar wird durch jede starke Lösung von (26.15) eine schwache<br />
Lösung definiert. Die Umkehrung ist falsch, wie wir im folgenden Beispiel sehen<br />
werden. ✸<br />
Beispiel 26.15. Betrachte die SDGL (mit Startwert X0 =0)<br />
dXt =sign(Xt) dWt, (26.17)<br />
wobei sign = (0,∞) − (−∞,0) die Vorzeichenfunktion ist. Es gilt genau dann<br />
wenn<br />
� t<br />
Wt =<br />
0<br />
Xt = X0 +<br />
dWs =<br />
� t<br />
0<br />
� t<br />
0<br />
sign(Xs) dWs für alle t ≥ 0, (26.18)<br />
sign(Xs) dXs für alle t ≥ 0. (26.19)<br />
Folgendermaßen gelangen wir zu einer schwachen Lösung von (26.17). Sei X<br />
eine Brown’sche Bewegung auf einem Wahrscheinlichkeitsraum (Ω,F, P) und<br />
F = σ(X). Definieren wir W durch (26.19), dann ist W ein stetiges F-Martingal<br />
mit quadratischer Variation<br />
〈W 〉t =<br />
� 1<br />
0<br />
(sign(Xs)) 2 ds = t.<br />
Nach der Lévy’schen Charakterisierung (Satz 25.28) ist W damit eine Brown’sche<br />
Bewegung. Also ist ((X, W), (Ω,F, P), F) eine schwache Lösung von (26.3).<br />
Um zu zeigen, dass es keine starke Lösung gibt, nehmen wir eine beliebige schwache<br />
Lösung her und zeigen, dass X nicht an σ(W ) adaptiert ist. Da X nach<br />
(26.18) ein stetiges Martingal mit quadratischer Variation 〈X〉t = t ist, ist X eine<br />
Brown’sche Bewegung.<br />
Seien Fn ∈ C 2 (R) konvexe gerade Funktionen mit Ableitungen F ′ n und F ′′<br />
n , sodass<br />
�<br />
sup �Fn(x) −|x|<br />
x∈R<br />
� � n→∞<br />
−→ 0,<br />
|F ′ n(x)| ≤1 für alle x ∈ R und F ′ n(x) =sign(x) für |x| > 1<br />
n . Insbesondere gilt<br />
� t<br />
und damit � t<br />
F ′ n(Xs) dXs<br />
0<br />
0<br />
� F ′ n(Xs) − sign(Xs) � 2 ds n→∞<br />
−→ 0 f.s.<br />
n→∞<br />
−→<br />
� t<br />
0<br />
sign(Xs) dXs in L 2 . (26.20)<br />
Indem wir gegebenenfalls zu einer Teilfolge übergehen, können wir annehmen, dass<br />
in (26.20) fast sichere Konvergenz gilt.
562 26 Stochastische Differentialgleichungen<br />
Weil F ′′<br />
n gerade ist, gilt<br />
� t<br />
Wt =<br />
0<br />
sign(Xs) dXs = lim<br />
� t<br />
F<br />
n→∞<br />
0<br />
′ n(Xs) dXs<br />
�<br />
= lim Fn(Xt) − Fn(0) −<br />
n→∞<br />
1<br />
2<br />
1<br />
= |Xt|− lim<br />
n→∞ 2<br />
� t<br />
0<br />
� t<br />
0<br />
F ′′<br />
n (|Xs|) ds.<br />
F ′′<br />
�<br />
n (Xs) ds<br />
Da die rechte Seite nur von |Xs|, s ∈ [0,t] abhängt, ist W an G := (σ(|Xs| : s ∈<br />
[0,t])) adaptiert. Also ist σ(W ) ⊂ G�σ(X), und damit ist X nicht an σ(W )<br />
adaptiert. ✸<br />
Beispiel 26.16. Sei n ∈ N und B =(B 1 ,...,B n ) eine n-dimensionale Brown’sche<br />
Bewegung mit Start in y ∈ R n . Setze x := �y� 2 , Xt := �Bt� 2 =(B 1 t ) 2 + ...+<br />
(B n t ) 2 und<br />
n�<br />
� t<br />
1<br />
Wt := √ B<br />
i=1 0 Xs<br />
i s dB i s.<br />
Dann ist W ein stetiges lokales Martingal mit 〈W 〉t = t für jedes t ≥ 0 und<br />
� t �<br />
Xt = x + nt + Xs dWs.<br />
Das heißt, (X, W) ist eine schwache Lösung der SDGL dXt = √ 2Xt dWt + ndt.<br />
X wird auch n-dimensionaler Bessel-Prozess genannt. Nach Satz 25.41 trifft B<br />
(und damit X) den Ursprung für ein t>0 genau dann, wenn n =1ist. Offenbar<br />
kann man X auch für nicht-ganzzahlig n ≥ 0 definieren. Man kann zeigen, dass X<br />
genau dann die Null trifft, wenn n ≤ 1 ist. Vergleiche Beispiel 26.11. ✸<br />
Für den Zusammenhang von Existenz und Eindeutigkeit von schwachen Lösungen<br />
und starken Lösungen zitieren hier lediglich den Satz von Yamada und Watanabe.<br />
Definition 26.17 (Pfadweise Eindeutigkeit). Wir sagen, dass die Lösung der SDGL<br />
(26.15) mit Startverteilung μ pfadweise eindeutig ist, falls für jedes μ ∈M1(R n )<br />
und je zwei schwache Lösungen (X, W) und (X ′ ,W) auf dem selben Raum<br />
(Ω,F, P) mit der selben Filtration F gilt: P[Xt = X ′ t für alle t ≥ 0] = 1.<br />
Satz 26.18 (Yamada und Watanabe). Es sind äquivalent:<br />
(i) Die SDGL (26.15) hat eine eindeutige starke Lösung.<br />
(ii) Für jedes μ ∈M1(Rn ) hat (26.15) eine schwache Lösung, und es gilt pfadweise<br />
Eindeutigkeit.<br />
Gelten (i) und (ii), so ist die Lösung schwach eindeutig.<br />
0
26.2 Schwache Lösungen und Martingalproblem 563<br />
Beweis. Siehe [161], [140, Seite 151ff] oder [78, Seite 163ff]. ✷<br />
Beispiel 26.19. Sei X eine schwache Lösung von (26.17). Dann ist auch −X eine<br />
schwache Lösung, das heißt, es gilt keine pfadweise Eindeutigkeit (obwohl man<br />
zeigen kann, dass die Lösung schwach eindeutig ist, siehe Satz 26.25). ✸<br />
Wir betrachten den eindimensionalen Fall m = n =1.IstX eine Lösung (stark<br />
oder schwach) von (26.15), so ist<br />
Mt := Xt −<br />
� t<br />
0<br />
b(s, Xs) ds<br />
ein stetiges lokales Martingal mit quadratischer Variation<br />
〈M〉t =<br />
� t<br />
0<br />
σ 2 (s, Xs) ds.<br />
Wir werden sehen, dass hierdurch eine schwache Lösung von (26.15) charakterisiert<br />
ist (jedenfalls unter milden Wachstumsbedingungen and σ und b).<br />
Sei für alle t ≥ 0 und x ∈ Rn die n×n Matrix a(t, x) symmetrisch und nichtnegativ<br />
definit, und sei (t, x) ↦→ a(t, x) messbar.<br />
Definition 26.20. Wir sagen, dass ein n-dimensionaler stetiger Prozess X eine<br />
Lösung des lokalen Martingalproblems zu a und b mit Startverteilung μ ∈M1(Rn )<br />
(kurz: LMP(a, b, μ)) ist, falls P ◦ X −1<br />
0 = μ ist und für jedes i =1,...,n<br />
M i t := X i � t<br />
t −<br />
0<br />
bi(s, Xs) ds, t ≥ 0,<br />
ein stetiges lokales Martingal ist mit quadratischer Kovariation<br />
〈M i ,M j � t<br />
〉t =<br />
0<br />
aij(s, Xs) ds für alle t ≥ 0, i,j=1,...,n.<br />
Wir sagen, dass die Lösung von LMP(a, b, μ) eindeutig ist, wenn für je zwei<br />
Lösungen X und X ′ gilt: P ◦ X −1 = P ◦ (X ′ ) −1 .<br />
Mit σ T bezeichnen wir die transponierte Matrix zu σ. Offenbar ist a = σσ T dann<br />
eine nichtnegativ semidefinite symmetrische n × n Matrix.<br />
Satz 26.21. X ist genau dann eine Lösung von LMP(σσ T ,b,μ), wenn es (gegebenenfalls<br />
auf einer Erweiterung des Wahrscheinlichkeitsraums) eine Brown’sche<br />
Bewegung W gibt, sodass (X, W) eine schwache Lösung von (26.15) ist.<br />
Insbesondere existiert genau dann eine eindeutige schwache Lösung der SDGL<br />
(26.15) mit Startverteilung μ, wennLMP(σσ T ,b,μ) eindeutig lösbar ist.
564 26 Stochastische Differentialgleichungen<br />
Beweis. Wir zeigen die Aussage nur für den Fall m = n =1. Der allgemeine Fall<br />
erfordert ein paar Betrachtungen über Wurzeln von nichtnegativ semidefiniten symmetrischen<br />
Matrizen, die jedoch für die Stochastik keine tiefere Einsicht bringen.<br />
Wir verweisen hier lediglich auf [86, Proposition 5.4.6].<br />
” ⇐= “ Ist (X, W) eine schwache Lösung, dann löst X nach Korollar 25.19 das<br />
lokale Martingalproblem.<br />
” =⇒ “ Sei X eine Lösung von LMP(σ2 ,b,μ). Nach Satz 25.29 existiert auf einer<br />
Erweiterung des Wahrscheinlichkeitsraums eine Brown’sche Bewegung ˜ �<br />
W , sodass<br />
�σ(s, Xs) � � d ˜ Ws gilt. Setzen wir<br />
Mt = � t<br />
0<br />
� t<br />
Wt :=<br />
0<br />
sign(σ(s, Xs)) d ˜ Ws,<br />
so ist Mt = � t<br />
0 σ(s, Xs) dWs, also (X, W) eine schwache Lösung von (26.15). ✷<br />
Ein lokales Martingalproblem ist in gewissem Sinne eine sehr natürliche Art und<br />
Weise, um eine stochastische Differentialgleichung zu schreiben, nämlich als:<br />
X hat lokal die Ableitung (Drift) b und zusätzlich zufällige normalverteilte<br />
Fluktuationen von der Größenordnung σ.<br />
Eine konkrete Brown’sche Bewegung taucht hier gar nicht mehr auf, und bei den<br />
meisten Problemen ist ihr Auftreten auch eher artifiziell. Genau wie man bei der<br />
Beschreibung von Markovketten meist nur die Übergangswahrscheinlichkeiten angibt,<br />
nicht aber die konkrete Realisierung, wie dies etwa in Satz 17.17 beschrieben<br />
wird, möchte man bei vielen stetigen (Zeit und Ort) Prozessen nur die Größe der<br />
Fluktuationen angeben, nicht aber eine konkrete Realisierung.<br />
Technisch gesehen ist die Formulierung von stochastischen Differentialgleichungen<br />
als lokale Martingalprobleme sehr bequem, weil sie Zugang zu einer Reihe von<br />
Techniken schafft wie Martingalungleichungen und Approximationssätze für Martingale,<br />
mit denen sich Existenz und Eindeutigkeit von Lösungen etablieren lässt.<br />
Wir zitieren hier nur zwei wichtige Ergebnisse.<br />
Satz 26.22 (Existenz von Lösungen). Es seien (t, x) ↦→ b(t, x) und (t, x) ↦→<br />
a(t, x) stetig und beschränkt. Dann existiert für jedes μ ∈M1(R n ) eine Lösung<br />
X des LMP(a, b, μ).<br />
Beweis. Siehe [140, Theorem V.23.5]. ✷<br />
Definition 26.23. Wir sagen, dass das LMP(a, b) gut gestellt ist, wenn es für jedes<br />
x ∈ R n eine eindeutige Lösung X von LMP(a, b, δx) gibt.<br />
Bemerkung 26.24. Erfüllen σ und b die Lipschitzbedingungen wie in Satz 26.8, so<br />
ist das LMP(σσ T ,b) gut gestellt. Dies folgt aus Satz 26.8 und Satz 26.18. ✸
Im Folgenden gelte stets:<br />
26.2 Schwache Lösungen und Martingalproblem 565<br />
(t, x) ↦→ σ(t, x) bzw. (t, x) ↦→ a(t, x) ist beschränkt auf kompakten Mengen.<br />
(26.21)<br />
Diese Bedingung sichert die Äquivalenz des lokalen Martingalproblems zu dem<br />
etwas gebräuchlicheren Martingalproblem (siehe [86, Proposition 5.4.11]).<br />
Satz 26.25 (Eindeutigkeit im Martingalproblem). Es gelte (26.21).Für jedes x ∈<br />
R n existiere eine Lösung X x von LMP(a, b, δx), deren Verteilung wir mit Px :=<br />
P ◦ (X x ) −1 bezeichnen.<br />
Für je zwei Lösungen X x und Y x von LMP(a, b, δx) gelte<br />
P ◦ (X x T ) −1 = P ◦ (Y x T ) −1<br />
für jedes T ≥ 0. (26.22)<br />
Dann ist LMP(a, b) gut gestellt, und der kanonische Prozess X ist ein starker Markovprozess<br />
bezüglich (Px, x∈ R n ).Ista = σσ T ,soistX unter Px die eindeutige<br />
schwache Lösung der SDGL (26.15).<br />
Beweis. Siehe [48, Theorem 4.4.1 und Problem 49] und [86, Proposition 5.4.11].✷<br />
Eine wesentliche Stärke dieses Satzes liegt darin, dass wir die Eindeutigkeit nicht<br />
des gesamten Prozesses, sondern in (26.22) nur der eindimensionalen Randverteilungen<br />
prüfen müssen. Wir werden in Abschnitt 26.3 Beispiele dafür angeben, wie<br />
dies ausgenutzt werden kann.<br />
Die Frage nach der Existenz von Lösungen einer stochastischen Differentialgleichung<br />
(oder äquivalent: eines lokalen Martingalproblems) ist leichter zu beantworten<br />
als die Frage nach der Eindeutigkeit von Lösungen. Wir wissen bereits, dass<br />
Eindeutigkeit unter Lipschitzbedingungen an die Koeffizienten b und σ (nicht σσT !)<br />
gilt (nach Satz 26.8 und Satz 26.18), da hier starke Eindeutigkeit der Lösungen gilt.<br />
Eine vielleicht auf den ersten Blick verwirrende Erkenntnis ist, dass der Zufall stabilisierend<br />
wirken kann, dass also eine deterministische Differentialgleichung, deren<br />
Lösung nicht eindeutig ist, durch stochastische Störterme eindeutig lösbar werden<br />
kann. Dazu folgendes eindimensionale Beispiel:<br />
dXt =sign(Xt) |Xt| 1/3 dt + σdWt, X0 =0. (26.23)<br />
Ist σ = 0, so haben wir es mit einer deterministischen Differentialgleichung zu<br />
tun, die ein Kontinuum von Lösungen mit Parametern v ∈{−1, +1} und T ≥ 0<br />
hat, nämlich Xt = v 2 √ 2(t − T ) 3/2 {t>T }. Ist σ > 0, so wird die Instabilität<br />
der Gleichung (26.23) an x =0durch Verrauschen aufgelöst. Wir zitieren hier den<br />
folgenden Satz für den zeitunabhängigen Fall aus [140, Satz V.24.1] (siehe auch<br />
[149, Kapitel 10]).
566 26 Stochastische Differentialgleichungen<br />
Satz 26.26 (Stroock-Varadhan). Sei aij : R n → R stetig und bi : R n → R<br />
messbar für i, j =1,...,n. Es gelte<br />
(i) a(x) =(aij(x)) ist symmetrisch und strikt positiv definit für jedes x ∈ Rn ,<br />
(ii) es gibt ein C 0 und jedes beschränkte,<br />
messbare f : R n → R.<br />
Konkrete Beispiele geben wir in Abschnitt 26.3 an. Wir wollen hier nur festhalten,<br />
dass wir eine spezielle Methode entwickelt haben, um Markovprozesse zu konstruieren,<br />
nämlich als Lösung einer stochastischen Differentialgleichung oder eines lokalen<br />
Martingalproblems. Im Rahmen von Modellen in diskreter Zeit haben wir in<br />
Kapitel 17.2 und speziell in Übung 17.2.1 bereits Markovketten als Lösungen von<br />
Martingalproblemen charakterisiert. Dass dort die Angabe der Drift und der quadratischen<br />
Variation ausreichte, um den Prozess eindeutig zu bestimmen, lag daran,<br />
dass wir die Möglichkeiten für das Ziel eines Schrittes auf drei Punkte begrenzt<br />
hatten. Hier hingegen ist die entscheidende Begrenzung die Stetigkeit der Prozesse.<br />
Übung 26.2.1. Sei der zeithomogene eindimensionale Fall (m = n =1) betrachtet.<br />
Seien σ und b so, dass es für jedes X0 ∈ R eine eindeutige schwache Lösung von<br />
−∞<br />
dXt = σ(Xt) dWt + b(Xt) dt<br />
existiert und ein starker Markovprozess ist. Ferner gebe es ein x0 ∈ R mit<br />
� ∞<br />
1<br />
C :=<br />
σ2 (x) exp<br />
�� x<br />
2b(r)<br />
σ2 (r) dr<br />
�<br />
dr < ∞.<br />
(i) Man zeige: Das Maß π ∈M1(R) mit Dichte<br />
x0<br />
π(dx)<br />
dx = C−1 1<br />
σ 2 (x) exp<br />
�� x<br />
x0<br />
2b(r)<br />
σ2 (r) dr<br />
�<br />
ist eine invariante Verteilung für X.<br />
(ii) Für welche Werte von b hat der Ornstein-Uhlenbeck Prozess dXt = σdWt +<br />
bXt dt eine invariante Verteilung? Man bestimme diese Verteilung und vergleiche<br />
das Ergebnis mit dem, was nach expliziter Rechnung mit der Darstellung<br />
in (26.3) zu erwarten war.<br />
(iii) Man bestimme die invariante Verteilung der Cox-Ingersoll-Ross SDGL (26.14)<br />
(alias Feller’sche Verzweigungsdiffusion).
26.3 Eindeutigkeit schwacher Lösungen via Dualität 567<br />
(iv) Seien γ,c > 0 und θ ∈ (0, 1). Man zeige, dass die invariante Verteilung der<br />
Lösung X der folgenden SDGL auf [0, 1]<br />
dXt = � γXt(1 − Xt) dWt + c(θ − Xt) dt<br />
gegeben ist durch die Betaverteilung β 2cγ/θ, 2cγ/(1−θ). ♣<br />
Übung 26.2.2. Sei γ>0. Seien X 1 und X 2 Lösungen von dX i t = � γX i t dW i t ,<br />
wo W 1 und W 2 zwei unabhängige Brown’sche Bewegungen sind, mit Startwerten<br />
X 1 0 = x 1 0 > 0 und X 2 0 = x 2 0 > 0. Man zeige, dass Z := X 1 + X 2 eine schwache<br />
Lösung ist von Z0 =0und dZt = √ γZt dWt. ♣<br />
26.3 Eindeutigkeit schwacher Lösungen via Dualität<br />
Mit dem Satz von Stroock und Varadhan haben wir ein starkes Kriterium für die<br />
Existenz und Eindeutigkeit von Lösungen von stochastischen Differentialgleichungen.<br />
In vielen Fällen ist jedoch gerade die Bedingung der lokal gleichgradigen Elliptizität<br />
von a (Bedingung (i) in Satz 26.26) nicht erfüllt. Dies trifft insbesondere<br />
dann zu, wenn die Lösungen nur auf Teilmengen von Rn definiert sind.<br />
Wir werden hier ein mächtiges Hilfsmittel kennen lernen, das in vielen Spezialfällen<br />
schwache Eindeutigkeit von Lösungen sichert.<br />
Definition 26.27 (Dualität). Seien X =(X x ,x∈ E) und Y =(Y y ,y∈ E ′ ) Familien<br />
von stochastischen Prozessen mit Werten in den Räumen E beziehungsweise<br />
E ′ und so, dass X x 0 = x f.s. und Y y<br />
0 = y f.s. für alle x ∈ E und y ∈ E′ .Wirsagen,<br />
dass X und Y dual zueinander sind mit Dualitätsfunktion H : E × E ′ → C,<br />
falls für alle x ∈ E, y ∈ E ′ und t ≥ 0 die Erwartungswerte E � H(X x t ,y) � und<br />
E � H(x, Y y<br />
t ) � existieren und gleich sind:<br />
E � H(X x t ,y) � = E � H(x, Y y<br />
t ) � .<br />
Wir nehmen im Folgenden an, dass σij : R n → R und bi : R n → R beschränkt auf<br />
kompakten Mengen sind für alle i =1,...,n, j =1,...,m. Wir betrachten die<br />
zeithomogene stochastische Differentialgleichung<br />
dXt = σ(Xt) dWt + b(Xt) dt. (26.24)<br />
Satz 26.28 (Eindeutigkeit via Dualität). Für jedes x ∈ R n existiere eine Lösung<br />
des lokalen Martingalproblems zu (σσ T ,b,δx). Es gebe eine Familie (Y y ,y∈ E ′ )<br />
von Markovprozessen mit Werten in dem Messraum (E ′ , E ′ ) und eine messbare Ab-<br />
bildung H : R n × E ′ → C, sodass für jedes y ∈ E ′ , x ∈ R n und t ≥ 0 der Erwar-<br />
tungswert E[H(x, Y y<br />
t )] existiert und endlich ist. Ferner sei (H( · ,y), y∈ E ′ ) eine<br />
trennende Funktionenklasse für M1(R n ) (siehe Definition 13.9).
568 26 Stochastische Differentialgleichungen<br />
Für jedes x ∈ R n und jede Lösung X x von LMP(σσ T ,b,δx) gelte die Dualitätsgleichung<br />
E[H(X x t ,y)] = E[H(x, Y y<br />
t )] für alle y ∈ E ′ ,t≥ 0. (26.25)<br />
Dann ist das lokale Martingalproblem zu (σσ T ,b) gut gestellt, also besitzt (26.24)<br />
eine eindeutige schwache Lösung und diese ist ein starker Markovprozess.<br />
Beweis. Nach Satz 26.25 reicht es zu prüfen, dass für jedes x ∈ R n , jede Lösung<br />
X x von LMP(σσ T ,b,δx) und jedes t ≥ 0 die Verteilung P ◦ (X x t ) −1 eindeutig<br />
ist. Da (H( · ,y), y∈ E ′ ) eine trennende Funktionenklasse ist, folgt dies aber aus<br />
(26.16). ✷<br />
Beispiel 26.29 (Wright-Fisher Diffusion). Betrachte die Wright-Fisher SDGL<br />
dXt = [0,1](Xt) � γXt(1 − Xt) dWt, (26.26)<br />
wobei γ > 0 ein Parameter ist. Nach Satz 26.22 existiert für jedes x ∈ R eine<br />
schwache Lösung ( ˜ X,W) von (26.26). ˜ X ist ein stetiges lokales Martingal mit<br />
quadratischer Variation<br />
1<br />
0.8<br />
0.6<br />
0.4<br />
0.2<br />
0<br />
� �<br />
˜X<br />
t =<br />
� t<br />
0<br />
γ ˜ Xs(1 − ˜ Xs) [0,1]( ˜ Xs) ds.<br />
0.2 0.4 0.6 0.8 1 1.2<br />
Abb. 26.3. Simulation einer Wright-Fisher Diffusion mit Parameter γ =1.<br />
Sei τ := inf{t >0: ˜ Xt �∈ [0, 1]} und X := ˜ Xτ der in τ gestoppte Prozess. Dann<br />
ist X ein stetiges, beschränktes Martingal mit<br />
〈X〉t =<br />
� t<br />
0<br />
γXs(1 − Xs) [0,1](Xs) ds,
26.3 Eindeutigkeit schwacher Lösungen via Dualität 569<br />
also ist (X, W) eine Lösung von (26.26). Nach Konstruktion ist Xt ∈ [0, 1] für alle<br />
t ≥ 0, falls X0 = ˜ X0 ∈ [0, 1] ist.<br />
Sei τ ′ := inf{t >0: ˜ Xt ∈ [0, 1]}. Ist ˜ X0 �∈ [0, 1], soistτ ′ > 0, weil ˜ X stetig ist.<br />
Weil ˜ ′<br />
τ X<br />
ein stetiges lokales Martingal ist mit � ˜ X τ ′� ≡ 0, ist ˜ X τ ′<br />
t = ˜ X0 für alle<br />
t ≥ 0. Daraus folgt aber, dass ˜ Xt = ˜ X0 ist für alle t0 und t ≥ 0 gilt wegen der Markov-Eigenschaft von Y<br />
g x,n � � � � Yt+h<br />
Yt (t + h) =En x = En EYh x ��<br />
=<br />
=<br />
n�<br />
m=1<br />
� Yt Pn[Yh = m] Em x �<br />
n�<br />
Pn[Yh = m] g x,m (t).<br />
m=1
570 26 Stochastische Differentialgleichungen<br />
Es folgt<br />
d<br />
dt gx,n �<br />
−1<br />
(t) = lim h g<br />
h↓0 x,n (t + h) − g x,n �<br />
(t)<br />
n�<br />
Pn[Yh = m] � g x,m (t) − g x,n �<br />
(t)<br />
= lim<br />
h↓0 h −1<br />
=<br />
m=1<br />
n�<br />
q(n, m) g x,m (t)<br />
m=1<br />
� �<br />
n<br />
�<br />
= γ g<br />
2<br />
x,n−1 (t) − g x,n �<br />
(t) .<br />
(26.29)<br />
Offenbar ist g x,1 (t) =x für alle x ∈ [0, 1] und t ≥ 0 und g x,n (0) = x n . Das heißt,<br />
g x,n löst (26.28), und daher gilt (26.27).<br />
Nach Satz 15.4 ist die Familie (H( · ,n), n ∈ N) ⊂ C([0, 1]) trennend für<br />
M1([0, 1]), also sind die Bedingungen von Satz 26.28 erfüllt, und X ist die eindeutige<br />
schwache Lösung von (26.26) und ist ein starker Markovprozess. ✸<br />
Bemerkung 26.30. Das Martingalproblem für die Wright-Fisher Diffusion sieht<br />
fast genauso aus wie das diskrete Martingalproblem für das Moran-Modell (siehe<br />
Beispiel 17.22) M N =(M N n )n∈N0 mit Populationsgröße N: M N ist ein Martingal<br />
mit Werten in der Menge {0, 1/N,...,(N − 1)/N, 1} quadratischem Variations-<br />
prozess<br />
� M N �<br />
n<br />
2<br />
=<br />
N 2<br />
n−1 �<br />
k=0<br />
M N k<br />
� � N<br />
1 − Mk .<br />
In jedem Schritt kann M N nur entweder am Ort bleiben oder um 1/N nach oben<br />
oder unten springen. In Übung 17.2.1 hatten wir gesehen, dass dadurch der Prozess<br />
M N schon eindeutig beschrieben ist. Man kann zeigen, ähnlich wie in Satz 21.51<br />
für Verzweigungsprozesse, dass die zeitlich reskalierten Moran-Prozesse ˜ M N t =<br />
M N ⌊N 2t⌋ gegen die Wright-Fisher Diffusion mit γ =2konvergieren. Die Wright-<br />
Fisher Diffusion tritt also als Limes-Modell eines genealogischen Modells auf und<br />
beschreibt die Genfrequenz (das heißt, den relativen Anteil) eines bestimmten Allels<br />
in einer Population, die durch die Generationenfolge in zufälliger Weise fluktuiert.<br />
✸<br />
Beispiel 26.31 (Feller’sche Verzweigungsdiffusion). Sei (ZN n )n∈N0 ein Galton-<br />
Watson Verzweigungsprozess mit kritischer, geometrischer Nachkommenverteilung<br />
pk =2−k−1 , k ∈ N0 und ZN 0 = N für jedes N ∈ N. DannistZNein diskretes<br />
Martingal, und es gilt<br />
��ZN E n − Z N � � �<br />
2 ��Z N<br />
n−1 n−1 = Z N n−1<br />
� ∞ �<br />
k=0<br />
pk k 2 �<br />
− 1 =2Z N n−1.
3<br />
2<br />
1<br />
0<br />
26.3 Eindeutigkeit schwacher Lösungen via Dualität 571<br />
1 2 3 4 5<br />
Abb. 26.4. Simulation einer Feller’schen Verzweigungsdiffusion mit Parameter γ =1.<br />
Daher hat Z N die quadratische Variation<br />
Sei nun<br />
〈Z N n−1 �<br />
〉n =<br />
k=0<br />
2Z N k .<br />
Z N t := � t − N −1 � �<br />
⌊tN⌋ Z N ⌊tN⌋+1 − ZN �<br />
⌊tN⌋ + 1<br />
n ZN ⌊tN⌋<br />
eine linear interpolierte Version von N −1Z N ⌊tN⌋ . Nach dem Satz von Lindvall<br />
N N→∞<br />
(Satz 21.51) gibt es einen stetigen Markovprozess Z, sodass Z −→ Z in Verteilung<br />
gilt. Da man zeigen kann, dass auch die Momente konvergieren, gilt, dass Z<br />
ein stetiges Martingal ist und quadratische Variation<br />
〈Z〉t =<br />
� t<br />
0<br />
2Zs ds<br />
hat. Tatsächlich hatten wir in Beispiel 26.11 bereits gezeigt, dass Z die Lösung der<br />
SDGL<br />
dZt = � 2Zt dWt<br />
(26.30)<br />
mit Start in Z0 =1ist. Dort hatten wir auch gezeigt, dass Z dual ist zu Y y<br />
t =<br />
� tγ<br />
2<br />
�−1 1 + y<br />
mit H(x, y) =e−xy . Hieraus folgt die Eindeutigkeit der Lösung von<br />
(26.30) und die starke Markoveigenschaft von Z. ✸<br />
Man kann einwenden, dass in den Beispielen 26.29 und 26.31 nur eindimensionale<br />
Situationen betrachtet wurden, für die wir nach dem Satz von Yamada-<br />
Watanabe (Satz 26.10) sowieso schon um die Eindeutigkeit sogar einer starken
572 26 Stochastische Differentialgleichungen<br />
Lösung wissen. Die wahre Stärke der Methode der Dualität kann sich also erst in<br />
höherdimensionalen Problemen entfalten. Hierzu betrachten wir als Beispiel eine<br />
Erweiterung von Beispiel 26.29.<br />
Beispiel 26.32 (Wechselwirkende Wright-Fisher Diffusionen).<br />
Die Wright-Fisher Diffusion aus Beispiel 26.29 beschreibt die Fluktuationen der<br />
Genfrequenz eines Allels in einer großen Population. Wir wollen nun mehrere Populationen<br />
betrachten, die auf den Punkten i ∈ S := {1,...,N} leben, und miteinander<br />
durch Migration, die durch Wechselwirkungsraten r(i, j) ≥ 0 quantifiziert<br />
wird, in Wechselwirkung stehen. Als Modell für die Genfrequenzen Xt(i)<br />
am Ort i zur Zeit t stellen wir daher die folgende N-dimensionale SDGL für<br />
X =(X(1),...,X(N)) auf:<br />
dXt(i) = � γXt(i)(1 − Xt(i)) dW i N�<br />
t + r(i, j) � Xt(j) − Xt(i) � dt. (26.31)<br />
Dabei ist W =(W 1 ,...,W N ) eine N-dimensionale Brown’sche Bewegung. Diese<br />
SDGL hat nach Satz 26.22 schwache Lösungen, jedoch greift keines unserer<br />
allgemeinen Kriterien für schwache Eindeutigkeit. Wir werden daher die schwache<br />
Eindeutigkeit vermittels Dualität zeigen.<br />
Es ist, ähnlich wie in Beispiel 26.29, nicht schwer zu zeigen, dass Lösungen von<br />
(26.31), die in X0 = x ∈ E := [0, 1] S starten, in [0, 1] S bleiben. Die Diagonalterme<br />
r(i, i) tauchen in (26.31) nicht auf, daher können wir sie noch beliebig festsetzen<br />
und wählen r(i, i) = − �<br />
j�=i r(i, j). SeiY = (Yt)t≥0 der Markovprozess auf<br />
E ′ := SN0 mit der folgenden Q-Matrix<br />
⎧<br />
j=1<br />
ϕ(i) r(i, j), falls η = ϕ − {i} + {j} für<br />
gewisse i, j ∈ S, i �= j,<br />
⎪⎨<br />
q(ϕ, η) =<br />
γ<br />
⎪⎩<br />
� � ϕ(i)<br />
2 , falls η = ϕ − {i} für ein i ∈ S,<br />
� �<br />
ϕ(i)r(i, i) − γ<br />
i∈S<br />
� � ϕ(i)<br />
2<br />
�<br />
, falls η = ϕ,<br />
0, sonst.<br />
Dabei bezeichnet ϕ ∈ E ′ einen generischen Zustand mit ϕ(i) Teilchen am Ort<br />
i ∈ S, und {i} ∈ E ′ bezeichnet den Zustand mit genau einem Teilchen am Ort<br />
i. Der Prozess Y beschreibt ein System von Teilchen, die unabhängig voneinander<br />
mit Rate r(i, j) vom Ort i zum Ort j springen. Sind mehrere Teilchen an einem Ort<br />
i, so verschmilzt jedes der � � ϕ(i)<br />
2 Paare von Teilchen mit der selben Rate γ zu einem<br />
Teilchen. Die gängige genealogische Interpretation dieses Prozesses ist, dass er (in<br />
umgekehrter Zeit) die Ahnenlinien einer Stichprobe von je Y0(i) Individuen ein den<br />
Orten i ∈ S, beschreibt. Durch Migration wechseln die Linien den Ort. Haben zwei<br />
Individuen den selben Vorfahren, so verschmelzen zwei Linien. Offenbar ist für<br />
einen gemeinsamen Vorfahren notwendig aber nicht hinreichend, dass beide Linien<br />
am selben Ort sind.
26.3 Eindeutigkeit schwacher Lösungen via Dualität 573<br />
Für x ∈ R n und ϕ ∈ E ′ schreiben wir x ϕ := �<br />
i∈S x(i)ϕ(i) . Wir zeigen, dass X<br />
und Y dual zueinander sind mit der Dualitätsfunktion H(x, ϕ) =x ϕ :<br />
Ex[X ϕ<br />
t ]=Eϕ[x Yt ] für alle ϕ ∈ S N0 ,x∈ [0, 1] S ,t≥ 0. (26.32)<br />
Sei mx,ϕ (t) :=Ex[X ϕ<br />
t ] und gx,ϕ (t) :=Eϕ[xYt ]. Offenbar hat H die Ableitungen<br />
∂iH( · ,ϕ)(x) =ϕ(i)xϕ− {i} und ∂i∂iH( · ,ϕ)(x) =2 � � ϕ(i) ϕ−2<br />
2 x {i}. Nach der<br />
Itô-Formel ist<br />
X ϕ<br />
t − X ϕ<br />
0 −<br />
� t<br />
0<br />
�<br />
ϕ(i)r(i, j) � Xs(j) − Xs(i) � X ϕ− {i}<br />
ds<br />
i,j∈S<br />
− �<br />
i∈S<br />
� t<br />
0<br />
t<br />
� �<br />
ϕ(i) �Xs(i)(1 γ<br />
− Xs(i))<br />
2<br />
� X ϕ−2 {i}<br />
s ds<br />
ein Martingal. Indem wir Erwartungswerte bilden, erhalten wir ein System von linearen<br />
Integralgleichungen<br />
m x,0 (t) =1<br />
m x,ϕ (t) =x ϕ � t �<br />
+<br />
0<br />
i,j∈S<br />
� t<br />
+<br />
0<br />
�<br />
ϕ(i)r(i, j) m x,ϕ+ �<br />
{j}− {i}(s) x,ϕ<br />
− m (s) ds<br />
γ �<br />
� �<br />
ϕ(i)<br />
�<br />
m<br />
2<br />
x,ϕ− �<br />
{i} x,ϕ<br />
(s) − m (s) ds.<br />
i∈S<br />
(26.33)<br />
Dieses System von Gleichungen lässt sich per Induktion über n = �<br />
i∈I ϕ(i)<br />
eindeutig lösen. Wir wollen die Lösung jedoch nicht explizit ausrechnen, sondern<br />
nur zeigen, dass sie mit g x,ϕ (t) übereinstimmt, indem wir zeigen, dass g ein<br />
äquivalentes System von Differentialgleichungen löst.<br />
Für g erhalten wir wie in (26.29)<br />
d<br />
dt gx,ϕ (t) = �<br />
η∈E ′<br />
q(ϕ, η) g x,ϕ (t)<br />
= � �<br />
r(i, j) g x,ϕ+ �<br />
{j}− {i}(t) x,ϕ<br />
− g (t)<br />
i,j∈S<br />
+ �<br />
� �<br />
ϕ(i)<br />
�<br />
γ g<br />
2<br />
x,ϕ− �<br />
{i} x,ϕ<br />
(t) − g (t) .<br />
i∈S<br />
(26.34)<br />
Zusammen mit dem Startwert g x,0 (t) =1und g x,ϕ (0) = x ϕ ist das System (26.34)<br />
von Differentialgleichungen äquivalent zu (26.33). Also gilt die Dualität (26.32),<br />
und damit ist die SDGL (26.31) eindeutig schwach lösbar. (Tatsächlich kann man<br />
zeigen, dass es eine eindeutige starke Lösung gibt, sogar wenn S abzählbar unendlich<br />
ist und r gewisse Regularitätsannahmen erfüllt, beispielsweise die Q-Matrix<br />
einer Irrfahrt auf S = Z d ist, siehe [144].) ✸
574 26 Stochastische Differentialgleichungen<br />
Übung 26.3.1 (Aussterbewahrscheinlichkeit der Feller’schen Verzweigungsdiffusion).<br />
Sei γ > 0 und Z die Lösung von dZt := √ γZt dWt mit Anfangswert<br />
Z0 = z>0. Man zeige mit Hilfe der Dualität<br />
�<br />
Pz[Zt =0]=exp − 2z<br />
�<br />
. (26.35)<br />
γt<br />
Man bestimme mit Hilfe von Lemma 21.44 die Wahrscheinlichkeit, dass ein Galton-<br />
Watson Verzweigungsprozess X mit kritischer, geometrischer Nachkommenverteilung<br />
und X0 = N ∈ N bis zur Zeit n ∈ N ausgestorben ist und vergleiche das<br />
Ergebnis mit (26.35). ♣
Literatur<br />
1. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and<br />
continuity of connectivity functions for short and long range percolation. Comm. Math.<br />
Phys., 111(4):505–531, 1987.<br />
2. M. Aizenman, H. Kesten und C. M. Newman. Uniqueness of the infinite cluster and related<br />
results in percolation. In Percolation theory and ergodic theory of infinite particle<br />
systems (Minneapolis, Minn., 1984–1985), volume 8 of IMA Vol. Math. Appl., pages<br />
13–20. Springer, New York, 1987.<br />
3. David J. Aldous. Exchangeability and related topics. In École d’été de probabilités de<br />
Saint-Flour, XIII—1983, volume 1117 of Lecture Notes in Math., pages 1–198. Springer,<br />
Berlin, 1985.<br />
4. Krishna B. Athreya und Peter E. Ney. Branching Processes. Springer-Verlag, Berlin,<br />
1972.<br />
5. Jacques Azéma und Marc Yor. Le problème de Skorokhod: compléments à“Unesolution<br />
simple au problème de Skorokhod”. In Séminaire de Probabilités, XIII (Univ.<br />
Strasbourg, Strasbourg, 1977/78), volume 721 of Lecture Notes in Math., pages 625–<br />
633. Springer, Berlin, 1979.<br />
6. Jacques Azéma und Marc Yor. Une solution simple au problème de Skorokhod. In<br />
Séminaire de Probabilités, XIII (Univ. Strasbourg, Strasbourg, 1977/78), volume 721<br />
of Lecture Notes in Math., pages 90–115. Springer, Berlin, 1979.<br />
7. Martin Barner und Friedrich Flohr. Analysis. II. de Gruyter Lehrbuch. Walter de Gruyter<br />
& Co., Berlin, 2. Auflage, 1989.<br />
8. Martin Barner und Friedrich Flohr. Analysis. I. de Gruyter Lehrbuch. Walter de Gruyter<br />
& Co., Berlin, 4. Auflage, 1991.<br />
9. Heinz Bauer. Maß - und Integrationstheorie. de Gruyter Lehrbuch. Walter de Gruyter<br />
& Co., Berlin, 2. Auflage, 1992.<br />
10. Heinz Bauer. <strong>Wahrscheinlichkeitstheorie</strong>. de Gruyter Lehrbuch. Walter de Gruyter &<br />
Co., Berlin, 5. Auflage, 2002.<br />
11. Leonard E. Baum und Melvin Katz. Convergence rates in the law of large numbers.<br />
Trans. Amer. Math. Soc., 120:108–123, 1965.<br />
12. M Baxter und R. Rennie. Financial Calculus. Cambridge University Press, Cambridge,<br />
1997.<br />
13. Andrew C. Berry. The accuracy of the gaussian approximation to the sum of independent<br />
variates. Trans. Amer. Math. Soc., 49:122–136, 1941.<br />
14. Patrick Billingsley. Convergence of probability measures. John Wiley & Sons Inc.,<br />
New York, 1968.<br />
15. Patrick Billingsley. Weak convergence of measures: Applications in probability. Society<br />
for Industrial and Applied Mathematics, Philadelphia, Pa., 1971. Conference Board of<br />
the Mathematical Sciences Regional Conference Series in Appl. Mathematics, No. 5.
576 Literatur<br />
16. Patrick Billingsley. Probability and measure. Wiley Series in Probability and Mathematical<br />
Statistics. John Wiley & Sons Inc., New York, 3. Auflage, 1995. A Wiley-<br />
Interscience Publication.<br />
17. Patrick Billingsley. Convergence of probability measures. Wiley Series in Probability<br />
and Statistics: Probability and Statistics. John Wiley & Sons Inc., New York, 2. Auflage,<br />
1999. A Wiley-Interscience Publication.<br />
18. K. Binder und D. W. Heermann. Monte Carlo simulation in statistical physics, An<br />
introduction, volume 80 of Springer Series in Solid-State Sciences. Springer-Verlag,<br />
Berlin,3.Auflage, 1997.<br />
19. R. M. Blumenthal. An extended Markov property. Trans. Amer. Math. Soc., 85:52–72,<br />
1957.<br />
20. Salomon Bochner. Vorlesungen über Fouriersche Integrale. Chelsea Publishing Company,<br />
New York, 1932. Nachdruck von 1948.<br />
21. Leo Breiman. Probability. Addison-Wesley Publishing Company, Reading, Mass.,<br />
1968.<br />
22. Brockhaus. Die Enzyklopädie in 24 Bänden. F.A. Brockhaus, Mannheim, 20. Auflage,<br />
1998.<br />
23. Jörg Brüdern. Einführung in die analytische Zahlentheorie. Springer-Verlag, Berlin<br />
Heidelberg, 1995.<br />
24. Dirk Brüggemann. Starke Gesetze der großen Zahlen bei blockweisen Unabhängigkeitsbedingungen.<br />
Dissertation, Universität zu Köln, 2002.<br />
25. R. M. Burton und M. Keane. Density and uniqueness in percolation. Comm. Math.<br />
Phys., 121(3):501–505, 1989.<br />
26. Gustave Choquet und Jacques Deny. Sur l’équation de convolution μ = μ ∗ σ. C. R.<br />
Acad. Sci. Paris, 250:799–801, 1960.<br />
27. Yuan Shih Chow und Henry Teicher. Probability theory: Independence, interchangeability,<br />
martingales. Springer Texts in Statistics. Springer-Verlag, New York, 3. Auflage,<br />
1997.<br />
28. K. L. Chung und W. H. J. Fuchs. On the distribution of values of sums of random<br />
variables. Mem. Amer. Math. Soc., 1951(6):12, 1951.<br />
29. Peter Clifford und Aidan Sudbury. A model for spatial conflict. Biometrika, 60:581–<br />
588, 1973.<br />
30. Harald Cramér. Sur un nouveau théorème-limite de la théorie des probabilités. Actualités<br />
Scientifiques et Industrielles, 763:5–23, 1938. Colloque consacré àlathéorie des<br />
probabilités.<br />
31. Freddy Delbaen und Walter Schachermayer. A general version of the fundamental<br />
theorem of asset pricing. Math. Ann., 300(3):463–520, 1994.<br />
32. Amir Dembo und Ofer Zeitouni. Large deviations techniques and applications, volume<br />
38 of Applications of Mathematics (New York). Springer-Verlag, New York, 2.<br />
Auflage, 1998.<br />
33. Jean-Dominique Deuschel und Daniel W. Stroock. Large deviations, volume 137 of<br />
Pure and Applied Mathematics. Academic Press Inc., Boston, MA, 1989.<br />
34. J. Dieudonné. Foundations of Modern Analysis, volume X of Pure and Applied Mathematics.<br />
Academic Press, New York und London, 1960.<br />
35. Monroe D. Donsker. An invariance principle for certain probability limit theorems.<br />
Mem. Amer. Math. Soc.,, 1951(6):12, 1951.<br />
36. Peter G. Doyle und J. Laurie Snell. Random walks and electric networks, volume 22 of<br />
Carus Mathematical Monographs. Mathematical Association of America, Washington,<br />
DC, 1984.
Literatur 577<br />
37. R. M. Dudley. Real analysis and probability, volume 74 of Cambridge Studies in<br />
Advanced Mathematics. Cambridge University Press, Cambridge, 2002. Revidierter<br />
Nachdruck der Originalausgabe von 1989.<br />
38. Richard Durrett. Probability: theory and examples. Duxbury Press, Belmont, CA, 2.<br />
Auflage, 1996.<br />
39. Aryeh Dvoretzky, Paul Erdős und Shizuo Kakutani. Nonincrease everywhere of the<br />
Brownian motion process. In Proc. 4th Berkeley Sympos. Math. Statist. and Prob., Vol.<br />
II, pages 103–116. Univ. California Press, Berkeley, Calif., 1961.<br />
40. Dmitri Egoroff. Sur les suites des fonctions measurables. C. R. Acad. Sci, Paris,<br />
152:135–157, 1911.<br />
41. Robert J. Elliott und P. Ekkehard Kopp. Mathematics of financial markets. Springer<br />
Finance. Springer-Verlag, New York, 1999.<br />
42. Richard S. Ellis. Entropy, large deviations, and statistical mechanics, volume 271 of<br />
Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, New York, 1985.<br />
43. Jürgen Elstrodt. Maß- und Integrationstheorie. Springer-Verlag, New York, 3. Auflage,<br />
1999.<br />
44. P. Erdős und R. L. Graham. On a linear diophantine problem of Frobenius. Acta Arith.,<br />
21:399–408, 1972.<br />
45. Carl-Gustav Esseen. On the liapounoff limit of error in the theory of probability. Ark.<br />
Mat. Astr. och Fys., 28A(9):1–19, 1942.<br />
46. Nasrollah Etemadi. An elementary proof of the strong law of large numbers. Z.<br />
Wahrsch. Verw. Gebiete, 55(1):119–122, 1981.<br />
47. Alison Etheridge. A course in financial calculus. Cambridge University Press, Cambridge,<br />
2002.<br />
48. Stewart N. Ethier und Thomas G. Kurtz. Markov processes, Characterization and convergence.<br />
Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical<br />
Statistics. John Wiley & Sons Inc., New York, 1986.<br />
49. Steven N. Evans und Xiaowen Zhou. Identifiability of exchangeable sequences with<br />
identically distributed partial sums. Electron. Comm. Probab., 4:9–13 (electronic),<br />
1999.<br />
50. William Feller. Über den zentralen Grenzwertsatz der <strong>Wahrscheinlichkeitstheorie</strong> I.<br />
Mathematische Zeitschrift, 40:521–559, 1935.<br />
51. William Feller. Über den zentralen Grenzwertsatz der <strong>Wahrscheinlichkeitstheorie</strong> II.<br />
Mathematische Zeitschrift, 42:301–312, 1937.<br />
52. William Feller. An introduction to probability theory and its applications. Vol. I. John<br />
Wiley & Sons Inc., New York, 3. Auflage, 1968.<br />
53. William Feller. An introduction to probability theory and its applications. Vol. II. John<br />
Wiley & Sons Inc., New York, 2. Auflage, 1971.<br />
54. James Allen Fill. An interruptible algorithm for perfect sampling via Markov chains.<br />
Ann. Appl. Probab., 8(1):131–162, 1998.<br />
55. James Allen Fill, Motoya Machida, Duncan J. Murdoch und Jeffrey S. Rosenthal. Extension<br />
of Fill’s perfect rejection sampling algorithm to general chains. In Proceedings<br />
of the Ninth International Conference “Random Structures and Algorithms” (Poznan,<br />
1999), volume 17, pages 290–316, 2000.<br />
56. Hans Föllmer und Alexander Schied. Stochastic finance, volume 27 of de Gruyter<br />
Studies in Mathematics. Walter de Gruyter & Co., Berlin, 2002.<br />
57. Peter Gänssler und Winfried Stute. <strong>Wahrscheinlichkeitstheorie</strong>. Springer-Verlag, Berlin,<br />
1977.<br />
58. Hans-Otto Georgii. Stochastik. de Gruyter Lehrbuch. Walter de Gruyter & Co., Berlin,<br />
2003.
578 Literatur<br />
59. Alison L. Gibbs und Francis Edward Su. On choosing and bounding probability metrics.<br />
International Statistical Review, 70(3):419–435, 2002.<br />
60. M. L. Glasser und I. J. Zucker. Extended Watson integrals for the cubic lattices. Proc.<br />
Nat. Acad. Sci. U.S.A., 74(5):1800–1801, 1977.<br />
61. B. V. Gnedenko und A. N. Kolmogorov. Limit distributions for sums of independent<br />
random variables. Addison-Wesley Publishing Co., Reading, Mass.-London-Don<br />
Mills., Ont., 1968.<br />
62. Geoffrey Grimmett. Percolation, volume 321 of Grundlehren der Mathematischen Wissenschaften.<br />
Springer-Verlag, Berlin, 2. Auflage, 1999.<br />
63. Geoffrey R. Grimmett und David R. Stirzaker. Probability and random processes. Oxford<br />
University Press, New York, 3. Auflage, 2001.<br />
64. E. Grosswald. The Student t-distribution of any degree of freedom is infinitely divisible.<br />
Z. <strong>Wahrscheinlichkeitstheorie</strong> und Verw. Gebiete, 36(2):103–109, 1976.<br />
65. Olle Häggström. Finite Markov chains and algorithmic applications, volume 52 of<br />
London Mathematical Society Student Texts. Cambridge University Press, Cambridge,<br />
2002.<br />
66. Takashi Hara und Gordon Slade. Mean-field critical behaviour for percolation in high<br />
dimensions. Comm. Math. Phys., 128(2):333–391, 1990.<br />
67. J. Michael Harrison und Stanley R. Pliska. Martingales and stochastic integrals in the<br />
theory of continuous trading. Stochastic Process. Appl., 11(3):215–260, 1981.<br />
68. Philip Hartman und Aurel Wintner. On the law of the iterated logarithm. Amer. J. Math.,<br />
63:169–176, 1941.<br />
69. W.K. Hastings. Monte Carlo sampling methods using Markov chains and their applications.<br />
Biometrika, 57:97–109, 1970.<br />
70. Edwin Hewitt und Kenneth A. Ross. Abstract harmonic analysis. Vol. II: Structure and<br />
analysis for compact groups. Analysis on locally compact Abelian groups. Die Grundlehren<br />
der mathematischen Wissenschaften, Band 152. Springer-Verlag, New York,<br />
1970.<br />
71. Edwin Hewitt und Leonard J. Savage. Symmetric measures on Cartesian products.<br />
Trans. Math. Soc., 80:470–501, 1955.<br />
72. C.C. Heyde. On a property of the lognormal distribution. J. Royal Stat. Soc. B, 29:392–<br />
393, 1963.<br />
73. Friedrich Hirzebruch und Winfried Scharlau. Einführung in die Funktionalanalysis.<br />
Bibliographisches Institut, Mannheim, 1971. B. I.-Hochschultaschenbücher, No. 296.<br />
74. Frank den Hollander. Large deviations, volume 14 of Fields Institute Monographs.<br />
American Mathematical Society, Providence, RI, 2000.<br />
75. Richard A. Holley und Thomas M. Liggett. Ergodic theorems for weakly interacting<br />
infinite systems and the voter model. Ann. Probability, 3(4):643–663, 1975.<br />
76. Barry D. Hughes. Random walks and random environments. Vol. 1. Oxford Science<br />
Publications. The Clarendon Press Oxford University Press, New York, 1995. Random<br />
walks.<br />
77. Barry D. Hughes. Random walks and random environments. Vol. 2. Oxford Science<br />
Publications. The Clarendon Press Oxford University Press, New York, 1996. Random<br />
environments.<br />
78. Nobuyuki Ikeda und Shinzo Watanabe. Stochastic differential equations and diffusion<br />
processes, volume 24 of North-Holland Mathematical Library. North-Holland Publishing<br />
Co., Amsterdam, 2. Auflage, 1989.<br />
79. Albrecht Irle. Finanzmathematik. Teubner Studienbücher Mathematik. B. G. Teubner,<br />
Stuttgart, 1998.
Literatur 579<br />
80. Jürgen Jost. Partielle Differentialgleichungen. Springer, Berlin, 1998.<br />
81. G. S. Joyce. Singular behaviour of the lattice Green function for the d-dimensional<br />
hypercubic lattice. J. Phys. A, 36(4):911–921, 2003.<br />
82. Shizuo Kakutani. Examples of ergodic measure preserving transformations which are<br />
weakly mising but not strongly mixing. In Recent advances in topological dynamics<br />
(Proc. Conf., Yale Univ., New Haven, Conn., 1972; in honor of Gustav Arnold Hedlund),<br />
pages 143–149. Lecture Notes in Math., Vol. 318. Springer, Berlin.<br />
83. Olav Kallenberg. Random measures. Akademie-Verlag, Berlin, 4. Auflage, 1986.<br />
84. Olav Kallenberg. Foundations of Modern Probability. Probability and Its Applications.<br />
Springer Verlag, New York, Berlin, 2. Auflage, 2002.<br />
85. L. V. Kantorovič und G. ˇS. Rubinˇsteĭn. On a space of completely additive functions.<br />
Vestnik Leningrad. Univ., 13(7):52–59, 1958.<br />
86. Ioannis Karatzas und Steven E. Shreve. Brownian motion and stochastic calculus, volume<br />
113 of Graduate Texts in Mathematics. Springer-Verlag, New York, 2. Auflage,<br />
1991.<br />
87. Ioannis Karatzas und Steven E. Shreve. Methods of mathematical finance, volume 39<br />
of Applications of Mathematics (New York). Springer-Verlag, New York, 1998.<br />
88. Gerhard Keller. Equilibrium states in ergodic theory, volume 42 of London Mathematical<br />
Society Student Texts. Cambridge University Press, Cambridge, 1998.<br />
89. Gerhard Keller. <strong>Wahrscheinlichkeitstheorie</strong>. Vorlesungsskript. Universität Erlangen,<br />
2003.<br />
90. John L. Kelley. General topology. Springer-Verlag, New York, 1975. Nachdruck der<br />
Ausgabe von 1955 [Van Nostrand, Toronto, Ont.], Graduate Texts in Mathematics, No.<br />
27.<br />
91. Richard W. Kenyon, James G. Propp und David B. Wilson. Trees and matchings. Electron.<br />
J. Combin., 7:Research Paper 25, 34 pp. (electronic), 2000.<br />
92. Harry Kesten. Sums of stationary sequences cannot grow slower than linearly. Proc.<br />
Amer. Math. Soc., 49:205–211, 1975.<br />
93. Harry Kesten. The critical probability of bond percolation on the square lattice equals<br />
1<br />
. Comm. Math. Phys., 74(1):41–59, 1980.<br />
2<br />
94. Harry Kesten und Bernt P. Stigum. A limit theorem for multidimensional Galton-<br />
Watson processes. Ann. Math. Statist., 37:1211–1223, 1966.<br />
95. Aleksandr Khintchine. Über dyadische Brüche. Mathematische Zeitschrift, 18:109–<br />
116, 1923.<br />
96. J. F. C. Kingman. Poisson processes, volume 3 of Oxford Studies in Probability. The<br />
Clarendon Press Oxford University Press, New York, 1993. Oxford Science Publications.<br />
97. A. N. Kolmogorov. Sulla determinazione empirica di una legge di distibuzione. Giornale<br />
Istituto Italiano degli Attuari, 4:83–91, 1933.<br />
98. Ralf Korn und Elke Korn. Optionsbewertung und Portfolio-Optimierung. Friedr. Vieweg<br />
& Sohn, Braunschweig, 1999.<br />
99. Ulrich Krengel. Ergodic theorems, volume 6 of de Gruyter Studies in Mathematics.<br />
Walter de Gruyter & Co., Berlin, 1985.<br />
100. Ulrich Krengel. Einführung in die <strong>Wahrscheinlichkeitstheorie</strong> und Statistik, volume 59<br />
of Vieweg Studium: Aufbaukurs Mathematik. Friedr. Vieweg & Sohn, Braunschweig,<br />
2003.<br />
101. S. Kullback und R. A. Leibler. On information and sufficiency. Ann. Math. Statistics,<br />
22:79–86, 1951.
580 Literatur<br />
102. Thomas Kurtz, Russell Lyons, Robin Pemantle und Yuval Peres. A conceptual proof<br />
of the Kesten-Stigum theorem for multi-type branching processes. In Classical and<br />
modern branching processes (Minneapolis, MN, 1994), volume 84 of IMA Vol. Math.<br />
Appl., pages 181–185. Springer, New York, 1997.<br />
103. Paul Lévy. Théorie de l’Addition des Variables Aléatoires. Gauthier-Villars, Paris,<br />
1937.<br />
104. Paul Lévy. Processus Stochastiques et Mouvement Brownien. Suivi d’une note de M.<br />
Loève. Gauthier-Villars, Paris, 1948.<br />
105. Jarl Waldemar Lindeberg. Eine neue Herleitung des Exponentialgesetzes in der Wahrscheinlichkeitsrechnung.<br />
Mathematische Zeitschrift, 15:211–225, 1922.<br />
106. Jarl Waldemar Lindeberg. Sur la loi de Gauss. C.R. Acad. Sci. Paris, 174:1400–1402,<br />
1922.<br />
107. Torgny Lindvall. Convergence of critical Galton-Watson branching processes. J. Appl.<br />
Probability, 9:445–450, 1972.<br />
108. Russell Lyons, Robin Pemantle und Yuval Peres. Conceptual proofs of L log L criteria<br />
for mean behavior of branching processes. Ann. Probab., 23(3):1125–1138, 1995.<br />
109. Russell Lyons und Yuval Peres. Probability on Trees. 2005. Vorabversion im Internet<br />
unter http://mypage.iu.edu/ rdlyons/prbtree/prbtree.html.<br />
110. Neal Madras. Lectures on Monte Carlo methods, volume 16 of Fields Institute Monographs.<br />
American Mathematical Society, Providence, RI, 2002.<br />
111. Dimitri E. Menchoff. Sur les séries des fonctions orthogonales (première partie). Fund.<br />
Math., 4:92–105, 1923.<br />
112. N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller und E. Teller. Equation<br />
of state calculations by fast computing machines. Journal of Chemical Physics,<br />
21:1087–1092, 1953.<br />
113. Paul-A. Meyer. Probability and potentials. Blaisdell Publishing Co. Ginn and Co.,<br />
Waltham, Mass.-Toronto, Ont.-London, 1966.<br />
114. Ferenc Móricz und Károly Tandori. An improved Menshov-Rademacher theorem.<br />
Proc. Amer. Math. Soc., 124(3):877–885, 1996.<br />
115. Rajeev Motwani und Prabhakar Raghavan. Randomized algorithms. Cambridge University<br />
Press, Cambridge, 1995.<br />
116. Alfred Müller und Dietrich Stoyan. Comparison methods for stochastic models and<br />
risks. Wiley Series in Probability and Statistics. John Wiley & Sons Ltd., Chichester,<br />
2002.<br />
117. J. R. Norris. Markov chains. Cambridge Series in Statistical and Probabilistic Mathematics.<br />
Cambridge University Press, Cambridge, 1998. Nachdruck der Originalausgabe<br />
von 1997.<br />
118. Raymond E.A.C. Paley, Norbert Wiener und Antoni Zygmund. Note on random functions.<br />
Math. Zeit., 38:647–688, 1933.<br />
119. Ronald F. Peierls. On Ising’s model of ferromagnetism. Proc. Cambridge Phil. Soc.,<br />
36:477–481, 1936.<br />
120. Valentin V. Petrov. Sums of independent random variables. Springer-Verlag, New York,<br />
1975. Ergebnisse der Mathematik und ihrer Grenzgebiete, Band 82.<br />
121. Jim Pitman. Combinatorial stochastic processes. In École d’Été de Probabilités de<br />
Saint-Flour 2002, Erscheint in: Lecture Notes in Math. (Im Internet erhältlich unter<br />
www-stat.berkeley.edu/users/pitman).<br />
122. Jim Pitman. Exchangeable and partially exchangeable random partitions. Probab.<br />
Theory Related Fields, 102(2):145–158, 1995.
Literatur 581<br />
123. Jim Pitman und Marc Yor. Bessel processes and infinitely divisible laws. In Stochastic<br />
integrals (Proc. Sympos., Univ. Durham, Durham, 1980), volume 851 of Lecture Notes<br />
in Math., pages 285–370. Springer, Berlin, 1981.<br />
124. Jim Pitman und Marc Yor. The two-parameter Poisson-Dirichlet distribution derived<br />
from a stable subordinator. Ann. Probab., 25(2):855–900, 1997.<br />
125. Jim Pitman und Marc Yor. On the distribution of ranked heights of excursions of a<br />
Brownian bridge. Ann. Probab., 29(1):361–384, 2001.<br />
126. George Pólya. Über eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Irrfahrt<br />
im Straßennetz. Math. Ann., 84:139–160, 1921.<br />
127. George Pólya. Sur quelques points de la théorie de probabilités. Ann. Inst. H. Poincaré,<br />
1:117–161, 1931.<br />
128. Yu. V. Prohorov. Convergence of random processes and limit theorems in probability<br />
theory. Teor. Veroyatnost. i Primenen., 1:177–238, 1956. Russisch mit englischer<br />
Zusammenfassung.<br />
129. James Propp und David Wilson. Coupling from the past: a user’s guide. In Microsurveys<br />
in discrete probability (Princeton, NJ, 1997), volume 41 of DIMACS Ser. Discrete Math.<br />
Theoret. Comput. Sci., pages 181–192. Amer. Math. Soc., Providence, RI, 1998.<br />
130. James Gary Propp und David Bruce Wilson. Exact sampling with coupled Markov<br />
chains and applications to statistical mechanics. In Proceedings of the Seventh International<br />
Conference on Random Structures and Algorithms (Atlanta, GA, 1995), volume<br />
9, pages 223–252, 1996.<br />
131. James Gary Propp und David Bruce Wilson. How to get a perfectly random sample<br />
from a generic Markov chain and generate a random spanning tree of a directed graph.<br />
J. Algorithms, 27(2):170–217, 1998. 7th Annual ACM-SIAM Symposium on Discrete<br />
Algorithms (Atlanta, GA, 1996).<br />
132. Philip E. Protter. Stochastic integration and differential equations, volume 21 of Applications<br />
of Mathematics (New York). Springer-Verlag, Berlin, 2. Auflage, 2004. Stochastic<br />
Modelling and Applied Probability.<br />
133. Boto von Querenburg. Mengentheoretische Topologie. Springer-Verlag, Berlin, 1976.<br />
Korrigierter Nachdruck der ersten Auflage, Hochschultext.<br />
134. Hans Rademacher. Einige Sätze über Reihen von allgemeinen Orthogonalfunktionen.<br />
Math. Ann., 87:112–138, 1922.<br />
135. Pál Révész. Random walk in random and non-random environments. World Scientific<br />
Publishing Co. Pte. Ltd., Hackensack, NJ, second Auflage, 2005.<br />
136. D. Revuz. Markov chains, volume 11 of North-Holland Mathematical Library. North-<br />
Holland Publishing Co., Amsterdam, 2. Auflage, 1984.<br />
137. Daniel Revuz und Marc Yor. Continuous martingales and Brownian motion, volume<br />
293 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag, Berlin, 3.<br />
Auflage, 1999.<br />
138. R. Tyrrell Rockafellar. Convex analysis. Princeton Mathematical Series, No. 28. Princeton<br />
University Press, Princeton, N.J., 1970.<br />
139. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales.<br />
Vol. 1: Foundations. Cambridge Mathematical Library. Cambridge University Press,<br />
Cambridge, 2000. Nachdruck der zweiten Auflage von 1994.<br />
140. L. C. G. Rogers und David Williams. Diffusions, Markov processes, and martingales.<br />
Vol. 2: Itô calculus. Cambridge Mathematical Library. Cambridge University Press,<br />
Cambridge, 2000. Nachdruck der zweiten Auflage von 1994.<br />
141. Walter Rudin. Analysis. Oldenbourg Verlag, Müünchen, Wien, 1988.<br />
142. Ivan Nicolaevich Sanov. On the probability of large deviations of random magnitudes.<br />
Mat. Sb. N. S., 42 (84):11–44, 1957. Russisch.
582 Literatur<br />
143. Ivan Nicolaevich Sanov. On the probability of large deviations of random variables. In<br />
Select. Transl. Math. Statist. and Probability, Vol. 1, pages 213–244. Inst. Math. Statist.<br />
and Amer. Math. Soc., Providence, R.I., 1961.<br />
144. Tokuzo Shiga und Akinobu Shimizu. Infinite-dimensional stochastic differential equations<br />
and their applications. J. Math. Kyoto Univ., 20(3):395–416, 1980.<br />
145. Albert N. Shiryaev. Probability, volume 95 of Graduate Texts in Mathematics.<br />
Springer-Verlag, New York, 2. Auflage, 1996. Übersetzung der ersten russischen Ausgabe<br />
von 1980.<br />
146. N.V. Smirnov. Sur les écarts de la courbe de distribution empirique. Matematicheskij<br />
Sbornik, Rossijskaya Akademiya Nauk, Moscow, 2:3–16, 1939. Russisch mit<br />
französicher Zusammenfassung.<br />
147. Frank Spitzer. Principles of random walks. Springer-Verlag, New York, 2. Auflage,<br />
1976. Graduate Texts in Mathematics, Vol. 34.<br />
148. Daniel W. Stroock und S. R. Srinivasa Varadhan. Diffusion processes with boundary<br />
conditions. Comm. Pure Appl. Math., 24, 1971.<br />
149. Daniel W. Stroock und S. R. Srinivasa Varadhan. Multidimensional diffusion processes,<br />
volume 233 of Grundlehren der Mathematischen Wissenschaften. Springer-Verlag,<br />
Berlin, 1979.<br />
150. J. J. Sylvester. Mathematical questions with their solutions. Educational Times, 41:171–<br />
178, 1884.<br />
151. Károly Tandori. Über die orthogonalen Funktionen. I. Acta Sci. Math. Szeged, 18:57–<br />
130, 1957.<br />
152. Károly Tandori. Über die Divergenz der Orthogonalreihen. Publ. Math. Debrecen,<br />
8:291–307, 1961.<br />
153. Károly Tandori. Bemerkung über die paarweise unabhängigen zufälligen Größen. Acta<br />
Math. Hungar., 48(3-4):357–359, 1986.<br />
154. S. R. S. Varadhan. Asymptotic probabilities and differential equations. Comm. Pure<br />
Appl. Math., 19:261–286, 1966.<br />
155. G. N. Watson. Three triple integrals. Quart. J. Math., Oxford Ser., 10:266–276, 1939.<br />
156. Dirk Werner. Funktionalanalysis. Springer-Verlag, Berlin, 2000.<br />
157. David Williams. Probability with martingales. Cambridge Mathematical Textbooks.<br />
Cambridge University Press, Cambridge, 1991.<br />
158. David Bruce Wilson und James Gary Propp. How to get an exact sample from a generic<br />
Markov chain and sample a random spanning tree from a directed graph, both within the<br />
cover time. In Proceedings of the Seventh Annual ACM-SIAM Symposium on Discrete<br />
Algorithms (Atlanta, GA, 1996), pages 448–457, New York, 1996. ACM.<br />
159. Sewall Wright. Evolution in Mendelian populations. Genetics, 16:97–159, 1931.<br />
160. A. M. Yaglom. Certain limit theorems of the theory of branching random processes.<br />
Doklady Akad. Nauk SSSR (N.S.), 56:795–798, 1947.<br />
161. Toshio Yamada und Shinzo Watanabe. On the uniqueness of solutions of stochastic<br />
differential equations. J. Math. Kyoto Univ., 11:155–167, 1971.<br />
162. Kōsaku Yosida. Functional analysis. Classics in Mathematics. Springer-Verlag, Berlin,<br />
1995. Nachdruck der sechsten Auflage von 1980.<br />
163. Ofer Zeitouni. Random walks in random environment. In Lectures on probability<br />
theory and statistics, volume 1837 of Lecture Notes in Math., pages 189–312. Springer,<br />
Berlin, 2004.
Notation<br />
A<br />
Indikatorfunktion der Menge A<br />
2 Ω Potenzmenge, 1<br />
#A Kardinalität der Menge A<br />
A c Komplement Ω \ A der Menge A ⊂ Ω,1<br />
A ∩ B Schnittmenge<br />
A ∪ B Vereinigungsmenge<br />
A ⊎ B disjunkte Vereinigungsmenge (eigentlich ist hierin eine<br />
Aussage enthalten)<br />
A ⊂ B Aist (nicht notwendigerweise echte) Teilmenge von B<br />
A \ B Differenzmenge<br />
A △ B symmetrische Differenz zweier Mengen, 29<br />
A × B kartesisches Produkt von A und B<br />
A Teilmenge von 2 Ω , typischerweise eine σ-Algebra, 1<br />
A � �<br />
B<br />
Spur-Mengensystem auf B,10<br />
A⊗A ′ Produkt der σ-Algebren A und A, 260<br />
B(E) Borel’sche σ-Algebra von E, 8<br />
Berp<br />
βr,s<br />
bn,p<br />
b − r,p<br />
Bernoulliverteilung, 43<br />
Beta-Verteilung mit Parametern r und s, 46<br />
Binomialverteilung, 44, 289<br />
negative Binomialverteilung, 44, 289<br />
C(E),Cb(E),Cc(E) Raum der stetigen (beschränkten) Funktionen, bzw. mit<br />
kompakten Träger, 236<br />
CqV<br />
Funktionen mit stetiger quadratischer Variation, 467<br />
C Menge der komplexen Zahlen, 78<br />
Caua<br />
Cauchy Verteilung, 289
584 Notation<br />
Cov[X, Y ] Kovarianz der Zufallsvariablen X und Y ,98<br />
CPoiν<br />
δx<br />
zusammengesetzte Poisson-Verteilung, 317<br />
Dirac-Verteilung, 12<br />
E[X] Erwartungswert der Zufallsvariablen X,97<br />
E[X; A] =E[X A], 167<br />
E[X |F] bedingter Erwartungswert, 169<br />
exp θ<br />
F =(Ft)t∈I<br />
Exponentialverteilung, 45, 289<br />
Filtration, 185<br />
f.s, f.ü. fast sicher und fast überall, 31<br />
G(x, y) Greeenfunktion einer Markovkette, 351<br />
Γθ,r Gammaverteilung mit Größenparameter θ > 0 und<br />
Formparameter r>0, 46, 289<br />
γp = b − 1,p<br />
geometrische Verteilung mit Parameter p, 44<br />
ggT(M) größter gemeinsamer Teiler aller m ∈ M ⊂ N, 366<br />
H ·X diskretes stochastisches Integral von H bezüglich X, 192<br />
I Menge der invarianten Verteilungen einer Markovkette,<br />
360<br />
i.i.d. independent and identically distributed, 55<br />
Im(z) Imaginärteil von z ∈ C, 281<br />
λ, λ n Lebesgue-Maß, n-dimensionales, 25<br />
Lip(E) Raum der Lipschitz-stetigen Funktionen auf E, 237<br />
L p ,L p Lebesgue’sche Räume p-fach integrierbarer Funktionen,<br />
89, 139, 140<br />
L(X) Verteilung der Zufallsvariablen X<br />
M(E), Mf (E),<br />
M≤1, M1(E) Menge der (endlichen bzw. (Sub-)W-) Maße auf E, 17,<br />
235<br />
Mloc,c<br />
Raum der stetigen lokalen Martingale, 470<br />
μ ⊗ ν Produkt der Maße μ und ν, 27, 264<br />
μ ∗ ν Faltung der Maße μ und ν, 60, 266<br />
μ ⊗n n-faches Produktmaß, 264<br />
μ ∗n n-fache Faltungspotenz, 60<br />
μ ≪ ν μist absolutstetig bezüglich ν, 151
μ ⊥ ν μist singulär bezüglich ν, 151<br />
μ ≈ ν μund ν sind äquivalent, 151<br />
N, N0<br />
N = {1, 2, 3,...}, N0 = N ∪{0}<br />
N μ,σ 2 Normalverteilung, 45, 289<br />
dμ � dν Radon-Nikodym-Ableitung 152<br />
Notation 585<br />
Ω Raum der Elementarereignisse, auf dem P definiert ist<br />
P generisches Wahrscheinlichkeitsmaß<br />
P[A|B], P[A|F] bedingte Wahrscheinlichkeiten, 166, 169<br />
PX = P ◦ X −1 Verteilung der Zufallsvariablen X, 42<br />
Poiλ<br />
Poissonverteilung mit Parameter λ ≥ 0, 45, 289<br />
p n (x, y) =p (n) (x, y) n-Schritt-Übergangswahrscheinlichkeiten einer Markovkette,<br />
340<br />
P n S,T , Pn T<br />
ϕX<br />
ψX<br />
siehe Seite 467<br />
charakteristische Funktion der Zufallsvariablen X, 288<br />
Erzeugendenfunktion der Zufallsvariablen X, 75<br />
Q Menge der rationalen Zahlen<br />
R Menge der reellen Zahlen<br />
R = R ∪{−∞, +∞} Zweipunktkompaktifizierung der reellen Zahlen<br />
Re(z) Realteil von z ∈ C, 281<br />
sign(x) = (0,∞)(x) − (−∞,0)(x), Vorzeichen von x ∈ R, 37<br />
σ( · ) von · erzeugte σ-Algebra oder Filtration, 6, 34, 185<br />
τ k x<br />
Zeit des k-ten Besuches einer Markovkette in x, 349<br />
T ( · ) terminale σ-Algebra, 61<br />
UA<br />
uniforme Verteilung auf A, 12, 33, 289<br />
u.i.v. unabhängig und identisch verteilt, 55<br />
V 1 (G), V 2 (G) Variation und quadratische Variation von G, 466, 467<br />
Var[X] Varianz der Zufallsvariablen X, 97<br />
〈X〉 quadratischer Variationsprozess von X, 200, 467, 471,<br />
475<br />
f(t) ∼ g(t), t→ a : ⇐⇒ limt→a f(t)/g(t) =1<br />
X ∼ μ Die Zufallsvariable X hat Verteilung μ, 42<br />
x ∨ y, x ∧ y, x + ,x − Maximum, Minimum, Positivteil, Negativteil reeller Zahlen,<br />
37
586 Notation<br />
⌊x⌋, ⌈x⌉ Abgerundetes und Aufgerundetes von x,36<br />
z komplex konjugierte Zahl zu z ∈ C, 281<br />
Z Menge der ganzen Zahlen<br />
D<br />
= Gleichheit in Verteilung, 42<br />
D<br />
−→<br />
n→∞<br />
, n→∞<br />
=⇒ Konvergenz der Verteilungen, 243<br />
n→∞<br />
=⇒<br />
fdd<br />
, n→∞<br />
−→<br />
fdd<br />
Konvergenz der endlichdimensionalen Verteilungen, 453
Glossar englischer Ausdrücke<br />
a.a. = almost all fast alle<br />
a.e. = almost everywhere fast überall<br />
a.s. = almost surely fast sicher<br />
array (of random variables) Schema von Zufallsvariablen<br />
backward martingale Rückwärtsmartingal<br />
bond, edge Kante (eines Graphen)<br />
Brownian motion Brown’sche Bewegung<br />
central limit theorem Zentraler Grenzwertsatz<br />
completion Vervollständigung<br />
compound Poisson zusammengesetzt Poisson<br />
conductivity Leitfähigkeit<br />
continuous stetig<br />
convolution Faltung<br />
decompostition Zerlegung<br />
density Dichte<br />
derivative Ableitung<br />
distribution Verteilung<br />
dominated convergence majorisierte Konvergenz<br />
dynamical system Dynamisches System<br />
expectation (conditional) Erwartungswert (bedingter)<br />
ergodic theorem Ergodensatz<br />
event Ereignis<br />
exchangeable austauschbar<br />
extension theorem Fortsetzungssatz, Erweiterungssatz<br />
flow (electric) Fluss (elektrischer)<br />
iff = if and only if dann und nur dann, wenn<br />
i.i.d. = independent and identically unabhängig und identisch verteilt<br />
distributed<br />
increment Zuwachs<br />
indistinguishable ununterscheidbar<br />
integer (number) ganze Zahl<br />
joint distribution gemeinsame Verteilung<br />
large deviation große Abweichung
588 Glossar englischer Ausdrücke<br />
law Verteilung<br />
level set Niveaumenge<br />
Markov chain Markovkette<br />
(strong) Markov property (starke) Markoveigenschaft<br />
map Abbildung<br />
marginal (distribution) Randverteilung<br />
mean Mittelwert<br />
measurable space Messraum<br />
measure Maß<br />
measure preserving maßerhaltend<br />
mixing mischend<br />
modulus (of a number) Absolutbetrag (einer Zahl)<br />
modulus of continuity Stetigkeitsmodul<br />
null array asymptotisch vernachlässigbares Schema<br />
partition function Zustandssumme<br />
p.d.f. = probability distribution function Verteilungsfunktion<br />
p.g.f. = probability generating function Erzeugendenfunktion<br />
phase transition Phasenübergang<br />
predictable, previsible previsibel, vorhersagbar<br />
probability Wahrscheinlichkeit<br />
random walk Irrfahrt<br />
random variable Zufallsvariable<br />
representation Darstellung<br />
semigroup Halbgruppe<br />
σ-field σ-Algebra<br />
size-biased (sampling) größenverzerrtes Ziehen einer Stichprobe<br />
tight straff<br />
trace Spur<br />
transition kernel Übergangskern<br />
uniform distribution Gleichverteilung<br />
uniformly integrable gleichgradig integrierbar<br />
urn model Urnenmodell<br />
(probability) weight (Wahrscheinlichkeits-)gewicht<br />
vertex Punkt/Knoten eines Graphen<br />
w.p. = with probability
Namensregister<br />
Banach, Stefan, 1892 (Krakau) – 1945<br />
(Lemberg, Ukraine), 147<br />
Bayes, Thomas, 1702 (London) – 1761<br />
(Tunbridge Wells, England), 166<br />
Bernoulli, Jakob, 1654 (Basel) – 1705<br />
(Basel), 18<br />
Bienaymé, Irénée-Jules, 1796 (Paris) – 1878<br />
(Paris), 100<br />
Blackwell, David, 1919, 103<br />
Bochner, Salomon, 1899 (Krakau) – 1982<br />
(Houston, Texas), 298<br />
Boltzmann, Ludwig, 1844 (Wien) – 1906<br />
(Duino bei Triest), 378<br />
Borel, Emile, 1871 (Saint-Affrique,<br />
Frankreich) – 1956 (Paris), 8<br />
Brown, Robert, 1773 (Montrose, Scotland)<br />
– 1858 (London), 436<br />
Cantelli, Francesco Paolo, 1875 (Palermo) –<br />
1966 (Rom), 51<br />
Carathéodory, Constantin, 1873 (Berlin) –<br />
1950 (München), 19<br />
Cauchy, Augustin Louis, 1789 (Paris) –<br />
1857 (bei Paris), 101<br />
Cesàro, Ernesto, 1859 (Neapel) – 1906<br />
(Torre Annunziata, Italien), 62<br />
Chebyshev, Pafnutij Lvovich (Qebyxev,<br />
Pafnuti� Lvoviq), 1821 (Okatavo,<br />
Russland) – 1894 (Sankt Petersburg),<br />
104<br />
Cramér, Harald, 1893 (Stockholm) – 1985<br />
(Stockholm), 312<br />
Curie, Pierre, 1859 (Paris) – 1906 (Paris),<br />
508<br />
Dieudonné, Jean Alexandre 1906 (Lille,<br />
Frankreich) – 1992 (Paris), 282<br />
Dirac, Paul Adrien Maurice, 1902 (Bristol)<br />
– 1984 (Tallahassee, Florida), 12<br />
Dirichlet, Lejeune, 1805 (Düren) – 1859<br />
(Göttingen), 391<br />
Doob, Joseph Leo, 1910 (Cincinnati, Ohio)<br />
– 2004 (Urbana, Illinois), 199<br />
Dynkin, Eugene, 1924 (Sankt Petersburg),<br />
4<br />
Egorov, Dmitrij Fedorovich<br />
(Egorov, Dmitri� Fedoroviq),<br />
1869 (Moskau) – 1931 (Kasan), 130<br />
Esseen, Carl-Gustav, 1918 (Linköping,<br />
Schweden) – 2001 (Uppsala ?), 311<br />
Fatou, Pierre, 1878 (Lorient, Frankreich) –<br />
1929 (Pornichet, Frankreich), 91<br />
Feller, William, 1906 (Zagreb) – 1970 (New<br />
York), 306<br />
Fischer, Ernst, 1875 (Wien) – 1954 (Köln),<br />
147<br />
Fourier, Jean Baptiste Joseph, 1768<br />
(Auxerre, Frankreich) – 1830 (Paris).,<br />
286<br />
Fréchet, Maurice René, 1878 (Maligny,<br />
Frankreich) – 1973 (Paris), 147<br />
Fubini, Guido, 1879 (Venedig) – 1943 (New<br />
York), 264<br />
Galton, Francis, 1822 (bei Birmingham) –<br />
1911 (Grayshott House, England), 81<br />
Gauß, Carl-Friedrich, 1777 (Braunschweig)<br />
– 1855 (Göttingen), 45<br />
Gibbs, Josiah Willard, 1839 (New Haven,<br />
Connecticut) – 1903 (New Haven,<br />
Connecticut), 381<br />
Green, George, 1793 (Nottingham) – 1841<br />
(Nottingham), 351
590 Namensregister<br />
Hahn, Hans, 1879 (Wien) – 1934 (Wien),<br />
156<br />
Helly, Eduard, 1884 (Wien) – 1943<br />
(Chicago), 250<br />
Hesse, Ludwig Otto, 1814 (Königsberg) –<br />
1874 München, 144<br />
Hewitt, Edwin, 1920 (Everett, Washington),<br />
228<br />
Hilbert, David, 1862 (Königsberg) – 1943<br />
(Göttingen), 147<br />
Hopf, Eberhard, 1902 (Salzburg) – 1983,<br />
418<br />
Hölder, Otto Ludwig, 1859 (Stuttgart) –<br />
1937 (Leipzig), 146<br />
Ionescu-Tulcea, Cassius, 1923, 273<br />
Ising, Ernst, 1900 (Köln) – 1988 (Peoria,<br />
Illinois), 377<br />
Itô, Kiyosi, 1915 (Hokusei-cho, Japan),<br />
449<br />
Jensen, Johan Ludwig, 1859 (Nakskov,<br />
Dänemark) – 1925 (Kopenhagen), 144<br />
Jordan, Camille, 1838 (bei Lyon) – 1922<br />
(Paris), 158<br />
Kesten, Harry, 1931, 70<br />
Khinchin, Aleksandr Jakovlevich<br />
(Hinqin, Aleksandr �kovleviq)<br />
1894 (Kondrovo, Russland) – 1959<br />
(Moskau), 320<br />
Kirchhoff, Gustav Robert, 1824 (Königsberg)<br />
– 1887 (Berlin), 394<br />
Kolmogorov, Andrej Nikolaevich<br />
(Kolmogorov, Andre� Nikolaeviq),<br />
1903 (Tambow, Russland) –<br />
1987 (Moskau), 63<br />
Laplace, Pierre-Simon, 1749 (Beaumonten-Auge,<br />
Normandie) – 1827 (Paris),<br />
137<br />
Lebesgue, Henri Léon, 1875 (Beauvais,<br />
Oise, Frankreich) – 1941 (Paris), 18<br />
Legendre, Adrien-Marie, 1752 (Paris) –<br />
1833 (Paris), 491<br />
Levi, Beppo, 1875 (Turin, Italien) – 1961<br />
(Rosario, Santa Fe, Argentinien), 91<br />
Lévy, Paul Pierre, 1886 (Paris) – 1971<br />
(Paris), 296, 480<br />
Lindeberg, Jarl Waldemar, 1876 – 1932,<br />
305<br />
Lipschitz, Rudolph, 1832 (Königsberg) –<br />
1903 (Bonn), 237<br />
Lusin, Nikolai Nikolaevich<br />
(Lusin, Nikola� Nikolaeviq),<br />
1883 (Irkutsk, Russland) – 1950<br />
(Moskau), 238<br />
Lyapunov, Aleksandr Mikhajlovich<br />
(L�punov Aleksandr Miha�loviq),<br />
1857 (Jaroslavl, Russland)<br />
– 1918 (Odessa), 305<br />
Markov, Andrej Andreevich (Markov,<br />
Andre� Andreeviq), 1856 (Ryazan,<br />
Russland) – 1922 (Sankt Petersburg),<br />
104<br />
Menshov, Dmitrij Evgen’evich<br />
(Menxov, Dmitri� Evgenъeviq),<br />
1892 (Moskau) – 1988<br />
(Moskau), 117<br />
Minkowski, Hermann, 1864 (Alexotas, heute:<br />
Kaunas, Litauen) – 1909 (Göttingen),<br />
146<br />
Neumann, John von, 1903 (Budapest) –<br />
1957 (Washington D.C.), 152<br />
Nikodym, Otton Marcin, 1889 (Zablotow,<br />
Galizien, Ukraine) – 1974 (Utica, New<br />
York), 152<br />
Ohm, Georg Simon, 1789 (Erlangen) – 1854<br />
(München), 394<br />
Ornstein, Leonard Salomon, 1880<br />
(Nijmegen) – 1941 (Utrecht), 553<br />
Paley, Raymond E.A.C., 1907 (Bournemouth,<br />
England) – 1933 (Banff, Alberta),<br />
439<br />
Parseval, Marc-Antoine,<br />
1755 (Rosières-aux-Salines, Frankreich)<br />
– 1836 (Paris), 447<br />
Pascal, Blaise, 1623 (Clermont-Ferrand,<br />
Frankreich) – 1662 (Paris), 44<br />
Plancherel, Michel, 1885 (Bussy (Fribourg),<br />
Schweiz) – 1967 (Zürich?), 287<br />
Poisson, Siméon Denis, 1781 (Pithiviers,<br />
Frankreich) – 1840 (bei Paris), 45<br />
Pólya, George, 1887 (Budapest) – 1985<br />
(Palo Alto), 297
Prohorov, Yurij Vasil’evich (Prohorov,<br />
�ri� Vasilьeviq), 1929, 248<br />
Rademacher, Hans, 1892 (Hamburg-<br />
Wandsbek) – 1969 (Haverford,<br />
Pennsylvania), 117<br />
Radon, Johann, 1887 (Tetschen, Böhmen) –<br />
1956 (Wien), 152<br />
Riemann, Georg Friedrich Bernhard, 1826<br />
(Breselenz, Kreis Lüchow-Dannenberg)<br />
– 1866 (Selasca, Italien), 50<br />
Riesz, Frigyes, 1880 (Györ, Ungarn) – 1956<br />
(Budapest), 147<br />
Saks, Stanislav (Saks, Stanislav),<br />
1897 (Kalish, Russland (heute Polen))<br />
– 1942 (Warschau, von der Gestapo<br />
ermordet), 220<br />
Savage, Jimmie Leonard, 1917 (Detroit,<br />
Michigan) – 1971 (New Haven,<br />
Connecticut), 228<br />
Schwarz, Hermann Amandus, 1843<br />
(Hermsdorf, Schlesien) – 1921 (Berlin),<br />
101<br />
Slutzky, Evgenij Evgen’evich (Slutzky,<br />
Evgeni� Evgenъeviq), 1880<br />
(Novoe, Gouvernement Jaroslavl,<br />
Russland) – 1948 (Moskau), 243<br />
Stieltjes, Thomas Jan, 1856 (Zwolle,<br />
Overijssel) – 1894 (Toulouse), 26<br />
Stone, Marshall Harvey, 1903 (New York) –<br />
1989 (Madras, Indien), 282<br />
Namensregister 591<br />
Thomson, William (Lord Kelvin), 1824<br />
(Belfast) – 1907 (Largs, Ayrshire,<br />
Schottland), 398<br />
Uhlenbeck, George Eugene, 1900 (Batavia,<br />
heutiges Jakarta) – 1988 (Boulder,<br />
Colorado), 553<br />
Varadhan, S.R. Srinivasa, 1945 (Madras,<br />
Indien), 503<br />
Watson, George Neville, 1886 (Westward<br />
Ho, England) – 1965 (Leamington Spa,<br />
England), 358<br />
Watson, Henry William, 1827 (bei London)<br />
– 1903 (bei Coventry), 81<br />
Weierstraß, Karl, 1815 (Ostenfelde,<br />
Westfalen) – 1897 (Berlin), 282<br />
Weiss, Pierre-Ernest, 1865 (Mulhouse,<br />
Frankreich) – 1940 (Lyon), 506<br />
Wiener, Norbert, 1894 (Columbia, Missouri)<br />
– 1964 (Stockholm), 453<br />
Wintner, Aurel Friedrich, 1903 (Budapest) –<br />
1958 (Baltimore), 486<br />
Wright, Sewall, 1889 (Melrose, Massachusetts)<br />
– 1988 (Madison, Wisconsin),<br />
343<br />
Yaglom, Akiva Moiseevich (�glom,<br />
Akiva Moiseeviq), 1921<br />
(Kharkov), 220<br />
Zygmund, Antoni, 1900 (Warschau) – 1992<br />
(Chicago), 439
Sachregister<br />
0-1 Gesetze<br />
– Blumenthal 438<br />
–für invariante Ereignisse 427<br />
– Hewitt-Savage 228<br />
– Kolmogorov 63<br />
∅-stetig 15<br />
abgeschlossen 8<br />
Abschluss 234<br />
absolutstetig 151<br />
absorbierend 350<br />
adaptiert 185<br />
additiv 11<br />
Algebra 3, 282<br />
Anziehungsbereich einer Verteilung 329<br />
aperiodisch 366<br />
Approximationssatz für Maße 29<br />
äquivalente Maße 151<br />
äquivalentes Martingalmaß 196<br />
Arbitrage 196<br />
Arkussinus-Gesetz 442<br />
asymptotisch vernachlässigbar 305<br />
Aufkreuzung 211<br />
äußeres Maß 21<br />
austauschbar 221<br />
austauschbare σ-Algebra 223<br />
Auswertungsabbildung 451<br />
Azuma’sche Ungleichung 192<br />
Banachraum 147<br />
bedingte<br />
– Erwartung 169<br />
– Unabhängigkeit 229<br />
– Verteilung 176<br />
– Wahrscheinlichkeit 166, 169<br />
Benford’sches Gesetz 422<br />
Bernoulli-Maß 29<br />
Bernoulli-Verteilung 43<br />
Bernstein-Chernov Abschätzung 106<br />
Bernstein-Polynom 106<br />
Berry-Esseen, Satz von 311<br />
beschränkt in L p<br />
132<br />
Bessel-Prozess 562<br />
Beta-Verteilung 46, 232, 303, 519<br />
– Momente 104<br />
Bienaymé-Gleichung 100<br />
Bildmaß 40<br />
binäres Modell 195<br />
Binomialverteilung 44<br />
Black-Scholes Formel 197<br />
Black-Scholes Modell 554<br />
Blackwell-Girshick 103<br />
Blumenthal’sches 0-1 Gesetz 438<br />
Bochner 298<br />
Boltzmann-Verteilung 378, 505<br />
Borel-Cantelli Lemma 51<br />
– bedingte Version 219<br />
Borel-Maß 235<br />
Borel’scher Raum 179<br />
Borel’sche σ-Algebra 8<br />
Borel’sches Paradoxon 182<br />
Box-Muller Methode 60<br />
Brown’sche Bewegung 279, 436<br />
– Existenzsatz 436<br />
– kanonische 453<br />
–Lévy Charakterisierung 541<br />
– Skalierungseigenschaft 437<br />
Brown’sche Brücke 437, 450<br />
Brown’sches Blatt 451<br />
càdlàg 444<br />
Call 196<br />
Carathéodory 19<br />
Cauchy-Schwarz’sche Ungleichung 101<br />
– bedingte 174<br />
Cauchy-Verteilung 46, 289, 547
594 Sachregister<br />
Cesàro-Limes 62<br />
CFW 315<br />
Chapman-Kolmogorov’sche Gleichung<br />
277, 340<br />
charakteristische Funktion 285, 511<br />
– Inversionsformel 286<br />
Chebyshev Polynom 387<br />
Chebyshev’sche Ungleichung 104<br />
China-Restaurant Prozess 524<br />
Cholesky-Faktorisierung 313<br />
Chung-Fuchs, Satz von 357, 424<br />
Claim 196<br />
Continuous Mapping Theorem 245<br />
Cox-Ingersoll-Ross Modell 558<br />
Cox-Ross-Rubinstein’sches Modell 197<br />
Cramér-Lundberg’sche Ungleichung 207<br />
Cramér-Transformierte 492<br />
Cramér-Wold Device 312<br />
Curie-Temperatur 378, 508<br />
Curie-Weiss’sches Gesetz 508<br />
detaillierte Balance 392<br />
Diagonalfolgenargument 250<br />
dicht 234<br />
Dichte 13, 26, 45, 57, 89, 150<br />
Dichtetransformationsformel<br />
– mehrdimensional 41<br />
Differentiationslemma 137<br />
Diffusionsprozess 537<br />
Dirac-Maß 12<br />
Dirichlet-Problem 546<br />
– diskretes 391<br />
Dirichlet’sches Prinzip 398<br />
Dirichlet-Verteilung 519<br />
domain of attraction 329<br />
Donsker, Satz von 456<br />
Doob’sche Regularisierung 444<br />
Doob’sche Ungleichung 210<br />
Doob–Zerlegung 199<br />
Dreireihensatz 310<br />
Drift 537<br />
Dualität 567<br />
Dualraum 160<br />
dynamisches System 416<br />
Dynkin-System 4<br />
einfache Irrfahrt 393<br />
Einheitsmasse 12<br />
Einschluss- Ausschlussformel 15<br />
Einschränkung 10<br />
Eintrittszeit 349<br />
elektrischer Fluss 394<br />
Elementarfunktion 39<br />
empirische Verteilung 231<br />
empirische Verteilungsfunktion 111<br />
Entropie 112, 114, 499<br />
– relative 499<br />
Ereignis 17, 42<br />
– invariantes 71<br />
Ergodensatz<br />
– Individueller (Birkhoff) 419<br />
– Statistischer (von Neumann) 420<br />
ergodisch 416<br />
Erwartungswert 97<br />
Erzeugendenfunktion 75<br />
Erzeuger 6<br />
erzeugte σ-Algebra 6, 34<br />
Etemadi<br />
– Ungleichung von 118<br />
Euler’sche Primzahlformel 50<br />
Explosion 347<br />
Exponentialverteilung 45<br />
Faktorisierungslemma 40<br />
Falle<br />
Faltung<br />
390<br />
– Dichten 266<br />
– diskrete Verteilungen 59<br />
–MaßeaufR n<br />
60, 266<br />
Faltungshalbgruppe 280<br />
Färbungssatz 517<br />
fast alle 31<br />
fast sicher 31<br />
fast überall 31<br />
Fatou, Lemma von 91<br />
Feinheit 467<br />
Feller-Eigenschaft 445<br />
– starke 566<br />
Feller-Prozess 446<br />
Feller’sche Halbgruppe 445<br />
Feller’sche Verzweigungsdiffusion<br />
558, 570<br />
463,<br />
Filtration 185<br />
– rechtsstetige 444<br />
– übliche Bedingungen 444<br />
de Finetti, Satz von 229, 257<br />
Fischer-Riesz, Satz von 147<br />
Fluchtwahrscheinlichkeit 399
Fluss 394<br />
Fortsetzungssatz für Maße 19, 23<br />
Fourier-Inversionsformel 286<br />
freie Energie 506<br />
Frobenius Problem 367<br />
f.s. siehe fast sicher<br />
f.ü. siehe fast überall<br />
Fubini, Satz von 265<br />
–für Itô-Integrale 545<br />
–für Übergangskerne 270<br />
Funktionaler Zentraler Grenzwertsatz 456<br />
Galton-Watson-Prozess 81<br />
– Reskalierung 460<br />
Gambler’s Ruin 205, 385<br />
Gamma-Verteilung 46<br />
–Lévy-Maß 322<br />
– Subordinator 520<br />
Gedächtnislosigkeit der Exponentialverteilung<br />
168<br />
GEM-Verteilung 522, 524<br />
gemeinsame Verteilung 56<br />
gemeinsame Verteilungsfunktion 56<br />
Generator 345<br />
geometrische Brown’sche Bewegung 554<br />
geometrische Verteilung 44<br />
Gesetz der großen Zahl<br />
– Konvergenzraten 115<br />
– schwaches 104<br />
– starkes 104, 108, 227<br />
gestoppter Prozess 204<br />
Gewichtsfunktion 13<br />
Gibbs-Sampler 381<br />
gitterverteilt 294<br />
gleichgradig gleichmäßig stetig 295<br />
gleichgradig integrierbar 130<br />
Gleichverteilung 12, 33<br />
gleitendes Mittel 185, 416<br />
Graph 64<br />
Greenfunktion 351, 391<br />
– Tabelle 359<br />
Gronwall Lemma 555<br />
große Abweichungen 491<br />
größenverzerrte Verteilung 256<br />
Haar-Funktionen 448<br />
Hahn’scher Zerlegungssatz 156<br />
Halbring 3<br />
halbstetig von unten 494<br />
Sachregister 595<br />
haploid 343<br />
harmonische Funktion 360, 390<br />
harmonisches Maß 546<br />
Hartman-Wintner, Satz von 486<br />
Hauptsatz der Differential- und Integralrechnung<br />
239<br />
heat bath algorithm 381<br />
Hedge 196<br />
Helly, Satz von 250<br />
Helmholtz-Potential 506<br />
Hilbertraum 147<br />
Hilbert-Schmidt Norm 554<br />
Hilbert-Schmidt Operator 271<br />
Hölder’sche Ungleichung 146<br />
Hölder-stetig 430<br />
Hopf 418<br />
hypergeometrische Verteilung 45<br />
identisch verteilt 42<br />
i.i.d. siehe u.i.v.<br />
Indikatorfunktion 5<br />
Inhalt 12<br />
Inneres 234<br />
integrierbar 86<br />
Integral 83, 84, 86,87<br />
– Riemann 93<br />
– stochastisches 449, 450<br />
integrierbar 97<br />
– quadrat 97<br />
– stochastischer Prozess 184<br />
Intensitätsmaß 510<br />
invariantes Ereignis 416<br />
Invarianzprinzip von Donsker 457<br />
inverse Temperatur 505<br />
Inversionsformel 286<br />
Irrfahrt 334<br />
– auf einem Graphen 393<br />
– Greenfunktion (Tabelle) 359<br />
–inzufälliger Umgebung 414<br />
– Range 423<br />
– Rekurrenz 353<br />
– Satz von Chung-Fuchs 424<br />
– Satz von Pólya 353<br />
– symmetrische 184<br />
Ising-Modell 377, 382<br />
Iterierter Logarithmus<br />
– Brown’sche Bewegung 477<br />
– Hartman-Wintner 486<br />
ItoFormel
596 Sachregister<br />
–Itô-Formel<br />
– – mehrdimensional 544<br />
Itô-Formel 539<br />
– diskrete 202<br />
– pfadweise 539<br />
Itô-Integral 531<br />
– Produktregel 544<br />
– Satz von Fubini 545<br />
Jensen’sche Ungleichung 144, 172<br />
Jordan, Satz von 158<br />
kanonische Brown’sche Bewegung 453<br />
kanonischer Prozess 261<br />
kanonisches Maß 320, 323, 516<br />
Kantenperkolation 65, 389<br />
Kaufoption 196<br />
Kelvin siehe Thomson<br />
Kesten-Stigum, Satz von 220<br />
Khinchin’sches Gesetz vom iterierten<br />
Logarithmus 486<br />
Kirchhoff’sches Gesetz 394<br />
Kolmogorov-Chentsov, Satz von 432<br />
Kolmogorov’sche Ungleichung 116<br />
Kolmogorov’scher Dreireihensatz 310<br />
Kolmogorov’scher Erweiterungssatz 275<br />
Kolmogorov’sches 0-1 Gesetz 63<br />
Kolmogorov’sches Kriterium für schwache<br />
Relativkompaktheit 455<br />
Kolmogorov-Smirnov Test 459<br />
komplementstabil 1<br />
konkave Funktion 142<br />
Kontraktionsprinzip 502<br />
Konvergenz<br />
– dem Maße nach 126<br />
– fast sichere 126<br />
–fastüberall 126<br />
– im Mittel 127<br />
–imp-ten Mittel 140<br />
– in Verteilung 243<br />
– majorisierte 135<br />
– schnelle 128<br />
– schwache 78, 240<br />
– stochastische 126<br />
– vage 240<br />
– von Verteilungsfunktionen 244<br />
konvexe Funktion 142<br />
konvexe Menge 141<br />
Koordinatenabbildung 260<br />
Kopplung 67, 369<br />
Kopplung aus der Vergangenheit 383<br />
korreliert 98<br />
Kovarianz 98<br />
Kovarianzfunktion 437<br />
Kullback-Leibler Information 499<br />
Ladungsverteilung 156<br />
λ-System siehe Dynkin-System<br />
langsam variierend 329<br />
Laplace-Operator 543<br />
Laplace-Raum 12<br />
Laplace-Transformation 137, 284, 461,<br />
511<br />
Large Deviations siehe Prinzip großer<br />
Abweichungen<br />
LDP siehe Prinzip großer Abweichungen<br />
Lebesgue-Borel-Maß siehe Lebesgue-<br />
Maß<br />
Lebesgue-Integral 89<br />
Lebesgue-Maß 25,32<br />
Lebesgue’scher Konvergenzsatz 135<br />
Lebesgue’scher Zerlegungssatz 152<br />
Lebesgue-Stieltjes Integral 466<br />
Lebesgue-Stieltjes-Maß 26<br />
Legendre-Transformierte 491<br />
Leistung (elektrisches Netzwerk) 397<br />
Leitfähigkeit 393<br />
Lévy-Abstand 246<br />
Lévy-Khinchin Formel 320, 323<br />
–für zufällige Maße 517<br />
Lévy-Maß 320, 323<br />
– allgemeine stabile Verteilung 328<br />
– Cauchy-Verteilung 326<br />
– Gamma-Verteilung 322<br />
– symmetrische stabile Verteilung 327<br />
Lévy’scher Stetigkeitsmodul 480<br />
Lévy’scher Stetigkeitssatz 296<br />
Limes inferior 5<br />
Lindeberg-Bedingung 305<br />
Lipschitz-stetig 237<br />
logarithmische momentenerzeugende<br />
Funktion 491<br />
Log-Normalverteilung 284<br />
lokal beschränkt 193<br />
lokal endlich 235<br />
lokales Martingal 470<br />
lokalisierende Folge 470<br />
lokalkompakt 234
Lokalzeit 201<br />
L p –beschränkt 132<br />
Lusin 238<br />
LV 156<br />
Lyapunov-Bedingung 305<br />
Markoveigenschaft<br />
– elementare 333<br />
– schwache 334<br />
– starke 338<br />
Markovkern 175<br />
Markovkette 334<br />
– aperiodische 366<br />
– diskrete 340<br />
– invariante Verteilung 360<br />
– invariantes Maß 360<br />
– irreduzibel 352<br />
– Konvergenzgeschwindigkeit 383<br />
– Konvergenzsatz 375<br />
– Kopplung 370<br />
– Monte Carlo Methode 376<br />
– nullrekurrent 350<br />
– Periode eines Punktes 366<br />
– positiv rekurrent 350<br />
– rekurrent 350<br />
– reversible 392<br />
– schwach irreduzibel 352<br />
– transient 350<br />
– unabhängiges Verschmelzen 371<br />
Markovprozess 334<br />
Markov’sche Halbgruppe 277<br />
Markov’sche Ungleichung 104<br />
– bedingte 174<br />
Martingal 188<br />
– Konvergenzsatz (L 1 ) 213<br />
– Konvergenzsatz (L p ) 214<br />
– Konvergenzsatz (f.s.) 212<br />
– Konvergenzsatz (rückwärts) 226<br />
– Konvergenzsätze (RCLL) 446<br />
– lokales 470<br />
– quadratische Variation 200<br />
–Rückwärts- 226<br />
Martingaldarstellungssatz 542<br />
Martingalproblem 563<br />
– diskretes 344<br />
– gut gestelltes 564<br />
Martingaltransformierte 192<br />
Maß 12<br />
– äußeres 21<br />
Sachregister 597<br />
– Bernoulli 29<br />
– Borel 235<br />
– Einschränkung 32<br />
– harmonisches 546<br />
– invariantes 360<br />
– Lebesgue 25<br />
– lokal endliches 235<br />
– Produkt- 29, 276<br />
– Radon 235<br />
– reguläres 235<br />
– σ-endliches 12<br />
– signiertes 156<br />
– stationäres 360<br />
– Wahrscheinlichkeits- 12<br />
Maßraum 17<br />
maßtreue Abbildung 416<br />
Maximal-Ergodenlemma 418<br />
MCMC 376<br />
mean field 507<br />
mehrstufiges Binomialmodell 197<br />
Mellin-Transformierte 287<br />
messbar<br />
– Abbildung 33<br />
– Borel 8<br />
– Lebesgue 32<br />
– μ– 22<br />
– Menge 17<br />
Messraum 17<br />
– Isomorphie 179<br />
Metrik<br />
–aufC([0, ∞)) 451<br />
–Lévy 246<br />
– Prohorov 240<br />
– stochastische Konvergenz 127<br />
– vollständige 234<br />
– Wasserstein 370<br />
metrisierbar 234<br />
Metropolis-Algorithmus 377<br />
Minkowski’sche Ungleichung 146<br />
mischend 426<br />
Modifikation 429<br />
Momente 97<br />
– absolute 97<br />
Momentenproblem 301<br />
monoton 11<br />
Monotonieprinzip von Rayleigh 396<br />
Monte Carlo Simulation 111<br />
Moran-Gamma-Subordinator 520
598 Sachregister<br />
Moran-Modell 343<br />
de Morgan’sche Regeln 2<br />
moving average 416<br />
negative Binomialverteilung 44, 77<br />
Niveaumenge 494<br />
Normalverteilung 45<br />
– mehrdimensionale 45, 312<br />
Nullmenge 31<br />
nullrekurrent 350<br />
offen 8<br />
Ohm’sches Gesetz 394<br />
Optional Sampling Theorem 203, 208<br />
– stetige Zeit 435<br />
Optional Stopping Theorem 204<br />
– stetige Zeit 435<br />
Ornstein-Uhlenbeck Prozess 553<br />
orthogonale Polynome 388<br />
orthogonales Komplement 148<br />
Parseval’sche Gleichung 447<br />
partiell stetig 296<br />
Partitionsfunktion 378, 505<br />
Pascal-Verteilung 44<br />
perfekte Simulation 382<br />
Periode 366<br />
Perkolation 64, 389<br />
Petersburger Spiel 92, 185, 193<br />
Pfad 431<br />
pfadweise eindeutig 562<br />
Phasenübergang 378, 508<br />
π-System siehe schnittstabil<br />
Plancherel’sche Gleichung 287<br />
Poisson-Approximation 79<br />
Poisson-Dirichlet-Verteilung 521, 524<br />
Poissonprozess 120, 335<br />
Poisson’sche Summationsformel 443<br />
Poisson’scher Punktprozess 511<br />
Poisson-Verteilung 45<br />
– zusammengesetzte 317<br />
polare Menge 550<br />
Polarisationsformel 468<br />
polnischer Raum 180, 235<br />
Pólya, Satz von 297, 353<br />
Pólya’sches Urnenmodell 232, 276, 519<br />
– verallgemeinertes 347, 349<br />
Portemanteau-Theorem 242<br />
positiv rekurrent 350<br />
positiv semidefinit 298<br />
Präfixcode 113<br />
Prämaß 12<br />
previsibel 185, 530<br />
Prinzip großer Abweichungen 495<br />
Produktmaß 27, 29, 264, 274, 276<br />
produktmessbar 530<br />
Produktraum 260<br />
Produkt-σ-Algebra 260<br />
Produkttopologie 260<br />
progressiv messbar 530<br />
Prohorov 248<br />
Prohorov-Metrik 240, 375<br />
projektive Familie 274<br />
projektiver Limes 275<br />
Propp-Wilson Algorithmus 382<br />
Punkte trennend 282<br />
Punktperkolation 65<br />
Q-Matrix 345<br />
Quader 9<br />
quadratintegrierbar 97<br />
quadratische Variation 468<br />
quadratischer Kovariationsprozess 475<br />
quadratischer Variationsprozess 200, 471<br />
Quellenkodierungssatz 114<br />
Radon-Maß 235<br />
Radon-Nikodym-Ableitung 152<br />
Rand 234<br />
random walk in random environment 414<br />
Ratenfunktion 490, 495<br />
Rayleigh’sches Monotonieprinzip 396<br />
RCLL 444<br />
Rechteckzylinder 262<br />
Reflexionsprinzip 339<br />
– Brown’sche Bewegung 442<br />
reguläre Version der bedingten Verteilung<br />
176<br />
Regularität von Maßen 31, 235<br />
Rejection Sampling 182<br />
rekurrent 350<br />
relativ kompakt 234<br />
replizierbar 196<br />
reversibel 377, 392<br />
Riemann-Integral 93<br />
Riemann’sche Zetafunktion 50<br />
Ring 3<br />
risikoneutral 196
Rückwärtsmartingal 226<br />
Satz<br />
– Approximation von Maßen 29<br />
– Arzelà-Ascoli 454<br />
– Beppo Levi 91<br />
– Berry-Esseen 311<br />
– Bochner 298<br />
– Borel-Cantelli Lemma 51<br />
– – bedingte Version 219<br />
– Carathéodory 19, 23<br />
– Choquet-Deny 374<br />
– Chung-Fuchs 357, 424<br />
– Continuous Mapping Theorem 245<br />
– Cramér 491, 497<br />
– Donsker 457<br />
– Dreireihen 310<br />
– Egorov 130<br />
– Etemadi 108<br />
– Fatou’sches Lemma 91<br />
– de Finetti 229, 257<br />
– Fischer-Riesz 147<br />
– Fortsetzung zu Maßen 19, 23<br />
– Fubini 265<br />
– Fubini für Itô-Integrale 545<br />
– Fubini für Übergangskerne 270<br />
– Glivenko-Cantelli 111<br />
– große Abweichungen 491<br />
– Hahn’scher Zerlegungssatz 156<br />
– Hartman-Wintner 486<br />
– Hauptsatz der Differential- und<br />
Integralrechnung 239<br />
– Helly 250<br />
– Hewitt-Savage 228<br />
– Ionescu-Tulcea 273<br />
– iterierter Logarithmus 478, 486<br />
– Jordan’scher Zerlegungssatz 158<br />
– Kantorovich-Rubinstein 370<br />
– Kesten-Stigum 220<br />
– Kolmogorov-Chentsov 432<br />
– Kolmogorov’sche Ungleichung 116<br />
– Kolmogorov’scher Dreireihensatz 310<br />
– Kolmogorov’scher Erweiterungssatz<br />
275<br />
– Kolmogorov’sches Kriterium für<br />
schwache Relativkompaktheit 455<br />
– Lebesgue’scher Zerlegungssatz 152<br />
–Lévy-Khinchin 320, 323<br />
– Lindeberg-Feller 306<br />
Sachregister 599<br />
– Lusin 238<br />
– majorisierte Konvergenz 135<br />
– Martingalsdarstellung 542<br />
– monotone Konvergenz 91<br />
– Optional Sampling 203, 208<br />
– Optional Sampling, stetige Zeit 435<br />
– Optional Stopping 204<br />
– Optional Stopping, stetige Zeit 435<br />
– Paley-Wiener-Zygmund 439<br />
– π–λ 7<br />
– Poisson-Approximation 79<br />
–Pólya 297, 353<br />
– Portemanteau 242<br />
– Prohorov 248<br />
– Quellenkodierungssatz 114<br />
– Rademacher–Menshov 117<br />
– Radon-Nikodym 152, 217<br />
– Rayleigh’sches Monotonieprinzip 396<br />
– reguläre bedingte Verteilungen 176,<br />
180<br />
– Sanov 500<br />
– Shannon 112<br />
– Skorohod’sche Einbettung 480<br />
– Slutzky 243<br />
– Stetigkeitssatz von Lévy 296<br />
– Stone-Weierstraß 282<br />
– Stroock-Varadhan 566<br />
– Thomson’sches Prinzip 398<br />
– Varadhan’sches Lemma 503<br />
– Yamada-Watanabe 558<br />
Schauderfunktionen 448<br />
Schema von Zufallsvariablen 305<br />
schnittstabil 1<br />
schwache Konvergenz 240<br />
schwache Lösung 560<br />
schwache Topologie 240<br />
SDGL siehe stochastische Differentialgleichung<br />
Semiring 3<br />
separabel 234<br />
Shannon 112<br />
Shift 417<br />
σ-additiv 11<br />
σ-Algebra 2<br />
– austauschbare 223<br />
–derτ-Vergangenheit 187<br />
– invariante 416<br />
– Produkt- 260
600 Sachregister<br />
– terminale 61, 224<br />
σ-kompakt 234<br />
σ-Ring 3<br />
σ-subadditiv 12<br />
signiertes Maß 156<br />
singulär 151<br />
Skalarprodukt 147<br />
Skorohod’scher Einbettungssatz 480<br />
Slutzky, Satz von 243<br />
Spannung 394<br />
Spektrallücke 384<br />
Spiegelungsprinzip 339<br />
Spielstrategie 193<br />
Spin 377<br />
Spur 10<br />
stabile Verteilung 298, 327<br />
– im weiteren Sinne 328<br />
Standardabweichung 97<br />
starke Lösung 552<br />
starke Lösung 552<br />
starke Markoveigenschaft 338<br />
stationär 415<br />
stetig von oben/ unten 15<br />
Stetigkeitslemma 136<br />
Stetigkeitsmodul, Lévy’scher 480<br />
Stetigkeitssatz, Lévy’scher 296<br />
Stirling’sche Formel 301, 491<br />
stochastisch größer 369<br />
Stochastische Differentialgleichung<br />
– pfadweise Eindeutigkeit 562<br />
– schwache Lösung 560<br />
– starke Lösung 552<br />
– starke Lösung unter Lipschitz-<br />
Bedingungen 555<br />
stochastische Differentialgleichung 551<br />
stochastische Kerne<br />
– Produkt 268<br />
stochastische Matrix 341<br />
stochastische Ordnung 369<br />
stochastischer Kern 175<br />
– Halbgruppe 277<br />
– konsistente Familie 276<br />
– Verkettung 269<br />
stochastischer Prozess 183<br />
– adaptiert 185<br />
– Dualität 567<br />
– Explosion 347<br />
– Galton-Watson 81, 219<br />
– Gauß’scher 184, 437<br />
– gestoppter 204<br />
– integrierbarer 184<br />
– Markoveigenschaft 333<br />
– Modifikation 429<br />
– Pfad 431<br />
– Poisson 335<br />
– previsibel 530<br />
– previsibler 185<br />
– produktmessbar 530<br />
– progressiv messbar 530<br />
– starke Markoveigenschaft 338<br />
– stationärer 184<br />
– stationäre Zuwächse 184<br />
– unabhängige Zuwächse 184<br />
– ununterscheidbar 429<br />
– Version 429<br />
– vorhersagbar 530<br />
– vorhersagbarer 185<br />
stochastisches Integral 449, 450<br />
– diskretes 192<br />
Stone-Weierstraß, Satz von 282<br />
Stoppzeit 186<br />
straff 248<br />
Stratonovich-Integral 545<br />
Streuung 97<br />
Stromstärke 394<br />
Student’sche t-Verteilung 316<br />
Sub-Wahrscheinlichkeitsmaße 236<br />
subadditiv 11<br />
subharmonisch 360<br />
Submartingal 188<br />
Subordinator 516<br />
Supermartingal 188<br />
symmetrische Differenz 29<br />
symmetrische einfache Irrfahrt 184<br />
tail σ-field siehe terminale σ-Algebra<br />
terminale σ-Algebra 61, 224<br />
Thomson’sches Prinzip 398<br />
Topologie 8<br />
– schwache 240<br />
– vage 240<br />
topologischer Raum 8<br />
total beschränkt 235<br />
totale Wahrscheinlichkeit 166<br />
totalstetig 154<br />
Totalvariationsnorm 158<br />
Transformationsformel 41
transient 350<br />
translationsinvariant 342<br />
trennende Familie 237<br />
Tschebyscheff siehe Chebyshev<br />
Turmeigenschaft 170<br />
t-Verteilung 316<br />
Übergangskern 175<br />
Übergangsmatrix 340<br />
Übergangswahrscheinlichkeiten 334<br />
übliche Bedingungen 444<br />
u.i.v. 55<br />
unabhängige Inkremente siehe unabhängige<br />
Zuwächse<br />
unabhängige Kopie 369<br />
unabhängige Zuwächse 511<br />
Unabhängigkeit<br />
– bedingte 229<br />
– von Ereignissen 49<br />
– von Mengensystemen 53<br />
– von Zufallsvariablen 55<br />
unbegrenzt teilbar 315<br />
–zufälliges Maß 516<br />
Ungleichung<br />
– Azuma 192<br />
– Bernstein-Chernov 106<br />
– Cauchy-Schwarz 101<br />
– Chebyshev 104<br />
– Doob 210<br />
– Etemadi 118<br />
–Hölder 146<br />
– Jensen 144<br />
– Kolmogorov 116<br />
–Markov siehe Chebyshev<br />
– Minkowski 146<br />
– Young 146<br />
uniforme Verteilung 33<br />
unkorreliert 98<br />
Unstetigkeitsstellen 11<br />
ununterscheidbar 429<br />
vage Konvergenz 240<br />
vage Topologie 240<br />
Varadhan’sches Lemma 503<br />
Varianz 97<br />
Variation 466<br />
– p 468<br />
– quadratische 468<br />
Verkettung von Kernen 269<br />
Sachregister 601<br />
Version 429<br />
Verteilung 42<br />
– Anziehungsbereich 329<br />
– Bernoulli 43<br />
– Beta 46, 232, 303, 519<br />
– binomial 44<br />
– Boltzmann 378<br />
– Cauchy 46, 289, 547<br />
– compound Poisson 317<br />
– Exponential- 45<br />
– Gamma 46, 303<br />
– GEM 522, 524<br />
– geometrische 44<br />
– hypergeometrische 45<br />
– negativ binomial 44, 77<br />
– Normal 45<br />
– Pascal 44, 77<br />
– Poisson 45<br />
– Poisson-Dirichlet 519, 521, 524<br />
– stabile 327<br />
– t- 316<br />
– uniforme 12, 33<br />
– zusammengesetzt Poisson 317<br />
– zweiseitig exponential 289<br />
Verteilungsfunktion 21, 27<br />
– einer Zufallsvariablen 42<br />
– empirische 111<br />
Vervollständigung 32<br />
Verwerfungsmethode 182<br />
Verzweigungsprozess 81, 219<br />
Vitali-Menge 9<br />
vollständig 32, 234<br />
vorhersagbar 185, 530<br />
voter model siehe Wählermodell<br />
Wahrscheinlichkeitsmaß 12<br />
Wahrscheinlichkeitsraum 17<br />
Wahrscheinlichkeitsvektor 13<br />
Wald’sche Identität 99<br />
Wasserstein Metrik 370<br />
Watson Integral 358<br />
Weierstraß’scher Approximationssatz 106<br />
Weiss’scher Ferromagnet 506<br />
Widerstand 393<br />
Wiener-Prozess 453<br />
W-Maß siehe Wahrscheinlichkeitsmaß<br />
Wright’sches Evolutionsmodell 343<br />
Wright-Fisher Diffusion 568<br />
– wechselwirkende 572
602 Sachregister<br />
Wählermodell 216<br />
Young’sche Ungleichung 146<br />
Zentraler Grenzwertsatz 304<br />
– Berry-Esseen 311<br />
– Lindeberg-Feller 306<br />
– mehrdimensional 313<br />
zentriert 97<br />
Zerlegungsfolge, zulässige 467<br />
zufälliges Maß 510<br />
Zufallsvariable 42<br />
zulässige Zerlegungsfolge 467<br />
zusammengesetzte Poissonverteilung 317<br />
Zustandssumme 378, 505<br />
Zweistufenexperiment 259<br />
Zylindermenge 18, 262<br />
Zählmaß 13