10.11.2012 Aufrufe

Manuskript

Manuskript

Manuskript

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Wahrscheinlichkeitstheorie II<br />

von Peter Pfaffelhuber<br />

Version: 8. Februar 2009


Inhaltsverzeichnis<br />

1 Wahrscheinlichkeitstheorie I 1<br />

1.1 Wiederholung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Nachtrag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

2 L p -Räume 7<br />

2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

2.2 L p -Konvergenz (oder Konvergenz im p-ten Mittel) . . . . . . . . . . . . . . . 8<br />

2.3 Der Raum L 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.4 Lebesgue’scher Zerlegungssatz und Satz von Radon-Nikodym . . . . . . . . . 15<br />

3 Die bedingte Erwartung 18<br />

3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3.3 Der Fall F = σ(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3.4 Reguläre Version der bedingten Verteilung . . . . . . . . . . . . . . . . . . . . 24<br />

4 Einführung in stochastische Prozesse 27<br />

4.1 Definition und Existenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

4.2 Beispiel: der Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

4.3 Filtrationen und Stoppzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

5 Martingale 35<br />

5.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

5.2 Stochastisches Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

5.3 Optional Stopping und Optional Sampling . . . . . . . . . . . . . . . . . . . . 39<br />

6 Martingalkonvergenzsätze 44<br />

6.1 Die Doob’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

6.2 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

6.3 Rückwärtsmartingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

7 Ergodentheorie 53<br />

7.1 Begriffe und einfache Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

7.2 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

7.3 Anwendung: Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />

1


INHALTSVERZEICHNIS 2<br />

8 Schwache Konvergenz 59<br />

8.1 Definition und einfache Eigenschaften . . . . . . . . . . . . . . . . . . . . . . 59<br />

8.2 Der Satz von Helly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

8.3 Der Satz von Prohorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />

8.4 Anwendung: Der Satz von deFinetti . . . . . . . . . . . . . . . . . . . . . . . 67<br />

9 Charakteristische Funktion 71<br />

9.1 Einführung: Separierende Funktionenklassen . . . . . . . . . . . . . . . . . . . 71<br />

9.2 Definition und einfache Eigenschaften . . . . . . . . . . . . . . . . . . . . . . 73<br />

9.3 Charakteristische Funktionen und Momente . . . . . . . . . . . . . . . . . . . 75<br />

9.4 Der Zusammenhang mit schwacher Konvergenz . . . . . . . . . . . . . . . . . 77<br />

10 Schwache Grenzwertsätze 80<br />

10.1 Poisson-Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

10.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

10.3 Mehrdimensionale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . 87


Kapitel 1<br />

Wiederholung und Nachtrag<br />

Wahrscheinlichkeitstheorie I<br />

Oft werden wir es mit einem Messraum (Ω, A) und einem Maßraum (Ω, A, µ) zu tun haben.<br />

Hierbei ist Ω eine Menge, A ⊆ P(Ω) eine σ-Algebra und µ ein Maß auf A. Oft wird µ = P<br />

ein Wahrscheinlichkeitsmaß sein.<br />

1.1 Wiederholung<br />

Maßtheorie<br />

Definition 1.1. 1. Ein Mengensystem A ⊆ P(Ω) heißt σ-Algebra, falls<br />

(a) Ω ∈ A<br />

(b) A ∈ A =⇒ A c ∈ A<br />

(c) A1, A2, ... ∈ A =⇒ �<br />

n≥1 An ∈ A.<br />

2. Für ein beliebiges Mengensystem E ist σ(E) := � {A ⊇ E : A ist σ-Algebra} die von E<br />

erzeugte σ-Algebra.<br />

3. Für einen topologischen Raum (Ω, T ) bezeichne B(Ω) := σ(T ) die Borel’sche σ-Algebra<br />

auf Ω. Ist (Ω, r) ein metrischer Raum, so erzeugt die Metrik r eine Topologie T (r) und<br />

wir setzen B(Ω) := σ(T (r)).<br />

4. Eine Abbildung µ : A → [0; ∞) auf dem Mengensystem A heißt Prämaß, falls<br />

(a) µ(∅) = 0<br />

(b) Sind A1, A2, ... ∈ A disjunkte Mengen mit �<br />

n≥1 An ∈ A, so ist<br />

� � �<br />

µ = �<br />

µ(An).<br />

n≥1<br />

An<br />

Die zweite Eigenschaft heißt σ-Additivität. Ist A eine σ-Algebra, so heißt µ Maß.<br />

5. Gibt es Mengen E1, E2, ... ∈ A mit En ↑ Ω und µ(En) < ∞, n = 1, 2, ..., so heißt das<br />

Maß σ-endlich. Gilt µ(Ω) < ∞, so ist das Maß endlich. Ein Maß mit µ(Ω) = 1 heißt<br />

Wahrscheinlichkeitsmaß.<br />

1<br />

n≥1


KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 2<br />

Um Maße zu konstruieren, ist es meist am einfachsten, ein Prämaß auf einem Erzeuger, d.h.<br />

einem Mengensystem R mit σ(R) = A, zu definieren und diesen dann auf A fortzusetzen.<br />

Wie dieses Vorgehen funktioniert, beschreibt der folgende Satz.<br />

Theorem 1.2 (Maßfortsetzungssatz). Jedes Prämaß auf einem Ring R (d.h. ∅ ∈ R, A, B ∈<br />

R =⇒ A \ B ∈ R, A1, ..., An ∈ R =⇒ �n i=1 Ai ∈ R) lässt sich auf eindeutige Weise zu einem<br />

Maß auf σ(R) fortsetzen.<br />

Für die Eindeutigkeit der Fortsetzung ist hierbei folgendes Resultat wichtig.<br />

T:eindDurch Theorem 1.3 (Eindeutigkeit und durchschnittstabile Erzeuger). Seien µ1, µ2 zwei Maße auf<br />

der σ-Algebra A, E durchschnittstabil mit σ(E) = A und µ1(E) = µ2(E) für alle E ∈ E. Sind<br />

entweder µ1, µ2 Wahrscheinlichkeitsmaße, oder es existieren E1, E2, ... ∈ E mit En ↑ Ω und<br />

µi(En) < ∞, i = 1, 2; n = 1, 2, .... Dann ist µ1 = µ2.<br />

Definition 1.4 (Messbare Abbildungen). 1. Für Messräume (Ω, A), (Ω ′ , A ′ ) heißt eine Abbildung<br />

f : Ω → Ω ′ (A − A ′ −)messbar, falls f −1 (A ′ ) ∈ A für alle A ′ ∈ A ′ .<br />

2. Sei f ≥ 0 messbar. Dann heißt f∗µ das Bildmaß von f unter µ und ist definiert durch<br />

f∗µ(A ′ ) := µ(f −1 (A ′ )) = µ{f ∈ A ′ }.<br />

3. Eine messbare Abbildung f : Ω → R heißt einfach, falls sie sich schreiben lässt als<br />

f =<br />

n�<br />

i=1<br />

αi1Ai<br />

mit n ∈ N, α1, ..., αn ∈ R und A1, ..., An ∈ A mit Ai ∩ Aj = ∅ für i �= j. Wir definieren<br />

für einfache Funktionen das Integral<br />

�<br />

µ[f] :=<br />

fdµ :=<br />

n�<br />

αiµ(Ai).<br />

4. Ist µ = P ein Wahrscheinlichkeitsmaß, so schreiben wir E[f] := P[f] = µ[f].<br />

Um das Integral für nicht-einfache, messbare Funktionen zu definieren, ist folgendes Resultat<br />

wichtig.<br />

Theorem 1.5 (Approximation durch einfache Funktionen). Für jede messbare Funktion f<br />

gibt es einfache Funktionen f1, f2, ... mit |fn| ≤ |f| und fn n→∞<br />

−−−→ f punktweise. Ist f ≥ 0, so<br />

kann man die fn’s so wählen dass fn ↑ f.<br />

Definition 1.6 (Lebesgue-Integral). Sei f ≥ 0 messbar. Wir definieren<br />

i=1<br />

µ[f] := sup{µ[g] : g ≤ f, g einfach}.<br />

Für allgemeines f teilt man das Integral mittels µ[f] = µ[f + ] − µ[f − ] auf. Nun heißt f<br />

integrierbar falls µ[f + ], µ[f − ] < ∞.<br />

Das nun definierte Integral hat folgende einfache Eigenschaften:<br />

Proposition 1.7 (Eigenschaften des Integrals). 1. Die Abbildung f ↦→ µ[f] ist linear, monoton<br />

und |µ[f]| ≤ µ[|f|].


KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 3<br />

2. Zwei messbare Funktionen f, g stimmen genau dann bis auf eine µ-Nullmenge überein,<br />

falls µ[f; A] = µ[g; A] für alle A ∈ A. Hierbei ist µ[f; A] = µ[f1A].<br />

Folgende Konvergenzsätze sind wichtige Hilfsmittel für das Integral.<br />

Theorem 1.8 (Satz von der monotonen Konvergenz). Seien f, g, f1, f2, ... messbar mit fn ≥ g<br />

und µ[g] > −∞ sowie fn ↑ f fast sicher. Dann ist µ[fn] n→∞<br />

−−−→ µ[f]. Beide Seiten können ∞<br />

annehmen.<br />

Theorem 1.9 (Lemma von Fatou). Seien g, f1, f2, ... messbar mit fn ≥ g fast überall und<br />

µ[g] > −∞. Dann ist<br />

µ[lim inf<br />

n→∞ fn] ≤ lim inf<br />

n→∞ µ[fn].<br />

Theorem 1.10 (Satz von der majorisierten Konvergenz). Seien g, f, f1, f2, ... messbar mit<br />

|fn| ≤ g und g integrierbar. Falls fn n→∞<br />

−−−→ f fast überall, dann ist µ[|fn − f|] n→∞<br />

−−−→ 0.<br />

Stochastik<br />

Im Folgenden sei (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ω ′ , A ′ ) ein Messraum. Messbare<br />

Abbildungen X : Ω → Ω ′ heißen Zufallsvariable. Wir schreiben E[X] := P[X] für das Integral<br />

von P über X.<br />

Proposition 1.11 (Tschebyscheff-Ungleichung). Sei a, p > 0 und X eine Zufallsvariable, so<br />

dass |X| p integrierbar ist. Dann ist<br />

P{|X| > a} ≤ E[|X|p ]<br />

ap .<br />

Definition 1.12 (Unabhängigkeit).<br />

Ei ⊆ A heißt unabhängig, falls<br />

1. Eine Familie {Ei : i ∈ I} von Mengensystemen<br />

� �<br />

P<br />

�<br />

= �<br />

P(Aj)<br />

j∈J<br />

Aj<br />

für alle endlichen J ⊆ I und Aj ∈ Ej, j ∈ J.<br />

Eine Familie von Zufallsvariablen {Xi : i ∈ I} ist unabhängig, wenn {σ(Xi) : i ∈ I}<br />

unabhängig ist.<br />

Eine Familie von Mengen {Ai : i ∈ I} mit Ai ∈ A ist unabhängig, falls {1Ai : i ∈ I}<br />

unabhängig ist.<br />

j∈J<br />

2. Sei A1, A2, ... ⊆ A eine Folge von σ-Algebren. Dann ist<br />

T (A1, A2, ...) = � � �<br />

σ<br />

n≥1<br />

m≥n<br />

die σ-Algebra der terminalen Ereignisse von A1, A2, ....<br />

Unter Unabhängigkeit ist die σ-Algebra der terminalen Ereignisse besonders einfach.<br />

Theorem 1.13 (Kolmogoroff’sches 0-1 Gesetz). Sei A1, A2, ... ⊆ A eine Folge unabhängiger<br />

σ-Algebren. Dann ist T := T (A1, A2, ...) trivial, d.h. P(A) = 0 oder P(A) = 1 für A ∈ T .<br />

Am<br />


KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 4<br />

Daraus kann man das Borel-Cantelli Lemma folgern, das eine Aussage über folgendes Ereignis<br />

trifft.<br />

Definition 1.14. Für A1, A2, ... ∈ A ist<br />

lim sup An :=<br />

n→∞<br />

� �<br />

n≥1 m≥n<br />

das Ereignis ’unendlich viele der An treten ein’.<br />

Am ∈ T (σ(1A1 ), σ(1A2 ), ...)<br />

Theorem 1.15 (Borel-Cantelli Lemma). Sei A1, A2, ... ∈ A. Dann gilt<br />

�<br />

P(An) < ∞ =⇒ P(lim sup An) = 0.<br />

n→∞<br />

n≥1<br />

Sind A1, A2, ... unabhängig, so gilt auch<br />

�<br />

P(An) = ∞ =⇒ P(lim sup An) = 1.<br />

n→∞<br />

n≥1<br />

Das Borel-Cantelli Lemma ist zentral im Beweis des starken Gesetzes der großen Zahlen.<br />

Theorem 1.16 (Starkes Gesetz der großen Zahlen). Sei X1, X2, ... unabhängige und identisch<br />

verteilte Zufallsvariablen mit E[|X1|] < ∞ und Sn := X1 + ...Xn. Dann ist<br />

Sn<br />

n<br />

n→∞<br />

−−−→ E[X1] fast sicher.<br />

Folgender Satz verallgemeinert den Satz von deMoivre-Laplace. Er wird später in dieser Vorlesung<br />

auf den Fall von nicht identisch verteilten Zufallsvariablen weiter verallgmeinert.<br />

Theorem 1.17 (Zentraler Grenzwertsatz für unabhängige, identisch verteilte Zufallsgrößen).<br />

Seien X1, X2, ... reelle, unabhängige, identisch verteilte Zufallsgrößen mit E[X1] = µ, V[X1] =<br />

σ2 < ∞ und Sn := X1 + ... + Xn. Dann gilt für alle x ∈ R<br />

�<br />

Sn − nµ<br />

�<br />

n→∞<br />

P √ ≤ x −−−→ Φ(x),<br />

nσ2 wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist.<br />

1.2 Nachtrag<br />

Jensen’sche Ungleichung<br />

Wir starten mit einer Aussage über konvexe Funktionen von reellen Zufallsvariablen.<br />

l:konv1 Lemma 1.18. Sei I ein offenes Intervall und ϕ : I → R konvex. Dann gilt<br />

1. ϕ ist stetig auf I<br />

2. Für y ∈ I existiert<br />

und<br />

für alle x ∈ I.<br />

ϕ(x) − ϕ(y)<br />

λ(y) := lim<br />

x↓y x − y<br />

ϕ(y) + λ(y)(x − y) ≤ ϕ(x)


KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 5<br />

Beweis. Siehe Analysis.<br />

Proposition 1.19 (Jensen’sche Ungleichung). Sei I offen und X eine integrierbare Zufallsvariable<br />

mit Werten in I und ϕ : I → R konvex. Dann gilt<br />

E[ϕ(X)] ≥ ϕ(E[X]).<br />

Beweis. Da I ein Intervall ist, ist E[X] ∈ I. Nach Lemma 1.18 ist für x ∈ I<br />

und damit<br />

ϕ(x) ≥ ϕ(E[X]) + λ(E[X])(x − E[X])<br />

E[ϕ(X)] ≥ ϕ(E[X]) + λ(E[X])E[X − E[X]] = ϕ � E[X] � .<br />

Fast sichere und stochastische Konvergenz<br />

Definition 1.20 (Fast sichere und stochastische Konvergenz). Seien X, X1, X2, ... Zufallsvariablen<br />

mit Werten in einem metrischen Raum (E, r).<br />

1. Falls<br />

P{ lim<br />

n→∞ r(Xn, X) = 0} = 1<br />

so konvergiert X1, X2, ... fast sicher gegen X und wir schreiben Xn n→∞<br />

−−−→fs X.<br />

2. Falls für alle ε > 0<br />

lim<br />

n→∞ P{r(Xn, X) > ε} = 0,<br />

so konvergiert X1, X2, ... stochastisch gegen X und wir schreiben Xn n→∞<br />

−−−→p X.<br />

Wir wiederholen zunächst ein Resultat, das fast sichere und Konvergenz in Wahrscheinlichkeit<br />

in Beziehung setzt.<br />

P:wc1 Proposition 1.21 (Konvergenz in Wahrscheinlichkeit und fast sichere Konvergenz). Seien X, X1, X2, ...<br />

Zufallsvariablen mit Werten im metrischen Raum (E, r). Dann sind äquivalent:<br />

1. Xn n→∞<br />

−−−→p X<br />

2. Für jede Folge (nk)k=1,2,... gibt es eine Teilfolge (nkℓ )ℓ=1,2,... mit Xnk ℓ<br />

sicher.<br />

Insbesondere gilt<br />

Beweis. Zu Beginn bemerken wir, dass<br />

Xn n→∞<br />

−−−→fs X =⇒ Xn n→∞<br />

−−−→p X.<br />

ℓ→∞<br />

−−−→ X fast<br />

Xn n→∞<br />

−−−→p X ⇐⇒ E[r(Xn, X) ∧ 1] n→∞<br />

−−−→ 0. (1.1) eq:wc1<br />

Denn: ist Xn n→∞<br />

−−−→p X, so gilt für alle ε > 0<br />

lim<br />

n→∞ E[r(Xn,<br />

�<br />

X) ∧ 1] ≤ lim ε + P{r(Xn, X) > ε}<br />

n→∞<br />

� = ε,


KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 6<br />

womit die rechte Seite gezeigt ist. Gilt hingegen die rechte Seite, folgt mit der Tschebyscheffschen<br />

Ungleichung für 0 < ε ≤ 1, dass<br />

P{r(Xn, X) > ε} ≤ E[r(Xn, X) ∧ 1]<br />

ε<br />

n→∞<br />

−−−→ 0.<br />

1. ⇒ 2.: Wegen (1.1) können wir für jede Folge (nk)k=1,2,... eine Teilfolge (nkℓ )ℓ=1,2,... wählen,<br />

so dass<br />

� �∞<br />

� ∞�<br />

E (r(Xnk , X) ∧ 1) = E[r(Xnk , X) ∧ 1] < ∞.<br />

ℓ ℓ<br />

ℓ=1<br />

Das erste Gleichheitszeichen gilt dabei wegen monotoner Konvergenz. Damit ist<br />

� �∞<br />

�<br />

1 = P (r(Xnk , X) ∧ 1) < ∞<br />

ℓ<br />

ℓ=1<br />

ℓ=1<br />

≤ P � lim sup r(Xnk , X) = 0<br />

ℓ<br />

ℓ→∞<br />

� ≤ 1,<br />

ℓ→∞<br />

d.h. Xnk −−−→fs X.<br />

ℓ<br />

2. ⇒ 1.: Nehmen wir an, dass 1. nicht gilt. Wegen (1.1) gibt es ein ε > 0 und eine Teilfolge<br />

(nk)k=1,2,..., so dass limk→∞ E[r(Xnk , X) ∧ 1] > ε. Angenommen, es gäbe nun eine Teilfolge<br />

ℓ→∞<br />

−−−→ X fast sicher. Dann wäre auch<br />

(nkℓ )ℓ=1,2,..., so dass Xnk ℓ<br />

lim<br />

ℓ→∞ E[r(Xnk , X) ∧ 1] = E<br />

ℓ � lim r(Xnk , X) ∧ 1<br />

ℓ→∞ ℓ � = 0<br />

wegen majorisierter Konvergenz, also ein Widerspruch. Also haben wir eine Folge (nk)k=1,2,...<br />

gefunden, für die es keine weitere Teilfolge (nkℓ )ℓ=1,2,...<br />

ℓ→∞<br />

gibt mit Xnk −−−→fs X, also haben<br />

ℓ<br />

wir gezeigt, dass 2. nicht gilt.


Kapitel 2<br />

L p -Räume<br />

Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. (Viele der in diesem Abschnitt gezeigten Resultate<br />

gelten auch für σ-endlich oder allgemeine Maßräume.)<br />

2.1 Grundlagen<br />

Definition 2.1 (L p -Räume). Für 0 < p < ∞ definieren wir auf dem Raum der Zufallsvariablen<br />

die Abbildungen<br />

X ↦→ ||X||p := (E[|X| p ]) 1/p<br />

sowie<br />

Wir setzen für 0 < p ≤ ∞<br />

X ↦→ ||X||∞ := inf{K : P{|X| > K} = 0}.<br />

L p := L p (Ω, A, P) := {X : ||X||p < ∞}.<br />

Proposition 2.2 (Hölder und Minkowski’s Ungleichung). 1. Sei 0 < p, q, r ≤ ∞ so, dass<br />

. Dann gilt<br />

1<br />

p<br />

+ 1<br />

q<br />

= 1<br />

r<br />

2. Für 0 < p ≤ ∞ ist<br />

||X + Y || p∧1<br />

p<br />

||XY ||r ≤ ||X||p||Y ||q (Hölder-Ungleichung) (2.1) eq:hoelder<br />

≤ ||X|| p∧1<br />

p<br />

+ ||Y || p∧1<br />

p . (Minkowski-Ungleichung) (2.2) eq:mink<br />

Bemerkung 2.3. Die Hölder-Ungleichung im Spezialfall p = q = 2 ist die Cauchy-Schwartz-<br />

Ungleichung.<br />

Beweis von (2.1):. Im Fall p = ∞ oder q = ∞ ist die Aussage klar, sei also p, q < ∞. Ist<br />

entweder ||X||p = 0. ||X||p = ∞, ||Y ||q = 0 oder ||Y ||q = ∞, ist die Aussage ebenso klar. Sei<br />

also ŒX, Y ≥ 0 und 0 < ||X||p, ||Y ||q < ∞ und<br />

�X := X<br />

, �<br />

Y<br />

Y = .<br />

||X|| p ||Y || q<br />

Dann ist zu zeigen, dass || � X � Y ||r ≤ 1. Wegen der Konvexität der Exponentialfunktion ist<br />

(xy) r = exp � r<br />

r<br />

pp log x + q q log y� ≤ r<br />

pxp + r<br />

q yq<br />

7


KAPITEL 2. L P -RÄUME 8<br />

und damit<br />

|| � X � Y || r r = E[( � X � Y ) r ] ≤ r<br />

pE[ � X p ] + r<br />

q E[� Y q ] = 1<br />

und die Behauptung folgt.<br />

Beweis von (2.2): Für p ≤ 1 ist x ↦→ xp konkav, also (x + y) p = ( 2x+2y<br />

2 ) p ≤ 1<br />

2 (2x)p + 1<br />

2 (2x)p ≤<br />

xp + yp für reelle x, y. Daraus folgt (2.2). In den Fällen p = 1 und p = ∞ ist die Behauptung<br />

klar. Im Falle 1 < p < ∞ gilt mit q = p/(p − 1) und r = 1/p + 1/q = 1 mit der Hölder-<br />

Ungleichung<br />

||X + Y || p p ≤ E[|X| · |X + Y | p−1 ] + E[|Y | · |X + Y | p−1 ]<br />

da ||(X + Y ) p−1 ||q = ||(X + Y ) q(p−1) || 1/q<br />

1<br />

durch ||X + Y || p−1<br />

p bringt das Resultat.<br />

≤ ||X||p · ||(X + Y ) p−1 ||q + ||Y ||p · ||(X + Y ) p−1 ||q<br />

= (||X||p + ||Y ||p) · ||X + Y || p−1<br />

p ,<br />

= ||(X + Y )p || (p−1)/p<br />

1<br />

= ||X + Y || p−1<br />

p . Dividieren<br />

P:contLp1 Proposition 2.4 (Zusammenhang zwischen L p und L q ). Sei 1 ≤ r < q ≤ ∞. Dann ist L q ⊆<br />

L r .<br />

Beweis. Die Behauptung ist klar für q = ∞, sei also q < ∞. Wir verwenden die Hölder-<br />

Ungleichung. Es gilt<br />

||X||r = ||1 · X||r ≤ ||1||p · ||X||q = ||X||q (2.3) eq:LpLq<br />

für 1 1 1<br />

p = r − q > 0, woraus die Behauptung sofort folgt.<br />

2.2 L p -Konvergenz (oder Konvergenz im p-ten Mittel)<br />

Definition 2.5 (Konvergenz im p-ten Mittel). Eine Folge X1, X2, ... in L p konvergiert in L p<br />

(oder im p-ten Mittel) gegen X ∈ L p , falls<br />

Wir schreiben dann auch Xn n→∞<br />

−−−→L p X.<br />

||Xn − X||p n→∞<br />

−−−→ 0.<br />

P:contLp2 Proposition 2.6 (Konvergenz im p-ten und q-ten Mittel). Sei 1 ≤ r < q ≤ ∞ und X, X1, X2, ... ∈<br />

Lq . Falls Xn n→∞<br />

n→∞<br />

−−−→L q X, so auch Xn −−−→L r X.<br />

Beweis. Die Behauptung ist klar für q = ∞, sei also q < ∞. Aus (2.3) folgt sofort dass<br />

||X − Y ||r ≤ ||X − Y ||q, woraus die Behauptung bereits folgt.<br />

P:voll Proposition 2.7 (Vollständigkeit von Lp ). Sei p > 0 und X1, X2, ... eine Cauchy-Folge in<br />

Lp . Dann gibt es ein X ∈ Lp mit ||Xn − X||p n→∞<br />

−−−→ 0.<br />

Bemerkung 2.8. Die Räume L p sind reelle Vektorräume. Für p ≥ 1 gilt wegen der Minkowski’schen<br />

Ungleichung die Dreiecksungleichung für ||.||p. Allerdings sind die Abbildungen<br />

||.||p keine Normen, da ||X||p = 0 bereits dann, wenn X = 0 P-fast sicher gilt. Insbesondere<br />

folgt aus ||X||p = 0 nicht, dass X = 0 ist. Wir werden im folgenden Funktionen X und Y<br />

miteinander identifizieren, wenn X = Y P-fast sicher gilt. Mit dieser Konvention ist ||.||p eine<br />

Norm. Wir haben also gerade gezeigt, dass die Räume L p vollständig sind. Also ist L p für<br />

p ≥ 1 ein Banachraum.


KAPITEL 2. L P -RÄUME 9<br />

Beweis. Sei ε1, ε2, ... summierbar, also z.B. εn := 2−n . Da X1, X2, ... eine Cauchy-Folge ist,<br />

gibt es für jedes k einen Index nk mit ||Xm − Xn|| p∧1<br />

p ≤ εk für alle m, n ≥ nk. Insbesondere<br />

gilt<br />

∞�<br />

∞�<br />

≤ εk < ∞.<br />

k=1<br />

||Xnk+1<br />

− Xnk ||p∧1<br />

p<br />

Nach monotoner Konvergenz und der Minkowski’schen Ungleichung gilt damit<br />

��<br />

∞� ��<br />

��<br />

k=1<br />

|Xnk+1<br />

��<br />

��<br />

− Xnk | �<br />

� p∧1<br />

p<br />

≤<br />

∞�<br />

k=1<br />

k=1<br />

||Xnk+1<br />

− Xnk ||p∧1<br />

p<br />

< ∞.<br />

Damit ist insbesondere �∞ |Xnk+1 k=1 − Xnk | < ∞ fast überall,also Xn1 (ω), Xn2 (ω), ... für fast<br />

k→∞<br />

alle ω eine Cauchy-Folge in R. Damit gibt es eine messbare Abbildung X mit Xnk −−−→ X<br />

fast überall. nach Fatou’s Lemma gilt<br />

d.h. Xn n→∞<br />

−−−→L p X.<br />

||Xn − X||p ≤ lim inf<br />

k→∞ ||Xnk − Xn|| ≤ sup ||Xm − Xn||<br />

m≥n<br />

n→∞<br />

−−−→ 0,<br />

rem:lp1 Bemerkung 2.9. 1. Es gibt Folgen X1, X2, ... ∈ Lp , die fast sicher gegen X ∈ Lp konvergieren,<br />

jedoch nicht im p-ten Mittel. Seien hierzu etwa X1, X2, ... unabhängig mit<br />

P{Xn = n2 } = 1 − P{Xn = 0} = 1<br />

n2 . Dann ist Xn n→∞<br />

−−−→ 0, jedoch<br />

||Xn||1 = 1,<br />

d.h. X1, X2, ... konvergiert nicht gegen 0 im p-ten Mittel.<br />

2. Der Satz von der majorisierten Konvergenz besagt, dass eine Folge X1, X2, ..., die fast<br />

sicher gegen X konvergiert und eine integrierbare Majorante besitzt auch in L 1 gegen<br />

X konvergiert. Wir wollen im folgenden die Bedingungen für die L 1 -Konvergenz<br />

abschwächen. Siehe Theorem 2.15 und Korollar 2.17. Die nachfolgende Definition ist<br />

dabei zentral.<br />

Definition 2.10. Eine Menge {Xi : i ∈ I} heißt gleichgradig integrierbar, falls<br />

inf sup E[|Xi|; |Xi| > K] = 0<br />

K<br />

i∈I<br />

ex:equi1 Beispiel 2.11. 1. Betrachten wir das Beispiel aus Bemerkung 2.9.1. Hier ist für n > K<br />

E[|Xn|; |Xn| > K] = E[Xn] = 1.<br />

Insbesondere ist {Xn : n = 1, 2, ...} nicht gleichgradig integrierbar.<br />

2. Jede endliche Menge {X1, ..., Xn} ⊂ L 1 ist gleichgradig integrierbar, denn sup 1≤i≤n |Xi| ∈<br />

L 1 und<br />

inf sup E[|Xi|; |Xi| > K] ≤ inf E[ sup |Xi|; sup |Xi| > K] = 0<br />

K 1≤i≤n<br />

K 1≤i≤n 1≤i≤n<br />

wegen majorisierter Konvergenz.


KAPITEL 2. L P -RÄUME 10<br />

3. Sei Y ∈ L 1 und {Xi : i ∈ I} mit sup i |Xi| < |Y |. Dann ist {Xi : i ∈ I} gleichgradig<br />

integrierbar. Denn<br />

nach majorisierter Konvergenz.<br />

sup E[|Xi|; |Xi| > K] ≤ E[|Y |; |Y | > K]<br />

i∈I<br />

K→∞<br />

−−−−→ 0<br />

4. Sei p > 1. Dann ist {Xi : i ∈ I} ⊆ Lp gleichgradig integrierbar, falls supi ||Xi||p < ∞.<br />

Denn es gilt<br />

E[|Xi|<br />

sup E[|Xi|; |Xi| > K] ≤ sup<br />

i∈I<br />

i∈I<br />

p ]<br />

Kp−1 K→∞<br />

−−−−→ 0.<br />

l:equi1 Lemma 2.12. Eine Menge {Xi : i ∈ I} ist genau dann gleichgradig integrierbar, wenn<br />

sup E[|Xi|] < ∞ und lim<br />

i∈I<br />

ε→0<br />

sup<br />

A:P(A) 0 gegeben und K = Kδ so, dass sup i∈I E[|Xi|; |Xi| > K] ≤ δ. Dann ist<br />

für A ∈ A<br />

E[|Xi|; A] = E[|Xi|; A ∩ {|Xi| > K}] + E[|Xi|; A ∩ {|Xi| ≤ K}] ≤ δ + K · P(A).<br />

Insbesondere ist<br />

und<br />

sup<br />

i∈I<br />

Da δ > 0 beliebig war, muss<br />

E[|Xi|] = sup E[|Xi|; Ω] ≤ δ + K < ∞<br />

i∈I<br />

sup sup E[|Xi|; A] ≤ δ + Kε<br />

A:P(A) K} ≤ sup < ε<br />

i∈I<br />

i∈I K<br />

ist. Damit folgt die gleichgradige Integrierbarkeit aus<br />

lim<br />

K→∞ sup E[|Xi|; |Xi| > K] = lim sup E[|Xi|; |Xi| > Kε]<br />

ε→0<br />

i∈I<br />

≤ lim<br />

i∈I<br />

sup<br />

ε→0 A:P(A)


KAPITEL 2. L P -RÄUME 11<br />

3. Es gibt eine Funktion f : R+ → R+ so, dass f(x)<br />

x<br />

supi∈I E[f(|Xi|)] < ∞.<br />

x→∞<br />

−−−→ ∞ und<br />

Gilt eine der drei Aussagen, so kann die Funktion f in 3. monoton wachsend und konvex<br />

gewählt werden.<br />

Beweis. ’1. ⇒ 2.’: Da (|Xi| − K) + ≤ |Xi|1 {|Xi|≥K}, ist E[(|Xi| − K) + ] ≤ E[|Xi|; |Xi| ≥ K],<br />

also ist die Behauptung klar.<br />

’2. ⇒ 3.’: Es gibt eine Folge K1, K2, ... mit Kn ↑ ∞ und sup i∈I E[(|Xi| − Kn) + ] ≤ 2 −n . Wir<br />

setzen<br />

f(x) :=<br />

∞�<br />

(x − Kn) + .<br />

n=1<br />

Dann ist f monoton wachsend und als Summe konvexer Funktionen wieder konvex. Außerdem<br />

ist für x ≥ 2Kn<br />

f(x)<br />

x ≥<br />

n� �<br />

1 − Kk<br />

�<br />

≥<br />

x<br />

n<br />

2 ,<br />

also f(x)<br />

x<br />

k=1<br />

x→∞<br />

−−−→ ∞. Wegen monotoner Konvergenz gilt außerdem<br />

’3. ⇒ 1.’: siehe Übung.<br />

E[f(|Xi|)] =<br />

∞�<br />

E[(|Xi| − Kn) + ] ≤<br />

n=1<br />

∞�<br />

2 −n = 1.<br />

ex:equi2 Beispiel 2.14. Für X ∈ L 1 ist {Xi : i ∈ I} genau dann gleichgradig integrierbar, wenn<br />

{Xi − X : i ∈ I} gleichgradig integrierbar ist.<br />

Um dies zu sehen, sei {Xi : i ∈ I} gleichgradig integrierbar. Nach Beispiel 2.11.2 ist {X}<br />

gleichgradig integrierbar. Außerdem ist<br />

und es gilt<br />

sup<br />

A:P(A)


KAPITEL 2. L P -RÄUME 12<br />

Bemerkung 2.16. Im Beweis verwenden wir die Minkoski’sche Ungleichung (2.2) und setzen<br />

zur Vereinfachung p ≥ 1 voraus. Der allgemeine Fall folgt ebenso aus der Minkowski’schen<br />

Ungleichung.<br />

Beweis. 1.⇒ 2.: Zunächst ist wegen der Tschbyscheff’schen Ungleichung für jedes ε > 0<br />

P{|Xn − X| > ε} ≤ E[|Xn − X| p ]<br />

ε p<br />

= ||Xn − X|| p p<br />

ε p<br />

n→∞<br />

−−−→ 0,<br />

d.h. die stochastische Konvergenz gilt. Für den Beweis der gleichgradigen Integrierbarkeit<br />

verwenden wir Lemma 2.12. Sei ε > 0 und N = Nε so, dass ||Xn − X||p < ε für n ≥ N. Dann<br />

ist mit der Minkowski-Ungleichung (2.2)<br />

sup<br />

n∈N<br />

(E[|Xn| p ]) 1/p = sup<br />

n∈N<br />

||Xn||p ≤ sup ||Xn||p + sup ||Xn − X||p + ||X||p<br />

n 0 beliebig war, folgt Xn n→∞<br />

−−−→ X in L p .<br />

cor:gleichgr Korollar 2.17. Sei 0 < p < ∞ und X1, X2, ... ∈ L p und X messbar mit Xn n→∞<br />

−−−→p X.<br />

Folgende Aussagen sind äquivalent:<br />

1. Xn n→∞<br />

−−−→L p X,


KAPITEL 2. L P -RÄUME 13<br />

2. ||Xn||p n→∞<br />

−−−→ ||X||p,<br />

3. Die Familie {|Xn| p : n = 1, 2, ...} ist gleichgradig integrierbar.<br />

Beweis. Die Äquivalenz 1. ⇔ 3. ist klar aus Theorem 2.15.<br />

1. ⇒ 2.: folgt aus der Minkowski’schen Ungleichung mit<br />

�<br />

�||Xn|| p∧1<br />

p − ||X|| p∧1<br />

�<br />

�<br />

p ≤ ||Xn − X|| p∧1 n→∞<br />

p −−−→ 0.<br />

2. ⇒ 3.: Für festes K ist<br />

E[|Xn| p ; |Xn| > K] ≤ E[|Xn| p − (|Xn| ∧ (K − Xn) + ) p ] n→∞<br />

−−−→ E[|X| p − (|X| ∧ (K − X) + ) p ].<br />

Die Konvergenz folgt hierbei, da E[|Xn| p ] n→∞<br />

−−−→ E[|X| p ], und (|Xn| ∧ (K − Xn) + ) p n→∞<br />

−−−→ L1 |X| ∧ (K − X) + ) p , da die Konvergenz nach Proposition 1.21 stochastisch gilt und ((|Xn| ∧<br />

(K −Xn) + ) p )n=1,2,... beschränkt, insbesondere gleichgradig integrierbar ist. Da E[|X| p−(|X|∧ (K − X) + ) p ] K→∞<br />

−−−−→ 0 nach majorisierter Konvergenz, ist {|Xn| p : n = 1, 2, ...} gleichgradig<br />

integrierbar.<br />

2.3 Der Raum L 2<br />

In diesem Abschnitt ist (Ω, A, µ) ein Maßraum (und nicht notwendigerweise ein Wahrscheinlichkeitsraum);<br />

insbesondere verwenden wir f, g, ... für reellwertige Funktionen auf Ω. Auch<br />

hier identifizieren wir zwei Funktionen f, g, falls f = g µ-fast überall. Beachte, dass die<br />

Vollständigkeit von L 2 (Proposition 2.7) auch für den allgemeinen Fall gilt.<br />

Definition 2.18. Sei V eine Vektorraum über R. Eine Abbildung 〈., .〉 : V × V → R heißt<br />

Skalarprodukt, falls<br />

1. (Linearität) 〈x, αy + z〉 = α〈x, y〉 + 〈x, z〉 für alle x, y, z ∈ V und α ∈ R<br />

2. (Symmetrie) 〈x, y〉 = 〈y, x〉<br />

3. (Positive Definitheit) 〈x, x〉 > 0 für jedes x ∈ V \ {0}.<br />

Durch das Skalarprodukt wird die Norm ||x|| := 〈x, x〉 1/2 auf V definiert. Ist (V, ||.||) vollständig,<br />

so heißt (V, 〈., .〉) ein Hilbertraum.<br />

Beispiel 2.19. Auf V = L2 definieren wir<br />

�<br />

〈f, g〉 := µ[fg] :=<br />

fgdµ.<br />

Dann ist 〈., .〉 offensichtlich linear, symmetrisch und (falls 0 ∈ L 2 aus allen Funktionen besteht,<br />

die µ-fast überall 0 sind) positiv definit. Da ||f|| := ||f||2 = 〈f, f〉 1/2 , ist nach Proposition 2.7<br />

||.|| vollständig, (L 2 , 〈., .〉) also ein Hilbertraum.<br />

Lemma 2.20. Sei 〈., .〉 ein Skalarprodukt auf einem reellen Vektorraum V und ||.|| die davon<br />

erzeugte Norm. Dann gilt für x, y ∈ V die Parallelogrammidentität<br />

||x + y|| 2 + ||x − y|| 2 = 2||x|| 2 + 2||y|| 2 .


KAPITEL 2. L P -RÄUME 14<br />

Beweis. Aus der Definition von ||.|| und der Symmetrie und Bilinearität von 〈., .〉 folgt<br />

||x + y|| 2 + ||x − y|| 2 = 〈x + y, x + y〉 + 〈x − y, x − y〉 = 2〈x, x〉 + 2〈y, y〉 = 2||x|| 2 + 2||y|| 2 .<br />

P:projection Proposition 2.21 (Zerlegung von f ∈ L 2 ). Sei M ein abgeschlossener, linearer Teilraum von<br />

L 2 . Dann hat jede Funktion f ∈ L 2 eine fast sicher eindeutige Zerlegung f = g + h mit<br />

g ∈ M, h ⊥ M.<br />

Beweis. Für f ∈ L 2 definieren wir<br />

df := inf {||f − g||}.<br />

g∈M<br />

Wähle g1, g2, ... mit ||f − gn|| n→∞<br />

−−−→ df . Nach der Parallelogrammidentität gilt<br />

4d 2 f + ||gm − gn|| 2 ≤ ||2f − gm − gn|| 2 + ||gm − gn|| 2 = 2||f − gm|| 2 2 m,n→∞<br />

+ 2||f − gn|| −−−−−→ 4d 2 f .<br />

Also ist ||gm − gn|| 2 m,n→∞<br />

−−−−−→ 0, d.h. g1, g2, ... ist eine Cauchy-Folge. Nach Proposition 2.7 gibt<br />

es damit ein g ∈ L2 mit ||gn − g||p n→∞<br />

−−−→ 0, und wegen der Abgeschlossenheit von M auch<br />

g ∈ M. Da ||h|| = df für h := f − g, folgt für alle t > 0, l ∈ M, wegen der Definition von df ,<br />

d 2 f ≤ ||h + tl||2 = d 2 f + 2t〈h, l〉 + t2 ||l|| 2 .<br />

Da dies für alle t gilt, folgt 〈h, l〉 = 0, also h ⊥ M.<br />

Zum Beweis der Eindeutigkeit sei g ′ + h ′ eine weitere Zerlegung von f. Dann ist einerseits<br />

aufgrund der Linearität von M g − g ′ ∈ M, andererseits ist fast sicher g − g ′ = h − h ′ ⊥ M,<br />

also g − g ′ ⊥ g − g ′ . Dies bedeutet ||g − g ′ || = 〈g − g ′ , g − g ′ 〉 = 0, also g = g ′ fast überall.<br />

RieszFrechet Proposition 2.22 (Riesz-Frechet). Eine Abbildung F : L 2 → R ist genau dann stetig und<br />

linear wenn es ein h ∈ L 2 gibt, so dass für alle f ∈ L 2<br />

F (f) = 〈f, h〉.<br />

Dann ist h ∈ L 2 fast sicher eindeutig bestimmt.<br />

Beweis. ’⇐’: Die Linearität von f ↦→ 〈f, h〉 folgt aus der Bilinearität von 〈., .〉. Die Stetigkeit<br />

folgt aus der Cauchy-Schwartz Ungleichung mittels<br />

|〈|f − f ′ |, h〉| ≤ ||f − f ′ || · ||h||.<br />

’⇒’: Falls F ≡ 0 wähle h = 0. Falls F �≡ 0, ist M = F −1 {0} ein (wegen der Stetigkeit von<br />

F ) abgeschlossener und (wegen der Linearität von F ) linearer Unterraum von L 2 . Wähle<br />

f ′ ∈ L 2 \ M mit der (nach Proposition 2.21 fast sicher eindeutigen) orthogonalen Zerlegung<br />

f ′ = g ′ + h ′ mit g ′ ∈ M und h ′ ⊥ M. Da f ′ /∈ M, ist h ′ �≡ 0 und F (h ′ ) = F (f ′ ) − F (g ′ ) =<br />

F (f ′ ) �= 0. Wir setzen h ′′ = h′<br />

F (h ′ ) , so dass h′′ ⊥ M und F (h ′′ ) = 1 und es gilt für alle f ∈ L 2<br />

F (f − F (f)h ′′ ) = F (f) − F (f)F (h ′′ ) = 0.<br />

d.h. f − F (f)h ′′ ∈ M, also insbesondere 〈F (f)h ′′ , h ′′ 〉 = 〈f, h ′′ 〉 und<br />

F (f) = 1<br />

||h ′′ || 2 · 〈F (f)h ′′ , h ′′ 〉 = 1<br />

||h ′′ || 2 · 〈f, h ′′ 〉 = 〈f, h ′′<br />

||h ′′ || 2 〉.


KAPITEL 2. L P -RÄUME 15<br />

Nun folgt die Behauptung mit h = h′′<br />

||h ′′ || 2 .<br />

Zur Eindeutigkeit sei 〈f, h1 − h2〉 = 0 für alle f ∈ L 2 ; insbesondere ist mit f = h1 − h2<br />

also h1 = h2 µ-fast sicher.<br />

||h1 − h2|| 2 = 〈h1 − h2, h1 − h2〉 = 0,<br />

Bemerkung 2.23. Propositionen 2.21 und 2.22 gelten ebenso, falls man L 2 durch einen<br />

anderen Hilbert-Raum ersetzt.<br />

2.4 Lebesgue’scher Zerlegungssatz und Satz von Radon-Nikodym<br />

Seien µ, ν Maße auf (Ω, A).<br />

Definition 2.24. 1. Wir sagen, ν besitzt eine Dichte g bzgl. µ, falls für alle A ∈ A<br />

gilt. Wir schreiben dann f = dν<br />

dµ .<br />

ν(A) = µ[f; A].<br />

2. Das Maß ν heißt absolutstetig bzgl. µ, falls alls µ-Nullmengen auch ν-Nullmengen<br />

sind. Wir schreiben dann ν ≪ µ. Ist sowohl ν ≪ µ als auch µ ≪ ν, so heißen µ und ν<br />

äquivalent.<br />

3. Die Maße µ und ν heißen singulär, falls es ein A ∈ A gibt mit µ(A) = 0 und ν(Ω\A) =<br />

0. Wir schreiben dann µ ⊥ ν.<br />

Bemerkung 2.25. Seien µ und ν σ-endlich. Ziel dieses Abschnittes ist es zu zeigen (Theorem<br />

2.27), dass ν (additiv) in zwei Anteile zerlegt werden kann: ein Anteil ist absolutstetig bzgl. µ<br />

und der andere Anteil ist singulär zu µ. Der absolutstetige Anteil hat dabei eine Dichte bzgl.<br />

µ.<br />

Lemma 2.26. Sei µ ein Maße und ν ein σ-endliches Maß. Sind g1 und g2 Dichten von ν<br />

bzgl. µ, so ist g1 = g2 µ-fast überall.<br />

Beweis. Sei E1, E2, ... ∈ A so, dass En ↑ Ω und ν(En) < ∞. Setze An := En ∩ {g1 > g2}. Da<br />

sowohl g1 als auch g2 Dichten von ν bzgl µ sind, folgt<br />

µ[g1 − g2; An] = 0.<br />

Da auf An nur g1 > g2 möglich ist, ist g1 = g2 1Anµ-fast überall. Außerdem ist<br />

� � �<br />

µ{g1 > g2} = µ = 0.<br />

n∈N<br />

Analog folgt µ{g1 < g2} = 0 und damit g1 = g2 µ-fast überall.<br />

T:LZerl Theorem 2.27 (Lebesgue’scher Zerlegungssatz). Seien µ, ν σ-endliche Maße auf (Ω, A). Dann<br />

lässt sich ν eindeutig schreiben als<br />

An<br />

ν = νa + νs mit νa ≪ µ, νs ⊥ µ.<br />

Das Maße νa hat eine Dichte bzgl. µ, die µ-fast überall endlich ist.


KAPITEL 2. L P -RÄUME 16<br />

Beweis. Durch eine Ausschöpfung E1, E2, ... ⊆ Ω mit En ↑ Ω und ν(En), µ(En) < ∞ können<br />

wir uns auf den Fall endlicher Maße zurückziehen.<br />

Mit Proposition 2.6 ist die lineare Abbildung<br />

�<br />

L 2 (Ω, A, µ + ν) → R)<br />

f ↦→ ν[f]<br />

stetig. Nach Proposition 2.22 gibt es also ein h ∈ L 2 (Ω, A, µ + ν) mit<br />

also<br />

für jedes f ∈ L 2 (Ω, A, µ + ν). Wählt man f = 1 {h1} aus (2.5) folgern, dass<br />

0 ≤ µ[h; {h > 1}] = ν[1 − h; {h > 1} ≤ 0,<br />

also h ≤ 1 (µ + ν)-fast sicher. Sei nun f ≥ 0 messbar und f1, f2, ... ∈ L 2 (Ω, A, µ + ν) mit<br />

fn ↑ f. Mit dem Satz von der monotonen Konvergenz folgt<br />

ν[f(1 − h)] = lim<br />

n→∞ ν[fn(1 − h)] = lim<br />

n→∞ µ[fNh] = µ[fh],<br />

d.h. (2.5) gilt für alle messbaren f ≥ 0.<br />

Sei nun E := h −1 {1}. Aus (2.5) folgt mit f = 1E, dass<br />

µ(E) = µ[h; E] = ν[1 − h; E] = 0.<br />

Wir definieren für A ∈ A zwei Maße νa und νs durch<br />

νa(A) = ν(A \ E), νs(A) = ν(A ∩ E),<br />

so dass ν = νa + νs und νs ⊥ µ. Um zu zeigen, dass νa ≪ µ wähle A ∈ A mit µ(A) = 0.<br />

Damit ist nach (2.5)<br />

ν[1 − h; A \ E] = µ[h; A \ E] = 0.<br />

Da h < 1 auf A \ E ist, gilt damit νa(A) = ν(A \ E) = 0, also νa ≪ µ.<br />

Um die Dichte von νa bzgl. µ zu bestimmen, setzen wir g := h<br />

1−h 1 Ω\E und verwenden<br />

(2.5), so dass<br />

�<br />

µ[g; A] = µ<br />

1<br />

1 − h<br />

�<br />

h; A \ E = ν(A \ E) = νa(A).<br />

Also ist g = dνa<br />

dµ .<br />

Um die Eindeutigkeit der Zerlegung zu zeigen, sei ν = νa + νs = �νa + �νs für νa, �νa ≪ µ,<br />

νs, �νs ⊥ µ. Wähle A, � A ∈ A mit νs(A) = µ(A c ) = �νs( � A) = µ( � A c ) = 0. Dann gilt<br />

νs(A ∩ � A) = �νs(A ∩ � A) = νa(A c ∪ � A c ) = �νa(A c ∪ � A c ) = 0


KAPITEL 2. L P -RÄUME 17<br />

und deshalb<br />

νa = 1 A∩ e A · νa = 1 A∩ e A · ν = 1 A∩ e A · �νa = �νa,<br />

νs = ν − νa = ν − �νa = �νs.<br />

T:RaNy Korollar 2.28 (Satz von Radon-Nikodym). Seien µ und ν σ-endliche Maße. Dann hat ν<br />

genau dann eine Dichte bzgl. µ, wenn ν ≪ µ.<br />

Beweis. ’⇒’: klar.<br />

’⇐’: Nach Theorem 2.27 gibt es eine eindeutige Zerlegung ν = νa + νs mit νa ≪ µ, νs ⊥ µ. Da<br />

ν ≪ µ, muss νs = 0 gelten und damit ν = νa. Insbesondere existiert die Dichte von ν bzgl.<br />

µ.<br />

Beispiel 2.29. Im Zerlegungssatz von Lebesgue 2.27 und im Satz von Radon-Nikodym 2.28<br />

darf man die Voraussetzung, dass µ und ν σ-endlich sind nicht weglassen, wie folgendes<br />

Beispiel zeigt:<br />

Sei (Ω, A) ein Messraum mit überabzählbarem Ω und<br />

A := {A : A oder A c abzählbar}.<br />

Seien µ und ν unendliche Maße auf (Ω, A), gegeben durch<br />

�<br />

0, A abzählbar,<br />

ν(A) :=<br />

µ(A) :=<br />

∞, sonst<br />

�<br />

|A|, A endlich,<br />

∞, sonst<br />

Dann ist offenbar ν ≪ µ. Angenommen, es gäbe eine A-messbare Dichte von ν bzgl. µ, so<br />

wäre für alle ω ∈ Ω<br />

0 = ν{ω} = µ[f; {ω}] = f(ω)µ({ω}) = f(ω).<br />

Damit wäre f = 0 und ν = 0 im Widerspruch zur Definition von ν.<br />

.


Kapitel 3<br />

Die bedingte Erwartung<br />

Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Wir schreiben L 1 := L 1 (A) für die Menge aller<br />

reellen Zufallsvariablen, deren Erwartungswert existiert.<br />

3.1 Motivation<br />

Definiere wie in der elementaren Stochastik für A, D ∈ A und P(D) > 0<br />

und analog die bedingte Erwartung<br />

P(A|D) :=<br />

E[X|D] :=<br />

P(A ∩ D)<br />

P(D)<br />

E[X; D]<br />

P(D) .<br />

Dann gilt P(A|D) = E[1A|D]. Dieser Zusammenhang bedeutet, dass man bedingte Erwartungen<br />

dazu verwenden kann, bedingte Wahrscheinlichkeiten zu berechnen. Insbesondere ist der<br />

Begriff der bedingten Erwartung allgemeiner als der Begriff der bedingten Wahrscheinlichkeit.<br />

Sei nun E := {E1, E2, ...} ⊆ A eine Partition von Ω mit P(Ei) > 0 für i = 1, 2, ... und<br />

F := σ(E) die von E erzeugte σ-Algebra. Dann setzen wir für X ∈ L 1<br />

E[X|F](ω) :=<br />

∞�<br />

i=1<br />

Dann gilt etwa für J ⊆ N und A = �<br />

j∈J Ej ∈ F<br />

� �∞<br />

E[E[X|F]; A] = E<br />

E[X|Ei] · 1Ei (ω). (3.1) eq:20<br />

i=1<br />

E[X|Ei]1Ei 1A<br />

= �<br />

E � �<br />

E[X|Ej]1Ej<br />

j∈J<br />

= �<br />

E[X|Ej] · P(Ej)<br />

j∈J<br />

= E[X; A].<br />

18<br />

�<br />

(3.2) eq:21


KAPITEL 3. DIE BEDINGTE ERWARTUNG 19<br />

Insbesondere gilt mit J = N also E � E[X|F] � = E[X]. Die Definition der bedingten Erwartung<br />

(3.1) lässt sich mit Hilfe der Eigenschaft (3.2) auf beliebige σ-Algebren F ⊆ A verallgemeinern.<br />

ex:bedErw Beispiel 3.1. Sei X gleichverteilt auf [0, 1], d.h. die Verteilung von X hat Dichte 1 [0;1]. Gegeben<br />

X = x ist Y binomialverteilt mit n und x, d.h. Y zählt die Anzahl der Erfolge in n<br />

unabhängigen Experimenten mit Erfolgswahrscheinlichkeit x. Intuitiv ist klar, dass das<br />

P({Y = k}|X) =<br />

� �<br />

n<br />

X<br />

k<br />

k (1 − X) n−k<br />

bedeuten sollte. Dies ist allerdings bisher nicht definiert, da P{X = x} = 0 gilt.<br />

3.2 Definition und Eigenschaften<br />

T:be Theorem 3.2 (Existenz und Eigenschaften der bedingten Erwartung). Sei F ⊆ A eine σ-<br />

Algebra. Dann gibt es einen fast sicher eindeutigen, linearen Operator E[.|F] : L 1 → L 1 (F),<br />

so dass für alle X ∈ L 1<br />

1. E � E[X|F]; A � = E[X; A] für alle A ∈ F.<br />

Weiter gilt<br />

2. E[X|F] ≥ 0, falls X ≥ 0.<br />

3. E � |E[X|F]| � ≤ E[|X|].<br />

4. Falls 0 ≤ Xn ↑ X für n → ∞, so ist auch E[Xn|F] ↑ E[X|F] in L 1 , falls alle Erwartungen<br />

existieren.<br />

5. Falls X eine F-messbare Funktion ist, so gilt E[XY |F] = XE[Y |F], falls alle Erwartungen<br />

existieren.<br />

6. E � XE[Y |F] � = E � E[X|F]Y � = E � E[X|F]E[Y |F] � , falls alle Erwartungen existieren.<br />

7. Ist F ⊆ G, so ist E � E[X|G]|F � = E[X|F].<br />

8. Ist X unabhängig von F, so ist E[X|F] = E[X].<br />

Beweis. 1. im Fall X ∈ L 2 : Sei M der abgeschlossene lineare Teilraum von L 2 , der aus allen<br />

Funktionen besteht, die bis auf eine Nullmenge mit einer F-messbaren Funktion übereinstimmen.<br />

Nach Proposition 2.21 gibt es nun fast sicher eindeutige Funktionen Y ∈ M, Z ⊥ M mit<br />

X = Y +Z. Wir definieren E[X|F] := Y . Damit gilt X−E[Y |F] ⊥ M, also E[X−E[X|F]; A] =<br />

0 für A ∈ F, woraus 1. für X ∈ L 2 folgt.<br />

3. im Fall X ∈ L 2 : Wähle A := {E[X|F] ≥ 0}. Nach 1. gilt dann<br />

E[|E[X|F]|] = E[E[X|F]; A] − E[E[X|F]; A c ] = E[X; A] − E[X; A c ] ≤ E[|X|].<br />

1. im Fall X ∈ L 1 : Ist X ∈ L 1 ⊃ L 2 , so wähle X1, X2, ... ∈ L 2 mit ||Xn − X||1 n→∞<br />

−−−→ 0<br />

(etwa so, dass |Xn| := |X| ∧ n), und definiere E[X|F] := limn→∞ E[Xn|F]. Dieser Grenzwert<br />

existiert in L 1 , da wegen 3.<br />

E[|E[Xn|F] − E[Xm|F]|] = E[|E[Xn − Xm|F]|] ≤ E[|Xn − Xm|] n,m→∞<br />

−−−−−→ 0<br />

(3.3) eq:exBedErw1


KAPITEL 3. DIE BEDINGTE ERWARTUNG 20<br />

die Folge (E[Xn|F])n=1,2,... eine Cauchy-Folge ist und L1 vollständig ist. Außerdem gilt damit<br />

||E[Xn|F] − E[X|F]||1 n→∞<br />

−−−→ 0. Weiter ist für A ∈ F<br />

|E[X − E[X|F]; A]| ≤ E[|X1A − Xn1A|]<br />

+ |E[Xn − E[Xn|F]; A]]|<br />

+ E[|E[Xn|F]1A − E[X|F]1A|]<br />

n→∞<br />

−−−→ 0<br />

wegen majorisierter Konvergenz und 1. folgt im Fall X ∈ L1 .<br />

3. im Fall X ∈ L1 . Auch hier sieht man durch ein Approximationsargument, falls X1, X2, ... ∈<br />

L2 mit Xn n→∞<br />

−−−→ L1 X<br />

E[|E[X|F]|] = lim<br />

n→∞ E[|E[Xn|F]|] ≤ lim<br />

n→∞ E[|Xn|] = E[|X|],<br />

da wegen der umgekehrten Dreiecksungleichung etwa<br />

E[||E[Xn|F]| − |E[X|F]||] ≤ E[|E[X|F] − E[Xn|F]|] n→∞<br />

−−−→ 0.<br />

2. Setze A = {E[X|F] ≤ 0} und damit<br />

0 ≥ E[E[X|F]; A] = E[X; A] = 0,<br />

also wegen E[X|F]1A ≤ 0 auch E[X|F]1A = 0 fast sicher.<br />

4. Wegen monotoner Konvergenz ist ||Xn − X||1 n→∞<br />

−−−→ 0, also nach 3.<br />

E[|E[Xn|F] − E[X|F]|] = E[|E[Xn − X|F]|] ≤ E[|Xn − X|] n→∞<br />

−−−→ 0.<br />

6. im Fall X, Y ∈ L 2 . Nach der Definition der bedingten Erwartung ist E[X|F], E[Y |F] ∈ M,<br />

wenn M der lineare Teilraum von L 2 besteht, der Funktionen beinhaltet, die bis auf eine<br />

Nullmenge mit einer F-messbaren Funktion übereinstimmen. Außerdem ist X −E[X|F] ⊥ M.<br />

Damit ist<br />

E[(X − E[X|F])E[Y |F]] = 0.<br />

6. im Fall X, Y ∈ L 1 . Wähle X1, Y1, X2, Y2, ... ∈ L 2 mit Xn ↑ X, Yn ↑ Y . Wegen 4. und<br />

majorisierter Konvergenz gilt dann, falls alle Erwartungen existieren,<br />

E[(X − E[X|F])E[Y |F]] = lim<br />

n→∞ E[(Xn − E[Xn|F])E[Yn|F]] = 0.<br />

5. Wegen 1. ist E[X|F]1A = X1A für A ∈ F fast sicher. Damit ist auch<br />

E[XY ; A] = E[XE[Y |F]; A]<br />

nach 6. Hieraus folgt nach 1. bereits E[XY |F] = XE[Y |F].<br />

7. Da L 1 (F) ⊆ L 1 (G), ist für A ∈ F<br />

E[E[X|G]; A] = E[X; A] = E[E[X|F]; A]<br />

nach 1. Hier aus folgt aber E[[X|G]|F] = E[X|F].<br />

8. Sicherlich ist E[X] F-messbar. Für A ∈ F ist außerdem<br />

E[E[X|F]; A] = E[X; A] = E[X]E[1A] = E � E[X]; A �<br />

und damit E[X|F] = E[X].


KAPITEL 3. DIE BEDINGTE ERWARTUNG 21<br />

Bemerkung 3.3. 1. Sei X ∈ L 2 . Wie der Beweis von 1. in Theorem 3.2 zeigt, ist X −<br />

E[X|F] senkrecht auf dem linearen Teilraum aller F-messbaren Funktionen. Insbesondere<br />

ist E[X|F] diejenige F-messbare Zufallsvariable, die (im Sinne der L 2 -Norm) der<br />

Zufallsvariable X am nächsten kommt. Deswegen kann man sagen, dass E[X|F] die<br />

beste Schätzung von X ist, wenn Informationen aus der σ-Algebra F zur Verfügung<br />

stehen.<br />

2. Die fast sicher eindeutige Existenz der bedingten Erwartung mit der Eigenschaft 1.<br />

in Theorem 3.2 kann man anders als oben mit Hilfe des Satzes von Radon-Nikodym<br />

(Korollar 2.28) beweisen:<br />

Sei zunächst X ≥ 0. Setze � P := P|F, die Einschränkung von P auf F, und µ(.) := � E[X; .]<br />

ein endliches Maß. Dann gilt offenbar µ ≪ � P. Der Satz von Radon-Nikodym stellt sicher,<br />

dass µ eine Dichte bzgl. � P hat, d.h. es eine F-messbare Zufallsvariable Z gibt mit<br />

E[X; A] = � E[X; A] = µ(A) = � E[Z; A] = E[Z; A]<br />

für alle A ∈ F. Damit erfüllt Z die Eigenschaften von 1. aus Theorem 3.2.<br />

Im allgemeinen Fall (d.h. X kann auch negative Werte annehmen) sei E[X + |F] eine<br />

Version der bedingten Erwartung von X + und E[X − |F] eine Version der bedingten<br />

Erwartung von X − . Setze E[X|F] := E[X + |F] − E[X − |F]. Dann ist<br />

E � E[X|F]; A � = E � E[X + |F]; A � − E � E[X − |F]; A � = E[X + ; A] − E[X − ; A] = E[X; A].<br />

Zum Beweis der (fast sicheren) Eindeutigkeit der bedingten Erwartung sei Z ′ eine<br />

weitere, F-messbare Zufallsvariable mit E[Z ′ ; A] = E[X; A]. Dann muss E[Z ′ ; A] =<br />

E � E[X|F]; A � für alle A ∈ F gelten, d.h. Z ′ = E[X|F] fast sicher.<br />

P:jensenBed Proposition 3.4 (Jensen’sche Ungleichung für bedingte Erwartungen). Sei I ein offenes Intervall,<br />

F ⊆ A und X ∈ L 1 mit Werten in I und ϕ : I → R konvex. Dann gilt<br />

E[ϕ(X)|F] ≥ ϕ(E[X|F]).<br />

Beweis. Da I offen ist, liegt E[X|F] ∈ I fast sicher. Beachte die Definition von λ in Lemma<br />

1.18. Weiter ist nach Lemma 1.18 für x ∈ I<br />

und damit<br />

ϕ(x) ≥ ϕ(E[X|F]) + λ(E[X|F])(x − E[X|F])<br />

E[ϕ(X)|F] ≥ E[ϕ(E[X|F])|F] + E[λ(E[X|F]) · (X − E[X|F])|F]<br />

= ϕ � E[X|F] � .<br />

Theorem 3.5 (Majorisierte und monotone Konvergenz für bedingte Erwartungen). Sei F ⊆<br />

A und X1, X2, ... ∈ L 1 . Sei eine der Bedingungen erfüllt:<br />

1. Sei X ∈ L 1 , so dass Xn ↑ X fast sicher.<br />

2. Ist Y ∈ L 1 , so dass |Xn| ≤ |Y | für alle n, und Xn n→∞<br />

−−−→ X fast sicher.


KAPITEL 3. DIE BEDINGTE ERWARTUNG 22<br />

Dann gilt<br />

fast sicher und in L 1 .<br />

E[Xn|F] n→∞<br />

−−−→ E[X|F]<br />

Beweis. Für die L 1 -Konvergenz hat man in beiden Fällen mit Theorem 3.2.3<br />

E �� �E[Xn|F] − E[X|F] � � � = E �� �E[Xn − X|F] � � �<br />

≤ E[|Xn − X|] n→∞<br />

−−−→ 0.<br />

Die fast sichere Konvergenz teilen wir in beide Fälle auf: im Fall 1. ist nach Theorem 3.2.2<br />

klar, dass E[Xn|F] monoton wächst. Außerdem ist für A ∈ A mit dem Satz der monotonen<br />

Konvergenz<br />

E � sup<br />

n<br />

E[Xn|F]; A � = sup<br />

n<br />

E � E[Xn|F]; A � = sup<br />

n<br />

Damit ist aber gezeigt, dass fast sicher sup n E[Xn|F] = E[X|F] gilt.<br />

Im Fall 2. setzen wir<br />

Yn := sup<br />

k≥n<br />

Xk ↓ lim sup Xn = X fast sicher,<br />

n<br />

Zn := inf<br />

k≥n Xk ↑ lim inf<br />

n<br />

Xn = X fast sicher.<br />

E[Xn; A] = E[sup Xn; A] = E[X; A].<br />

n<br />

Damit ist −Y ≤ Zn ≤ Xn ≤ Yn ≤ Y , also insbesondere Y1, Z1, Y2, Z2, ... ∈ L 1 , also ist nach 1.<br />

E[X|F] = lim<br />

n→∞ E[Zn|F] ≤ lim<br />

n→∞ E[Xn|F] ≤ lim<br />

n→∞ E[Yn|F] = E[X|F]<br />

fast sicher. Insbesondere ist also E[Xn|F] n→∞<br />

−−−→ E[X|F] fast sicher.<br />

3.3 Der Fall F = σ(X)<br />

Im Falle F = σ(X) bedeutet E[Y |X] := E[Y |σ(X)] die Erwartung von Y , gegeben, dass die<br />

Zufallsvariable X festgelegt ist. Dies ist eine Funktion von X, wie Korollar 3.7 zeigt.<br />

l:Faktor Lemma 3.6. Sei (Ω ′ , A ′ ) ein Messraum und X ein Zufallsvariable mit Werten in Ω ′ und<br />

Z : Ω → R. Genau dann ist Z σ(X)-messbar, wenn es eine A ′ − B(R)-messbare Abbildung<br />

ϕ : Ω ′ → R gibt mit ϕ ◦ X = Z.<br />

Beweis. ’⇐=’: klar<br />

’=⇒’: Es genügt, den Fall Z ≥ 0 zu betrachten; ansonsten teilt man Z = Z + − Z − auf.<br />

Sei zunächst Z = 1A für A ∈ σ(X). Dann gibt es ein A ′ ∈ A ′ mit X −1 (A ′ ) = A, d.h.<br />

Z = 1X−1 (A ′ ) = 1A ′ ◦ X, d.h. ϕ = 1A ′ erfüllt die Aussage. Durch Linearität ist die Aussage<br />

auch für einfache Funktionen, d.h. endliche Linearkombinationen von Indikatorfunktionen<br />

erfüllt. Im allgemeinen Fall gibt es einfache Funktionen Z1, Z2, ... ≥ 0 mit Zn ↑ Z. Hierzu gibt<br />

es A ′ -messbare Funktionen ϕn mit Zn = ϕn ◦ X. Dann ist ϕ = supn ϕn wieder A ′ -messbar<br />

und, da Z ≥ 0 ist,<br />

ϕ ◦ X = (sup<br />

n<br />

ϕn) ◦ X = sup<br />

n<br />

(ϕn ◦ X) = sup Zn = Z.<br />

n


KAPITEL 3. DIE BEDINGTE ERWARTUNG 23<br />

Abbildung 3.1: Skizze fig:buffon zu Buffon’s Nadelproblem.<br />

cor:fact Korollar 3.7. Sei (Ω ′ , A ′ ) ein Messraum, X eine Zufallsvariable mit Werten in Ω ′ und Y ∈<br />

L 1 . Dann existiert eine A ′ − B(R)-messbare Abbildung ϕ : Ω ′ → R mit E[Y |X] = ϕ(X).<br />

Beweis. Klar nach Lemma 3.6<br />

ex:sum1 Beispiel 3.8. Seien X1, X2, ... eine Folge unabhängiger, identisch verteilter Zufallsvariablen,<br />

µ = E[X1] und Sn := X1 + ... + Xn. Dann ist<br />

E[Sn|X1] = E[X1|X1] + E[X2 + ... + Xn|X1] = X1 + (n − 1)µ,<br />

E[X1|Sn] = 1<br />

n�<br />

n E[Xi|Sn] = 1<br />

nE[Sn|Sn] = 1<br />

nSn. i=1<br />

In der zweiten Rechnung ist also beispielsweise für X = Sn und Y = X1 die Funktion ϕ aus<br />

Korollar 3.7 gegeben durch ϕ(x) = 1<br />

n x.<br />

Beispiel 3.9. Betrachten wir die in Beispiel 3.1 gestellte Frage nach der Existenz der bedingten<br />

Wahrscheinlichkeit P({Y = k}|X), wobei X uniform auf [0; 1] ist und X unabhängig<br />

binomial verteilt mit n und X. Wie gerade gezeigt, ist P({Y = k}|X) eine Funktion von X.<br />

Dies bedeutet, dass wir (3.3) formal begründet haben.<br />

Beispiel 3.10 (Buffon’s Nadelproblem). Auf einer Ebene liegen Geraden im horizontalen<br />

Abstand 1. Es werden Nadeln der Länge 1 auf die Ebende geworfen; siehe Abbildung 3.1.<br />

Betrachten wir eine Nadel. Wir setzen<br />

Z :=<br />

�<br />

1, falls die Nadel eine Gerade schneidet<br />

0, sonst<br />

Dabei ist der Mittelpunkt der Nadel X von der linken Geraden entfernt und die Verlängerung<br />

der Nadel geht einen spitzen Winkel Θ mit der linken Gerade ein. Damit ist X uniform auf<br />

] unabhängig und es gilt<br />

[0; 1], Θ uniform auf [0; π<br />

2<br />

P{Z = 1|Θ} = P{X ≤ 1<br />

1<br />

2 sin(Θ) oder X ≥ 1 − 2 sin(Θ)|Θ} = sin(Θ).<br />

θ<br />

x<br />

.


KAPITEL 3. DIE BEDINGTE ERWARTUNG 24<br />

Damit ist<br />

P{Z = 1} = E[P({Z = 1}|Θ)] = E[sin(Θ)] = 2<br />

π<br />

� π/2<br />

0<br />

(sin(θ)dθ = 2<br />

π .<br />

Dies kann man so interpretieren: will man durch Simulation (d.h. also durch ein Monte-Carlo<br />

Verfahren) die Größe von π herausfinden, kann man Buffon’s Nadeln simulieren. Da jede<br />

hat, eine vertikale Linien zu treffen, ist etwa<br />

einzelne Nadel die Wahrscheinlichkeit 2<br />

π<br />

π ≈<br />

nach dem Gesetz der großen Zahlen.<br />

2<br />

Anteil der Nadeln, die eine Vertikale treffen<br />

3.4 Reguläre Version der bedingten Verteilung<br />

Bemerkung 3.11. 1. Sei A1, A2, ... ∈ A mit Ai ∩ Aj = ∅. Dann ist für B ∈ F<br />

und damit<br />

P-fast überall.<br />

� � � � �<br />

E P Ai|F ; B = E � E[1S Ai |F]; B� = E[1S Ai ; B]<br />

� �∞<br />

�<br />

= E 1Ai ; B =<br />

=<br />

i=1<br />

i=1<br />

∞�<br />

i=1<br />

E[1Ai ; B]<br />

∞�<br />

E � P(Ai|F); B � � �∞<br />

�<br />

= E P(Ai|F); B<br />

� � �<br />

P Ai|F =<br />

∞�<br />

P(Ai|F)<br />

2. Sei (E, E) ein Messraum, F ⊂ A und Y eine A-messbare Zufallsvariable mit Werten<br />

in E. Folgendes wäre wünschenswert: es gibt eine Nullmenge N ∈ A, so dass für alle<br />

ω /∈ N die Abbildung<br />

A ↦→ P({Y ∈ A}|F)(ω)<br />

ein Wahrscheinlichkeitsmaß ist.<br />

Nach 1. ist zwar die σ-Additivität P-fast überall für eine bestimmte Folge disjunkter<br />

Mengen A1, A2, ... gesichert, wir wissen jedoch nicht, ob die Ausnahmemenge N von der<br />

Folge A1, A2, ... abhängt. Falls N universell gewählt werden kann, werden wir sagen, dass<br />

eine reguläre Version der bedingten Verteilung von P gegeben F existiert. Bedingungen<br />

hierfür werden wir in Theorem 3.14 kennenlernen.<br />

def:stoKer Definition 3.12. 1. Seien (Ω, A und (Ω ′ , A ′ ) Messräume. Eine Abbildung κ : Ω × A ′ →<br />

[0; 1] heißt stochastischer Kern oder Markovkern von (Ω, A) nach (Ω ′ , A ′ ), falls<br />

i=1<br />

(a) ω ↦→ κ(ω, A ′ ) ist A-messbar für alle A ′ ∈ A ′<br />

(b) A ′ ↦→ κ(ω, A ′ ) ist ein Wahrscheinlichkeitsmaß auf (Ω ′ , A ′ ) für alle ω ∈ Ω<br />

i=1


KAPITEL 3. DIE BEDINGTE ERWARTUNG 25<br />

2. Sei (E, E) ein Messraum, Y eine messbare Zufallsvariable mit Werten in E und F ⊆<br />

A. Ein stochastischer Kern κY,F von (Ω, F) nach (E, E) heißt reguläre Version der<br />

bedingten Verteilung von Y , gegeben F, falls<br />

für P-fast alle ω und jedes B ∈ E.<br />

κY,F(ω, B) = P({Y ∈ B}|F)(ω)<br />

3. Sei (E, r) ein metrischer Raum. Zur Erinnerung: (E, r) heißt vollständig, wenn jede<br />

Cauchy-Folge konvergiert, und separabel, wenn es eine abzählbare, dichte Teilmenge<br />

gibt.<br />

rem:33 Bemerkung 3.13. 1. In Definition 3.12.1 reicht es, die Eigentschaft (a) nur für einen<br />

durchschnittsstabilen Erzeuger von A ′ zu fordern. Es ist nämlich stets<br />

D := {A ′ ∈ A ′ : ω ↦→ κ(ω, A ′ ) ist A-messbar}<br />

ein Dynkin-System. Damit ist nach einem Satz aus der Wahrscheinlichkeitstheorie I die<br />

durch den durchschnittsstabiler Erzeuger erzeugte σ-Algebra gleich A ′ .<br />

2. Sei F = σ(X) für eine Zufallsvariable X in Definition 3.12.2. Ist dann κ Y,σ(X) eine reguläre<br />

Version der bedingten Erwartung von Y gegeben σ(X), so ist ω ↦→ κ Y,σ(X)(ω, A ′ )<br />

σ(X)-messbar für alle A ′ ∈ A ′ . Damit gibt es nach Korollar 3.7 eine σ(X) − B([0; 1])messbare<br />

Abbildung ϕA ′ : Ω → [0; 1] mit ϕA ′ ◦ X = κ Y,σ(X)(., A ′ ). Wir setzen dann<br />

κY,X(x, A ′ ) := ϕA ′(x)<br />

und sagen κY,X ist die reguläre Version der bedingten Verteilung von Y gegeben X.<br />

T:exRegBed Theorem 3.14 (Existenz der regulären Version der bedingten Verteilung). Sei (E, r) ein<br />

vollständiger und separabler metrischer Raum, ausgestattet mit der Borel’schen σ-Algebra,<br />

F ⊆ A eine σ-Algebra und Y eine A-messbare Zufallsvariable mit Werten in E. Dann existiert<br />

eine reguläre Version der bedingten Verteilung von Y gegeben F.<br />

Bevor wir das Theorem beweisen können, zitieren wir ein Hilfsresultat (Proposition 3.16)<br />

über vollständige, separable metrische Räume.<br />

Definition 3.15. 1. Zwei Messräume (Ω, A) und (Ω ′ , A ′ ) heißen isomorph, falls es eine<br />

bijektive, A − A ′ -messbare Abbildung ϕ : Ω → Ω ′ gibt, so dass ϕ −1 A ′ − A-messbar ist.<br />

2. Ein Messraum (Ω, A) heißt Borel’scher Raum, falls es eine Borel’sche Menge B ∈ B(R)<br />

gibt, so dass (Ω, A) und (B, B(B)) isomorph sind.<br />

P:polBor Proposition 3.16 (Polnische und Borel’sche Räume). Jeder vollständige und separable metrische<br />

Raum (E, r), ausgestattet mit der Borel’schen σ-Algebra, ist ein Borel’scher Raum.<br />

Beweis. Siehe etwa Dudley, Real analysis and probability, Theorem 13.1.1.<br />

Beweis von Theorem 3.14. Wir beweisen das Theorem unter der schwächeren Voraussetzung,<br />

dass E, ausgestattet mit der Borel’schen σ-Algebra, ein Borel’scher Raum ist. Œ können<br />

wir also annehmen, dass E ∈ B(R) ist. Die Strategie unseres Beweises besteht darin, eine


KAPITEL 3. DIE BEDINGTE ERWARTUNG 26<br />

Verteilungsfunktion der bedingten Verteilung zu finden, indem diese erst für rationale Werte<br />

festgelegt wird, bevor sie auf alle reellen Zahlen fortgesetzt wird.<br />

Für r ∈ Q sei Fr eine Version von P({Y ≤ r}|F). Sei A ∈ A so, dass für ω ∈ A die Abbildung<br />

r ↦→ Fr(ω) nicht-fallend ist mit Grenzwerten 1 und 0 bei ±∞. Da A durch abzählbar<br />

viele Bedingungen gegeben ist, die alle fast sicher erfüllt sind, folgt P(A) = 1. Definiere nun<br />

für x ∈ R<br />

Fx(ω) := 1A(ω) · inf<br />

r>x Fr(ω) + 1A c(ω) · 1 {x≥0}.<br />

Damit ist x ↦→ Fx(ω) für alle ω eine Verteilungsfunktion. Definiere<br />

Für r ∈ Q und B = (−∞; r] ist<br />

κ(ω, .) := Maß, das durch x ↦→ Fx(ω) definiert ist.<br />

ω ↦→ κ(ω, B) = 1A(ω) · P({Y ≤ r}|F)(ω) + 1A c(ω) · 1 {r≥0} (3.4) eq:ex12<br />

F-messbar. Da {(−∞; r] : r ∈ Q} ein durchschnittsstabiler Erzeuger von B(R) ist, ist nach<br />

Bemerkung 3.13 die Abbildung ω ↦→ κ(ω, B) für alle B ∈ A messbar. Also ist κ ein stochastischer<br />

Kern.<br />

Es bleibt zu zeigen, dass κ eine reguläre Version der bedingten Verteilung ist. Da (3.4)<br />

auf einem schnittstabilen Erzeuger von E gilt, gilt für ω ∈ A<br />

κ(ω, B) = P({Y ∈ B}|F)(ω).<br />

Mit anderen Worten, κ ist eine reguläre Version der bedingten Erwartung.


Kapitel 4<br />

Einführung in stochastische<br />

Prozesse<br />

Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, (E, r) ein metrischer Raum, E := B(E) und I eine<br />

Indexmenge (meist I ⊆ Z oder I ⊆ R).<br />

4.1 Definition und Existenz<br />

Definition 4.1 (Stochastischer Prozess). 1. Sei X = (Xt)t∈I so, dass Xt : Ω → E A − Emessbar<br />

ist. Dann heißt X ein E-wertiger stochastischer Prozess. Für ω ∈ Ω heißt die<br />

Abbildung I ↦→ E, gegeben durch X(ω) : t ↦→ Xt(ω) ein Pfad von X.<br />

2. Für J ⊆ I definieren wir für H ⊆ J ⊆ I die Projektion πJ H : EJ → EH , gegeben durch<br />

πJ H ((xi)i∈J) = πJ((xi)i∈H). Außerdem setzen wir πJ := πI J und für t ∈ I und J = {t}<br />

definieren wir πt := π {t}.<br />

3. Ist in 1. der Wahrscheinlichkeitsraum Ω = E I und Xt = πt, so heißt X kanonischer<br />

Prozess.<br />

4. Für eine endliche Teilmenge J von I schreiben wir J ⋐ I.<br />

Bemerkung 4.2. 1. In dieser Vorlesung wird meist I ⊆ Z sein. Stochastische Prozesse<br />

in stetiger Zeit werden ausführlich in der Vorlesung Stochastische Prozesse behandelt<br />

werden.<br />

2. Zur Wiederholung: die Produkt-σ-Algebra auf dem Raum E I ist definiert als die kleinste<br />

σ-Algebra, bzgl. der alle Projektionen πt, t ∈ I messbar sind. Insbesondere ist für einen<br />

E-wertigen stochastischen Prozess X = (Xt)t∈I die Abbildung ω ↦→ X(ω) A − E I -<br />

messbar.<br />

P:eindPL Proposition 4.3. Seien PI, � PI Wahrscheinlichkeitsverteilungen auf E I . Dann ist PI = � PI<br />

genau dann, wenn<br />

für alle J ⋐ I.<br />

(πJ)∗PI = (πJ)∗ � PI<br />

27


KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 28<br />

Beweis. ’⇒’: klar.<br />

’⇐’: Wir betrachten den durchschnittstabilen Erzeuger<br />

von E I . Weiter ist für J ⋐ I, A ∈ E |J| ,<br />

C := {π −1<br />

J (A) : A ∈ E|J| ; J ⋐ I} ⊆ E I<br />

PI(π −1<br />

J (A)) = (πJ)∗PI(A) = (πJ)∗ � PI(A) = � PI(π −1<br />

J (A)),<br />

d.h. PI und � PI stimmen auf C überein. Nach Theorem 1.3 ist damit PI = � PI.<br />

Bemerkung 4.4. Oftmals kann man die endlich-dimensionalen Verteilungen eines stochastischen<br />

Prozesses definieren. (Beispielsweise wird man in der Vorlesung zu stochastischen<br />

Prozessen die Brownsche Bewegung B = (Bt)t≥0 so definieren, dass für t ≥ s der Zuwachs<br />

Bt − Bs nach N(0, t − s) verteilt und unabhängig von (Br)r≤s ist.) Um sicher zu stellen, dass<br />

es zu diesen endlich-dimensionalen Verteilungen einen stochastischen Prozess gibt, benötigt<br />

man das Theorem 4.7. Es ist zu beachten, dass endlich dimensionale Verteilungen von stochastischen<br />

Prozessen immer projektiv sind; siehe die nächste Definition.<br />

Definition 4.5 (Projektiver Limes). 1. Eine Familie von Wahrscheinlichkeitsmaßen (PJ :<br />

J ⋐ I) heißt projektive Familie auf E, falls PJ für alle J ⋐ I ein Wahrscheinlichkeitsmaß<br />

auf E J ist und<br />

für alle H ⊆ J ⋐ I.<br />

PH = (π J H)∗PJ<br />

2. Existiert für eine projektive Familie (PJ : J ⋐ I) von Wahrscheinlichkeitsmaßen auf E<br />

ein Wahrscheinlichkeitsmaß PI auf E I mit PJ = (πJ)∗PI für alle J ⋐ I, so heißt PI<br />

projektiver Limes der projektiven Familie. Wir schreiben dann<br />

PI = lim PJ.<br />

Bemerkung 4.6. Zu jeder projektiven Familie {PJ : J ⋐ I} gibt es höchstens einen projektiven<br />

Limes. Denn: seien PI und � PI zwei projektive Limiten, so stimmen deren endlich<br />

dimensionale Verteilungen nach Definition des projektiven Limes überein, d.h. PI = � PI nach<br />

Proposition 4.3. Inhalt des nächsten Theorems ist, dass es bei vollständigen und separablen<br />

Räumen genau einen projektiven Limes gibt.<br />

T:projLim Theorem 4.7 (Existenz von Prozessen, Kolmogoroff). Sei (E, r) vollständig und separabel<br />

und (PJ : J ⋐ I) eine projektive Familie von Wahrscheinlichkeitsmaßen auf E. Dann gibt es<br />

den projektiven Limes lim<br />

←−J⋐I PJ.<br />

rem:wt1a Bemerkung 4.8. Wir werden zwei Resultate aus der Wahrscheinlichkeitstheorie I verwenden<br />

und wiederholen die zugrunde liegenden Definitionen:<br />

1. Definition Kompaktes System: Ein durchschnittstabiles Mengensystem K heißt kompaktes<br />

System, falls aus �<br />

n≥1 Kn = ∅ mit K1, K2, ... ∈ K folgt, dass es ein N gibt mit<br />

�N n=1 Kn = ∅.<br />

←−<br />

J⋐I


KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 29<br />

2. Definition Regulärer Inhalt: Sei K ein kompaktes System und µ ein Inhalt auf einem<br />

Mengensystem R. Der Inhalt µ heißt von innen K−regulär, falls für alle A ∈ K<br />

gilt.<br />

µ(A) = sup<br />

K∋K⊆A<br />

µ(K)<br />

3. Satz 11.4 aus der Wahrscheinlichkeitstheorie I: Sei H ein Halbring (∅ ∈ H, A, B ∈ H =⇒<br />

A ∩ B ∈ H und es gibt paarweise disjunkte C1, ..., Cn mit A \ B = � Ci) und K ⊆ H ein<br />

kompaktes System. Jeder von innen K-reguläre endliche Inhalt µ auf H ist σ−additiv,<br />

d.h. ein Prämaß.<br />

4. Lemma 11.5 aus der Wahrscheinlichkeitsthroeie I: Sei (E, r) vollständig und separabel<br />

und E := B(E), K das Mengensystem der kompakten Mengen. Dann ist jedes endliche<br />

Maß µ auf E von innen K-regulär.<br />

Beweis. Sei<br />

H := {π −1<br />

J (× Aj) : J ⋐ I, Aj ∈ E}.<br />

j∈J<br />

und µ ein Inhalt auf H, definiert durch die projektive Familie mittels<br />

� �<br />

�<br />

µ<br />

= PJ .<br />

π −1<br />

J × Aj<br />

j∈J<br />

�<br />

× Aj<br />

j∈J<br />

Man prüft nach, dass H ein Halbring und µ ein wohldefinierter Inhalt auf H ist. Weiter ist<br />

K := {π −1�<br />

�<br />

J<br />

Kj : J ⋐ I, Kj kompakt} ⊆ H<br />

× j∈J<br />

ein kompaktes System.<br />

Wir zeigen nun, dass µ von innen K-regulär ist. Sei ε > 0, π −1�<br />

�<br />

J ×j∈J Aj ∈ H für J ⋐ I<br />

und Aj ∈ E, j ∈ J. Da Pj für j ∈ I ein Maß ist, gibt es nach Bemerkung 4.8.4 kompakte<br />

Mengen Kj ∈ E mit Kj ⊆ Aj und Pj(Aj \ Kj) ≤ ε. Damit ist<br />

�<br />

µ π −1�<br />

� � � −1<br />

J × Aj \ πJ × Kj<br />

j∈J<br />

j∈J<br />

� �<br />

= µ π −1<br />

�<br />

�<br />

J (× Aj) \ (× Kj<br />

j∈J j∈J<br />

��<br />

�� � � �<br />

= PJ × Aj \ × Kj<br />

j∈J j∈J<br />

�<br />

� �<br />

≤ PJ (π J j ) −1 �<br />

(Aj \ Kj)<br />

≤ �<br />

j∈J<br />

j∈J<br />

PJ<br />

�<br />

(π J j ) −1 �<br />

(Aj \ Kj)<br />

= �<br />

Pj(Aj \ Kj)<br />

j∈J<br />

≤ |J|ε.<br />

Da J endlich und ε > 0 beliebig war, ist also µ von innen K-regulär. Nach Bemerkung<br />

4.8.3 ist µ also σ-additiv, d.h. ein Prämaß. Insbesondere lässt es sich eindeutig zu einem<br />

Wahrscheinlichkeitsmaß PI auf σ(H) = E I fortsetzen.


KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 30<br />

Sei weiter Aj ∈ E, j ∈ J. Dann gilt für PI<br />

(πJ)∗PI(×<br />

j∈J<br />

Aj) = PI(π −1<br />

J (× Aj)) = µ(π<br />

j∈J<br />

−1<br />

J × Aj) = PJ(× Aj),<br />

j∈J<br />

j∈J<br />

d.h. (πJ)∗PI und PJ stimmen auf H und damit auf dem von H erzeugten Ring überein. Da<br />

dieser durchschnittstabil ist, ist (πJ)∗PI = PJ nach Theorem 1.3 und PI ist der projektive<br />

Limes der Familie (PJ : J ⋐ I).<br />

4.2 Beispiel: der Poisson-Prozess<br />

Wir betrachten (zum einzigen Mal in dieser Vorlesung) einen stochastischen Prozess mit<br />

Indexmenge I = R+.<br />

rem:poi1 Bemerkung 4.9. Unter Beobachtung stehen die Anzahl von Clicks eines Geigerzählers, Anrufe<br />

in einer Telefonzentrale, Mutationsereignissen entlang von Ahnenlinien... Solche Vorgänge<br />

wollen wir mit Hilfe eines stochastischen Prozesses X = (Xt)t∈I mit I = R+ modellieren. Dabei<br />

sei Xt die Anzahl der Clicks/Anrufe/Mutationen bis zur Zeit t. An einen solchen Prozess<br />

stellt man sinnvollerweise ein paar Annahmen:<br />

1. Unabhängige Zuwächse: Ist 0 = t0 ≤ t1 < ... < tn, so ist (Xti − Xti−1 : i = 1, ..., n) eine<br />

unabhängige Familie.<br />

2. Identisch verteilte Zuwächse: Ist 0 < t1 < t2, so ist Xt2<br />

− Xt1<br />

3. Keine Doppelpunkte: Es ist lim sup ε→0 1<br />

ε P[Xε − X0 > 1] = 0<br />

d<br />

= Xt2−t1 − X0.<br />

def:poiP Definition 4.10 (Poisson-Prozess). Ein reellwertiger stochastischer Prozess X = (Xt)t∈I<br />

mit X0 = 0 heißt Poisson-Prozess mit Intensität λ, wenn folgendes gilt:<br />

1. Für 0 = t0 < ... < tn ist die Familie (Xti − Xti−1 : i = 1, ..., n) unabhängig.<br />

2. Für 0 ≤ t1 < t2 ist Xt2 − Xt1 ∼ Poi(λ(t2 − t1)).<br />

Proposition 4.11 (Existenz von Poisson-Prozessen). Sei λ ≥ 0. Dann gibt es genau eine<br />

Verteilung PI auf (B(R)) I , so dass der bzgl. PI kanonische Prozess ein Poisson-Prozess mit<br />

Intensität λ ist.<br />

Beweis. Zunächst zur Eindeutigkeit: die endlich-dimensionalen Randverteilungen von PI sind<br />

durch 1. und 2. aus Definition 4.10 eindeutig festgelegt. Deswegen folgt die Eindeutigkeit aus<br />

Proposition 4.3.<br />

Zur Existenz definieren wir den Poisson-Prozess als projektiven Limes. Für J = {t1, ..., tn} ⋐<br />

I mit 0 = t0 ≤ t1 < ... < tn setzen wir für x0 = 0<br />

Weiter ist<br />

S n : (x1 − x0, ..., xn − xn−1) ↦→ (x1, ..., xn).<br />

PJ := S n ∗<br />

n�<br />

Poi(λ(ti − ti−1)). (4.1) eq:poi1<br />

i=1


KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 31<br />

Mit anderen Worten: sind Yti−ti−1 für i = 1, ..., n unabhängig Poisson-verteilt mit Parameter<br />

λ(ti − ti−1), dann ist Sn (Y (t1−t0), ..., Ytn−tn−1)) ∼ PJ.<br />

Wir zeigen nun, dass die Familie (PJ : J ⋐ I) projektiv ist: sei J = {t1, ..., tn} wie oben<br />

und H = J \ {ti} für ein i. Dann ist<br />

und damit<br />

Poi(λ(ti+1 − ti)) ∗ Poi(λ(ti − ti−1)) = Poi(λ(ti+1 − ti−1))<br />

(π J H)∗PJ = (π J H ◦ S n )∗<br />

j=1<br />

n�<br />

Poi(λ(tj − tj−1)) = PH.<br />

Nach Theorem 4.7 gibt es den projektiven limes PI. Betrachten wir den bzgl. PI kanonischen<br />

Prozess X = (Xt)t∈I, so hat dieser die endlich-dimensionalen Verteilungen (PJ : J ⋐ I).<br />

Insbesondere sind wegen (10.2) Zuwächse unabhängig und Poisson-verteilt. Damit erfüllt X<br />

die Bedingungen 1. und 2. aus Definition 4.10.<br />

Proposition 4.12 (Charakterisierung von Poisson-Prozessen). Ein nicht-fallender Prozess<br />

X = (Xt)t∈I mit X0 = 0 und Werten in Z+ ist genau dann ein Poissonprozess mit Intensität<br />

λ, falls λ := E[X1 − X0] < ∞ und 1.-3. aus Bemerkung 4.9 erfüllt sind.<br />

Beweis. ’⇐’: 1. und 2. aus Bemerkung 4.9 sind klar erfüllt. Für 3. berechnen wir direkt<br />

1<br />

εP[Xε > 1] = 1 − e−λε (1 + λε) 1 − (1 − λε)(1 + λε) ε→0<br />

≤ −−→ 0.<br />

ε<br />

ε<br />

’⇒’: Es ist 1. aus Definition 4.10 erfüllt. Bleibt zu zeigen, dass Xt ∼ Poi(λt) ist. Sei hierzu<br />

für n ∈ N, k = 1, ..., n,<br />

Z n k := (Xtk/n − Xt(k−1)/n) ∧ 1, X n n�<br />

t = Z n k .<br />

gibt an, ob im Intervall (t(k − 1)/n; tk/n] mindestens ein Sprung stattgefunden<br />

Das heißt, Zn k<br />

hat. Dann gilt, da Xn t monoton in n ist,<br />

P[ lim<br />

n→∞ Xn t �= Xt] = lim<br />

n→∞ P[Xn t �= X]<br />

k=1<br />

= lim<br />

n→∞ P[Xtk/n − Xt(k−1)/n > 1 für ein k]<br />

n�<br />

≤ lim P[Xtk/n − Xt(k−1)/n > 1]<br />

n→∞<br />

k=1<br />

= lim<br />

n→∞ nP[Xt/n > 1] n→∞<br />

−−−→ 0<br />

nach 3. Weiter ist Xn t binomialverteilt mit n und Erfolgswahrscheinlichkeit pn := P[Xt/n > 0].<br />

Wegen der Linearität der Abbildung t ↦→ E[Xt] und, da Xn t ↑ Xt, folgt mit dem Satz über die<br />

monotone Konvergenz,<br />

λt = E[Xt] = lim<br />

n→∞ E[Xn t ] = lim<br />

n→∞ npn.<br />

Durch eine Poisson-Approximation gilt nun<br />

P[Xt = k] = lim<br />

n→∞ P[Xn t = k] − P[X n t = k; Xt �= X n t ] + P[Xt = k; Xt �= X n t ]<br />

= lim<br />

n→∞ P[Xn t = k] = Poi(λt)(k),<br />

d.h. Xt ∼ Poi(λt) und die Behauptung folgt.


KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 32<br />

P:poi1 Proposition 4.13 (Konstruktion mittels Exponentialverteilungen). Seien S1, S2, ... unabhängig,<br />

exponentialverteilt mit Parameter λ. Weiter sei X = (Xt)t∈I gegeben durch<br />

Xt := max{i : S1 + ... + Si < t}<br />

mit max ∅ = 0. Dann ist X ein Poisson-Prozess mit Intensität λ.<br />

Beweis. Wir müssen zeigen, dass für 0 = t0 < ... < tn, k1, ..., kn ∈ N<br />

P[Xt1 − Xt0 = k1, ..., Xtn − Xtn−1 = kn] =<br />

n�<br />

Poi(α(tj − tj−1))(kj)<br />

gilt. Dies werden wir nur für den Fall n = 2 ausrechnen, der allgemeine Fall folgt analog.<br />

Sei in der folgenden Rechnung 0 ≤ s < t und U1, U2, ... uniform verteilte Zufallsvariablen auf<br />

[0, t]. Wir berechnen<br />

P[Xs − Xt0 = k, Xt − Xs = ℓ]<br />

=<br />

� s � s<br />

0<br />

= λ k+ℓ<br />

s1<br />

· · ·<br />

� s<br />

� s � s<br />

0<br />

s1<br />

sk−1<br />

� t � t<br />

s<br />

� s<br />

· · ·<br />

sk−1<br />

sk+1<br />

� t � t<br />

s<br />

� t<br />

· · ·<br />

sk+1<br />

sk+ℓ−1<br />

� t<br />

· · ·<br />

� ∞<br />

t<br />

sk+ℓ−1<br />

j=1<br />

λ k+ℓ+1 e −λs1 e −λ(s2−s1) · · ·<br />

� � ∞<br />

= e −λt λ k+ℓ t k+ℓ P[U1 < ... < Uk < s < Uk+1 < ... < Uk+ℓ]<br />

= e −λt λ ℓ t ℓ<br />

� �<br />

k + ℓ<br />

�s �k� t − s<br />

�ℓ 1<br />

k t t (k + ℓ)!<br />

−λs (λs)k −λ(t−s) (λ(t − s))ℓ<br />

= e · e ,<br />

k!<br />

ℓ!<br />

woraus die Behauptung folgt.<br />

t<br />

· · · e −λ(sk+ℓ+1−sk+ℓ)<br />

dsk+ℓ+1...ds1<br />

�<br />

dsk+ℓ · · · ds1<br />

λe −λsk+ℓ+1 dsk+ℓ+1<br />

Beispiel 4.14 (Links- und rechtsstetiger Poisson-Prozess). Sei, ähnlich wie in Proposition<br />

4.13, der stochastische Prozess Y = (Yt)t∈I gegeben durch<br />

Yt := max{i : S1 + ... + Si ≤ t}.<br />

Realisierungen der Prozesse X aus Proposition 4.13 und Y sind in Abbildung 4.1 zu sehen.<br />

Die beiden Prozesse unterschieden sich dadurch, dass X rechtsstetig und Y linksstetig ist.<br />

Allerdings sind beide Prozesse Poisson-Prozesse mit Intensität λ, wie man sich leicht überzeugt.<br />

Insbesondere haben beide Prozesse dieselben endlich dimensionalen Verteilungen, nach<br />

Proposition 4.3 also auch dieselben Verteilungen auf R I . Wie man an diesem Beispiel sieht,<br />

können zwei Prozesse mit derselben Verteilungen völlig unterschiedliche Pfade besitzen.<br />

4.3 Filtrationen und Stoppzeiten<br />

Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, I ⊆ R und F = (Ft)t∈I eine Filtration (siehe<br />

Definition 4.15).<br />

Def:filtr Definition 4.15 (Filtrationen, Stoppzeiten). Sei X = (Xt)t∈I ein stochastischer Prozess.


KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 33<br />

Xt<br />

0 1 2 3 4 5 6<br />

●<br />

●<br />

●<br />

0 2 4 6 8 10<br />

t<br />

●<br />

●<br />

●<br />

Yt<br />

0 1 2 3 4 5 6<br />

●<br />

●<br />

●<br />

0 2 4 6 8 10<br />

Abbildung 4.1: Der fig:poi rechtsstetige Poisson-Prozess X und der linksstetige Poisson-Prozess Y .<br />

1. Eine Filtration F = (Ft)t∈I ist eine nicht-fallende Familie von σ-Algebren, d.h. Fs ⊆ Ft<br />

für s ≤ t.<br />

Sei nun F = (Ft)t∈I eine Filtration.<br />

2. Der Prozess X heißt an F adaptiert, falls Xt Ft-messbar ist für alle t ∈ I.<br />

3. Die Filtration F = (Ft)t∈I mit Ft = σ(Xs : s ≤ t) heißt die von X erzeugte Filtration.<br />

4. Eine zufällige Zeit ist eine Zufallsvariable in Ī (dem Abschluss von I). Eine zufällige<br />

Zeit T heißt (F-)Stoppzeit falls {T ≤ t} ∈ Ft für alle t ∈ I.<br />

5. Jede Stoppzeit T definiert die σ-Algebra<br />

der T -Vergangenheit.<br />

FT := {A ∈ A : A ∩ {T ≤ t} ∈ Ft, t ∈ I}<br />

6. Für eine zufällige Zeit T ist XT definiert durch ω ↦→ X T (ω)(ω). Weiter ist X T :=<br />

(XT ∧t)t∈I der bei T gestoppte Prozess.<br />

7. Sei 0 < p < ∞. Ein reellwertiger Prozess X heißt p-fach integrierbar, falls E[|Xt| p ] <<br />

∞, t ∈ I.<br />

8. Sei I = {0, 1, 2, ...}. Der Prozess X heißt F-prävisibel, falls X0 = 0 und Xt Ft−1-messbar<br />

ist.<br />

rem:TB Bemerkung 4.16. 1. Sei (E, r) ein metrischer Raum. Für einen stochastischen Prozess<br />

X = (Xt)t=0,1,2,... und B ⊆ E ist<br />

TB := inf{t : Xt ∈ B}<br />

eine Stoppzeit. Denn es ist schließlich<br />

{TB ≤ t} = �<br />

{Xs ∈ B} ∈ Ft.<br />

s≤t<br />

t<br />

●<br />

●<br />


KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 34<br />

2. Für überabzählbares I, einen stochastischen Prozess X = (Xt)t∈I und eine F-Stoppzeit<br />

T ist die Größe XT nicht notwendigerweise FT -messbar. Für abzählbares I jedoch schon;<br />

siehe Lemma 4.19.<br />

Lemma 4.17. 1. Jede Zeit T = s ∈ I ist eine Stoppzeit<br />

2. Für Stoppzeiten S, T sind auch S ∧ T, S ∨ T Stoppzeiten.<br />

3. Für Stoppzeiten S, T ≥ 0 ist S + T eine Stoppzeit.<br />

Beweis. 1. Für t ∈ I ist {s ≤ t} ∈ {∅, Ω} ⊆ Ft, d.h. T = s ist eine Stoppzeit.<br />

2. Für t ∈ I ist {S ∧ T ≤ t} = {S ≤ t} ∪ {T ≤ t} ∈ Ft und {S ∨ T ≤ t} = {S ≤ t} ∩ {T ≤<br />

t} ∈ Ft.<br />

3. Sei t ∈ I. Es sind S ∧ t und T ∧ t Stoppzeiten, d.h. für s ≤ t ist {S ∧ t ≤ s} ∈ Fs ⊆ Ft. Für<br />

s > t ist {S ∧ t ≤ s} = Ω ∈ Ft, d.h. S ∧ t ist Ft-messbar. Analog folgt, dass T ∧ t Ft-messbar<br />

ist. Weiter ist 1 {S>t}, 1 {T >t} Ft-messbar. Setzen wir S ′ = S ∧ t + 1 {S>t}, T ′ = T ∧ t + 1 {T >t},<br />

so ist S ′ + T ′ Ft-messbar und es gilt {S + T ≤ t} = {S ′ + T ′ ≤ t} ∈ Ft.<br />

Lemma 4.18. 1. Jede Stoppzeit T ist FT -messbar.<br />

2. Für Stoppzeiten S, T mit S ≤ T ist FS ⊆ FT .<br />

Beweis. 1. Da T eine Stoppzeit ist, ist {T ≤ t} ∈ Ft. Nach Definition von FT bedeutet das<br />

{T ≤ t} ∈ FT . Da H := {(−∞; t] : t ∈ R} ein Erzeuger von B(R) sind, folgt die Behauptung.<br />

2. Sei A ∈ FS und t ∈ I. Wegen B := A ∩ {S ≤ t} ∈ Ft ist<br />

d.h. A ∈ FT .<br />

A ∩ {T ≤ t} = B ∩ {T ≤ t} ∈ Ft,<br />

L:XTmessbar Lemma 4.19. Ist I höchstens abzählbar und (E, r) ein metrischer Raum. Für einen adaptierten<br />

Prozess X = (Xt)t=0,1,2,... und eine Stoppzeit T ist XT FT -messbar.<br />

Beweis. Es gilt für B ∈ B(E)<br />

{XT ∈ B} ∩ {T ≤ t} = �<br />

{Xs ∈ B, T = s} ∈ Ft<br />

und damit {Xt ∈ B} ∈ FT . Daraus folgt die Behauptung.<br />

s≤t


Kapitel 5<br />

Martingale<br />

5.1 Definition und Eigenschaften<br />

Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, I ⊆ R eine Indexmenge und F = (Ft)t∈I eine<br />

Filtration.<br />

Bemerkung 5.1. Für eine A-messbare Zufallsvariable X kann man einen stochastischen<br />

Prozess definieren, nämlich (Xt)t∈I mit<br />

Natürlich ist dann, wegen Theorem 3.2.7<br />

Xt := E[X|Ft]. (5.1) eq:mart1<br />

E[Xt|Fs] = E[E[X|Ft]|Fs] = E[X|Fs] = Xs.<br />

Stochastische Prozesse X mit der Eigenschaft werden wir Martingale nennen. In Abschnitt<br />

6 wird es dann (unter anderem) darum gehen, wann es zu einem Martingal (Xt)t∈I eine<br />

Zufallsvariable X gibt, so dass (5.1) gilt.<br />

Definition 5.2. Sei X = (Xt)t∈I ein adaptierter, reellwertiger stochastischer Prozess mit<br />

E[|Xt|] < ∞, t ∈ I. Dann heißt X<br />

Martingal, falls E[Xt|Fs] = Xs für s, t ∈ I, s < t,<br />

Submartingal, falls E[Xt|Fs] ≥ Xs für s, t ∈ I, s < t,<br />

Supermartingal, falls E[Xt|Fs] ≤ Xs für s, t ∈ I, s < t.<br />

Genauer sagen wir dass X ein F-(Sub, Super)-Martingal ist.<br />

ex:mart Beispiel 5.3. 1. Sei X1, X2, ... eine Folge unabhängiger, integrierbarer Zufallsvariablen<br />

mit E[Xi] = 0, i = 1, 2, ... und Ft := σ(X1, ..., Xn). Weiter sei S0 := 0 und für t = 1, 2, ...<br />

Dann ist<br />

St :=<br />

t�<br />

Xi.<br />

i=1<br />

E[St|Ft−1] = E[St−1 + Xt|Ft−1] = St−1 + E[Xt|Ft−1] = St−1 + E[Xt] = St−1,<br />

d.h. (St)t=0,1,2,... ist ein Martingal.<br />

Falls E[Xi] ≥ 0 für alle i = 1, 2, ..., so ist (St)t≥0 ein Submartingal.<br />

35


KAPITEL 5. MARTINGALE 36<br />

2. Sei X1, X2, ... eine Folge unabhängiger, integrierbarer Zufallsvariablen mit E[Xi] = 1, i =<br />

1, 2, ... und Ft := σ(X1, ..., Xn). Weiter ist S0 := 1 und für t = 1, 2, ...<br />

St :=<br />

Dann ist, falls S1, S2, ... integrierbar sind,<br />

t�<br />

Xi.<br />

i=1<br />

E[St|Ft−1] = E[St−1Xt|Ft−1] = St−1 · E[Xt|Ft−1] = St−1 · E[Xt] = St−1,<br />

d.h. (St)t=0,1,2,... ist ein Martingal.<br />

Falls E[Xi] ≥ 1 für alle i = 1, 2, ..., so ist (St)t≥0 ein Submartingal.<br />

3. Sei I = {−1, −2, ...} und X1, X2, ... integrierbar, unabhängig, identisch verteilte Zufallsvariablen.<br />

Weiter setzen wir für t ∈ I<br />

St := 1<br />

|t|<br />

und Ft := σ(..., St−1, St). Dann ist für t ∈ I<br />

nach Beispiel 3.8. Speziell ist<br />

�<br />

1<br />

E[St|Ft−1] = E<br />

|t|<br />

= 1<br />

|t|<br />

�<br />

= E<br />

|t|<br />

�<br />

i=1<br />

X1<br />

|t|<br />

�<br />

i=1<br />

|t|<br />

�<br />

i=1<br />

�<br />

E<br />

Xi<br />

�<br />

�<br />

Xi�St−1,<br />

St−2, ...<br />

Xi<br />

� |t|+1<br />

� �<br />

�<br />

i=1<br />

= 1<br />

|t−1| �<br />

|t − 1|<br />

= St−1<br />

�<br />

E[X1|Ft] = E<br />

= 1<br />

|t|<br />

= St.<br />

i=1<br />

X1<br />

� |t|+1<br />

� �<br />

�<br />

Xi<br />

Xi<br />

i=1<br />

�<br />

� |t|<br />

�<br />

�<br />

�<br />

P:phiM Proposition 5.4. Sei X = (Xt)t∈I ein stochastischer Prozess und ϕ : R → R konvex. Falls<br />

ϕ(X) = (ϕ(Xt))t∈I integrierbar ist und eine der beiden Bedingungen<br />

1. X ist ein Martingal<br />

|t|<br />

�<br />

i=1<br />

i=1<br />

Xi<br />

Xi<br />

Xi<br />

�<br />

�<br />


KAPITEL 5. MARTINGALE 37<br />

2. X ist ein Submartingal und ϕ ist nicht-fallend<br />

erfüllt ist, so ist ϕ(X) = (ϕ(Xt))t∈I ein Submartingal.<br />

Beweis. Ist X ein Martingal so ist ϕ(Xs) = ϕ(E[Xt|Fs]). Ist X ein Submartingal und ϕ<br />

nicht-fallend, gilt ϕ(Xs) ≤ ϕ(E[Xt|Fs]). In beiden Fällen ist damit für s ≤ t fast sicher wegen<br />

der Jensen’schen Ungleichung für bedingte Erwartungen, Proposition 3.4, dass<br />

d.h. ϕ(X) ist ein Submartingal.<br />

ϕ(Xs) ≤ ϕ(E[Xt|Fs]) ≤ E[ϕ(Xt)|Fs],<br />

P:doobZerl Proposition 5.5 (Doob-Zerlegung). Sei I = {0, 1, 2, ...}. Jeder adaptierte Prozess X =<br />

(Xt)t∈I hat eine fast sicher eindeutige Zerlegung X = M + A, wobei M ein Martingal und A<br />

prävisibel ist. Insbesondere ist X genau dann ein Submartingal falls A fast sicher nicht fällt.<br />

Beweis. Definiere den prävisiblen Prozess A = (At)t∈I durch<br />

At =<br />

t�<br />

E[Xs − Xs−1|Fs−1]. (5.2) eq:doob1<br />

s=1<br />

Dann ist M = X − A ein Martingal, denn<br />

E[Mt − Mt−1|Ft−1] = E[Xt − Xt−1|Ft−1] − (At − At−1) = 0.<br />

Kommen wir zur Eindeutigkeit der Darstellung. Falls X = M + A für ein Martingal M und<br />

einen prävisiblen Prozess A, so ist At − At−1 = E[Xt − Xt−1|Ft−1] für alle t = 1, 2, ..., d.h.<br />

(5.2) gilt fast sicher.<br />

Definition 5.6. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein quadratisch integrierbares Martingal.<br />

Der fast sicher eindeutig bestimmte, prävisible Prozess (〈X〉t)t∈I, für den (X 2 t − 〈X〉t)t∈I<br />

ein Martingal ist, heißt der quadratische Variationsprozess von X.<br />

Bemerkung 5.7. Da wegen Proposition 5.4 der Prozess (X 2 t )t∈I ein Submartingal ist, nennt<br />

man (〈X〉t)t∈I auch den wachsenden Prozess von X.<br />

Proposition 5.8. Sei I = {0, 1, 2, ...}, X = (Xt)t∈I ein Martingal mit quadratischem Variationsprozess<br />

〈X〉 = (〈X〉t)t∈I. Dann ist<br />

und<br />

〈X〉t =<br />

t�<br />

E[X 2 s − X 2 s−1|Fs−1] =<br />

s=1<br />

t�<br />

E[(Xs − Xs−1) 2 |Fs−1]<br />

s=1<br />

E[〈X〉t] = V[Xt − X0].<br />

Beweis. Wie im Beweis von Proposition 5.5 kann man den Prozess 〈X〉 mittels (5.2) schreiben.<br />

Daraus folgt sofort das erste Gleichheitszeichen. Das zweite folgt, da E[XsXs−1|Fs−1] = X 2 s−1 .<br />

Weiter ist<br />

E[〈X〉t] =<br />

t�<br />

E[X 2 s − X 2 s−1] = E[X 2 t − X 2 0] = E[(Xt − X0) 2 ] = V[Xt − X0].<br />

s=1


KAPITEL 5. MARTINGALE 38<br />

Beispiel 5.9. 1. Sei S = (St)∈I mit St = � t<br />

s=1 Xs wie in Beispiel 5.3.1 mit quadratische<br />

integrierbaren Zufallsvariablen X1, X2, .... Dann ist nach der letzten Poposition<br />

〈S〉t =<br />

t�<br />

E[X 2 s ].<br />

Insbesondere ist der quadratische Variationsprozess von S deterministisch.<br />

s=1<br />

2. Sei S = (St)∈I mit St = � t<br />

s=1 Xs wie in Beispiel 5.3.2 mit quadratische integrierbaren<br />

Zufallsvariablen X1, X2, .... Dann ist<br />

〈S〉t =<br />

t�<br />

E[(Ss − Ss−1) 2 |Fs−1] =<br />

s=1<br />

t�<br />

S 2 s−1E[(Xs − 1) 2 |Fs−1] =<br />

Insbesondere ist in diesem Beispiel der Prozess 〈S〉s echt stochastisch.<br />

5.2 Stochastisches Integral<br />

s=1<br />

t�<br />

S 2 s−1V[Xs].<br />

Definition 5.10 (Diskretes stochastisches Integral). Sei I = {0, 1, 2, ...} und H = (Ht)t∈I, X =<br />

(Xt)t∈I stochastische Prozesse mit Werten in R. Ist X adaptiert und H prävisibel, so definieren<br />

wir das stochastische Integral H · X = ((H · X)t)t∈I durch<br />

(H · X)t =<br />

t�<br />

Hs(Xs − Xs−1)<br />

s=1<br />

für alle t ∈ I. Ist X ein Martingal, so nennen wir H · X eine Martingaltransformierte von X.<br />

P:stoInt Proposition 5.11 (Stabilität der stochastischen Integrale). Sei I = {0, 1, 2, ...} und X =<br />

(Xt)t∈I ein adaptierter, reellwertiger Prozess mit E[|X0|] < ∞.<br />

1. X ist genau dann ein Martingal, wenn für jeden prävisiblen Prozess H = (Ht)t∈I das<br />

stochastische Integral H · X ein Martingal ist.<br />

2. X ist genau dann ein Submartingal (Supermartingal), wenn für jeden prävisiblen, nichtnegativen<br />

Prozess H = (Ht)t∈I das stochastische Integral H · X ein Submartingal (Supermartingal)<br />

ist.<br />

Beweis. 1. ’⇒’: Man schreibt sofort<br />

E[(H · X)t+1 − (H · X)t|Ft] = E[Ht+1(Xt+1 − Xt)|Ft]<br />

= Ht+1E[Xt+1 − Xt|Ft]<br />

’⇐’: Sei t ∈ I und Hs := 1 {s=t}. Dann ist H = (Hs)s∈I deterministisch, insbesondere prävisibel.<br />

Da (H · X)t−1 = 0 gilt, folgt<br />

= 0.<br />

0 = E[(H · X)t|Ft−1] = E[Xt − Xt−1|Ft−1] = E[Xt|Ft−1] − Xt−1<br />

Daraus folgt die Behauptung.<br />

2. folgt analog.<br />

s=1


KAPITEL 5. MARTINGALE 39<br />

Beispiel 5.12. Martingaltransformierte kann man auch als Auszahlungen von Spielsystemen<br />

interpretieren. Gegeben, eine zufällige Größe entwickelt sich gemäß des adaptierten Prozesses<br />

X = (Xt)t=0,1,2,.... Wettet man vor Zeit t mit einem Einsatz Ht (basierend auf den Erfahrungen,<br />

die aus X0, ..., Xt−1 gewonnen wurden) auf die Änderung der zufälligen Größe Xt −Xt−1,<br />

so ist (H · X)t der bis zur Zeit t realisierte Gewinn. Gegeben der zugrunde liegende Prozess<br />

X ist ein Martingal, zeigt Proposition 5.11, dass der erzielte Gewinn H · X für jede Strategie<br />

H ein Martingal ist. Insbesondere ist der erwartete Gewinn 0.<br />

Als Beispiel betrachten wie das Petersburger Paradoxon: eine faire Münze wird unendlich<br />

oft geworfen. In jeder Runde setzt ein Spieler einen Einsatz in beliebiger Höhe. Kommt Kopf,<br />

verliert er ihn, kommt Zahl, so wird der Einsatz verdoppelt wieder ausbezahlt. Das Paradox<br />

besteht aus folgender Strategie: startend mit einem Einsatz von 1 beim ersten Münzwurf,<br />

verdoppelt der Spieler bei jedem Misserfolg seinen Einsatz. Kommt der erste Erfolg im t-ten<br />

Wurf, so beträgt sein bisheriger Einsatz �t i=1 2i−1 = 2t − 1. Da der letzte Einsatz 2t−1war, bekommt der Spieler also 2t zurück, hat also sicher einen Gewinn von 1 gemacht, obwohl das<br />

Spiel fair war.<br />

Um dieses Spiel mittels Martingalen zu analysieren, sei X1, X2, ... eine unabhängig, identisch<br />

verteilte Folge mit P[X1 = −1] = P[X1 = 1] = 1<br />

2 , und S0 = 0, St = �t i=1 Xi. Dann ist<br />

S = (St)t=0,1,2,... ein Martingal. Weiter sei Ht der Einsatz im t-ten Spiel. Dann ist<br />

(H · S)t =<br />

t�<br />

Hi(Si − Si−1) =<br />

i=1<br />

t�<br />

i=1<br />

HiXi<br />

der Gewinn nach dem t-ten Spiel. Da mit S auch H · S ein Martingal ist, gilt<br />

lim<br />

t→∞ E[(H · S)t] = E[(S · H)1] = E[X1] = 0,<br />

d.h. der mittlere Gewinn nach langer Zeit ist 0, unabhängig von der Strategie H. Oben haben<br />

wir den Einsatz<br />

Ht := 2 t−1 1 {St−1=−(t−1)} (5.3) eq:H<br />

betrachtet und gezeigt, dass für den Gewinn (H · S)t t→∞<br />

−−−→fs 1 gilt.<br />

Wie bewerten wir nun die Strategie (5.3)? Sei T die zufällige Zeit des Gewinns, d.h. T ist<br />

. Insbesondere ist T fast sicher endlich. Dann ist<br />

geometrisch verteilt mit Parameter 1<br />

2<br />

� �∞<br />

E<br />

t=1<br />

Ht<br />

�<br />

=<br />

∞�<br />

k=1<br />

1<br />

2 k (2k − 1) = ∞,<br />

d.h. für die obige Strategie benötigt man unter Umständen sehr viel Kapital.<br />

5.3 Optional Stopping und Optional Sampling<br />

P:optStop Proposition 5.13 (Optional Stopping). Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein (Sub,<br />

Super)-Martingal und T eine fast sicher endliche Stoppzeit. Dann ist X T = (XT ∧t)t∈I ein<br />

(Sub, Super)-Martingal.


KAPITEL 5. MARTINGALE 40<br />

Beweis. Wir zeigen die Aussage nur für den Fall, dass X ein Submartingal ist. Die anderen<br />

Aussagen ergeben sich aus Symmetriegründen. Für ein Submartingal X und {T > t−1} ∈ Ft<br />

ist<br />

d.h. X T ist ein Submartingal.<br />

E[XT ∧t − X T ∧(t−1)|Ft−1] = E[(Xt − Xt−1)1 {T >t−1}|Ft−1]<br />

= 1 {T >t−1}E[Xt − Xt−1|Ft−1] ≥ 0,<br />

L:optsam1 Lemma 5.14. Sei I = {0, 1, 2, ...}, X = (Xt)t∈I ein Martingal und T eine durch t beschränkte<br />

Stoppzeit. Dann gilt XT = E[Xt|FT ].<br />

Beweis. Nach der Definition der bedingten Erwartung und da XT FT -messbar ist (siehe<br />

Lemma 4.19), müssen wir zeigen, dass E[Xt; A] = E[XT ; A] für A ∈ FT gilt. Es ist {T =<br />

s} ∩ A ∈ Fs für s ∈ I, also<br />

E[XT ; A] =<br />

=<br />

=<br />

t�<br />

E[Xs; {T = s} ∩ A]<br />

s=1<br />

t�<br />

E[E[Xt|Fs]; {T = s} ∩ A]<br />

s=1<br />

t�<br />

E[Xt; {T = s} ∩ A]<br />

s=1<br />

= E[Xt; A].<br />

T:OptSam Theorem 5.15 (Optional Sampling Theorem). Sei I = {0, 1, 2, ...}, S ≤ T fast sicher endliche<br />

Stoppzeiten und X = (Xt)t∈I ein Supermartingal. Ist entweder T beschränkt oder X<br />

gleichgradig integrierbar, so ist XT integrierbar und XS ≥ E[XT |FS].<br />

Der Beweis verläuft in drei Schritten. Zunächst zeigen wir das Theorem für beschränktes T .<br />

Danach beweisen wir Lemma 5.16, siehe unten. Am Schluss folgt der Beweis von Theorem<br />

5.15 im Falle eines gleichgradig integrierbaren Supermartingals.<br />

l:hilfOpt Lemma 5.16. Sei I = {0, 1, 2, ...}. Ein Martingal X = (Xt)t∈I ist genau dann gleichgradig<br />

integrierbar, wenn die Familie {XT : T fast sicher endliche Stoppzeit} gleichgradig integrierbar<br />

ist.<br />

Beweis von Theorem 5.15 für beschränkte Stoppzeiten. Sei also T ≤ t für t ∈ I. Wir verwenden<br />

die Doob-Zerlegung X = M + A von X in das Martingal M und den monoton<br />

nicht-wachsenden Prozess A. Dann ist mit Lemma 5.14 und FS ⊆ FT nach Theorem 3.2.7<br />

XS = MS + AS = E[Mt + AS|FS]<br />

≥ E[Mt + AT |FS]<br />

= E[E[Mt|FT ] + AT |FS]<br />

= E[MT + AT |FS]<br />

= E[XT |FS].


KAPITEL 5. MARTINGALE 41<br />

Beweis von Lemma 5.16. ’⇐’: klar.<br />

x→∞<br />

−−−→ ∞ und<br />

’⇒’: Nach Lemma 2.13 gibt es eine konvexe Funktion f : R+ → R+ mit f(x)<br />

x<br />

supt∈I E[f(|Xt|)] =: L < ∞. Sei T eine fast sicher endliche Stoppzeit, dann ist nach dem<br />

Optional Sampling Theorem (angewendet auf die fast sicher endlichen Stoppzeiten S = T ∧ t<br />

und T = t) E[Xt|FT ∧t] = XT ∧t. Da {T ≤ t} ∈ FT ∧t folgt mit der Jensen’schen Ungleichung<br />

E[f(|XT |); {T ≤ t}] = E[f(|XT ∧t|); {T ≤ t}]<br />

= E[f(|E[Xt|FT ∧t]|); {T ≤ t}]<br />

≤ E[E[f(|Xt|)|FT ∧t]; {T ≤ t}]<br />

= E[f(|Xt|); {T ≤ t}] ≤ L.<br />

Damit ist E[f(|XT |)] ≤ L, d.h. die Behauptung folgt mit Lemma 2.13.<br />

Beweis von Theorem 5.15 im allgemeinen Fall. Sei X = M + A die Doob-Zerlegung von X<br />

in das Martingal M und den nicht-wachsenden vorhersagbaren Prozess A ≤ 0 mit A0 = 0.<br />

Da<br />

E[|At|] = E[−At] = E[X0 − Xt] ≤ E[|X0|] + sup E[|Xs|]<br />

s∈I<br />

gilt At ↓ A∞ für ein A∞ ≤ 0 mit E[−A∞] < ∞. Mit Lemma 2.13 kann man folgern, dass<br />

auch M gleichgradig integrierbar ist.<br />

Wir wenden nun das Optional Sampling Theorem auf S ∧ t, T ∧ t und M an. Für A ∈ FS<br />

ist {S ≤ t} ∩ A ∈ FS∧t, also<br />

E[MT ∧t; {S ≤ t} ∩ A] = E[E[MT ∧t|FS∧t]; {S ≤ t} ∩ A] = E[MS∧t; {S ≤ t} ∩ A].<br />

Da nach Lemma 5.16 die Menge {XS∧t, XT ∧t : t ∈ I} gleichgradig integrierbar ist, gilt mit<br />

Theorem 2.15<br />

E[MT ; A] = lim<br />

t→∞ E[MT ∧t; {S ≤ t} ∩ A] = lim<br />

t→∞ E[MS∧t; {S ≤ t} ∩ A] = lim<br />

t→∞ E[MS; A],<br />

d.h. E[MT |FS] = MS. Ferner folgt<br />

E[XT |FS] = E[MT |FS] + AS + E[AT − AS|FS] ≤ MS + AS = XS.<br />

Beispiel 5.17 (Wald’sche Identitäten, Ruin-Problem). 1. Seien X1, X2, ... ∈ L1 unabhängig<br />

mit µ := E[X1] = E[X2] = ..., und St := �t s=1 Xi. Weiter ist T eine fast sicher endliche<br />

Stoppzeit. Dann gilt die erste Wald’sche Identität<br />

E[ST ] = E[T ]µ.<br />

Denn: der Prozess M = (Mt)t=0,1,2,... mit M0 = 0, Mt = St − tµ für t = 1, 2, ... ist ein<br />

Martingal, und nach dem Optional Sampling Theorem<br />

0 = E[MT ] = E[ST ] − E[T ]µ.<br />

Ist außerdem X1, X2, ... ∈ L 2 mit σ 2 = V[X1] = V[X2] = ... und T unabhängig von<br />

X1, X2, ..., so gilt die zweite Wald’sche Identität<br />

V[ST ] = E[T ]σ 2 + V[T ]µ 2 .


KAPITEL 5. MARTINGALE 42<br />

Denn: (M 2 t − 〈M〉t)t=0,1,2,... ist ein Martingal, und 〈M〉t = tσ 2 , also<br />

0 = E[M 2 T − 〈M〉T ] = E[M 2 T ] − E[T ]σ 2 .<br />

Außerdem ist wegen der Unabhängigkeit von T und X1, X2, ...<br />

E[M 2 T ] = V[ST − T µ] = V[ST ] + µ 2 V[T ] − 2µCOV[ST , T ] = V[ST ] − µ 2 V[T ].<br />

In allen beiden Wald’schen Identitäten kann man die Voraussetzung, dass T endlich ist,<br />

abschwächen.<br />

2. Seien k ∈ N und X1, X2, ... unabhängige, identisch verteilte Zufallsvariablen mit P[X1 =<br />

1] = 1 − P[X1 = −1] = p := 1 − q. Für N ∈ N mit 0 < k < N sei S0 = k und<br />

St = S0 + � t<br />

i=1 Xi. Weiter sei T := inf{t : St ∈ {0, N}}. Wir berechnen nun mittels des<br />

Optional Sampling Theorems für p �= 1<br />

2<br />

pk := P[ST = 0] =<br />

� q<br />

p<br />

� k − � q<br />

1 − � q<br />

p<br />

�N p<br />

� N . (5.4) eq:exOptSam1<br />

Das bedeutet: man spielt ein Spiel, startend mit Kapital k, bis man entweder ruiniert<br />

ist oder Kapital N besitzt. In jedem Schritt gewinnt man mit Wahrscheinlichkeit p eine<br />

Kapitaleinheit und verliert mit Wahrscheinlichkeit q = 1 − p eine Kapitaleinheit. Dann<br />

ist die Wahrscheinlichkeit, ruiniert zu werden (0 Kapitaleinheiten zu besitzen), gegeben<br />

durch pk.<br />

Denn: es gilt<br />

��<br />

q<br />

�X1 E<br />

p<br />

�<br />

= q<br />

p<br />

p<br />

p + q = 1<br />

q<br />

� �St q<br />

p<br />

und damit ist Y = (Yt)t=0,1,2,..., definiert durch Yt := nach Beispiel 5.3.2 ein<br />

Martingal. Da T fast sicher endlich ist, ist YT ∧t wegen Proposition 5.13 ein Martingal,<br />

das durch 1 und<br />

woraus (5.4) folgt.<br />

� �N q<br />

p<br />

beschränkt ist. Wegen Theorem 5.15 ist<br />

�<br />

q<br />

�k �<br />

q<br />

�N = E[YT ] = pk + (1 − pk) ,<br />

p<br />

p<br />

3. Betrachten wir einen fairen Münzwurf. Wie lange dauert es, bis zum ersten Mal das<br />

Muster ZKZK auftritt? (K und Z stehen hier für Kopf und Zahl.)<br />

Um dies zu berechnen, betrachten wir das folgende Spiel: vor dem ersten Münzwurf<br />

wettet eine Spielerin einen Euro auf Z. Falls sie verliert, hört sie auf, falls sie gewinnt,<br />

setzt sie vor dem nächsten Wurf zwei Euro auf K. Verliert sie im zweiten Wurf, hört sie<br />

auf, im Fall eines Gewinns wettet sie vier Euro auf Z. Verliert sie im dritten Wurf, hört<br />

sie auf, gewinnt sie, wettet sie acht Euro auf K. Falls sie also beim vierten Wurf gewinnt,<br />

hat sie insgesamt 15 Euro gewonen. In allen anderen Fällen verliert sie einen Euro.<br />

Nehmen wir nun an, dass vor jedem Münzwurf eine neue Spielerin nach obiger Strategie<br />

spielt. Das Spiel wird beendet, wenn das erste Mal eine Spielerin 15 Euro gewinnt.


KAPITEL 5. MARTINGALE 43<br />

Sei Xt der Gesamtgewinn aller Spielerinnen bis zur Zeit t und T die Zeit, zu der das<br />

Spiel gestoppt wird, weil zum ersten Mal das Muster ZKZK aufgetreten ist. Sicher ist<br />

|Xt| ≤ 15 · t, P[T > 4t] ≤ 15 t<br />

.<br />

16<br />

Damit hat (Xt∧T : t = 1, 2, ...) eine integrierbare Majorante, ist also nach Beispiel 2.11.2<br />

gleichgradig integrierbar. Damit können wir das Optional Stopping-Theorem anwenden,<br />

d.h. (XT ∧t)t=1,2,... ist ein Martingal.<br />

Sicher ist<br />

XT = 15 − 1 + 3 − 1 − (T − 4)<br />

da die ersten T − 4 Spielerinnen, sowie Spielerinnen T − 3 und T − 1 einen Verlust von<br />

einem Euro hinnehmen mussten. Spielerin T − 2 hat zur Zeit T einen Gewinn von drei<br />

Euro und Spielerin T − 4 hat 15 Euro gewonnen. Also<br />

0 = E[XT ] = E[15 − 1 + 3 − 1 − (T − 4)] = −E[T ] − 20,<br />

also E[T ] = 20. Interessant ist, dass erwartet werden kann, dass beispielsweise das<br />

Muster ZZKK schon nach 16 Münzwürfen auftritt.


Kapitel 6<br />

Martingalkonvergenzsätze<br />

S:MartKonv Wieder ist (Ω, A, P) ein Wahrscheinlichkeitsraum, I ⊆ Z und F = (Ft)t∈I eine Filtration. Wir<br />

kennen Konvergenzsätze, etwa das starke Gesetz der großen Zahlen. Martingale konvergieren<br />

unter relativ schwachen Voraussetzungen.<br />

6.1 Die Doob’sche Ungleichung<br />

Bemerkung 6.1. Die Doob’schen Ungleichungen machen Aussagen über die Verteilung von<br />

sup s≤t Xs, falls X = (Xt)t∈I ein (Sub, Super)-Martingal ist.<br />

L:martKonv1 Lemma 6.2. Ist X = (Xt)t∈I ein Submartingal, so ist für λ > 0<br />

λP[sup<br />

s≤t<br />

Xs ≥ λ] ≤ E[Xt; sup<br />

s≤t<br />

Xs ≥ λ] ≤ E[|Xt|; sup Xs ≥ λ].<br />

s≤t<br />

Beweis. Die zweite Ungleichung ist trivial. Für die erste erinnern wir an die Definition der<br />

Stoppzeit TB aus Bemerkung 4.16 und setzen<br />

T = t ∧ T [λ;∞).<br />

Nach dem Optional Sampling Theorem 5.15 ist<br />

E[Xt] ≥ E[XT ] = E[XT ; sup<br />

s≤t<br />

≥ λP[sup<br />

s≤t<br />

Subtrahieren des letzten Terms ergibt die Ungleichung.<br />

Xs ≥ λ] + E[XT ; sup Xs < λ]<br />

s≤t<br />

Xs ≥ λ] + E[Xt; sup Xs < λ].<br />

s≤t<br />

P:doobUngl Proposition 6.3 (Doob’sche L p -Ungleichung). Sei X = (Xt)t∈I ein Martingal oder ein positives<br />

Submartingal.<br />

1. Für p ≥ 1 und λ > 0 ist<br />

2. Für p > 1 ist<br />

λ p P[sup |Xs| ≥ λ] ≤ E[|Xt|<br />

s≤t<br />

p ].<br />

E[|Xt| p ] ≤ E[sup |Xs|<br />

s≤t<br />

p �<br />

p<br />

�p ] ≤ E[|Xt|<br />

p − 1<br />

p ].<br />

44


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 45<br />

Beweis. 1. Nach Proposition 5.4 ist (|Xt| p )t∈I ein Submartingal und die Behauptung folgt<br />

nach Lemma 6.2.<br />

2. Die erste Ungleichung ist klar. Für die zweite Ungleichung beachte, dass nach Lemma 6.2<br />

gilt, dass<br />

Also ist für K > 0<br />

λP{sup<br />

s≤t<br />

|Xs| ≥ λ} ≤ E[|Xs|; sup |Xs| ≥ λ].<br />

s≤t<br />

E[sup(|Xs|<br />

∧ K)<br />

s≤t<br />

p �<br />

] = E<br />

� sups≤t |Xs|∧K<br />

pλ<br />

0<br />

p−1 �<br />

dλ<br />

�<br />

= E<br />

� K<br />

pλ p−1 �<br />

1 {λ 2γ]<br />

t→∞<br />

−−−→ 0, im<br />

Widerspruch zum zentralen Grenzwertsatz. Gesucht ist nun eine Funktion t ↦→ h(t), so dass<br />

lim sup<br />

t→∞<br />

fast sicher. Wir werden nun folgendes zeigen:<br />

St<br />

h(t) = 1 (6.1) eq:iL1


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 46<br />

St/t<br />

−0.012 −0.008 −0.004 0.000<br />

10 6<br />

5 × 10 6<br />

t<br />

10 7<br />

Abbildung 6.1: fig:iL<br />

Für die Folge S1, S2, ... sind hier St/t und St/(h(t)) mit h aus (6.2) abgebildet. Der linke Pfad<br />

geht nach dem starken Gesetz der großen Zahlen fast sicher gegen 0. Der rechte Pfad bleibt<br />

fast sicher für fast alle t im Streifen [−1, 1] nach dem Gesetz vom iterierten Logarithmus.<br />

Sind X1, X2, ... unabhängig nach N(0, 1) verteilt. Dann gilt (6.1) für<br />

St/ (2loglog(t))<br />

−0.5 0.0 0.5<br />

10 6<br />

5 × 10 6<br />

h(t) = � 2t log(log(t)). (6.2) eq:iL3<br />

(Siehe auch Bild 6.1.) Dazu brauchen wir in 1. eine Eigenschaft der N(0, 1)-Verteilung und<br />

können dann in 2. die Doob’sche Ungleichung aus Proposition 6.3 anwenden, um die Behauptung<br />

zu zeigen.<br />

1. Sei X ∼ N(0, 1) und ϕ(x) = 1<br />

√ 2π e −x2 /2 die Dichte der N(0, 1)-Verteilung bzgl. des<br />

Lebensgue-Maßes. Dann ist<br />

t<br />

P[X > x] ≤ 1<br />

xϕ(x), (6.3) eq:iL1a<br />

P[X > x] ≥ x<br />

1+x2 ϕ(x), (6.4) eq:iL1b<br />

E[e θX1 ] = e θ 2 /2 , θ ∈ R. (6.5) eq:iL1c<br />

Denn: Es gilt ϕ ′ (y) = −yϕ(y) und damit<br />

� ∞<br />

� ∞<br />

ϕ(x) = yϕ(y)dy ≥ x ϕ(y)dy = x · P[X > x],<br />

x<br />

was (6.3) zeigt. Für (6.4) schreiben wir, ganz ähnlich,<br />

ϕ(x)<br />

x =<br />

� ∞<br />

x<br />

1 + y 2<br />

1 + x2<br />

ϕ(y)dy ≤<br />

y2 x2 −∞<br />

x<br />

� ∞<br />

ϕ(y)dy =<br />

x<br />

10 7<br />

� � ′<br />

ϕ(y)<br />

y = − 1+y2<br />

y2 ϕ(y), und damit<br />

1 + x2<br />

x 2<br />

· P[X > x].<br />

Für (6.5) schreiben wir direkt<br />

E[e θX1 ] =<br />

� ∞<br />

√2π 1 e θx−x2 /2 θ<br />

dx = e 2 � ∞<br />

/2 √2π 1 e −(x−θ)2 /2 θ<br />

dx = e 2 /2<br />

.<br />

−∞


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 47<br />

2. Nun zeigen wir, dass für N(0, 1)-verteilte X1, X2, ... die Funktion h aus (6.2) die Gleichung<br />

(6.1) erfüllt. Unter dieser Voraussetzung ist St ∼ N(0, t). Unsere Strategie ist<br />

nun, in (6.1) sowohl ’≤’ als auch ’≥’ zu zeigen.<br />

’≤’: Für θ ∈ R ist (e θSt )t∈I nach Proposition 5.4 ein Submartingal. Für alle t und alle<br />

c > 0 gilt mit Proposition 6.3 und (6.5)<br />

P[sup<br />

k≤t<br />

Mit θ = c/t gilt also<br />

Sk ≥ c] = P[sup e<br />

k≤t<br />

θSk θc −θc θSt −θc+θ<br />

≥ e ] ≤ e E[e ] = e 2t/2 P[sup Sk ≥ c] ≤ e<br />

k≤t<br />

−c2 /(2t)<br />

.<br />

Sei nun K > 1 und cn = Kh(K n−1 ) mit h aus (6.2). Dann lesen wir aus dem soeben<br />

gezeigtem<br />

P[ sup<br />

k≤Kn Sk ≥ cn] ≤ e −c2n/(2Kn ) −K log((n−1) log K) −K −K<br />

= e = (n − 1) (log K) .<br />

Insbesondere sind diese Wahrscheinlichkeiten summierbar in n. Das Borel-Cantelli-<br />

Lemma zeigt nun, dass sup k≤K n Sk ≤ cn für fast alle n gilt. Für t so, dass K n−1 ≤<br />

t ≤ K n haben wir nun<br />

für fast alle n. Mit anderen Worten,<br />

Sk ≤ sup<br />

t≤Kn St ≤ Kh(K n−1 ) ≤ Kh(t)<br />

lim sup<br />

t→∞<br />

St<br />

≤ K<br />

h(t)<br />

fast sicher. Da K > 1 beliebig war, ist also ’≤’ in (6.1) gezeigt.<br />

’≥’: Sei N > 1 (typischerweise groß) und ε > 0 (typischerweise klein). Definiere die<br />

Ereignisse<br />

An := {S N n+1 − SN n > (1 − ε)h(N n+1 − N n )}.<br />

Da S N n+1−SN n ∼ N(0, N n+1 −N n ), gilt nach (6.4) mit x = (1−ε) � 2 log log(N n+1 − N n )<br />

�<br />

SN n+1 − SN<br />

P(An) = P<br />

n<br />

√<br />

N n+1 − N n > (1 − ε)h(N n+1 − N n )<br />

�<br />

√<br />

N n+1 − N n<br />

= P{X1 > x} ≥ 1<br />

√ 2π<br />

x<br />

1 + x 2 e−x2 /2 .<br />

Damit sind diese Wahrscheinlichkeiten nicht summierbar in n. Da die Ereignisse A1, A2, ...<br />

unabhängig sind, gilt nach dem Borel-Cantelli Lemma, dass unendlich viele der An zutreffen.<br />

Also gilt für unendlich viele n<br />

S N n+1 > (1 − ε)h(N n+1 − N n ) + SN n.<br />

Nach der ’≤’-Richtung ist SN n > −2h(N n ) für fast alle n, d.h. SN n/h(N n+1 ) n→∞<br />

−−−→ 0<br />

fast sicher. Weiter ist h(N n+1 − N n )/h(N n+1 ) n→∞<br />

−−−→ 1 und damit<br />

lim sup<br />

t→∞<br />

St<br />

≥ lim sup<br />

h(t) n→∞<br />

Da ε > 0 beliebig war, folgt ’≥’ in (6.1).<br />

SN n+1<br />

h(N n+1 ≥ 1 − ε<br />

)


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 48<br />

Xt<br />

−40 −20 0 20 40<br />

S1 T1 S2 T2 S3 T3 S4 T4<br />

Abbildung 6.2: fig:upcr<br />

Eine Illustration der Stoppzeiten S1, T1, S2, T2, ... aus Definition 6.5<br />

6.2 Konvergenzsätze<br />

Für die Martingalkonvergenzsätze ist das Aufkreuzungslemma 6.7 zentral.<br />

def:S1T1 Definition 6.5. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein reellwertiger stochastischer Pro-<br />

zess. Für a < b ist eine Aufkreuzung ein Stück Pfad Xs, ..., Xs ′ mit Xs ≤ a und Xs ′ ≥ b. Um<br />

die Anzahl solcher Aufkreuzungen zu zählen, führen wir Stoppzeiten 0 =: T0 < S1 < T1 <<br />

S2 < T2 < ... durch<br />

Sk := inf{t ≥ Tk−1 : Xt ≤ a},<br />

Tk := inf{t ≥ Sk : Xt ≥ b}<br />

mit inf ∅ = ∞ ein. Die k-te Aufkreuzung zwischen a und b ist hier zwischen Sk und Tk. Weiter<br />

ist<br />

U t a,b := sup{k : Tk ≤ t}<br />

die Anzahl der Aufkreuzungen zwischen a und b bis Zeit t.<br />

Bemerkung 6.6. Bild 6.2 verdeutlicht die letzte Definition.<br />

L:upcr Lemma 6.7 (Aufkreuzungslemma). Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein Submartingal.<br />

Dann ist<br />

E[U t a,b ] ≤ E[(Xt − a) + ]<br />

.<br />

b − a<br />

Beweis. Da nach Proposition 5.4 mit X auch (X −a) + ein Submartingal ist und die Aufkreuzungen<br />

zwischen a und b von X dieselben sind wie die Aufkreuzungen von (X − a) + zwischen<br />

0 und b − a, können wir Œ annehmen, dass X ≥ 0 und a = 0 gilt. Wir definieren den Prozess<br />

H = (Ht)t∈I durch<br />

Ht := �<br />

1 {Sk


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 49<br />

d.h. Ht = 1 genau dann, wenn t in einer Aufkreuzung liegt. Da<br />

{Ht = 1} = �<br />

{Sk ≤ t − 1} ∩ {Tk > t − 1},<br />

k≥1<br />

ist H prävisibel.<br />

Gegeben Tk < ∞ ist offenbar XTk − XSk ≥ b. Weiter ist in diesem Fall<br />

(H · X)Tk =<br />

k�<br />

Ti �<br />

i=1 s=Si+1<br />

(Xs − Xs−1) =<br />

k�<br />

(XTi − XSi ) ≥ kb.<br />

Für t ∈ {Tk, ..., Sk+1} ist (H · X)t = (H · X)Tk und für t ∈ {Sk + 1, ..., Tk} ist (H · X)t ≥<br />

(H · X)Sk = (H · X)Tk−1 . Deswegen ist (H · X)t ≥ bU t 0,b . Aus Proposition 5.11 folgt, dass<br />

((1−H)·X) ein Submartingal ist, insbesondere E[((1−H)·X)t] ≥ 0. Mit Xt −X0 = (1·X)t =<br />

(H · X)t + ((1 − H) · X)t gilt<br />

i=1<br />

E[Xt] ≥ E[Xt − X0] ≥ E[(H · X)t] ≥ bE[U t 0,b ].<br />

def:Finf Definition 6.8. Für eine Filtration F = (Ft)t∈I setzen wir<br />

� � �<br />

F∞ := σ .<br />

T:martKonv1 Theorem 6.9 (Martingalkonvergenzsatz für Submartingale). Sei I = {0, 1, 2, ...} und X =<br />

(Xt)t∈I ein Submartingal mit sup t∈I E[X + t ] < ∞. Dann existiert eine F∞-messbare, integrierbare<br />

Zufallsvariable X∞ und Xt t→∞<br />

−−−→fs X∞.<br />

Beweis. Sei X ∗ := lim sup t→∞ Xt und X∗ := lim inft→∞ Xt. Angenommen es gibt keine<br />

Zufallsvariable X∞ mit Xt t→∞<br />

−−−→fs X∞. Dann ist P{X∗ < X ∗ } > 0. Für a, b ∈ Q sei B(a, b) :=<br />

{X∗ < a < b < X ∗ }. Da {X∗ < X ∗ } = �<br />

a,b∈Q<br />

Sei U t a,b wie in Definition 6.5. Auf B(a, b) ist limt→∞ U t a,b<br />

Andererseits ist mit Lemma 6.7<br />

sup E[U<br />

t∈I<br />

t a,b<br />

] ≥ sup<br />

t∈I<br />

t∈I<br />

Ft<br />

B(a, b) existieren a, b ∈ Q mit P(B(a, b)) > 0.<br />

= ∞ und deswegen<br />

E[U t a,b ; B(a, b)] = ∞.<br />

sup E[U<br />

t∈I<br />

t E[(Xt − a)<br />

a,b ] ≤ sup<br />

t∈I<br />

+ ]<br />

≤ sup<br />

b − a t∈I<br />

E[X + t<br />

] + a+<br />

< ∞<br />

b − a<br />

im Widerspruch dazu. Also folgt die fast sichere Konvergenz. Da alle Xt F∞-messbar sind, ist<br />

auch X∞ F∞-messbar. Es bleibt zu zeigen, dass X∞ integrierbar ist. Nach Fatou’s Lemma<br />

ist<br />

E[X + ∞] ≤ sup E[X<br />

t∈I<br />

+ t<br />

] < ∞.<br />

Außerdem ist, da X ein Submartingal ist, wieder mit Fatou’s Lemma<br />

E[X − ∞] ≤ lim inf<br />

t→∞ E[X− t<br />

] = lim inf<br />

t→∞<br />

� +<br />

E[X t ] − E[Xt] � ≤ sup E[X<br />

t∈I<br />

+ t ] − E[X0] < ∞.


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 50<br />

cor:MartConv Korollar 6.10 (Martingalkonvergenzsatz für positive Supermartingale). Sei I = {0, 1, 2, ...}<br />

und X = (Xt)t∈I ein nichtnegatives Supermartingal. Dann existiert eine F∞-messbare, integrierbare<br />

Zufallsvariable X∞ mit E[X∞] ≤ E[X0] und Xn t→∞<br />

−−−→fs X∞.<br />

Beweis. Theorem 6.9, angewandt auf das Submartingal −X liefert des fast sicheren Limes.<br />

Mit dem Lemma von Fatou ist außerdem<br />

E[X∞] ≤ lim inf<br />

t→∞ E[Xt] ≤ E[X0].<br />

T:martKonv2 Theorem 6.11 (Martingalkonvergenzsatz für gleichgradig integrierbare Martingale). Sei I =<br />

{0, 1, 2, ...} und X = (Xt)t∈I ein gleichgradig integrierbares (Super, Sub)-Martingal. Dann<br />

existiert eine F∞-messbare Zufallsvariable X∞ mit Xt<br />

t→∞<br />

−−−→fs X∞ und Xt<br />

t→∞<br />

−−−→ L1 X∞.<br />

Außerdem ist dann (Xt) t∈I∪{∞} ein (Super, Sub)-Martingal.<br />

Beweis. Wegen Lemma 2.12 ist supt∈I E[|Xt|] < ∞. Die fast sichere Konvergenz folgt damit<br />

aus 6.9 und die L1-Konvergenz damit aus Theorem 2.15.<br />

Den Beweis, dass (Xt) t∈I∪{∞} ein (Super, Sub)-Martingal ist, führen wir exemplarisch<br />

für Submartingale, d.h. E[E[Xt|Fs]; A] ≥ E[Xs; A] für A ∈ Fs und s ≤ t. Wegen der L1- Konvergenz ist nach Theorem 3.2.3 ist E[|E[Xt|Fs] − E[X∞|Fs]|] t→∞<br />

−−−→ 0 und damit gilt<br />

d.h. E[X∞|Fs] ≥ Xs fast sicher.<br />

E[E[X∞|Fs]; A] = lim<br />

t→∞ E[E[Xt|Fs]; A] ≥ E[Xs; A],<br />

Definition 6.12. Ein stochastischer Prozess X = (Xt)t∈I heißt L p -beschränkt, falls<br />

sup E[|Xt|<br />

t∈I<br />

p ] < ∞.<br />

th:martConvC Theorem 6.13 (Martingalkonvergenzsatz für Lp-beschränkte Martingale). Sei I = {0, 1, 2, ...},<br />

p > 1 und X = (Xt)t∈I ein Lp-beschränktes Martingal. Dann gibt es eine F∞-messbare Zufallsvariable<br />

X∞ mit E[|X∞| p ] < ∞, Xt<br />

t→∞<br />

−−−→fs X∞ und Xt<br />

t→∞<br />

−−−→L p X∞.<br />

(|Xt|<br />

Außerdem ist<br />

p )t∈I gleichgradig integrierbar.<br />

Beweis. Wegen Lemma 2.13 ist X gleichgradig integrierbar. Wegen Theorem 6.11 gibt es<br />

damit den fast sicheren Limes X∞. Nach der Doob’schen Ungleichung aus Proposition 6.3 ist<br />

für t ∈ I<br />

E[sup |Xs|<br />

s≥1<br />

p ] = lim E[sup |Xs|<br />

t→∞ s≤t<br />

p �<br />

p<br />

�p ] ≤ lim E[|Xt|<br />

t→∞ p − 1<br />

p ] < ∞.<br />

Damit ist (|Xt| p )t∈I gleichgradig integrierbar nach Beispiel 2.11.3. Nach dem Lemma von<br />

Fatou und Lemma 2.12 ist E[|X∞| p ] ≤ sup t∈I E[|Xt| p ] < ∞ und Theorem 2.15 liefert die<br />

Konvergenz in L p .<br />

Beispiel 6.14. Seien I = {1, 2, ...}, X1, X2, ... nicht-negative, unabhängige, integrierbare<br />

Zufallsvariable mit E[Xt] = 1, t ∈ I und St := �t s=1 Xs nach Beispiel 5.3.2 ein Martingal.<br />

Nach Korollar 6.10 gibt es damit ein S∞, so dass St t→∞<br />

−−−→fs S∞. Definiere<br />

at := E[ � Xt].


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 51<br />

Wir zeigen nun:<br />

{St : t ∈ I} gleichgradig integrierbar ⇐⇒<br />

∞�<br />

at > 0.<br />

Insbesondere gilt dann auch St t→∞<br />

−−−→ L 1 S∞. Im Beweis setzen wir für t = 1, 2, ..<br />

Wt :=<br />

t�<br />

s=1<br />

Damit ist (Wt)t=1,2,... ein Martingal. Auch hier folgt, dass es ein W∞ gibt mit Wt t→∞<br />

−−−→fs W∞.<br />

’⇐’: Wegen der Jensen’schen Ungleichung ist a 2 t = (E[ √ Xt]) 2 ≤ E[Xt] = 1, also at ≤ 1. Es<br />

gilt<br />

sup<br />

t∈I<br />

E[W 2 � �t<br />

t ] = sup E<br />

t∈I<br />

s=1<br />

Xs<br />

a2 �<br />

s<br />

= sup<br />

t∈I<br />

√ Xs<br />

as<br />

t�<br />

s=1<br />

.<br />

E[Xs]<br />

a 2 s<br />

≤<br />

t=1<br />

1<br />

� �∞<br />

s=1 as<br />

�2 < ∞.<br />

Damit ist (Wt)t∈I ein L2-beschränktes Martingal, Nach Theorem 6.13 ist {W 2 t : t ∈ I}<br />

gleichgradig integrierbar. Daraus folgt auch die gleichgradige Integrierbarkeit von {St : t ∈ I}.<br />

’⇒’: Nehmen wir an, dass �∞ s=1 = 0. Da Wt einen fast sicheren, endlichen Limes hat, muss<br />

St = �t s=1 Xs<br />

t→∞<br />

−−−→fs 0 gelten. Falls {St : t ∈ I} gleichgradig integrierbar wäre, wäre<br />

0 = E[S∞] = limt→∞ E[St] = 1, also ein Widerspruch.<br />

6.3 Rückwärtsmartingale<br />

Bemerkung 6.15. (Sub, Super)-Martingale mit Indexmenge I = {..., −2, −1, 0} heißen<br />

Rückwärts(Sub, Super)-martingale. Ähnlich wie in Definition 6.8 setzen wir hier<br />

F−∞ := �<br />

Ft.<br />

l:backMa1 Lemma 6.16. Sei X ∈ L 1 . Dann ist {E[X|F] : F ⊆ A σ-Algebra} gleichgradig integrierbar.<br />

Beweis. Da {X} gleichgradig integrierbar ist, gibt es nach Lemma 2.13 eine monoton wachsende<br />

konvexe Funktion ϕ : R+ → R+ mit ϕ(x) x→∞<br />

x −−−→ ∞ und E[ϕ(|X|)] < ∞. Mit Theorem<br />

3.2.3 folgt<br />

sup E[ϕ(|E[X|F]|)] ≤ E[ϕ(|X|)] < ∞.<br />

F⊆A<br />

Damit ist {E[X|F] : F ⊆ A σ-Algebra} gleichgradig integrierbar nach Lemma 2.13.<br />

Th:martConv4 Theorem 6.17 (Martingalkonvergenzsatz für Rückwärtsmartingale). Sei I = {..., −2, −1, 0}<br />

und X = (Xt)t∈I ein Submartingal. Dann sind äquivalent<br />

1. Es gibt eine F−∞-messbare, integrierbare Zufallsvariable X−∞ mit Xt<br />

und Xt t→−∞<br />

−−−−→ L 1 X−∞<br />

t∈I<br />

t→−∞<br />

−−−−→fs X−∞


KAPITEL 6. MARTINGALKONVERGENZSÄTZE 52<br />

2. inft∈I E[Xt] > −∞.<br />

Dann ist auch (Xt) t∈I∪{−∞} ein Submartingal.<br />

Insbesondere konvergiert jedes Rückwärtsmartingal fast sicher und in L 1 .<br />

Beweis. ’1. ⇒ 2.’: Aus der Konvergenz im Mittel folgt<br />

inf<br />

t∈I E[Xt] = lim<br />

t→−∞ E[Xt] = E[X−∞] > −∞.<br />

’2. ⇒ 1.’: Da inft∈I E[X − t ] < ∞ folgt die fast sichere Konvergenz wie im Beweis von Theorem<br />

6.9. Da X nach Lemma 6.16 gleichgradig integrierbar ist folgt auch die Konvergenz in L1 .<br />

Der Beweis, dass (Xt) t∈I∪{−∞} ein Submartingal ist, verläuft analog zum Beweis in 6.11.<br />

Beispiel 6.18 (Das starke Gesetz der großen Zahlen). Seien X1, X2, ... ∈ L 1 unabhängig<br />

identisch verteilt. Für t ∈ {..., −2, −1} setzen wir wie im Beispiel 5.3.3<br />

St := 1<br />

|t|<br />

und Ft = σ(..., St−1, St) = σ(St, Xt+1, Xt+2, ...). Dann ist (St)t∈I ein Rückwärtsmartingal mit<br />

St = E[X1|Ft]. Nach Theorem 6.17 konvergiert St fast sicher und in L 1 gegen eine Zufallsgröße<br />

S−∞. Diese ist messbar bzgl. F−∞, jedoch auch bzgl. T (X1, X2, ...), der terminalen σ-Algebra<br />

der Familie {X1, X2, ...}. Da diese σ-Albegra nach dem Kolmogoroff’schen 0-1-Gesetz trivial<br />

ist, ist S−∞ fast sicher konstant. Da (St) t∈I∪{−∞} ein Martingal ist, folgt also<br />

1<br />

|t|<br />

|t|<br />

�<br />

s=1<br />

|t|<br />

�<br />

s=1<br />

Xs = St t→−∞<br />

−−−−→ fs,L1 S−∞ = E[S−∞] = E[S−1] = E[X1].<br />

Die fast sichere Konvergenz ist jedoch genau die Aussage des Gesetzes der großen Zahlen.<br />

Xs


Kapitel 7<br />

Ergodentheorie<br />

Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und I ⊆ Z, abgeschlossen unter Addition (also z.B.<br />

I = {0, 1, 2, ...}).<br />

7.1 Begriffe und einfache Beispiele<br />

Definition 7.1. 1. Ein stochastischer Prozess X = (Xt)t∈I heißt stationär, falls für alle<br />

s ∈ I<br />

(Xt+s)t∈I d = (Xt)t∈I.<br />

2. Eine messbare Abbildung τ : Ω → Ω heißt maßtreu, falls τ∗P = P.<br />

3. Für τ : Ω → Ω messbar heißt das Ereignis A τ-invariant, falls τ −1 (A) = A. Weiter<br />

bezeichnen wir mit<br />

I := Iτ := {A ∈ A : τ −1 (A) = A}<br />

die σ-Algebra der τ-invarianten Ereignisse<br />

4. Ist τ : Ω → Ω maßtreu und I trivial (d.h. I = {∅, Ω}), dann heißt (P, τ) ergodisch.<br />

eq:ergEx1 Beispiel 7.2. 1. Ist X = (Xt)t=0,1,2,..., so dass X0, X1, ... unabhängig, identisch verteilt<br />

sind. Dann ist X stationär. Sind X0, X1, X2, ... identisch verteilt, jedoch abhängig, z.B.<br />

X1 = X2, ... und X0 unabhängig von X1, X2, ..., so ist X nicht stationär.<br />

2. Ist X = (Xt)t=0,1,2,... stationär mit Werten in R und f : Rℓ → R messbar, so ist auch<br />

Y = (Yt)t=0,1,2,... mit<br />

Yt = f(Xt−ℓ, ..., Xt)<br />

stationär. Ist speziell f(x1, ..., xℓ) = 1 �ℓ ℓ i=1 xi, so heißt Y auch Prozess des gleitendes<br />

Mittels.<br />

3. Sei f : Ω → E und τ : Ω → Ω messbar. Weiter definieren wir X = (Xt)t∈I durch<br />

Xs(ω) = f(τ s (ω)).<br />

Dann ist X genau dann stationär, wenn τ maßerhaltend ist. Falls (P, τ) ergodisch ist,<br />

nennen wir den stochastischen Prozess X ergodisch.<br />

53


KAPITEL 7. ERGODENTHEORIE 54<br />

4. Ein wichtiger Spezialfall besteht darin, dass Ω = E I , τ((ωt)t∈I) = (ωt+1)t∈I und<br />

f((ωt)t∈I) = ω0. Dann ist Xs((ωt)t∈I) = (τ s (ωt)t∈I)0 = ((ωt+s)t∈I)0 = ωs der kanonische<br />

Prozess.<br />

Damit ist<br />

A = τ −t (A) = {ω : τ t (ω) ∈ A} = {ω : (ωt, ωt+1, ...) ∈ A} ∈ σ(Xt, Xt+1, ...).<br />

I ⊆ �<br />

σ(Xt, Xt+1, ...) = T ,<br />

t∈I<br />

wobei T die terminale σ-Algebra der X1, X2, ... ist.<br />

Sind in diesem Fall X1, X2, ... unabhängig und identisch verteilt, ist τ nach 1. maßtreu.<br />

Weiter besagt das Kolmogoroff’sche 0-1-Gesetz, dass T trivial ist. Damit ist nach eben<br />

gesagtem auch I trivial, d.h. X ist in diesem Fall ergodisch.<br />

l:ergL1 Lemma 7.3. Sei τ : Ω → Ω messbare. Eine A-messbare Abbildung f ist genau dann Iτ -<br />

messbar, wenn f ◦ τ = f.<br />

Beweis. Sei zunächst f = 1A. Für ’⇒’ sei also f messbar bzgl. Iτ , d.h. A ∈ I. Damit ist<br />

(f ◦ τ)(ω) = 1A(τ(ω)) = 1 τ(ω)∈A = 1 ω∈τ −1 (A) = 1ω∈A = f(ω).<br />

Für ’⇐’ ist 1 τ(ω)∈A = 1ω∈A, d.h. ω ∈ A ⇐⇒ ω ∈ τ −1 A und damit A = τ −1 (A), d.h. A ∈ I,<br />

insbesondere ist f also Iτ -messbar. Diese Argumente überträgt man auf einfache Funktionen<br />

und schließlich durch ein Approximationsargument auf allgemeine messbare Funktionen.<br />

7.2 Ergodensätze<br />

Sei I = {0, 1, 2, ...} und τ maßerhaltend. Ferner sei f : Ω → R messbar und für jedes t ∈ I<br />

Xs(ω) = f(τ s (ω)). (7.1) eq:ergT1<br />

wie in Beispiel 7.3.3. Wir behandeln im folgenden den Fall von Gesetzen großer Zahlen für<br />

X = (Xt)t∈I. Das bedeutet, wir betrachten den Prozess S = (St)t∈I mit<br />

�t−1<br />

St = Xs.<br />

s=0<br />

Als Vorbereitung bringen wir ein grundlegendes Lemma.<br />

l:ergL2 Lemma 7.4 (Hopf’sches Maximal-Ergodenlemma). Sei X0 ∈ L 1 und Mt := max{0, S1, ..., St}<br />

für t ∈ I. Dann gilt für jedes t ∈ I<br />

E[X0; Mt > 0] ≥ 0.<br />

Beweis. Für s ≤ t ist sicher Mt(τ(ω)) ≥ Ss(τ(ω)). Damit ist auch X0 +Mt ◦τ ≥ X0 +Ss ◦τ =<br />

Ss+1, d.h. für s = 1, ..., t ist<br />

X0 ≥ Ss+1 − Mt ◦ τ. (7.2) eq:mel1


KAPITEL 7. ERGODENTHEORIE 55<br />

Weiter ist S1 = X0 und Mt ◦ τ ≥ 0, d.h. (7.2) gilt auch für s = 0. Daraus folgern wir<br />

Außerdem ist<br />

X0 ≥ max{S1, ..., St} − Mt ◦ τ.<br />

{Mt > 0} c ⊆ {Mt = 0} ∩ {Mt ◦ τ ≥ 0} ⊆ {Mt − Mt ◦ τ ≤ 0}.<br />

Aus der maßtreue von τ und den letzten beiden Gleichungen folgert man<br />

E[X0; Mt > 0] ≥ E[(max{S1, ..., St} − Mt ◦ τ); Mt > 0]<br />

= E[(Mt − Mt ◦ τ); Mt > 0]<br />

≥ E[Mt − Mt ◦ τ] = E[Mt] − E[Mt] = 0.<br />

Th:erg1 Theorem 7.5 (Fast sicherer Ergodensatz, Birkhoff). Sei X = (Xt)t∈I wie in (7.1), I = Iτ<br />

und X0 ∈ L1 . Dann gilt<br />

1 �t−1<br />

Xs<br />

t<br />

t→∞<br />

−−−→fs E[X0|I].<br />

s=0<br />

Ist speziell X ergodisch, so gilt E[X0|I] = E[X0].<br />

Beweis. Der Zusatz ist klar, da I trivial ist, falls X ergodisch ist. Da E[X0|I] eine I-messbare<br />

Zufallsvariable ist, ist E[X0|I] ◦ τ = E[X0|I] nach Lemma 7.3. Damit ist (Xt − E[X0|I])t∈I<br />

stationär und wir können Œ annehmen, dass E[X0|I] = 0 ist. Setze<br />

S ∗ := lim sup<br />

t→∞<br />

1<br />

t St.<br />

Für beliebiges ε > 0 werden wir P{S ∗ > ε} = 0 zeigen, woraus mittels eines Symmetriear-<br />

gumentes folgt, dass limt→∞ 1<br />

t St = 0 fast sicher gilt. Offenbar ist S ∗ ◦ τ = S ∗ , d.h. S ∗ ist<br />

I-messbar, also {S ∗ > ε} ∈ I. Wir setzen A := {S ∗ > ε},<br />

Dann ist A1 ⊆ A2 ⊆ ... und<br />

t=1<br />

X ε t := (Xt − ε)1A,<br />

S ε t = X ε 0 + ... + X ε t−1,<br />

M ε t := max{0, S ε 1, ..., S ε t },<br />

At := {M ε t > 0}.<br />

∞� �<br />

At = sup S<br />

t≥1<br />

ε � �<br />

1<br />

t > 0 = sup t<br />

t≥1<br />

St<br />

�<br />

> ε ∩ A = A.<br />

Der letzte Schritt folgt hier, da aus ω ∈ A folgt, dass es ein (und in der Tat sogar unendlich<br />

viele) t ∈ I gibt mit 1<br />

t St > ε. Damit gilt At ↑ A und E[Xε t→∞<br />

0 ; At] −−−→ E[Xε 0 ] nach majorisierter<br />

Konvergenz. Nach Lemma 7.4 ist E[Xε 0 ; At] ≥ 0, also, da A ∈ I,<br />

0 ≤ E[X ε 0] = E[(X0 − ε); A] = E[E[X0|I]; A] − εP[A] = −εP[A].<br />

Mit anderen Worten, P[A] = 0.


KAPITEL 7. ERGODENTHEORIE 56<br />

l:ergL3 Lemma 7.6. Seien X0, X1, ... identisch verteilt und X0 ∈ L p für p ≥ 1. Dann ist<br />

gleichgradig integrierbar.<br />

�� �� 1<br />

t<br />

�t−1<br />

s=0<br />

�<br />

�<br />

Xs�<br />

p<br />

�<br />

: t = 1, 2, ...<br />

Beweis. Da {|X0| p } gleichgradig integrierbar ist, gibt es nach Lemma 2.13 eine monoton<br />

wachsende, konvexe Funktion f mit f(x) x→∞<br />

x −−−→ ∞ und E[f(|X0| p )] < ∞. Weiter ist, mit der<br />

Jensen’schen Ungleichung<br />

� ��<br />

�� �t−1<br />

1<br />

sup E f t<br />

t=1,2,...<br />

s=0<br />

Xs<br />

�<br />

�<br />

� p�� � � �t−1<br />

1<br />

≤ sup E f t |Xs|<br />

t=1,2,...<br />

p��<br />

�t−1<br />

1 ≤ sup t E<br />

t=1,2,...<br />

� f(|Xs| p ) � = f(|X0| p ),<br />

s=0<br />

woraus die Behauptung (wieder mit Lemma 2.13) folgt.<br />

Theorem 7.7 (L p -Ergodensatz, von Neumann). Sei X = (Xt)t∈I wie in (7.1), I = Iτ und<br />

X0 ∈ L p für p ≥ 1. Dann gilt<br />

Beweis. Nach Lemma 7.6 ist<br />

1<br />

t<br />

�t−1<br />

s=0<br />

�� �� 1<br />

t<br />

Xs t→∞<br />

−−−→L p E[X0|I].<br />

�t−1<br />

s=0<br />

�<br />

�<br />

Xs�<br />

p<br />

�<br />

: t = 1, 2, ...<br />

gleichgradig integrierbar. Da die behauptete Konvergenz fast sicher (und damit stochastisch)<br />

nach Theorem 7.5 gilt, gilt sie also auch in L p nach Theorem 2.15.<br />

7.3 Anwendung: Markov-Ketten<br />

Bereits bekannt sind Markov-Ketten. Dies sind Spezialfälle von Markov-Prozessen, also stochastischen<br />

Prozessen X = (Xt)t∈I mit einem Zustandsraum (E, E) und für t ≥ s<br />

P[Xt ∈ A|Fs] = P[Xt ∈ A|Xs]<br />

für A ∈ E, wobei F = (Ft)t∈I die von X erzeugte Filtration ist. Wir schreiben Px für die<br />

Verteilung des Markov-Prozesses auf E I , der in x ∈ E startet. Wir konzentrieren uns im<br />

folgenden auf homogene Markov-Prozesse, d.h., auf den Fall<br />

P[Xt+s ∈ A|Fs] = PXs[Xt ∈ A].<br />

Markov-Ketten sind homogene Markov-Prozesse mit I = {0, 1, 2, ...}.<br />

Definition 7.8. Ein homogener Markov-Prozess X = (Xt)t∈I hat die starke Markov-Eigenschaft,<br />

falls für jede fast sicher endliche Stoppzeit T<br />

für A ∈ E gilt.<br />

Px[XT +s ∈ A|FT ] = PXT [Xs ∈ A]<br />

s=0


KAPITEL 7. ERGODENTHEORIE 57<br />

Ohne Beweis bemerken wir:<br />

Proposition 7.9. Jede Markov-Kette X = (Xt)t=0,1,2,... hat die starke Markov-Eigenschaft.<br />

Definition 7.10. Sei X = (Xt)t∈I eine Markov-Kette.<br />

1. Wie in Bemerkung 4.16 setzen wir die erste Treffzeit von x ∈ E<br />

Außerdem ist<br />

2. Ein x ∈ E heißt<br />

(a) rekurrent, falls F (x, x) = 1,<br />

(b) positiv rekurrent, falls Ex[Tx] < ∞,<br />

Tx := inf{t > 0 : Xt = x}.<br />

F (x, y) := Px[Ty < ∞].<br />

(c) nullrekurrent, falls x rekurrent, aber nicht positiv rekurrent ist,<br />

(d) transient, falls F (x, x) < 1.<br />

3. Die Markov-Kette X heißt<br />

(a) rekurrent/positiv-rekurrent/null-rekurrent/transient, falls alle x ∈ E die Eigenschaft<br />

haben<br />

(b) irreduzibel, falls F (x, y) > 0 für alle x, y ∈ E.<br />

4. Ein Wahrscheinlichkeitsmaß π auf E heißt invariant für X, falls der Shift τ : E I → E I ,<br />

gegeben durch τ((Xt)t∈I = (Xt+1)t∈I, maßtreu für Pπ := � π(dx)Px ist.<br />

Schon bekannt ist:<br />

Proposition 7.11. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I eine positiv rekurrente, irreduzible<br />

Markov-Kette. Dann gibt es genau eine stationäre Verteilung π.<br />

P:ergEx1 Proposition 7.12. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I eine positiv rekurrente, irreduzible<br />

Markov-Kette auf dem abzählbaren Raum E, gestartet in ihrer invarianten Verteilung π. Dann<br />

ist X ergodisch.<br />

Beweis. Wir schreiben τ für den Zeitshift. Sei A ∈ I. Nach Beispiel 7.3.4 ist A ∈ T =<br />

�<br />

t∈I σ(Xt, Xt+1, ...), also für eine fast sicher endliche Stoppzeit T mit der starken Markov-<br />

Eigenschaft<br />

Pπ[X ∈ A|FT ] = Pπ[τ T ◦ X ∈ A|FT ] = P[(XT , XT +1, ...) ∈ A|FT ] = PXT [X ∈ A]. (7.3) eq:ergEx1<br />

Sei B ∈ FT . Dann ist<br />

Eπ[1 {X∈B}1 {X∈A}] = Eπ[1 {X∈B}1 {τ T ◦X∈A}]<br />

= Eπ<br />

� 1{X∈B}E[1 {τ T ◦X∈A}|FT ] �<br />

= Eπ[1 {X∈B}PXT [X ∈ A]],


KAPITEL 7. ERGODENTHEORIE 58<br />

wobei wir in der dritten Gleichheit die starke Markoveigenschaft verwendet haben. Ist speziell<br />

B = Ω und T = Tx für ein x ∈ E, so ist T wegen der Rekurrenz von X fast sicher endlich<br />

und es folgt<br />

Pπ[X ∈ A] = Px[X ∈ A].<br />

Weiter ist mit (7.3), angewendet auf T = t,<br />

Pπ[X ∈ A] = PXt[X ∈ A] = Pπ[X ∈ A|X0, ..., Xt] t→∞<br />

−−−→ Pπ[X ∈ A|X0, X1, ...] = 1 {X∈A}.<br />

Insbesondere ist Pπ[X ∈ A] ∈ {0, 1}, d.h. I ist trivial und X ist ergodisch.<br />

Korollar 7.13. Für dieselbe Situation wie in Proposition 7.12 gilt<br />

1<br />

t<br />

t�<br />

t→∞<br />

1 {Xs=x} −−−→fs π(x). (7.4) eq:corErg1<br />

s=0<br />

Bemerkung 7.14. Man beachte, dass im (7.4) auf der linken Seite die mittlere Zeit steht, zu<br />

der von X der Wert x angenommen wurde und auf der rechten Seite die Wahrscheinlichkeit,<br />

mit der man im Gleichgewicht den Prozess in x beobachtet. Man sagt hier auch, dass das<br />

Zeitmittel gleich dem Raummittel wird.<br />

Beweis. Mit X ist auch (1 {Xt=x})t∈I ergodisch. Damit folgt die Aussage aus dem Ergodensatz,<br />

Theorem 7.5.


Kapitel 8<br />

Schwache Konvergenz<br />

In diesem Kapitel sei (E, r) ein metrischer Raum. Manchmal werden wir voraussetzen, dass<br />

er vollständig (jede Cauchy-Folge konvergiert) und separabel (es gibt eine abzählbare dichte<br />

Teilmenge) ist. Alle Maße sind hierbei definiert auf der Borelschen σ-Algebra B(E) von E.<br />

Wir werden in diesem und im nächsten Kapitel durchgehend P[f] := � fdP schreiben.<br />

8.1 Definition und einfache Eigenschaften<br />

Definition 8.1. 1. Wir bezeichnen mit P(E) die Menge der Wahrscheinlichkeitsmaße auf<br />

E und P≤1(E) die Menge finiten Maße µ mit µ(E) ≤ 1. Weiter ist Cb(E) die Menge der<br />

beschränkten, stetigen Funktionen auf E und Cc(E) die Menge der beschränkten stetigen<br />

Funktionen af E mit kompaktem Träger.<br />

2. Eine Folge P1, P2, ... ∈ P(E) konvergiert schwach gegen P ∈ P(E), falls<br />

für alle f ∈ Cb(E). Wir schreiben dann<br />

Pn[f] n→∞<br />

−−−→ P[f] (8.1) eq:wc0a<br />

Pn n→∞<br />

===⇒ P<br />

3. Ist µ, µ1, µ2, ... ∈ P≤1 und gilt (8.1) nur für alle f ∈ Cc(E), der Menge aller beschränkter,<br />

stetiger, reelwertigen Funktionen mit kompaktem Träger, so sagen wir, µn konvergiert<br />

vage gegen µ. Wir schreiben dann<br />

µn n→∞<br />

===⇒v µ.<br />

4. Seien X, X1, X2, ... Zufallsvariablen auf Wahrscheinlichkeitsräumen<br />

(Ω, A, P), (Ω1, A1, P1), (Ω2, A2, P2), ... mit Werten in E. Dann konvergiert X1, X2, ... in<br />

Verteilung gegen X, falls (Xn)∗Pn n→∞<br />

===⇒ X∗P. Wir schreiben dann<br />

Xn n→∞<br />

===⇒ X.<br />

rem:wc1 Bemerkung 8.2. 1. Man beachte, dass für Zufallsvariablen X, X1, X2, ... mit Werten in<br />

E genau dann Xn n→∞<br />

===⇒ X gilt, wenn<br />

für alle f ∈ Cb(E) gilt.<br />

P[f(Xn)] n→∞<br />

−−−→ P[f(X)]<br />

59


KAPITEL 8. SCHWACHE KONVERGENZ 60<br />

2. Der schwache Limes von Wahrscheinlichkeitsmaßen muss wieder ein Wahrscheinlichkeitsmaß<br />

sein, da 1 ∈ Cb(E).<br />

3. Wir kennen bereits die fast sicher Konvergenz, die stochastische und die Konvergenz in<br />

L p von Zufallsvariablen X1, X2, ... gegen X. Entscheidender Unterschied zur Konvergenz<br />

in Verteilung ist, dass letztere nicht voraussetzt, dass die Zufallsvariablen auf demselben<br />

Wahrscheinlichkeitsraum definiert sind.<br />

4. Zur Motivation hinter der Definition der schwachen Konvergenz sei an folgendes Faktum<br />

erinnert: in metrischen Räumen ist xn n→∞<br />

−−−→ x genau dann wenn f(xn) n→∞<br />

−−−→ f(x) für<br />

alle stetigen Funktionen auf E.<br />

5. Nach Definition ist die Topologie der schwachen Konvergenz auf P(E) die schwächste<br />

(d.h. die kleinste) Topologie, für die P ↦→ P[f] für alle f ∈ Cb(E) stetig ist.<br />

6. Der schwache Limes von Wahrscheinlichkeitsmaßen ist eindeutig, falls (E, r) vollständig<br />

und separabel ist. Dies kann man mit Hilfe von Satz 11.5 aus der Wahrscheinlichkeitstheorie<br />

zeigen.<br />

ex:83 Beispiel 8.3. 1. Seien X, X1, X2, ... identisch verteilt. Dann ist Xn n→∞<br />

===⇒ X, jedoch gilt<br />

die Konvergenz im allgemeinen weder fast sicher, noch stochastisch oder in L p .<br />

2. Wie wir noch sehen werden, ist der zentrale Grenzwertsatz, den wir in Kapitel 10 kennenlernen<br />

werden, ein Resultat über Konvergenz in Verteilungen. In seiner einfachsten<br />

Form, dem Satz von deMoivre-Laplace, besagt dieser: sei Xn ∼ Binom(n, p), n = 1, 2, ...<br />

und X ∼ N(0, 1). Dann gilt<br />

Xn − np<br />

� np(1 − p)<br />

n→∞<br />

===⇒ X.<br />

3. Ebenso ist die Poisson-Approximation der Binomialverteilung eine Aussage über Konvergenz<br />

in Verteilung: sei Xn ∼ Binom(n, pn), n = 1, 2, ... mit n · pn n→∞<br />

−−−→ λ und<br />

X ∼ Poi(λ). Dann gilt<br />

Xn n→∞<br />

===⇒ X.<br />

Eine Folge von Zufallsvariablen kann fast sicher, in Wahrscheinlichkeit, in L p oder in Verteilung<br />

konvergieren. Die schwache Konvergenz ist der schwächste dieser Begriffe in folgendem<br />

Sinne.<br />

p:wc1 Proposition 8.4 (Konvergenz in Wahrscheinlichkeit und in Verteilung). Seien X, X1, X2, ...<br />

Zufallsvariablen auf (Ω, A, P) mit Werten in E. Falls Xn n→∞<br />

−−−→p X, so auch Xn n→∞<br />

===⇒ X. Ist<br />

X konstant, so gilt auch die Umkehrung.<br />

Beweis. Sei Xn n→∞<br />

−−−→p X. Angenommen, es gäbe ein f ∈ Cb(S) so, dass limn→∞ P[f(Xn)] �=<br />

P[f(X)]. Dann gibt es eine Teilfolge (nk)k=1,2,... und ein ε > 0 mit<br />

lim |P[f(Xnk )] − P[f(X)]| > ε. (8.2) eq:wc3<br />

k→∞<br />

Wegen Xn n→∞<br />

−−−→p X und Proposition 1.21 gibt es eine Teilfolge (nkℓ )ℓ=1,2,..., so dass Xnk ℓ<br />

X fast sicher. Wegen majorisierter Konvergenz wäre damit auch<br />

lim<br />

ℓ→∞ P[f(Xnk )] = P[f(X)]<br />

ℓ<br />

ℓ→∞<br />

−−−→


KAPITEL 8. SCHWACHE KONVERGENZ 61<br />

im Widerspruch zu (8.2).<br />

Falls X = s ∈ S, ist x ↦→ r(x, s) ∧ 1 eine beschränkte, stetige Funktion und damit<br />

Also gilt Xn n→∞<br />

−−−→p X wegen (1.1).<br />

P[r(Xn, s) ∧ 1] n→∞<br />

−−−→ P[r(X, s) ∧ 1] = 0.<br />

T:port Theorem 8.5 (Portmanteau Theorem). Seien X, X1, X2, ... Zufallsvariablen mit Werten in<br />

E. Folgende Bedingungen sind äquivalent:<br />

(i) Xn n→∞<br />

===⇒ X<br />

(ii) P[f(Xn)] n→∞<br />

−−−→ E[f(X)] für alle beschränkten, Lipschitz-stetigen Funktionen f.<br />

(iii) lim inf<br />

n→∞ P{Xn ∈ G} ≥ P{X ∈ G} für alle offenen G ⊆ E.<br />

(iv) lim sup P{Xn ∈ F } ≤ P{X ∈ F } für alle abgeschlossenen F ⊆ E.<br />

n→∞<br />

(v) lim<br />

n→∞ P{Xn ∈ B} = P{X ∈ B} für alle B ∈ B(E) mit 1 P{X ∈ ∂B} = 0.<br />

Beweis. (i) ⇒ (ii): klar<br />

(ii) ⇒ (iv) Sei F ⊆ E abgeschlossen und f1, f2, ... Lipschitz-stetig, so dass fk ↓ 1F . (Beispielsweise<br />

wählt man εk ↓ 0 und fk(x) = (1 − 1<br />

εk r(x, F )) ∨ 0, wobei r(x, F ) := infy∈F r(x, y).)<br />

Damit gilt<br />

lim sup P{Xn ∈ F } ≤ inf lim sup P[fk(Xn)] = inf<br />

n→∞<br />

k=1,2,... n→∞<br />

k=1,2,... P[fk(X)] = P{X ∈ F }.<br />

(iii) ⇐⇒ (iv) Das ist klar. Man muss in der Richtung (iii) ⇒ (iv) nur F := E \ G und in<br />

der Richtung (iv) ⇒ (iii) analog G := E \ F setzen.<br />

(iii) ⇒ (i) Sei f ≥ 0 stetig. Wegen Fatou’s Lemma ist damit<br />

� ∞<br />

� ∞<br />

P[f(X)] =<br />

0<br />

P{f(X) > t}dt ≤<br />

0<br />

lim inf<br />

n→∞ P{f(Xn)<br />

� ∞<br />

> t}dt<br />

≤ lim inf<br />

n→∞<br />

P{f(Xn) > t}dt = lim inf<br />

n→∞ P[f(Xn)].<br />

Für −c < f < c gilt damit, da −f + c ≥ 0 ist,<br />

0<br />

lim sup P[f(Xn)] = c − lim inf<br />

n→∞<br />

n→∞ P[−f(Xn) + c] ≤ c − P[−f(X) + c] = P[f(X)]<br />

≤ lim inf<br />

n→∞ P[f(Xn)],<br />

also P[f(Xn)] n→∞<br />

−−−→ P[f(X)].<br />

(iii), (iv) ⇒ (v) Für B ∈ B(E) ist<br />

P{X ∈ B ◦ } ≤ lim inf<br />

n→∞ P{Xn ∈ B ◦ } ≤ lim sup P {Xn ∈ ¯ B} ≤ P{X ∈ ¯ B}.<br />

Gegeben P{X ∈ ∂B} = P{X ∈ ¯ B}−P{X ∈ B ◦ } = 0, ist damit P{Xn ∈ B} n→∞<br />

−−−→ P{X ∈ B}.<br />

n→∞<br />

1 Für den Abschluss ¯ B und das Innere B ◦ bezeichne hier ∂B := ¯ B \ B ◦ den Rand von B.


KAPITEL 8. SCHWACHE KONVERGENZ 62<br />

(v) ⇒ (iv) Angenommen, (v) trifft zu und F ⊆ E ist abgeschlossen. Wir schreiben F ε :=<br />

{x ∈ E : r(x, F ) ≤ ε} für ε > 0. Die Mengen ∂F ε ⊆ {x; r(x, F ) = ε} sind disjunkt, also gilt<br />

P{X ∈ ∂F ε } = 0 (8.3) eq:wc3g<br />

für Lebesgue-fast jedes ε. Sei ε1, ε2, ... eine Folge mit εk ↓ 0, so dass (8.3) für alle ε1, ε2, ...<br />

gilt. Damit ist<br />

lim sup P{Xn ∈ F } ≤ inf lim sup P{Xn ∈ F<br />

n→∞<br />

k=1,2,... n→∞<br />

εk } = inf<br />

k=1,2,... P{X ∈ F εk } = P{X ∈ F }.<br />

cor:vertSch Korollar 8.6. Seien P, P1, P2, ... ∈ P(R) mit Verteilungsfunktionen F, F1, F2, .... Dann gilt<br />

Pn n→∞<br />

===⇒ P genau dann wenn Fn(x) n→∞<br />

−−−→ F (x) für alle Stetigkeitsstellen x von F .<br />

Bemerkung 8.7. In Beispiel 8.3 hatten wir behauptet, dass der Satz von deMoivre-Laplace<br />

eine Aussage über schwache Konvergenz macht. Man zeigt gewöhnlich, dass für B(n, p)verteilte<br />

Zufallsgrößen Xn gilt, dass<br />

�<br />

Xn − np<br />

P � ≤ x}<br />

np(1 − p) n→∞<br />

−−−→ Φ(x),<br />

wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Wie Korollar 8.6 zeigt,<br />

bedeutet das genau die Konvergenz in Verteilung gegen eine Standardnormalverteilung.<br />

Beweis. ’⇒’: Ist x eine Stetigkeitsstelle von F , so ist P{∂(−∞; x]} = P{x} = 0. Damit gilt<br />

nach Theorem 8.5 (Richtung (i) ⇒ (v)), dass<br />

Fn(x) = Pn{(−∞; x]} n→∞<br />

−−−→ P{(−∞; x]} = F (x).<br />

’⇐’: Nach Theorem 8.5 (Richtung (ii) ⇒ (i)) genügt es zu zeigen, dass Pn[f] n→∞<br />

−−−→ P[f] für<br />

alle beschränkten, Lipschitzfunktionen f. Œ nemhen wir an, dass |f| ≤ 1 und f Lipschitz-<br />

Konstante 1 hat. Für ε > 0 wähle N ∈ N und Stetigkeitspunkte y0 < ... < yN von F so, dass<br />

F (y0) < ε, F (yN) > 1−ε und F (yi)−F (yi−1) < ε für i = 1, ..., N. Dann ist Fn(yi) n→∞<br />

−−−→ F (yi)<br />

und<br />

also<br />

lim sup<br />

n→∞<br />

N−1 �<br />

f ≤ 1 (−∞,y0] + 1 (yN ,∞) + (f(yi) + ε)1 (yi,yi+1],<br />

i=1<br />

Pn[f] ≤ lim sup Fn(y0) + 1 − Fn(yN) +<br />

n→∞<br />

≤ 3ε +<br />

N�<br />

(f(yi) + ε)(Fn(yi) − Fn(yi−1)<br />

i=1<br />

N�<br />

f(yi)(F (yi) − F (yi−1)) ≤ 4ε + P[f]<br />

i=1<br />

Mit ε → 0 und durch Ersetzen von f mit 1 − f folgt Pn[f] n→∞<br />

−−−→ P[f].<br />

Bemerkung 8.8. Zwar ist die Konvergenz in Verteilung der schwächste Konvergenzbegriff.<br />

Jedoch besteht ein Zusammenhang mit der fast sicheren Konvergenz, wie folgendes Theorem<br />

zeigt.


KAPITEL 8. SCHWACHE KONVERGENZ 63<br />

Theorem 8.9 (Skorohod). Seien X, X1, X2, ... Zufallsvariablen mit Werten in einem<br />

n→∞<br />

vollständigen und separablen Raum E. Dann gilt Xn ===⇒ X genau dann, wenn es<br />

einen Wahrscheinlichkeitsraum gibt, auf dem Zufallsgrößen Y, Y1, Y2, ... definiert sind mit<br />

Yn n→∞<br />

−−−→fs Y und Y d = X, Y1 d = X1, Y2 d = X2, ...<br />

Beweis. ’⇐’: klar, da aus der fast sicheren die schwache Konvergenz nach Proposition 8.4<br />

folgt.<br />

’⇒’: Als Wahrscheinlichkeitsraum erweitern wir den Raum, auf dem X definiert ist, setzen<br />

also insbesondere Y = X. Sei zunächst E = {1, ..., m} endlich. Sei U uniform auf [0, 1] verteilt<br />

und unabhängig von Y . Wir setzen Yn = k falls U ≤ P{Xn=k}<br />

P{X=k} und so, dass Yn d = Xn. Da nach<br />

Voraussetzung P{Xn = k} n→∞<br />

−−−→ P{X = k}, folgt die fast sichere Konvergenz.<br />

Für allgemeines E wählen wir für jedes p eine Partition von E in Mengen B1, B2, ...<br />

in E mit P{Y ∈ ∂Bk} = 0 und Durchmesser höchstens 2 −p . Wähle m groß genug, damit<br />

P{Y /∈ B0} < 2 −p mit B0 := E\ �<br />

k≤m Bk. Für k = 1, 2, ..., definiere Zufallsgrößen � Z, � Z1, � Z2, ...<br />

so, dass � Z = k genau dann, wenn Y ∈ Bk und � Zn = k wenn Yn ∈ Bk. Dann gilt � Zn n→∞<br />

===⇒ � Z.<br />

Da � Z, � Z1, ... nur Werte in einer endlichen Menge annehmen, können wir damit Zufallsgrößen<br />

Z, Z1, Z2, ... definieren mit Zn n→∞<br />

−−−→fs Z. Weiter seien Wn,k Zufallsgrößen mit Verteilung<br />

P[Xn ∈ .|Xn ∈ Bk] und � Yn,p = �<br />

k Wn,k1 {Zn=k}, so dass � Yn,p d = Xn für alle n. Klar ist nun<br />

�<br />

r( � Yn,p, Y ) > 2 −p�<br />

⊆ {Zn �= Z} ∪ {Y ∈ B0}.<br />

Da Zn n→∞<br />

−−−→fs Z und P{Y ∈ B0} < 2−p , gibt es für jedes p Zahlen n1 < n2 < ... mit<br />

� � �<br />

P r( Yn,p, � Y ) > 2 −p��<br />

< 2 −p<br />

n≥np<br />

für alle p. Mit dem Borel-Cantelli-Lemma bekommen wir<br />

sup r(<br />

n≥np<br />

� Yn,p, Y ) ≤ 2 −p<br />

für fast alle p. Wir definieren also Yn := � Yn,p für np ≤ n < np+1 und beachten, dass Xn d =<br />

Yn n→∞<br />

−−−→fs Y .<br />

8.2 Der Satz von Helly<br />

In diesem Abschnitt beleuchten wir den Begriff der vagen Konvergenz. Dabei werden wir uns<br />

auf den Raum E = R d beschränken. Klar ist schon, dass aus der schwachen Konvergenz von<br />

Verteilungen die vage folgt, und dass für d = 1 die schwache Konvergenz äquivalent mit der<br />

Konvergenz der Verteilungsfunktionen ist (Korollar 8.6). Zunächst erweitern wir den Begriff<br />

der Verteilungsfunktion für Maße auf R d .<br />

Definition 8.10. 1. Für x, y ∈ Rd sei x ≤ y genau dann, wenn xi ≤ yi, i = 1, ..., d. In<br />

diesem Fall bezeichnet (x; y] := �d i=1 (xi; yi]. Wir bezeichnen mit ∞ = (∞, ..., ∞) und<br />

−∞ = (−∞, ..., −∞)<br />

2. Eine Funktion F auf R d heißt rechtsstetig, falls F (y) y↓x<br />

−−→ F (x) für alle x ∈ R d .


KAPITEL 8. SCHWACHE KONVERGENZ 64<br />

3. Sei µ ∈ P≤1(R d ). Dann ist die Verteilungsfunktion von µ gegeben durch<br />

Dann gilt für x ≤ y, dass<br />

µ((x; y]) =<br />

F (x) := µ((−∞; x]).<br />

�<br />

u Ecke von (x;y]<br />

Die rechte Seite bezeichnen wir mit F ((x; y]).<br />

(−1) |{k:uk=yk}| F (u).<br />

Ohne Beweis stellen wir zwei Resultate zusammen, die Bekanntes über Verteilungsfunktionen<br />

für Maße auf R auf Maße auf R d erweitern.<br />

Theorem 8.11. Eine Funktion F : Rd → [0, 1] ist genau dann Verteilungsfunktion eines<br />

Wahrscheinlichkeitsmaßes P auf Rd , falls sie rechtsstetig ist und F (x) x→−∞<br />

−−−−→ 0, F (x) x→∞<br />

−−−→<br />

1.<br />

l:326 Korollar 8.12. Sei F eine rechtsstetige Funktion auf R d mit nicht-negativen Inkrementen.<br />

Dann gibt es ein Maß µ auf R d mit µ((x; y]) = F ((x; y]), x ≤ y.<br />

T:Helly Theorem 8.13 (Satz von Helly). Sei P1, P2, ... ∈ P(Rd ). Dann gibt es eine Teilfolge (nk)k=1,2,...<br />

und ein µ ∈ P≤1(Rd ) mit Pnk<br />

k→∞<br />

===⇒v µ.<br />

ex:vc1 Beispiel 8.14. Betrachte die Wahrscheinlichkeitsmaße δ0, δ1, .... Dann gilt δn n→∞<br />

===⇒v 0. Wir<br />

bemerken jedoch, dass δ1, δ2, .. nicht schwach gegen das Nullmaß konvergieren, siehe Bemerkung<br />

8.2.2.<br />

Beweis. Seien F1, F2, ... die Verteilungsfunktionen von P1, P2, .... Weiter sei (x1, x2, ...) eine<br />

Abzählung von Q d . Da [0, 1] kompakt ist, gibt es zu jeder Folge (Fn(xi))n=1,2,... eine konvergente<br />

Teilfolge. Mittels eines Diagonal-Argumentes gibt es eine Folge (nk)k=1,2,..., so dass<br />

Fnk (xi))k=1,2,... für alle i gegen einen Limes G(xi) auf Q d konvergiert. Wir definieren<br />

F (x) := inf{G(r) : r ∈ Q d , r > x}.<br />

Da alle Fn und damit G nicht-negative Zuwächse haben, gilt dasselbe für F . Aus der Definition<br />

von F und der Monotonie von G folgt weiter, dass F rechtsstetig ist. Nach Korollar 8.12 gibt<br />

es ein Maß µ auf Rd mit µ((x, y]) = F ((x; y]) für alle x, y ∈ Rd , x ≤ y. Es bleibt zu zeigen,<br />

dass Pn[f] n→∞<br />

−−−→ µ[f] für alle f ∈ Cc(Rd ). Œ können wir annehmen, dass f ≥ 0 ist.<br />

Es ist Fn(x) n→∞<br />

−−−→ F (x) an allen Stetigkeitsstellen x von F nach Konstruktion. Es gibt<br />

abzählbare Mengen D1, ..., Dd ⊆ R, so dass F auf C := Dc 1 × · · · × Dc d stetig ist. Damit<br />

ist Pn(U) n→∞<br />

−−−→ µ(U) für alle endlichen Vereinigungen U von Rechtecken mit Ecken in C.<br />

Sei nun B ⊆ Rd offen und beschränkt. Seien U1, U2, ... und V1, V2, ... Folgen von endlichen<br />

Vereinigungen von offenen Rechtecken mit Ecken in C, so dass Uk ↑ B, Vk ↓ ¯ B. Dann gilt<br />

µ(B) = lim<br />

k→∞ µ(Uk) = lim lim inf<br />

k→∞ n→∞ Pn(Uk) ≤ lim inf<br />

n→∞ Pn(B)<br />

≤ lim sup<br />

n→∞<br />

Pn(B) ≤ lim<br />

k→∞<br />

lim sup Pn(Vk) = lim<br />

n→∞<br />

k→∞ µ(Vk) = µ( ¯ B).


KAPITEL 8. SCHWACHE KONVERGENZ 65<br />

Da µ{f = t} > 0 für höchstens abzählbar viele t, und da Pn{f > t} ≤ 1t≥||f||, folgt mit<br />

majorisierter Kovergenz<br />

� ∞<br />

� ∞<br />

µ[f] =<br />

0<br />

µ{f > t}dt ≤<br />

0<br />

lim inf<br />

n→∞ Pn{f<br />

� ∞<br />

> t}dt = lim inf<br />

n→∞<br />

0<br />

Pn{f > t}dt = lim inf<br />

n→∞ En[f]<br />

� ∞<br />

� ∞<br />

� ∞<br />

≤ lim sup Pn[f] = lim sup<br />

n→∞<br />

n→∞<br />

= µ[f]<br />

0<br />

Pn{f > t}dt =<br />

0<br />

lim sup Pn{f > t}dt ≤<br />

n→∞<br />

0<br />

µ{f ≥ t}<br />

8.3 Der Satz von Prohorov<br />

Um die schwache Konvergenz von Wahrscheinlichkeitsmaßen festzustellen, ist Theorem 8.5<br />

hilfreich. Wir wenden uns nun der Frage zu, ob eine Folge von Wahrscheinlichkeitsmaßen<br />

überhaupt einen Häufungspunkt haben kann. Im Sinne der vagen Konvergenz von Wahrscheinlichkeitsmaßen<br />

auf R d besagt der Satz von Helly, dass jede Folge einen Häufungspunkt<br />

besitzt. Jedoch, siehe Beispiel 8.14, kann es sein, dass das Grenzmaß kein Wahrscheinlichkeitsmaß<br />

ist. Allerdings zeigt nachfolgendes Resultat, dass das Grenzmaß zumindest Gesamtmasse<br />

höchstens 1 besitzt.<br />

Lemma 8.15. Sei P1, P2, ... ∈ P(R d ) und µ ∈ P≤1(R d ) mit Pn n→∞<br />

===⇒v µ, so gilt µ(R d ) ≤ 1.<br />

Beweis. Sei f1, f2, ... ∈ Cc(E) mit fk ↑ 1. Dann gilt<br />

µ(R d ) = sup<br />

k∈N<br />

µ[fk] = sup<br />

k∈N<br />

lim sup Pn[fk] ≤ 1.<br />

n→∞<br />

Um die Existenz von Häufungspunkten im Sinne der schwachen Konvergenz zu zeigen, muss sichergestellt<br />

sein, dass Grenzmaße wieder Wahrscheinlichkeitsmaße sind, also beim Grenzübergang<br />

keine Masse verloren geht. Hierbei ist das Konzept der Straffheit zentral.<br />

Definition 8.16 (Straffheit). Sei K die Menge aller kompakten Mengen in E. Eine Familie<br />

(µi)i∈I in P(E) ist straff, falls<br />

sup inf<br />

i∈I µi(K) = 1.<br />

K∈K<br />

Eine Familie (Xi)i∈I von E-wertigen Zufallsvariablen ist straff, falls ((Xi)∗P)i∈I straff ist,<br />

d.h.<br />

sup inf<br />

i∈I P{Xi ∈ K} = 1.<br />

K∈K<br />

rem:tight Bemerkung 8.17. 1. Sei (E, r) vollständig und separabel. Für µ ∈ P(E) ist dann {µ}<br />

nach Theorem 11.5 der Wahrscheinlichkeitstheorie I von innen K-regulär, also straff.<br />

Damit ist auch jede endliche Menge von Wahrscheinlichkeitsmaßen straff.<br />

2. Ist I = {1, 2, ...}, so kann man in obiger Definition inf durch lim inf ersetzen.


KAPITEL 8. SCHWACHE KONVERGENZ 66<br />

3. Falls E = R d , ist eine Familie (µi)i∈I genau dann straff, wenn<br />

sup inf<br />

r>0 i∈I µi(Br(0)) = 1,<br />

wobei Br(0) die Kugel um 0 mit Radius r ist.<br />

Beispiel 8.18. 1. Ist E kompakt, so ist jede Familie von Wahrscheinlichkeitsmaßen auf<br />

E straff.<br />

2. Eine Familie (Xi)i∈I von reellen Zufallsvariablen mit<br />

ist straff. Denn es gilt<br />

sup P[|Xi|] < ∞,<br />

i∈I<br />

inf<br />

r>0 sup P{|Xi| ≥ r} ≤ inf<br />

i∈I<br />

r>0 sup<br />

P[|Xi|]<br />

= 0.<br />

i∈I r<br />

3. Die Famiilie (δn)n=1,2,..., wobei δn das Dircamaße auf n ist, ist nicht straff.<br />

l:wc1 Lemma 8.19. Seien P1, P2, ... ∈ P(R d ) und µ ∈ M(R d ) mit<br />

Dann ist<br />

In diesem Fall gilt Pn n→∞<br />

===⇒ µ.<br />

Pn n→∞<br />

===⇒v µ.<br />

µ(R d ) = 1 ⇐⇒ (Pn)n=1,2,... ist straff.<br />

Beweis. Für r > 0 wähle ein gr ∈ Cc(Rd ), 1Br(0) ≤ gr ≤ 1Br+1(0). Dann ist (Pn)n=1,2,... genau<br />

dann straff, wenn<br />

sup lim inf<br />

r>0 n→∞ Pn[gr] = 1.<br />

’⇒’: Es gilt<br />

1 = sup<br />

r>0<br />

µ(Br(0)) ≤ sup<br />

r>0<br />

’⇐’: Sei (Pn)n=1,2,.. straff. Dann folgt<br />

1 ≥ µ(R d ) = sup<br />

r>0<br />

µ(Br(0)) = sup<br />

r>0<br />

µ[gr] = sup lim inf<br />

r>0 n→∞ Pn[gr] ≤ 1.<br />

µ[gr] = sup lim inf<br />

r>0 n→∞ Pn[gr] = 1.<br />

Angenommen, (Pn)n=1,2,... ist straff und f ∈ Cb(Rd ). Dann gilt<br />

� �<br />

lim sup |Pn[f] − µ[f]| ≤ inf lim sup |Pn[f − fgr]| + |Pn[fgr]| − µ[fgr]| + |µ[f − fgr]|<br />

n→∞<br />

r>0 n→∞<br />

≤ ||f|| inf<br />

r>0<br />

lim sup<br />

n→∞<br />

Pn(Br(0) c ) + inf<br />

r>0 µ[Br(0) c ] = 0.<br />

cor:wc2 Korollar 8.20. Seien P, P1, P2, ... ∈ P(R d ). Falls Pn n→∞<br />

===⇒ P, so ist (Pn)n∈N straff.


KAPITEL 8. SCHWACHE KONVERGENZ 67<br />

Beweis. Da aus der schwache Konvergenz von P1, P2, ... gegen P, die vage Konvergenz folgt,<br />

gelten für P, P1, P2, ... die Voraussetzungen von Lemma 8.19 und P(R d ) = 1. Also ist (Pn)n∈N<br />

straff.<br />

T:prohorov Theorem 8.21 (Satz von Prohorov). Seien P1, P2, ... ∈ P(E). Ist (Pn)n∈N straff, so hat jede<br />

Teilfolge von (Pn)n∈N eine schwach konvergente Teilfolge. Ist E vollständig und separabel, so<br />

gilt auch die Umkehrung.<br />

Bemerkung 8.22. Wir zeigen das Theorem nur für den Spezialfall E = R d . Den allgemeinen<br />

Satz liest man in Lehrbüchern, etwa von Klenke oder Kallenberg nach.<br />

Beweis. Nach Theorem 8.13 hat P1, P2, ... eine Teilfolge, die vage konvergiert.<br />

’⇒’: Falls (Pn)n=1,2,... straff ist, gilt mit Lemma 8.19 auch die schwache Konvergenz der<br />

Teilfolge.<br />

’⇐’: Sei andersherum (Pn)n=1,2,... nicht straff, so gibt es ein ε > 0, so dass für jedes k > 0 ein<br />

nk gibt<br />

Pnk (Bk(0) c ) > ε (8.4) eq:wc8<br />

für alle k. Nach Voraussetzung hat die Folge (nk)k=1,2,... eine Teilfolge (nkℓ )ℓ=1,2,..., so dass<br />

(Pnk ℓ )ℓ=1,2,... schwach konvergiert. Nach Korollar 8.20 ist damit (Pnk ℓ )ℓ=1,2,... straff. Insbesondere<br />

gibt es ein r, so dass<br />

Pnk ℓ (Br(0) c ) < ε<br />

für alle ℓ. Das ist für k > r aber ein Widerspruch zu (8.4).<br />

8.4 Anwendung: Der Satz von deFinetti<br />

Bereits bekannt sind unabhängige, identisch verteilte Zufallsgrößen. Dieses Konzept erweitern<br />

wir zu austauschbaren Zufallsgrößen. Diese sind zwar identisch verteilt, jedoch auf eine<br />

bestimmte Art und Weise abhängig.<br />

Definition 8.23. 1. Sei Σ die Menge aller Permutationen ρ auf N mit ρ(i) �= i für<br />

höchstens endlich viele i. Eine Familie X1, X2, ... von Zufallsvariablen heißt austauschbar,<br />

falls<br />

für alle ρ ∈ Σ.<br />

2. Seien P, Q ∈ P(E). Dann definiert<br />

(X ρ(i))i=1,2,... d = (Xi)i=1,2,... (8.5) eq:ex1<br />

rT V (P, Q) := sup<br />

A∈B(E)<br />

|P(A) − Q(A)|<br />

den Totalvariantionsabstand der Maße P und Q.<br />

ex:dF1 Beispiel 8.24. 1. Sei X1, X2, ... austauschbar. Dann sind die X1, X2, ... identisch verteilt.<br />

Das folgt aus (8.5) für n = 1.


KAPITEL 8. SCHWACHE KONVERGENZ 68<br />

2. Jede unabhängige, identisch verteilte Familie von Zufallsgrößen ist austauschbar.<br />

3. Angenommen, man hat I Münzen mit verschiedenen Wahrscheinlichkeiten, Kopf zu<br />

zeigen, zur Auswahl. Man wählt eine Münze nach einer Verteilung auf I aus und<br />

führt anschließend einen unendlichen, unabhängigen Münzwurf durch. Bezeichne dann<br />

X1, X2, ... die Ergebnisse dieses Münzwurfs. Diese Folge von Zufallsgrößen ist zwar nicht<br />

unabhängig, aber austauschbar.<br />

4. Das letzte Beispiel verallgemeinert man folgendermaßen: sei ξ ∈ P(P(E)) (ξ bestimmt<br />

die zufällige Wahrscheinlichkeit, mit der die gezogene Münze Kopf zeigt.) Gegeben ξ,<br />

seien X1, X2, ... unabhängig und so verteilt wie ξ. Dann sind X1, X2, ... austauschbar.<br />

Denn für ρ ∈ ΣN und A ∈ B(E N ) ist<br />

P � (X ρ(i))i=1,2,... ∈ A � = P � P � (X ρ(i))i=1,2,... ∈ A|ξ ��<br />

= P � P � (Xi)i=1,2,... ∈ A|ξ �� = P � (Xi)i=1,2,... ∈ A �<br />

5. Sei I = {1, ..., N} und X1, ..., XK die Ergebnisse des Ziehens ohne Zurücklegen aus einer<br />

Urne mit farbigen Kugeln. Dann sind X1, ..., XK austauschbar, aber nicht unabhängig.<br />

Lemma 8.25. Seien P, Q ∈ P(E) und f ∈ Cb(E). Dann gilt<br />

Beweis. Zunächst stellt man fest, dass<br />

|P[f] − Q[f]| ≤ 2||f||∞ · rT V (P, Q).<br />

rT V (P, Q) = 1<br />

2 sup |P[f] − Q[f]| (8.6) eq:dF1<br />

f:||f||∞≤1<br />

gilt. Denn:<br />

’≤’: Klar, da für jede Indikatorfunktion 1A die Funktion 2 · 1A − 1 in {f : ||f|| ≤ 1} ist.<br />

’≥’: Durch Übergang von f zu −f kann man Œ die Betragsstriche auf der rechten Seite<br />

weglassen. Œ ist |f| = 1 überall. Falls z.B. A := {0 ≤ f < 1} �= ∅ oder B := {−1 < f < 0} �= ∅<br />

mit P(A) > Q(A) und P(B) < Q(B), so setzen wir g = f auf A c ∩B c , g = 1 auf A und g = −1<br />

auf B. Damit ist |g| = 1 und<br />

P[g] − Q[g] > P[f] − Q[f].<br />

Da also Π|f| = 1, folgt die Behauptung durch Einsetzen von f<br />

||f||<br />

in (8.6).<br />

l:dF1 Lemma 8.26. Eine Teilmenge M ⊆ P(P(E)) ist genau dann straff, wenn für jedes ε > 0<br />

eine kompakte Menge K = Kε ⊆ E existiert mit<br />

inf<br />

ξ∈M ξ(�P ∈ P(E) : P(K) > 1 − ε � ) > 1 − ε<br />

Beweis. ’⇒’: Sei ε > 0. Es gibt eine kompakte Menge K ⊆ P(E), so dass<br />

inf ξ(K) > 1 − ε.<br />

ξ∈M<br />

Da K kompakt ist, gibt es zu jeder Teilfolge in K eine konvergente Teilfolge und damit ist K<br />

straff. Also gibt es ein K ⊆ E mit<br />

inf P(K) > 1 − ε.<br />

P∈K


KAPITEL 8. SCHWACHE KONVERGENZ 69<br />

Damit ist also<br />

inf<br />

ξ∈M ξ(�P ∈ P(E) : P(K) > 1 − ε � ) ≥ inf ξ(K) > 1 − ε.<br />

ξ∈M<br />

’⇐’: Sei ε > 0. Wir bezeichnen K = Kε wie angegeben. Dann ist die Menge<br />

K := {P ∈ P(E) : P(K c ε2 −n) ≤ ε2 −n , n > 0}<br />

straff. Nach dem Satz von Prohorov ist sie damit relativkompakt, ihr Abschluss also kompakt.<br />

Es gilt<br />

Damit ist M straff.<br />

sup<br />

ξ∈M<br />

ξ(K c ) ≤ �<br />

ξ({P ∈ P(E) : P(K c ε2−n) > ε2 −n } ≤ ε<br />

n<br />

Theorem 8.27 (deFinetti). Eine Familie X1, X2, ... von Zufallsvariablen mit Werten in E ist<br />

genau dann austauschbar, wenn es eine P(E)-wertige Zufallsgröße Ξ gibt mit der Eigenschaft:<br />

gegeben Ξ ist X1, X2, ... unabhängig, identisch verteilt mit Verteilung Ξ.<br />

Beweis. ’⇐’: Klar, siehe Beispiel 8.24.<br />

’⇒’: Für x = (x1, x2, ...) ∈ EN sei ξn(x) = 1<br />

n<br />

x1, ..., xn und<br />

µn,k := ξn(x) ⊗k = n −k<br />

�n δxi i=1 ∈ P(E) die empirische Verteilung von<br />

n�<br />

i1,...,ik=1<br />

δ (xi 1 ,...,xi k ) ∈ P(E k )<br />

die Verteilung des k-fachen Ziehens aus x mit Zurücklegen und<br />

n�<br />

(n − k)!<br />

νn,k :=<br />

n!<br />

i 1 ,...,i k =1<br />

ij�=i j ′<br />

δ (xi 1 ,...,xi k ) ∈ P(E k ), n ≥ k<br />

die Verteilung des k-fach Ziehens aus x ohne Zurücklegen. Für jedes x ∈ E N gilt<br />

rT V (µn,k(x), νn,k(x)) ≤ n −k |{(i1, ..., ik) : ij = ij ′ für ein Paar j, j′ }| ≤<br />

k(k − 1)<br />

,<br />

n<br />

d.h.<br />

lim<br />

n→∞ sup<br />

x∈EN rT V (µn,k(x), νn,k(x)) = 0.<br />

Das ist die intuitiv klare Aussage, dass für große Grundgesamtheiten das Ziehen ohne und<br />

mit Zurücklegen fast dieselben Wahrscheilichkeiten liefern.<br />

Sei nun F (x1, ..., xk) = f1(x1) · · · fk(xk) mit f1, ..., fk ∈ Cb(E). Damit gilt, da die X1, X2, ...<br />

austauschbar sind,<br />

P[f1(X1) · · · fk(Xk)] = P[F (X1, ..., Xk)] = P[F (Xi1 , ..., Xik )] = P�νn,k(X)[F ] �<br />

und damit<br />

�<br />

�<br />

�P[f1(X1) · · · fk(Xk)] − P � ξn(X)[f1] · · · ξn(X)[fk] �� � �<br />

=<br />

�<br />

�<br />

�P � νn,k(X)[F ] � − P � µn,k(X)[F ] �� � �<br />

k(k − 1)<br />

≤ 2 · ||F ||∞<br />

n<br />

n→∞<br />

−−−→ 0.


KAPITEL 8. SCHWACHE KONVERGENZ 70<br />

Da E vollständig und separabel ist, existiert zu ε > 0 eine kompakte Menge K ⊆ E mit<br />

P{X1 ∈ K c } < ε 2 . Damit ist<br />

P � ξn(X)(K c ) > ε � ≤ P[ξn(X)(K c )]<br />

ε<br />

= P{X1 ∈ K c }<br />

ε<br />

Nach Lemma 8.26 sind ξ1(X), ξ2(X), ... straff. Sei Ξ ein schwacher Häufungspunkt von<br />

ξ1(X), ξ2(X), ... entlang einer Folge n1, n2, .... Da die Abbildung ξ ↦→ ξ[F ] auf P(E) stetig<br />

und beschränkt ist, gilt<br />

≤ ε.<br />

P � Ξ ⊗k [F ] � = lim<br />

l→∞ P � ξnl (X)[f1] · · · ξnl (X)[fk] � = P[f1(X1) · · · fk(Xk)].<br />

Dieser Grenzwert hängt nicht mehr von der Teilfolge n1, n2, ... ab und ist somit eindeutig.<br />

Damit gilt<br />

P[f1(X1) · · · fk(Xk)] = P � Ξ[f1] · · · Ξ[fk] � .<br />

Dadurch ist die Verteilung von X1, X2, ... eindeutig beschrieben. Es folgt, dass, gegeben Ξ,<br />

die Zufallsvariablen X1, X2, ... unabhängig sind mit Verteilung Ξ.


Kapitel 9<br />

Charakteristische Funktionen und<br />

Laplace-Transformierte<br />

In diesem Abschnitt werden wir Kapital aus der allgemeinen Theorie der schwachen Konvergenz<br />

schlagen. Zunächst werden wir für allgemeine Räume das Konzept der separierenden<br />

Funktionenklasse vorstellen. Die Nützlichkeit der charakteristische Funktion und der Laplace-<br />

Transformierte von Verteilungen nutzen die Eigenschaft zweier bestimmter Funktionenklassen,<br />

separierend zu sein, aus.<br />

9.1 Einführung: Separierende Funktionenklassen<br />

In diesem Abschnitt sei (E, r) vollständig und separabel.<br />

Definition 9.1. 1. Eine Funktionenklasse M ⊆ Cb(E) heißt punkttrennend in E, falls es<br />

für alle x, y ∈ E mit x �= y ein f ∈ M gibt mit f(x) �= f(y).<br />

2. Eine Funktionenklasse M ⊆ Cb(E) heißt separierend in P(E), falls aus P, Q ∈ P(E)<br />

und<br />

P[f] = Q[f] für alle f ∈ M<br />

folgt, dass P = Q.<br />

Beispiel 9.2. 1. Die Funktionenklasse M := Cb(E) ist sowohl punktetrennend als auch<br />

separierend.<br />

2. Die Funktionenklasse {x ↦→ cx : c ∈ R} aller linearen Funktionen ist zwar punktetrennend,<br />

aber nicht separierend.<br />

Pr:wc3 Proposition 9.3 (Separierende Funktionenklasse und schwache Konvergenz). Sei (E, r) vollständig<br />

und separabel und P, P1, P2, ... ∈ P(E). Dann sind äquivalent:<br />

1. Pn n→∞<br />

===⇒ P.<br />

2. (Pn)n=1,2,... ist straff und es gibt eine separierende Familie M ⊆ Cb(E) mit<br />

Pn[f] n→∞<br />

−−−→ P[f] für alle f ∈ M.<br />

71


KAPITEL 9. CHARAKTERISTISCHE FUNKTION 72<br />

Beweis. 1. ⇒ 2. Nach Korollar 8.20 ist (Pn)n=1,2,... straff. Der zweite Teil von 2. gilt wegen<br />

der Definition der schwachen Konvergenz.<br />

2. ⇒ 1. Angenommen, (Pn)n=1,2,... ist straff und P1, P2, ... konvergiert nicht schwach gegen P.<br />

Dann gibt es ε > 0, ein f ∈ Cb(E) und eine Teilfolge (nk)k=1,2,..., so dass<br />

|Pnk [f] − P[f]| > ε für alle k. (9.1) eq:wc10<br />

Nach Theorem 8.21 gibt es eine Teilfolge (nkℓ )ℓ=1,2,... und ein Q ∈ P(E), so dass Pnk ℓ<br />

Wegen (9.1) ist<br />

|P[f] − Q[f]| ≥ | lim inf<br />

ℓ→∞<br />

� P[f] − Pnk ℓ [f]|) + lim inf<br />

ℓ→∞ (Pnk ℓ [f] − Q[f])| > ε,<br />

insbesondere also P �= Q. Andererseits haben wir für alle g ∈ M<br />

P[g] = lim<br />

ℓ→∞ Pnk ℓ [g] = Q[g].<br />

Da M separierend ist, ist dies ein Widerspruch und 1. ist gezeigt.<br />

ℓ→∞<br />

===⇒ Q.<br />

Das nächste Resultat benötigt das Stone-Weierstrass-Theorem, das wir zunächst wiederholen.<br />

Definition 9.4. Ein Mengensystem M ⊆ C(E) heißt Algebra, falls 1 ∈ M, sowie mit f, g<br />

und α, β ∈ R auch αf + βg, sowie fg in M enthalten sind.<br />

T:sw Theorem 9.5 (Stone-Weierstrass). Sei (E, r) kompakt und M ⊆ Cb(E) eine punktetrennende<br />

Algebra. Dann ist M dicht in Cb(E) bzgl. der Supremumsnorm.<br />

T:wc3 Theorem 9.6. Sei (E, r) vollständig und separabel. Ist M ⊆ Cb(E) punktetrennend und so,<br />

dass mit f, g ∈ M auch fg ∈ M. Dann ist M separierend.<br />

Beweis. Sei P, Q ∈ P(E). Œ ist 1 ∈ M, da P[1] = Q[1] immer gilt. Weiter ist M genau dann<br />

separierend wenn die von M erzeugt Algebra separierend ist. Also ist M Πeine Algebra. Sei<br />

ε > 0 und K kompakt, so dass P(K) > 1 − ε, Q(K) > 1 − ε. Für g ∈ Cb(E) gibt es nach dem<br />

Stone-Weierstrass Theorem 9.5 eine Folge (gn)n=1,2,... in M mit<br />

Nun,<br />

sup |gn(x) − g(x)|<br />

x∈K<br />

n→∞<br />

−−−→ 0. (9.2) eq:wc9<br />

�<br />

�P[ge −εg2<br />

] − Q[ge −εg2<br />

] � � ≤ � �P[ge −εg2<br />

] − P[ge −εg2<br />

; K] � �<br />

+ � �P[ge −εg2<br />

; K] − P[gne −εg2 n; K] � �<br />

+ � � P[gne −εg2 n; K] − P[gne −εg2 n] � �<br />

+ |P[gne −εg2 n] − Q[gne −εg2 n] � �<br />

+ � �Q[gne −εg2 n] − Q[gne −εg2 n; K] � �<br />

+ � �Q[gne −εg2 n] − Q[ge −εg2<br />

; K] � �<br />

+ � �Q[ge −εg2<br />

; K] − Q[ge −εg2<br />

] � �


KAPITEL 9. CHARAKTERISTISCHE FUNKTION 73<br />

Den ersten Term beschränken wir durch<br />

�<br />

�P[ge −εg2<br />

] − P[ge −εg2<br />

; K] � � ≤ C √ ε P(K c ) ≤ C √ ε<br />

mit C = supx≥0 xe−x2; analog den dritten, fünften und letzten. Der zweite und vorletzte<br />

Term konvergieren für n → ∞ gegen 0 wegen (9.2). Da M eine Algebra ist, kann gne−εg2 n<br />

durch Funktionen in M approximiert werden, womit auch der vierte Term für n → ∞ gegen<br />

0 konvergiert. Damit gilt<br />

�<br />

�P[g] − Q[g] � � = lim<br />

ε→0<br />

�<br />

�P[ge −εg2<br />

] − Q[ge −εg2<br />

] � √<br />

� ≤ 4C lim ε = 0.<br />

ε→0<br />

Da g beliebig war und Cb(E) separierend ist, folgt P = Q.<br />

9.2 Definition und einfache Eigenschaften<br />

Ab hier (bis zum Ende dieses <strong>Manuskript</strong>es) sei nun wieder E = R d , versehen mit der euklidischen<br />

Metrik auf R d .<br />

Definition 9.7. 1. Sei P ∈ P(Rd ). Dann ist die charakteristische Funktion von P gegeben<br />

durch<br />

�<br />

R<br />

ψP :=<br />

d t<br />

→ C<br />

↦→ P[eit. ]<br />

wobei tx := 〈t, x〉 das Skalarprodukt in R d ist und<br />

P[e it. ] := P[cos(t.)] + iP[sin(t.)].<br />

Die Laplace-Transformierte von P ist gegeben durch<br />

�<br />

R<br />

LP :=<br />

d → R<br />

t ↦→ P[e−t. ],<br />

gegeben das Integral auf der rechten Seite existiert. Diese wird meistens für Wahrscheinlichktitsmaße<br />

auf R+ betrachtet.<br />

2. Analog definiert man für R d -wertige Zufallsvariable X auf einem Wahrscheinlichkeitsraum<br />

(Ω, A, P) die charakteristische Funktion ψX := ψX∗P und die Laplace-Transformierte<br />

LX := LX∗P. Es gilt also für t ∈ R d<br />

ψX(t) := P[e itX ], und LX(t) := P[e −tX ].<br />

Die Nützlichkeit der charakteristischen Funktion und der Laplace-Transformierten ist darauf<br />

zurückzuführen, dass sie verteilungsbestimmend sind.<br />

Pr:char1 Proposition 9.8 (e it. is separierend). Die Menge {x ↦→ e itx ; t ∈ R d } ({x ↦→ e −tx ; t ∈ R d })<br />

ist separierend in P(R d ) (in P(R+))).<br />

Beweis. Beide Mengen bestehen aus beschränkten Funktionen, enthalten die 1, sind stabil<br />

unter Produktbildung und punktetrennend. Nach Theorem 9.6 folgt die Behauptung.


KAPITEL 9. CHARAKTERISTISCHE FUNKTION 74<br />

P:cf1 Proposition 9.9 (Eigenschaften von charkteristischen Funktionen). Seien X, Y Zufallsvariable<br />

mit Werten in R d und charakteristischen Funktionen ψX, ψY . Dann gilt<br />

1. |ψX(t)| ≤ 1 für jedes t ∈ R d und ψX(0) = 1.<br />

2. ψX ist gleichmäßig stetig.<br />

3. ψX ist genau dann reellwertig, wenn X symmetrisch ist, d.h. X d = −X.<br />

4. ψaX+b(t) = ψX(at)e ibt für alle a ∈ R, b ∈ R d .<br />

5. Sind X und Y unabhängig, so ist ψX+Y = ψX · ψY .<br />

Beweis. 1. ist klar. Für die gleichmäßige Stetigkeit sei erwähnt, dass<br />

Damit gilt 2. wegen<br />

|e ihx − 1| = � | cos(hx) + i sin(hx) − 1| 2 = � (cos(hx) − 1) 2 + sin(hx) 2<br />

= � 2(1 − cos(hx)) = 2| sin(hx/2)| ≤ |hx| ∧ 2.<br />

sup<br />

t∈Rd |ψX(t + h) − ψX(t)| = sup<br />

t∈Rd |P[e i(t+h)X − e itX ]| = sup<br />

t∈Rd |P[e itX (e ihX − 1)]|<br />

≤ P[|e ihX − 1|] ≤ P[|hX| ∧ 2] h→0<br />

−−−→ 0.<br />

Für 3. sei zunächst ψX reellwertig. Dann gilt (wobei x + iy := x−iy die Komplexkonjugation<br />

ist)<br />

ψ−X(t) = P[e −itX ] = P[e itX ] = ψX(t) = ψX(t).<br />

Wegen der Eindeutigkeit der charakteristischen Funktion aus Proposition 9.8 gilt also X d =<br />

−X. Falls umgekehrt X d = −X gilt, ist P[sin(hX)] = 0 für alle h, woraus direkt folgt, dass<br />

ψX reellwertig ist.<br />

Für 4. berechnen wir<br />

Schließlich folgt 5. aus<br />

P[e it(aX+b) ] = e itb P[e i(at)X ] = e itb ψX(at).<br />

P[e it(X+Y ) ] = P[e itX e itY ] = P[e itX ] · P[e itY ] = ψX(t) · ψY (t).<br />

ex:char1 Beispiel 9.10. 1. Die charakteristische Funktion der Binomialverteilung B(n, p) ist gegeben<br />

durch<br />

ψ B(n,p)(t) = (1 − p + pe it ) n .<br />

Nach Definition gilt nämlich<br />

B(n, p)[e it. ] =<br />

n�<br />

k=1<br />

� �<br />

n<br />

p<br />

k<br />

k (1 − p) n−k e itk = (1 − p + pe it ) n .


KAPITEL 9. CHARAKTERISTISCHE FUNKTION 75<br />

2. Die charakteristische Funktion der Normalverteilung N(µ, σ 2 ) ist gegeben durch<br />

ψ N(µ,σ 2 )(t) = e itµ e −σ2 t 2 /2 .<br />

Nach Proposition 9.9.2 genügt es, diese Behauptung für µ = 0, σ2 = 1 nachzurechnen.<br />

Für diesen Fall gilt mittels partieller Integration<br />

d<br />

dt ψN(0,1)(t) = i<br />

�<br />

√ xe<br />

2π<br />

−x2 �<br />

/2 itx i<br />

e dx = √2π e −x2 /2 itx<br />

ite dx = −tψN(0,1)(t).<br />

Diese Differentialgleichung mit ψ N(0,1)(0) = 1 hat die eindeutige Lösung ψ N(0,1)(t) =<br />

e −t2 /2 .<br />

3. Die charakteristische Funktion der Poissonverteilung Poiλ ist gegeben durch<br />

denn<br />

ψPoiλ<br />

ψPoiλ = eλ(eit −1) ,<br />

= e−λ<br />

∞�<br />

n=1<br />

λ n e itn<br />

n! = eλ(eit −1) .<br />

Beispiel 9.11. Sei p1, p2, ... ∈ [0, 1] so, dass n · pn n→∞<br />

−−−→ λ. Dann ist bereits bekannt, dass<br />

B(n, pn) n→∞<br />

===⇒ Poi(λ).<br />

Wir wollen nun sehen, ob auch die charakteristischen Funktionen konvergieren. Wir schreiben<br />

direkt<br />

� � it<br />

ψB(n,pn)(t) = 1 − pn 1 − e ��n �<br />

n · pn � it<br />

= 1 − 1 − e<br />

n<br />

��n n→∞<br />

−−−→ exp � − λ(1 − e it ) � = ψPoi(λ)(t). Wie die punktweise Konvergenz der charakteristischen Funktionen und schwache Konvergenz<br />

zusammenhängen, werden wir näher in Abschnitt 9.4 beleuchten.<br />

9.3 Charakteristische Funktionen und Momente<br />

Proposition 9.12 (Charakteristische Funktion und Momente). Sei X eine Zufallsvariable<br />

mit Werten in R.<br />

1. Ist P[|X| n ] < ∞, so ist ψX n-mal stetig differenzbar, so dass für k = 0, ..., n<br />

2. Ist speziell P[X 2 ] < ∞, so ist<br />

mit ε(t) t→0<br />

−−→ 0.<br />

ψ (k)<br />

X (t) = P[(iX)k e itX ].<br />

ψ (2)<br />

t2<br />

X (t) = 1 + itP[X] −<br />

2 P[X2 ] + ε(t)t 2


KAPITEL 9. CHARAKTERISTISCHE FUNKTION 76<br />

Beweis. 1. Mit |X| n ist auch |X| n ∨ 1 integrierbar. Damit haben alle |X| k eine integrierbare<br />

Majorante und die rechte Seite existiert. Da die Aussage offensichtlich für k = 0 gilt, nehmen<br />

wir an, dass sie für ein k < n gilt. Damit ist, wenn man Ableitung und Integral vertauscht<br />

ψ (k+1)<br />

�<br />

d<br />

X (t) = P<br />

dt (iX)ke itX�<br />

= P[(iX) k+1 e itX ]<br />

und die Behauptung ist gezeigt. Die Stetigkeit der Ableitung folgt mit majorisierter Konvergenz.<br />

2. Für die Abschätzung benötigen wir die Taylorentwicklung von ψX mit Restgliedabschätzung.<br />

Es gilt<br />

e itX = 1 + itX − t2 X 2<br />

2 (cos(θ1tX) + i sin(θ2tX))<br />

mit Zufallszahlen θ1, θ2, so dass |θ1|, |θ2| ≤ 1. Deshalb bekommen wir<br />

ψX(t) = 1 + itP[X] − t2<br />

2 P[X2 ] + ε(t)t 2<br />

mit 2ε(t) = P[X 2 (1 − cos(θ1tX) + i sin(θ2tX))] t→0<br />

−−→ 0 mit majorisierter Konvergenz.<br />

Bemerkung 9.13. Wie in Proposition 9.8 gezeigt, ist die Verteilung einer Zufallsvariable<br />

durch seine charakteristische Funktion eindeutig bestimmt. Man kann auch fragen: unter welchen<br />

Bedingungen ist die Verteilung einer Zufallsvariablen X eindeutig durch die Angabe<br />

aller Momente, P[X], P[X 2 ], ... eindeutig bestimmt. Die Aufgabe, zu einer gegebenen Folge<br />

von Momenten die Verteilung der Zufallsvariablen zu rekonstruieren, heißt auch Momentenproblem.<br />

P:moment Proposition 9.14 (Momentenproblem). Sei X eine Zufallsvariable mit Werten in R und<br />

allen Momenten. Falls<br />

1<br />

α := lim sup<br />

n→∞ n P[|X|n ] 1/n < ∞,<br />

so ist ψX analytisch und die Verteilung von X durch die Angabe der Momente P[X n ] eindeutig<br />

bestimmt. Insbesondere gilt dies, falls P[e t|X| ] < ∞ für ein t > 0.<br />

Beweis. Nach der Stirling-Formel ist<br />

Für |s| < 1/(αe) gilt damit<br />

also<br />

n!<br />

lim<br />

n→∞<br />

1/n<br />

n<br />

� n n<br />

1 > lim sup P[|X| ]|s|<br />

n→∞<br />

�1/n e<br />

n<br />

lim sup<br />

n→∞<br />

n<br />

e = lim<br />

n→∞<br />

(√2π) 1/n<br />

n<br />

= lim sup<br />

n→∞<br />

P[|X| n ]|s| n<br />

n!<br />

= 0.<br />

= 1<br />

e<br />

� P[|X| n ]|s| n<br />

n!<br />

� 1/n<br />

,<br />

Diese Gleichung gilt insbesondere, falls P[e s|X| ] < ∞. Wir verwenden nun die Taylorreihe von<br />

ψX(s) um 0 und Restglied, d.h.<br />

e isX =<br />

n−1 �<br />

k=0<br />

(is) k<br />

k! P[Xk e isX ] + (is)n<br />

n! P[Xn (cos(θ1sX) + i sin(θ2sX)]


S:charWeak<br />

KAPITEL 9. CHARAKTERISTISCHE FUNKTION 77<br />

mit Zufallszahlen θ1, θ2, so dass |θ1|, |θ2| ≤ 1. Damit ist<br />

�<br />

n−1<br />

�<br />

�<br />

�ψX(s) −<br />

k=0<br />

(is) k<br />

k! P[Xke isX �<br />

�<br />

] � ≤ P[|X|n ]|s| n<br />

n!<br />

n→∞<br />

−−−→ 0,<br />

d.h. ψX ist analytisch mit Konvergenzradius 1/(αe). Damit ist sie eindeutig durch die Koeffizienten<br />

der Potenzreihe um t = 0, also die Momente von X, festgelegt.<br />

Beispiel 9.15. 1. Sei X ∼ N(0, 1). Dann ist<br />

P[e tX ] = 1<br />

�<br />

√<br />

2π<br />

e tx e −x2 /2 1<br />

dx = √2π e t2 �<br />

/2<br />

e −(x−t)2 /2 dx = e t 2<br />

/2 < ∞.<br />

Insbesondere ist die Verteilung von X durch Angabe aller Momente eindeutig bestimmt.<br />

In der Tat ist die charakteristische Funktion von N(0, 1) aus Beispiel 9.10 analytisch.<br />

2. Sei X eine log-normalverteilte Zufallsvariable, d.h. X = e Y , wobei Y ∼ N(0, 1). Dann<br />

ist wegen dem Transformationssatz die Dichte von X gegeben durch<br />

Außerdem gilt<br />

f(x) = 1 1<br />

√<br />

2π x exp<br />

�<br />

−<br />

(log<br />

�<br />

x)2<br />

.<br />

2<br />

P[Y n ] = P[e nX ] = ψ N(0,1)(−in) = e n2 /2<br />

1/n n→∞<br />

wegen Beispiel 9.10. Damit ist 1<br />

nP[Xn ] −−−→ ∞, die Voraussetzungen von Proposition<br />

9.14 sind also nicht erfüllt. Wir werden nun Verteilungen angeben, die dieselben<br />

Momente wie X haben. Für α ∈ [−1; 1] ist<br />

0<br />

fα(x) = f(x)(1 − α sin(2π log x)<br />

Dichte einer Wahrscheinlichkeitsverteilung Pα auf R+. Da<br />

� ∞<br />

x n � ∞<br />

y=log x−n 1<br />

f(x) sin(2π log x) = √<br />

2π<br />

−∞<br />

= e n2 /2 P[sin(2πY )] = 0<br />

folgt, dass die Verteilungen Pα dieselben Momente wie X haben.<br />

e yn+n2<br />

e −(y+n)2 /2<br />

sin(2π(y + n))dy<br />

9.4 Der Zusammenhang mit schwacher Konvergenz<br />

Bemerkung 9.16. Seien P, P1, P2, ... ∈ P(Rd ). Wie man aus Proposition 9.3 sieht, folgt die<br />

schwache Konvergenz Pn n→∞<br />

===⇒ P aus der punktweisen Konvergenz der charakteristischen<br />

n→∞<br />

Funktionen, ψPn (t) −−−→ ψP(t), t ∈ Rd , gegeben (Pn)n∈N ist straff. Straffheit der Familie<br />

kann man an ihren charakteristischen Funktionen ablesen, wie wir in Proposition 9.21 zeigen<br />

werden. Dies führt zu der Aussage des Levy’schen Stetigkeitssatzes (Theorem 9.22), der angibt,<br />

wann der punktweise Limes von charakteristischen Funktionen wieder charakteristische<br />

Funktion eines Wahrscheinlichkeitsmaßes ist.


KAPITEL 9. CHARAKTERISTISCHE FUNKTION 78<br />

L:char1 Lemma 9.17. Sei P ∈ P(R). Dann gilt für alle r > 0<br />

P((−∞; −r] ∪ [r; ∞)) ≤ r<br />

2<br />

� 2/r<br />

−2/r<br />

(1 − ψP(t))dt, (9.3)<br />

Beweis. Es ist sin(x)/x ≤ 1 für x ≤ 2 und sin x ≤ x/2 für x ≥ 2. Sei X eine Zufallsvariable<br />

mit Verteilung P. Also gilt für jedes c > 0 nach Fubini<br />

� c<br />

�<br />

(1 − ψP(t))dt = P<br />

� c<br />

(1 − e itX � �<br />

)dt = P 2c − 1<br />

� �<br />

�<br />

c<br />

und die Behauptung folgt mit c = 2/r.<br />

−c<br />

iX eitX<br />

� c<br />

t=−c<br />

�<br />

= 2cP 1 − sin(cX)<br />

�<br />

cX<br />

�<br />

≥ 2cP 1 − sin(cX)<br />

�<br />

; |cX| ≥ 2<br />

cX<br />

≥ c · P{|cX| ≥ 2} = cP((−∞; − 2 2<br />

c ] ∪ [ c ; ∞)),<br />

Definition 9.18 (Gleichgradige Stetigkeit). Wir wiederholen eine Definition aus der Analysis.<br />

Eine Menge M ⊆ C(R d ) heißt in x ∈ R d gleichgradig stetig, falls<br />

sup |f(y) − f(x)|<br />

f∈M<br />

y→x<br />

−−−→ 0.<br />

Bemerkung 9.19. Falls M = {f1, f2, ...}, so ist die Bedingung<br />

äquivalent.<br />

lim sup |fn(y) − fn(x)|<br />

n→∞<br />

y→x<br />

−−−→ 0<br />

L:char2 Lemma 9.20. Seien f1, f2, ... ∈ C(R d ), so dass fn n→∞<br />

−−−→ f für eine Funktion f : R d → R<br />

punktweise gilt. Genau dann ist f in 0 stetig, wenn (fn)n=1,2,... in 0 gleichgradig stetig ist.<br />

Beweis. Ist (fn)n=1,2,... gleichgradig stetig in 0, so folgt<br />

|f(t) − f(0)| = | lim<br />

n→∞ (fn(t) − fn(0))| ≤ lim sup |fn(t) − fn(0)| t→0<br />

−−→ 0.<br />

Ist andersherum f stetig in 0, so gilt<br />

lim sup<br />

n→∞<br />

n→∞<br />

|fn(t)−fn(0)| ≤ lim sup |fn(t)−f(t)|+|f(t)−f(0)|+|f(0)−fn(0) = |f(t)−f(0)|<br />

n→∞<br />

t→0<br />

−−→ 0.<br />

Pr:char4 Proposition 9.21 (Straffheit und gleichgradige Stetigkeit). Sei (Pi)i∈I eine Familie in P(R d ).<br />

Ist (ψPi )i∈I gleichgradig stetig in 0, so ist (Pi)i∈I straff.<br />

Beweis. Es genügt zu zeigen, dass ((πk)∗Pi)i∈I für alle Projektionen π1, ..., πd straff ist. Es<br />

gilt offenbar ψ (πk)∗Pi (t) = ψPi (tek), falls ek der k-te Einheitsvektor ist. Damit genügt es, die<br />

Behauptung im Fall d = 1 zu zeigen. Da ψPi (0) = 1 für alle i ∈ I gilt, folgern wir aus der<br />

gleichgradigen Stetigkeit, dass<br />

t→0<br />

sup |1 − ψPi (t)| −−→ 0,<br />

i∈I


KAPITEL 9. CHARAKTERISTISCHE FUNKTION 79<br />

also, siehe Bemerkung 8.17,<br />

sup inf<br />

r>0 i∈I Pi([−r; r]) ≥ 1 − inf<br />

r>0 sup<br />

Damit ist die Behauptung gezeigt.<br />

r<br />

≥ 1 − inf<br />

r>0 2<br />

≥ 1 − 2 inf<br />

r<br />

2<br />

� 2/r<br />

i∈I −2/r<br />

� 2/r<br />

−2/r<br />

sup<br />

r>0 t∈[0;2/r]<br />

(1 − ψPi (t))dt<br />

sup |1 − ψPi<br />

i∈I<br />

(t)|dt<br />

sup |1 − ψPi (t)| = 1.<br />

i∈I<br />

T:levy Theorem 9.22 (Levy’scher Stetigkeitssatz). Seien P1, P2, ... ∈ P(Rd ) und ψ : Rd → C, so<br />

n→∞<br />

dass ψPn (t) −−−→ ψ(t) für alle t ∈ Rd . Falls ψ stetig in 0 ist, so ist Pn n→∞<br />

===⇒ P für ein<br />

P ∈ P(Rd ) mit ψP = ψ.<br />

Beweis. Da ψPn punktweise gegen die in 0 stetige Funktion ψ konvergieren, folgt mit Lemma<br />

9.20, dass (ψPn )n=1,2,... in 0 gleichgradig stetig ist. Mit Proposition 9.21 folgt, dass (Pn)n=1,2,...<br />

straff ist. Sei (nk)k=1,2,... eine Teilfolge und P ∈ P(Rd k→∞<br />

), so dass Pnk ===⇒ P. Da x ↦→ eitx eine<br />

stetige, beschränkte Funktion ist, folgt ψPn (t)<br />

k k→∞<br />

−−−→ ψP(t) für alle t ∈ Rd . Andererseits<br />

n→∞<br />

ist nach Voraussetzung auch ψPn (t) −−−→ ψ(t), woraus ψP = ψ folgt. Damit ist ψ als charakteristische<br />

Funktion von P identifiziert, und da diese P eindeutig bestimmt, gilt damit<br />

Pn n→∞<br />

===⇒ P.<br />

Beispiel 9.23. Seien Sn ∼ B(n, p). Der Satz von deMoivre-Laplace besagt, dass<br />

S ∗ n := Sn − np<br />

� np(1 − p)<br />

n→∞<br />

===⇒ N(0, 1). (9.4) eq:char4<br />

Wir wollen dies nun nochmal mit Hilfe von charakteristischen Funktionen zeigen, also ψS ∗ n<br />

n→∞<br />

−−−→<br />

ψ N(0,1) punktweise. Dazu verwenden wir Proposition 9.9.4 und schreiben mit q := 1 − p und<br />

C1, C2, ... ∈ C mit lim sup n→∞ |Cn| < ∞<br />

�<br />

np<br />

� �<br />

t<br />

�<br />

· ψB(n,p) √npq<br />

q<br />

� �<br />

np<br />

�� �<br />

it<br />

��n = exp − it q + p exp √npq<br />

q<br />

� � �<br />

p<br />

� � �<br />

q<br />

��n = q exp − it + p exp it<br />

nq<br />

np<br />

� � �<br />

p t2 p q q Cn<br />

= 1 − qit − q + pit − pt2 +<br />

nq 2 nq np 2 np n3/2 �n �<br />

= 1 − t2 1 Cn<br />

+<br />

2 n n3/2 �n n→∞ t2<br />

−<br />

−−−→ e 2 = ψN(0,1)(t). ψS∗ �<br />

(t) = exp − it<br />

n<br />

Aus Theorem 9.22 folgt nun (9.4).


Kap:ZGS<br />

S:poi<br />

Kapitel 10<br />

Schwache Grenzwertsätze<br />

Wir werden nun unsere Kenntnisse über schwache Konvergenz und charakteristische Funktionen<br />

in speziellen Situationen einsetzen. In Abschnitt 10.1 geht es um Aussagen, wann die<br />

Summe von Zufallsvariablen gegen eine Poissonverteilte Zufallsvariable konvergieren. In Abschnitt<br />

10.2 werden wir den zentralen Grenzwertsatz von Lindeberg-Feller kennenlernen, der<br />

eine Charakterisierung für die schwache Konvergenz gegen eine Normalverteilung darstellt.<br />

In Abschnitt 10.3 geht es schließlich um Erweiterungen für den Fall von mehrdimensionalen<br />

Zufallsvariablen.<br />

10.1 Poisson-Konvergenz<br />

Bereits bekannt ist die Aussage, dass B(n, pn) für n·pn n→∞<br />

−−−→ λ für große n schwach gegen die<br />

Poi(λ)-Verteilung konvergiert. In diesem Abschnitt verallgemeinern wir diese Aussage, siehe<br />

Theorem 10.4.<br />

Definition 10.1. 1. Eine triagonale Familie von Zufallsvariablen {Xnj : n = 1, 2, ..., n, j =<br />

1, ..., mn} mit m1, m2, ... ∈ N ist asymptotisch vernachlässigbar falls für n = 1, 2, ... die<br />

Zufallsvariablen Xn1, ..., Xn,mn unabhängig sind und<br />

sup P[|Xnj| > ε]<br />

j=1,...,mn<br />

n→∞<br />

−−−→ 0 (10.1) eq:asVern<br />

für alle ε > 0. Falls Xij ≥ 0 für alle i, j, so ist auch mn = ∞ zugelassen.<br />

2. Für eine Zufallsvariable X mit Werten in Z+ ist die Erzeugendenfunktion der Verteilung<br />

von X gegeben durch<br />

ϕX(z) := P[z X ∞�<br />

] = z k P[X = k].<br />

rem:Poi1 Bemerkung 10.2. 1. Für eine triagonale Familie von Zufallsvariablen {Xnj : n =<br />

1, 2, ..., n, j = 1, ..., mn} gilt (10.1) genau dann, wenn<br />

k=0<br />

sup E[|Xnj ∧ 1]<br />

j=1,...,mn<br />

n→∞<br />

−−−→ 0.<br />

80


KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 81<br />

2. Auf Z+ erfüllt die Menge der Funktionen {k ↦→ z k : k ∈ Z+} die Voraussetzungen von<br />

Theorem 9.6. Also bestimmt die Erzeugendenfunktion die Verteilung einer Zufallsvariablen<br />

eindeutig. Weiter gilt die Aussage des Levy’schen Stetigkeitssatzes, Theorem 9.22,<br />

falls man statt charakteristischen Funktionen die Erzeugendenfunktionen einsetzt.<br />

l:wC1 Lemma 10.3. Sei M = {Xnj : n = 1, 2, ..., n, j = 1, ..., mn} eine triagonale Familie von<br />

Zufallsvariablen. Weiter sei ϕnj := ϕXn,j , n = 1, 2, ..., j = 1, ..., mn. Dann gilt (10.1) genau<br />

dann, falls für alle t ∈ R<br />

sup |1 − ϕnj(t)|<br />

j=1,...,mn<br />

n→∞<br />

−−−→ 0. (10.2) eq:poi1<br />

Beweis. Die Familie erfüllt (10.1) genau dann, falls Xn,jn −−−→p 0 für alle Folgen j1, j2, ....<br />

n→∞<br />

Wegen Proposition 8.4 gilt dies genau dann, wenn Xn,jn ===⇒ 0 für alle Folgen. Dies ist<br />

jedoch äquivalent zu (10.2).<br />

T:poi Theorem 10.4 (Poisson Konvergenz). Sei {Xnj : n = 1, 2, ..., n, j = 1, ..., mn} eine Familie<br />

asymptotisch vernachlässigbarer Zufallsvariablen mit Werten in Z+ und X ∼ Poi(λ). Dann<br />

gilt<br />

genau dann, wenn gilt:<br />

1.<br />

2.<br />

mn �<br />

P{Xnj > 1} n→∞<br />

−−−→ 0<br />

j=1<br />

mn �<br />

P{Xnj = 1} n→∞<br />

−−−→ λ.<br />

j=1<br />

mn �<br />

j=1<br />

Wir bereiten den Beweis mit einem Lemma vor.<br />

Xnj n→∞<br />

===⇒ X<br />

l:wC2 Lemma 10.5. Sei {λnj : n = 1, 2, ..., j = 1, ..., mn} eine triagonale Familie asymptosisch<br />

vernachlässigbarer, nicht-negativer Konstanten und λ ∈ [0; ∞]. Dann gilt<br />

mn �<br />

(1 − λnj) n→∞<br />

−−−→ e −λ<br />

j=1<br />

⇐⇒<br />

mn �<br />

j=1<br />

n→∞<br />

λnj n→∞<br />

−−−→ λ.<br />

Beweis. Zunächst sei bemerkt, dass log(1 − x) = −x + ε(x) für x > 0 mit ε(x)/x x→0<br />

−−−→ 0. Da<br />

sup j=1,...,mn λnj < 1 für große n, ist die linke Aussage äquivalent zu<br />

da<br />

mn<br />

mn<br />

�<br />

�<br />

−λ = lim log(1 − λnj) = − lim<br />

n→∞<br />

j=1<br />

Daraus folgt die Aussage.<br />

λnj<br />

n→∞<br />

j=1<br />

ε(λnj)<br />

sup λnj<br />

j=1,...,mn<br />

� ε(λnj) � �<br />

1 − = − lim<br />

n→∞<br />

−−−→ 0.<br />

λnj<br />

mn<br />

λnj,<br />

n→∞<br />

j=1


KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 82<br />

Beweis von Theorem 10.4. Wir bezeichnen mit ϕn,j die Erzeugendenfunktion von Xn,j. Nach<br />

dem Levyschen Stetigkeitssatz, Theorem 9.22, (und Bemerkung 10.2.2) ist die Konvergenz-<br />

aussage der schwachen Konvergenz im Theorem äquivalent zur punktweisen Konvergenz von<br />

n→∞<br />

ϕnj(s) −−−→ e−λ(1−s) . Wegen Lemma 10.3 und 10.5 gilt dies genau dann, wenn<br />

� mn<br />

j=1<br />

mn �<br />

An(s) := (1 − ϕnj) n→∞<br />

−−−→ λ(1 − s). (10.3) eq:poi4<br />

j=1<br />

Wir zerlegen A(s) = A 1 n(s) + A 2 n(s) mit<br />

A 1 n(s) =<br />

A 2 n(s) =<br />

∞� mn<br />

mn<br />

�<br />

�<br />

(1 − s) P{Xnj = k} = (1 − s) P{Xnj > 0},<br />

k=1<br />

j=1<br />

∞�<br />

(s − s k mn �<br />

) P{Xnj = k}.<br />

k=2<br />

j=1<br />

Zunächst sei festgestellt, dass s(1 − s) ≤ s − s k ≤ s für alle k = 2, 3, .... Damit ist<br />

j=1<br />

mn �<br />

s(1 − s) P{Xnj > 1} ≤ A 2 mn �<br />

n(s) ≤ s P{Xnj > 1}. (10.4) eq:Poi5<br />

j=1<br />

Wenden wir uns nun dem Beweis der Behauptung zu.<br />

’⇒’: Gilt nun (10.3). Für s = 0 bedeutet das<br />

j=1<br />

mn<br />

mn<br />

�<br />

�<br />

P{Xnj > 0} = (1 − ϕnj(0)) n→∞<br />

−−−→ λ,<br />

j=1<br />

j=1<br />

also A1 n(s) n→∞<br />

−−−→ λ(1−s). Dann muss aber auch A2 n(s) n→∞<br />

−−−→ 0 gelten. Wegen (10.4) bedeutet<br />

dies, dass 1. gilt. Die Aussage 2. folgt daraus durch Subtraktion.<br />

’⇐’: Klar ist, dass A2 n(s) n→∞<br />

−−−→ 0 wegen (10.4). Dann gilt aber auch A1 n(s) n→∞<br />

−−−→ (1 − s)λ<br />

wegen der Voraussetzung, d.h. (10.3) ist gezeigt.<br />

Beispiel 10.6. Sei Xnj geometrisch verteilt mit Parameter pn (d.h. P{Xnj = k} = (1 −<br />

pn) kpn) und j = 1, ..., n. Damit ist Xn := �n j=1 Xnj negativ binomialverteilt mit Parametern<br />

n und pn. Falls X ∼ Poi(λ) und (1 − pn) · n n→∞<br />

−−−→ λ, so ist Xn n→∞<br />

===⇒ X. Denn es gilt<br />

n�<br />

j=1<br />

n�<br />

j=1<br />

und Theorem 10.4 liefert das Ergebnis.<br />

P{Xnj = 1} = n(1 − pn)pn n→∞<br />

−−−→ λ,<br />

P{Xnj > 1} = n(1 − pn) 2 n→∞<br />

−−−→ 0


S:ZGS<br />

KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 83<br />

10.2 Der zentrale Grenzwertsatz<br />

Der zentrale Grenzwertsatz, Theorem 10.7, verallgemeinert den Satz von deMoivre Laplace.<br />

Die Verallgemeinerung besteht darin, dass beliebige Summen unabhängiger (nicht notwendig<br />

identisch verteilter) Zufallsgrößen schwach gegen eine normalverteilte Zufallsgröße konvergieren,<br />

falls sie die Lindeberg-Bedingung (siehe 2. in Theorem 10.7) erfüllen.<br />

T:ZGS Theorem 10.7 (Zentraler Grenzwertsatz von Lindeberg-Feller). Sei {Xnj : n = 1, 2, ..., j =<br />

1, ..., mn} eine Familie von Zufallsvariablen, so dass für n = 1, 2, ... die Zufallsvariablen<br />

Xn1, ..., Xnmn unabhängig sind. Sei außerdem<br />

mn �<br />

E[Xnj] n→∞<br />

−−−→ µ,<br />

j=1<br />

mn �<br />

V[Xnj] n→∞<br />

−−−→ σ 2<br />

j=1<br />

und X ∼ N(µ, σ 2 ). Dann sind folgende Aussagen äquivalent:<br />

1.<br />

2.<br />

mn �<br />

Xnj n→∞<br />

===⇒ X und sup V[Xnj]<br />

j=1,...,mn<br />

n→∞<br />

−−−→ 0,<br />

j=1<br />

mn �<br />

E[(Xnj − E[Xnj]) 2 ; |Xnj − E[Xnj]| > ε] n→∞<br />

−−−→ 0 für alle ε > 0.<br />

j=1<br />

Korollar 10.8. Seien X1, X2, ... unabhängig und identisch verteilt mit E[X1] = µ, V[X1] =<br />

σ 2 > 0. Sei Sn := � n<br />

k=1 Xk und X ∼ N(0, 1). Dann gilt<br />

Sn − nµ<br />

√ nσ 2<br />

n→∞<br />

===⇒ X.<br />

Beweis. Sei mn = n und Xnj = Xn−µ<br />

√ nσ 2 . Dann erfüllt die Familie {Xnj, n = 1, 2, ..., j = 1, ..., n}<br />

die Voraussetzungen von Theorem 10.7 mit µ = 0, σ 2 = 1. Außerdem gilt<br />

n�<br />

j=1<br />

wegen majorisierter Konvergenz.<br />

E[X 2 nj; |Xnj| > ε] = 1<br />

σ 2 E[(X1 − µ) 2 ; |Xn − µ| > ε √ nσ 2 ] n→∞<br />

−−−→ 0<br />

Bemerkung 10.9. Die Familie {Xnj : n = 1, 2, ..., j = 1, ..., mn} aus Theorem 10.7 genügt<br />

der Lyapunoff-Bedingung, falls für ein δ > 0<br />

mn �<br />

E � |Xnj − E[Xnj]| 2+δ� n→∞<br />

−−−→ 0.<br />

j=1<br />

Unter den Voraussetzungen von Theorem 10.7 impliziert die Lyapunoff-Bedingung die Lindeberg-<br />

Bedingung. Um dies zu sehen, sei Œ E[Xnj] = 0. Es gilt für alle ε ′ > 0<br />

x 2 1 {|x|>ε ′ } ≤ |x|2+δ<br />

(ε ′ ) δ 1 {|x|>ε ′ } ≤ |x|2+δ<br />

(ε ′ .<br />

) δ


KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 84<br />

Gilt nun die Lyapunpff-Bedingung, so folgt die Lindeberg-Bedingung mit ε ′ ��mn = ε j=1 V[Xnj]<br />

aus<br />

�<br />

mn<br />

E[X 2 nj; |Xnj| > ε ′ ] ≤ ε −δ<br />

j=1<br />

� mn<br />

j=1 E[|Xnj| 2+δ ]<br />

� � mn<br />

j=1 V[Xnj] � δ/2<br />

da �mn n→∞<br />

j=1 V[Xnj] −−−→ σ2 nach Voraussetzung in Theorem 10.7.<br />

n→∞<br />

−−−→ 0,<br />

Der Beweis von Theorem 10.7 basiert auf der geschickten Verwendung der charakteristischen<br />

Funktionen der Zufallsvariable Xnj. Wir bereiten den Beweis des Theorems mit zwei Lemmata<br />

vor.<br />

L:ZGS1 Lemma 10.10. Für komplexe Zahlen z1, ..., zn, z ′ 1 , ..., z′ n mit |zi| ≤ 1, |z ′ i | ≤ 1 für i = 1, ..., n<br />

gilt<br />

�<br />

�<br />

�<br />

n�<br />

k=1<br />

zk −<br />

n�<br />

k=1<br />

z ′ k<br />

�<br />

�<br />

� ≤<br />

n�<br />

k=1<br />

|zk − z ′ k |. (10.5) eq:ZGS1<br />

Beweis. Für n = 1 ist die Gleichung offensichtlich richtig. Gilt (10.5) für ein n, so ist<br />

�<br />

�<br />

�<br />

n+1 �<br />

k=1<br />

�<br />

n+1<br />

zk −<br />

k=1<br />

z ′ k<br />

Daraus folgt die Behauptung.<br />

� � �<br />

� �<br />

�n<br />

� ≤ �zn+1<br />

≤<br />

n�<br />

k=1<br />

k=1<br />

zk −<br />

n�<br />

k=1<br />

z ′ k<br />

|zk − z ′ k | + |zn+1 − z ′ n+1|.<br />

�� �<br />

�� �<br />

+ �(zn+1 − z ′ n�<br />

n+1)<br />

L:ZGS2 Lemma 10.11 (Taylor-Approximation). Sei t ∈ C und n ∈ Z+. Dann gilt<br />

�<br />

�<br />

�e it −<br />

n� (it) k �<br />

�<br />

� ≤<br />

k!<br />

2|t|n<br />

n!<br />

k=0<br />

k=1<br />

z ′ k<br />

|t|n+1<br />

∧ . (10.6) eq:ZGS2<br />

(n + 1)!<br />

Beweis. Bezeichne hn(t) die Differenz auf der linken Seite. Für n = 0 folgt (10.6) aus<br />

und<br />

Allgemein gilt für t ∈ R, n ∈ N<br />

�<br />

�<br />

�<br />

� t<br />

0<br />

�<br />

�<br />

|h0(t)| = �<br />

� t<br />

� �<br />

� �<br />

hn(s)ds�<br />

= � − i(e it − 1) + i<br />

woraus (10.6) mittels Induktion folgt.<br />

0<br />

e is �<br />

�<br />

ds�<br />

≤<br />

� t<br />

|h0(t)| ≤ |e it | + 1 = 2.<br />

k=0<br />

0<br />

|e is |ds = |t|<br />

n� (it) k+1 � �<br />

� �<br />

� = �ie<br />

(k + 1)!<br />

it n+1 � (it)<br />

− i<br />

k �<br />

�<br />

� = |hn+1(t)|,<br />

k!<br />

Bemerkung 10.12. Im folgenden Beweis werden wir für Funktionen a und b genau dann<br />

a � b schreiben, falls es eine Konstante C gibt mit a ≤ Cb.<br />

k=0<br />

�<br />

�<br />


KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 85<br />

Beweis von Theorem 10.7. Œ sei E[Xnj] = µ = 0 und σ 2 = 1; ansonsten ersetzen wir Xnj<br />

durch Xnj−E[Xnj]<br />

√ σ 2<br />

. Sei σ 2 nj := V[Xnj] sowie σ 2 n := � mn<br />

j=1 σ2 nj<br />

die charakteristische Funktion von Xnj.<br />

2. ⇒ 1. Da für jedes ε > 0<br />

j=1<br />

n→∞<br />

−−−→ 1. Bezeichne außerdem ψnj<br />

sup σ<br />

j=1,...,mn<br />

2 nj ≤ ε 2 + sup E[X<br />

j=1,...,mn<br />

2 nj; |Xnj| > ε] ≤ ε 2 mn �<br />

+ E[X 2 nj; |Xnj| > ε] n→∞<br />

−−−→ ε 2 , (10.7) eq:zTv1<br />

ist der zweite Teil von 1. bereits gezeigt.<br />

Seien (Znj)n=1,2,...,j=1,...,mn unabhängige Zufallsvariablen mit Znj ∼ N(0, σ2 nj ). Damit ist<br />

Zn := �mn j=1 Znj ∼ N(0, σ2 n). Insbesondere gilt also Zn n→∞<br />

===⇒ X. Sei � ψnj die charakteristische<br />

Funktion von Znj. Dann genügt es zu zeigen, siehe Theorem 9.22, dass<br />

nj �<br />

j=1<br />

ψnj(t) −<br />

mn �<br />

j=1<br />

für alle t. Mittels Lemma 10.10 und 10.11 haben wir<br />

� mn<br />

�<br />

�<br />

� ψnj(t) −<br />

j=1<br />

Weiter ist<br />

und<br />

mn �<br />

j=1<br />

� mn<br />

�ψnj(t)<br />

�<br />

�<br />

� ≤ |ψnj(t) − � ψnj(t)|<br />

j=1<br />

j=1<br />

�ψnj(t) n→∞<br />

−−−→ 0 (10.8) eq:ZGS4<br />

mn �<br />

≤ |ψnj(t) − 1 + 1<br />

2t2σ 2 mn �<br />

nj| + | � ψnj(t) − 1 + 1<br />

2t2σ 2 nj|<br />

j=1<br />

mn �<br />

E[X 2 mn �<br />

nj(1 ∧ |Xnj|)] ≤ ε<br />

j=1<br />

j=1<br />

j=1<br />

j=1<br />

mn �<br />

� 2 E[X 2 mn � 1<br />

−<br />

nj(1 ∧ |Xnj|) + |e 2 σ2 njt2 − 1 + 1<br />

2t2σ 2 nj|.<br />

j=1<br />

�<br />

σ 2 mn<br />

nj +<br />

j=1<br />

mn � 1<br />

−<br />

|e 2 σ2 njt2 − 1 + 1<br />

2t2σ 2 mn �<br />

nj| � σ 4 nj ≤ σ 2 n<br />

j=1<br />

E[X 2 nj; |Xnj| > ε] n→∞<br />

−−−→ ε<br />

sup σ<br />

j=1,...,mn<br />

2 nj<br />

n→∞<br />

−−−→ 0<br />

wegen (10.7). Damit ist (10.8) bereits bewiesen.<br />

1. ⇒ 2. Nach dem zweiten Teil von 1. ist für jedes ε > 0 mit der Tschebyscheff’schen Ungleichung<br />

Mit Lemma 10.11 gilt<br />

σ<br />

sup P[|Xnj| > ε] ≤ sup<br />

j=1,...,mn<br />

j=1,...,mn<br />

2 nj<br />

ε2 n→∞<br />

−−−→ 0. (10.9) eq:ZGS3a<br />

sup |ψnj(t) − 1| ≤ sup E[2 ∧ |t · Xnj|] ≤ 2 sup P[|Xnj| > ε] + ε|t|<br />

j=1,...,mn<br />

j=1,...,mn<br />

j=1,...,mn<br />

n→∞<br />

−−−→ ε|t|.


KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 86<br />

Insbesondere ist � mn<br />

j=1 log ψnj(t) für jedes t definiert, falls n groß genug ist. Aus der Gültigkeit<br />

von 1. folgt<br />

mn �<br />

log ψnj(t) n→∞<br />

−−−→ − t2<br />

. (10.10) eq:ZGS5<br />

2<br />

j=1<br />

Außerdem gilt wegen ψ ′ nj (0) = iE[Xnj] = 0, ψ ′′<br />

Taylorentwicklung von ψnj um 0<br />

und<br />

|ψnj(t) − 1| � σ 2 nj|t| 2<br />

� mn<br />

mn<br />

�<br />

�<br />

�<br />

� mn<br />

�<br />

�<br />

� log ψnj(t) − (ψnj(t) − 1) � � |ψnj(t) − 1| 2<br />

j=1<br />

j=1<br />

j=1<br />

mn �<br />

� (σ 2 nj) 2 |t| 4 � |t| 4<br />

j=1<br />

nj (0) = −V[Xnj] = −σ 2 nj<br />

sup σ<br />

j=1,...,mn<br />

2 nj<br />

n→∞<br />

−−−→ 0.<br />

mit Hilfe einer<br />

Da aus der Konvergenz einer imaginären Reihe die Konvergenz ihres Realteils folgt, folgern<br />

wir aus (10.10) und (10.11) wegen Re(ψnj(t)) = E[cos(tXnj)]<br />

Für ε > 0 ist nun<br />

Aus 0 ≤ 1 − cos(θ) ≤ θ2<br />

2<br />

0 ≤ lim sup<br />

n→∞<br />

mn �<br />

j=1<br />

lim sup<br />

n→∞<br />

mn �<br />

E[cos(tXnj) − 1] n→∞<br />

−−−→ − t2<br />

2<br />

j=1<br />

�<br />

�<br />

� t2<br />

2 −<br />

mn �<br />

�<br />

�<br />

E[1 − cos(tXnj); |Xnj| ≤ ε] �<br />

folgt nun<br />

j=1<br />

= lim sup<br />

n→∞<br />

� lim sup<br />

n→∞<br />

≤ 1<br />

ε 2<br />

mn �<br />

j=1<br />

mn �<br />

E[1 − cos(tXnj); |Xnj| > ε]<br />

j=1<br />

mn �<br />

P[|Xnj| > ε]<br />

j=1<br />

σnj = 1<br />

.<br />

ε2 E[X 2 nj; |Xnj| > ε] = lim inf<br />

n→∞<br />

≤ lim sup<br />

n→∞<br />

≤ 1<br />

ε2 ,<br />

t2 mn �<br />

1 − E[X 2 nj; |Xnj| ≤ ε]<br />

j=1<br />

1 − 2<br />

t 2<br />

nach (10.12). Da t, ε > 0 willkürlich waren, ist 2. gezeigt.<br />

mn �<br />

E[1 − cos(tXnj); |Xnj| ≤ ε]<br />

j=1<br />

(10.11) eq:ZGS6<br />

(10.12) eq:ZGS4a


S:multi<br />

KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 87<br />

10.3 Mehrdimensionale Grenzwertsätze<br />

Bisher haben wir schwache Grenzwertsätze nur für den Fall R–wertiger Zufallsvaraiblen betrachtet.<br />

Wir verallgmeinern dies nun zu R d –wertigen Zufallsgrößen. Insbesondere geben wir<br />

eine Variante des mehrdimensionalen zentralen Grenzwertsatzes an.<br />

def:mdN Definition 10.13. Seien µ ∈ Rd und C ∈ Rd×d eine strikt positiv definite symmetrische<br />

Matrix (d.h. xCx > 0 alle x ∈ Rd ). Die d-dimensionale Normalverteilung mit Erwartungswert<br />

µ und Covarianzmatric C ist das Wahrscheinlichkeitsmaß Nµ,C auf Rd mit Dichte<br />

1<br />

�<br />

fµ,C(x) = � exp −<br />

(2π) d det(C) 1<br />

2 (x − µ)C−1 �<br />

(x − µ) .<br />

Proposition 10.14. Seien µ ∈ R d , C = AA T ∈ R d×d eine strikt positiv definite symmetrische<br />

Matrix und I die d-dimensionale Einheitsmatrix. Ist X ∼ Nµ,C, so gilt<br />

1. X d = AY + µ für Y ∼ N0,I<br />

2. E[Xi] = µi für i = 1, ..., d<br />

3. COV[Xi, Xj] = Cij für i, j = 1, ..., d<br />

Außerdem sind äquivalent:<br />

4. X ∼ Nµ,C<br />

5. tX ∼ NtX,tCt für jedes t ∈ R d<br />

6. ψX(t) = eitµ 1<br />

−<br />

e 2 tCt für jedes t ∈ Rd .<br />

Beweis. 1. ist eine Anwendung des Transformationssatzes. Für B ∈ B(Rd ) und T : y ↦→ Ay+µ<br />

ist<br />

N0,I(T −1 �<br />

1<br />

(B)) = �<br />

(2π) d<br />

T −1 1<br />

−<br />

e 2<br />

(B)<br />

yy dy<br />

y=A−1 �<br />

(x−µ) 1 1<br />

= � exp<br />

(2π) d det A B<br />

� − 1<br />

2 (x − µ)(AT ) −1 A −1 (x − µ) � dx<br />

�<br />

1<br />

= � exp<br />

(2π) d det C B<br />

� − 1<br />

2 (x − µ)C−1 (x − µ) � dx<br />

2. folgt aus 1. mit<br />

= Nµ,C(B).<br />

E[Xi] = E[πi(AY + µ)] = πiµ = µi,<br />

wobei πi die Projektion auf die i-te Koordinate ist.<br />

3. folgt ebenso aus 1. mit<br />

COV[Xi, Xj] = E[(πiAY )(πjAY )] = E[(Ai·Y )(Aj·Y )] = E[Ai·Y Y Aj·] = Ai·Aj· = (AA T )ij = Cij.<br />

’4. ⇒ 5.’: Da X d = AY + µ wie in 1., ist tX = tAY + tµ als Linearkombination von Normalverteilungen<br />

wieder normalverteilt. Der Erwartungswert ist offenbar tµ und die Varianz<br />

V[tX] = E[(tAY ) 2 ] = E[tAY Y A T t] = tAA T t = tCt.


KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 88<br />

’5. ⇒ 6.’: Da tX ∼ Ntµ,tCt, folgt die Aussage aus Beispiel 9.10.2.<br />

’6. ⇒ 4.’: Dies folgt aus Proposition 9.8.<br />

Bemerkung 10.15. Falls C in Definition 10.13 zwar positiv, aber nicht strikt positiv definit<br />

ist (d.h. es gibt x ∈ R d , x �= 0 mit xCx = 0), kann man Nµ,C nicht durch Angabe der<br />

Dichte wie in obiger Definition bestimmen. In diesem Fall definiert man Nµ,C durch Angabe<br />

der charakteristischen Funktion, d.h. Nµ,C ist die eindeutig bestimmte Verteilung auf R d mit<br />

ψNµ,C (t) = eitµ 1<br />

−<br />

e 2 tCt .<br />

Pr:cwd Proposition 10.16 (Cramer-Wold Device). Sind X, X1, X2, ... Zufallsvariablen mit Werten<br />

in Rd . Dann gilt Xn n→∞<br />

===⇒ X genau dann, falls tXn n→∞<br />

===⇒ tX für alle t ∈ Rd .<br />

Beweis. ’⇒’: Sei t ∈ Rd und f ∈ Cb(R). Dann ist f(t·) ∈ Cb(Rd ). Damit gilt E[f(tXn)] n→∞<br />

−−−→<br />

E[f(tX)], d.h. tXn n→∞<br />

===⇒ tX.<br />

’⇐’: Sei πi die Projektion auf die i-te Koordinate. Da (πiXn)n=1,2,... nach Korollar 8.20 straff<br />

für alle i ist, sieht man, dass (Xn)n=1,2,... straff ist. Da {x ↦→ eitx : t ∈ Rd } eine separierende<br />

Funktionenklasse ist, folgt die Behauptung aus E[eitXn ] n→∞<br />

−−−→ E[eitX ] für alle t ∈ Rd und<br />

Proposition 9.3.<br />

Theorem 10.17 (Mehrdimensionaler zentraler Grenzwertsatz). Seien X1, X2, ... unabhängige,<br />

identische verteilte Zufallsvariablen mit Werten in R d mit E[Xn] = µ ∈ R d und<br />

COV[Xn,i, Xn,j] = Cij für i, j = 1, ..., d und Sn = � n<br />

i=1 Xi. ist X ∼ N0,C, so gilt<br />

Sn − nµ<br />

√ n<br />

n→∞<br />

===⇒ X.<br />

Beweis. Wir wenden den eindimensionalen zentralen Grenzwertsatz auf die unabhängigen,<br />

identisch verteilten Zufallsvariablen tX1, tX2, ... an. Dieser liefert<br />

t Sn − nµ<br />

√ n<br />

n→∞<br />

===⇒ tX.<br />

Da t beliebig war, folgt die Aussage aus Proposition 10.16.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!